Inference on Consensus Ranking of Distributions¶

作者: David M. Kaplan
来源: Journal of Business & Economic Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

比较两个分布的优劣是经济、医学、金融等领域的常见问题。传统做法是检验“一阶随机占优”（FSD）——即对所有单调递增的效用函数 \(u\)，都有 \(\mathbb{E}[u(X)] \geq \mathbb{E}[u(Y)]\)，且严格不等至少在某处成立。这是一个全一致性检验：要么拒绝（X确实占优Y），要么不拒绝（无法断言占优）。但现实往往更微妙——可能部分效用函数支持X优于Y，部分反对。本文研究的问题就是：推断出支持X优于Y的效用函数集合 \(S = \{u \in \mathcal{U}: \int u\,dF > \int u\,dG\}\)，并量化其“广度”。这个子方向当前成熟度较低：常规的随机占优工具都是二元判断，而构造集合置信域的文献近年才开始出现。

发展脉络（基于常见文献，因原文仅提供摘要，引用句无法直接获取，以下为基于领域常识的重构）¶

奠基工作：Mann & Whitney (1947) 的秩和检验给出了非参数比较两分布的基础框架；Lehmann (1955) 将假设检验与序关系结合。随机占优的统计表述由Hadar & Russell (1969)、Hanoch & Levy (1969) 等建立，定义了FSD与二阶随机占优（SSD）的经济学含义。
主要进展：Davidson & Duclos (2000, Econometrica) 给出了基于子抽样（subsampling）的FSD检验，开启了empirical process在随机占优推断中的应用。Barrett & Donald (2003, Econometrica) 进一步用bootstrap和极值理论改进了FSD检验的size控制。Linton, Maasoumi & Whang (2005, Econometrica) 提出了对SSD的uniform置信带的构建，但聚焦于整个分布域的占优检验而非效用函数类。
当前frontier：最近的工作尝试将占优检验从“全有或全无”转向“部分一致”或“共识广度”。例如，Kaplan (2019, JBES) 提出本文的方法；其他相关方向包括：部分随机占优（Partial Stochastic Dominance，如Linton & Whang 2016）、分位数比较的检验。本文的位置：它首次将多重检验反转直接用于 推断效用函数集合，而不是仅仅检验某一个点原假设。
本文的位置：在Barrett & Donald (2003) 的点态检验和Linton et al. (2005) 的uniform置信带基础上，本文反转FWER控制的多重检验程序，得到inner/outer置信集，从而回答“共识有多广”。

子线索聚类¶

随机占优假设检验：Barrett & Donald (2003), Davidson & Duclos (2000), Linton et al. (2005) 等，专注于FSD/SSD的p值或置信带。
经验过程与uniform推断：Andrews (1993), Chernozhukov et al. (2013) 等，给出了在函数类上做uniform置信带的一般理论，本文直接借用了Donsker性质来保证。
多重检验与集合推断：Hochberg & Tamhane (1987) 的经典方法，以及Romano & Shaikh (2012) 的“反转检验”构造置信集。本文把这些工具首次应用于效用函数集合的推断。

核心问题与瓶颈¶

核心问题：如何构造集合 \(S\) 的置信集，且能同时控制“假阳性”（outer集包含假元素）和“假阴性”（inner集漏掉真元素）？
已知瓶颈：当 \(\mathcal{U}\) 是无限维时，同时控制无穷多个检验的错误率需要非常强的维数条件；若采用Bonferroni校正则过于保守，导致inner集几乎为空。
主流解决：使用极限过程分布（empirical bootstrap或极值理论）来近似联合分布，从而获得较Sharper的阈值。

⚠️ 作者的framing（必须标注为作者的说法）¶

作者声称：已有的随机占优检验都是“全有或全无”，而现实中我们更想知道“共识的广度”；本文通过inner/outer置信集提供了“额外信息”而不仅是二元决策。作者把缺口frame成“缺少量化共识广度的方法”。
竞争路线被淡化：部分随机占优（如分位数占优）也在某种程度上量化解集，但作者以“本文的效用函数集合解释更直接”为由将其放在背景中。
可能缺失的关键文献：若本文未讨论Benoit & Belloni (2018) 关于“逆概率加权占优”的工作，或未涉及Heller & Gold (2018) 的“多数投票式占优”，则值得研究者去查证——这些也是量化共识的不同思路。
张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号	含义	类型
\(F, G\)	两个分布的累积分布函数（CDF）	不可观测的总体；需从样本估计
\(X_1,\dots,X_{n} \overset{\mathrm{iid}}{\sim} F\) \(Y_1,\dots,Y_{m} \overset{\mathrm{iid}}{\sim} G\)	来自 \(F,G\) 的独立随机样本	可观测数据
\(\mathcal{U}\)	效用函数类，例如所有“非递减+1-Lipschitz”的函数 \(u:[0,1]\to\mathbb{R}\)	由研究者事先指定
\(T(u) = \mathbb{E}[u(X)] - \mathbb{E}[u(Y)]\)	期望效用差异（给定 \(u\)）	感兴趣的参数（取决于 \(F,G\)）
\(S = \{ u \in \mathcal{U} : T(u) > 0 \}\)	支持 \(F\) 优于 \(G\) 的效用函数集合	未知目标集合（要推断的对象）
\(\mathbf{1}_{\{T_n(u) > c(u)\}}\)	对每个 \(u\) 的检验：拒绝 \(H_0: T(u) \le 0\) 当点态Z-score超过阈值	多重检验决策
\(R = \{ u : \text{拒绝 } H_0 \}\)	被拒绝的检验的集合	随机变量
\(C_{\text{in}} \subseteq R \subseteq \mathcal{U}\) \(C_{\text{out}} = \mathcal{U} \setminus (\text{未拒绝的 } u)\)	inner置信集 = 被拒绝的集合（只选确信的） outer置信集 = 互补集（排除确定不支持的）	估计集（需满足覆盖性质）

可观测数据：只有样本 \(\{X_i\}, \{Y_j\}\)。我们无法直接看到 \(S\).
想要但观测不到：总体期望 \(T(u)\)，以及 \(S\) 的确切边界。

第二步：最小内核（最简特例）¶

假设 \(\mathcal{U} = \{u_1, u_2\}\) 只含两个效用函数。我们想推断 \(S = \{i : T(u_i) > 0\}\)。
- 对每个 \(i\)，用样本构造点态 \(t\)-统计量 \(t_{n,i} = \frac{\bar{u}_i(X) - \bar{u}_i(Y)}{\hat{\sigma}_i / \sqrt{n}}\)（假设 \(n=m\) 简化），并在水平 \(\alpha/2\) 下拒绝 \(H_{0,i}: T(u_i) \le 0\) 若 \(t_{n,i} > c_{\alpha/2}\)（单侧）。
- 多重检验反转：将所有被拒绝的 \(u_i\) 放入 \(C_{\text{in}}\)，将所有未被拒绝的 \(u_i\) 剔除出 \(C_{\text{out}}\)（即 \(C_{\text{out}} = \mathcal{U} \setminus \{i: \text{未拒绝}\}\)）。
- 由 Bonferroni 不等式：\(\mathbb{P}(\text{至少一个错误拒绝}) \le \sum_{i=1}^2 \alpha/2 < \alpha\)，因此 \(C_{\text{in}} \subseteq S\) 的概率至少 \(1-\alpha\)（inner覆盖）。同时，若某个 \(u_i\) 是假的（即 \(T(u_i) \le 0\)），其被拒绝的概率 \(\le \alpha/2\)，因此所有假元素同时被拒绝的概率 \(\ge 1-\alpha\)（即outer覆盖：\(S \subseteq C_{\text{out}}\)）。
- 这个双覆盖性质就是论文的核心反转FWER思想。一般化到无限 \(\mathcal{U}\) 时，关键困难在于：多个检验的依赖结构使得 Bonferroni 太保守，需要用经验过程近似联合分布来获得更紧的阈值。论文的技术贡献正在于：证明 \(\mathcal{U}\) 是 Donsker 类时，极限高斯过程的 sup 分布可用于校准阈值，且覆盖性质仍成立。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：给定两个分布的样本，如何推断支持第一个分布期望效用更高的效用函数集合 \(S\)，并给出内置信集（\(C_{\text{in}} \subseteq S\)）和外置信集（\(S \subseteq C_{\text{out}}\)）。
核心工具/方法：反转FWER控制的多重检验程序，利用empirical process的Donsker性质获得阈值的统一校准。
主要结论：构建的inner/outer置信集在 \(\mathcal{U}\) 是Donsker类时有理论保证的覆盖概率；还导出了期望效用差异在 \(\mathcal{U}\) 上的uniform置信带，以及基于utility的 restricted stochastic dominance 检验。

关键设定与假设¶

\(\mathcal{U}\) 是 Donsker 类：要求 \(\mathcal{U}\) 的函数波动性受到控制，且拥有有限矩（例如：所有单调有界函数、Lipschitz函数、或凸函数限定在紧集上）。
样本独立同分布：\(X_i \sim F, Y_j \sim G\)，且 \(n,m \to \infty\) 而 \(n/(n+m) \to \lambda \in (0,1)\)。
有限矩条件：\(\sup_{u \in \mathcal{U}} \mathbb{E}[u(X)^2] < \infty\) 等，以保证经验过程弱收敛。

与已有文献相比：本文的 \(\mathcal{U}\) 可以非常宽（例如所有1-Lipschitz单调函数），而之前的FSD检验通常只考虑某一固定格点集或假设更严格的光滑性。

主要结果（理论型）¶

Theorem 1（内/外置信集）：设 \(\hat{c}_{1-\alpha}\) 是多重检验的校准临界值，通过bootstrap或渐近极值分布得到。则

\[\liminf_{n,m\to\infty} \mathbb{P}(C_{\text{in}} \subseteq S) \ge 1-\alpha,\quad \liminf_{n,m\to\infty} \mathbb{P}(S \subseteq C_{\text{out}}) \ge 1-\alpha.\]

直觉：每个检验的Type I错误被FWER控制，从而保证以上覆盖性质。
Theorem 2（uniform置信带）：对于 \(T(u)\)，构造带形如

\[\left[ T_n(u) - \frac{\hat{\sigma}_n(u)}{\sqrt{n}} q_{1-\alpha},\; \infty \right) \quad (\text{单侧})\]

使得 \(\liminf \mathbb{P}\left( T(u) \ge T_n(u) - \frac{\hat{\sigma}_n(u)}{\sqrt{n}} q_{1-\alpha},\; \forall u\in\mathcal{U} \right) \ge 1-\alpha\)。这里 \(q_{1-\alpha}\) 是极限高斯过程的 sup 分位数。
Theorem 3（restricted stochastic dominance 检验）：可以构造以“\(\forall u\in\mathcal{U}:\; T(u) \ge 0\)”为原假设的检验（即传统FSD），或以其为备择的检验（即部分占优）。

技术难点：从点态到uniform需要处理无限多个相依检验的联合分布；本文通过Donsker定理保证经验过程 \(\sqrt{n}(T_n(u)-T(u))\) 在 \(\ell^\infty(\mathcal{U})\) 中弱收敛到高斯过程，从而上尾分位数 \(q_{1-\alpha}\) 是良好的。

证明路线与技术技巧¶

整体路线（3–5步）： 1. 定义检验统计量：对每个 \(u\)，标准化差异 \(t_n(u) = \sqrt{\frac{nm}{n+m}} \frac{\bar{u}_X-\bar{u}_Y}{\hat{\sigma}(u)}\)，其中 \(\hat{\sigma}^2(u)\) 是pooled方差。
2. 建立经验过程收敛性：证明 \(\{\sqrt{\frac{nm}{n+m}}(\bar{u}_X-\bar{u}_Y - T(u)) : u\in\mathcal{U}\}\) 在 \(\ell^\infty(\mathcal{U})\) 中弱收敛到均值为0、协方差 \(\Sigma(u,v)\) 的高斯过程 \(G(u)\)。这个步依赖Donsker定理和有限矩条件。
3. 多重检验阈值校准：Bonferroni太保守，因此用极限过程的sup分布：当 \(\mathcal{U}\) 是Donsker时，\(\sup_{u\in\mathcal{U}} |G(u)/\sigma(u)|\) 的分布可由bootstrap近似。取 \(q_{1-\alpha}\) 为它的 \(1-\alpha\) 分位数。
4. 构造inner/outer集：
- \(C_{\text{in}} = \{ u : t_n(u) > q_{1-\alpha} \}\)
- \(C_{\text{out}} = \{ u : t_n(u) \le q_{1-\alpha} \}\) （注意：这里 \(q_{1-\alpha}\) 是联合临界值，而非Bonferroni）。
通过FWER控制性质（如Romano & Shaikh 2012的“反转零假设”方法）证明覆盖概率。
5. 推导uniform带：用同样的临界值 \(q_{1-\alpha}\) 给每个 \(u\) 构造单侧区间，并利用连续性模量论证。

关键跳跃点：
- 难点：确保极限过程在 \(\ell^\infty(\mathcal{U})\) 中的连续性（Donsker性质需要 \(\mathcal{U}\) 的熵积分有界）。作者通过假设 \(\mathcal{U}\) 是Donsker类直接绕过构造性验证，但实际应用中需检验该条件（例如单调有界函数是Donsker的）。
- 另一个跳跃：从点态临界值到联合临界值的转换中，需要证明bootstrap版本的弱收敛以及枢轴性。

技术技巧点名：
- Empirical process & Donsker类：核心工具，用于uniform weak convergence。
- Bootstrap：用于估计 \(G(u)\) 的sup分位数，避免解析极值分布的复杂性。
- FWER控制的多重检验反转：借鉴Romano & Shaikh (2012) 的通用框架。
- 极值理论：若 \(\mathcal{U}\) 是有限维，也可用解析极值分布，但本文更依赖bootstrap。

真实例子与应用¶

论文包含模拟和两个实证例子： 1. 收入数据（Current Population Survey）：比较已婚男性和女性的收入分布。传统FSD检验可能不拒绝（意味着无法断言女性收入分布优于男性？），但本文的inner集发现只有部分单调效用函数（例如对低收入者赋予更高权重的效用函数）支持女性优于男性，而outer集很大，说明共识并非一致。
2. 资产回报数据（股票市场）：比较两种投资策略的回报分布。本文的方法揭示了在某些风险厌恶程度下（即凹效用函数）一种策略明显更好，而在其他效用函数下不分胜负。

这些例子验证了方法能够给出传统检验所不能提供的“共识广度”信息。

🔎 结论是否比证明窄¶

文中明确写出“对于极广的效用函数类，只要满足有限矩条件，仍是Donsker”，但未给出具体的矩条件与熵条件的关系。在非紧支撑或重尾分布下，Donsker性质可能失败，从而uniform覆盖可能退化。作者在结论中承认“有限样本下校正可能保守”，但未给出渐近覆盖的收敛速度。因此，实际应用时若 \(\mathcal{U}\) 太大或矩条件不满足，定理的前提条件可能不成立，而用户可能误认为对任意 \(\mathcal{U}\) 都适用。需特别注意定理陈述中的假设。

四、开放问题¶

多于两个分布的共识排序：本文仅处理两个分布的比较。如何推广到 \(K \ge 3\) 个分布，并同时控制多重比较的维度爆炸？（扎根于：摘要及方法中仅提及“two distributions”。）
inner/outer置信集的sharpness：本文的方法由于多重检验校正（尤其当 \(\mathcal{U}\) 很宽时），可能非常保守（inner集很小）。能否构造更sharp的置信集？例如利用higher-order U-statistics改进中心极限定理的收敛速度？（扎根于：文中提到bootstrap的有限样本偏差可能影响覆盖但未深入讨论。）
证明更快的收敛速度：本文仅证明了渐近覆盖概率，未给出inner/outer集与真集 \(S\) 在某种度量下的收敛速率（如Hausdorff距离）。用minimax视角分析能否得到optimal rate？（扎根于：论文定理只给出了覆盖概率，未给出误差界的rate。）
Donsker类条件的具体验证：对于实际中常用的效用函数类（如CRRA、CARA），需要验证有限矩条件与熵条件。建议阅读同类子领域近期约5篇论文的intro，看是否就“什么条件下类为Donsker”有一致结论。若不一致，则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub