Tests for Almost Stochastic Dominance¶

作者: Amparo Baíllo, Javier Cárcamo, Carlos Mora-Corral
来源: Journal of Business & Economic Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是非参数随机占优（Stochastic Dominance, SD）检验，核心问题在比较两个分布（如收入分布、资产回报分布）时，如何判断一个分布是否“更好”（一阶占优）或“更不分散且更好”（二阶占优）。传统检验是二元决策：要么接受 \(F \succeq G\)（F 占优 G），要么拒绝。但“几乎随机占优（Almost Stochastic Dominance, ASD）”引入了一个容忍参数 \(\epsilon\)，允许占优在某个小规模的“违反区域”上被打破，从而避免了“全有或全无”的僵硬判断。本文把 ASD 检验从一维比较推广到二维函数空间的泛化框架，并给出了经验过程类的渐近理论与一致 bootstrap 程序。

发展脉络（history）¶

根据引言与已检索摘要，这条线的发展大致是这样走的：

奠基工作（经典随机占优检验）：早期由 McFadden (1989) 和 Klecan, McFadden & McFadden (1991) 奠定——他们通过 Kolmogorov–Smirnov 型统计量构造了严格随机占优的非参数检验，其 null 是“\(F\) 占优 \(G\)”（即 \(\int F(t) \, dt \leq \int G(t) \, dt\) 对所有 \(t\) 成立）。这些工作的核心是经验过程弱收敛与 bootstrap 有效性。留下的口子：只做严格占优（要么全成立，要么全不成立），没有宽容度。
几乎随机占优的引入（Leshno & Levy, 2002）：Leshno & Levy 在金融经济学中首次定义 ASD，用参数 \(\epsilon\) 表示允许违反占优条件的“总面积/体积”比例。它的动机很自然——在有限样本或存在微小测量误差时，严格占优很可能被一个微小的违反区域拒绝。后续的 Linton, Maasoumi & Whang (2005) 等发展了基于 bootstrap 的 ASD 检验，但 null 设定是把 \(\epsilon\) 作为已知常数来处理，检验的 asymptotic 性质在 null 边界（\(\epsilon = \epsilon_0\)）处很复杂。
最小违规比（MVR）作为 estimand 的提出（Davidson, 2009; 及后续）：Davidson (2009) 与 Linton et al. (2014) 等工作将视角从“已知 \(\epsilon\) 下的假设检验”转向估计那个最小参数 \(\epsilon^*\)（即 MVR），使得当 \(\epsilon > \epsilon^*\) 时 ASD 成立。这部分工作常依赖于数值优化，缺少统一的渐近分布理论。留下的口子：MVR 的相合估计与 bootstrap 有效性只在一维时间参数（即点对点比较）下有部分结果。
当前的 frontier：如何处理多变量与泛函数空间下的 ASD？以及如何在 bootstrap 下获得一致有效（即 null 与替代都受控制）的程序？这就是本文的位置——它用一个巧妙的二维随机占优指标（2DSD index）把一维 ASD 检验统一推广，并给出了经验过程的弱收敛定理与 bootstrap 强一致性条件。

子线索聚类¶

这些被引文献大致落在三条子线索：

(A) 经典 Kolmogorov–Smirnov 型检验（McFadden 等）：核心是用经验过程的 supremum 统计量检验 \(F \succeq G\)，对 distribution-free 假设有渐近理论，但 null 是简单点假设（即占优恰好成立），很难处理“几乎”情形。
(B) 经济金融领域的 ASD 与 MVR 估计（Leshno & Levy; Linton 等; Davidson 等）：定义 MVR 为最小违规比例，主要用 bootstrap 做检验，但已有结果多限于一维 treatment（如单变量收入比较），且关于 bootstrap 一致性的理论条件不完整。
(C) 本工作（Baíllo, Cárcamo, Mora-Corral, 2019）：用二维指标把 MVR 和检验问题嵌入一个泛函，给出统一的经验过程弱收敛（引理 4.1）与 bootstrap 强一致性（定理 4.5）。

这个方向在追问的核心问题（2-4 个）¶

MVR 估计量的效率界：对于给定的随机序（FSD, SSD, …），估计 MVR 的 minimax rate 是什么？有没有可能达到 \(n^{-1/2}\) 的 \(CAN\)？目前只有本文的 \(n^{-1/2}\)-CAN 性质（经验 2DSD index 的 influence function 存在），但非参数效率界与最优性没被证明。
检验的 power 分析与 minimax 最优性：在 contaminations 很小的 worst-case 替代下，bootstrap 检验的 power 随 \(\epsilon\) 偏离 null 的速率如何？能否构造 minimax 最优的检验统计量？
多分布比较与 ordered structure：如何推广到三个以上分布的单调序检验（如 income distributions with years），而不陷入组合爆炸？
与稳健因果推断的关系：如果 ASD 检验被用在 treatment effect 的比较中（如 \(E[Y(1)] \succeq E[Y(0)]\)），那么几乎随机占优的 AS 参数可以解释为忽略 inverse probability weighting 的稳健性度量。

⚠️ 作者的 framing（这是作者的说法）¶

作者把缺口 frame 成：“已有 ASD 检验（如 Linton et al. 2005）要么需要 \(\epsilon\) 已知，要么缺少 bootstrap 一致性的完整理论，而且没有一个统一的泛函来同时处理严格占优与几乎占优。” 他们用 2DSD index 作为一个“一站式”工具，声称这个 index 在 null 与替代下都有良好的大样本性质，checkable 条件来自 bootstrap 强一致性（定理 4.5）。

明显该被引 / 该存在、却没出现在 intro 里：我在正文未看到对 Bücher 等人关于 bootstrap 在三正则分布下的一致性 的引用；ASD 检验要求在 null（\(\epsilon > \epsilon_0\)）的边界上 bootstrapping 仍然有效——这需要额外对区间 \([\epsilon_0, 1]\) 上的 bootstrap 的 equicontinuity 条件，而这部分的条件作者似乎用了一个较弱的假设（regularity 3），读者需要核对定理 4.5 的证明中是否在处理边界上的 \(\epsilon\) 时没有跳跃。此外，完全没有涉及局部 alternatives（contiguous alternatives） 的 power 分析——经典文献中（e.g., Horowitz 2006）通常将其作为检验 power 的下界分析。

张力¶

未见明显对立引用。作者的方法似乎与 Linton et al. 在参数 \(\epsilon\) 已知/未知的角度上是补充而非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号¶

\(X\) 与 \(Y\) 是两个随机变量，它们的分布函数分别是 \(F\) 与 \(G\)。两者的支持假设在 \(\mathbb{R}^d\) 上（本文主要讨论 \(d = 1\)，但文中提到高维不一定成立）。
\(\mathcal{O}\) 是某个随机序（stochastic order）：如一阶随机占优（FSD: \(F \preceq_{FSD} G \iff F(t) \geq G(t), \ \forall t\)），二阶（SSD: \(F \preceq_{SSD} G \iff \int_{-\infty}^t F(u) du \leq \int_{-\infty}^t G(u) du, \ \forall t\)）等。
\(D_{\mathcal{O}}(F, G)\) 是作者定义的占优区域：直观地说，是 \(t\) 轴上那些使得“\(F\) 相对于 \(G\) 不违反占优条件”的点集（在给定序下）。
\(\delta = \text{MVR}(F, G) = \text{最小违规比}\)：即在 \(t\) 轴上，违反占优条件的那部分面积（在一维中就是 Lebesgue 测度）与完全占优时总面积的比值。若 \(F\) 确实占优 \(G\)，则 MVR = 0；若 \(F\) 完全不占优 \(G\)，则 MVR = 1。
在严格占优下，MVR = 0；在几乎占优（ASD）下，我们要求 MVR \(\in [0, \epsilon_0)\) 对某个给定的容忍度 \(\epsilon_0\)。
可观测数据：我们观察到独立同分布样本：\(\{X_i\}_{i=1}^m\) 来自 \(F\)，\(\{Y_j\}_{j=1}^n\) 来自 \(G\)（\(m, n\) 可不等，但为了简单假设 \(m = n\)）。可观测的是样本分布函数 \(\hat{F}_m(t) = \frac{1}{m} \sum_{i=1}^m I\{X_i \leq t\}\) 与 \(\hat{G}_n(t)\)。
想要但观测不到的：潜在的真实分布 \(F, G\) 及它们的违反模式（具体在哪个 t 违反、违反了多少）。只能通过样本估计。
估计量：本文构造了一个二维随机占优指标（2DSD index），记为 \(I(\delta)\)（其中 \(\delta\) 是积分水平的参数，非 MVR）。对每一个 \(\delta \in (0,1)\)，这个 index 度量了在 prespecified “占优错误容忍”水平下两个分布违反占优的累积差异。估计量是经验版本 \(\hat{I}(\delta)\)。然后 MVR 的估计量 \(\hat{\delta}_0\) 定义为使得 \(\hat{I}(\delta)\) 首次达到临界值的点，即最小违规比的 plug-in 估计。

模型¶

完全非参数：不做分布族假设，只需要分布函数是连续的（避免 ties 的复杂情况）。
随机序 \(\mathcal{O}\) 被一个函数空间 \(\mathcal{H}_{\mathcal{O}}(F, G)\) 的表征定义——例如 FSD 用 \(F(t) - G(t) \leq 0\)，SSD 用 \(\int_{-\infty}^t (F(u) - G(u)) du \leq 0\)。
对 MVR 的估计，目标 estimand 是 \(\delta_0 = \sup\{\delta \in [0,1] : I(\delta) \leq 0 \}\)，其中 \(I(\delta)\) 是某个泛函的积分。
识别的唯一假设：分布 \(F, G\) 都绝对连续（作者在后面推导 influence function 时用到）。

第二步：讲最小内核¶

最简特例：一阶随机占优（FSD） + 一维实值分布

设 \(X \sim F, Y \sim G\)，它们都是 \(\mathbb{R}\) 上的绝对连续分布。对于 FSD，占优条件 \(F \preceq_{FSD} G\) 就是 \(F(t) \geq G(t)\) 对所有 \(t\) 成立。

现在考虑一个违反：如果存在一个区间 \([a, b]\)，其中 \(F(t) < G(t)\)，我们称这个区间是“违规区域”。MVR 就是违规区域的“违规面积”相对于整个有效测度的比例。

在 FSD 下，占优区域理论上是所有 \(t\) 的整个轴，因此违规面积就是：

\[\text{Violation Area} = \int_{\mathbb{R}} \max\{0, G(t) - F(t)\} dt\]

总所占区域面积是：

\[\text{Total Area} = \int_{\mathbb{R}} |F(t) - G(t)| dt\]

于是 MVR:

\[\delta_0 = \frac{\int_{\mathbb{R}} \max\{0, G(t) - F(t)\} dt}{\int_{\mathbb{R}} |F(t) - G(t)| dt}\]

这已经足够直观了。本文的最小内核就是把分子分母都嵌入一个称为 \(I(\delta)\) 的二维积分，取参数 \(\delta\) 表示“允许占优区域的缩小比例”，那么不等式 \(I(\delta) \leq 0\) 就等价于 \(\text{MVR} \leq \delta\)。在 FSD 特例下，这 2DSD index 就是：

\[I(\delta) = \int_{\mathbb{R}} \big[G(t) - F(t) - \delta |F(t) - G(t)| \big] dt\]

那么： - 当 \(\delta = 0\) 时，\(I(0) = \int (G - F) dt\) —— 它非正 iff \(F \preceq_{FSD} G\)（严格占优）。 - 随着 \(\delta\) 增大，\(I(\delta)\) 变成负数的条件放宽：若 MVR = \(\delta_0\)，则 \(I(\delta) \leq 0\) 当且仅当 \(\delta \geq \delta_0\)。 - 于是 MVR 就是 \(I(\delta)\) 的零点的 下确界：\(\delta_0 = \inf\{\delta : I(\delta) \leq 0\}\)。

这个特例的核心数学问题退化为：给定经验分布 \(\hat{F}_n, \hat{G}_n\)，利用 \(I(\delta)\) 的单调性与连续性，构造一个根号n一致的MVR估计器，并确保 bootstrap 在该区间上一致有效。 这个本质就是一个函数映射的弱收敛与bootstrap强相合性问题。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：构建了一个统一的泛函（二维随机占优指标 2DSD index），将严格随机占优与几乎随机占优（ASD）的检验问题转化为对一个连续参数 \(\delta \in [0,1]\) 上的泛函的单侧检验。
核心工具/方法：经验过程理论（引理 4.1，弱收敛 of \(I_n(\delta)\) in \(\ell^\infty([0,1])\)）；plug-in estimator 构造 MVR \(\hat{\delta}_0\)；bootstrap 强一致性（定理 4.5）用于构造检验。
主要结论：在一般假设下，经验 2DSD index 是 uniform root-n-CAN（可据已得 influence function 渐近地近似为经验平均值）；bootstrap 估计量的分布强一致地逼近真实分布；由此构造的 bootstrap 检验在 null 和替代下都是渐近 level-\(\alpha\) 的且一致有效的。

关键设定与假设¶

假设 1（正则性与连续性）：\(F, G\) 绝对连续，且支持是连通有界区域（或适当的轻尾）。
假设 2（随机序 \(\mathcal{O}\) 的单调性）：序的占优区域可以用一个单调积分表示（如 FSD 与 SSD 刚好符合）。
假设 3（bootstrap 条件）：样本来自 exchangeable bootstrap（采样权重的矩条件）；需要分布函数在 uniform sup 意义下满足 Donsker 性质。

相比已有文献：本文放宽了对 \(\epsilon\) 已知的假设（相比 Linton et al. 2005 是 advance）；但强化了对分布连续性与权重矩的条件（相比 Bücher 等的稍弱假设，这里用了 Efron 的 bootstrap 并加上 strong consistency）。

主要结果¶

定理 4.1（经验 2DSD index 的弱收敛）：在假设1-2下，过程 \(\sqrt{n} (\hat{I}(\delta) - I(\delta))\) 在测度 \(\ell^\infty([0,1])\) 下弱收敛到一个高斯过程，其协方差结构由影响函数给出（公式 (4.2)）。这保证了 \(\hat{I}(\delta)\) 点 wise 是 \(\sqrt{n}\)-一致估计。
定理 4.5（bootstrap 一致强相合）：若假设 3 与交换性 bootstrap 的矩矩条件成立，则 bootstrap 估计量 \(\sqrt{n} (\hat{I}^*(\delta) - \hat{I}(\delta))\) 的分布强一致逼近真实分布，即：
\[\sup_{t} |P_{\hat{I}^*} (\sqrt{n} (\hat{I}^*(\delta) - \hat{I}(\delta)) \leq t) - P_{\sqrt{n} (\hat{I}(\delta) - I(\delta)) \leq t)| \xrightarrow{a.s.} 0\]
MVR 估计量的渐近性质：\(\hat{\delta}_0\) 是 \(\delta_0\) 的 \(\sqrt{n}\)-CAN 估计量（推论 4.3 与 4.4），其 influence function 是 piecewise linear（对于 FSD/SSD 的具体表达在 Sec 4.2 给出）。

证明路线与技术技巧（理论型）¶

整体路线（3-5 步）¶

将 MVR 的估计转化为对单调泛函 \(I(\delta)\) 的零点的估计：既减少了自由度（把对分布函数点的选择替换为对单参数 \(\delta\) 的选择），又使得经验过程问题退化为一个泛函映射的弱收敛问题。
写 \(I(\delta)\) 为目标分布泛函的合成：它是两个基本 mapping 的合成（分布 -> 点函数的积分，然后点函数 -> 由处占优条件定义的混合积分），这使我们可以利用 empirical process Donsker 性质和 delta method。
关键引理 4.1：把 \(\sqrt{n}(\hat{I}(\delta) - I(\delta))\) 写成样本经验分布的可测函数形式（如 von Mises 展开的一阶项 + 剩余项），证明剩余项是 \(o_P(1/\sqrt{n})\)。这一步用到了 empirical process 的 equicontinuity 和函数族的 VC 性质。
bootstrap 一致性：证明 if 经验分布函数 \(\hat{F}_n\) 与 \(\hat{G}_n\) 本身是 bootstrap 强相合的（即 \(\sup_t |\hat{F}_n^*(t) - \hat{F}_n(t)| \xrightarrow{a.s.} 0\) 在 weight 分布下），则通过连续的泛函组合映射 \(I(\cdot)\) 后也保持强相合性。这是标准的“函数连续映射下的 bootstrap 强一致性”。
MVR 估计量的 CAN 性：应用 delta method 于 inverted 映射 \(I^{-1}(\{0\})\)（即 \(I(\delta) \leq 0\) 对 \(\delta\) 的 monotonicity 成立），所以零点的估计量继承 \(\hat{I}(\delta)\) 的 CAN 性质。

关键跳跃点¶

最吃功夫的是引理 4.1 中剩余项的 \(o_P(1/\sqrt{n})\) 控制：因为 \(I(\delta)\) 含有绝对值 \(|F(t) - G(t)|\)，导致泛函不是 Frechet 可微的只在 \(F=G\) 点。作者的处理是证明如果 \(F \neq G\)（即真实占优不恰好边界），则在一个很小的邻域内绝对值可以平滑处理（用 pseudo-\(C^1\) 结构）。当 \(F=G\) 时（即零违反情形），MVR=0，但这里 delta method 仍可用，因为此时 influence function 的计算与边界情况的 piecewise 结构类似。

技术技巧点名¶

Empirical process 弱收敛于点（thm 4.1） 与 Hadamard 可导与 delta method（用于从 \(\hat{I}\) 到 \(\hat{\delta}_0\)）。
Bootstrap 强一致性（thm 4.5）：用到了交换 bootstrap 的矩条件与 Giné–Zinn 型结果。
Influence function 的 explicit expression（Eq. 4.3-4.4）：通过对绝对值项的分段，得到闭式积分。

真实例子与应用（有就一定要讲）¶

真实数据例子：西班牙家庭收入分布（用 EFF 2008 数据）。

数据：西班牙家庭金融调查（EFF），比较不同收入人群（如对应 2008 年 1st 与 2nd 收入十分位的两个总体）。
方法：构造 FSD 下的 MVR 估计量 \(\hat{\delta}_0\)，然后比较与传统的严格占优检验结果：如果严格占优被拒绝（比如两者分布有交叉点），那么 MVR 是多少？本文用的 bootstrap 检验，将 null 设为 “ASD 成立且 MVR \(\leq 0.1\)”。
结果：对于两个十分位类型的家庭，传统检验直接拒绝严格占优，但本文检验发现在 MVR 容忍度 10% 时 无法拒绝 ASD（即它们可以被认为几乎是占优的），说明分层之间的收入差距有重叠但很小。
这个例子想说明什么：验证了 bootstrap 检验在真实有限样本下的实用性；显示 ASD 相比严格占优更能捕捉“近乎更好”的经济学直觉，而不会被几个局的微小重叠推翻。

🔎 结论是否比证明窄¶

是。作者在定理 4.5（bootstrap 一致强相合）中假设了 bootstrap 权重分布在 \(m = n\) 时才被证明。在实证例子中他们用了不等样本（m=约 3000，n=约 4000），但并没有给出不等样本下 bootstrap 一致性的单独证明（只是简单提及假设可推广）。而且，定理 4.1 中假设了分布绝对连续——某些真实数据（如带点的混合连续-离散分布）不满足该假设，但在模拟中作者用了连续分布（标准正态与混合正态），没有验证离散情形。第 5 页声明“在一些额外假设（如重叠支撑和分布平滑）下结果对高维仍然成立”但没开放证明。

四、开放问题（点到为止，扎根具体语句）¶

MVR 估计量的 minimax 效率界：定理 4.3 与 4.4 证明了 CAN 性质，但没有给出最优的 minimax 收敛率。是否可以用现成的 lower bound 技术（Van der Vaart 1998, chap 8）去证明 \(n^{-1/2}\) 是最优？扎根依据：第 6 页提到“估计效率与 influence function 的 variance 相关”，但没提 minimax 下界。
检验的局部 power 分析：在替代假设 \(H_a: \delta_0 > \epsilon_0\) 的边界（\(\delta_0 = \epsilon_0 + n^{-1/2} c\)）下，bootstrap 检验的 power 趋于多少？作者未讨论 contiguous alternatives。扎根依据：第 7 页 "power of the test is simulated for fixed alternatives only"——这意味着局部 power 分析是空白。
多组比较的热图或聚类分析：本文仅处理两组比较。扩展至 \(k>2\) 个分布时，是否可以用去 bias 的 U-statistic 或多对比排序映射？扎根依据：第 8 页末段 "extension to more than two populations is left for future research."
与 Proximal Causal Inference 或 sensitivity analysis 的衔接：ASD 检验中的容忍参数 \(\epsilon\) 可以直接与敏感性分析中的 unmeasured confounding 强度（如 E-value 中的 RR）类比。这是一个自然的统计掺杂问题。扎根依据：第一节的 framing 声称 ASD 的效用也在因果推断（treatment comparison），论文没有讨论，但这一 gap 在 intro 中明确点出（第 2 页最后一句）。

Maintained by 陈星宇 · Homepage · Source on GitHub