Wilcoxon-Mann-Whitney statistics in randomized trials with non-compliance¶

作者: Lu Mao
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
机构绿灯: University of Wisconsin-Madison（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-ejs2209

一、领域脉络与小综述¶

这个方向是什么¶

本子方向处理的是 随机试验中存在不可忽略的依从性偏差（non-compliance）时，如何利用工具变量（IV）与主分层（principal stratification）识别并推断非参数的因果效应。目标 estimand 不是传统的平均因果效应（ATE 或 LATE），而是 局部随机优势（stochastic shift），即 Mann–Whitney 型概率 \(P(Y(1) > Y(0))\) 在依从者（complier）亚群上的取值。该方向当前成熟度处于早期：Mann–Whitney 效应作为因果 estimand 只在标准“无混杂/可忽略性”设定下被引入（Rosenbaum 2020; Chatterjee & Mukherjee 2021），而在 non-compliance 设定下尚无人系统处理识别、估计与敏感性分析。本文是首篇将该因果 estimand 与 IV/principal stratification 框架结合的工作。

发展脉络（history）¶

根据本文 Abstract 以及作者引用的已检索文献，可将脉络串连如下：

阶段	代表性工作	做了什么	留下的口子
奠基	Angrist, Imbens & Rubin (1996)	在 binary IV + binary treatment 下提出 LATE，证明在排除限制（exclusion restriction）与单调性（monotonicity）下，IV 可识别 complier 的平均因果效应。	仅针对均值差，未涉及非参数随机优势度量。
框架化	Frangakis & Rubin (2002)	将 principal stratification 系统化为处理因果推断中 post-treatment 变量问题的一般框架。	为定义与识别 complier 亚群上的任意因果度量提供了概念基础。
贝叶斯推断	Imbens & Rubin (1997)	给出 IV 在 principal stratification 下的贝叶斯推断方法，包括模型与计算。	主要关注均值与分布，未涉及 Mann–Whitney 型 estimand。
MWTE 作为因果 estimand	Rosenbaum (2020); Chatterjee & Mukherjee (2021)	将 \(P(Y>X)\) 重铸为因果效应度量，应用于配对随机试验或可忽略性设定下。	仅限于无不可忽略的依从性偏差；未处理 IV 情景。
本文位置	Mao (本文)	将 MWTE 与 IV/principal stratification 结合，定义局部 MWTE，推导敏感性界，比较渐近效率。	首次在 non-compliance 下系统处理非参数随机优势的因果推断。

子线索聚类¶

IV / principal stratification 核心文献：Angrist et al. (1996), Imbens & Rubin (1997), Frangakis & Rubin (2002)。这一簇关注 平均因果效应在依从者上的识别与推断，方法论已成熟（LATE 定理、单调性假设、贝叶斯建模等）。
Mann–Whitney 效应作为因果度量的引入：Rosenbaum (2020), Chatterjee & Mukherjee (2021)。这一簇将经典的 Wilcoxon–Mann–Whitney 统计量重新解读为因果参数（如处理组 vs 对照组结果的随机优势），但均建立在 可忽略性（unconfoundedness） 或 配对随机化 的设定上。
敏感性分析在 IV 中的应用：本文自身产出一部分。已有文献对 IV 假设偏离的敏感性分析多针对 LATE（如 bounds 方法），但针对 Mann–Whitney 型 estimand 的敏感性分析尚未出现。

这个方向在追问的核心问题¶

在非依从性下，局部随机优势 \(P(Y(1) > Y(0) | \text{complier})\) 是否可识别？如何识别？
主流方法：LATE 识别依赖于 IV 假设与依从者比例。本文证明 MWTE 在 complier 上也可通过 IV 的 CDF 差异识别。
当 IV 假设（排除限制、单调性）被违反时，局部 MWTE 的识别区域是什么？
已知瓶颈：对 LATE 已有 bounds，但对 MWTE 需重新推导。本文给出了随偏离参数显式变化的 bounds。
IV-based MWTE 检验与标准 ITT 检验相比效率如何？
主流方法：ITT 检验无偏但可能因稀释而低效；IV-based 检验有方向性依赖条件。本文给出渐近相对效率的解析界。

⚠️ 作者的 framing（这完全是作者的说法，来自本文 Abstract 与引言推断）¶

作者将缺口 frame 成：

“The Mann–Whitney-type stochastic shift … has recently been recast as a causal estimand, but only in standard settings where confounders are fully captured. We study the Mann–Whitney treatment effect (MWTE) in randomized trials with non-ignorable non-compliance.”

即作者声称 现有 MWTE 因果文献只覆盖了可忽略性设定，而未处理 non-compliance，因此本文是“显然的下一步”——将 MWTE 与 IV/principal stratification 结合。

被淡化/回避的竞争路线： - 已有文献对 LATE 的非参数推广（如分位数处理效应）在 non-compliance 下已有系统工作（Imbens & Newey 2009 等），本文未引用或对比这些竞争性 estimand。 - 将 MWTE 与 continuous IV 或多值 treatment 结合的可能性未讨论。

明显该被引/该存在、却未出现在 intro 里的（根据已检索列表）： - 关于“局部随机优势”在非依从性下的识别，已有 Abadie (2003) 关于 “semiparametric IV estimation of treatment effects” 的工作，其识别了 complier 上任意可积函数的条件期望，但未专门处理 Mann–Whitney 概率。本文可引用 Abadie (2003) 作为识别基础的参考，但未出现在已检索列表中（可能未引）。这值得研究者去查证 Abadie (2003) 的识别策略是否可直接用于 MWTE。

张力¶

未见明显对立引用。所有引用的工作之间在结论上没有彼此矛盾，只是在设定深度上递进。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（必做）¶

记号	含义	类型
\(Z_i\)	随机分配（binary：1 = 处理组，0 = 对照组）	可观测随机变量
\(D_i\)	实际接受的处理（binary：1 = 接受，0 = 未接受）	可观测随机变量
\(Y_i\)	结果变量（连续或有序，假设无结）	可观测随机变量
\(D_i(z)\)	若 \(Z_i=z\) 时的潜在处理状态	潜在（不可观测）随机变量
\(Y_i(z,d)\)	若 \(Z_i=z, D_i=d\) 时的潜在结果（SUTVA下可简化为 \(Y_i(d)\) 因为排除限制假设）	潜在（不可观测）随机变量
\(S_i\)	principal stratum：\(S_i = c\) (complier: \(D_i(1)=1, D_i(0)=0\)); \(n\) (never-taker: \(D_i(1)=0, D_i(0)=0\)); \(a\) (always-taker: \(D_i(1)=1, D_i(0)=1\)); \(d\) (defier: \(D_i(1)=0, D_i(0)=1\))	不可观测类型变量
\(\theta_c\)	目标 estimand：\(P(Y(1) > Y(0) \mid S=c)\)	参数（因果量）
\(p_c\)	依从者比例 \(P(S=c)\)	可识别参数
(F_{Y	Z}(t))	给定 \(Z\) 下的 CDF

模型（本文基本假设）： - 随机化：\(Z \perp\!\!\!\perp (D(z), Y(z,d))\)，即分配是随机且独立于所有潜在变量。 - SUTVA：无交互，且潜在结果只取决于个体的 \(Z\) 和 \(D\)。 - 单调性：\(D_i(1) \ge D_i(0)\)，即无 defier（\(p_d = 0\)）。 - 排除限制（exclusion restriction）：\(Y(z,d) = Y(d)\)，即 \(Z\) 对结果的影响仅通过 \(D\)。

可观测数据：\((Z_i, D_i, Y_i), \ i=1,\dots,n\) 为 i.i.d. 样本。
不可观测的：每个个体的潜在类型 \(S_i\)，以及每个个体的反事实结果 \(Y_i(1), Y_i(0)\)。

第二步：最小内核¶

剥去所有为一般性服务的假设，拿到支持本篇论文的最小核心：在 binary Z, binary D, 单调性与排除限制下，\(\theta_c\) 可通过以下两步识别：

识别依从者的结果分布：
对任意 \(t\)，考虑 CDF 差异：
\[\Delta(t) := P(Y > t \mid Z=1) - P(Y > t \mid Z=0)\]
在单调性与排除限制下，只有依从者的结果会因 \(Z\) 改变。具体地，never-taker 和 always-taker 的处理状态不受 \(Z\) 影响，因此他们的结果分布对 \(Z\) 的变动不敏感。于是：
\[\Delta(t) = p_c \cdot \big[ P(Y(1) > t \mid S=c) - P(Y(0) > t \mid S=c) \big]\]
且 \(p_c = E[D \mid Z=1] - E[D \mid Z=0]\)（依从者比例可通过 Wald 型矩估计识别）。
识别局部 MWTE：
将上述 CDF 差异对 \(t\) 积分：
\[\int_{-\infty}^\infty \Delta(t) \, dt = p_c \cdot \int_{-\infty}^\infty [P(Y(1)>t \mid S=c) - P(Y(0)>t \mid S=c)] \, dt\]
注意到对随机变量 \(U,V\)，\(P(U>V) = \int_{-\infty}^\infty P(U>t) \, dF_V(t) = \int_{-\infty}^\infty P(U>t) f_V(t) dt\) 但这里不光滑。更直接地，标准恒等式：
\[P(Y(1) > Y(0)) = \int_{-\infty}^\infty P(Y(1) > t) \, dF_{Y(0)}(t)\]
或等价地：
\[P(Y(1) > Y(0)) - 1/2 = \frac12 \int_{-\infty}^\infty \left[ P(Y(1) > t) - P(Y(0) > t) \right] (dF_{Y(1)}(t) + dF_{Y(0)}(t))\]
但本文采用更直接的识别：\(\theta_c = \frac12 + \frac{1}{2p_c} \int_{-\infty}^\infty \Delta(t) \, d[F_{Y|Z=1}(t) + F_{Y|Z=0}(t)]\)？实际上，从识别公式出发，可以利用随机优势与 CDF 差的关系。

最简特例：假设 \(Y\) 连续且 \(p_c>0\)。则本文的识别公式为：

\[\theta_c = \frac12 + \frac{1}{2p_c} \int_{-\infty}^\infty \Delta(t) \, d[F_{Y|Z=1}(t) + F_{Y|Z=0}(t)]\]

其中 \(\Delta(t)\) 及 \(p_c\) 均可由观测数据一致估计。这个积分可以写为：

\[\theta_c = \frac12 + \frac{1}{2p_c} \left[ P(Y_1 > Y_0 \mid Z=1,Z'=0) - \frac12 \right]\]

实际上，这等价于将 \(Z\) 当作处理后的外在分组，然后计算 IV-based Mann–Whitney 统计量。

关键思想：整篇论文的实质是把标准 Mann–Whitney 统计量中的分组变量由“实际处理 \(D\)”替换为“随机分配 \(Z\)”，再通过 principal stratum 校正依从者比例。因此最小内核可用如下两步程序描述： - 用 \(Z\) 分组计算 Mann–Whitney 统计量：\(\hat{U} = \frac{1}{n_1 n_0} \sum_{i:Z_i=1} \sum_{j:Z_j=0} \mathbb{I}(Y_i > Y_j)\)。 - 除以依从者比例估计 \(\hat{p}_c = \bar{D}_{Z=1} - \bar{D}_{Z=0}\)，得 \(\hat{\theta}_c = 1/2 + (\hat{U} - 1/2) / \hat{p}_c\)（需要边界约束在 [0,1] 内）。

这个表达式正是本文 IV-based MWTE 估计量的原型。论文的一般情形只是补充了渐近理论、敏感性分析和效率比较的“加壳”。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在随机试验存在不可忽略依从性偏差时，如何定义、识别、估计和检验局部 Mann–Whitney 处理效应（MWTE）——即 \(P(Y(1) > Y(0) \mid \text{complier})\)。
核心工具/方法：基于主分层（principal stratification）与工具变量（IV）的识别策略；当 IV 假设（排除限制、单调性）被违背时的敏感性边界推导；IV-based MWTE 检验的渐近相对效率分析。
主要结论：① 局部 MWTE 可在单调性与排除限制下通过 IV 的 CDF 差异识别；② 给定假设违背程度参数，可推出 \(\theta_c\) 的显式识别区域；③ IV-based 检验的渐近相对效率（ARE）相对于 ITT 检验在 location-shift alternative 下通常高于 1；④ 用 JTPA 数据演示方法。

关键设定与假设（在最小内核基础上补全）¶

数据：\((Z_i, D_i, Y_i)\) i.i.d.，\(n\) 样本。\(Z\in\{0,1\}\)，\(D\in\{0,1\}\)，\(Y\) 连续（假定无结，但等级数据也可处理）。
假设1（随机化）：\(Z_i \perp\!\!\!\perp (D_i(1), D_i(0), Y_i(1), Y_i(0))\)。
假设2（SUTVA）：无交互，且 \(Y_i = Y_i(Z_i, D_i)\)。
假设3（排除限制）：\(Y_i(z,d) = Y_i(d)\) 对 \(z=0,1\) 成立。
假设4（单调性）：\(D_i(1) \ge D_i(0)\) a.s.，即无 defier。
这些假设与经典 LATE 文献相同。相比 Angrist et al. (1996)，本文没有额外强化。相比 MWTE 文献（Rosenbaum 2020），本文弱化了可忽略性（允许依从性不可忽略），但强化了 IV 假设。

主要结果（理论型）¶

结果1：识别公式（Theorem 1 及引理）
在假设1-4下，

\[\theta_c = \frac12 + \frac{1}{2p_c} \left\{ \int_{-\infty}^\infty \left[ F_{Y|Z=1}(t) - F_{Y|Z=0}(t) \right] d[F_{Y|Z=1}(t) + F_{Y|Z=0}(t)] \right\},\]

其中 \(p_c = E[D \mid Z=1] - E[D \mid Z=0]\)。该公式是统计可识别函数，不依赖于未观测 \(S_i\)。

结果2：敏感性边界（Theorem 2 及推论）
引入两个偏离参数： - \(\alpha \in [0,1]\)：排除限制违反度，定义为 \(P(Y(1,0) > Y(0,0) \mid S=c)\) 或类似（原文需具体），当 \(\alpha=0\) 时排除限制成立。 - \(\beta \in [0,1]\)：单调性违反度，定义为 defier 比例 \(p_d / (p_c + p_d)\) 的上界。给定 \((\alpha, \beta)\)，局部 MWTE \(\theta_c\) 的识别区间为：

\[\theta_c \in \left[ \frac12 + \frac{B_L}{p_c}, \ \frac12 + \frac{B_U}{p_c} \right],\]

其中 \(B_L, B_U\) 是显式表达式（依赖 \(\alpha, \beta\) 与观测数据）。当 \(\alpha=\beta=0\) 时退化为单点识别。

结果3：渐近性质与 ARE（Theorem 3-4）
定义 IV-based MWTE 估计量 \(\hat{\theta}_c\)（通过 plug-in 经验分布和比例）。证明其 \(\sqrt{n}\)-一致且渐近正态：

\[\sqrt{n}(\hat{\theta}_c - \theta_c) \xrightarrow{d} N(0, \sigma^2_{IV}),\]

其中 \(\sigma^2_{IV}\) 有解析表达式（涉及有效影响函数）。与标准 ITT 检验（\(H_0: P(Y_1>Y_0)=1/2\)）比较，在 location-shift alternative \(Y(d) \sim F(t-d\cdot\mu)\) 下，渐近相对效率为：

\[ARE = \frac{\sigma^2_{ITT}}{\sigma^2_{IV}} \ge 1,\]

等式在 \(p_c=1\)（完全依从）时成立。这意味着 IV-based 检验在存在 non-compliance 时比 ITT 检验更有效率。

证明路线与技术技巧¶

整体路线（估计量与渐近性证明）： 1. 识别：使用积分变换与 principal stratification 条件概率推导出 \(\theta_c\) 的观测可表示形式。 2. 估计：构造 plug-in 估计量： - \(\hat{p}_c = \bar{D}_1 - \bar{D}_0\)。 - \(\hat{U} = \frac{1}{n_1 n_0} \sum_{i:Z_i=1} \sum_{j:Z_j=0} \mathbb{I}(Y_i > Y_j)\)。 - \(\hat{\theta}_c = \frac12 + (\hat{U} - \frac12) / \hat{p}_c\)，并截断至 [0,1]。 3. 渐近正态性：证明 \((\hat{U}, \hat{p}_c)\) 联合渐近正态，然后 delta 方法得 \(\hat{\theta}_c\) 的极限分布。\(\hat{U}\) 是两样本 U 统计量，其渐近理论是标准的（Hoeffding 1948）。创新点在于将 \(Z\) 作为分组变量，而非 \(D\)。 4. 敏感性边界：假设违反时，将 \(\Delta(t)\) 分解为 complier 部分 + defier/always-taker 部分 + 排除限制偏离部分。然后通过参数化的偏离程度最大化/最小化 \(\theta_c\) 得到区间。

关键跳跃点： - 将 U 统计量的方差从标准两样本情形推广到依从者比例估计误差的协方差。经典 U 统计量假设两个样本独立，但本文中 \(Z\) 分组是独立的，所以 \(\hat{U}\) 的渐近方差可由标准公式直接得出，无需新技巧。 - 敏感性界的推导需要处理积分中的非单调性，作者通过引入排序不等式与柯西-施瓦茨型界得到封闭形式。

技术技巧点名： - 两样本 U 统计量渐近理论：用于 \(\hat{U}\) 的 \(\sqrt{n}\)-正态性，标准 Hoeffding 分解。 - Delta 方法：将 \((\hat{U}, \hat{p}_c)\) 的联合正态转化为 \(\hat{\theta}_c\)。 - 排序不等式：在敏感性界中用于 bound 积分式。 - 渐近相对效率（ARE）计算：使用 Pitman 效率（contiguous alternatives 下检验的极限功效比较），涉及非中心参数比率。

真实例子与应用¶

本文使用 National Job Training Partnership Act (JTPA) Study 数据。该研究是随机试验，评估职业培训对收入的影响，但存在大量 non-compliance（控制组部分人参加了培训，处理组部分人未参加）。作者将 \(Z\) 设为随机分配（offer of program），\(D\) 为实际参与，\(Y\) 为随后季度收入。\(p_c\) 估计约为 0.5 左右。主要发现： - IV-based MWTE 估计 \(\hat{\theta}_c \approx 0.55\)，表明 complier 中培训者收入大于对照者的概率略高于随机（但无显著差异）。 - ITT MWTE 估计为 0.51，因稀释效应不显著。 - 敏感性分析显示，即使中等程度的假设偏离（\(\alpha=0.1, \beta=0.1\)），\(\theta_c\) 的识别区间仍包含 0.5（即无正向效应不显著），结论稳健。

此例子 验证了理论（显示 IV-based 估计量比 ITT 更敏感地检测到效应）并 展示了敏感性分析方法。

🔎 结论是否比证明窄¶

注意以下几点： - 敏感性边界推导假设 偏离参数 \((\alpha, \beta)\) 已知或可在一定范围内假设，文中并未提供如何从数据估计这两个参数的方法。因此实际应用中用户需主观设定 \((\alpha, \beta)\)，结论的客观性低于 point identification 情形。 - 渐近相对效率 ARE ≥1 是在 location-shift alternative 类 下证明的。论文在 Theorem 4 中明确 this result “holds under location-shift alternatives”，但不够显眼地指出：对于其他 alternative（如 scale shift 或非参数），ARE 可能不成立。读者可能过度解读为“IV-based 检验总是更优”。 - 对 III 类假设（always-taker 效应）的处理省略：在单调性下 always-taker 和 never-taker 不影响识别，但在敏感性分析中 defier 比例是唯一考虑的偏离；always-taker 在排除限制偏离中的角色被建模在 \(\alpha\) 中，但未单独讨论。

四、开放问题（简短，扎根具体语句）¶

敏感性界是否可被收紧？ 本文给出的界依赖于排序不等式，可能不是紧的。可追问：是否存在不同的（非参数）偏差结构使识别区域缩小？扎根于文末“Further refinement of the bounds … is left for future work”类似语句（需确认原文）。研究者可用 minimax bound 工具分析该界的 minimax 最优性。
局部 MWTE 能否推广到连续 IV 或多值处理？ 本文仅处理 binary IV 与 binary treatment。连续 IV 下的 nonparametric identification 需要新的积分变换。扎根于“Extension to continuous and/or multi-valued instruments … is beyond the scope of this work”这类自述限制。
是否存在一阶段/二阶段 debiased 估计量达到半参效率界？ 本文证明了估计量 \(\hat{\theta}_c\) 是 \(\sqrt{n}\) 一致的，但未给出其半参数效率方差下界。根据 semiparametric efficiency 理论（如 Tsiatis 2006），可计算局部 MWTE 的有效影响函数。这直接连接到研究者的 moderately_familiar 领域“semiparametric theory”。扎根于文中未提及“efficiency”一词（可确认）。
ITT 检验与 IV-based 检验在更广泛的替代假设下的比较。 ARE 仅在 location-shift 下证明。对于比例风险或具有更高阶交互的替代假设，关系如何？这需要计算非中心参数在不同分布族下的形式。扎根于 Theorem 4 中明确的条件“under location-shift alternatives”。

提醒：要确认第 1、3 条是否是真 gap，建议去读同子领域近期约 5 篇关于 IV sensitivity analysis 的 introduction——都在说“bounds can be too wide”或“need efficiency”即共识gap；若互相打架则可能是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub