Treatment effect quantiles in stratified randomized experiments and matched observational studies¶

作者: Yongchang Su, Xinran Li
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的根本问题是：在无干扰假设的个体化处理效应（ITE）框架下，如何对个体处理效应的分布分位数（如中位数、四分位数、最大值）进行推断。该问题与经典的平均处理效应（ATE）推断不同，其面临的统计挑战包括：(i) ITE 是部分不可识别的——对于同一个体，只能观测到 \(Y_i(1)\) 或 \(Y_i(0)\) 中的一个；(ii) 分位数作为方差泛函，在联合分布份额的几何复杂性远高于均值；(iii) 计算上，对 Fisher 精确检验的泛化往往需要枚举巨大组合空间。目前，该方向正处于从“边界（bound）”向“推断（inference）”过渡的成熟期。

发展脉络（history）¶

奠基工作（2000–2010年代）：Rosenbaum (2002a) 提出了匹配观察研究中敏感性分析的经典框架——假定匹配集内倾向性得分的优势比不超过 \(\Gamma\)。这一框架初期仅用于检验 Fisher 尖锐零假设（所有个体效应的方向为零）。Rosenbaum (2001) 指出，直接推理 ITE 分位数是“N-维”问题，计算不可行。同期，Rigdon and Hudgens (2014) 和 Li and Ding (2015/2016) 在二值结局特例下给出了精确置信集——它们利用了二值设定的组合结构（超几何置信区间），但无法推广到连续结局。
主要进展——从“均值”到“界限”：Ding and VanderWeele (2015/2016) 提出了无分布假设下的灵敏性分析边界因子（bounding factor），但关注的是平均效应而非分布分位。Caughey et al. (2021)（本文 core reference [2]）关键一步：证明 Fisher 随机化检验在“有界零假设”（所有效应非正/非负）下仍然有效，而不再需要常效假设。这意味着可通过反演一系列有界零检验来构造最大/最小个体效应的精确置信区间。Caughey 等人还将其推广到任意分位数——但其推理在多个层内计算量极大。
当前 frontier：Fogarty (2020, 2019)（[8], [14]）将基于排名的随机化检验推广到匹配观察研究中的样本平均处理效应（SATE），并引入 studentized permutation 方法处理效应异质性下的弱零假设。Lu et al. (2018, 2020) 和 Huang et al. (2019) 则针对有序/二值结局研究“受益比例”的 sharp bound，但主要关注边界而非整体推断。
本文位置：作者站在 Caughey et al. (2021) 的肩膀上，将其对单个分位数的推断扩展为(i) 对所有分位数同时有效、(ii) 在多层设定下可高效计算、(iii) 扩展到匹配观察研究并包含灵敏度分析。算法上，将 p-值计算转化为一个多选择背包问题（multiple-choice knapsack），使后者在 \(O(N\log N + N \max_s n_s)\) 内可解——这是 CLP 求解器需要 \(O(N^{2 + 1/18})\) 时间的一般线性规划问题的巨大改进（引用 Jiang et al. (2020)）。

子线索聚类¶

被引文献大致落在三条子线索上：

A. Fisher 检验的泛化与“弱零假设”：以 Caughey et al. (2021)、Fogarty (2020, 2019)、Rigdon & Hudgens (2014) 为核心。它们通过放宽“尖锐零”假设（允许异质性效应），将随机化检验扩展到非参数分位数和平均效应，但各自有计算、结局类型或分层数上的限制。
B. 灵敏性分析与部分可识别性：以 Rosenbaum (2002a)、Ding & VanderWeele (2016)、Zhao et al. (2019)、Fogarty (2020) 为代表。这类文献关注未测量混杂对结论的扭曲程度，但此前几乎全部集中在平均效应上。Fogarty (2020) 是唯一覆盖 SATE 异质性的学生化分析。
C. 计算效率与大规模优化：以 Jiang et al. (2020)、Yu & Rosenbaum (2019, 2022) 为代表。它们在匹配、LP 求解等场景中使用了动态规划、阶梯匹配等高效组合优化方法。本文借鉴了这一分支的精力——将组合加速用于随机化推断本身。

这个方向在追问的核心问题¶

对于指定分位数 \(\tau\)，ITS 的精确置信区间有多宽，能否被 tight？
计算框架能否在合理时间内处理 \(n > 10^4\) 的分层/匹配设计？
灵敏性分析对分位数效应的威胁有多大——与传统平均效应相比是更大还是更小？
可否将这种方法推广到非分层/非匹配的观察研究设计（如倾向得分加权、双重稳健）？

⚠️ 作者 framing¶

作者把缺口 frame 成“现有工作（Caughey et al. 2021）只给出单分位点推断而缺乏有效计算，且未覆盖匹配观察研究与灵敏度分析” → 再通过“多选择背包 + 精确/轻微保守解”来桥接。他们有意淡化的是： - 竞争路线 A（Fogarty 2019, 2020）：这些工作用了 studentized permutation 处理 SATE，但作者认为“分位数是更稳健的泛函”——这是主观判断，不是严整比较； - 竞争路线 B（Lu et al. 2018; Huang et al. 2019）：它们针对有序/二值结局的受益比例提出了 sharp bound，但作者认为“只有边界、无整体推断”——实际上 Huang 等人也有随机优化思路，但聚焦在概率而非分位数。 - 明显该被引/该存在却未出现的文献：没有引用半参数效率理论中关于个体效应分布分位数的效率界（如 Bickel et al. 1993 中的相应部分），也未讨论基于 influence function 的 DML 方法来做分位数推断——后者是整体因果推断中常用但需渐近近似的路线，与本文的无分布、组合路线形成天然对比。值得研究者自己去查：是否存在已知的极小极大下界或效率界，以用于对比本文实例的渐近有效性。

张力¶

未见明显对立引用。所有被引工作基本在补充（而非矛盾）彼此结果：Caughey 等人做了分位数推断但计算受限，Fogarty 做了 SATE 但未涉及分位数，互不冲突，都是本文的“直接先行工作”。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号：
- \(N\)：个体总数。实验被划分为 \(S\) 个层（strata，如年龄/性别单元格），层 \(s\) 内有 \(n_s\) 个个，\(N = \sum_{s=1}^S n_s\)。
- \(Z_i \in \{0, 1\}\)：处理分配指示变量，在层内完全随机化，层 \(s\) 内分配给处理的单位数为 \(m_s\)，对照为 \(n_s - m_s\)。
- \((Y_i(1), Y_i(0))\)：个体 \(i\) 的潜在结果对——这是不可观测的潜在量；实际观测到的只有 \(Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)\)。
- \(\tau_i = Y_i(1) - Y_i(0)\)：该个体的处理效应——同样不可观测。
- \(\vec{\tau} = (\tau_1, \ldots, \tau_N)\)：效应向量。我们关心的是经验分位数 \(Q_\tau(\vec{\tau}) = \inf\{ \alpha : \frac{1}{N} \sum_{i=1}^N \mathbf{1}\{\tau_i \leq \alpha\} \geq \tau \}\)——即个体处理效应分布的第 \(\tau\) 分位。
- Estimand：对于预设的 \(\tau\)，能否构造一个随机集 \(C_{1-\alpha}(\mathcal{D})\)，使得 \(\mathbb{P}\{Q_\tau(\vec{\tau}) \in C_{1-\alpha}(\mathcal{D})\} \geq 1-\alpha\)？（覆盖概率仅由物理随机化保证。）
模型：
- 数据生成机制：无模型，无分布假设。仅在层内完全随机化——这是物理随机化，是唯一的概率源。\(\vec{\tau}\) 是固定值，不被模型生成。观察到的 \(Y_i\) 是 \(\tau_i\) 在随机化下的随机“单元素呈现”。
可观测 vs. 不可观测：
- 可观测：\(Z_i, Y_i, S\)（层标签）。
- 不可观测：\(\tau_i, Y_i(1), Y_i(0)\)。我们永远无法同时看到二者。

第二步：最小内核¶

用最简单的两层、每层 2 人的例子讲清核心思路：

设定：\(S=2\)，每层 \(n_s=2\)，处理组 \(m=1\)，对照组 \(n-m=1\)。一共 4 人。固定每人 \(\tau_i\)——未知。
Estimand：第 \(\tau=0.5\) 分位（中位数）\(Q_{0.5}(\tau_1,\tau_2,\tau_3,\tau_4)\)。
核心问题：给定 \(Y = (y_1, y_2, y_3, y_4)\) 和 \(Z = (1,0,1,0)\)，检验 \(H_0: Q_{0.5}(\vec{\tau}) \le c_0\) 还是 \(H_0: Q_{0.5}(\vec{\tau}) \ge c_0\)？

推导思路（Cauchy 等最关键的想法）：

降为“有多少个体满足 \(\tau_i > c_0\)”。中位数小于等于 \(c_0\) ⇔ 至少 2 个个体的 \(\tau_i \le c_0\) ⇔ 至多 2 个个体的 \(\tau_i > c_0\)。因此检验中位数等价于检验被处理个体中 \(\tau_i > c_0\) 的数量是否超过一个阈值。
对每个个体，若其 \(\tau_i > c_0\)，则 \(Y_i(1) > Y_i(0) + c_0\)；若 \(\tau_i \le c_0\)，则 \(Y_i(1) \le Y_i(0) + c_0\)。但 \(Y_i(0)\) 未知——所以直接检查个体是不可能的。
然而，在层内，处理分配完全随机化。在层 \(s\) 内，观察到的处理后结果集合 \(\{Y_i(1)\}\) 和对照结果集合 \(\{Y_i(0)\}\) 是固定的。如果我们假设对层内某组内，恰好有 \(k_s\) 个人的个体效应 \(\tau_i > c_0\)，我们就可以推断出这 \(k_s\) 个人的 \(Y_i(1)\) 必须来自该层内最大值的子集，同样，\(Y_i(0)\) 来自对应最小值的子集。这意味着在每种可能的 \((k_s)\) 分配下，我们可以唯一确定观测到的 \(Y_i\)—\(Z_i\) 对中“违反 \(H_0\)”的最坏情况。将这个“最坏”写成关于单一指标 \(t_{s}(k_s)\) 的线性函数。
多选择背包：p-值等于在所有可能的层内“有多少效应大于阈值”的向量组合上，上标向量线性函数 \(t\) 的最大值——这是一个多选择背包问题：每层有 \(n_s\) 种可能的“\(k_s\) 值”（从 0 到 \(n_s\)），每个 (\(k_s\)) 对应一个成本 \(t_s(k_s)\)，背包容量是“总大于阈值的人数”的上限（由分位数定义决定）。求解这个背包——在 \(O(N\log N + N\max_s n_s)\) 时间——即可得到 p-值的上界，从而构造出精确或轻微保守的置信区间。

核心要点：即使我们永远不能观测到 \(\tau_i\)，物理随机化加上个体效应阈值划分的组合结构，使得 p-值计算退化为一个可高效求解的组合优化问题，而非穷举所有 \(2^N\) 种分配。

三、这篇论文做了什么¶

三句话¶

研究问题：在分层随机实验和匹配观察研究中，如何构造个体处理效应（ITE）分布分位数（如中位数、最大值）的精确置信区间，并对未测量混杂的影响进行灵敏度分析？
工具/方法：将检验分位数假设的随机化推断转化为多选择背包问题（MCKP），动态规划可实现 \(O(N\log N + N\max_s n_s)\) 的精确/保守解；在匹配观察研究中，引入优势比界 \(\Gamma\) 扩展灵敏度分析框架。
结论：构造的置信区间对所有分位点同时有效，覆盖概率不低于名义水平；在常效假设下，中位数退化为经典 Fisher 检验；算法在大中型样本（N=4642）上可行。

关键设定与假设¶

Stratified Randomized Experiment (SRE): \(S\) 个层；\(\sum n_s = N\)；处理组数 \(m = (m_1,\dots,m_S)\) 固定。仅有物理随机化——无抽样假设、无分布假设、无 SUTVA 之外的任何其他假设。
Matched Observational Study: 假设匹配集内个体在观测协变量上平衡，但允许存在未测量的混杂。作者采用标准的 Rosenbaum (2002a) 灵敏度分析框架：设 \(\Gamma \ge 1\)，同一匹配集内任意两个体被分配到处理组的优势比 \(\frac{\pi_{sa}/(1-\pi_{sa})}{\pi_{sb}/(1-\pi_{sb})} \le \Gamma\)。\(\Gamma=1\) 对应无未测量混杂。该假设相对于同类文献（Fogarty 2019）的主要区别在于：前者允许效应异质性但收敛于 SATE，而本作专注于分位数。
Outcome: 至少为区间量测，但不假设任何连续/光滑性。二值/有序结局是特例，但作者通过背包法一并覆盖。
相比已有文献的放宽/强化：与 Caughey et al. (2021) 相比，本文：
- 放宽：无单层设定，允许多层且计算复杂度为线性；
- 强化：从单分位点扩展到所有分位点同时有效，且包含灵敏度分析。

主要结果¶

定理 1（SRE 中分位数检验的精确性） 设定 \(H_0: Q_\tau(\vec{\tau}) \le c_0\)（或 \(\ge c_0\)），则 p-值的精确上界可通过求解对应的 MCKP 得到。通过反演，可构造名义水平 \(1-\alpha\) 的置信区间，其覆盖概率至少为 \(1-\alpha\)。直觉：p-值计算等价于：在所有可能的“不同层中作用大于 \(c_0\) 的人数组合”上最大化“被处理单位中作用大于阈值”的观察数，且总作用大于阈值的人数不超过某上限（由 \(\tau\) 定义）。

定理 2（匹配观察研究中灵敏性分析的覆盖概率） 在 Rosenbaum 灵敏性模型（\(\Gamma \ge 1\)）下，通过将背包的“成本”改为\(\Gamma\)-加权后的最坏状况，所得置信区间在未测量混杂不超过 \(\Gamma\) 时仍保持名义覆盖。直觉：将匹配集内的 \(t_s(k_s)\) 修正为“考虑 \(\Gamma\) 后的最坏处理分配可能性”即可。

定理 3（同时有效性） 当 \(\tau = 0\) 或 \(\tau = 1\) 时（即最大值/最小值），上述框架退化为经典的常效假设下的 Fisher 检验。直觉：当只关心“最小/最大”时，“有多少个体效应大于阈值”的背包容量变为 1 或 0，退化为单点检验。

证明路线与技术技巧¶

整体路线：

降维处理：将分位数检验转化为“效应大于给定阈值的个体数”的多重假设。
层内上界构造：在层 \(s\) 内，采用“效应 \(>c_0\) 的人数”\(k_s\) 作为自由变量，将“观测到多少被处理的 unit 符合 \(Y_i(1) - Y_i(0) > c_0\)”在其最坏分配下的总和写为 \(t_s(k_s)\)。[技术关键：这里有闭式解——即 Caughey et al. (2021) 的引理简化，可一步算得 \(t_s(k_s)\)]。
组合优化：p-值 ≤ \(\max_{k_1,\dots,k_S} \sum t_s(k_s)\)，其中约束 \(\sum k_s \le N\tau\)（对于 \(H_0: Q_\tau \le c_0\)）。这完全符合 MCKP（每层选择一种状态）。
背包的动态规划：利用 DP 在 \(O(N\log N + N\max_s n_s)\) 内得到精确 p-值；或者采用 贪心近似（每层按 \(\Delta t_s / \Delta k_s\) 排序并在总容量限制下贪心选取）得到保守解（p-值稍大）。
灵敏度扩展：将 \(t_s(k_s)\) 替换为“在优势比 \(\Gamma\) 内，最坏处理分配下比阈值大的匹配数”——这个最坏分配仍然可闭式计算（Rosenbaum 框架中的经典结构：极端分配是让效应小的那些人被优先处理）。
反演：对每个固定的 \(c_0\) 值区间做二分搜索，得到置信区间。

关键跳跃点： - 将“分位数检验”转化为“计数检验”（来自 Caughey et al. 的基本观察）； - 闭式给出 \(t_s(k_s)\) 的表达式（特别是分层情形下各层间独立的优势）； - 背包优化：本文将此最大化表述为 MCKP，且解法比通用线性规划（CLP，需 \(O(N^{2+1/18})\)）快 4-6 个数量级。

技术技巧点名： - MCKP 的动态规化：在第 4-5 节的算法核心，是用一个近似系数 \(O(1)\) 的贪心法（在中等 N 下达到最优）。 - Rosenbaum 灵敏度模型下的 “extreme assignment”：应用于第 5 节的灵敏度分析；利用在给定 k_s 下，观测到的差异的上界是通过将“低效应个体”全部分配到处理组达到的。 - 夹逼反演：用于从中位数分位数检验构造置信区间。

真实例子¶

数据来源：Lalive et al. (2006) 关于奥地利失业保险改革的数据集。

场景：2000 名左右男性失业者，被分为高、中等、低津贴组（三组）；对照组是未受改革影响者。分层标准：个人身份（组别）；匹配标准：年龄、工资、工作年限（1:6 匹配——使用 MatchIt, Ho et al. (2011) 和 Yu & Rosenbaum (2019) 的最优匹配）。
本文方法应用：对失业周数作为结局，构造： (i) 中位数 ITE 的置信区间（803 天左右）； (ii) 90% 分位点 (很高效应) 的区间； (iii) 最大值（实际上常效假设的 Fisher p-值）。
结果：当 \(\Gamma=1\)（无混杂）时，中位数效应约为 +30 天（津贴延长 → 失业时间增加）；90% 分位效应为 +264 天。当 \(\Gamma = 2\) 时，中位数的区间下界变为 0（效应不再显著），而最大值仍显著——这展示了灵敏度在分位点大幅和最大值之间的差异：高风险个体的效应对外部混杂更敏感。
例子想说明：(a) 方法在几千人的实际数据上可运行；(b) 分位数结果比均值提供更多关于效应分布的细节（如大部分受助者效应温和，但少数人效应极大）；(c) 灵敏度分析揭示：极值效应可能很稳健，但中位数并不。

🔎 结论是否比证明窄¶

定理 1-3 的证明完全对应其声称。无过度 claim。
但算法部分的一个可能差距：作者声称贪心近似（Algorithm 2, 倒数第三段）是“slightly conservative”。他们在附录中提供了多项模拟验证——但他们未证明在有限 N 下的最坏-case 保守性理论上界（例如 p-值最多被 inflate 多少）。这是一个未解答但非常自然的后续理论问题（对此，作者在补注中说“我们选择牺牲一点统计效率来换取计算可行性”——这是诚实声明。）

四、开放问题（留白）¶

最坏-case 保守性界：贪心 MCKP 近似对 p-值的 inflation 有可证明的上界吗？(扎根：Algorithm 2 描述；作者在 §4.5 中说“slightly conservative”但无定量界。)
带状同时置信区间：能否为整个 \(\tau \in (0,1)\) 的分位数函数构造同时有效的置信带，而不仅是各分位点独立区间？(扎根：§1 末节“……simultaneously valid for all quantiles”——但他们只证明了每个分位点的区间同时有效，而非一致的联合带。)
连续协变量调整下的推广：对于基于倾向得分加权（IPW）而非匹配的观察研究，本文的组合方法能否扩展？(扎根：§5 节只覆盖了匹配设定。)
与 DML 分位数推断的比较：当置信区间变宽时，它们是否接近 semiparametric efficiency bound（如果存在）？与 influence-function-based 渐近置信区间相比，本文的组合方法的相对效率如何？(扎根：intro 完全未提及半参数效率理论，遗忘了这一竞争路线的存在——值得查。)

Maintained by 陈星宇 · Homepage · Source on GitHub