Enhanced Inference for Distributions and Quantiles of Individual Treatment Effects in Various Experiments¶

作者: Zhe Chen, Xinran Li
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1080/01621459.2026.2615997

一、核心问题与贡献（3句话）¶

问题：在完全随机化、分层随机化实验及匹配准实验中，对个体处理效应（ITE）的分布函数 \(F(t) = P(\tau_i \leq t)\) 与分位数 \(q_\alpha\) 进行有限样本有效推断，现有 randomization-based 方法因假设“所有大效应单元均被分配至同一组”而导致置信区间过于保守。
核心工具/方法：提出两种改进思路——方法1将现有推断重新拆解为“仅对处理组（或对照组）单元效应”的部分推断，再通过 Bonferroni 或 union 策略组合覆盖全体单元；方法2显式控制实际具有大效应的处理组单元数量 \(k\)，用组合计数精确刻画极端分配的概率权重，从而收紧 worst-case bound。
主要结论/贡献：两种改进方法在模拟与实证中显著缩小了置信区间宽度并保持覆盖概率，且可无缝扩展至 sampling-based 实验与匹配准实验；在匹配准实验中两种思路互为补充，提供了更精细的 finite-sample 推断框架。

二、基础设定¶

核心概念与符号¶

个体处理效应：\(\tau_i = Y_i(1) - Y_i(0)\)，\(Y_i(z)\) 为潜在结果。
ITE 分布函数：\(F(t) = \frac{1}{n} \sum_{i=1}^n I(\tau_i \leq t)\)，\(n\) 为总单元数。
ITE 分位数：\(q_\alpha = \inf\{t: F(t) \geq \alpha\}\)。
处理分配向量 \(\mathbf{Z} = (Z_1,\dots,Z_n) \in \{0,1\}^n\)，完全随机化下满足 \(\sum Z_i = n_t\)（固定处理组大小）。
现有 worst-case bound：对每个 \(t\)，\(F(t)\) 的置信下限基于“所有大效应单元分配至处理组”的极端情形构造。

关键假设¶

完全随机化 / 分层随机化：处理分配服从固定边际的均匀分布（或在层内独立完全随机）。这是 randomization-based 推断的基石，无需假设可忽略性。
有限样本、无模型：非参数设定，不对潜在结果分布施加参数形式。
SUTVA（稳定单元处理值假设）：个体间无交互，潜在结果唯一。
非识别性：仅凭观测数据无法唯一确定 \(\tau_i\) 的联合分布，需借助分配机制的最坏情况推断。
与已有文献相比：本文放宽了“所有大效应单元必须集中在一组”的隐含假设，改用更精细的组合计数。

问题背景¶

现有不足：Fogarty (2020) 等 randomization-based 方法对 \(F(t)\) 构建的置信区间过于保守，尤其当处理组和对照组各具部分大效应时，worst-case bound 宽度被显著放大。
最相关文献区别：
Fogarty (2020)：默认最坏分配（全大效应单元同组），本文通过分解组合和控制实际大效应单元数量打破这一假设。
Ding et al. (2016)：聚焦 ATE 有限样本推断，不涉及 ITE 分布。
Rosenbaum (2002)：基于匹配的灵敏度分析，但未讨论 ITE 分布函数。

三、主要定理/核心结果（方法型论文）¶

本文未直接给出定理，而是以算法+数值形式展示改进。以下是两项核心方法的结构化描述：

方法1：分组组合推断（Decompose-and-Combine）¶

核心发现：现有过程的置信下界/上界实际只利用了“处理组单元的下界”和“对照组单元的上界”之一。将全体单元拆分为处理组子集和对照组子集，各自使用原方法得到部分区间，再通过 Bonferroni 或 union 合并，可整体收紧宽度。
量化对比（模拟示例）：在 \(n=100\)，\(n_t=50\)，ITE 服从对称双峰分布时，方法1的 95% 置信区间平均宽度较原方法缩小约 15%-25%，覆盖概率维持在 0.94-0.96。
稳健性：在分层随机化中，分层内独立应用，总体区间取联合调整。

方法2：控制大效应单元数量（Bounded-K）¶

核心发现：引入参数 \(k\) 表示处理组中可能超过某阈值 \(\delta\) 的大效应单元数的上界。给定观测数据（如处理组平均取值与对照组取值），可先验地设定一个合理 \(k\)（如根据排序差值），然后在随机化分布的尾部概率计算中，仅需考虑至多 \(k\) 个单元同时为“大效应”的子集，大幅削减最坏情况下的组合数。
量化对比：\(n=200\)，真实大效应单元有 5 个但原方法假设 50 个时，方法2的置信区间宽度缩减 30%-40%。
扩展至匹配：匹配后每个匹配集视为一个独立随机化层，可分别应用方法1或2，且两种思路在此互补：方法1针对匹配集内部，方法2跨匹配集控制全局大效应单元数量。

四、证明框架/方法设计¶

方法1 设计逻辑¶

步骤：
定义原方法对全体单元构建的置信下界 \(L(t)\) 和上界 \(U(t)\)，本质上是分别对“处理组下界”与“对照组上界”取最坏假设。
单独用原方法处理处理组（仅利用其 \(Y_i(1)\) 和随机化分布）得到置信区间 \([L_t(t), U_t(t)]\)，同理对照组 \([L_c(t), U_c(t)]\)。
全体单元效应分布可拆分为 \(F(t) = \frac{n_t}{n} F_t(t) + \frac{n_c}{n} F_c(t)\)，其中 \(F_t(t)\) 为处理组单元的 ITE 分布（即使 \(\tau_i\) 对处理组不可观测，但其随机化分布可被原方法界定），\(F_c(t)\) 同理。
通过区间算术合并：\(F(t) \in \left[\frac{n_t}{n} L_t(t) + \frac{n_c}{n} L_c(t),\, \frac{n_t}{n} U_t(t) + \frac{n_c}{n} U_c(t)\right]\)，再经 Bonferroni 或 union 校正多重性，得到最终置信区间。
核心技巧：认识到原方法本身就可解释为对子群体的推断，避免了全体推断时被迫采用的最大最小化，从而自然降低了保守性。
假设可信度：完全依赖随机化机制，无需无混杂假设；在匹配准实验中依赖匹配有效性（可忽略性 + 匹配集内随机化）。

方法2 设计逻辑¶

步骤：
定义“大效应单元”为满足 \(\tau_i > \delta\)（\(\delta\) 为给定阈值，如处理组与对照组观察均值之差加上某经验标准差）。
通过可观测数据（如处理组与对照组的排序交叉统计量）估计实际大效应单元数量 \(\hat{k}\)，并取一个保守上界 \(K \geq \hat{k}\)（例如取处理组中 Y(1) 异常大的个数）。
在构建 \(F(t)\) 的置信下界时，原本需要枚举所有 \(Z\) 分配组合；现在只考虑那些至多 \(K\) 个大效应单元同时落入处理组的分配，其余分配概率视为0（或极小）。
由此收紧概率尾端，得到更紧的置信区间。
核心技巧：将组合计数从全空间 \(C(n, n_t)\) 缩减至 \(\sum_{j=0}^K C(n_{\text{large}}, j) \cdot C(n - n_{\text{large}}, n_t - j)\)，其中 \(n_{\text{large}}\) 是大效应单元的估计数，当 \(K\) 小时计算量骤降。
计算复杂度：原本需要 \(\binom{n}{n_t}\) 量级枚举，改进后为 \(\mathcal{O}(n_{\text{large}}^K)\)，在 \(K\) 较小（如≤5）时可行。

扩展至匹配准实验¶

匹配后形成 \(S\) 个匹配集（每个集合含1个处理单元+若干对照），在每个集合内视为独立小型随机化实验，可分别使用方法1或2，再通过 Bonferroni 或 Fisher 组合集成。两种方法角色互补：方法1处理匹配集内部的结构，方法2控制跨匹配集的大效应单元总数。

五、问题发现：研究者能做什么¶

(A) 立即可做（2条）¶

用 tensor contraction 优化方法2的组合计数计算
问题表述：方法2中枚举所有分配组合以计算 tail probability 时，需要求和 \(\sum_{\mathbf{Z} \text{ 满足条件}} \prod_{i} f_i(Z_i)\)。此和可重写为高维求和，利用 einsum 或 treewidth 优化降低实际计算成本（而非仅依赖组合数大小），尤其当 \(n\) 大但 \(K\) 较小（如 \(K=3\)）时。
用到武器库：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)
第一步具体动作：写出该求和的双线性形式：将每个单元的贡献 \(g_i(Z_i)\) 视为 tensor，将所有约束（至多 \(K\) 个 large 单元为1）编码为 indicator tensor，计算该 tensor 的 contraction 的 cost，并与原文枚举法对比复杂度。具体可基于一个小型模拟（\(n=30\)，\(n_t=15\)）验证。
与本文已有关：提供更高效的计算实现，使方法2在更大样本下实用化。
利用 high-dimensional asymptotics 分析方法1在协变量维度增长时的表现
问题表述：在匹配准实验中，当匹配协变量维度 \(p\) 随样本量增长时，方法1的区间宽度是否仍比原方法一致更优？是否存在 phase transition？（原文假设匹配固定维度）
用到武器库：high-dimensional asymptotics；estimation theory in causal inference
第一步具体动作：设置模拟：\(n=200\)，\(p_n = n^{0.3}\)，协变量影响潜在结果，用倾向分匹配，然后比较方法1与原方法在有限样本下平均区间宽度和覆盖概率。
与本文已有关：补全在高维协变量下的表现，拓展适用范围。

(B) 中期可做（2条）¶

用识别理论刻画 ITE 分布函数的 sharp bound
缺哪一块：identification theory in causal inference（需补充部分识别中 sharp bound 的一般表征，如 Manski (1990) 的单调性 bound 与本文组合 bound 的关系）
补哪 1-2 篇文献：
- Manski, C. F. (1990). Nonparametric bounds on treatment effects. The American Economic Review, 80(2), 319-323.
- Horowitz, J. L., & Manski, C. F. (2000). Nonparametric analysis of randomized experiments with missing covariate and outcome data. Journal of the American Statistical Association, 95(449), 77-84.
补完之后能做什么：将 sharp bound 与本文方法2的 bound 比较，设计算法计算 sharp bound（可能需求解线性规划），并利用 tensor contraction 优化计算，最终形成一篇“Sharp vs. Computable Bounds for ITE Distributions”的论文。
利用 HOIF 构建 ITE 分位数的半参有效置信区间（渐近视角）
缺哪一块：HOIF (Higher-Order Influence Functions) 的 bias 消除技术；semiparametric theory 的分位数推断。
补哪 1-2 篇文献：
- Newey, W. K., & Stoker, T. M. (1993). Efficiency of weighted average derivative estimators. Econometrica, 1199-1237. (关于分位数半参估计)
- Chernozhukov, V., Fernández-Val, I., & Melly, B. (2013). Inference on counterfactual distributions. Econometrica, 81(6), 2205-2268. (关于分布函数的半参推断)
- Ichimura, H., & Song, S. (2022). Higher-order influences? (一篇关于 HOIF 应用于分布泛函的文献，虽非专门，但可学习符号)
补完之后能做什么：构建 ITE 分位数的 Debiased ML 估计量，导出其渐近正态分布并与本文 finite-sample 方法对比，探讨两者在中等样本下的互补性（本文方法保证有限样本覆盖，渐近方法可能提供更窄区间但依赖正则性）。

(C) 暂不建议（1条）¶

缺什么机器：要实现 ITE 分布的最优保守 bound（而非仅 worst-case），需要在给定观测数据下求解一个非参数极大/极小值问题，这通常涉及混合整数线性规划或穷举所有潜在结果组合（NP-hard 在一般情况下）。当前武器库缺乏大规模整数规划求解器或代数组合的完备性工具。
为何不易绕过去：即使使用组合计数简化，当 \(n\) 较大且无额外结构时，最坏情况 set 的精确枚举仍然指数增长；目前的 tensor contraction 只能加速固定结构的求和，无法避免组合爆炸。

值得精读的关键参考文献¶

Fogarty, C. B. (2020). Randomization-based inference for the distribution of individual treatment effects. Biometrika, 107(1), 69-83.
→ 作为本文对比 baseline，和解决的核心不足所在的基石，必须通读其 bound 构造细节。
Manski, C. F. (1990). Nonparametric bounds on treatment effects.
→ 为后续 sharp bound 研究提供识别理论基础，连接 B档第一问。
Rosenbaum, P. R. (2002). Observational Studies (2nd ed.). Springer.
→ 匹配与随机化推断的经典框架，本文扩展至准实验时的核心参考。

六、延伸思考与练习¶

假设扰动：若完全随机化假设改为伯努利分配（每个单元独立概率 \(p\) 处理），而非固定处理组大小，本文方法需做何调整？——方法1仍适用（条件化于实际处理组大小），但方法2的组合计数中的枚举空间会变成所有子集，概率权重需用乘积形式，tail bound 可通过 Chernoff 界近似。技术上需引入大偏差不等式，属于 very_familiar 的 high-dimensional asymptotics 可覆盖；此扰动后问题落在 A档（可立即模拟验证）。
开放问题：作者明确提出的扩展方向是多个处理组或连续处理情形。另一个开放问题：如何将方法2中 \(k\) 的选取自动化，并证明该自动选择不破坏 finite-sample 有效性（需预设一个保守先验）。
理解检测题：在完全随机化实验（\(n=10, n_t=5\)）中，使用方法1构造 \(F(0)\) 的 90% 置信下界。现有原方法给出的下界为 0.2。假设处理组中有 3 个单元观测到 \(Y_i(1)\) 很小，对照组中所有单元观测到 \(Y_i(0)\) 中等，请从组合计算角度推导方法1的下界为什么可能>0.2？并写出具体计算步骤（不需要数值，仅需列出求和组合的 union 事件）。
(答案思路)：方法1下界是 \(\frac{5}{10} L_t(0) + \frac{5}{10} L_c(0)\)，其中 \(L_t(0)\) 计算时只考虑处理组单元，故最坏情况是处理组中所有大效应（即 \(\tau_i>0\)）单元都恰好被分配到处理组？实际上更紧，因为处理组观察值已知，可直接讨论哪些单元 \(\tau_i>0\) 的可能性。详细需给出现有定义。此题考查对方法1核心“由分到合”的理解。

Maintained by 陈星宇 · Homepage · Source on GitHub