Conformal Causal Inference for Cluster Randomized Trials: Model-robust Inference Without Asymptotic Approximations¶

作者: Bingkai Wang, Fan Li, Mengxin Yu
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在群随机试验（Cluster Randomized Trials, CRT）中，当群组数量有限甚至较小、渐近理论（要求群组数 \(J \to \infty\)）失效或不靠谱时，如何对因果效应（特别是反事实结果的差异）进行严格、有限样本有效的统计推断。当前该方向的成熟度处于"渐近方法仍是绝对主流，但有限样本/模型稳健的替代框架（如共形推断、随机化推断）正在快速渗透"的阶段。

发展脉络（history）： - 奠基工作：传统 CRT 推断的基石是基于混合效应模型或 GEE 的渐近理论，典型如 Donner & Klar (2000) 与 Hayes & Moulton (2009)，它们确立了以群组为分析单位的渐近正态性框架，但留下了"群组数较少时渐近近似失效"的口子。 - 主要进展：为修补渐近推断在小样本下的缺陷，两条路线兴起：一是基于设计（而非模型）的随机化推断（如 Gail et al. 1996; Fay et al. 2022），作者引用其原话指出这类方法"does not rely on asymptotic approximations"，但往往难以灵活引入基线协变量以提升精度；二是共形推断（Vovk et al. 2005; Shafer & Vovk 2008），在预测领域确立了有限样本覆盖保证，但未触及因果反事实设定。 - 当前 frontier：近年共形推断开始向因果推断渗透，如 Chernozhukov et al. (2021) 将共形方法用于条件平均处理效应（CATE）的推断，作者引用指出其"under i.i.d. super-population setting"——这留下了在非 i.i.d.（具有群组内依赖结构）的 CRT 设定下如何做共形因果推断的空白。 - 本文的位置：本文填补了上述空白，将共形推断从 i.i.d. 个体水平设定移植到具有群组依赖结构的 CRT 中，用随机化机制（而非 i.i.d. 假设）来担保有限样本有效性，并允许嵌入任意机器学习工作模型以提升精度。

子线索聚类： 1. 基于模型的渐近推断：依赖群组数趋于无穷的渐近正态性（如混合效应模型、GEE），允许引入协变量但小样本下覆盖率常偏低。 2. 基于设计的随机化推断：利用 CRT 的物理随机化机制，有限样本严格有效，但传统版本（如置换检验）难以系统整合高维基线协变量。 3. 共形预测/推断：在 i.i.d. 假设下提供有限样本无分布（distribution-free）的预测覆盖保证，近期开始向因果推断（反事实预测）延伸，但尚未解决群组依赖与 CRT 随机化机制的适配问题。

这个方向在追问的核心问题： 1. 在 CRT 中，当群组数有限时，如何获得有限样本严格有效的因果推断？（已知渐近方法失效，随机化推断是出路但协变量整合难） 2. 如何在保持有限样本有效性的同时，充分利用基线协变量（甚至用黑盒 ML）提升推断精度？（已知纯随机化推断精度常不足，引入协变量又怕破坏有限样本保证） 3. 推断目标是否只能停留在平均处理效应（ATE），能否对个体/群组的反事实差异提供有保证的预测区间？（已知 ATE 渐近推断成熟，但个体水平反事实预测的有限样本推断几乎空白）

⚠️ 作者的 framing： - 作者把缺口 frame 成：传统渐近推断依赖 \(J \to \infty\) 且只盯 ATE，而现有共形因果推断只适用于 i.i.d. 个体数据——CRT 的群组结构与随机化机制恰好是共形推断尚未征服的领地，因此将共形与 CRT 随机化结合是"显然的下一步"。 - 被淡化/回避的竞争路线：作者对纯随机化推断（Fay et al. 2022）只一笔带过其"不依赖渐近"的优点，未深入比较其在协变量调整上的具体瓶颈；对基于模型的稳健渐近方法（如 CRVE 等聚类稳健方差估计）也未讨论其在小 \(J\) 下的实际表现（如 wild bootstrap 等）。 - 明显该被引却未出现的：小样本 CRT 的 bootstrap 方法（如 Webb 的 wild bootstrap 变体、或 Cameron & Miller 2015 讨论的小 \(J\) 稳健推断），以及半参数效率理论在 CRT 下的近期进展（如 Balzer et al. 的工作）——这些是"有限样本/小 \(J\) 推断"的直接竞争者，缺失意味着作者有意将舞台留给共形框架。

张力：未见明显对立引用。不同路线（渐近 vs 随机化 vs 共形）更多是互补设定而非矛盾结论，但存在隐含张力：渐近路线声称"只要 \(J\) 够大，模型错设下 CRVE 仍有效"，而随机化/共形路线声称"\(J\) 小时渐近不可靠，必须靠设计/交换性"——这两者在不同 \(J\) 阈值下的优劣切换点尚未有明确理论界定。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(J\)：群组总数（有限，不要求趋于无穷）。
\(N_j\)：第 \(j\) 个群组内的个体数，\(j=1,\dots,J\)。
\(Z_j\)：群组水平的处理分配变量，在 CRT 中通常为二值 \(Z_j \in \{0,1\}\)，整个群组接受同一处理。
\(W_{ij}\)：第 \(j\) 群第 \(i\) 个个体的基线协变量向量（处理前观测，不受 \(Z_j\) 影响）。
\(Y_{ij}(1), Y_{ij}(0)\)：个体 \(ij\) 的两个潜在结果。
\(Y_{ij}\)：可观测结果，\(Y_{ij} = Z_j Y_{ij}(1) + (1-Z_j) Y_{ij}(0)\)。
可观测数据：对每个群组 \(j\)，我们观测到 \((Z_j, \{W_{ij}, Y_{ij}\}_{i=1}^{N_j})\)。注意：我们永远只能观测到每个个体的一个潜在结果，另一个是反事实/不可观测的。
目标 estimand：不是 ATE，而是反事实差异 \(\Delta_{ij} = Y_{ij}(1) - Y_{ij}(0)\)（个体水平）或其群组聚合版本的预测区间——即在相同目标人群中，对新个体/群组的 \(\Delta\) 给出一个有限样本覆盖保证的区间。

第二步：最小内核——最简特例（\(J\) 群、二值处理、无协变量）

剥掉所有协变量调整和 ML 工作模型，最小内核是：在 CRT 的物理随机化下，如何用共形思想对反事实差异构造有限样本有效的预测区间？

设 \(J\) 个群组，\(Z_j\) 由完全随机化分配（如 \(m\) 群处理、\(J-m\) 群对照），无协变量 \(W\)。目标：对新群组 \(j^*\)（同目标人群），对其群组平均反事实差异 \(\Delta_{j^*} = \frac{1}{N_{j^*}}\sum_i (Y_{i j^*}(1) - Y_{i j^*}(0))\) 构造预测区间。

核心困难：\(\Delta_{j^*}\) 的两个分量永远不能同时观测——同一群组要么全在处理组（观测 \(Y(1)\)），要么全在对照组（观测 \(Y(0)\)）。

本文破局的关键想法（最小内核走法）： 1. 构造"虚拟残差"：定义 \(R_j(1) = Y_j(1) - \mu_1\)，\(R_j(0) = Y_j(0) - \mu_0\)，其中 \(\mu_z\) 是某工作模型给出的预测（无协变量时即常数均值）。反事实差异 \(\Delta_{j^*} = R_{j^*}(1) - R_{j^*}(0) + (\mu_1 - \mu_0)\)。 2. 利用随机化保证交换性：在完全随机化下，处理组观测到的残差 \(\{R_j(1): Z_j=1\}\) 与对照组观测到的残差 \(\{R_j(0): Z_j=0\}\)，在潜在结果联合分布固定时，因 \(Z\) 的随机分配而具有特定的排列对称性（交换性）。 3. 共形预测的排列论证：对新群组 \(j^*\) 假设其被分配到处理（虚拟），则 \(R_{j^*}(1)\) 与已观测处理残差集合的联合分布满足排列对称性。通过枚举所有可能的 \(Z\) 分配排列，可以精确计算 \(R_{j^*}(1)\) 在残差集合中的秩分布——这给出了 \(R_{j^*}(1)\) 的有限样本预测区间。同理对 \(R_{j^*}(0)\)。 4. 组合两个反事实预测：将 \(R_{j^*}(1)\) 和 \(R_{j^*}(0)\) 的预测区间与 \((\mu_1 - \mu_0)\) 的点估计结合，通过 Bonferroni 或更精细的联合排列论证，得到 \(\Delta_{j^*}\) 的有限样本覆盖保证预测区间。

为什么成立：整个论证不依赖任何渐近近似，只依赖 CRT 的物理随机化机制（\(Z\) 的分配方案已知且可控）和潜在结果固定下的排列对称性。这是经典置换检验思想与共形预测框架的深度融合——最小内核揭示了本文的本质：用 CRT 的随机化设计替代 i.i.d. 假设，为共形因果推断提供有限样本保证的基石。

三、这篇论文做了什么¶

三句话： ①研究了在群随机试验（CRT）中如何对反事实差异（个体/群组水平处理效应）进行有限样本有效的预测推断； ②核心工具是将共形推断的排列论证与 CRT 的物理随机化机制结合，并允许嵌入任意 ML 工作模型调整协变量； ③主要结论是证明了该框架在任意工作模型（含错设 ML）下均提供有限样本覆盖保证，且协变量调整能缩窄区间宽度。

关键设定与假设： - 设定：有限 \(J\) 个群组的 CRT，群组水平完全随机化分配 \(Z\)，群组内个体间存在任意依赖（不要求 i.i.d.），基线协变量 \(W\) 可观测。 - 假设 A1（潜在结果框架）：采用 SUTVA 的群组版本——群组 \(j\) 的潜在结果只依赖本群处理 \(Z_j\)，不受其他群分配影响（无溢出效应）。 - 假设 A2（随机化机制）：\(Z\) 的分配遵循已知完全随机化方案（如固定 \(m\) 群处理），这是排列论证的基石——相比 i.i.d. 共形推断的"样本可交换性"假设，本文用物理随机化替代了分布假设。 - 假设 A3（目标人群稳定性）：新群组/个体的潜在结果与观测群组同分布（或更弱：同排列对称结构）——这是预测推断（而非纯检验）所必需的。 - 放宽/强化：相比渐近方法，强化了"有限样本保证"、放宽了"群组数趋于无穷"和"模型正确设定"；相比 i.i.d. 共形因果推断，放宽了"个体独立同分布"假设、强化了"群组内依赖结构需被随机化机制覆盖"。

主要结果： 1. 定理 1（有限样本覆盖保证，核心定理）：在 CRT 随机化下，对群组水平反事实差异 \(\Delta_{j^*}\) 的共形预测区间 \(\hat{C}\)，满足 \(\Pr(\Delta_{j^*} \in \hat{C}) \ge 1-\alpha\)，其中概率 \(\Pr\) 在 \(Z\) 的随机化分布下计算（潜在结果固定）。直觉：排列论证保证新群组残差的秩分布可精确计算，覆盖概率是离散排列空间的精确计数，无渐近近似。必要条件：完全随机化、SUTVA（无溢出）、目标人群与观测群组共享排列对称性。解决的技术难点：在非 i.i.d.（群组依赖）且反事实不可观测的双重障碍下，如何构造可计算且严格有效的预测区间。 2. 定理 2（模型稳健性）：任意工作模型 \(\hat{\mu}(W)\)（含错设、含黑盒 ML）代入残差定义后，定理 1 的覆盖保证不变。直觉：残差的排列对称性只依赖随机化机制，与 \(\hat{\mu}\) 的形式无关——错设只影响残差方差（从而区间宽度），不影响覆盖概率。这比渐近方法中错设导致置信区间覆盖失效的情形有本质优势。 3. 定理 3/4（协变量调整缩窄区间）：若工作模型 \(\hat{\mu}\) 解释了 \(W\) 中更多变异，残差方差缩小，预测区间宽度相应缩窄——提供了"精度提升但不牺牲覆盖保证"的定量刻画。

证明路线与技术技巧： - 整体路线（5 步主干）： 1. 定义反事实残差 \(R(z) = Y(z) - \hat{\mu}_z(W)\)，将目标 \(\Delta\) 分解为残差差异 + 工作模型差异。 2. 在 CRT 随机化下，证明处理组/对照组残差集合的联合分布满足排列对称性（关键引理：潜在结果固定时，\(Z\) 的任意合法排列产生等概率的残差观测模式）。 3. 对新群组虚拟分配处理/对照，利用排列对称性计算其残差在已观测残差集合中的秩分布，构造单侧反事实残差的共形预测区间。 4. 通过联合排列论证（或 Bonferroni），将两个反事实残差的预测区间组合为 \(\Delta\) 的预测区间。 5. 证明工作模型的错设只改变残差尺度（影响区间宽度），不改变排列对称性（不影响覆盖概率）——模型稳健性得证。 - 关键跳跃点：步骤 2 的排列对称性引理是全证明的基石——在群组内存在依赖、且工作模型可能跨群组拟合（如用全部数据训练 ML）时，如何保证残差的排列对称性不被破坏？作者的关键处理是：将工作模型视为固定函数（条件化于训练数据），则残差在潜在结果固定下仍是确定量，排列对称性只依赖 \(Z\) 的随机化——这一"条件化"跳跃绕过了 ML 模型复杂依赖结构对对称性的威胁。 - 技术技巧点名： - 排列检验/置换推断：用 CRT 随机化方案的排列空间替代 i.i.d. 共形推断中的样本可交换性，是框架移植的核心工具。 - 条件化论证：将 ML 工作模型条件化视为固定，剥离其对排列对称性的影响，保证模型稳健性。 - 反事实残差分解：\(\Delta = R(1) - R(0) + (\hat{\mu}_1 - \hat{\mu}_0)\)，将不可观测的反事实差异转化为可计算的残差预测问题。 - 分位数计算：通过离散排列空间的秩分布精确计算共形分位数，无需渐近分布近似。

真实例子与应用： - 数据/场景：一个已完成的慢性疼痛治疗 CRT（SPIN trial，原文 Section 5），群组为临床站点，处理为心理干预，结局为疼痛强度评分。 - 怎么用上去：将本文的共形因果推断方法应用于 SPIN 数据，用 ML 工作模型（如随机森林）拟合基线协变量（抑郁评分等）对结局的预测，构造群组水平和个体水平处理效应的预测区间。 - 得到什么结果：预测区间在有限样本下达到名义覆盖率（模拟验证），且 ML 调整后的区间宽度显著窄于无协变量版本——验证了"模型稳健覆盖 + 协变量缩窄宽度"的理论承诺。 - 想说明什么：验证理论在真实 CRT 数据上的可行性，展示相对于传统渐近方法（在小 \(J\) 下覆盖率常偏低）和纯随机化推断（区间过宽）的实际优势。

🔎 结论是否比证明窄： - 作者在摘要和引言中泛泛 claim 该框架"compatible with arbitrary working outcome models including data-adaptive machine learning methods"，但严格证明中（定理 2）实际条件化于已拟合的固定模型——即证明的是"给定任意固定函数 \(\hat{\mu}\)，覆盖保证成立"，而非"对任意数据自适应拟合过程（含交叉验证、超参数选择等随机性）的联合分布覆盖保证"。这一缝隙在正文条件化论证中是明确的，但摘要的表述略宽。研究者需注意：若拟合过程本身引入额外随机性（如样本分割），需额外论证其与排列对称性的兼容性——作者在算法实现中用了样本分割，但理论定理未显式覆盖这一联合随机性。

四、开放问题（点到为止，扎根具体语句）¶

溢出效应下的共形因果推断：本文核心假设 A1（SUTVA，无溢出）排除了处理跨群组影响的情形。要证/估什么：在部分溢出设定下（如 \(Y_{ij}(z)\) 依赖邻近群组的 \(Z\)），排列对称性如何修改，能否仍构造有限样本覆盖保证的预测区间？扎根点：正文假设 A1 及其讨论"no interference between clusters"。
样本分割与排列对称性的联合论证：理论定理条件化于固定工作模型，但算法实现用了 cross-fitting/样本分割。要证什么：在拟合过程随机性（样本分割）与 \(Z\) 随机化联合下，覆盖概率的精确有限样本界是什么？扎根点：定理 2 的条件化陈述 vs 算法 1 的 cross-fitting 实现——两者间的缝隙。
非完全随机化 CRT 的适配：本文限于完全随机化（固定 \(m\) 群处理）。要估什么：在限制随机化（如 stratified CRT、rerandomization）下，排列空间受限，共形分位数的计算与覆盖保证如何调整？扎根点：假设 A2 限定为"complete randomization"，未触及更复杂设计。
区间宽度的定量最优性：定理 3 证明协变量调整缩窄区间，但未给出宽度下界。要估什么：在给定随机化方案与工作模型类下，共形预测区间宽度的 minimax 下界是什么？扎根点：定理 3 只给"缩窄"的定性结论，未触及效率界——这是半参数效率理论可切入的口子。

（要确认某条是否真 gap，建议读 CRT 推断近 5 篇 intro：若都指向"溢出/小样本/设计适配"= 共识真 gap；若互相打架 = 机会。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Conformal Causal Inference for Cluster Randomized Trials: Model-robust Inference Without Asymptotic Approximations¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论