Conformal Causal Inference for Cluster Randomized Trials: Model-robust Inference Without Asymptotic Approximations¶
作者: Bingkai Wang, Fan Li, Mengxin Yu
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在群随机试验(Cluster Randomized Trials, CRT)中,当群组数量有限甚至较小、渐近理论(要求群组数 \(J \to \infty\))失效或不靠谱时,如何对因果效应(特别是反事实结果的差异)进行严格、有限样本有效的统计推断。当前该方向的成熟度处于"渐近方法仍是绝对主流,但有限样本/模型稳健的替代框架(如共形推断、随机化推断)正在快速渗透"的阶段。
发展脉络(history): - 奠基工作:传统 CRT 推断的基石是基于混合效应模型或 GEE 的渐近理论,典型如 Donner & Klar (2000) 与 Hayes & Moulton (2009),它们确立了以群组为分析单位的渐近正态性框架,但留下了"群组数较少时渐近近似失效"的口子。 - 主要进展:为修补渐近推断在小样本下的缺陷,两条路线兴起:一是基于设计(而非模型)的随机化推断(如 Gail et al. 1996; Fay et al. 2022),作者引用其原话指出这类方法"does not rely on asymptotic approximations",但往往难以灵活引入基线协变量以提升精度;二是共形推断(Vovk et al. 2005; Shafer & Vovk 2008),在预测领域确立了有限样本覆盖保证,但未触及因果反事实设定。 - 当前 frontier:近年共形推断开始向因果推断渗透,如 Chernozhukov et al. (2021) 将共形方法用于条件平均处理效应(CATE)的推断,作者引用指出其"under i.i.d. super-population setting"——这留下了在非 i.i.d.(具有群组内依赖结构)的 CRT 设定下如何做共形因果推断的空白。 - 本文的位置:本文填补了上述空白,将共形推断从 i.i.d. 个体水平设定移植到具有群组依赖结构的 CRT 中,用随机化机制(而非 i.i.d. 假设)来担保有限样本有效性,并允许嵌入任意机器学习工作模型以提升精度。
子线索聚类: 1. 基于模型的渐近推断:依赖群组数趋于无穷的渐近正态性(如混合效应模型、GEE),允许引入协变量但小样本下覆盖率常偏低。 2. 基于设计的随机化推断:利用 CRT 的物理随机化机制,有限样本严格有效,但传统版本(如置换检验)难以系统整合高维基线协变量。 3. 共形预测/推断:在 i.i.d. 假设下提供有限样本无分布(distribution-free)的预测覆盖保证,近期开始向因果推断(反事实预测)延伸,但尚未解决群组依赖与 CRT 随机化机制的适配问题。
这个方向在追问的核心问题: 1. 在 CRT 中,当群组数有限时,如何获得有限样本严格有效的因果推断?(已知渐近方法失效,随机化推断是出路但协变量整合难) 2. 如何在保持有限样本有效性的同时,充分利用基线协变量(甚至用黑盒 ML)提升推断精度?(已知纯随机化推断精度常不足,引入协变量又怕破坏有限样本保证) 3. 推断目标是否只能停留在平均处理效应(ATE),能否对个体/群组的反事实差异提供有保证的预测区间?(已知 ATE 渐近推断成熟,但个体水平反事实预测的有限样本推断几乎空白)
⚠️ 作者的 framing: - 作者把缺口 frame 成:传统渐近推断依赖 \(J \to \infty\) 且只盯 ATE,而现有共形因果推断只适用于 i.i.d. 个体数据——CRT 的群组结构与随机化机制恰好是共形推断尚未征服的领地,因此将共形与 CRT 随机化结合是"显然的下一步"。 - 被淡化/回避的竞争路线:作者对纯随机化推断(Fay et al. 2022)只一笔带过其"不依赖渐近"的优点,未深入比较其在协变量调整上的具体瓶颈;对基于模型的稳健渐近方法(如 CRVE 等聚类稳健方差估计)也未讨论其在小 \(J\) 下的实际表现(如 wild bootstrap 等)。 - 明显该被引却未出现的:小样本 CRT 的 bootstrap 方法(如 Webb 的 wild bootstrap 变体、或 Cameron & Miller 2015 讨论的小 \(J\) 稳健推断),以及半参数效率理论在 CRT 下的近期进展(如 Balzer et al. 的工作)——这些是"有限样本/小 \(J\) 推断"的直接竞争者,缺失意味着作者有意将舞台留给共形框架。
张力: 未见明显对立引用。不同路线(渐近 vs 随机化 vs 共形)更多是互补设定而非矛盾结论,但存在隐含张力:渐近路线声称"只要 \(J\) 够大,模型错设下 CRVE 仍有效",而随机化/共形路线声称"\(J\) 小时渐近不可靠,必须靠设计/交换性"——这两者在不同 \(J\) 阈值下的优劣切换点尚未有明确理论界定。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(J\):群组总数(有限,不要求趋于无穷)。
- \(N_j\):第 \(j\) 个群组内的个体数,\(j=1,\dots,J\)。
- \(Z_j\):群组水平的处理分配变量,在 CRT 中通常为二值 \(Z_j \in \{0,1\}\),整个群组接受同一处理。
- \(W_{ij}\):第 \(j\) 群第 \(i\) 个个体的基线协变量向量(处理前观测,不受 \(Z_j\) 影响)。
- \(Y_{ij}(1), Y_{ij}(0)\):个体 \(ij\) 的两个潜在结果。
- \(Y_{ij}\):可观测结果,\(Y_{ij} = Z_j Y_{ij}(1) + (1-Z_j) Y_{ij}(0)\)。
- 可观测数据:对每个群组 \(j\),我们观测到 \((Z_j, \{W_{ij}, Y_{ij}\}_{i=1}^{N_j})\)。注意:我们永远只能观测到每个个体的一个潜在结果,另一个是反事实/不可观测的。
- 目标 estimand:不是 ATE,而是反事实差异 \(\Delta_{ij} = Y_{ij}(1) - Y_{ij}(0)\)(个体水平)或其群组聚合版本的预测区间——即在相同目标人群中,对新个体/群组的 \(\Delta\) 给出一个有限样本覆盖保证的区间。
第二步:最小内核——最简特例(\(J\) 群、二值处理、无协变量)
剥掉所有协变量调整和 ML 工作模型,最小内核是:在 CRT 的物理随机化下,如何用共形思想对反事实差异构造有限样本有效的预测区间?
设 \(J\) 个群组,\(Z_j\) 由完全随机化分配(如 \(m\) 群处理、\(J-m\) 群对照),无协变量 \(W\)。目标:对新群组 \(j^*\)(同目标人群),对其群组平均反事实差异 \(\Delta_{j^*} = \frac{1}{N_{j^*}}\sum_i (Y_{i j^*}(1) - Y_{i j^*}(0))\) 构造预测区间。
核心困难:\(\Delta_{j^*}\) 的两个分量永远不能同时观测——同一群组要么全在处理组(观测 \(Y(1)\)),要么全在对照组(观测 \(Y(0)\))。
本文破局的关键想法(最小内核走法): 1. 构造"虚拟残差":定义 \(R_j(1) = Y_j(1) - \mu_1\),\(R_j(0) = Y_j(0) - \mu_0\),其中 \(\mu_z\) 是某工作模型给出的预测(无协变量时即常数均值)。反事实差异 \(\Delta_{j^*} = R_{j^*}(1) - R_{j^*}(0) + (\mu_1 - \mu_0)\)。 2. 利用随机化保证交换性:在完全随机化下,处理组观测到的残差 \(\{R_j(1): Z_j=1\}\) 与对照组观测到的残差 \(\{R_j(0): Z_j=0\}\),在潜在结果联合分布固定时,因 \(Z\) 的随机分配而具有特定的排列对称性(交换性)。 3. 共形预测的排列论证:对新群组 \(j^*\) 假设其被分配到处理(虚拟),则 \(R_{j^*}(1)\) 与已观测处理残差集合的联合分布满足排列对称性。通过枚举所有可能的 \(Z\) 分配排列,可以精确计算 \(R_{j^*}(1)\) 在残差集合中的秩分布——这给出了 \(R_{j^*}(1)\) 的有限样本预测区间。同理对 \(R_{j^*}(0)\)。 4. 组合两个反事实预测:将 \(R_{j^*}(1)\) 和 \(R_{j^*}(0)\) 的预测区间与 \((\mu_1 - \mu_0)\) 的点估计结合,通过 Bonferroni 或更精细的联合排列论证,得到 \(\Delta_{j^*}\) 的有限样本覆盖保证预测区间。
为什么成立:整个论证不依赖任何渐近近似,只依赖 CRT 的物理随机化机制(\(Z\) 的分配方案已知且可控)和潜在结果固定下的排列对称性。这是经典置换检验思想与共形预测框架的深度融合——最小内核揭示了本文的本质:用 CRT 的随机化设计替代 i.i.d. 假设,为共形因果推断提供有限样本保证的基石。
三、这篇论文做了什么¶
三句话: ①研究了在群随机试验(CRT)中如何对反事实差异(个体/群组水平处理效应)进行有限样本有效的预测推断; ②核心工具是将共形推断的排列论证与 CRT 的物理随机化机制结合,并允许嵌入任意 ML 工作模型调整协变量; ③主要结论是证明了该框架在任意工作模型(含错设 ML)下均提供有限样本覆盖保证,且协变量调整能缩窄区间宽度。
关键设定与假设: - 设定:有限 \(J\) 个群组的 CRT,群组水平完全随机化分配 \(Z\),群组内个体间存在任意依赖(不要求 i.i.d.),基线协变量 \(W\) 可观测。 - 假设 A1(潜在结果框架):采用 SUTVA 的群组版本——群组 \(j\) 的潜在结果只依赖本群处理 \(Z_j\),不受其他群分配影响(无溢出效应)。 - 假设 A2(随机化机制):\(Z\) 的分配遵循已知完全随机化方案(如固定 \(m\) 群处理),这是排列论证的基石——相比 i.i.d. 共形推断的"样本可交换性"假设,本文用物理随机化替代了分布假设。 - 假设 A3(目标人群稳定性):新群组/个体的潜在结果与观测群组同分布(或更弱:同排列对称结构)——这是预测推断(而非纯检验)所必需的。 - 放宽/强化:相比渐近方法,强化了"有限样本保证"、放宽了"群组数趋于无穷"和"模型正确设定";相比 i.i.d. 共形因果推断,放宽了"个体独立同分布"假设、强化了"群组内依赖结构需被随机化机制覆盖"。
主要结果: 1. 定理 1(有限样本覆盖保证,核心定理):在 CRT 随机化下,对群组水平反事实差异 \(\Delta_{j^*}\) 的共形预测区间 \(\hat{C}\),满足 \(\Pr(\Delta_{j^*} \in \hat{C}) \ge 1-\alpha\),其中概率 \(\Pr\) 在 \(Z\) 的随机化分布下计算(潜在结果固定)。直觉:排列论证保证新群组残差的秩分布可精确计算,覆盖概率是离散排列空间的精确计数,无渐近近似。必要条件:完全随机化、SUTVA(无溢出)、目标人群与观测群组共享排列对称性。解决的技术难点:在非 i.i.d.(群组依赖)且反事实不可观测的双重障碍下,如何构造可计算且严格有效的预测区间。 2. 定理 2(模型稳健性):任意工作模型 \(\hat{\mu}(W)\)(含错设、含黑盒 ML)代入残差定义后,定理 1 的覆盖保证不变。直觉:残差的排列对称性只依赖随机化机制,与 \(\hat{\mu}\) 的形式无关——错设只影响残差方差(从而区间宽度),不影响覆盖概率。这比渐近方法中错设导致置信区间覆盖失效的情形有本质优势。 3. 定理 3/4(协变量调整缩窄区间):若工作模型 \(\hat{\mu}\) 解释了 \(W\) 中更多变异,残差方差缩小,预测区间宽度相应缩窄——提供了"精度提升但不牺牲覆盖保证"的定量刻画。
证明路线与技术技巧: - 整体路线(5 步主干): 1. 定义反事实残差 \(R(z) = Y(z) - \hat{\mu}_z(W)\),将目标 \(\Delta\) 分解为残差差异 + 工作模型差异。 2. 在 CRT 随机化下,证明处理组/对照组残差集合的联合分布满足排列对称性(关键引理:潜在结果固定时,\(Z\) 的任意合法排列产生等概率的残差观测模式)。 3. 对新群组虚拟分配处理/对照,利用排列对称性计算其残差在已观测残差集合中的秩分布,构造单侧反事实残差的共形预测区间。 4. 通过联合排列论证(或 Bonferroni),将两个反事实残差的预测区间组合为 \(\Delta\) 的预测区间。 5. 证明工作模型的错设只改变残差尺度(影响区间宽度),不改变排列对称性(不影响覆盖概率)——模型稳健性得证。 - 关键跳跃点:步骤 2 的排列对称性引理是全证明的基石——在群组内存在依赖、且工作模型可能跨群组拟合(如用全部数据训练 ML)时,如何保证残差的排列对称性不被破坏?作者的关键处理是:将工作模型视为固定函数(条件化于训练数据),则残差在潜在结果固定下仍是确定量,排列对称性只依赖 \(Z\) 的随机化——这一"条件化"跳跃绕过了 ML 模型复杂依赖结构对对称性的威胁。 - 技术技巧点名: - 排列检验/置换推断:用 CRT 随机化方案的排列空间替代 i.i.d. 共形推断中的样本可交换性,是框架移植的核心工具。 - 条件化论证:将 ML 工作模型条件化视为固定,剥离其对排列对称性的影响,保证模型稳健性。 - 反事实残差分解:\(\Delta = R(1) - R(0) + (\hat{\mu}_1 - \hat{\mu}_0)\),将不可观测的反事实差异转化为可计算的残差预测问题。 - 分位数计算:通过离散排列空间的秩分布精确计算共形分位数,无需渐近分布近似。
真实例子与应用: - 数据/场景:一个已完成的慢性疼痛治疗 CRT(SPIN trial,原文 Section 5),群组为临床站点,处理为心理干预,结局为疼痛强度评分。 - 怎么用上去:将本文的共形因果推断方法应用于 SPIN 数据,用 ML 工作模型(如随机森林)拟合基线协变量(抑郁评分等)对结局的预测,构造群组水平和个体水平处理效应的预测区间。 - 得到什么结果:预测区间在有限样本下达到名义覆盖率(模拟验证),且 ML 调整后的区间宽度显著窄于无协变量版本——验证了"模型稳健覆盖 + 协变量缩窄宽度"的理论承诺。 - 想说明什么:验证理论在真实 CRT 数据上的可行性,展示相对于传统渐近方法(在小 \(J\) 下覆盖率常偏低)和纯随机化推断(区间过宽)的实际优势。
🔎 结论是否比证明窄: - 作者在摘要和引言中泛泛 claim 该框架"compatible with arbitrary working outcome models including data-adaptive machine learning methods",但严格证明中(定理 2)实际条件化于已拟合的固定模型——即证明的是"给定任意固定函数 \(\hat{\mu}\),覆盖保证成立",而非"对任意数据自适应拟合过程(含交叉验证、超参数选择等随机性)的联合分布覆盖保证"。这一缝隙在正文条件化论证中是明确的,但摘要的表述略宽。研究者需注意:若拟合过程本身引入额外随机性(如样本分割),需额外论证其与排列对称性的兼容性——作者在算法实现中用了样本分割,但理论定理未显式覆盖这一联合随机性。
四、开放问题(点到为止,扎根具体语句)¶
-
溢出效应下的共形因果推断:本文核心假设 A1(SUTVA,无溢出)排除了处理跨群组影响的情形。要证/估什么:在部分溢出设定下(如 \(Y_{ij}(z)\) 依赖邻近群组的 \(Z\)),排列对称性如何修改,能否仍构造有限样本覆盖保证的预测区间?扎根点:正文假设 A1 及其讨论"no interference between clusters"。
-
样本分割与排列对称性的联合论证:理论定理条件化于固定工作模型,但算法实现用了 cross-fitting/样本分割。要证什么:在拟合过程随机性(样本分割)与 \(Z\) 随机化联合下,覆盖概率的精确有限样本界是什么?扎根点:定理 2 的条件化陈述 vs 算法 1 的 cross-fitting 实现——两者间的缝隙。
-
非完全随机化 CRT 的适配:本文限于完全随机化(固定 \(m\) 群处理)。要估什么:在限制随机化(如 stratified CRT、rerandomization)下,排列空间受限,共形分位数的计算与覆盖保证如何调整?扎根点:假设 A2 限定为"complete randomization",未触及更复杂设计。
-
区间宽度的定量最优性:定理 3 证明协变量调整缩窄区间,但未给出宽度下界。要估什么:在给定随机化方案与工作模型类下,共形预测区间宽度的 minimax 下界是什么?扎根点:定理 3 只给"缩窄"的定性结论,未触及效率界——这是半参数效率理论可切入的口子。
(要确认某条是否真 gap,建议读 CRT 推断近 5 篇 intro:若都指向"溢出/小样本/设计适配"= 共识真 gap;若互相打架 = 机会。)
Maintained by 陈星宇 · Homepage · Source on GitHub