Estimating marginal treatment effect in cluster randomized trials with multi-level missing outcomes¶
作者: Chia-Rui Chang, Rui Wang
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向关注的是整群随机试验中,当结局变量在多个层级(个体、子群、整群)发生信息性缺失时,如何无偏、高效地估计边际处理效应。其核心统计困难在于:缺失机制可能依赖于各层级的潜变量或观测协变量,导致标准完全病例分析或单层逆概率加权(IPW)产生偏差;同时,整群结构引入了复杂的组内相关性,使得估计量的渐近理论比独立样本情形更为复杂。该方向目前处于方法开发与理论完善期:已有大量文献处理单层缺失或独立样本下的缺失数据,但多层级、信息性缺失与整群结构的交叉仍是开放前沿。
发展脉络: 1. 奠基工作(缺失数据与 Rubin 分类):Rubin (1976) 建立的 MCAR/MAR/MNAR 分类是所有缺失数据工作的基石。Little et al. (2012) 在临床实验指南中系统总结了缺失数据的预防与处理,确立了"敏感性分析"与"假设明确化"的原则。本文正是遵循这一原则,试图在多层级缺失下给出明确的识别假设与稳健估计方法。
-
单层缺失与 IPW / 双重稳健方法:针对独立样本中的缺失数据,Horvitz-Thompson 估计量与后续的 IPW 方法成为主流。Qin, Zhang & Leung (2009) 将经验似然引入缺失数据问题,实现了半参数效率。Tchetgen & Shpitser (2012) 在中介分析框架下发展了多重稳健估计理论。这些工作为本文的"多重稳健"思想提供了理论基础,但均未触及整群结构下的多层级缺失。
-
整群随机试验(CRT)中的缺失数据:Giraudeau & Ravaud (2009) 指出 CRT 中选择偏倚与意向性分析的困难。Fiero et al. (2016) 的系统综述显示,绝大多数 CRT 存在缺失数据,但处理方法往往不当(如仅用完全病例分析)。Prague et al. (2015) 提出了针对 CRT 的 AUG-IPW 估计量,实现了在个体层缺失下的双重稳健性,但假设缺失仅发生在个体层。Chen, Tchetgen & Wang (2020) 进一步发展了二阶 GEE 以处理关联参数估计与个体层缺失。本文的定位正是突破"个体层缺失"的限制,处理更一般的多层级缺失。
-
多层级结构与信息性整群大小:Kahan et al. (2022) 区分了 CRT 中的参与人平均效应与整群平均效应,指出当整群大小具有信息性时二者不同。Mitani et al. (2022) 在纵向聚类数据中处理了信息性整群大小与脱落问题。这些工作意识到层级结构的重要性,但尚未系统解决"多层级同时缺失"的识别与估计问题。
-
本文的位置:作者将本文定位为上述线索的交汇点——在 CRT 设定下,首次系统处理多层级缺失,提出基于 WGEE 的多重稳健估计量,填补了现有方法仅能处理单层缺失的空白。
子线索聚类: - 聚类 A:CRT 中的分析方法与估计目标:关注 CRT 的基础分析框架(GEE、混合模型)以及估计目标的定义(Kahan et al. 2022, Giraudeau & Ravaud 2009)。这一簇定义了"我们要估什么"以及"不考虑缺失时的标准做法"。 - 聚类 B:缺失数据的一般理论:关注缺失机制分类、识别条件与一般估计策略(Little et al. 2012, Mohan & Pearl 2018, Lee et al. 2023)。这一簇提供了识别与推断的概念工具。 - 聚类 C:CRT 中缺失数据的具体方法:这是本文直接对话的主战场。包括 IPW 方法(Prague et al. 2016)、双重稳健方法(Prague et al. 2015)、TMLE 方法(Balzer et al. 2021)以及处理信息性整群大小的方法(Mitani et al. 2022)。本文旨在扩展这一簇方法至多层级缺失场景。
这个方向在追问的核心问题: 1. 识别:在多层级缺失下,边际处理效应在什么假设下是可识别的?需要哪些层级的协变量与缺失机制假设? 2. 稳健性:能否构造出对部分模型误设稳健的估计量?例如,只要某一层级的缺失模型正确,估计量就保持一致? 3. 效率:在整群相关性与多层级缺失下,如何达到半参数效率界? 4. 有限样本表现:当整群数量较少(CRT 常见情形)时,渐近理论的近似质量如何?
⚠️ 作者的 framing: 作者将现有方法的缺口 frame 为"仅能处理个体层缺失,忽略整群层或子群层缺失"。这一 framing 使得"多层级缺失"成为显然的下一步。作者通过引用 Prague et al. (2015, 2016) 和 Chen et al. (2020) 来展示现有方法的边界,并暗示这些方法在"整群完全脱落"或"子群缺失"情形下失效。 被淡化的竞争路线: - 多重插补:Diaz-Ordaz et al. (2016) 等文献探讨了 CRT 中的多重插补,但作者在方法比较中主要对比完全病例分析与单层 IPW,对多重插补在多层级缺失下的表现讨论较少。 - TMLE:Balzer et al. (2021) 提出的 Two-Stage TMLE 在 CRT 中表现出色,但作者仅在引言中简略提及,未在模拟中作为主要对比对象。TMLE 理论上也能扩展至多层级缺失,这是一个潜在的竞争路线。 - 敏感性分析:作者主要关注点估计与方差估计,对 MNAR 下的敏感性分析讨论有限(Little et al. 2012 强调这一点)。
什么明显该被引 / 该存在、却没出现在 intro 里: - 关于测量误差与缺失数据交互作用的文献:如果协变量也有缺失,方法是否稳健? - 小样本校正:CRT 往往整群数很少(<30),作者依赖大样本渐近理论,对小样本校正(如 Fay-Herriott 调整、Bootstrap 校正)缺乏引用。
张力: 未见明显对立引用。现有文献大多是在不同假设下(MAR vs MNAR,个体层 vs 整群层)发展方法,彼此互补多于矛盾。一个潜在的张力点在于:Kahan et al. (2022) 强调区分"参与人平均效应"与"整群平均效应",而本文主要关注前者,对后者的估计问题涉及较少。
二、最核心、最简单的例子 / 数学问题¶
在展开全文技术细节前,先构建一个最小内核:两层缺失、二值处理、边际均值差。
第一步:符号、模型与可观测数据
-
符号定义:
- \(i = 1, \ldots, n\):整群索引,\(n\) 为整群总数。
- \(j = 1, \ldots, m_i\):第 \(i\) 个整群内的子群索引(如村中的医疗点)。
- \(k = 1, \ldots, m_{ij}\):第 \(ij\) 个子群内的个体索引。
- \(A_i \in \{0, 1\}\):二值处理分配(整群层面随机化)。
- \(Y_{ijk}\):第 \(ijk\) 个个体的潜在结局(若观测到)。
- \(R_{ijk} \in \{0, 1\}\):个体层缺失指示(1 = 观测到,0 = 缺失)。
- \(R_{ij} \in \{0, 1\}\):子群层缺失指示(若 \(R_{ij}=0\),则该子群所有个体 \(Y_{ijk}\) 均缺失)。
- \(R_i \in \{0, 1\}\):整群层缺失指示(若 \(R_i=0\),则该整群所有数据均缺失)。
- \(\mathbf{X}_{ijk}\):个体层协变量;\(\mathbf{W}_{ij}\):子群层协变量;\(\mathbf{Z}_i\):整群层协变量。
- \(\mu_a = E[Y(a)]\):处理组 \(a\) 的边际均值,目标估计量为 \(\tau = \mu_1 - \mu_0\)。
-
模型(数据生成机制):
- 处理分配 \(A_i\) 以已知概率 \(P(A_i=1)\) 随机化(通常为 0.5)。
- 潜在结局 \(Y_{ijk}(a)\) 依赖于处理 \(a\)、协变量及整群/子群效应。
- 缺失机制(核心假设):
- 个体层缺失:\(P(R_{ijk}=1 \mid Y_{ijk}, \mathbf{X}_{ijk}, \mathbf{W}_{ij}, \mathbf{Z}_i, A_i) = \pi_k(\mathbf{X}_{ijk}, \mathbf{W}_{ij}, \mathbf{Z}_i, A_i; \gamma_k)\)。
- 子群层缺失:\(P(R_{ij}=1 \mid \bar{\mathbf{W}}_{ij}, \mathbf{Z}_i, A_i) = \pi_j(\mathbf{W}_{ij}, \mathbf{Z}_i, A_i; \gamma_j)\)。
- 整群层缺失:\(P(R_i=1 \mid \mathbf{Z}_i, A_i) = \pi_c(\mathbf{Z}_i, A_i; \gamma_c)\)。
- 关键假设:缺失机制仅依赖于各层级的观测协变量,不依赖于未观测的结局(MAR 假设的层级推广)。具体地,假设给定协变量后,\(R \perp Y\)。
-
可观测数据:
- 研究者观测到 \(\{A_i, \mathbf{Z}_i, R_i\}\) 对所有 \(i\)。
- 若 \(R_i=1\),进一步观测到 \(\{(\mathbf{W}_{ij}, R_{ij})\}_{j=1}^{m_i}\)。
- 若 \(R_{ij}=1\),进一步观测到 \(\{(\mathbf{X}_{ijk}, R_{ijk}, Y_{ijk} \cdot R_{ijk})\}_{k=1}^{m_{ij}}\)。
- 不可观测 / 需识别:当 \(R_{ijk}=0\) 或 \(R_{ij}=0\) 或 \(R_i=0\) 时的 \(Y_{ijk}\)。这些缺失值需通过模型假设与加权方法来"借值"或"加权补全"。
第二步:最小内核——两层缺失下的逆概率加权
考虑最简情形:仅有个体层缺失与整群层缺失,无子群层(即 \(m_i=1\),每个整群只有一个子群,但整群可能整体脱落)。
- 目标:估计 \(\mu_a = E[Y(a)]\)。
- 观测数据结构:
- 整群 \(i\):观测到 \((A_i, \mathbf{Z}_i, R_i)\)。
- 若 \(R_i=1\):观测到 \((Y_{i1}, \ldots, Y_{im_i}, R_{i1}, \ldots, R_{im_i}, \mathbf{X}_{i1}, \ldots, \mathbf{X}_{im_i})\)。
- 若 \(R_i=0\):所有 \(Y_{ik}\) 缺失。
- 核心困难:若仅用个体层 IPW,权重为 \(w_{ik} = \frac{A_i}{\pi_k(\mathbf{X}_{ik}, \mathbf{Z}_i, A_i)}\),则只能利用 \(R_i=1\) 的整群。若 \(R_i\) 依赖于 \(\mathbf{Z}_i\) 且 \(\mathbf{Z}_i\) 与 \(Y\) 相关(信息性整群缺失),则忽略 \(R_i\) 导致选择偏倚。
- 本文解法(最小内核):
构造联合权重:
\[W_{ik} = \frac{A_i \cdot R_i \cdot R_{ik}}{\pi_c(\mathbf{Z}_i, A_i) \cdot \pi_k(\mathbf{X}_{ik}, \mathbf{Z}_i, A_i)}\]其中 \(\pi_c\) 是整群层倾向得分(观测概率),\(\pi_k\) 是个体层倾向得分。 估计方程为:\[\sum_{i=1}^n \sum_{k=1}^{m_i} W_{ik} (Y_{ik} - \mu_a) = 0\]解得 \(\hat{\mu}_a\)。
-
为什么成立: 在 MAR 假设下,\(E\left[\frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k} \mid A_i=a\right] = E[Y_{ik}(a)] = \mu_a\)。 这一步的数学本质是迭代期望定律与逆概率权重的无偏性:
\[E\left[\frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k}\right] = E\left[ E\left[ \frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k} \mid Y_{ik}, \mathbf{X}_{ik}, \mathbf{Z}_i \right] \right] = E\left[ Y_{ik} \cdot \frac{E[R_i \mid \mathbf{Z}_i]}{\pi_c} \cdot \frac{E[R_{ik} \mid \mathbf{X}_{ik}, \mathbf{Z}_i]}{\pi_k} \right] = E[Y_{ik}]\](假设 \(\pi_c, \pi_k\) 模型正确)。 -
多重稳健性(最小内核版): 若我们对整群层缺失概率设定两个模型 \(\pi_c^{(1)}\) 和 \(\pi_c^{(2)}\),对个体层缺失概率设定两个模型 \(\pi_k^{(1)}\) 和 \(\pi_k^{(2)}\)。 构造组合权重 \(W_{ik}^{MR} = \frac{A_i R_i R_{ik}}{\hat{\pi}_c^{MR} \hat{\pi}_k^{MR}}\),其中 \(\hat{\pi}^{MR}\) 是通过经验似然或其他组合规则从多个模型中合成的倾向得分。 核心结论:只要 \(\{\pi_c^{(1)}, \pi_c^{(2)}\}\) 中至少一个正确,且 \(\{\pi_k^{(1)}, \pi_k^{(2)}\}\) 中至少一个正确,则 \(\hat{\mu}_a^{MR}\) 是一致估计量。 这比单一模型 IPW 稳健得多——单一模型只要错一层,估计就崩;多重稳健只要每层至少对一个,估计就稳。
三、这篇论文做了什么¶
三句话: 1. 研究了整群随机试验中,当结局变量在个体、子群、整群三个层级同时发生信息性缺失时,如何估计边际处理效应。 2. 核心方法是提出一种多层级加权广义估计方程,通过在各层级构建倾向得分模型并合成联合逆概率权重,结合经验似然实现多重稳健性。 3. 主要结论证明了在每层缺失模型至少一个正确设定的条件下,估计量具有一致性与渐近正态性,并给出了稳健的夹心方差估计量。
关键设定与假设: - 设定:三级嵌套结构(个体 \(\in\) 子群 \(\in\) 整群)。处理在整群层随机化。结局可能缺失,缺失指示变量为 \(R_c\)(整群)、\(R_s\)(子群)、\(R_i\)(个体)。 - 假设 A1(层级 MAR):各层级的缺失机制仅依赖于该层级及更高层级的观测协变量。例如,个体层缺失 \(R_i \perp Y \mid \mathbf{X}, \mathbf{W}, \mathbf{Z}, A\)。这是识别的核心。 - 假设 A2(处理机制已知):因 CRT 设计,\(P(A=1)\) 已知(通常为 0.5),无需建模处理分配机制。 - 假设 A3(模型设定):为每层缺失概率设定多个参数模型(如 Logistic 回归)。多重稳健性要求每层至少一个模型正确。 - 相比已有文献的放宽:Prague et al. (2015) 假设缺失仅发生在个体层;本文允许整群整体脱落、子群整体脱落,更贴近实际 CRT 场景(如村落因战乱无法随访、诊所搬迁)。
主要结果: 1. 定理 1(一致性):在假设 A1-A3 下,若每层缺失模型至少一个正确设定,则多层级多重稳健估计量 \(\hat{\beta}_{MR}\) 是真实边际处理效应 \(\beta\) 的一致估计。 - 直觉:联合权重的分母正确捕捉了各层观测概率,使得加权后的伪总体在期望上代表目标总体。 - 必要条件:各层模型正确性是关键;若某层所有模型都错,偏差无法消除。
-
定理 2(渐近正态性):\(\sqrt{n}(\hat{\beta}_{MR} - \beta) \stackrel{d}{\to} N(0, \Sigma)\)。
- 技术难点:整群内的相关性使得个体观测不再独立,需用 GEE 的夹心方差估计量;同时,权重的估计(倾向得分参数的估计)引入了额外的不确定性,需通过 M 估计理论修正渐近方差。
- 方差估计:作者给出了稳健的"三明治"方差估计量,对整群内相关与权重估计不确定性同时稳健。
-
推论(效率):当所有模型正确设定时,估计量达到半参数效率界(在给定工作相关矩阵下的 GEE 效率)。
证明路线与技术技巧: - 整体路线: 1. 写出多层级联合权重 \(W = \prod_{l \in \{c, s, i\}} \frac{R_l}{\pi_l^{(k_l)}}\)。 2. 将权重代入广义估计方程 \(U(\beta) = \sum_i W_i (Y_i - \mu(\beta)) = 0\)。 3. 利用经验似然或广义矩方法,构造多重稳健权重组合规则(如最小化方差或最大化经验似然)。 4. 证明估计方程在真实参数处期望为 0(无偏性)。 5. 应用 M 估计理论与经验过程理论,证明一致性与渐近正态性。
-
关键跳跃点:
- 多层级权重的分解:证明联合权重可以分解为各层级权重的乘积,且各层级权重估计可独立进行。这依赖于层级 MAR 假设下的条件独立性。
- 多重稳健性的验证:需证明当某层模型错误时,其他层的正确模型能"补救"偏差。这通过展示估计方程的期望在错误模型下仍收敛到零来实现(利用迭代期望与正确模型的抵消性质)。
-
技术技巧点名:
- 广义估计方程(GEE):用于处理整群内相关性,采用工作相关矩阵(如可交换相关)。
- 逆概率加权(IPW):核心构造手段,将缺失数据问题转化为完全数据问题。
- 经验似然:用于组合多个倾向得分模型,实现多重稳健性。参考 Qin et al. (2009)。
- M 估计理论:用于推导估计量的渐近性质,处理参数估计对方差的影响。
- Delta 方法 / 影响函数:用于计算方差估计量。
真实例子与应用: - 数据 / 场景:马达加斯加疟疾干预 CRT(Ratovoson et al., 2022)。22 个村落随机分配到干预组(主动病例管理)与对照组。结局为疟疾检测阳性率。数据具有层级结构(个体 \(\in\) 村落),且存在个体层缺失(失访)与整群层缺失(部分村落数据完全丢失)。 - 怎么用:应用本文提出的多层级多重稳健估计量,分别拟合整群层缺失模型(基于村落协变量)与个体层缺失模型(基于个体协变量),构造联合权重,估计干预效应。 - 结果:干预组疟疾阳性率显著低于对照组。与完全病例分析、单层 IPW 相比,本文方法的点估计有差异(暗示单层方法有偏),且标准误更小(效率更高)。 - 想说明什么:展示方法在真实数据中的可行性,并暗示忽略多层级缺失会导致偏倚。
🔎 结论是否比证明窄: 作者在定理陈述中明确要求"每层至少一个模型正确设定",这是标准的模型正确性假设。结论未过度泛化。但在模拟研究中,作者仅展示了有限样本偏差较小,未深入探讨当所有模型都轻微误设时的表现——这是一个潜在的"结论比证明窄"的点(证明要求至少一个正确,但实际应用中可能所有模型都"差不多但不完全对")。
四、开放问题¶
- 半参数效率界的精确刻画:本文的多重稳健估计量在所有模型正确时是否达到半参数效率界?若否,能否构造更高效的估计量(如借鉴 Tchetgen & Shpitser (2012) 的高阶影响函数方法)?——扎根于第三节"效率"部分的讨论。
- 小样本校正:CRT 往往整群数很少(<30),本文渐近正态性的近似质量如何?能否发展 Bootstrap 或小样本校正方法?——扎根于第四节"有限样本表现"的模拟结果,以及 Kahan et al. (2022) 对小样本问题的强调。
- 协变量缺失的扩展:若协变量 \(\mathbf{X}\) 也存在缺失,方法是否稳健?能否扩展为"协变量与结局同时缺失"下的多重稳健估计?——扎根于引言中对"缺失机制"的假设,以及 Mohan & Pearl (2018) 对协变量缺失的讨论。
- 敏感性分析框架:当层级 MAR 假设不成立(即 MNAR)时,如何进行敏感性分析?能否给出偏差的解析界?——扎根于 Little et al. (2012) 对敏感性分析的强调,以及本文对 MAR 假设的依赖。
Maintained by 陈星宇 · Homepage · Source on GitHub