Estimating marginal treatment effect in cluster randomized trials with multi-level missing outcomes¶

作者: Chia-Rui Chang, Rui Wang
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是整群随机试验中，当结局变量在多个层级（个体、子群、整群）发生信息性缺失时，如何无偏、高效地估计边际处理效应。其核心统计困难在于：缺失机制可能依赖于各层级的潜变量或观测协变量，导致标准完全病例分析或单层逆概率加权（IPW）产生偏差；同时，整群结构引入了复杂的组内相关性，使得估计量的渐近理论比独立样本情形更为复杂。该方向目前处于方法开发与理论完善期：已有大量文献处理单层缺失或独立样本下的缺失数据，但多层级、信息性缺失与整群结构的交叉仍是开放前沿。

发展脉络： 1. 奠基工作（缺失数据与 Rubin 分类）：Rubin (1976) 建立的 MCAR/MAR/MNAR 分类是所有缺失数据工作的基石。Little et al. (2012) 在临床实验指南中系统总结了缺失数据的预防与处理，确立了"敏感性分析"与"假设明确化"的原则。本文正是遵循这一原则，试图在多层级缺失下给出明确的识别假设与稳健估计方法。

单层缺失与 IPW / 双重稳健方法：针对独立样本中的缺失数据，Horvitz-Thompson 估计量与后续的 IPW 方法成为主流。Qin, Zhang & Leung (2009) 将经验似然引入缺失数据问题，实现了半参数效率。Tchetgen & Shpitser (2012) 在中介分析框架下发展了多重稳健估计理论。这些工作为本文的"多重稳健"思想提供了理论基础，但均未触及整群结构下的多层级缺失。
整群随机试验（CRT）中的缺失数据：Giraudeau & Ravaud (2009) 指出 CRT 中选择偏倚与意向性分析的困难。Fiero et al. (2016) 的系统综述显示，绝大多数 CRT 存在缺失数据，但处理方法往往不当（如仅用完全病例分析）。Prague et al. (2015) 提出了针对 CRT 的 AUG-IPW 估计量，实现了在个体层缺失下的双重稳健性，但假设缺失仅发生在个体层。Chen, Tchetgen & Wang (2020) 进一步发展了二阶 GEE 以处理关联参数估计与个体层缺失。本文的定位正是突破"个体层缺失"的限制，处理更一般的多层级缺失。
多层级结构与信息性整群大小：Kahan et al. (2022) 区分了 CRT 中的参与人平均效应与整群平均效应，指出当整群大小具有信息性时二者不同。Mitani et al. (2022) 在纵向聚类数据中处理了信息性整群大小与脱落问题。这些工作意识到层级结构的重要性，但尚未系统解决"多层级同时缺失"的识别与估计问题。
本文的位置：作者将本文定位为上述线索的交汇点——在 CRT 设定下，首次系统处理多层级缺失，提出基于 WGEE 的多重稳健估计量，填补了现有方法仅能处理单层缺失的空白。

子线索聚类： - 聚类 A：CRT 中的分析方法与估计目标：关注 CRT 的基础分析框架（GEE、混合模型）以及估计目标的定义（Kahan et al. 2022, Giraudeau & Ravaud 2009）。这一簇定义了"我们要估什么"以及"不考虑缺失时的标准做法"。 - 聚类 B：缺失数据的一般理论：关注缺失机制分类、识别条件与一般估计策略（Little et al. 2012, Mohan & Pearl 2018, Lee et al. 2023）。这一簇提供了识别与推断的概念工具。 - 聚类 C：CRT 中缺失数据的具体方法：这是本文直接对话的主战场。包括 IPW 方法（Prague et al. 2016）、双重稳健方法（Prague et al. 2015）、TMLE 方法（Balzer et al. 2021）以及处理信息性整群大小的方法（Mitani et al. 2022）。本文旨在扩展这一簇方法至多层级缺失场景。

这个方向在追问的核心问题： 1. 识别：在多层级缺失下，边际处理效应在什么假设下是可识别的？需要哪些层级的协变量与缺失机制假设？ 2. 稳健性：能否构造出对部分模型误设稳健的估计量？例如，只要某一层级的缺失模型正确，估计量就保持一致？ 3. 效率：在整群相关性与多层级缺失下，如何达到半参数效率界？ 4. 有限样本表现：当整群数量较少（CRT 常见情形）时，渐近理论的近似质量如何？

⚠️ 作者的 framing：作者将现有方法的缺口 frame 为"仅能处理个体层缺失，忽略整群层或子群层缺失"。这一 framing 使得"多层级缺失"成为显然的下一步。作者通过引用 Prague et al. (2015, 2016) 和 Chen et al. (2020) 来展示现有方法的边界，并暗示这些方法在"整群完全脱落"或"子群缺失"情形下失效。 被淡化的竞争路线： - 多重插补：Diaz-Ordaz et al. (2016) 等文献探讨了 CRT 中的多重插补，但作者在方法比较中主要对比完全病例分析与单层 IPW，对多重插补在多层级缺失下的表现讨论较少。 - TMLE：Balzer et al. (2021) 提出的 Two-Stage TMLE 在 CRT 中表现出色，但作者仅在引言中简略提及，未在模拟中作为主要对比对象。TMLE 理论上也能扩展至多层级缺失，这是一个潜在的竞争路线。 - 敏感性分析：作者主要关注点估计与方差估计，对 MNAR 下的敏感性分析讨论有限（Little et al. 2012 强调这一点）。

什么明显该被引 / 该存在、却没出现在 intro 里： - 关于测量误差与缺失数据交互作用的文献：如果协变量也有缺失，方法是否稳健？ - 小样本校正：CRT 往往整群数很少（<30），作者依赖大样本渐近理论，对小样本校正（如 Fay-Herriott 调整、Bootstrap 校正）缺乏引用。

张力：未见明显对立引用。现有文献大多是在不同假设下（MAR vs MNAR，个体层 vs 整群层）发展方法，彼此互补多于矛盾。一个潜在的张力点在于：Kahan et al. (2022) 强调区分"参与人平均效应"与"整群平均效应"，而本文主要关注前者，对后者的估计问题涉及较少。

二、最核心、最简单的例子 / 数学问题¶

在展开全文技术细节前，先构建一个最小内核：两层缺失、二值处理、边际均值差。

第一步：符号、模型与可观测数据

符号定义：
- \(i = 1, \ldots, n\)：整群索引，\(n\) 为整群总数。
- \(j = 1, \ldots, m_i\)：第 \(i\) 个整群内的子群索引（如村中的医疗点）。
- \(k = 1, \ldots, m_{ij}\)：第 \(ij\) 个子群内的个体索引。
- \(A_i \in \{0, 1\}\)：二值处理分配（整群层面随机化）。
- \(Y_{ijk}\)：第 \(ijk\) 个个体的潜在结局（若观测到）。
- \(R_{ijk} \in \{0, 1\}\)：个体层缺失指示（1 = 观测到，0 = 缺失）。
- \(R_{ij} \in \{0, 1\}\)：子群层缺失指示（若 \(R_{ij}=0\)，则该子群所有个体 \(Y_{ijk}\) 均缺失）。
- \(R_i \in \{0, 1\}\)：整群层缺失指示（若 \(R_i=0\)，则该整群所有数据均缺失）。
- \(\mathbf{X}_{ijk}\)：个体层协变量；\(\mathbf{W}_{ij}\)：子群层协变量；\(\mathbf{Z}_i\)：整群层协变量。
- \(\mu_a = E[Y(a)]\)：处理组 \(a\) 的边际均值，目标估计量为 \(\tau = \mu_1 - \mu_0\)。
模型（数据生成机制）：
- 处理分配 \(A_i\) 以已知概率 \(P(A_i=1)\) 随机化（通常为 0.5）。
- 潜在结局 \(Y_{ijk}(a)\) 依赖于处理 \(a\)、协变量及整群/子群效应。
- 缺失机制（核心假设）：
  - 个体层缺失：\(P(R_{ijk}=1 \mid Y_{ijk}, \mathbf{X}_{ijk}, \mathbf{W}_{ij}, \mathbf{Z}_i, A_i) = \pi_k(\mathbf{X}_{ijk}, \mathbf{W}_{ij}, \mathbf{Z}_i, A_i; \gamma_k)\)。
  - 子群层缺失：\(P(R_{ij}=1 \mid \bar{\mathbf{W}}_{ij}, \mathbf{Z}_i, A_i) = \pi_j(\mathbf{W}_{ij}, \mathbf{Z}_i, A_i; \gamma_j)\)。
  - 整群层缺失：\(P(R_i=1 \mid \mathbf{Z}_i, A_i) = \pi_c(\mathbf{Z}_i, A_i; \gamma_c)\)。
- 关键假设：缺失机制仅依赖于各层级的观测协变量，不依赖于未观测的结局（MAR 假设的层级推广）。具体地，假设给定协变量后，\(R \perp Y\)。
可观测数据：
- 研究者观测到 \(\{A_i, \mathbf{Z}_i, R_i\}\) 对所有 \(i\)。
- 若 \(R_i=1\)，进一步观测到 \(\{(\mathbf{W}_{ij}, R_{ij})\}_{j=1}^{m_i}\)。
- 若 \(R_{ij}=1\)，进一步观测到 \(\{(\mathbf{X}_{ijk}, R_{ijk}, Y_{ijk} \cdot R_{ijk})\}_{k=1}^{m_{ij}}\)。
- 不可观测 / 需识别：当 \(R_{ijk}=0\) 或 \(R_{ij}=0\) 或 \(R_i=0\) 时的 \(Y_{ijk}\)。这些缺失值需通过模型假设与加权方法来"借值"或"加权补全"。

第二步：最小内核——两层缺失下的逆概率加权

考虑最简情形：仅有个体层缺失与整群层缺失，无子群层（即 \(m_i=1\)，每个整群只有一个子群，但整群可能整体脱落）。

目标：估计 \(\mu_a = E[Y(a)]\)。
观测数据结构：
- 整群 \(i\)：观测到 \((A_i, \mathbf{Z}_i, R_i)\)。
- 若 \(R_i=1\)：观测到 \((Y_{i1}, \ldots, Y_{im_i}, R_{i1}, \ldots, R_{im_i}, \mathbf{X}_{i1}, \ldots, \mathbf{X}_{im_i})\)。
- 若 \(R_i=0\)：所有 \(Y_{ik}\) 缺失。
核心困难：若仅用个体层 IPW，权重为 \(w_{ik} = \frac{A_i}{\pi_k(\mathbf{X}_{ik}, \mathbf{Z}_i, A_i)}\)，则只能利用 \(R_i=1\) 的整群。若 \(R_i\) 依赖于 \(\mathbf{Z}_i\) 且 \(\mathbf{Z}_i\) 与 \(Y\) 相关（信息性整群缺失），则忽略 \(R_i\) 导致选择偏倚。
本文解法（最小内核）：构造联合权重：
\[W_{ik} = \frac{A_i \cdot R_i \cdot R_{ik}}{\pi_c(\mathbf{Z}_i, A_i) \cdot \pi_k(\mathbf{X}_{ik}, \mathbf{Z}_i, A_i)}\]
其中 \(\pi_c\) 是整群层倾向得分（观测概率），\(\pi_k\) 是个体层倾向得分。估计方程为：
\[\sum_{i=1}^n \sum_{k=1}^{m_i} W_{ik} (Y_{ik} - \mu_a) = 0\]
解得 \(\hat{\mu}_a\)。
为什么成立：在 MAR 假设下，\(E\left[\frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k} \mid A_i=a\right] = E[Y_{ik}(a)] = \mu_a\)。这一步的数学本质是迭代期望定律与逆概率权重的无偏性：
\[E\left[\frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k}\right] = E\left[ E\left[ \frac{R_i R_{ik} Y_{ik}}{\pi_c \pi_k} \mid Y_{ik}, \mathbf{X}_{ik}, \mathbf{Z}_i \right] \right] = E\left[ Y_{ik} \cdot \frac{E[R_i \mid \mathbf{Z}_i]}{\pi_c} \cdot \frac{E[R_{ik} \mid \mathbf{X}_{ik}, \mathbf{Z}_i]}{\pi_k} \right] = E[Y_{ik}]\]
（假设 \(\pi_c, \pi_k\) 模型正确）。
多重稳健性（最小内核版）：若我们对整群层缺失概率设定两个模型 \(\pi_c^{(1)}\) 和 \(\pi_c^{(2)}\)，对个体层缺失概率设定两个模型 \(\pi_k^{(1)}\) 和 \(\pi_k^{(2)}\)。构造组合权重 \(W_{ik}^{MR} = \frac{A_i R_i R_{ik}}{\hat{\pi}_c^{MR} \hat{\pi}_k^{MR}}\)，其中 \(\hat{\pi}^{MR}\) 是通过经验似然或其他组合规则从多个模型中合成的倾向得分。 核心结论：只要 \(\{\pi_c^{(1)}, \pi_c^{(2)}\}\) 中至少一个正确，且 \(\{\pi_k^{(1)}, \pi_k^{(2)}\}\) 中至少一个正确，则 \(\hat{\mu}_a^{MR}\) 是一致估计量。这比单一模型 IPW 稳健得多——单一模型只要错一层，估计就崩；多重稳健只要每层至少对一个，估计就稳。

三、这篇论文做了什么¶

三句话： 1. 研究了整群随机试验中，当结局变量在个体、子群、整群三个层级同时发生信息性缺失时，如何估计边际处理效应。 2. 核心方法是提出一种多层级加权广义估计方程，通过在各层级构建倾向得分模型并合成联合逆概率权重，结合经验似然实现多重稳健性。 3. 主要结论证明了在每层缺失模型至少一个正确设定的条件下，估计量具有一致性与渐近正态性，并给出了稳健的夹心方差估计量。

关键设定与假设： - 设定：三级嵌套结构（个体 \(\in\) 子群 \(\in\) 整群）。处理在整群层随机化。结局可能缺失，缺失指示变量为 \(R_c\)（整群）、\(R_s\)（子群）、\(R_i\)（个体）。 - 假设 A1（层级 MAR）：各层级的缺失机制仅依赖于该层级及更高层级的观测协变量。例如，个体层缺失 \(R_i \perp Y \mid \mathbf{X}, \mathbf{W}, \mathbf{Z}, A\)。这是识别的核心。 - 假设 A2（处理机制已知）：因 CRT 设计，\(P(A=1)\) 已知（通常为 0.5），无需建模处理分配机制。 - 假设 A3（模型设定）：为每层缺失概率设定多个参数模型（如 Logistic 回归）。多重稳健性要求每层至少一个模型正确。 - 相比已有文献的放宽：Prague et al. (2015) 假设缺失仅发生在个体层；本文允许整群整体脱落、子群整体脱落，更贴近实际 CRT 场景（如村落因战乱无法随访、诊所搬迁）。

主要结果： 1. 定理 1（一致性）：在假设 A1-A3 下，若每层缺失模型至少一个正确设定，则多层级多重稳健估计量 \(\hat{\beta}_{MR}\) 是真实边际处理效应 \(\beta\) 的一致估计。 - 直觉：联合权重的分母正确捕捉了各层观测概率，使得加权后的伪总体在期望上代表目标总体。 - 必要条件：各层模型正确性是关键；若某层所有模型都错，偏差无法消除。

定理 2（渐近正态性）：\(\sqrt{n}(\hat{\beta}_{MR} - \beta) \stackrel{d}{\to} N(0, \Sigma)\)。
- 技术难点：整群内的相关性使得个体观测不再独立，需用 GEE 的夹心方差估计量；同时，权重的估计（倾向得分参数的估计）引入了额外的不确定性，需通过 M 估计理论修正渐近方差。
- 方差估计：作者给出了稳健的"三明治"方差估计量，对整群内相关与权重估计不确定性同时稳健。
推论（效率）：当所有模型正确设定时，估计量达到半参数效率界（在给定工作相关矩阵下的 GEE 效率）。

证明路线与技术技巧： - 整体路线： 1. 写出多层级联合权重 \(W = \prod_{l \in \{c, s, i\}} \frac{R_l}{\pi_l^{(k_l)}}\)。 2. 将权重代入广义估计方程 \(U(\beta) = \sum_i W_i (Y_i - \mu(\beta)) = 0\)。 3. 利用经验似然或广义矩方法，构造多重稳健权重组合规则（如最小化方差或最大化经验似然）。 4. 证明估计方程在真实参数处期望为 0（无偏性）。 5. 应用 M 估计理论与经验过程理论，证明一致性与渐近正态性。

关键跳跃点：
- 多层级权重的分解：证明联合权重可以分解为各层级权重的乘积，且各层级权重估计可独立进行。这依赖于层级 MAR 假设下的条件独立性。
- 多重稳健性的验证：需证明当某层模型错误时，其他层的正确模型能"补救"偏差。这通过展示估计方程的期望在错误模型下仍收敛到零来实现（利用迭代期望与正确模型的抵消性质）。
技术技巧点名：
- 广义估计方程（GEE）：用于处理整群内相关性，采用工作相关矩阵（如可交换相关）。
- 逆概率加权（IPW）：核心构造手段，将缺失数据问题转化为完全数据问题。
- 经验似然：用于组合多个倾向得分模型，实现多重稳健性。参考 Qin et al. (2009)。
- M 估计理论：用于推导估计量的渐近性质，处理参数估计对方差的影响。
- Delta 方法 / 影响函数：用于计算方差估计量。

真实例子与应用： - 数据 / 场景：马达加斯加疟疾干预 CRT（Ratovoson et al., 2022）。22 个村落随机分配到干预组（主动病例管理）与对照组。结局为疟疾检测阳性率。数据具有层级结构（个体 \(\in\) 村落），且存在个体层缺失（失访）与整群层缺失（部分村落数据完全丢失）。 - 怎么用：应用本文提出的多层级多重稳健估计量，分别拟合整群层缺失模型（基于村落协变量）与个体层缺失模型（基于个体协变量），构造联合权重，估计干预效应。 - 结果：干预组疟疾阳性率显著低于对照组。与完全病例分析、单层 IPW 相比，本文方法的点估计有差异（暗示单层方法有偏），且标准误更小（效率更高）。 - 想说明什么：展示方法在真实数据中的可行性，并暗示忽略多层级缺失会导致偏倚。

🔎 结论是否比证明窄：作者在定理陈述中明确要求"每层至少一个模型正确设定"，这是标准的模型正确性假设。结论未过度泛化。但在模拟研究中，作者仅展示了有限样本偏差较小，未深入探讨当所有模型都轻微误设时的表现——这是一个潜在的"结论比证明窄"的点（证明要求至少一个正确，但实际应用中可能所有模型都"差不多但不完全对"）。

四、开放问题¶

半参数效率界的精确刻画：本文的多重稳健估计量在所有模型正确时是否达到半参数效率界？若否，能否构造更高效的估计量（如借鉴 Tchetgen & Shpitser (2012) 的高阶影响函数方法）？——扎根于第三节"效率"部分的讨论。
小样本校正：CRT 往往整群数很少（<30），本文渐近正态性的近似质量如何？能否发展 Bootstrap 或小样本校正方法？——扎根于第四节"有限样本表现"的模拟结果，以及 Kahan et al. (2022) 对小样本问题的强调。
协变量缺失的扩展：若协变量 \(\mathbf{X}\) 也存在缺失，方法是否稳健？能否扩展为"协变量与结局同时缺失"下的多重稳健估计？——扎根于引言中对"缺失机制"的假设，以及 Mohan & Pearl (2018) 对协变量缺失的讨论。
敏感性分析框架：当层级 MAR 假设不成立（即 MNAR）时，如何进行敏感性分析？能否给出偏差的解析界？——扎根于 Little et al. (2012) 对敏感性分析的强调，以及本文对 MAR 假设的依赖。

Maintained by 陈星宇 · Homepage · Source on GitHub

Estimating marginal treatment effect in cluster randomized trials with multi-level missing outcomes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论