Blurring cluster randomized trials and observational studies: Two-Stage TMLE for subsampling, missingness, and few independent units¶

作者: Joshua R Nugent, Carina Marquez, Edwin D Charlebois, Rachel Abbott, Laura B Balzer
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: University of California, Berkeley（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxad015

一、领域脉络与小综述¶

这个方向是什么：集群随机试验（CRT）是因果推断中评估群体层面干预效果的标准设计——将集群（社区、学校、诊所）而非个体随机分配至处理组。然而，CRT 在实践中普遍面临两个相互缠绕的挑战：(i) 资源约束下的子抽样与非随机缺失——通常只有一部分个体被抽样并测量结局，抽样和缺失机制可能与结局相关，导致偏差；(ii) 独立单元数少——通常只有几十个集群被随机化，限制了统计检验力和效率，并使得对集群内依赖结构（cluster dependence）的修正变得困难。本方向的核心问题是：在同时存在子抽样、多重缺失和少量集群的复杂缺失模式下，如何维持估计的无偏性与效率，同时恰当地反映可用的信息量。
发展脉络（history）：
奠基工作：集群试验的方差估计与 GEE（1980s–1990s）。Liang 与 Zeger（1986）的广义估计方程（GEE）为 CRT 提供了一类工作马：通过工作相关结构调整集群内结果的相关性，但要求独立单元数（集群数足够大）以保证渐近近合理的推断。当集群数极少（如 <20）时，GEE 的标准误差严重偏小（Mancl & DeRouen, 2001）。同期，Donner 与 Klar（2000）系统总结了 CRT 的样本量与分析方法，明确指出"集群是独立单元"原则——忽略集群内依赖会膨胀伪显著性。
主要进展：TMLE 在 CRT 中的应用（2010s）。van der Laan 与 Rose（2011）提出的 Targeted Minimum Loss-Based Estimation（TMLE）把因果估计与半参数效率理论结合起来：它先对结局机制和缺失机制初始拟合（保证稳健性），再通过一个"targeting step"的协变量更新来减少对初估值偏差的依赖，并且是最小渐近方差的无偏估计当倾向得分的估计一致时。Balzer 等人（2016, 2019）首次将 TMLE 用于 CRT 并引入了"条件独立单位"（conditionally independent unit）的思路——将集群内的个体视为在给定集群级协变量后条件独立，从而可以用个体的条件似然来增益效率，但这隐含了"集群对结果的贡献仅通过观测到的协变量"这条强假设（即个体间的残差依赖被完全抓住了）。
当前 frontier：多源缺失与少量集群的处理（2020s）。传统 CRT 方法要么假设结局被完全观测（无缺失），要么仅处理单层缺失（如只有子抽样或只有失访）。Missing data in CRT 正被当作一个独立的话题被审视，但很少有方法同时处理子抽样、基线状态缺失和最终状态缺失这三个来源。与此同时，为处理少量集群而开发的"small-sample corrections"（如基于 t 分布的置换检验、Kenward-Roger 校正）仅适用于完整数据或独立数据集。
本文的位置：Nugent 等人（2024）提出了 "Two-Stage TMLE 扩展"，同时处理子抽样、基线状态缺失和最终状态缺失这三个缺失来源，并把条件独立假设的效率增益与对假设的敏感性分析一起嵌入同一个框架。其应用例子（SEARCH-TB 试验）正好对照了"依赖不切实际的假设"（无视抽样与缺失）与"正确建模"之间的结论翻转，使得该方法的实际必要性非常直观。
子线索聚类：
线索 1：CRT 中缺失数据的处理。代表：Rubin（1976）的缺失机制分类；Little 与 Rubin（2002）的缺失数据处理框架；在 CRT 中，Reich 等人（2018）讨论了多重插补的适用性。这些方法通常只处理"个体结局缺失"的简单情况，而未考虑子抽样作为第一层缺失。
线索 2：CRT 效率提升的条件独立假设。代表：Balzer 等人（2016, 2019, 2023）的条件独立单位思路；Rosenbaum（2002）对观察性研究中条件独立的讨论。这一支的核心争议是：放松独立假设的获益是否有代价（低估标准误差、误导覆盖）？本文对这一条线索提供了案例级别的证据。
线索 3：TMLE 的泛化与二阶段结构。代表：van der Laan 与 Rose（2011）的标准 TMLE；Schwartz 等人（2020）的两阶段 TMLE 用于缺失结果；Rudolph 等人（2021）将 TMLE 扩展到嵌套抽样设计。本文是这条线的直接延伸，把二阶段结构从处理单一缺失来源推广到处理"子抽样→基线缺失→最终缺失"的链式缺失结构。
这个方向在追问的核心问题（2-4 个）：
如何在同时存在子抽样、非随机失访和基线测量缺失的情况下，构造无偏且效率可接受的估计量？
条件独立假设何时是合理的？它的违反会导致多大的偏差？
当集群数极少（如 ≤20）时，基于大样本渐近的 TMLE 是否仍然可用？需要什么样的有限样本校正？
当缺失机制复杂时，"充分利用数据"（如在个体层面建模）和"保守推断"（如在集群层面聚合）之间的权衡如何数学化表达？
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）：作者将缺口 frame 为"现有 CRT 缺失数据处理方法通常各自独立解决一种缺失，没有一种方法能同时处理子抽样、基线缺失和最终缺失；同时，条件独立假设带来的效率增益没有在严格的缺失数据上下文中被批判性评估"——他们正是以此为动机，展示了一个"一站式"的解。被作者淡化的竞争路线：多重插补（MI）是缺失数据的主流方法。作者在 intro 中仅简短提到 MI "often rely on correct imputation model specification"，但未充分展开MI 与 TMLE 在 CRT 多源缺失下的实质优劣对比；也未讨论当集群数太少（如 N=6/arm），MI 的 Rubin 规则是否会因有限样本方差估计过度保守或过分解。此外，作者没有讨论置换检验或随机化推断的路线——这在 cluster-randomized 设计中常被认为是推断的金标准（因为干扰不依赖于随机化分布假设），但置换检验在存在非随机缺失时需要特殊处理。他们基本回避了这一路线。
值得查证的问题：该领域近期文献是否已经出现了同时处理多层缺失的不同方法（如 Han 与 Wang 2021 的 multiply robust 方法、或 Yang 等人 2019 的 kernel-based 方法）？若存在，它们与本方法的关系是什么？
张力：未见明显对立引用。所有被引工作基本在"缺失是坏、调整缺失是好"的共识框架内，分歧仅在于如何调整最有效。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

设我们研究一个集群随机试验。有 \( m \) 个集群，随机分配到处理组（\( A = 1 \)）或对照组（\( A = 0 \)），每个集群 \( i \) 有 \( N_i \) 个个体。

符号：
\( m \) = 集群数（独立单元数）。通常很小，如 10-20。
\( i = 1, \dots, m \)：集群索引。
\( j = 1, \dots, N_i \)：个体索引，但个体不是独立单元——集群是独立的，个体在集群内相关。
\( A_i \in \{0, 1\} \)：处理分配——是集群层级的（同一集群所有个体接受相同处理）。
\( Y_{ij}^{\text{final}} \)：最终结局（如 TB 感染）。这是目标结果，但可能缺失。
\( Y_{ij}^{\text{baseline}} \)：基线结局（如基线是否已感染 TB）。这可能缺失，只有在有基线检测的个体中才观测到。
\( Z_{ij} \)：子抽样指示符——个体 \( j \) 是否被选择进入"最终结局测量样本"（经济原因：不可能测所有人），这是一个已知的、设计决定的变量（部分由设计决定，部分可能因缺失变为随机缺失）。
\( R_{ij} \)：基线缺失指示符——如果个体被抽样，且基线检测被成功测得，则 \( R_{ij}=1 \)；表示基线结局是否被观测到。
\( S_{ij} \)：最终缺失指示符——如果个体被抽样且基线被测量（即进入了"发病队列"），则 \( S_{ij} = 1 \) 表示最终结局被观测到；否则意味着失访。
\( X_{ij} \)：个体水平协变量（可能多于一个，但为简便只考虑一个）。可能包括集群级变量（如地区大小）。
\( W_i \)：集群水平协变量。
着重指出：可观测 vs 不可观测——研究者实际观测到的是处理 \( A_i \)、子抽样 \( Z_{ij} \)、基线缺失 \( R_{ij} \)、最终缺失 \( S_{ij} \)、以及当缺失指示全部为 1 时的 \( Y_{ij}^{\text{baseline}} \) 和 \( Y_{ij}^{\text{final}} \) 和协变量 \( X_{ij} \)。基线结局缺失和最终结局缺失则是规划之外、可能具有系统偏差的缺口。
模型与数据生成机制：
处理分配是随机的：\( P(A_i = 1) = 0.5 \)（简单随机化或分层随机化）。
采样机制：研究者从一个集群里选择比例 \( p_i \) 的个体（设计决定，已知），但尾部可能因实际不可达产生额外缺失——作者用"子抽样" vs "基线缺失" vs "最终缺失"分开来对应三种不同的机制，且在建模中分别调整。
关键假设：条件可忽略性（Conditional ignorability）——给定观测到的协变量，缺失机制与潜在结果无关：\( Y^{\text{final}} \perp (Z, R, S) \mid (A, X, W) \)。这是 TMLE 和几乎所有基于倾向分法的推断所用的核心识别假设。在 CRT 中，这一假设等价于：在给定我们已知的信息后，谁被抽样、谁有基线、谁有结局的原因都不是结局的预测因素。这强而不可检验。
可观测数据：对于每个个体 \( j \) 在集群 \( i \)，我们观测到的数据是： \( O_{ij} = \left( A_i, Z_{ij}, R_{ij}, S_{ij}, \mathbf{1}[Z_{ij}=1, R_{ij}=1, S_{ij}=1] \cdot (Y_{ij}^{\text{baseline}}, Y_{ij}^{\text{final}}, X_{ij}) \right) \) 即只有当 \( Z_{ij}=R_{ij}=S_{ij}=1 \) 时，我们才观测到完整的结局和协变量。

第二步：最小内核——一个集群、两个个体、没有缺失的最简情况¶

为了看清整篇文章的核心想法，我们丢掉所有缺失和抽样——最简单情况：只有一个集群 \( i \)（\( m=1 \)）、里面两个个体 \( j=1,2 \)、处理已经分配（处理 \( A_i = 1 \)）、所有结局完全观测。

目标：估计处理组结局的期望 \( \mathbb{E}[Y^{\text{final}} \mid A = 1] \)（即 arm-specific mean）。
标准做法（集群级）：因为集群是独立的，而这里只有一个集群，没有有效信息估计方差。但作者希望使用个体层面的信息——如果把两个个体的结果当作"条件独立"来对待，我们可以计算个体均值 \( \bar{Y}^{\text{final}} \) 和个体方差，从而得到标准误差和置信区间。这显然是不对的（除非在一个集群内个体完全独立），但这就是条件独立假设的本质——假设给定观测到的集群级协变量，个体的结局之间没有残差相关。
作者的核心想法：不要粗暴假设独立性，而要把它当作一个"工作假设"（working assumption），并且用 Two-Stage TMLE 来检验这个假设对最终估计的影响。
Stage 1（个体层面机器学习）：用所有可观测数据拟合结局模型（如 \( \hat{\mu}^{\text{final}}(A_i, X_{ij}) \)）和缺失机制（倾向分 \( \hat{\pi}_{ij} \)）。
Stage 2（集群层面的 targeting）：构造一个"clever covariate" \( H_{ij} \)，它是由缺失机制的估计逆概率和协变量构造的，然后对个体层面的初估值进行一步更新（targeting），以保证最后的估计是无偏的（在正确指定的缺失机制下）且具有最小渐近方差。
方差估计的两种路径：
- 路径 A（集群是独立单元）：把所有个体的预测值在集群内聚合（如取均值），对 \( m \) 个集群的均值计算样本方差。这是保守的（正确覆盖，但可能低效）。
- 路径 B（条件独立假设）：将个体视为可交换的条件独立观测，用个体层面的方差计算公式，但使用集群内的"稳健"方差估计（sandwich/ cluster-robust）去调整集群内的相关性。这增加了效率，但只有在该假设被数据支持时才有效。
最小内核的数学表述：在最简的一集群二个体世界里，估计量是
\[\hat{\theta} = \frac{1}{2} (Y_1 + Y_2).\]
路径 A 的方差估计（保守）：\( \hat{\mathrm{Var}}_A(\hat{\theta}) = \frac{1}{1} \cdot 0 = \) 无效（因为只有一个集群，无法估计集群间方差）。
路径 B 的方差估计（高估效率）：\( \hat{\mathrm{Var}}_B(\hat{\theta}) = \frac{1}{2} \cdot \frac{(Y_1 - \bar{Y})^2 + (Y_2 - \bar{Y})^2}{2-1} \) —— 实际是把个体当成独立，给出了一个有数值的估计，但这个估计几乎肯定会低估真实方差（因为真实情况中，两个人在一个集群内结果的相关系数 > 0）。

整篇论文的核心创新就是构造了一个系统的方法，允许研究者同时计算这两条路径的估计和区间，从而让研究者自己判断结论的稳健性。

三、这篇论文做了什么¶

三句话： ① 研究了在集群随机试验（CRT）中，当同时存在子抽样、基线结局缺失和最终结局缺失三种缺失时，如何构造无偏估计并恰当地估计不确定性。 ② 核心工具是两阶段 TMLE（Two-Stage Targeted Minimum Loss-Based Estimation），它先对个体水平结局和缺失机制进行初始拟合（机器学习），然后在集群水平做一步 targeting 更新以保证无偏性。 ③ 主要结论是，在 SEARCH-TB 试验中，使用两阶段 TMLE 并采用条件独立假设（将个体视为条件独立单元）得到了显著反向的干预效应估计（降低 27% 风险），而忽略缺失和错误假设得出相反方向（增加 18% 风险），极大凸显了合理建模缺失和执行条件独立假设检查的重要性。
关键设定与假设：
缺失三类假设（Missingness Assumption）：
1. 子抽样：\( Z_{ij} \) 由设计决定，已知，与潜在结果无关（假设 A1，可检验性：因为设计决定）。
2. 基线缺失：\( R_{ij} \perp Y_{ij}^{\text{baseline}} \mid A_i, X_{ij} \)——条件可忽略。
3. 最终缺失：\( S_{ij} \perp Y_{ij}^{\text{final}} \mid A_i, X_{ij}, Y_{ij}^{\text{baseline}} \)——条件可忽略给定基线状态。
4. 相比标准 TMLE（van der Laan & Rose, 2011），这些假设把缺失处理从单一机制扩展到链式条件可忽略，这是泛化。
条件独立假设（Independence Assumption）：
- 强假设：给定集群级协变量 \( W_i \) 和个体级协变量 \( X_{ij} \)，集群内的个体可以视为条件独立（即 \( \text{Cov}(Y_{ij}, Y_{ik} \mid W_i, X_{ij}, X_{ik}) = 0 \)）。这实际上是说，集群内的残差相关性被完全协变量解释了。作者明确声明这条假设需要批判性评估——它是本文不同于常规 CRT 分析的核心差异，且在实践中很少被满足。
主要结果：
方法贡献：完整地给出了两阶段 TMLE 的算法（Algorithm 1），包含：
1. 在个体水平拟合结局模型（如 Logistic / GAM / XGBoost）和缺失机制的倾向分模型。
2. 构造 Clever Covariate：对于三个缺失来源，构造对应的逆概率权重（inverse probability weights）；巧妙的是，因为三个缺失是顺序发生的，最终的权重是三个逆概率的乘积。
3. 用一个参数（targeting coefficient）在集群水平上对个体水平的初估值做一步 MLE 更新（与标准 TMLE 相同）。
4. 计算方差：提供两种版本——保守型（将集群均值视为独立，估计集群间方差）和高效型（使用条件独立假设，用个体层面残差加 sandwich 估计）。
应用结果（SEARCH-TB 试验）：
- 该试验：对肯尼亚的 32 个社区随机分配干预（加强结核病筛查）vs 标准护理，每个社区约 500 名参与者；结局为结核感染发病率（需基线阴性者随访 10 年）。出现大量子抽样（只有部分人接受基线检测和最终检测），以及失访。
- 关键发现：
- 方法 A（忽视缺失，简单分析）：估计干预增加 18% 风险（RR = 1.18, 95% CI: 0.85–1.63）。统计不显著。
- 方法 B（传统 CRT 聚合，只调整子抽样，忽略基线/最终缺失）：估计 RR = 0.80 (0.69–0.92)。
- 方法 C（两阶段 TMLE + 条件独立假设）：估计干预降低 27% 风险（RR = 0.73, 0.57–0.92），统计显著。
- 方法 D（两阶段 TMLE + 保守集群方差）：估计 RR = 0.73，但置信区间稍宽（0.56–0.95），仍显著。
- 结论翻转的事实强力支持了论文的核心论点：错误的缺失模型和独立性假设可以完全逆转结论的方向，而他们的方法提供了一个更加稳健且遵循设计原则的估计框架。
证明路线与技术技巧（方法性质，非严格理论证明）：
本文是方法+应用导向的，没有主体证明路线，但有算法的理论推导和方差的一致性论证：
1. 步骤 1——推导 Clever Covariate：作者从半参数效率理论出发，写出三源缺失设置下的 efficient influence function（EIF）。他们展示了三步为真的 partial likelihood 分解（采样→基线→最终结局），并计算出相应的 EIF。Clever Covariate 就是 EIF 中与初始估计相乘的外部部分。
2. 步骤 2——一步更新：通过将 Clever Covariate 乘一个参数 \( \epsilon \) 加入初始估计的线性预测中，然后拟合这一参数，得到 targeting 系数。Van der Laan & Rose (2011) 已证明这一步能把估计的偏差降为二阶小（as \( n \to \infty \)，当缺失机制模型一致时）。
3. 步骤 3——方差估计的两种策略：保守型是利用样本均值的经验方差（根据 m 个集群的均值得出），逐渐收敛到真实方差（当 m→∞）。高效型是假定条件独立成立，使用个体层面的观测来构造方差，并用三明治估计（sandwich estimator）修正。这两种方差都是在集群层面做交叉检验（cross-fitting）以避免过拟合偏差——这是 standard TMLE 的常见做法。
技术技巧点名：
- 交叉检验 (cross-fitting)：将数据分为 K 折，对每一折用另外 K-1 折来拟合结局和缺失模型，这一折用来进行 targeting。保证了没有过拟合偏差，是 TMLE 的标准做法。
- 逆概率权重的乘积结构：因为缺失是顺序发生的（子抽样 → 基线缺失 → 最终缺失），所以总逆概率权重是三个逆概率权重的乘积。这一技巧简洁地将多层缺失转化为一个总体权重。
- 参数 targeting 的一步更新：虽然没有复杂的最优化，但选择了一个参数 \( \epsilon \) 使得最终的估计量收敛到无偏，这一步骤是高效性的关键。
真实例子与应用：如上所示，SEARCH-TB 试验提供了扎实的应用，显示了不同方法的结果大翻转。
🔎 结论是否比证明窄：是的。作者在应用部分给出了明显有意义的结果，但没有给出严格的有限样本保证。当集群数仅有 32（且每个被分为两个处理组，仅 16 个可比较的"独立"单元）时，条件独立假设下的标准误差高度依赖于两阶段 TMLE 的交叉检验构造的个体层面残差之间的相关性。如果集群内残差相关非零，sandwich 估计会低估标准误。作者没有提供模拟实验，来量化在有限样本下（m ≈ 30）条件独立假设违反对方差估计的影响。此外，结局模型的拟合使用了复杂的机器学习（如 XGBoost），这在 m 较小时是否会导致过度拟合或不稳定，也未被系统评估。作者只呈现了一组实际数据的结果——这不是重复的模拟或灵敏度分析——因此读者只能从这一组数据中判断方法的稳健性，缺少在合成数据上对照真实默然结果的检验。

四、开放问题（点到为止，扎根具体语句）¶

有限样本下的方差偏差量化。作者说"for our application of interest, the impact of conditional independence on the variance estimator appears to be small"。但这一判断仅基于一个数据案例。开放问题：针对不同层级内相关系数（ICC）水平、不同集群数（如 m=10, 20, 30），条件独立方差估计器的偏差是否可被无偏校正或重新缩放？扎根论文："the impact... appears to be small"（应用结果节，结论语气句，非严格证明）。
三类缺失的交互敏感性。论文中假设三种缺失是顺序条件可忽略的。如果其中一种（如基线缺失）不能满足条件可忽略性，会对最终估计产生多大偏误？未来的研究可构建一个 relax 该假设的敏感性分析，例如引入一个敏感性参数 \( \delta \) 刻画基线缺失与基线结局的相关性。扎根论文：假设 A1–A3 章节。
与置换检验 / 随机化推断的整合。论文未讨论置换检验。开放问题：能否将两阶段 TMLE 的估计量作为测试统计量嵌入一个随机化检验（以集群为随机化单元），从而获得 无需渐近近似、对缺失模型错定具有鲁棒性 的推断？扎根论文：intro 中暗含"有限样本影响"的关注，但避免触及这一替代路线。
扩展到连续结局或时间点更多的情况。当前方法聚焦二值结局（感染/未感染）和三个固定缺失时间点。若结局是连续型、或者存在更长时间序列的多重缺失（如纵向 HIV 病毒的多个测量点缺失），如何构建通用的两阶段 TMLE 框架？扎根论文：作者在讨论中说"extension to continuous outcomes is straightforward... but was not explored"——这指示了未来扩展的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub