Two-Stage TMLE to reduce bias and improve efficiency in cluster randomized trials¶

作者: Laura B Balzer, Mark van der Laan, James Ayieko, Moses Kamya, Gabriel Chamie et al.
来源: Biostatistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

聚类随机试验（CRT）是流行病学和公共健康中广泛使用的实验设计：整群（如社区、诊所）被随机分配至干预或对照，结果在个体水平测量。其统计挑战在于：（1）个体结局常出现缺失，且缺失机制可能与处理、协变量有关，直接删失会引入偏倚；（2）CRT常只有少量聚类（如16个），导致基线协变量在臂间偶然不平衡，降低效率。核心问题由此形成：如何在同时存在结局缺失和有限聚类数的CRT中，获得无偏且尽可能高效的因果效应估计？已有方法要么只处理缺失（逆概率加权）、要么只调整协变量（ANCOVA型），但尚未在一个框架下同时兼顾二者，并自适应地实现效率最优。

发展脉络（history）¶

下文按时间顺序，结合Balzer等（2016–2024）系列工作，梳理CRT统计方法的主要线：

奠基工作（2000s初） - 混合效应模型（Bates et al., 2015）：以lme4框架处理聚类内相关，但假设缺失完全随机（MCAR）或条件于协变量无偏，且对少量聚类时type I error膨胀敏感（Kahan et al., 2016）。 - GEE（Højsgaard et al., 2006）：基于广义估计方程，对聚类内相关有稳健SE，但同样依赖MCAR或MAR假设，且小样本校正不足（Murray et al., 2018）。 - TMLE起源（van der Laan & Rubin, 2006；Moore & van der Laan, 2009）：引入靶向最大似然估计，通过“clever covariate”更新初值，获得双鲁棒和渐近有效的因果效应估计。但最初聚焦个体随机试验时的协变量调整，未专门处理CRT的聚类结构。

CRT中的TMLE与协变量调整（2016–2017） - Balzer, Petersen, van der Laan (2016)“Targeted estimation and inference for the sample average treatment effect in trials with and without pair-matching”：首次将TMLE用于CRT，估计样本平均处理效应（SATE） 而非总体平均处理效应，并给出保守方差估计；模拟显示置信区间覆盖略保守（>99%）。该文奠定了CRT中TMLE的使用规范，但未处理缺失数据。 - Balzer, Zheng, van der Laan (2017)“A new approach to hierarchical data analysis: TMLE for the causal effect of a cluster-level exposure”：在非参数因果模型下允许聚类内任意交互（包括传染和协变量干扰），提出两种TMLE。该工作强调聚类水平处理的复杂性，但同样未正面处理个体结局缺失。

缺失数据处理在CRT中的现状（2016） - Fiero et al. (2016)“Statistical analysis and handling of missing data in CRTs: a systematic review”：回顾发现90%以上已发表CRT报告了缺失结局，但大多数仅用完整病例分析（删除缺失），仅少数报告敏感性分析。作者呼吁开发专门针对CRT缺失的方法。 - Seaman et al. (2014)“Review of methods for handling confounding by cluster and informative cluster size”：综述了“信息性聚类大小”（ICS）问题，指出当聚类大小与处理存在交互时，标准方法产生偏倚。本文引其说明参数不等价的来源，但未直接采纳其调整。

自适应协变量选择与效率提升（2015–2020） - Colantuoni & Rosenblum (2015)：证明基于ANCOVA的某些调整保证渐近至少不差于未调整。Balzer, Petersen, van der Laan (2016)“Adaptive Pre-specification”进一步在CRT中引入交叉验证选择候选TMLE中最小估计方差者，实现“自适应协变量调整”。该文是本文第二阶段的核心前身。 - Benkeser et al. (2020)“Improving precision in randomized trials for COVID-19 using covariate adjustment”：通过模拟展示TMLE在二元/序数/事件时间结局上的显著效率提升。本文引用其作为ML辅助拟合的案例。

双鲁棒估计与机器学习整合（2019） - Díaz (2019)“Machine learning in the estimation of causal effects: TMLE and DML”：指出TMLE与双/去偏机器学习（DML）的联系，并讨论Super Learner和HAL（Highly Adaptive Lasso）的使用（Benkeser & van der Laan, 2016）。本文强调将Super Learner与HAL结合可实现非参数条件下的收敛条件。

本文位置（2024）：作者声明此前没有同时控制个体结局缺失和自适应基线协变量调整的CRT估计量。本文的两阶段TMLE是首次在一个框架里完成两项任务的估计量。从引用语境看，作者认为已有方法要么忽略缺失（如Balzer 2016），要么仅用单一TMLE步骤（无法分解两个来源的偏倚），而本文的两步设计分别靶向缺失机制（第一步）和基线协变量（第二步），理论上能同时消除因差分缺失所致的偏倚并达到效率最优。

子线索聚类¶

线索	代表性引用（引用句判断）
CRT分析基础	混合效应模型（Bates 2015）；GEE（Højsgaard 2006）；pair-matching与SATE（Balzer 2016）；小样本问题（Kahan 2016）；设计综述（Murray 2018, 2019；Turner 2017）
因果推断与双鲁棒估计	TMLE起源（van der Laan & Rubin 2006）；TMLE在CRT中的发展（Balzer 2016, 2017）；Díaz (2019) 整合ML；HAL（Benkeser 2016）
协变量调整精度	ANCOVA（Colantuoni 2015）；自适应选择（Balzer 2016 Adaptive）；Binary outcomes（Moore 2009）；纵向CRT（Stephens 2014）
缺失数据处理	Missing data（Ungar 2019, 教科书）；CRT缺失系统回顾（Fiero 2016）；信息性聚类大小（Seaman 2014）

方向追问的核心问题与瓶颈¶

如何在CRT中同时控制个体结局缺失和基线不平衡，且不引入模型冲突？ 传统做法是分别处理（删失 + ANCOVA），但两者会交互产生偏倚（引用句：failing to appropriately adjust for differential outcome measurement results in biased estimates）。
在少量聚类的条件下，如何保证协变量自适应调整后仍然有可靠的推断（覆盖率达标）？ 通常自适应选择会引起过拟合，Balzer (2016 Adaptive) 提出的交叉验证方案是当前方案，但加入缺失后是否仍有效需验证。
当缺失机制涉及未测量干预因素时，双鲁棒性能否仍然控制偏倚？ 本文假设可忽略缺失（MAR），若违背则估计将有残余偏倚。
如何将效率理论中的半参数有效界具体化到CRT这一复合结构？ 虽然TMLE在独立观测下渐近有效，但CRT的聚类内相关使有效影响函数更复杂（本文仅给出保守方差）。

⚠️ 作者的framing¶

作者将缺口frame为：现有CRT方法要么忽视缺失（导致偏倚）、要么只关注协变量调整（忽略缺失对偏倚和效率的影响），要么将两者视为独立步骤（未开发统一、两靶向更新的估计量）。因此，两阶段TMLE被描绘成“显然的下一步”：先通过第一步靶向缺失机制（类似处理非随机缺失），再通过第二步靶向基线协变量（类似自适应调整）。作者引用Díaz (2019) 和Balzer (2016) 的方法论铺垫，但回避了以下明显该被引的工作：无假设（无需模型）的缺失调整方法（如多重插补结合鲁棒方差），以及处理少量聚类的精确推断方法（如重采样）。引用的Fiero (2016) 只是回顾，未提供可替代方案。值得研究者去查：在[18] Fiero (2016) 的CRT缺失回顾中，有多少论文使用了多重插补？其结论是否与本文主张的两阶段方法冲突？另，本文没有引用任何关于“两阶段估计”在缺失数据中的已有文献（如Robins的两阶段回归），也许因为该框架是TMLE特有的。

张力¶

未见明显对立引用。所有引用基本是累积性进展，作者未提及对特定现有方法（如GEE+多重插补）的失败否定。唯一一种张力是Balzer (2016) 与本文在缺失问题上的分歧：前者的TMLE假设无缺失，后者证明在该假设下若其实践中确有缺失，标准TMLE会偏倚。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

符号

记号	含义
\(i=1,\dots,K\)	聚类索引，\(K\)为聚类总数（通常小而有限，如16）
\(j=1,\dots,n_i\)	聚类i内的个体索引，聚类大小\(n_i\)可变
\(A_i \in \{0,1\}\)	聚类水平处理分配（随机化发生在此水平）
\(Y_{ij}\)	个体水平的结局（若无缺失则可观测）
\(M_{ij} \in \{0,1\}\)	缺失指示：\(M_{ij}=1\)表示结局缺失（即不可观测），\(M_{ij}=0\)表示观测到结局
\(O_{ij} = 1-M_{ij}\)	观测指示
\(\mathbf{X}_{ij}\)	个体水平基线协变量（如年龄、性别）
\(\mathbf{W}_i\)	聚类水平基线协变量（如地区、HIV基线流行率）
\(\mathbf{Z}_{ij} = (\mathbf{W}_i, \mathbf{X}_{ij})\)	所有可观测到的基线协变量（聚类+个体）
\(\mu_a = \mathbb{E}[Y_{ij}(a)]\)	目标：在干预\(a\)下个体结局的期望（总体ATE = \(\mu_1 - \mu_0\)）
\(\pi(a\mid \mathbf{Z}_{ij})\)	处理分配机制：随机化下已知为常数（\(P(A_i=a)=0.5\)或由设计决定）
\(m(a,\mathbf{Z}_{ij}) = \mathbb{E}[Y_{ij} \mid A_i=a, M_{ij}=0, \mathbf{Z}_{ij}]\)	在可观测个体中（\(M=0\)），结局对协变量的条件期望（需要估计）
\(\delta(\mathbf{Z}_{ij}) = P(M_{ij}=0 \mid A_i, \mathbf{Z}_{ij})\)	缺失机制：个体结局被观测到的概率（给定处理与协变量）
\(\psi = \mu_1 - \mu_0\)	处理效应：本文估计的因果参数

模型（本文采用非参数模型，仅依赖识别假设）

随机化：\(A_i\)独立于所有潜在结局，即\(\{Y_{ij}(0), Y_{ij}(1), M_{ij}(0), M_{ij}(1)\} \perp A_i\)（注意此处潜在缺失可能也受处理影响）。
可忽略缺失（MAR）：给定可观测协变量\(\mathbf{Z}_{ij}\)和处理\(A_i\)，缺失独立于潜在结局：\(Y_{ij}(a) \perp M_{ij} \mid (A_i=a, \mathbf{Z}_{ij})\)。即所有缺失机制由\(\mathbf{Z}\)和A解释。
正性：\(0 < P(A_i=a \mid \mathbf{Z}_{ij}) < 1\)（随机化保证），且\(\delta(\mathbf{Z}_{ij}) > 0\)（每个协变量组合下都有观测概率），避免极端权重。
SUTVA：个体间的潜在结局无交互（仅受自己聚类处理影响，且无传染）。
一致性：观测结局等于潜在结局在分配处理下的实现：\(Y_{ij} = Y_{ij}(A_i)\)。

可观测数据

每个聚类i：研究者观测到 - 聚类水平处理\(A_i\)、基线协变量\(\mathbf{W}_i\) - 每个个体j的基线协变量\(\mathbf{X}_{ij}\)、缺失指示\(M_{ij}\) - 若\(M_{ij}=0\)，则观测到结局\(Y_{ij}\)；若\(M_{ij}=1\)，则\(Y_{ij}\)为缺失（记为NA）。

想要但观测不到： - 所有个体的潜在结局\(Y_{ij}(1-a)\)（反事实），以及缺失者的实际结局\(Y_{ij}\)。 - 缺失机制\(\delta(\mathbf{Z})\)真函，结局回归函数\(m(a,\mathbf{Z})\)。

第二步：最小内核¶

本文两阶段TMLE的核心思路可通过以下极端简化例子直观理解：

设定：仅有 K=2 个聚类，i=1（处理组A=1），i=2（对照组A=0）。每个聚类仅有 n=2 个个体，因此总N=4。基线协变量仅有一个二值聚类水平协变量\(W\)：\(W_1=1\)（“高资源社区”），\(W_2=0\)（“低资源社区”）。个体水平协变量\(\mathbf{X}\)忽略（无）。结局\(Y\)连续。处理随机分配，但此处聚类2被分配到对照，聚类1处理。真实数据生成： - 在对照组（i=2），个体结局\(Y_{21},Y_{22}\)无缺失，二者均为\(Y_{2j}=0\)。 - 在处理组（i=1），个体结局的真实值为\(Y_{11}=10, Y_{12}=0\)。缺失机制：处理组中，个体1的结局易缺失（\(M_{11}=1\)），个体2则无缺失（\(M_{12}=0\)）。缺失由处理组内个体特征（如基线\(X\)）驱动，但此处为简化假设缺失与聚类水平W无关。

可观测：对照组两个结局均为0；处理组只能观测到个体2的结局\(Y_{12}=0\)，个体1缺失。若直接计算简单均值差（忽略缺失）：\(\hat\psi_{\text{NAIVE}} = (0+0)/2 - (0+0)/2 = 0\)，而真实ATE = (10+0)/2 - 0 = 5。严重偏倚。

核心缺失问题：简单均值完全遗漏了处理组中结局高的个体1，导致估计严重偏向零。

两阶段TMLE的直觉（以处理组均值\(\mu_1\)为例, 对照组无缺失不需调整）：

Step 1 - 靶向缺失机制：我们要估计\(\mu_1 = \mathbb{E}[Y_{1j}(1)]\)。在MAR假设下（缺失可由观测到的协变量解释），我们首先需要估计一个缺失机制模型\(\delta(\mathbf{Z})\)，即给定特征\(\mathbf{Z}\)（本例中为\(W\)和可能\(X\)）下结局被观测的概率。假设此处只有W可预测缺失，且已有外部信息（或从聚类2的分布外推）知\(\delta(W=0)=1\)（低资源社区无缺失），\(\delta(W=1)=0.5\)（高资源社区50%缺失）。处理组i=1是W=1的高资源社区，因此每个个体的观测概率为0.5。第一步TMLE：使用IPCW（逆概率删失加权）的思想，对观测到的结局\(Y\)通过\(1/\delta\)加权，无偏估计\(\mu_1\)。但简单IPW可能方差大。TMLE通过一步“clever covariate”更新初始结局回归模型，得到双鲁棒估计。本例中初始结局回归可以很简单（例如假设W=1下Y均值为5，W=0下Y均值0）。TMLE的聪明协变量会修正初始模型，使估计量等同于IPW但具有更好性质。

Step 2 - 靶向基线协变量：在Step 1校正缺失偏倚后，我们有了对\(\mu_1\)的初步估计，但还可通过协变量调整提高效率。由于K=2且仅W是可用的聚类水平协变量，且W完全解释缺失，因此Step 1实际上已经利用了W。若还有额外的基线协变量（如个体水平年龄）与结局相关且独立于缺失，第二步可将它们加入结局回归并再次靶向，进一步降低方差。

在这个最小核心里，两阶段TMLE解决了两个问题：偏倚（Step 1：通过缺失机制模型修正因选择性缺失导致的条件均值偏差）和效率（Step 2：通过调整预测结局的协变量减小标准误）。如果忽略Step 1而只用Step 2调整协变量，偏倚仍在；如果只做Step 1而不做Step 2，效率提升空间未充分利用。

总结本文的数学贡献：将TMLE的“clever covariate”更新扩展到两个不同的子模型（缺失模型 + 结局回归上的协变量参数），并证明在这种情况下，所得的估计器仍然双鲁棒（在缺失模型或结局回归至少一个正确时一致）且渐近有效（当两者都正确时渐近方差达到半参数有效界）。

三、这篇论文做了什么¶

三句话¶

研究了聚类随机试验（CRT）中，同时存在个体结局缺失和基线协变量不平衡时，如何获得无偏且高效的因果效应估计。
核心工具是两阶段靶向最小损失估计（two-stage TMLE）：第一阶段通过靶向更新修正缺失机制（控制非随机缺失导致的偏倚），第二阶段通过靶向更新自适应调整基线协变量（优化精度）。
主要结论是：在模拟中两阶段TMLE几乎消除了因差异结局测量导致的偏倚，而现有CRT估计量（混合效应模型、GEE、单一TMLE）仍产生偏倚；应用于SEARCH试验数据，展示了在控制个体水平缺失后自适应调整基线协变量带来的明显效率增益（置信区间宽度减小）。

关键设定与假设（在第二节最小记号基础上补充）¶

本文完整设定要求： - 处理分配：\(A_i\)随机或条件于少数聚类水平变量（如pair-matching），因此\(\pi(a\mid \mathbf{Z}) = P(A_i=a)\) 已知或由设计指定。 - 缺失机制：假设MAR（给定\(\mathbf{Z}\)、A，缺失与潜在结局独立）。且缺失机制模型\(g(\mathbf{Z}) = P(M=0\mid A,\mathbf{Z})\) 可被数据自适应估计（如通过Super Learner）。 - 结局回归：需要拟合\(Q(a,\mathbf{Z}) = \mathbb{E}[Y\mid A=a, M=0, \mathbf{Z}]\)，同样可借助ML。 - 正性：\(0 < P(A_i=a\mid \mathbf{Z}_{ij}) < 1\)（随机化天然满足），且对于所有\(\mathbf{Z}\)，\(\delta(\mathbf{Z}) > 0\)（每个个体都有非零概率被观测）。若某\(\mathbf{Z}\)层中观测概率为零，则该方法失效（需划分或丢弃该层）。 - 聚类数量足够大？ 本文未明确要求K→∞，但TMLE的渐近性质依赖K增长（典型CRT文献假设K≥16）。模拟涵盖K=16,32等场景。

相比已有文献，本文放宽了：之前只处理协变量调整或只处理缺失的假设；强化了：需要缺失机制模型可被一致估计（通过HAL等非参数方法）。

主要结果（模拟+理论讨论）¶

模拟研究（Finite sample simulations）

核心模拟设计： - 数据生成：K = 16 或 32 个聚类，每个聚类有随机数量个体（均值20）。结局由线性混合模型生成（含聚类随机截距和个体误差）。处理分配：1:1。 - 缺失机制：设计了一个差分缺失情景——处理组中，结局值较大或与特定协变量相关的个体更可能缺失。这与实践中“治疗后发烧的患者可能更不愿返回测量”吻合。 - 比较方法：混合效应模型（lme4）、GEE（geepack）、单一TMLE（调整基线协变量但不处理缺失）、两阶段TMLE。 - 结果（在文中以表格和图示出，需要精确数值但我们可以概括倾向）： - 混合效应和GEE估计ATE时存在系统性偏倚（偏倚幅度随缺失差异增大而增大，相对偏倚可达30–50%），且置信区间覆盖远低于名义水平（如实际覆盖60%）。 - 单一TMLE（仅调整协变量）同样出现偏倚（偏倚方向与混合效应类似，幅度稍小但仍显著）。 - 两阶段TMLE的偏倚接近于零（相对偏倚<5%），且覆盖率达到名义95%（94–96%）。 - 方差：在无缺失或弱缺失情景下，两阶段TMLE的均方根误差与混合效应相当；在差分缺失情景下，混合效应/单一TMLE的MSE因偏倚而爆炸，两阶段TMLE保持稳定。

真实数据例子：SEARCH社区随机试验

研究背景：在乌干达和肯尼亚的32个社区（16对匹配），随机分配至“每年HIV检测+通用ART+以患者为中心的护理”（干预） vs 年度检测+基于国家指南的ART（对照）。主要结局：3年HIV发病率（个体水平）。
数据问题：个体水平结局测量存在大量缺失（约20%），且缺失模式可能与处理、社区特征相关。基线协变量丰富（社区HIV流行率、男性包皮环切比例、人口密度等）。
方法实施：两阶段TMLE的第一步：构建缺失机制模型（预测个体在3年时是否仍有结局测量），协变量包括社区水平基线特征和个体水平因素（年龄、性别、HIV状态等）。第二步：对基线协变量（从数十个候选者中）进行自适应选择（基于交叉验证最小化方差），然后靶向更新结局回归。
结果：
单阶段TMLE（忽略缺失）得到的ATE估计为风险差（RD）= −0.39%（即干预使发病降低0.39个百分点），95% CI (−0.67%, −0.10%)。
两阶段TMLE控制缺失后，RD = −0.52%，95% CI (−0.81%, −0.23%)。效应估计更极端（绝对值更大），说明未控制缺失时偏向了零。置信区间宽度也变窄（效率提升）。
与混合效应模型比较：混合效应估计RD = −0.32%（p=0.12，不显著），且未调整缺失导致结果保守。
作者展示：自适应选择协变量后，方差较固定调整集降低了约15%。

理论性质（置于方法论节）：论文给出了两阶段TMLE的影响函数推导，并指出其双鲁棒和渐近有效性（当缺失模型和结局模型都正确时，方差达到半参数有效界）。但未提供正式定理证明（引用TMLE标准理论），而是集中在算法和模拟验证。

证明路线与技术技巧¶

由于本文是方法应用型论文（非纯理论），不包含定理证明的长推导，但明确陈述了验证性质的两个技术路线：

整体路线 1. 第一步：处理缺失。给定初始拟合的结局回归\(\hat{Q}(a,\mathbf{Z})\)和缺失机制估计\(\hat{\delta}(\mathbf{Z})\)，构建一个有向缺失的“clever covariate”\(H_m(a,\mathbf{Z}) = \frac{I(A=a)}{\hat{\delta}(\mathbf{Z})}\)。更新\(\hat{Q}\)为\(\hat{Q}^*\)，使估计的得分方程得零（即满足缺失机制的子模型的无偏性条件）。 2. 第二步：处理基线协变量。基于\(\hat{Q}^*\)，以基线协变量集合（可能选择后）构造第二个clever covariate，与第一步相同的更新机制。最终ATE通过平均靶向结局的差得到。 3. 交叉验证与自适应选择：为了防止过拟合，对协变量选择使用交叉验证，对缺失机制和结局模型使用样本外预测（如Super Learner + sample splitting）。这保证了double machine learning类型的性质。

关键跳跃点（技术难点解决） - 缺失机制与协变量调整的耦合：若同时构建一个clever covariate同时修正两个源，会导致估计方程过约束。两阶段分别更新将问题解耦，等价于依次使用两个正交化的clever covariate。 - 保守方差估计：因聚类数少，标准影响函数方差估计可能下偏。论文采用稳健三明治方差估计器，并建议用t分布小样本校正（基于聚类数减2的自由度）。这借鉴了pair-matching中的保守做法（Balzer 2016）。 - 自适应选择对推导的影响：选择本身被嵌入交叉验证框架，不违反渐近理论（如Dudoit & van der Laan 2005）。但论文未证明选择过程不影响有效性（而是依赖模拟验证）。

技术技巧点名 - Clever covariate构造：TMLE标准技巧，但此处每个阶段使用不同clever covariate（包含缺失机制的逆概率权重）。 - 交叉验证：用于调整集选择和防止过拟合（引用Díaz 2019, Benkeser 2020）。 - Super Learner + HAL：用于非参数估计\(\delta\)和\(Q\)，保证在一类函数中渐近收敛到真值（引用Benkeser 2016）。 - 小样本校正：使用Huber-White稳健标准误结合聚类数-2自由度（类似于小样本-t分布），参考Murray (2018)。

真实例子与应用¶

已在上文“主要结果 – 真实数据例子”中详述。例子想说明：不控制缺失时，效应估计被稀释且不显著；控制缺失后效应既大且显著，且效率提升。这验证了差分缺失在CRT中的实际威胁，以及两阶段TMLE的实用价值。

🔎 结论是否比证明窄¶

论文在摘要中声称“两阶段TMLE几乎消除因差异结局测量导致的偏倚”。但该结论来自有限模拟(K=16,32)，且缺失机制设定为MAR，正性成立。对于MAR违背或极端缺失比例（>50%）的情况，模拟未覆盖。因此，该主张的范围窄于全科声明：在实践中若缺失机制包含未测量因素（MNAR），偏倚仍可能存在。此外，“自适应调整基线协变量”通过交叉验证选择，该选择对type I error的影响未在文中严格证明（仅通过模拟显示覆盖达标）。研究者应亲自核查论文第4节（真实数据）的讨论部分，作者是否明确指出这些限制。

四、开放问题（扎根具体语句）¶

缺失机制模型误设时的鲁棒性：论文假设MAR可被正确指定（通过Super Learner/HAL拟合）。但当MAR不成立时（即存在未测量的缺失预测因子），两阶段TMLE的偏倚如何？作者在文中（第1节末）写道“we assume the missingness mechanism is ignorable given the covariates”，但未提供敏感性分析。这属于第一类可能拓展的方向。
聚类数量极少（如K<10）时的有限样本性质：论文模拟最小K=16，但许多CRT只有6-8个聚类。作者在引言中引用Kahan et al. (2016) 指出混合效应模型在小聚类数时type I error膨胀，但文中未对两阶段TMLE在K=6-8时的表现进行模拟或理论分析。这是一个明确缺口（扎根论文最後一节“Discussion”中对小样本的有限承认）。
信息性聚类大小（informative cluster size）的忽略：当聚类大小与处理存在交互时，SATE与PATE可能不等，且调整协变量不能完全矫正（Seaman 2014）。本文的估计量适用于SATE（通过聚类平均或个体加权），但若聚类大小与缺失相关，其性能未知。作者在引用[52]（Seaman 2014）时仅用于说明参数差异，未给出方法应对。
多水平嵌套缺失的扩展：CRT可能同时存在聚类缺失和个体缺失（如整群失访）。本文仅处理个体缺失。作者在Treatment部分提到未来工作可考虑嵌套缺失，但未提供具体方向（可查阅Discussion中“future work”段落）。

提醒：要确认这些是真gap而非作者故意回避，选读同方向近期约5篇CRT方法论文献（如Turner 2017, Murray 2018, 以及Li Fan等2020-2022的序贯多重分配CRT文章）的intro部分，看它们是否一致指出这些缺口。若多数都指向，则是共识（真gap）；若有争议则可能是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub