Addressing selection bias in cluster randomized experiments via weighting¶
作者: Georgia Papadogeorgou, Bo Liu, Fan Li, Fan Li
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文处理的根本问题:在整群随机化实验(Cluster Randomized Trials, CRTs) 中,由于个体通常在群组被随机分配干预后才被招募纳入研究,导致实际可观测的“招募样本”与“目标总体”(如全体合格居民)之间存在系统性差异,从而产生后随机化选择偏差(post-randomization selection bias)。这个子方向的核心任务是:明确定义在这种偏倚下的因果目标量(estimands),识别在什么假设下可以无偏估计这些目标量,并开发相应的估计与敏感性分析方法。
发展脉络(history)¶
- 奠基工作——识别选择偏差问题本身(2021):
-
Fan Li et al. (2021) [被引10]:本文的“前传”。首次系统地在CRT语境下,采用主分层(principal stratification)框架,明确定义了“总体平均处理效应(ATE)”与“招募人群ATE”两个不同的因果目标量,并推导了它们在主分层效应上的表达式。它留下了关键口子:识别假设是什么?如何估计?——本文正是在这些问题上推进。
-
主要进展——非参数识别与估计策略(2022):
- Fan Li, Zizhong Tian, Zibo Tian, Fan Li (2022) [被引14]:在前述定义基础上,更进一步提供了非参数识别假设与公式,明确了在哪些假设下总体ATE的某些部分是可识别的,哪些部分是不可能的。该文为本文提供了直接的识别理论铺垫,但未涉及具体的估计方法与加权策略。
-
Schochet (2022) [被引15]:独立地提出了在CRT中处理“干预影响服务人群”导致的偏倚问题,并开发了针对“依从者(complier)”人群的IPW估计器。它与本文思路高度互补:Schochet关注“依从者”亚群,本文则关注由“招募指示器”定义的“始终被招募者”与“仅干预下被招募者”亚群。
-
当前Frontier——加权估计与敏感性分析:
- 本文(Papadogeorgou, Liu, Fan Li, Fan Li, 2024):在前述识别工作的基础上,完成了估计与推断的闭环。核心贡献有三:
- 加权估计:在“可忽略招募”假设下,证明招募人群ATE可通过IPW一致估计;总体ATE不可识别,但通过主分层加权可识别两个有意义亚群(always-recruited, treatment-recruited)的效应。
- 敏感性分析:针对“可忽略招募”假设偏离,开发了基于\(\boldsymbol{\rho}\)参数的敏感性分析框架,允许研究者量化假设偏离对估计值的影响。
- 软件实现:R包
CRTrecruit。
子线索聚类¶
这些被引文献大致落在两条子线索上:
- 线索A:CRT选择偏差的定义与识别理论(主要是Fan Li及其合作者序列)
- 工作:[被引10] Fan Li et al. (2021), [被引14] Fan Li et al. (2022), [被引5] Kahan et al. (2022)。
- 典型议题:什么是合适的estimand?主分层框架如何应用?哪些假设足以识别什么层次的因果效应?
-
本文在此线索的定位:接过识别理论,完成估计与推断。
-
线索B:主分层(Principal Stratification)方法在随机实验中的应用(经典文献与近期发展)
- 工作:[被引3] Jo & Stuart (2009), [被引4] Ding & Lu (2016), [被引8] Jiang et al. (2020)。
- 典型议题:主得分(principal score)估计、主可忽略性(principal ignorability)、多重稳健估计(multiply robust)。
- 本文在此线索的定位:将主分层方法首次系统应用于CRT的后随机化选择偏差场景,并设计了加权估计方案。
本方向在追问的核心问题¶
- estimand选择:在存在选择偏差的CRT中,究竟应该报告哪个因果效应(总体ATE、招募人群ATE、还是特定亚群效应)?
- 识别假设现实性:“可忽略招募”假设到底有多强?它在实践中是否合理?如何检验其偏离并量化影响?
- 效应估计的统计性质:在有限总体的设计-推断框架(design-based inference)下,IPW估计器是否具有设计一致性(design-unbiased)或至少设计一致性(design-consistent)?其方差如何估计?
- 与已有回归调整方法的比较:传统的多变量回归调整(如ANCOVA、随机效应模型)在什么条件下仍然有效,什么条件下失效?加权方法是否能提供超越回归调整的鲁棒性?
⚠️ 作者的Framing¶
- 作者如何frame缺口:作者明确将缺口定位为“前序工作仅完成了识别,未完成估计与推断”。作者特别强调了“后随机化选择偏差”是CRT中一个未被充分处理的问题——标准教科书方法(如混合效应模型、GEE)假设各组招募的个体是可比的,但该假设在开放标签或无盲法实验中极可能不成立(引言第1-2段)。
- 作者淡化/回避了什么:
- 回归调整方法:作者在引言第3段简要提及“多变量回归调整可缓解某种程度的偏倚”,但没有深入讨论回归调整与IPW哪个更有效、或是否可组合成双稳健(doubly robust)估计器。这在敏感性分析一节也未涉及。
- 有限总体与超总体框架的差异:作者采用了有限总体设计-推断视角(finite-population design-based inference),但与更常见的基于模型的超总体(super-population)方法之间的关系并未展开。
- 什么明显该被引/该存在、却没出现在intro里?
- Schochet (2022) [被引15]:被引了,但在intro中仅作为“类似思路的竞争工作”一笔带过,作者未与其结果进行比较或讨论差异。值得研究者去查:Schochet的“依从者”IPW方法与本文的“always-recruited”IPW方法在数学上是否等价?在meta-analytic视角下,哪个estimand更可整合?
- 双重稳健估计(Doubly Robust, DR):本文使用了IPW,但未讨论更高效的DR估计器(如结合倾向分与结果回归)。Jiang et al. (2020) [被引8]的主分层三重稳健估计器已经存在,作者省略了DR的可能性。这是一个明显的“可选择路径”的沉默。
- 张力:未见明显对立引用。多数被引工作互相协调,构成一条渐进的扩展弧线。唯一的隐性张力是“回归调整 vs. 加权”的讨论不够充分,但文献本身也尚未在此特定场景下进行系统比较。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号: - \(G\):群组(cluster)的个数,\(g=1,\dots,G\)。群组是随机化单位。 - \(N_g\):第\(g\)个群组中的总体个体数(即所有理论上合格的人,无论是否被招募)。 - \(i=1,\dots,N_g\):群组\(g\)中的个体索引。 - \(Z_g\):群组\(g\)的干预分配,\(Z_g \in \{0,1\}\)(0=对照,1=干预)。 - \(R_{gi}\):个体\(i\)在群组\(g\)中的招募指示器,\(R_{gi} \in \{0,1\}\)(1=被招募入研究,有数据;0=未被招募,无数据)。 - ⚠️ 关键:\(R_{gi}\)是后随机化变量,可能受\(Z_g\)影响(干预组与对照组的招募模式不同)。 - \(Y_{gi}\):个体\(i\)在群组\(g\)中的结果变量(可观测当且仅当\(R_{gi}=1\))。 - \(X_{gi}\):个体\(i\)在群组\(g\)中的协变量(通常在招募前测量,对招募和非招募个体均可能观察到,但非招募个体的\(X\)可能缺失——实践中常只能观测到已招募个体的\(X\))。
潜在变量(counterfactual): - \(Y_{gi}(z), R_{gi}(z)\):若群组\(g\)被分配至干预\(z\),个体\(i\)的潜在结果与潜在招募状态。满足一致性(consistency):\(Y_{gi} = Y_{gi}(Z_g)\), \(R_{gi} = R_{gi}(Z_g)\)。 - 主分层(Principal Strata):由联合潜在招募状态 \((R_{gi}(0), R_{gi}(1))\) 定义的4种类型: - Always-recruited (a):\((1,1)\) —— 无论群组分到干预或对照,个体都会被招募。 - Never-recruited (n):\((0,0)\) —— 无论分到什么,都不被招募。 - Treatment-recruited (t):\((0,1)\) —— 只在干预组被招募,对照组不被招募。 - Control-recruited (c):\((1,0)\) —— 只在对照组被招募,干预组不被招募。
Estimand(目标量)——本文重点关注的三个因果效应:
- 总体平均处理效应(ATE):\(\tau_{\text{Pop}} = \sum_{g,i}[Y_{gi}(1) - Y_{gi}(0)] / \sum_g N_g\)。
- 招募人群平均处理效应(ATE_R):\(\tau_{R} = \sum_{g,i}[Y_{gi}(1) - Y_{gi}(0)] \cdot R_{gi}(Z_g) / \sum_g \sum_i R_{gi}(Z_g)\)。⚠️ 这是实际数据可计算的,但\(R_{gi}(Z_g)\)是已发生的那个值,所以\(\tau_R\)本身也依赖于已实现的随机化分配(即实际上是条件于随机化结果的随机量)。
- 始终被招募人群的ATE:\(\tau_a = \sum_{g,i}[Y_{gi}(1)-Y_{gi}(0)] \cdot 1_{\{R_{gi}(0)=1, R_{gi}(1)=1\}} / \sum_g \sum_i 1_{\{R_{gi}(0)=1, R_{gi}(1)=1\}}\)。这是总体的一个子集,且该子集的定义不依赖于已发生的随机化分配。
可观测数据: - 对于每个群组\(g\),我们知道已招募个体(\(R_{gi}=1\))的数据:\((Y_{gi}, X_{gi}, Z_g)\)。 - 对于未招募个体(\(R_{gi}=0\)),我们不知道\(Y_{gi}\),有时也不知道\(X_{gi}\)。 - 总体\(N_g\):通常已知或可近似(如医院病床数、学校在校生数),但并非总是精确已知。
想要但观测不到的量: - 每个个体的潜在结果\(Y_{gi}(1), Y_{gi}(0)\)。 - 每个个体的潜在招募状态\(R_{gi}(1), R_{gi}(0)\)。 - 主分层成员身份(属于always-, never-, treatment-, control-recruited)。
第二步:讲最小内核——最简特例¶
最简特例:假设只有两个群组,一个被随机分配到干预组(\(Z=1\)),一个到对照组(\(Z=0\))。每个群组的总体规模相等,设为\(N\)。再假设每个群组内所有个体共享相同的招募倾向(即不存在个体水平的协变量\(X_{gi}\),或已将其在群组内平均掉)。
模型: - 干预群组:招募概率\(p_1 = \Pr(R=1 | Z=1)\)。 - 对照组:招募概率\(p_0 = \Pr(R=1 | Z=0)\)。 - 我们观测到的数据是:干预组中招募了\(N p_1\)个个体(观测到他们的\(Y\)),对照组中招募了\(N p_0\)个个体。
要回答的问题:我们能从这组观测数据中估计出总是被招募人群(always-recruited)的ATE吗?
原始数据: - 干预组招募样本的均值:\(\bar{Y}_1^{\text{rec}}\) - 对照组招募样本的均值:\(\bar{Y}_0^{\text{rec}}\)
最简单的识别公式推导(脱胎于论文的公式(7)/推论1): 假设单调性:\(R_{gi}(1) \ge R_{gi}(0)\)(干预只增加招募,这是一种常见且合理的假设——干预可能使招募更容易,比如提供免费交通)。这意味着不存在“control-recruited”类型(\(c\)型=0)。
那么: - 干预组招募的个体包含两类:always-recruited + treatment-recruited。 - 对照组招募的个体只有一类:always-recruited(因为单调性排除了control-recruited)。
因此,对照组招募人群的ATE = always-recruited人群的ATE。这是一个极其简洁的结果:在单调性下,对照组招募样本直接对应了我们感兴趣的亚群。
那么,如何估计干预组中always-recruited人群的潜在结果?由于我们无法直接区分一个干预组招募个体是always还是treatment,我们需要用逆概率加权(IPW) 来“down-weight”treatment-recruited人群的贡献。
IPW权重的来源: - 可忽略招募(Ignorable Recruitment)假设:给定干预\(Z_g\),招募状态\(R_{gi}\)与潜在结果\(Y_{gi}(z)\)条件独立。在这个最简设定下(无个体协变量),这意味着招募概率\(p_0, p_1\)与潜在结果无关。换句话说,被招募人群的潜在结果分布与其所在主分层无关。
在此假设和单调性下,论文的推论1告诉我们:干预组中always-recruited人群的ATE可由下式识别:
核心思路: 1. 单调性让对照组招募样本天然对应always-recruited人群。 2. 可忽略招募让干预组中always和treatment两类人的潜在结果分布相同(给定干预组招募)。 3. 干预组招募个体中,always-recruited的比例是\(p_0/p_1\)(因为两者数目分别为\(N p_0\)和\(N p_1\),单调性保证了干预组招募的\(N p_1\)人中,有\(N p_0\)个是always,其余是treatment)。 4. IPW:把干预组招募权重的“过剩”的treatment人群贡献“压下去”,通过除以\(p_1/p_0\)实现。
这个最小内核揭示了本文的核心数学活动:在主分层和可忽略招募假设下,将总体ATE的不可识别性问题转化为在特定亚群(always-recruited)上的可识别、可估计问题,并且给出了一个简洁的加权公式。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在整群随机化实验中,由于后随机化招募导致的选择偏差,如何定义、识别、估计并做敏感性分析关于总体和招募人群的因果效应。
- 核心工具/方法:主分层+IPW+倾向评分加权,辅以单调性假设和可忽略招募假设,开发了针对始终被招募人群和治疗被招募人群的加权估计器和针对可忽略招募的敏感性分析。
- 主要结论:总体ATE一般不可识别,但在可忽略招募和单调性假设下,始终被招募人群和治疗被招募人群的ATE可由招募样本通过IPW一致估计;敏感性分析表明,在ARTEMIS临床试验中,适度偏离可忽略招募假设不会反转主要结论。
关键设定与假设¶
- 设定:
- 有限总体(finite population):所有群组及其全体个体是整个推理的对象,不是从无限超总体中抽取的随机样本。
- 群组水平的随机化:每个群组被随机分配至干预或对照。
- 个体水平的数据仅在被招募时测量(缺失非招募个体的结果和协变量)。
- 单调性假设(Assumption 2, Monotonicity):\(R_{gi}(1) \ge R_{gi}(0)\)(干预不降低招募概率)。这是为了排除“对照仅招募型”(control-recruited),减少主分层个数,使识别问题可解。
- 可忽略招募假设(Assumption 4, Ignorable Recruitment):
- 强版本(用于总体ATE的识别):\((Y_{gi}(0), Y_{gi}(1))\) ⊥⊥ \(R_{gi}(z) \mid X_{gi}, Z_g = z\)(给定协变量和干预,潜在结果与潜在招募状态独立)。作者在本文中使用的是弱版本:仅要求条件均值独立(mean independence),即\(\mathbb{E}[Y_{gi}(z) \mid X_{gi}, Z_g=z, R_{gi}(z)=r] = \mathbb{E}[Y_{gi}(z) \mid X_{gi}, Z_g=z]\)。
-
重叠假设(Assumption 5, Positivity):对于所有协变量\(x\),招募概率\(p_z(x) = \Pr(R=1 \mid X=x, Z=z) > 0\)(在干预组和对照组都严格正)。
-
相比已有文献的强化/放宽:
- 相比于Fan Li et al. (2021) [被引10]:本文强化了识别条件(引入可忽略招募假设、给出具体识别公式),同时放宽了对总体\(N_g\)的精确知识要求(IPW仅需估计招募概率)。
- 相比于Schochet (2022) [被引15]:本文聚焦于“招募指示器”定义的亚群(always-recruited, treatment-recruited),而非“服务接受”定义的“依从者”;两个estimand数学形式不同,实际解释也不同。
主要结果¶
定理1(Theorem 1):满足可忽略招募假设下,无条件(不依赖于主分层)的招募人群ATE\(\tau_R\)可以通过IPW一致估计,权重为\(1 / p_{Z_g}(X_{gi})\)。具体地:
推论1(Corollary 1):在可忽略招募+单调性下: - 始终被招募人群(always-recruited)的ATE可以通过以下公式识别(也是IPW形式):
直觉: - 对照组招募样本直接对应always-recruited。 - 干预组招募样本中,用IPW(权重 = \(e(X)/(1-e(X))\))将always-recruited识别并加权,剔除treatment-recruited的贡献。
- 治疗被招募人群(treatment-recruited)的ATE的识别公式与之类似。
敏感性分析(Section 5): - 假设\(\rho = \text{cor}(Y_{gi}(z), R_{gi}(z) \mid X_{gi}, Z_g=z)\),这个相关系数度量了“可忽略招募假设”的偏离程度。 - \(\rho=0\)对应无偏;\(\rho\)为正/负对应招募偏差的方向。 - 开发出基于\(\rho\)的校正公式,计算给定\(\rho\)下的估计值。 - 阈值分析(tipping-point analysis):找到使结论反转的最小\(\rho\)值。
证明路线与技术技巧¶
整体路线: 1. 建立符号与可观测数据:定义潜在结果、主分层。 2. 基于设计-推断框架(finite-population, design-based)阐述经典CRT的估计。 3. 识别阶段:在可忽略招募+单调性下,推导\(\tau_a\)的识别公式(Corollary 1)。关键步骤:利用单调性令对照组R=1个体等价always-recruited;利用可忽略招募条件,将干预组R=1个体中的always部分与treatment部分分离。 4. 估计阶段:用逻辑回归估计倾向得分\(p_z(X)\),构造IPW权重;使用交叉拟合(cross-fitting)以避免估计算子因变量过拟合导致的偏差。 5. 推断阶段:使用三明治方差估计(sandwich variance estimator)处理权重估计的不确定性。 6. 敏感性分析:引入Pearson相关系数\(\rho\),建立其与可观测数据矩的联系,推导出\(\rho\)下校正后的估计量。
关键跳跃点: - 跳跃1:从不可识别到部分识别。总体ATE一般不可识别。作者通过单调性+可忽略招募,将可识别部分缩小到always-recruited和treatment-recruited两个亚群。这个跳跃不是简单的假设放宽,而是改变了问题的问法(从“总体的ATE”到“特定子群的ATE”)。 - 跳跃2:IPW与主分层的结合。传统主分层分析中,识别是通过“主得分”加权(modeling the principal score \(\Pr(\text{stratum} \mid X)\))。本文没有直接建模主得分,而是通过招募概率\(p_z(X)\)和单调性“倒推”出权重。这避免了需要预测每个个体的主分层成员身份的复杂性,简化了估计。
技术技巧点名: 1. 倾向得分估计:逻辑回归估计\(p_z(X)\)(标准工具)。 2. 交叉拟合(cross-fitting):在估计IPW权重时,用一部分数据拟合倾向得分模型,再在另一部分数据上用该模型构造权重,避免了因“用同一数据拟合模型和评估效应”带来的偏差(overfitting bias)。 3. 三明治方差估计(sandwich variance estimator):用于近似方差,将权重估计的不确定性纳入方差计算(对多阶段估计的标准处理)。 4. \(\rho\)参数化敏感性分析:通过引入一个关于潜在结果与潜在招募状态相关结构的参数\(\rho\),将“不可检验的假设”转化为“可计算的影响”。这类技巧在敏感分析中常见(如E-value),但本文的公式推导是新颖的。
真实例子与应用(必须讲)¶
应用数据:ARTEMIS临床试验(Wang et al., 2019)。这是一个评估去除P2Y12抑制剂共付额(co-payment vouchers)对心肌梗死(MI)患者P2Y12抑制剂一年持续使用率影响的整群随机化临床试验。
- 场景:301所医院(群组)被随机分配至干预组(提供共付额代金券)或对照组(标准护理)。患者在出院后一年被跟踪,主要终点是MACE(主要不良心血管事件)和P2Y12抑制剂坚持率。
- 选择偏差引入:由于是开放标签(patient and provider aware of intervention),干预组医院可能更积极地招募(或患者更愿登记)某些类型的患者(如更可能坚持用药的、或社会经济地位更高的),而对照组医院则因无代金券可能招募更困难的患者群体。这导致了选择性招募偏差。
- 如何应用本文方法:
- 定义招募:患者出院后是否被登记入研究并提供了知情同意书 = \(R=1\)。
- 单调性:合理认为干预组的代金券政策不会降低患者参与意愿,可假设单调性\(R_{gi}(1) \ge R_{gi}(0)\)。
- 识别与估计:用CRTrecruit包,在可忽略招募假设下,估计了始终被招募人群(always-recruited,即不论有无代金券都愿意加入研究的患者)中代金券对P2Y12抑制剂坚持的ATE。
- 结果:
- 原始的“招募样本ATE”显示:干预组的P2Y12坚持率比对照组高约10%(点估计)。
- 加权估计“始终被招募人群的ATE”发现:效应值略有降低(约8%),但仍然统计显著(95% CI不包含0)。
- 敏感性分析:改变\(\rho\)值,发现只有当\(\rho\)大于0.6(即可忽略招募假设被严重违反)时,估计效应才变得不显著。这个“tipping-point”远高于通常认为合理的\(\rho\)值,增强了结论的鲁棒性。
- 这个例子想说明什么:
- 方法可行:展示所提出的加权方法和敏感性分析在真实CRT上的完整应用流程。
- 结论稳健:即使考虑了合理程度的选择偏差,代金券的正面效应仍然显著。
- 可解释性:将效应限制在“始终被招募人群”有助于政策制定者理解:对于“无论如何都会愿意参与研究”的那部分患者,代金券的效果如何。
🔎 结论是否比证明窄?¶
- 窄的情况:Theorem 1和Corollary 1的证明是在有限总体设计-推断(fixed population, randomization-based)框架下完成的,证明一致性(consistency)和渐近正态性(asymptotic normality)依赖于群组数量\(G\)很大。作者在推论中明确警告(Section 4.3, Discussion第2段):当\(G\)较小时(例如<20),三明治方差估计可能表现很差,可能需要使用bootstrap或有限样本校正。所以大样本渐近性质(asymptotic results)不能直接推广到小群组场景。但论文在模拟和例子中确实展示了小\(G\)下的有限样本表现,可视为一种ad-hoc的支持。
- 泛化不足:对于“treatment-recruited”人群(只在干预组被招募的人群),其权重的估计依赖于一个特殊结构:在单调性下,treatment-recruited人群的识别需要来自对照组non-recruited个体的信息(他们天然就是treatment-recruited的控制组)。然而,对照组non-recruited个体的结果\(Y\)不可观测。因此,treatment-recruited的ATE的估计实际上依赖于更强的假设(如可忽略招募在对照组非招募人群中成立),而这在论文中并未充分讨论。
四、开放问题(点到为止)¶
-
部分识别(Partial Identification)总体的ATE:本文证明了总体ATE一般不可识别。但如果在可忽略招募假设失败的情况下,能否构建总体ATE的部分识别边界(Manski bounds)? 这需要进一步结合主分层结构推导识别区域。扎根点:Corollary 1的证明显示总体ATE可分解为三个子群ATE的加权和,其中never-recruited的ATE是不可识别的洞。
-
DR/IPW与回归调整的整合:本文仅使用了IPW,但未考虑双重稳健估计,即结合倾向得分模型与结果回归模型,使一致估计在一模型被错误指定时仍成立。扎根点:Jiang et al. (2020) [被引8] 在主分层估计中实现了三重重稳健,但未应用于CRT选择偏差场景;本论文的Discussion Section明确提到“未来工作可以考虑双重稳健估计”。
-
小群组(\(G\)小)下的推断方法:当群组数量较少时,三明治方差估计可能失效。需要开发有限样本精确推断(如随机化检验 randomization test)或贝叶斯方法。扎根点:本文的仿真实验在\(G=20\)时方差估计的覆盖率已经较低(Table 3, 见原文),且在Section 4.3讨论中承认了小样本下的局限性。
-
主分层误指定的鲁棒性:单调性假设可能被违反(如干预可能抑制招募)。若放弃单调性,则多出control-recruited类,主分层增至4个,识别公式将更复杂。在非单调性下,是否仍有可识别的亚群? 扎根点:作者在第2.2节构建主分层时默认单调性成立,且Corollary 1的证明依赖单调性。在真实数据中,验证单调性几乎不可能。
Maintained by 陈星宇 · Homepage · Source on GitHub