Constructing G-computation Estimators: Two Case Studies in Selection Bias¶
作者: Paul N Zivich, Haidong Lu
来源: Epidemiology
主题: 流行病学
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
选择偏差(selection bias)是流行病学因果推断中一个长期存在的核心偏倚来源。近年来,其定义被 Lu 等(2022)统一为“因样本选择过程导致的真实因果效应估计偏离目标人群的任何偏倚”,并进一步区分为两类:(1)对 collider(或其后代)分层引起的第一类选择偏差(collider restriction bias);(2)对效果修饰变量分层引起的第二类选择偏差(effect modifier restriction bias)。在识别层面,图形规则(DAG / SWIG)已被开发来判定何时出现选择偏差以及哪些协变量调整可以消除它;但在估计层面,如何将一个识别出的 g‑formula(或更一般的识别公式)转化为一个稳定、可执行、且方差估计可靠的估计量,对复杂因果结构(如处理影响选择,或多个偏差无联合调整集)仍不显然。本文正是针对这两个典型复杂案例,演示如何通过 stacked estimating equations(堆叠估计方程) 将 g‑computation 估计量系统化构造出来,并借助 M‑estimation 框架统一实现点估计与 sandwich 方差估计。
发展脉络¶
- 奠基:选择偏差的图形定义与分类
- Lu 等(2022) [7] 给出了选择偏差的统一定义及其两种类型,并提供了基础因果图。
- Lu & Gonsalves 等(2023) [16] 进一步将 collider 偏倚细分为 collider restriction bias(因限制到某一 collider 水平)与 collider adjustment bias(因在回归模型中纳入 collider),指出后者本质上是过度调整,不应归入选择偏差。
- Mathur & Shpitser(2024) [15] 提供了处理影响选择(treatment-induced selection)情形下的简单图形规则,直接针对一般人群 ATE 与选择样本 ATE。
-
这些工作共同将识别条件(哪些情况会在何种目标参数下产生选择偏差)界定清楚,但未深入探讨如何具体构造估计量。
-
主要进展:从识别到估计的通用方法
- G‑computation(也称 g‑formula)是一种基于结果模型的估计方法。Chatton 等(2020)[9] 的模拟比较表明,在正确指定结果模型时,g‑computation 比 IPW 和 TMLE 的偏差更小、效率更高。
- IPW(逆概率加权) 在流行病学中广泛用于处理混淆和缺失,但 IPW 的次序效应、方差估计的非保守性等问题已被指出(如 Ross 等 2021 [21],Reifeis & Hudgens 2020 [13])。
- Doubly robust estimators(AIPW / TMLE) 通过结合结果模型和倾向性模型获得双稳健性,但若使用机器学习则需要交叉拟合以保障推断性质(Zivich & Breskin 2020 [10],Hines 等 2021 [6])。
-
这些进展主要偏向于标准情形(无选择偏差或仅混淆),对于 处理影响选择 和 无联合调整集的共发偏倚 等非标准结构,如何具体构造 g‑computation 估计量则缺少示范。
-
当前 frontier:M‑estimation 作为统一构造工具
- M‑estimation(估计方程方法)已被系统引入流行病学,Ross 等(2024)[19] 以多个实例展示了其优越性(一致方差估计、无需 bootstrap)。
- geex(Saul & Hudgens 2017) [11] 和 delicatessen(Zivich 等 2022) [3] 分别提供了 R 和 Python 的自动 M‑estimation 软件包,大大降低了实现门槛。
-
这些工具使研究者能够将任意的识别公式表达为一组无偏估计方程(stacked estimating equations),从而自动获得点估计与 sandwich 方差,而不必为每一种新结构重新编写方差公式。
-
本文的位置
- 本文直接站在上述两个前沿的交汇处:在已知识别公式(来自最近的选择偏差图形规则)的基础上,展示如何将其参数化并纳入 stacked estimating equations 框架,从而得到“即用”的 g‑computation 估计量。它不提出新的识别或新渐近理论,而是提供一个从识别到估计的“桥梁案例”,让流行病学领域的研究者看到如何系统地、可编程地处理复杂结构。
子线索聚类¶
- A. 选择偏差的识别与图形工具([2],[7],[15],[16],[18],[23]):定义、类型、SWIG 规则、处理影响选择时的可识别性判断。
- B. G‑computation 及其变体([8],[9],[32] 等):标准 G‑computation、针对时间变化混淆的期望版本、嵌入机器学习的拓展。
- C. M‑estimation 与 stacked estimating equations([3],[11],[13],[19],[22],[24]):估计方程方法及其在流行病学中的应用、软件实现、sandwich 方差、多重稳健性。
- D. 识别与可估计性的关系([12],[17]):指出识别并不保证估计稳定性(连续 confounder 时无一致性估计量等),为参数化 G‑computation(而非完全非参数)提供合理性依据。
核心追问与已知瓶颈¶
- 核心问题 1:当选择偏差的结构使得传统的 IPW 或简单的 G‑computation 无法直接套用时(如处理影响选择,或多个偏差不存在一个共同的可调整协变量集),如何构造估计量?
- 核心问题 2:对于这类复杂结构,如何在保留 G‑computation 的直觉性(只需正确指定结果模型)之同时,获得正确的方差估计(避免 bootstrap 的重复计算成本)?
- 核心问题 3:堆叠估计方程方法能否统一所有类型的 G‑computation 变体,使得流行病学家可以像“搭积木”一样将识别公式转换为代码?
- 已知瓶颈:当前的文献多集中于特定案例(如选择偏差只发生在 follow-up 或只针对一种偏差源),缺乏一个可推广的构造范例;此外,对于使用机器学习进行非参数估计时的方差估计仍是一个开放挑战(本文通过采用参数模型回避了这一问题)。
⚠️ 作者的 framing(必须标注为“作者的说法”)¶
- 作者如何看待缺口:“However, these adaptations may not be obvious for some complex causal structures.” 作者认为,主要的缺口不在于识别(已有图形规则),也不在于估计方法本身(g‑computation 很成熟),而在于 如何将一个非标准的识别公式对应地、显式地转化为一个 g‑computation 估计量。本文通过两个“非明显”案例展示这一转化,并用 stacked estimating equations 使其系统化。
- 被淡化/回避的竞争路线:AIPW/TMLE 在文末仅被简要提及(“one approach… derive the influence function…”),未与本文方法进行任何模拟对比。作者默认 G‑computation 更受流行病学家偏好(“only require correct specification of a model for the outcome process”),但并未在非标准设定下比较 AIPW 的适应难度和双稳健性优势。本文也完全回避了非参数或机器学习版本的 G‑computation,所有模型都是参数化的(线性/Logistic),对于高维或复杂数据生成机制下的表现不得而知。
- 什么明显该被引却没出现:当处理影响选择时,Daniel(2018)[14] 的双稳健性综述和 van der Laan & Luedtke(2015)[8] 的 TMLE 动态治疗规则都没有被纳入讨论,这些工作直接涉及“处理影响后续变量”情境下的估计,本可以与 g‑computation 对比。
- 值得研究者特别去追踪的问题:(1)在 treatment-induced selection 场景下,AIPW 是否也能像 g‑computation 一样通过堆叠估计方程实现?(2)参数化假设的错误指定对两个案例的 bias 和 cover 有多大影响?(3)与 TMLE 的比较结果如何?
张力¶
被引文献之间未见明显对立结论,所有工作均在同一因果图框架下相容。唯一一个值得注意的区分是:Lu 等(2023)[16] 将 collider adjustment bias 排除出“选择偏差”定义,而 Mathur & Shpitser(2024)[15] 在讨论处理影响选择时仍将其视为选择偏差的一种;但二者在术语层面的分歧不影响本文的方法论立场。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
- 符号
- \(Y\):结果变量(连续或二值),研究者希望估计其总体均值。
- \(A\):处理(暴露)变量,通常二值(0/1),偶有多值。
- \(X\):协变量向量(可观测的基线协变量),可能与 \(A\) 和 \(Y\) 都相关。
- \(S\):选择指示变量(\(S=1\) 表示结果被观测到,否则缺失)。
- \(Y_a\):潜在结果(counterfactual),即如果处理被设定为 \(A=a\) 时个体将会出现的结果。
- \(\psi = E[Y_1 - Y_0]\):平均处理效应(ATE)。
- \(\beta\):参数化结果模型 \(m(A,X;\beta)=E[Y\mid A,X]\) 中的参数向量。
- \(\theta = (\beta,\psi)\):堆叠估计方程中的全部参数。
-
\(n\):样本量(全样本中可观测到 \(A,X\) 的个体数,但 \(Y\) 仅在 \(S=1\) 的子集中观测到)。
-
模型(以最简单的无选择偏差情形为例,便于铺垫)
- 数据生成:\((Y_i, A_i, X_i) \overset{\text{i.i.d.}}{\sim} P\),无缺失。
- 结果模型假设:\(E[Y\mid A,X] = m(A,X;\beta)\),\(\beta\) 是有限维参数(如线性回归系数)。
-
识别:在无混淆和无选择偏差下,\(\psi = E\big[E(Y\mid A=1,X) - E(Y\mid A=0,X)\big]\)。
-
可观测数据(无选择偏差时)
- 完整 i.i.d. 样本:\(\{(Y_i, A_i, X_i)\}_{i=1}^n\)。
-
无潜在不可观测量(除了反事实)。
-
当引入选择偏差时(论文的第一个案例)
- 可观测:\(\{(A_i, X_i, S_i, Y_i \,\text{only if } S_i=1)\}_{i=1}^n\)。
- 不可观测但需假设:所有潜在结果 \(Y_1, Y_0\),以及未选择的个体的 \(Y\) 都是缺失的(MAR 或更复杂的机制)。
第二步:最小内核——标准 G‑computation 的 M‑estimation 表示¶
最简特例:无选择偏差、无混淆、结果模型为线性回归 \(\;m(A,X;\beta)=\beta_0+\beta_1 A+\beta_2^\top X\)。
此时 ATE 的识别公式为 \(\psi = \beta_1\)(直接等于处理项的系数),但这依赖于线性形式。一般化地,我们通过“plug-in 方法”计算:
M‑estimation 的堆叠估计方程表示:
构造由两部分组成的估计函数向量:
-
结果模型方程(\(p\) 个方程,\(p = \dim\beta\)):
\[\Psi_{\beta}(Y_i,A_i,X_i;\beta) = \big(Y_i - m(A_i,X_i;\beta)\big)\,\frac{\partial m(A_i,X_i;\beta)}{\partial\beta}.\] -
ψ 方程(1 个方程):
\[\Psi_{\psi}(X_i;\beta,\psi) = \big[ m(1,X_i;\beta) - m(0,X_i;\beta) \big] - \psi.\]
则堆叠估计函数为 \(\Psi = (\Psi_\beta^\top, \Psi_\psi)^\top\)。求解
得到 \(\hat\theta = (\hat\beta,\hat\psi)\)。
核心数学内容:
- 这个系统的解等价于先通过 OLS(或更一般的 M‑estimator)估计 \(\beta\),再代入计算 \(\psi\)。
- 其关键在于:我们将中间模型的估计与目标参数的估计“堆叠”进同一个估计方程体系,从而 sandwich 方差估计可以自动传播来自 \(\beta\) 估计的不确定性:
其中 \(\hat A = n^{-1}\sum_i \partial_\theta \Psi_i\),\(\hat B = n^{-1}\sum_i \Psi_i \Psi_i^\top\)。
-
这一框架的 根本优势 在于:当面对非标准识别公式(如处理影响选择时的校正)时,研究者可以同样写出经过识别调整后的 \(\Psi_\psi\) 方程,以及描述选择机制的额外方程(比如对 \(E[Y\mid A,X,S=1]\) 的建模),而不需要手工推导方差公式。
-
在本文的两个选择偏差案例中,堆叠方程会再多出描述选择机制或额外偏差源的参数方程,但本质思想完全相同:把识别公式参数化 → 写入估计方程 → 用 sandwich 得到方差。这就是整篇论文的最小内核。
三、这篇论文做了什么¶
三句话¶
① 论文针对 处理影响选择(treatment-induced selection) 和 无联合调整集的共发偏倚(co‑occurring biases lacking a joint adjustment set) 两种复杂因果结构,展示了如何将各自的识别公式转化为参数化 G‑computation 估计量。
② 核心方法是把 G‑computation 中所有中间模型(如结果模型、选择模型)的估计连同目标参数一并表达为 堆叠的估计方程(stacked estimating equations),从而统一在 M‑estimation 框架下获得点估计和 sandwich 方差。
③ 通过一系列模拟实验表明,在正确指定参数模型时,这些估计量具有小偏差、合适的标准误比和接近名义水平的置信区间覆盖率。
关键设定与假设¶
论文的两个案例分别假设以下因果图(基于 SWIG):
案例 1:处理影响选择
- 结构:\(A \rightarrow S \leftarrow U \rightarrow Y\) 且 \(A \leftarrow X \rightarrow Y\)(\(U\) 未测量)。
- 识别假设:在将协变量 \(X\) 分层的条件下,① 条件可交换性:\(Y_a \perp A \mid X\);② 条件可交换性(针对选择):\(Y_a \perp S \mid A, X\)(即给定 \(A,X\),选择独立于潜在结果);③ 一致性;④ 积极性:对所有 \(x\) 有 \(P(A=a\mid X=x)>0\) 且 \(P(S=1\mid A=a,X=x)>0\)。
- 参数化形式:结果模型 \(E[Y\mid A,X,S=1] = m(A,X;\beta)\),对 \(A\) 和 \(X\) 采用线性或 Logistic 形式。
案例 2:无联合调整集的共发偏倚(如同时存在混淆与测量误差)
- 识别需使用两个来源的外部验证数据或辅助变量,导致 g‑formula 中出现不同模型之间的非嵌套连接,不存在一个单一协变量集同时调整两种偏差。
- 假设的结构类似 Ross 等(2023)[22] 的测量误差传输问题。
- 参数化:涉及结果模型、误差模型(如敏感度/特异度)、外部数据标准化模型等。
相比标准 G‑computation 的放宽/强化:
- 放宽:允许处理直接影响选择(案例1)或需要多个独立参数模型(案例2),这是标准 G‑computation 不直接处理的情况。
- 强化:所有模型都假设为参数化的(通常是低维线性/Logistic),避免了非参数/机器学习带来的率条件和方差估计困难。这与许多现代 causal ML 文献相反,属于一种经典但更易向流行病学家迁移的设定。
主要结果¶
- 偏差(Bias):在模拟(\(n=1000\),5000 次重复)中,两种案例下提出的 G‑computation 估计量的偏差均为 0.01 量级或更小,远小于未校正的估计量。
- 标准误比(SER):sandwich 方差估计的标准误比(平均标准误除以模拟标准误)在 0.95–1.05 之间,表明 sandwich 方差是准确的。
- 95% CI 覆盖率:两类案例的覆盖率为 93%–96%,接近名义水平。
- 与简单替代方法的对比:文中仅与某种简单(但可能有偏)的 G‑computation 或 IPW 变体比较;由于没有 AIPW 或 TMLE 作为竞争对手,主要结论是“参数化识别公式→堆叠估计方程→性能良好”。
方法推导与“证明路线”(应用型论文,更恰当的说法是“估计量构造与渐近推理”)¶
论文并非理论证明新定理,而是基于已有的 M‑estimation 标准结果(Stefanski & Boos 2002)进行构造。
整体路线(3 步逻辑主干):
-
写出识别公式(基于 Lu 等2022的图形规则和 Mathur & Shpitser 2024的规则)
案例 1 的识别公式(举例,非直接从原文摘录,但符合一般结构):\[E[Y_a] = E_{X}\big[ E[Y\mid A=a, X, S=1] \big].\]注意:此处 \(E[Y\mid A,X,S=1]\) 是在选择子集中估计的,而外层期望是对所有个体的 \(X\) 的分布(包括未选择者)。 -
参数化:将条件期望指定为参数模型 \(m(A,X;\beta)\),以及(如有必要)将选择机制或测量误差模型也参数化为 \(\gamma\)。将全部未知参数合并为 \(\theta = (\beta,\gamma,\psi)\)。
-
构建堆叠估计方程:
- 结果模型方程(仅用 \(S=1\) 的子样本,或采用加权方程):\(\sum_{i: S_i=1} \big(Y_i - m(A_i,X_i;\beta)\big) \partial_\beta m(A_i,X_i;\beta) = 0\)。
- 选择/误差模型方程(如果存在):\(\sum_i \phi_{\text{selection}}(S_i, A_i, X_i; \gamma) = 0\)。
- \(\psi\) 方程:\(\sum_i \big[ m(1, X_i; \beta) - m(0, X_i; \beta) - \psi \big] = 0\)。
-
所有方程等权重堆叠,一起求解。
-
方差估计:应用 sandwich 公式。由于所有方程均属参数化的无偏估计函数,\(\hat\theta\) 是 \(\sqrt{n}\)-consistent 且渐近正态的,sandwich 估计量一致。
关键技巧:
- 使用 delicatessen 包实现自动 sandwich 计算,避免手工求导。
- 对案例 2 中无联合调整集的结构,通过在估计方程中引入来自外部数据的“桥接方程”,实现不同参数模型之间的信息共享,这是唯一一个需要“技巧”的地方(但本质上只是多写一组方程)。
技术工具:参数 M‑estimation(无 empirical process、无高阶展开),sandwich variance estimator,Python 科学计算栈(NumPy, SciPy, pandas, delicatessen)。
真实例子与应用¶
本文为 纯模拟论文,没有真实数据应用。文中所有“案例”都是基于模拟数据生成的(其中案例 2 的数据生成部分参考了 Ross 等 2023 的测量误差场景)。模拟设计旨在展示在正确指定参数模型时,所提估计量的有限样本性质。论文明确提及“使用模拟研究评估性能”,未声称在真实数据上测试。
🔎 结论是否比证明窄¶
- 窄化之处:所有结论都严格依赖于 参数模型正确指定。论文没有证明或模拟模型错误指定下的稳健性,但在 Abstract 和讨论中承认了这一点(“if models are correct...”)。没有做任何关于模型错误指定的灵敏度分析。
- 潜在溢出的 claim:Abstract 中说“g‑computation is a useful estimation method that can be adapted to address various biases in epidemiology”,但实际只验证了两个特定案例。这个泛化的结论是属推测,而非本模拟支持。
- 注意:论文引用了 Aronow 等(2021)[17] 关于非参数不可估计性的结果,却选择完全参数化的路径,这个定位在逻辑上是自洽的,但读者需留意,参数化 G‑computation 在 microbiome、高维基因组等场景可能因模型错误指定而失效。
四、开放问题(扎根具体语句)¶
- 扩展到非参数/机器学习 G‑computation
-
本文只使用了参数模型(线性/Logistic)。Author 自己在 abstract 指出“a much wider issue of translating a causal diagram into a novel estimation strategy”,但并未讨论当结果模型或选择模型用机器学习估计时,stacked estimating equations 框架是否还能提供正确的推断(需要 cross‑fitting 或高阶 IF 修正)。这是一个自然的延伸,扎根于论文对“parametric models”的依赖。
-
与 AIPW/TMLE 在同一复杂结构下的系统比较
-
本文在简介中承认 AIPW 是另一种选择,但未在模拟中对比。对于治疗影响选择的案例,AIPW 的双稳健性是否允许在结果模型或选择模型中一方错误指定的情况下仍保持一致性?这个问题直接指向论文的 Limitations 部分(如果有类似语句),但从被引文献中我们知道类似讨论(如 Shook‑Sa 等 2024 [24])已有进展,但未在本文中得到检验。
-
多个偏差源不存在联合调整集时,估计量的效率
-
案例 2 涉及多个模型(结果、误差、外部校准),但作者未对其 semiparametric efficiency bound 或 influence function 进行推导。在点估计性质之外,这类估计量的方差是否最小?该问题扎根于论文“stacked estimating equations”的结构,读者可追问:sandwich 方差是否实现了半参有效?若不,如何改进到有效?(文献[6,51]提供了 EIF 推导方法,本文未采用。)
-
处理时间依赖选择(longitudinal setting)
- 论文只处理了单一时点的选择偏差。实际流行病学研究中,选择常在多个时间点发生(失去随访、死亡),这时需要将 g‑computation 扩展到 time‑varying 情形(van der Laan & Luedtke 2015 [8])。这一扩展隐含着对当前堆叠方程框架的考验:方程数目和模型数量会随时间点非线性增长,sandwich 方差计算的稳定性需要验证。本文的引言中明确提到“expectation g‑computation algorithm for time‑varying confounding [32]”作为背景,但并未讨论此类扩展的难度,且案例选择未含时间维度。
Maintained by 陈星宇 · Homepage · Source on GitHub