跳转至

Pregnancy identification method as a source of bias in studies of prenatal exposures using real-world data

作者: Chase D Latour, Jessie K Edwards, Michele Jonsson Funk, Elizabeth A Suarez, Kim Boggess et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwaf260


一、领域脉络与小综述

  • 这个方向是什么:这个子方向聚焦于产前暴露研究中因怀孕识别方法引入的选择偏倚。具体而言,研究者通常基于观测到的妊娠结局(如分娩记录)来识别一个“怀孕”样本,这会遗漏那些接受了产前护理但结局未记录(如自然流产)的孕次,从而在后续的产前暴露效应估计中引发偏倚。该方向当前由模拟论证主导,理论识别条件尚不完善,但已开始被应用于实际背景下的敏感性分析。

  • 发展脉络(history)

    • 奠基工作:Hernán et al. (2004)——该文奠定了“通过结局识别暴露事件”的经典框架,并指出在观察性研究中,对事件样本的不完全捕捉会产生类似失访的选择偏倚。它首次系统讨论了在孕产研究中因遗漏结局而导致的样本偏倚。
    • 主要进展:Wood et al. (2018)——此文进一步细化了怀孕识别的操作化途径,明确对比了“基于结局识别(分娩)”和“基于暴露识别(产前护理记录)”两种方法,指出后者虽能捕获无结局记录的孕次,但引入了处理失访(LTFU)的问题。该文通过模拟和实证发现,不同识别方法会改变效应估计的符号和大小。
    • 当前 Frontier:Latour et al. (2024,本文)——本文的定位是“拓展性模拟”:它系统变化了失访的原因(可测量协变量驱动 vs. 未观测流产驱动 vs. 两者兼有)以及处理对中间结局(流产)的直接效应,以探究在不同偏倚来源下,包含所有孕次(暴露识别法)是否确实能无偏估计暴露对子痫前期的效应。其核心发现是:当失访由流产(一个与治疗和结局均相关的中间变量)驱动时,即使包含所有孕次,估计仍有偏;只有失访完全由可测量协变量驱动时,包含所有孕次才能得到无偏估计。
    • 本文位置:作者作为“当前 frontier”一环,将其定位为对 Wood et al. (2018) 结论的进一步检验和细化,指出了“暴露识别法”并非万能解,且提供了一种直接量化选择偏倚程度的工具(直接标准化估计),而不是仅仅声称“有偏”。
  • 子线索聚类:这些被引及背景文献大致落在两条子线索上:

    1. 偏倚来源识别:聚焦于通过何种方式(暴露识别 vs. 结局识别)捕捉样本所导致的偏倚模式差异。核心争论是“包含所有孕次是否足以消除偏倚”。该簇文献以模拟研究为主,很少涉及正式的非参数识别条件或检验假设。
    2. 失访(LTFU)建模:针对识别后样本的缺失问题(如流产未被记录),处理失访的统计方法,例如 Inverse Probability of Censoring Weighting (IPCW) 和多重插补。本文的“非参数直接标准化”本质上是一种 IPCW 的特例,假定处理后可忽略性条件成立。
  • 这个方向在追问的核心问题(2-4 个)

    1. 识别条件:在什么非参数假设下,通过暴露识别怀孕并处理失访后,能够无偏识别暴露对某个远期结局(如子痫前期)的因果效应?
    2. 偏倚方向与大小:当失访由“未观测到的流产”驱动时,选择偏倚的大小和方向是否可以解析地表达?它是否总朝着某一固定方向?
    3. 敏感性分析:当失访机制非完全可测时(如本文的混合情景),如何发展出可操作的敏感性分析方法,而不仅仅是做“穷尽式”的模拟?
    4. 外部有效性:这些基于模拟(尤其是高失访率、特定效应大小)的结论,能否推广到真实的产前暴露数据集上(如 Medicaid 行政数据),并给出可操作的信区间?
  • ⚠️ 作者的 framing(必须明确标注成“这是作者的说法”):作者将缺口 frame 为 Wood et al. (2018) 的结论——“包含所有怀孕就能得到无偏估计”——是不够稳健的,需要进一步细化失访来源和效应机制;本文是“理所当然的下一步”,通过系统变化这些因素来描绘偏倚边界。作者淡化了发展正式识别条件和假设检验这条更加理论化的路线,而偏向于提供模拟驱动、可操作的工具(直接标准化)。什么明显该被引 / 该存在、却没出现在 intro 里? —— Greenland (1996) 和 Hernán (2004) 关于“基本变量选择问题”的经典论文应被引用以定位“通过结局识别怀孕”与“通过暴露识别怀孕”之间的矛盾如何构成了 selection bias 的一个特例,但本文并未直接卷入这些理论之争。另外,Doob (1953) 或 Rubin (1974) 中的潜在结果框架并未在文章中明确作为理论基石出现,而是隐含于模拟的设置中(通过反事实定义处理效应)。

  • 张力:未见明显对立引用。所有被引工作都采用模拟,且结论都倾向于“偏倚是存在的,方法是重要的”。但没有被引文献在“包含所有怀孕是否总是无偏”上给出与本文相反的理论断言;Wood et al. (2018) 的结论被本文刻画为“可能不稳健”,而非“错误”。这更像是边界条件的进一步探索,而非范式冲突。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • \(A \in \{0,1\}\) : 暴露/处理变量(如抗高血压药物使用)。
    • \(Y \in \{0,1\}\) : 关注的远期结局(子痫前期,发生在分娩前或分娩时)。
    • \(M \in \{0,1\}\) : 流产(中间结局,发生在 \(Y\) 之前且可导致失访)。
    • \(X\) : 一组可测量的协变量(如年龄、既往病史、收入)。
    • \(S \in \{0,1\}\) : 妊娠结局是否被记录(指示器)。\(S=1\) 表示结局被观测(如住院分娩记录),\(S=0\) 表示因流产、失访或其他而未记录结局。
    • \(R \in \{0,1\}\) : 失访指示器(Loss to Follow-Up, LTFU)。在建模中,\(R\) 的发生导致 \(Y\) 无法被观测。本文中,当 \(M=1\) 时,通常认为 \(R=1\)(因为流产导致妊娠中断,无法观测 \(Y\))。更一般地,\(R\) 可由 \(X\)\(M\) 决定。
    • Estimand: 总处理效应 (ATE),\(\tau = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\),其中 \(Y(a)\) 是反事实(分配给处理 \(a\) 时,该孕次是否会患子痫前期)。
  • 模型

    • 数据生成:W 为一系列协变量。处理 \(A\)\(X\) 分配(条件独立,但并非完全随机)。流产 \(M\)\(A, X\) 决定。远期结局 \(Y\)\(A, X, M\) 决定。失访指示器 \(R\)\(X\) 和(有时)\(M\) 决定。
    • 可观测数据:研究者能观测到的是一个关于“被识别妊娠”的样本:
      1. 若通过结局识别:只记录 \(S=1\) 的样本,即只观测到“分娩且结局被记录”的孕次。不可观测 \(M\)
      2. 若通过暴露识别:记录所有有至少一次产前护理记录但结局可能未被记录的孕次。此时,部分样本的 \(Y\) 缺失(因为 \(R=1\))。但可以知道 \(M\) 是否发生(因为 \(M\) 导致 \(R\),进而导致 \(Y\) 缺失)。
    • 想要但观测不到的:在全体孕次中(包括未观察到的),我们想知道的 \(\mathbb{E}[Y(1)]\)\(\mathbb{E}[Y(0)]\) 均无法直接计算。在暴露识别样本中,\(Y\)\(R=0\) 的样本是缺失的,不可直接计算组均值。

第二步:讲最小内核——支撑整篇论文的那个最小内核

最简特例:考虑一个最为简化的设定: - 只有一个二值协变量 \(X \in \{L,R\}\) (低/高风险)。 - 处理完全随机分配:\(P(A=1) = 0.5\),独立于 \(X\)\(M\)(这在本文模拟中被假定)。 - 流产仅由处理引发:\(P(M=1|A=1) = \alpha, P(M=1|A=0)=0\)(实际上,本文模拟假定流产对处理有直接效应)。 - 结局仅由处理引发:\(P(Y=1|A=1) = \pi_1, P(Y=1|A=0) = \pi_0\),且 \(Y\) 独立于 \(M\) 给定 \(A\)(这在本模拟中不成立,但为了展示核心思路,先简化)。 - 失访完全由流产驱动:如果 \(M=1\),则 \(R=1\)(结局无法观测);如果 \(M=0\),则 \(R=0\)(结局可观测)。

可观测数据:我们只能看到那些结局可观测的孕次(即 \(R=0\) 的样本)。这些样本只包含 \(A=0\)(因为 \(A=1\) 且流产,\(R=1\))和那些 \(A=1\) 但没有流产的(即 \(M=0\))的孕次。

核心问题:如何基于这个偏倚样本估计 \(\tau = \pi_1 - \pi_0\)

直接方法(基于可观测数据的组均值比较): - 对 \(A=0\) 组,其结局完全可观测,所以其样本均值收敛于 \(\pi_0\)。 - 对 \(A=1\) 组,我们只看到 \(M=0\) 的样本的结局。这些样本的结局是 \(\pi_1\)。但 \(A=1\) 组的真实均值是 \(\pi_1\)。由于我们只观测到其无流产的子群,而该子群占比为 \(1 - \alpha\),所以观测到的 \(A=1\) 组均值等于 \(\pi_1\)(因为 \(Y\) 独立于 \(M\) 给定 \(A\))。所以在这个简化例子中,直接均值比较给出无偏估计,这依赖于 \(Y\)\(M\) 的条件独立性假设。

论文的核心洞察:当 \(Y\)\(M\) 条件相关时(公式 (2) 和 (3) 在模拟中设定),这个简化就不再成立。例如,如果处理既影响流产也影响子痫前期,且两者相关,则观测到的 \(A=1\) 组的样本均值(来自 \(M=0\) 的子群)将不是 \(\pi_1\),而是基于该子群的条件概率 \(E[Y|A=1, M=0]\),从而产生偏倚。

最小内核的数学表达: - 真实 ATE: \(\tau = \underbrace{P(Y=1|A=1)}_{\pi_1} - \underbrace{P(Y=1|A=0)}_{\pi_0}\) - 观测到的 ATE(仅基于 \(R=0\) 的样本): \(\tau_{obs} = E[Y|A=1, R=0] - E[Y|A=0, R=0]\)。 - 当失访由流产驱动且 \(Y\)\(M\) 条件相关时,\(E[Y|A=1, R=0] = E[Y|A=1, M=0] \neq E[Y|A=1] = \pi_1\)。 - 因此,\(\tau_{obs} \neq \tau\)本文的核心技术贡献就是通过直接标准化(加权)来试图估计 \(E[Y|A=1, R=0]\) … 但这只有在知道 \(R\) 的完整机制(即已知 \(X\) 解释所有非流产引起的失访)时才有效;当流产机制本身不可忽视时,即使加权也无能为力。 这就是论文要模拟揭示的:“包含所有妊娠”并不自动解决因流产驱动的失访带来的偏倚,因为无法对流产本身进行调换(re-weight)而补救

三、这篇论文做了什么

  • 三句话

    1. 研究了什么问题:在产前暴露研究中,通过不同方式(结局识别 vs. 暴露识别)识别怀孕导致的选择偏倚,并模拟了在多变失访情景下(特别是当流产既是处理效应的中间产物又是失访原因时),不同识别方法对处理效应估计的偏倚大小和方向。
    2. 核心工具 / 方法:一个基于模拟的大型数据生成过程(10 000 000 次怀孕,涵盖 36 种场景);通过非参数直接标准化(Inverse Probability of Censoring Weighting 的变体)来估计风险差 (RD) 和风险比 (RR);分析样本构造为三种:① 仅观测分娩 ② 观测分娩和已知流产 ③ 所有有产前护理记录的孕次。
    3. 主要结论:当失访由流产(一个与处理和结局都相关的中间变量)驱动时,无论使用哪种识别方法(包含所有孕次),估计均有偏。只有当失访完全由可测量的协变量(而非流产)驱动时,包含所有孕次才能得到无偏估计。
  • 关键设定与假设(在第二节最小记号上补全):

    • 数据生成:模拟了 10 个二值协变量 \(X_1, ..., X_{10}\),通过逻辑模型生成处理分配\(A\)、流产率 \(P(M=1|A, X)\)、子痫前期率 \(P(Y=1|A, X, M)\)、以及失访率 \(P(R=1|M, X)\)(其中失访机制包括三种:① 仅由 \(X\) 驱动 ② 仅由 \(M\) 驱动 ③ 两者)。
    • 因果结构:暴露-结局关系为总效应(Total Effect),即直接效应和通过流产介导的间接效应的和。因此,处理\(A\)对结局\(Y\)的直接效应(由本文使用的模拟模型生成)以及通过\(M\)的间接效应是共存的。
    • 假设(Key assumption for unbiased inference in the “all pregnancies” sample)处理后可忽略性(Conditional ignorability of loss to follow-up given M and X)——即 \(Y \perp \!\!\! \perp R \mid A, X, M\)。也就是说,在给定处理、可测协变量和流产状态后,失访与潜在结局无关。当失访完全由可测 \(X\) 驱动时(情景1),这个假设成立。但当失访部分或全部由未观测的流产 \(M\) 驱动时(情景2和3),这个假设对于包含所有孕次的样本也不成立,因为 \(M\) 本身是因果路径上的中间变量,对其调整会引入 Collider 偏倚(即便模型正确指定了失访概率),且当 \(M\) 的效应不能被完全解释时,权重也无法纠正。
    • 相比已有文献:放宽了“包含所有孕次即无偏”的假设,具体化了失访机制。
  • 主要结果

    • 核心量化结论:图2、3、4展示了在不同场景下的偏倚(risk difference 和 log-transformed risk ratio 的偏差)。关键数字:在失访由流产驱动时(情景2和3),不管使用哪个样本(仅分娩、分娩+流产、所有孕次),log(RR)的偏差范围都在 -0.12 到 0.33 之间,没有系统性地减小(表格3)。当失访仅由 \(X\) 驱动且使用所有孕次样本时,偏差才收敛到 -0.02 到 0.01(近乎0)。
    • 与 baseline 对比:baseline 是“仅观测分娩”样本(传统方法),它在所有情景下都显示出0.10到-0.27的偏差幅度。暴露识别法(所有孕次)仅在其适用情景(即失访由X驱动)下优于baseline。
    • 稳健性:失访比例(5% vs. 20%)在数值上放大了偏倚的幅度(当失访由流产驱动时,20%失访率导致更大的偏差波动),但没有改变偏倚的有无或方向。处理对流产的效应大小(中等 vs. 大)也没有改变结论的性质——都产生偏倚。
  • 证明路线与技术技巧:本文为应用/方法型论文,而非理论型论文。因此没有定理证明路线,但有一个清晰的模拟论证逻辑:

    • 技术技巧:主要技术是非参数直接标准化(Kaplan, 1999)。它本质上是 IPCW:对于每个孕次 \(i\),给定其 \(X_i, A_i, M_i\),估计其失访概率 \(P(R_i=0|X_i, A_i, M_i)\),然后用其倒数作为权重对 \(R_i=0\) 的样本进行加权,以得到总体的期望值估计。本文使用一种非参数核方法估计这些概率,避免了模型错误指定的问题。
    • 关键跳跃点:理解“所有孕次样本”产生无偏估计所需的条件。作者通过模拟明确指出,当失访由 \(M\)(流产)驱动时,即使使用包含所有孕次的样本,对于 \(E[Y]\) 的无偏估计所需的假设是 \(Y \perp \!\!\! \perp R \mid A, X, M\),而这个假设在 \(M\) 是未观测的独立偏倚来源时是不成立的。 本文的特例(情景2)正是这样一个条件,它精彩地展示了为什么“包含所有孕次”不是灵丹妙药:因为 \(M\) 是处理效应路径上的一部分,对其做加权调整会打开后门路径(通过 \(A \rightarrow M\)\(M \rightarrow Y\) 的部分中介),导致对总效应的估计产生偏倚。作者此处没有任何数学推导,纯粹通过结果的模式来实证这一 gap。
  • 真实例子与应用

    • 模拟来源:完全基于模拟,没有真实数据案例。
    • 设计:模拟生成了涵盖 36 种情景的 10,000,000 个孕次。每个情景由以下因素组合决定:处理对流产的效应(中等 vs. 大)、失访比例(5% vs. 20%)、失访原因(三种模式:可测协变量驱动、流产驱动、混合)。
    • 结果:展示了不同识别方法下的 RD 和 RR 估计的偏倚。例如,当失访完全由协变量驱动时,只有“所有孕次”样本的估计是几乎无偏的。当失访由流产驱动时,所有样本都有偏,并且偏倚大小不随样本类型减小而明显变化(图4)。这是一个利用模拟来检验和量化选择偏倚的典型案例,旨在说明即使在使用被认为是最优的识别框架(暴露识别法)后,偏倚依然存在,并且可以通过比较“所有孕次”和“仅观测分娩/流产”样本的估计差异来量化这一偏倚的严重程度。
    • 本文为纯模拟 / 无实证例子
  • 🔎 结论是否比证明窄:是的。作者明确且有力地证明了:

    • 在失访由流产驱动时,所有识别方法都有偏。 这是严格模拟证实的。
    • 但结论被brieflyimplicitly主张为:当失访由可测协变量驱动时,包含所有孕次无偏。 这个主张依赖于模拟场景1的完美假设检验——协变量 \(X\) 完全解释了失访,且标准化模型非参数、完美指定。在实际应用中,协变量不可能完美测量,模型也不可能完美指定。因此,该结论在实际应用中是一个更强的假设,可能并不总是成立。作者在讨论中提到这一点,但没有在结论中充分强调它的近似性和敏感性。因此,论文声称的“包含所有孕次在特定情境下无偏”比其严格证明(即模拟中完美设定下才成立)要宽。

四、开放问题

  • 开放问题 1:给定一个真实的产前暴露数据集,当失访机制既包含测量协变量又包含未测流产的混合情景时,如何设计一个检验来区分“失访是由可测协变量完全解释”和“局部由流产驱动”,从而决定是否应该信任“所有孕次”样本的估计?这一点在该论文的 Discussion 部分有提及(P. 5,最后一段,“Future studies should explore… whether… the proposed method can be extended…”),但未给出具体统计检验方法。
  • 开放问题 2:论文展示了偏倚的存在,但未解析出当失访由流产驱动时,偏倚的解析形式是什么?是否可以将此偏倚表达为处理对流产的直接效应(\( \beta \))和流产与结局的相关性(\( \gamma \))的函数,类似于“碰撞偏倚”的经典公式?这可以推进到一个令人满意的、可解析的敏感性分析框架。文中图3、4的模式暗示了这种函数依赖,但未形式化。
  • 开放问题 3:如何将本文模拟发现推广到纵向数据连续时间设定?例如,在产前暴露的长期随访中,失访可能不是“一次性”事件,而是随时间累积的过程。该论文只在单个时间点(妊娠期)的横截面模拟,对于纵向结构,该 bias 是否累积得更严重或可被更复杂的逆概率加权模型(时变 IPCW)减轻?作者未讨论。
  • 开放问题 4:本文使用的“非参数直接标准化”在估计失访概率时是否会导致额外的变异和偏差(模型错误指定、边界问题)?当处理为连续变量或协变量很多时,非参数估计的方差会急剧增加,使得标准化的加权估计在多维 X 下不可靠。对于高维或高斯协变量,如何用半参数方法(如带有协变量平衡的倾向得分加权)来降低这种偏差和方差,值得探索。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论