Pregnancy identification method as a source of bias in studies of prenatal exposures using real-world data¶

作者: Chase D Latour, Jessie K Edwards, Michele Jonsson Funk, Elizabeth A Suarez, Kim Boggess et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf260

一、领域脉络与小综述¶

这个方向是什么：这个子方向聚焦于产前暴露研究中因怀孕识别方法引入的选择偏倚。具体而言，研究者通常基于观测到的妊娠结局（如分娩记录）来识别一个“怀孕”样本，这会遗漏那些接受了产前护理但结局未记录（如自然流产）的孕次，从而在后续的产前暴露效应估计中引发偏倚。该方向当前由模拟论证主导，理论识别条件尚不完善，但已开始被应用于实际背景下的敏感性分析。
发展脉络（history）：
- 奠基工作：Hernán et al. (2004)——该文奠定了“通过结局识别暴露事件”的经典框架，并指出在观察性研究中，对事件样本的不完全捕捉会产生类似失访的选择偏倚。它首次系统讨论了在孕产研究中因遗漏结局而导致的样本偏倚。
- 主要进展：Wood et al. (2018)——此文进一步细化了怀孕识别的操作化途径，明确对比了“基于结局识别（分娩）”和“基于暴露识别（产前护理记录）”两种方法，指出后者虽能捕获无结局记录的孕次，但引入了处理失访（LTFU）的问题。该文通过模拟和实证发现，不同识别方法会改变效应估计的符号和大小。
- 当前 Frontier：Latour et al. (2024，本文)——本文的定位是“拓展性模拟”：它系统变化了失访的原因（可测量协变量驱动 vs. 未观测流产驱动 vs. 两者兼有）以及处理对中间结局（流产）的直接效应，以探究在不同偏倚来源下，包含所有孕次（暴露识别法）是否确实能无偏估计暴露对子痫前期的效应。其核心发现是：当失访由流产（一个与治疗和结局均相关的中间变量）驱动时，即使包含所有孕次，估计仍有偏；只有失访完全由可测量协变量驱动时，包含所有孕次才能得到无偏估计。
- 本文位置：作者作为“当前 frontier”一环，将其定位为对 Wood et al. (2018) 结论的进一步检验和细化，指出了“暴露识别法”并非万能解，且提供了一种直接量化选择偏倚程度的工具（直接标准化估计），而不是仅仅声称“有偏”。
子线索聚类：这些被引及背景文献大致落在两条子线索上：
1. 偏倚来源识别：聚焦于通过何种方式（暴露识别 vs. 结局识别）捕捉样本所导致的偏倚模式差异。核心争论是“包含所有孕次是否足以消除偏倚”。该簇文献以模拟研究为主，很少涉及正式的非参数识别条件或检验假设。
2. 失访（LTFU）建模：针对识别后样本的缺失问题（如流产未被记录），处理失访的统计方法，例如 Inverse Probability of Censoring Weighting (IPCW) 和多重插补。本文的“非参数直接标准化”本质上是一种 IPCW 的特例，假定处理后可忽略性条件成立。
这个方向在追问的核心问题（2-4 个）：
1. 识别条件：在什么非参数假设下，通过暴露识别怀孕并处理失访后，能够无偏识别暴露对某个远期结局（如子痫前期）的因果效应？
2. 偏倚方向与大小：当失访由“未观测到的流产”驱动时，选择偏倚的大小和方向是否可以解析地表达？它是否总朝着某一固定方向？
3. 敏感性分析：当失访机制非完全可测时（如本文的混合情景），如何发展出可操作的敏感性分析方法，而不仅仅是做“穷尽式”的模拟？
4. 外部有效性：这些基于模拟（尤其是高失访率、特定效应大小）的结论，能否推广到真实的产前暴露数据集上（如 Medicaid 行政数据），并给出可操作的信区间？
⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）：作者将缺口 frame 为 Wood et al. (2018) 的结论——“包含所有怀孕就能得到无偏估计”——是不够稳健的，需要进一步细化失访来源和效应机制；本文是“理所当然的下一步”，通过系统变化这些因素来描绘偏倚边界。作者淡化了发展正式识别条件和假设检验这条更加理论化的路线，而偏向于提供模拟驱动、可操作的工具（直接标准化）。什么明显该被引 / 该存在、却没出现在 intro 里？ —— Greenland (1996) 和 Hernán (2004) 关于“基本变量选择问题”的经典论文应被引用以定位“通过结局识别怀孕”与“通过暴露识别怀孕”之间的矛盾如何构成了 selection bias 的一个特例，但本文并未直接卷入这些理论之争。另外，Doob (1953) 或 Rubin (1974) 中的潜在结果框架并未在文章中明确作为理论基石出现，而是隐含于模拟的设置中（通过反事实定义处理效应）。
张力：未见明显对立引用。所有被引工作都采用模拟，且结论都倾向于“偏倚是存在的，方法是重要的”。但没有被引文献在“包含所有怀孕是否总是无偏”上给出与本文相反的理论断言；Wood et al. (2018) 的结论被本文刻画为“可能不稳健”，而非“错误”。这更像是边界条件的进一步探索，而非范式冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(A \in \{0,1\}\) : 暴露/处理变量（如抗高血压药物使用）。
- \(Y \in \{0,1\}\) : 关注的远期结局（子痫前期，发生在分娩前或分娩时）。
- \(M \in \{0,1\}\) : 流产（中间结局，发生在 \(Y\) 之前且可导致失访）。
- \(X\) : 一组可测量的协变量（如年龄、既往病史、收入）。
- \(S \in \{0,1\}\) : 妊娠结局是否被记录（指示器）。\(S=1\) 表示结局被观测（如住院分娩记录），\(S=0\) 表示因流产、失访或其他而未记录结局。
- \(R \in \{0,1\}\) : 失访指示器（Loss to Follow-Up, LTFU）。在建模中，\(R\) 的发生导致 \(Y\) 无法被观测。本文中，当 \(M=1\) 时，通常认为 \(R=1\)（因为流产导致妊娠中断，无法观测 \(Y\)）。更一般地，\(R\) 可由 \(X\) 或 \(M\) 决定。
- Estimand: 总处理效应 (ATE)，\(\tau = \mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]\)，其中 \(Y(a)\) 是反事实（分配给处理 \(a\) 时，该孕次是否会患子痫前期）。
模型：
- 数据生成：W 为一系列协变量。处理 \(A\) 由 \(X\) 分配（条件独立，但并非完全随机）。流产 \(M\) 由 \(A, X\) 决定。远期结局 \(Y\) 由 \(A, X, M\) 决定。失访指示器 \(R\) 由 \(X\) 和（有时）\(M\) 决定。
- 可观测数据：研究者能观测到的是一个关于“被识别妊娠”的样本：
  1. 若通过结局识别：只记录 \(S=1\) 的样本，即只观测到“分娩且结局被记录”的孕次。不可观测 \(M\)。
  2. 若通过暴露识别：记录所有有至少一次产前护理记录但结局可能未被记录的孕次。此时，部分样本的 \(Y\) 缺失（因为 \(R=1\)）。但可以知道 \(M\) 是否发生（因为 \(M\) 导致 \(R\)，进而导致 \(Y\) 缺失）。
- 想要但观测不到的：在全体孕次中（包括未观察到的），我们想知道的 \(\mathbb{E}[Y(1)]\) 和 \(\mathbb{E}[Y(0)]\) 均无法直接计算。在暴露识别样本中，\(Y\) 对 \(R=0\) 的样本是缺失的，不可直接计算组均值。

第二步：讲最小内核——支撑整篇论文的那个最小内核¶

最简特例：考虑一个最为简化的设定： - 只有一个二值协变量 \(X \in \{L,R\}\) (低/高风险)。 - 处理完全随机分配：\(P(A=1) = 0.5\)，独立于 \(X\) 和 \(M\)（这在本文模拟中被假定）。 - 流产仅由处理引发：\(P(M=1|A=1) = \alpha, P(M=1|A=0)=0\)（实际上，本文模拟假定流产对处理有直接效应）。 - 结局仅由处理引发：\(P(Y=1|A=1) = \pi_1, P(Y=1|A=0) = \pi_0\)，且 \(Y\) 独立于 \(M\) 给定 \(A\)（这在本模拟中不成立，但为了展示核心思路，先简化）。 - 失访完全由流产驱动：如果 \(M=1\)，则 \(R=1\)（结局无法观测）；如果 \(M=0\)，则 \(R=0\)（结局可观测）。

可观测数据：我们只能看到那些结局可观测的孕次（即 \(R=0\) 的样本）。这些样本只包含 \(A=0\)（因为 \(A=1\) 且流产，\(R=1\)）和那些 \(A=1\) 但没有流产的（即 \(M=0\)）的孕次。

核心问题：如何基于这个偏倚样本估计 \(\tau = \pi_1 - \pi_0\)？

直接方法（基于可观测数据的组均值比较）： - 对 \(A=0\) 组，其结局完全可观测，所以其样本均值收敛于 \(\pi_0\)。 - 对 \(A=1\) 组，我们只看到 \(M=0\) 的样本的结局。这些样本的结局是 \(\pi_1\)。但 \(A=1\) 组的真实均值是 \(\pi_1\)。由于我们只观测到其无流产的子群，而该子群占比为 \(1 - \alpha\)，所以观测到的 \(A=1\) 组均值等于 \(\pi_1\)（因为 \(Y\) 独立于 \(M\) 给定 \(A\)）。所以在这个简化例子中，直接均值比较给出无偏估计，这依赖于 \(Y\) 和 \(M\) 的条件独立性假设。

论文的核心洞察：当 \(Y\) 与 \(M\) 条件相关时（公式 (2) 和 (3) 在模拟中设定），这个简化就不再成立。例如，如果处理既影响流产也影响子痫前期，且两者相关，则观测到的 \(A=1\) 组的样本均值（来自 \(M=0\) 的子群）将不是 \(\pi_1\)，而是基于该子群的条件概率 \(E[Y|A=1, M=0]\)，从而产生偏倚。

最小内核的数学表达： - 真实 ATE: \(\tau = \underbrace{P(Y=1|A=1)}_{\pi_1} - \underbrace{P(Y=1|A=0)}_{\pi_0}\) - 观测到的 ATE（仅基于 \(R=0\) 的样本）: \(\tau_{obs} = E[Y|A=1, R=0] - E[Y|A=0, R=0]\)。 - 当失访由流产驱动且 \(Y\) 与 \(M\) 条件相关时，\(E[Y|A=1, R=0] = E[Y|A=1, M=0] \neq E[Y|A=1] = \pi_1\)。 - 因此，\(\tau_{obs} \neq \tau\)。本文的核心技术贡献就是通过直接标准化（加权）来试图估计 \(E[Y|A=1, R=0]\) … 但这只有在知道 \(R\) 的完整机制（即已知 \(X\) 解释所有非流产引起的失访）时才有效；当流产机制本身不可忽视时，即使加权也无能为力。这就是论文要模拟揭示的：“包含所有妊娠”并不自动解决因流产驱动的失访带来的偏倚，因为无法对流产本身进行调换（re-weight）而补救。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：在产前暴露研究中，通过不同方式（结局识别 vs. 暴露识别）识别怀孕导致的选择偏倚，并模拟了在多变失访情景下（特别是当流产既是处理效应的中间产物又是失访原因时），不同识别方法对处理效应估计的偏倚大小和方向。
2. 核心工具 / 方法：一个基于模拟的大型数据生成过程（10 000 000 次怀孕，涵盖 36 种场景）；通过非参数直接标准化（Inverse Probability of Censoring Weighting 的变体）来估计风险差 (RD) 和风险比 (RR)；分析样本构造为三种：① 仅观测分娩 ② 观测分娩和已知流产 ③ 所有有产前护理记录的孕次。
3. 主要结论：当失访由流产（一个与处理和结局都相关的中间变量）驱动时，无论使用哪种识别方法（包含所有孕次），估计均有偏。只有当失访完全由可测量的协变量（而非流产）驱动时，包含所有孕次才能得到无偏估计。
关键设定与假设（在第二节最小记号上补全）：
- 数据生成：模拟了 10 个二值协变量 \(X_1, ..., X_{10}\)，通过逻辑模型生成处理分配\(A\)、流产率 \(P(M=1|A, X)\)、子痫前期率 \(P(Y=1|A, X, M)\)、以及失访率 \(P(R=1|M, X)\)（其中失访机制包括三种：① 仅由 \(X\) 驱动 ② 仅由 \(M\) 驱动 ③ 两者）。
- 因果结构：暴露-结局关系为总效应（Total Effect），即直接效应和通过流产介导的间接效应的和。因此，处理\(A\)对结局\(Y\)的直接效应（由本文使用的模拟模型生成）以及通过\(M\)的间接效应是共存的。
- 假设（Key assumption for unbiased inference in the “all pregnancies” sample）：处理后可忽略性（Conditional ignorability of loss to follow-up given M and X）——即 \(Y \perp \!\!\! \perp R \mid A, X, M\)。也就是说，在给定处理、可测协变量和流产状态后，失访与潜在结局无关。当失访完全由可测 \(X\) 驱动时（情景1），这个假设成立。但当失访部分或全部由未观测的流产 \(M\) 驱动时（情景2和3），这个假设对于包含所有孕次的样本也不成立，因为 \(M\) 本身是因果路径上的中间变量，对其调整会引入 Collider 偏倚（即便模型正确指定了失访概率），且当 \(M\) 的效应不能被完全解释时，权重也无法纠正。
- 相比已有文献：放宽了“包含所有孕次即无偏”的假设，具体化了失访机制。
主要结果：
- 核心量化结论：图2、3、4展示了在不同场景下的偏倚（risk difference 和 log-transformed risk ratio 的偏差）。关键数字：在失访由流产驱动时（情景2和3），不管使用哪个样本（仅分娩、分娩+流产、所有孕次），log(RR)的偏差范围都在 -0.12 到 0.33 之间，没有系统性地减小（表格3）。当失访仅由 \(X\) 驱动且使用所有孕次样本时，偏差才收敛到 -0.02 到 0.01（近乎0）。
- 与 baseline 对比：baseline 是“仅观测分娩”样本（传统方法），它在所有情景下都显示出0.10到-0.27的偏差幅度。暴露识别法（所有孕次）仅在其适用情景（即失访由X驱动）下优于baseline。
- 稳健性：失访比例（5% vs. 20%）在数值上放大了偏倚的幅度（当失访由流产驱动时，20%失访率导致更大的偏差波动），但没有改变偏倚的有无或方向。处理对流产的效应大小（中等 vs. 大）也没有改变结论的性质——都产生偏倚。
证明路线与技术技巧：本文为应用/方法型论文，而非理论型论文。因此没有定理证明路线，但有一个清晰的模拟论证逻辑：
- 技术技巧：主要技术是非参数直接标准化（Kaplan, 1999）。它本质上是 IPCW：对于每个孕次 \(i\)，给定其 \(X_i, A_i, M_i\)，估计其失访概率 \(P(R_i=0|X_i, A_i, M_i)\)，然后用其倒数作为权重对 \(R_i=0\) 的样本进行加权，以得到总体的期望值估计。本文使用一种非参数核方法估计这些概率，避免了模型错误指定的问题。
- 关键跳跃点：理解“所有孕次样本”产生无偏估计所需的条件。作者通过模拟明确指出，当失访由 \(M\)（流产）驱动时，即使使用包含所有孕次的样本，对于 \(E[Y]\) 的无偏估计所需的假设是 \(Y \perp \!\!\! \perp R \mid A, X, M\)，而这个假设在 \(M\) 是未观测的独立偏倚来源时是不成立的。 本文的特例（情景2）正是这样一个条件，它精彩地展示了为什么“包含所有孕次”不是灵丹妙药：因为 \(M\) 是处理效应路径上的一部分，对其做加权调整会打开后门路径（通过 \(A \rightarrow M\) 和 \(M \rightarrow Y\) 的部分中介），导致对总效应的估计产生偏倚。作者此处没有任何数学推导，纯粹通过结果的模式来实证这一 gap。
真实例子与应用：
- 模拟来源：完全基于模拟，没有真实数据案例。
- 设计：模拟生成了涵盖 36 种情景的 10,000,000 个孕次。每个情景由以下因素组合决定：处理对流产的效应（中等 vs. 大）、失访比例（5% vs. 20%）、失访原因（三种模式：可测协变量驱动、流产驱动、混合）。
- 结果：展示了不同识别方法下的 RD 和 RR 估计的偏倚。例如，当失访完全由协变量驱动时，只有“所有孕次”样本的估计是几乎无偏的。当失访由流产驱动时，所有样本都有偏，并且偏倚大小不随样本类型减小而明显变化（图4）。这是一个利用模拟来检验和量化选择偏倚的典型案例，旨在说明即使在使用被认为是最优的识别框架（暴露识别法）后，偏倚依然存在，并且可以通过比较“所有孕次”和“仅观测分娩/流产”样本的估计差异来量化这一偏倚的严重程度。
- 本文为纯模拟 / 无实证例子。
🔎 结论是否比证明窄：是的。作者明确且有力地证明了：
- 在失访由流产驱动时，所有识别方法都有偏。 这是严格模拟证实的。
- 但结论被briefly或implicitly主张为：当失访由可测协变量驱动时，包含所有孕次无偏。 这个主张依赖于模拟场景1的完美假设检验——协变量 \(X\) 完全解释了失访，且标准化模型非参数、完美指定。在实际应用中，协变量不可能完美测量，模型也不可能完美指定。因此，该结论在实际应用中是一个更强的假设，可能并不总是成立。作者在讨论中提到这一点，但没有在结论中充分强调它的近似性和敏感性。因此，论文声称的“包含所有孕次在特定情境下无偏”比其严格证明（即模拟中完美设定下才成立）要宽。

四、开放问题¶

开放问题 1：给定一个真实的产前暴露数据集，当失访机制既包含测量协变量又包含未测流产的混合情景时，如何设计一个检验来区分“失访是由可测协变量完全解释”和“局部由流产驱动”，从而决定是否应该信任“所有孕次”样本的估计？这一点在该论文的 Discussion 部分有提及（P. 5，最后一段，“Future studies should explore… whether… the proposed method can be extended…”），但未给出具体统计检验方法。
开放问题 2：论文展示了偏倚的存在，但未解析出当失访由流产驱动时，偏倚的解析形式是什么？是否可以将此偏倚表达为处理对流产的直接效应（\( \beta \)）和流产与结局的相关性（\( \gamma \)）的函数，类似于“碰撞偏倚”的经典公式？这可以推进到一个令人满意的、可解析的敏感性分析框架。文中图3、4的模式暗示了这种函数依赖，但未形式化。
开放问题 3：如何将本文模拟发现推广到纵向数据和连续时间设定？例如，在产前暴露的长期随访中，失访可能不是“一次性”事件，而是随时间累积的过程。该论文只在单个时间点（妊娠期）的横截面模拟，对于纵向结构，该 bias 是否累积得更严重或可被更复杂的逆概率加权模型（时变 IPCW）减轻？作者未讨论。
开放问题 4：本文使用的“非参数直接标准化”在估计失访概率时是否会导致额外的变异和偏差（模型错误指定、边界问题）？当处理为连续变量或协变量很多时，非参数估计的方差会急剧增加，使得标准化的加权估计在多维 X 下不可靠。对于高维或高斯协变量，如何用半参数方法（如带有协变量平衡的倾向得分加权）来降低这种偏差和方差，值得探索。

Maintained by 陈星宇 · Homepage · Source on GitHub