跳转至

Antibiotics and Preterm Delivery: The Prevalent New-user Cohort Design to Resolve Immortal Time Bias

作者: Simon Galmiche, Eros Comin, Sophie Dell’Aniello, Jacques Balayla, Samy Suissa
来源: Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: McGill University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001947


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本问题是:在观察性流行病学中,当暴露(处理)的启动时间发生在随访时间窗内部(如孕期第三孕期才首次使用抗生素),如何正确识别和估计该暴露对终点事件(如早产)的因果效应。核心困难在于,从随访起点到暴露启动之间那段未发生终点事件的时间("immortal time"),若在分析中被错误地归入暴露组,会制造出虚假的保护效应。当前该方向的成熟度较高:immortal time bias 的概念已被广泛认知,时间依赖暴露(time-varying exposure)的 Cox 模型修正已成教科书标准,但近年来前沿转向更精细的"目标试验 emulation"框架下的队列设计——特别是 prevalent new-user cohort design,试图在设计与分析阶段同时解决 immortal time 与混杂。

发展脉络: - 奠基工作:Suissa (2008) 提出 immortal time bias 的系统定义与经典修正方案(time-varying exposure Cox 模型),指出将 immortal time 错误归入暴露组会导致假保护效应(HR<1)。作者在 intro 中原话判断:"Suissa highlighted that immortal time bias arises when a period of follow-up is misclassified regarding exposure status"。 - 主要进展:Ray (2010) 等将 immortal time bias 识别为药物流行病学中常见偏倚,但传统 time-varying 修正仍受限于无法处理启动时间依赖的混杂(条件随时间变化)。作者引用指出:"time-varying approaches address immortal time but may not fully account for time-dependent confounding"。 - 当前 frontier:Hernán & Robins (2016) 的 target trial emulation 框架,以及 Suissa (2017) 提出的 prevalent new-user design。后者将 new-user 设计(只纳入首次启动者)与 prevalent cohort(从某个存活时间点入组)结合,在相同时间点匹配启动者与未启动者。作者原话定位:"the prevalent new-user design emulates a randomized trial starting at the same time point for initiators and noninitiators"。 - 本文的位置:将 prevalent new-user design 首次应用于孕期抗生素与早产关联,并引入 time-conditional propensity score matching,在设计与估计两端同时修正 immortal time bias 与时间依赖混杂,量化展示偏倚翻转幅度。

子线索聚类: 1. 偏倚识别与 time-varying 修正路线:Suissa (2008), Ray (2010) 等。这一簇做的是:定义 immortal time bias,指出其普遍性,并用 time-varying exposure Cox 模型作为分析阶段修正工具。留下的口子:time-varying Cox 只修正了 immortal time,未处理暴露启动时间点上的时间依赖混杂。 2. 目标试验 emulation 与设计路线:Hernán & Robins (2016), Suissa (2017) 等。这一簇做的是:用随机化试验的逻辑重构观察性队列的入组、随访与暴露定义,prevalent new-user design 是其具体实现。留下的口子:如何在 matching 或 weighting 中纳入启动时间的条件概率。 3. 孕期抗生素与早产关联的实证路线:多篇既往观察性研究(如 Romero 2015 等 meta-analysis)。这一簇做的是:报告抗生素对早产的保护或无效应,但几乎未系统处理 immortal time。留下的口子:结论冲突的根源是什么。

这个方向在追问的核心问题: 1. 如何在暴露启动时间随个体变化的观察性数据中,无偏地识别因果效应?当前主流是 time-varying Cox 模型与 prevalent new-user design,瓶颈在于前者不处理时间依赖混杂、后者在 matching 时需引入 time-conditional propensity score。 2. Immortal time bias 的量化影响有多大?当前已知可翻转 HR 方向,瓶颈在于缺乏在同一数据集上同时展示 time-fixed / time-varying / prevalent new-user 三种设定下 HR 变化的实证对照。 3. 目标试验 emulation 框架下,prevalent new-user design 的 estimand 是什么?当前主流将其 frame 为"从特定存活时间点启动暴露的因果效应",瓶颈在于其与经典 intention-to-treat 或 as-treated estimand 的精确数学对应尚未完全形式化。

⚠️ 作者的 framing(这是作者的说法): 作者把缺口 frame 成:既往孕期抗生素研究结论冲突,根源是 immortal time bias 未被充分处理;prevalent new-user design + time-conditional propensity score matching 是"emulates a randomized trial"的显然下一步。被淡化或回避的竞争路线:IPW / AIPW 等半参数效率估计路线未被提及,g-methods(g-formula / marginal structural models with IPW of time-varying exposure)也未作为 baseline 比较——作者只与 time-fixed 和 time-varying Cox 比较。明显该被引却未出现的:Hernán 等关于 marginal structural models 处理时间依赖混杂的经典工作;Robins 的 g-formula;最近几年 semiparametric efficiency 在 time-varying treatment 上的进展。这条值得研究者去查:作者回避了估计效率与鲁棒性的讨论,只做了 matching。

张力: 未见明显对立引用。既往实证研究的结论冲突(保护 vs 无效应 vs 危害)被作者统一归因于 immortal time bias,而非不同人群或不同抗生素类型的异质性——这个归因本身值得研究者去核验。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(T_0\):随访起点时间(孕周第 0 天,或入组时间)。本文设定为孕周达到 27 周且此前未使用抗生素的时间点。
  • \(A(t)\):时间依赖暴露指示变量。\(A(t)=1\) 表示在时间 \(t\) 已启动抗生素,\(A(t)=0\) 表示未启动。\(A(t)\) 是阶梯函数,一旦从 0 变为 1 则不再回 0。
  • \(t_A\):暴露启动时间(\(A(t)\) 从 0 变为 1 的那个时间点)。对始终未启动者,\(t_A = \infty\)
  • \(Y\):终点事件(早产或低出生体重)。发生时间记为 \(T_Y\)
  • \(X\):基线与时间依赖协变量向量(年龄、合并症等)。
  • \(D\):可观测数据 = \(\{(T_0, A(t), X(t), T_Y, Y)\}_{i=1}^n\)。对每个个体,我们观测到从 \(T_0\) 开始的随访过程、暴露何时启动、协变量轨迹、终点是否发生及发生时间。
  • 潜在量\(Y^{a(t)}\) 表示在暴露轨迹 \(a(t)\) 下终点的潜在结果。本文的 target estimand 是:在 \(t_A = t^*\) 时启动暴露 vs 从未启动暴露,对在 \(t^*\) 仍存活且未发生终点的个体的因果 HR。
  • 不可观测\(Y^{a(t)}\) 本身不可观测,只能靠假设识别。关键假设:一致性(\(Y = Y^{A(t)}\))、条件可忽略性(在 \(X(t^*)\) 下,\(t_A\) 的分配与潜在结果独立)、 positivity。

模型: 数据生成机制:个体从 \(T_0\) 入组,\(A(t)\) 在某个随机时间 \(t_A\) 启动(或永不启动),\(Y\)\(T_Y\) 发生。\(t_A\) 的分布依赖 \(X(t_A)\)\(T_Y\) 的分布依赖 \(A(t)\)\(X(t)\)。要估的对象是:在 \(t^*\) 启动暴露 vs 不启动,对终点的 HR。

可观测数据: 研究者实际能观测到的是每个个体的 \(\{T_0, A(t), X(t), T_Y, Y\}\) 轨迹。想要但观测不到的是 \(Y^{0}\)(若启动者从未启动的潜在结果)与 \(Y^{1}\)(若未启动者在 \(t^*\) 启动的潜在结果),只能靠 time-conditional propensity score 与可忽略性假设去识别。

第二步:最小内核——immortal time bias 的最简特例

剥掉所有协变量、matching、propensity score,只看 immortal time bias 的最小数学结构:

设定:\(T_0 = 0\),随访终点为早产 \(Y\)。暴露 \(A\) 在时间 \(t_A\) 启动。无协变量。

Time-fixed 错误分析: 将暴露定义为"随访结束时是否曾使用抗生素"(\(A_{\text{fixed}} = 1\)\(t_A < T_Y\),否则 0)。此时,任何在 \(t_A\) 之前发生早产的人(\(T_Y < t_A\))必然被归入 \(A_{\text{fixed}}=0\) 组。而能在 \(t_A\) 之后发生早产的人,必须存活到 \(t_A\)——这段从 0 到 \(t_A\) 的时间就是 immortal time。数学上:

\[P(T_Y < t \mid A_{\text{fixed}}=0) \geq P(T_Y < t \mid A_{\text{fixed}}=1) \quad \text{for } t > t_A\]
因为 \(A_{\text{fixed}}=1\) 组自动剔除了所有 \(T_Y < t_A\) 的个体,导致该组的 \(T_Y\) 分布被右移(更长存活),产生虚假保护效应 HR<1。这就是 immortal time bias 的最小内核:暴露定义的时间错位导致选择偏倚

Prevalent new-user 修正的最简逻辑: 在 \(t^*\) 时刻,只纳入满足 \(T_Y > t^*\)\(A(t^*^-)=0\) 的个体(即到 \(t^*\) 仍存活且未启动暴露)。在 \(t^*\) 这一刻,将 \(A(t^*)=1\) 的启动者与 \(A(t^*)=0\) 的未启动者匹配。此时两组在 \(t^*\) 之前的 immortal time 完全相同(都是 \(t^*\)),不存在错位。后续随访从 \(t^*\) 开始计算,HR 的比较基准是"在 \(t^*\) 同一时刻的启动 vs 不启动"。数学上,这等价于将风险集重新定义为 \(\{i: T_{Y,i} > t^*, A_i(t^*^-)=0\}\),在这个风险集内比较 \(A(t^*)=1\) vs \(A(t^*)=0\)\(T_Y - t^*\) 分布。

为什么成立:因为在 \(t^*\) 刻入组时,两组的存活条件完全对称(都必须存活到 \(t^*\) 且未发生终点),immortal time 被设计本身消去,而非靠分析阶段修正。

三、这篇论文做了什么

三句话: ①研究了孕期第三孕期抗生素启动对早产与低出生体重的因果效应,核心问题是既往观察性研究受 immortal time bias 干扰导致结论冲突。 ②核心方法是 prevalent new-user cohort design + time-conditional propensity score matching,在相同孕周日匹配抗生素启动者与未启动者,emulate 一个从该孕周开始的随机化试验。 ③主要结论:time-fixed 分析受 immortal time bias 影响给出虚假保护效应 HR=0.78,prevalent new-user 设计修正后 HR=1.14(早产增加),time-varying Cox 给出 HR=1.23,证实 immortal time bias 是既往结论冲突的核心来源。

关键设定与假设: - Prevalent new-user cohort:入组条件为孕周达到 27 周且此前未使用抗生素(\(A(27\text{w}^-)=0\))。暴露组为在第三孕期(27-40 周)某日 \(t^*\) 启动抗生素者,对照组为在 \(t^*\) 仍未启动且被匹配者。这个设定相比经典 new-user design(从随访起点只纳入首次启动者)放宽了入组时间窗,允许在随访中间启动暴露——这是 prevalent 的含义。 - Time-conditional propensity score\(e(t^*, X) = P(A(t^*)=1 \mid X, T_Y > t^*, A(t^*^-)=0)\)。即在 \(t^*\) 仍存活且未启动暴露的条件下,给定协变量 \(X\),在 \(t^*\) 启动暴露的概率。这个假设相比传统 propensity score 强化了条件:必须包含时间条件 \(T_Y > t^*, A(t^*^-)=0\),否则 immortal time 重新引入。统计含义:这是在 prevalent new-user 风险集内的条件可忽略性假设——在 \(X\) 下,\(t^*\) 时刻的暴露分配与潜在结果独立。 - Matching:1:1 nearest-neighbor matching on time-conditional propensity score,加 caliper。匹配后两组在 \(X\)\(t^*\) 上平衡。 - SUTVA / 一致性 / positivity:标准因果假设,文中未显式陈述但隐含在 target trial emulation 框架中。Positivity 要求 \(0 < e(t^*, X) < 1\),在 time-conditional 版本中这意味着对每个 \(t^*\)\(X\),在 \(t^*\) 启动与不启动的概率都非零。

主要结果: - 定理级陈述(实证量化):在同一数据集(207,027 孕次)上,三种分析给出: - Time-fixed exposure Cox:HR=0.78 (95% CI: 0.73, 0.83)——虚假保护效应,受 immortal time bias 影响。 - Time-varying exposure Cox:HR=1.23 (95% CI: 1.16, 1.32)——修正 immortal time 但未处理时间依赖混杂。 - Prevalent new-user + time-conditional PS matching:HR=1.14 (95% CI: 1.04, 1.24)——同时修正 immortal time 与时间依赖混杂。 - 低出生体重:prevalent new-user HR=1.07 (0.93, 1.25),time-fixed HR=0.91 (0.83, 1.00)。 - 直觉:Immortal time bias 将存活到暴露启动的时间错误归因于暴露效应,导致 HR 被拉低。修正后方向翻转。 - 必要条件:time-conditional propensity score 的可忽略性假设必须成立——若存在未测量的时间依赖混杂(如孕期感染严重程度),HR=1.14 仍可能偏倚。文中 sensitivity analysis 尝试评估此点但未完全解决。 - 解决的技术难点:在 prevalent cohort 中,暴露启动时间 \(t^*\) 是随机的,传统 propensity score 无法直接应用(因为 \(t^*\) 本身是条件事件)。time-conditional propensity score 将 \(t^*\) 纳入条件,解决了"在何时匹配"的问题。

证明路线与技术技巧: 本文为应用 / 方法型,无纯数学定理证明,但有其"设计-估计"路线: 1. 定义 target trial:明确 emulate 的随机化试验——从孕 27 周开始,纳入此前未用抗生素者,随机分配启动 vs 不启动。 2. 构造 prevalent new-user cohort:从 CPRD 数据中筛选满足入组条件的个体,按暴露启动时间 \(t^*\) 分层。 3. 计算 time-conditional propensity score:对每个启动者,在其 \(t^*\) 时刻,用 logistic 回归估计 \(e(t^*, X)\),条件为在 \(t^*\) 仍存活且未启动。 4. Matching:1:1 matching,匹配后检查平衡性(标准化差值 <0.1)。 5. 估计 HR:在匹配样本上用 Cox 模型估计 HR,随访时间从 \(t^*\) 开始计算(而非从 \(T_0\))。

关键跳跃点: - 从"time-varying Cox 修正 immortal time"到"prevalent new-user design 同时修正 immortal time 与时间依赖混杂"——这个跳跃的核心是:time-varying Cox 只在分析阶段修正 immortal time,但暴露启动时间 \(t^*\) 的选择仍受时间依赖混杂影响;prevalent new-user 在设计阶段通过 time-conditional PS matching 控制 \(t^*\) 上的混杂。 - 技术技巧:time-conditional propensity score 的计算——不是传统 \(P(A=1|X)\),而是 \(P(A(t^*)=1 | X, T_Y > t^*, A(t^*^-)=0)\),需要将时间条件纳入模型。这等价于在每个 \(t^*\) 上分别拟合 logistic 回归,或用 pooled model with time interaction。

真实例子与应用: - 数据:UK Clinical Practice Research Datalink (CPRD),2002-2016,207,027 孕次,16,865 第三孕期抗生素启动者。 - 怎么用上去:筛选孕 27 周未用抗生素者,对每个启动者在启动日 \(t^*\) 匹配一个未启动者,用 time-conditional PS matching,从 \(t^*\) 开始随访至早产或足月。 - 得到什么结果:HR 从 0.78 翻转为 1.14,低出生体重 HR 从 0.91 变为 1.07(不显著)。 - 想说明什么:immortal time bias 是既往结论冲突的核心来源;prevalent new-user design 能同时修正 immortal time 与时间依赖混杂;time-varying Cox 虽修正 immortal time 但可能过度估计(HR=1.23 vs 1.14),因为未处理时间依赖混杂。

🔎 结论是否比证明窄: - 文中 claim "previous inconclusive studies may have resulted from observational methods that introduced, or insufficiently addressed, immortal time bias"——这个归因比其实证证明窄:本文只在一个数据集上展示翻转,未系统回顾既往研究是否都受 immortal time bias 影响(有些可能确实是异质性或测量偏倚)。 - Time-conditional propensity score 的可忽略性假设未被检验——文中承认存在 unmeasured confounding 可能(如感染严重程度),sensitivity analysis 只做了 E-value 计算,未做形式化 sensitivity analysis 框架(如 marginal sensitivity model)。这是条件 X 下严格证明的缺失,却被泛泛 claim 为"emulates a randomized trial"。

四、开放问题(点到为止,扎根具体语句)

  1. Time-conditional propensity score 的可忽略性假设的 sensitivity analysis:文中 E-value 计算不足以形式化评估 unmeasured time-dependent confounding 的影响。扎根在文中 "unmeasured confounding remains a concern" 与 limitations 段。可做:用 marginal sensitivity model 或 Rosenbaum bounds 对 time-conditional PS matching 的 HR 做形式化 sensitivity bounds。
  2. Prevalent new-user design 的 estimand 的精确数学形式化:文中 frame 为 "emulates a randomized trial",但未给出 estimand 的精确潜在结果表达式——是 \(E[Y^{1}_{t^*} - Y^{0}_{t^*} \mid T_Y > t^*, A(t^*^-)=0]\) 还是其他?扎根在 Hernán & Robins (2016) 的 target trial emulation 框架与本文 methods 段的模糊陈述。可做:用 semiparametric theory 形式化 prevalent new-user estimand,推导其 efficient influence function 与 efficiency bound。
  3. Matching estimator 的效率损失 vs IPW / AIPW:文中只用 matching,未与 IPW / AIPW / one-step estimator 比较。扎根在文中 methods 段只提 matching、未提 weighting 或 doubly robust 方法。可做:在同一数据设定下比较 matching HR 与 AIPW HR 的效率与鲁棒性,用 very_familiar 的因果推断 estimation theory。
  4. Time-varying Cox HR=1.23 vs prevalent new-user HR=1.14 的差异来源:文中未解释为何 time-varying Cox 给出更高 HR。扎根在 results 段的数值差异。可做:用 g-formula 或 marginal structural models 分解该差异中 time-dependent confounding 与 immortal time 修正的各自贡献。

要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论