Antibiotics and Preterm Delivery: The Prevalent New-user Cohort Design to Resolve Immortal Time Bias¶

作者: Simon Galmiche, Eros Comin, Sophie Dell’Aniello, Jacques Balayla, Samy Suissa
来源: Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: McGill University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001947

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在观察性流行病学中，当暴露（处理）的启动时间发生在随访时间窗内部（如孕期第三孕期才首次使用抗生素），如何正确识别和估计该暴露对终点事件（如早产）的因果效应。核心困难在于，从随访起点到暴露启动之间那段未发生终点事件的时间（"immortal time"），若在分析中被错误地归入暴露组，会制造出虚假的保护效应。当前该方向的成熟度较高：immortal time bias 的概念已被广泛认知，时间依赖暴露（time-varying exposure）的 Cox 模型修正已成教科书标准，但近年来前沿转向更精细的"目标试验 emulation"框架下的队列设计——特别是 prevalent new-user cohort design，试图在设计与分析阶段同时解决 immortal time 与混杂。

发展脉络： - 奠基工作：Suissa (2008) 提出 immortal time bias 的系统定义与经典修正方案（time-varying exposure Cox 模型），指出将 immortal time 错误归入暴露组会导致假保护效应（HR<1）。作者在 intro 中原话判断："Suissa highlighted that immortal time bias arises when a period of follow-up is misclassified regarding exposure status"。 - 主要进展：Ray (2010) 等将 immortal time bias 识别为药物流行病学中常见偏倚，但传统 time-varying 修正仍受限于无法处理启动时间依赖的混杂（条件随时间变化）。作者引用指出："time-varying approaches address immortal time but may not fully account for time-dependent confounding"。 - 当前 frontier：Hernán & Robins (2016) 的 target trial emulation 框架，以及 Suissa (2017) 提出的 prevalent new-user design。后者将 new-user 设计（只纳入首次启动者）与 prevalent cohort（从某个存活时间点入组）结合，在相同时间点匹配启动者与未启动者。作者原话定位："the prevalent new-user design emulates a randomized trial starting at the same time point for initiators and noninitiators"。 - 本文的位置：将 prevalent new-user design 首次应用于孕期抗生素与早产关联，并引入 time-conditional propensity score matching，在设计与估计两端同时修正 immortal time bias 与时间依赖混杂，量化展示偏倚翻转幅度。

子线索聚类： 1. 偏倚识别与 time-varying 修正路线：Suissa (2008), Ray (2010) 等。这一簇做的是：定义 immortal time bias，指出其普遍性，并用 time-varying exposure Cox 模型作为分析阶段修正工具。留下的口子：time-varying Cox 只修正了 immortal time，未处理暴露启动时间点上的时间依赖混杂。 2. 目标试验 emulation 与设计路线：Hernán & Robins (2016), Suissa (2017) 等。这一簇做的是：用随机化试验的逻辑重构观察性队列的入组、随访与暴露定义，prevalent new-user design 是其具体实现。留下的口子：如何在 matching 或 weighting 中纳入启动时间的条件概率。 3. 孕期抗生素与早产关联的实证路线：多篇既往观察性研究（如 Romero 2015 等 meta-analysis）。这一簇做的是：报告抗生素对早产的保护或无效应，但几乎未系统处理 immortal time。留下的口子：结论冲突的根源是什么。

这个方向在追问的核心问题： 1. 如何在暴露启动时间随个体变化的观察性数据中，无偏地识别因果效应？当前主流是 time-varying Cox 模型与 prevalent new-user design，瓶颈在于前者不处理时间依赖混杂、后者在 matching 时需引入 time-conditional propensity score。 2. Immortal time bias 的量化影响有多大？当前已知可翻转 HR 方向，瓶颈在于缺乏在同一数据集上同时展示 time-fixed / time-varying / prevalent new-user 三种设定下 HR 变化的实证对照。 3. 目标试验 emulation 框架下，prevalent new-user design 的 estimand 是什么？当前主流将其 frame 为"从特定存活时间点启动暴露的因果效应"，瓶颈在于其与经典 intention-to-treat 或 as-treated estimand 的精确数学对应尚未完全形式化。

⚠️ 作者的 framing（这是作者的说法）：作者把缺口 frame 成：既往孕期抗生素研究结论冲突，根源是 immortal time bias 未被充分处理；prevalent new-user design + time-conditional propensity score matching 是"emulates a randomized trial"的显然下一步。被淡化或回避的竞争路线：IPW / AIPW 等半参数效率估计路线未被提及，g-methods（g-formula / marginal structural models with IPW of time-varying exposure）也未作为 baseline 比较——作者只与 time-fixed 和 time-varying Cox 比较。明显该被引却未出现的：Hernán 等关于 marginal structural models 处理时间依赖混杂的经典工作；Robins 的 g-formula；最近几年 semiparametric efficiency 在 time-varying treatment 上的进展。这条值得研究者去查：作者回避了估计效率与鲁棒性的讨论，只做了 matching。

张力：未见明显对立引用。既往实证研究的结论冲突（保护 vs 无效应 vs 危害）被作者统一归因于 immortal time bias，而非不同人群或不同抗生素类型的异质性——这个归因本身值得研究者去核验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(T_0\)：随访起点时间（孕周第 0 天，或入组时间）。本文设定为孕周达到 27 周且此前未使用抗生素的时间点。
\(A(t)\)：时间依赖暴露指示变量。\(A(t)=1\) 表示在时间 \(t\) 已启动抗生素，\(A(t)=0\) 表示未启动。\(A(t)\) 是阶梯函数，一旦从 0 变为 1 则不再回 0。
\(t_A\)：暴露启动时间（\(A(t)\) 从 0 变为 1 的那个时间点）。对始终未启动者，\(t_A = \infty\)。
\(Y\)：终点事件（早产或低出生体重）。发生时间记为 \(T_Y\)。
\(X\)：基线与时间依赖协变量向量（年龄、合并症等）。
\(D\)：可观测数据 = \(\{(T_0, A(t), X(t), T_Y, Y)\}_{i=1}^n\)。对每个个体，我们观测到从 \(T_0\) 开始的随访过程、暴露何时启动、协变量轨迹、终点是否发生及发生时间。
潜在量：\(Y^{a(t)}\) 表示在暴露轨迹 \(a(t)\) 下终点的潜在结果。本文的 target estimand 是：在 \(t_A = t^*\) 时启动暴露 vs 从未启动暴露，对在 \(t^*\) 仍存活且未发生终点的个体的因果 HR。
不可观测：\(Y^{a(t)}\) 本身不可观测，只能靠假设识别。关键假设：一致性（\(Y = Y^{A(t)}\)）、条件可忽略性（在 \(X(t^*)\) 下，\(t_A\) 的分配与潜在结果独立）、 positivity。

模型：数据生成机制：个体从 \(T_0\) 入组，\(A(t)\) 在某个随机时间 \(t_A\) 启动（或永不启动），\(Y\) 在 \(T_Y\) 发生。\(t_A\) 的分布依赖 \(X(t_A)\)，\(T_Y\) 的分布依赖 \(A(t)\) 与 \(X(t)\)。要估的对象是：在 \(t^*\) 启动暴露 vs 不启动，对终点的 HR。

可观测数据：研究者实际能观测到的是每个个体的 \(\{T_0, A(t), X(t), T_Y, Y\}\) 轨迹。想要但观测不到的是 \(Y^{0}\)（若启动者从未启动的潜在结果）与 \(Y^{1}\)（若未启动者在 \(t^*\) 启动的潜在结果），只能靠 time-conditional propensity score 与可忽略性假设去识别。

第二步：最小内核——immortal time bias 的最简特例

剥掉所有协变量、matching、propensity score，只看 immortal time bias 的最小数学结构：

设定：\(T_0 = 0\)，随访终点为早产 \(Y\)。暴露 \(A\) 在时间 \(t_A\) 启动。无协变量。

Time-fixed 错误分析：将暴露定义为"随访结束时是否曾使用抗生素"（\(A_{\text{fixed}} = 1\) 若 \(t_A < T_Y\)，否则 0）。此时，任何在 \(t_A\) 之前发生早产的人（\(T_Y < t_A\)）必然被归入 \(A_{\text{fixed}}=0\) 组。而能在 \(t_A\) 之后发生早产的人，必须存活到 \(t_A\)——这段从 0 到 \(t_A\) 的时间就是 immortal time。数学上：

\[P(T_Y < t \mid A_{\text{fixed}}=0) \geq P(T_Y < t \mid A_{\text{fixed}}=1) \quad \text{for } t > t_A\]

因为 \(A_{\text{fixed}}=1\) 组自动剔除了所有 \(T_Y < t_A\) 的个体，导致该组的 \(T_Y\) 分布被右移（更长存活），产生虚假保护效应 HR<1。这就是 immortal time bias 的最小内核：暴露定义的时间错位导致选择偏倚。

Prevalent new-user 修正的最简逻辑：在 \(t^*\) 时刻，只纳入满足 \(T_Y > t^*\) 且 \(A(t^*^-)=0\) 的个体（即到 \(t^*\) 仍存活且未启动暴露）。在 \(t^*\) 这一刻，将 \(A(t^*)=1\) 的启动者与 \(A(t^*)=0\) 的未启动者匹配。此时两组在 \(t^*\) 之前的 immortal time 完全相同（都是 \(t^*\)），不存在错位。后续随访从 \(t^*\) 开始计算，HR 的比较基准是"在 \(t^*\) 同一时刻的启动 vs 不启动"。数学上，这等价于将风险集重新定义为 \(\{i: T_{Y,i} > t^*, A_i(t^*^-)=0\}\)，在这个风险集内比较 \(A(t^*)=1\) vs \(A(t^*)=0\) 的 \(T_Y - t^*\) 分布。

为什么成立：因为在 \(t^*\) 刻入组时，两组的存活条件完全对称（都必须存活到 \(t^*\) 且未发生终点），immortal time 被设计本身消去，而非靠分析阶段修正。

三、这篇论文做了什么¶

三句话： ①研究了孕期第三孕期抗生素启动对早产与低出生体重的因果效应，核心问题是既往观察性研究受 immortal time bias 干扰导致结论冲突。 ②核心方法是 prevalent new-user cohort design + time-conditional propensity score matching，在相同孕周日匹配抗生素启动者与未启动者，emulate 一个从该孕周开始的随机化试验。 ③主要结论：time-fixed 分析受 immortal time bias 影响给出虚假保护效应 HR=0.78，prevalent new-user 设计修正后 HR=1.14（早产增加），time-varying Cox 给出 HR=1.23，证实 immortal time bias 是既往结论冲突的核心来源。

关键设定与假设： - Prevalent new-user cohort：入组条件为孕周达到 27 周且此前未使用抗生素（\(A(27\text{w}^-)=0\)）。暴露组为在第三孕期（27-40 周）某日 \(t^*\) 启动抗生素者，对照组为在 \(t^*\) 仍未启动且被匹配者。这个设定相比经典 new-user design（从随访起点只纳入首次启动者）放宽了入组时间窗，允许在随访中间启动暴露——这是 prevalent 的含义。 - Time-conditional propensity score：\(e(t^*, X) = P(A(t^*)=1 \mid X, T_Y > t^*, A(t^*^-)=0)\)。即在 \(t^*\) 仍存活且未启动暴露的条件下，给定协变量 \(X\)，在 \(t^*\) 启动暴露的概率。这个假设相比传统 propensity score 强化了条件：必须包含时间条件 \(T_Y > t^*, A(t^*^-)=0\)，否则 immortal time 重新引入。统计含义：这是在 prevalent new-user 风险集内的条件可忽略性假设——在 \(X\) 下，\(t^*\) 时刻的暴露分配与潜在结果独立。 - Matching：1:1 nearest-neighbor matching on time-conditional propensity score，加 caliper。匹配后两组在 \(X\) 与 \(t^*\) 上平衡。 - SUTVA / 一致性 / positivity：标准因果假设，文中未显式陈述但隐含在 target trial emulation 框架中。Positivity 要求 \(0 < e(t^*, X) < 1\)，在 time-conditional 版本中这意味着对每个 \(t^*\) 与 \(X\)，在 \(t^*\) 启动与不启动的概率都非零。

主要结果： - 定理级陈述（实证量化）：在同一数据集（207,027 孕次）上，三种分析给出： - Time-fixed exposure Cox：HR=0.78 (95% CI: 0.73, 0.83)——虚假保护效应，受 immortal time bias 影响。 - Time-varying exposure Cox：HR=1.23 (95% CI: 1.16, 1.32)——修正 immortal time 但未处理时间依赖混杂。 - Prevalent new-user + time-conditional PS matching：HR=1.14 (95% CI: 1.04, 1.24)——同时修正 immortal time 与时间依赖混杂。 - 低出生体重：prevalent new-user HR=1.07 (0.93, 1.25)，time-fixed HR=0.91 (0.83, 1.00)。 - 直觉：Immortal time bias 将存活到暴露启动的时间错误归因于暴露效应，导致 HR 被拉低。修正后方向翻转。 - 必要条件：time-conditional propensity score 的可忽略性假设必须成立——若存在未测量的时间依赖混杂（如孕期感染严重程度），HR=1.14 仍可能偏倚。文中 sensitivity analysis 尝试评估此点但未完全解决。 - 解决的技术难点：在 prevalent cohort 中，暴露启动时间 \(t^*\) 是随机的，传统 propensity score 无法直接应用（因为 \(t^*\) 本身是条件事件）。time-conditional propensity score 将 \(t^*\) 纳入条件，解决了"在何时匹配"的问题。

证明路线与技术技巧：本文为应用 / 方法型，无纯数学定理证明，但有其"设计-估计"路线： 1. 定义 target trial：明确 emulate 的随机化试验——从孕 27 周开始，纳入此前未用抗生素者，随机分配启动 vs 不启动。 2. 构造 prevalent new-user cohort：从 CPRD 数据中筛选满足入组条件的个体，按暴露启动时间 \(t^*\) 分层。 3. 计算 time-conditional propensity score：对每个启动者，在其 \(t^*\) 时刻，用 logistic 回归估计 \(e(t^*, X)\)，条件为在 \(t^*\) 仍存活且未启动。 4. Matching：1:1 matching，匹配后检查平衡性（标准化差值 <0.1）。 5. 估计 HR：在匹配样本上用 Cox 模型估计 HR，随访时间从 \(t^*\) 开始计算（而非从 \(T_0\)）。

关键跳跃点： - 从"time-varying Cox 修正 immortal time"到"prevalent new-user design 同时修正 immortal time 与时间依赖混杂"——这个跳跃的核心是：time-varying Cox 只在分析阶段修正 immortal time，但暴露启动时间 \(t^*\) 的选择仍受时间依赖混杂影响；prevalent new-user 在设计阶段通过 time-conditional PS matching 控制 \(t^*\) 上的混杂。 - 技术技巧：time-conditional propensity score 的计算——不是传统 \(P(A=1|X)\)，而是 \(P(A(t^*)=1 | X, T_Y > t^*, A(t^*^-)=0)\)，需要将时间条件纳入模型。这等价于在每个 \(t^*\) 上分别拟合 logistic 回归，或用 pooled model with time interaction。

真实例子与应用： - 数据：UK Clinical Practice Research Datalink (CPRD)，2002-2016，207,027 孕次，16,865 第三孕期抗生素启动者。 - 怎么用上去：筛选孕 27 周未用抗生素者，对每个启动者在启动日 \(t^*\) 匹配一个未启动者，用 time-conditional PS matching，从 \(t^*\) 开始随访至早产或足月。 - 得到什么结果：HR 从 0.78 翻转为 1.14，低出生体重 HR 从 0.91 变为 1.07（不显著）。 - 想说明什么：immortal time bias 是既往结论冲突的核心来源；prevalent new-user design 能同时修正 immortal time 与时间依赖混杂；time-varying Cox 虽修正 immortal time 但可能过度估计（HR=1.23 vs 1.14），因为未处理时间依赖混杂。

🔎 结论是否比证明窄： - 文中 claim "previous inconclusive studies may have resulted from observational methods that introduced, or insufficiently addressed, immortal time bias"——这个归因比其实证证明窄：本文只在一个数据集上展示翻转，未系统回顾既往研究是否都受 immortal time bias 影响（有些可能确实是异质性或测量偏倚）。 - Time-conditional propensity score 的可忽略性假设未被检验——文中承认存在 unmeasured confounding 可能（如感染严重程度），sensitivity analysis 只做了 E-value 计算，未做形式化 sensitivity analysis 框架（如 marginal sensitivity model）。这是条件 X 下严格证明的缺失，却被泛泛 claim 为"emulates a randomized trial"。

四、开放问题（点到为止，扎根具体语句）¶

Time-conditional propensity score 的可忽略性假设的 sensitivity analysis：文中 E-value 计算不足以形式化评估 unmeasured time-dependent confounding 的影响。扎根在文中 "unmeasured confounding remains a concern" 与 limitations 段。可做：用 marginal sensitivity model 或 Rosenbaum bounds 对 time-conditional PS matching 的 HR 做形式化 sensitivity bounds。
Prevalent new-user design 的 estimand 的精确数学形式化：文中 frame 为 "emulates a randomized trial"，但未给出 estimand 的精确潜在结果表达式——是 \(E[Y^{1}_{t^*} - Y^{0}_{t^*} \mid T_Y > t^*, A(t^*^-)=0]\) 还是其他？扎根在 Hernán & Robins (2016) 的 target trial emulation 框架与本文 methods 段的模糊陈述。可做：用 semiparametric theory 形式化 prevalent new-user estimand，推导其 efficient influence function 与 efficiency bound。
Matching estimator 的效率损失 vs IPW / AIPW：文中只用 matching，未与 IPW / AIPW / one-step estimator 比较。扎根在文中 methods 段只提 matching、未提 weighting 或 doubly robust 方法。可做：在同一数据设定下比较 matching HR 与 AIPW HR 的效率与鲁棒性，用 very_familiar 的因果推断 estimation theory。
Time-varying Cox HR=1.23 vs prevalent new-user HR=1.14 的差异来源：文中未解释为何 time-varying Cox 给出更高 HR。扎根在 results 段的数值差异。可做：用 g-formula 或 marginal structural models 分解该差异中 time-dependent confounding 与 immortal time 修正的各自贡献。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Antibiotics and Preterm Delivery: The Prevalent New-user Cohort Design to Resolve Immortal Time Bias¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论