A Structural Description of Biases That Generate Immortal Time¶

作者: Miguel A. Hernán, Jonathan A. C. Sterne, Julian P. T. Higgins, Ian Shrier, Sonia Hernández-Díaz
来源: Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001808

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在观察性生存分析中，如何识别并消除由研究设计缺陷导致的结构性偏倚。具体而言，当研究者的分析设计（如资格标准的时间点、治疗分组的定义方式、随访起点的设定）与因果推断所需的时间结构不一致时，会产生"虚假的生存优势"（即 immortal time bias）。这个方向目前已相当成熟，是流行病学方法学的核心教学内容之一，但相关错误在医学文献中仍高频出现。

发展脉络：以下线索主要依据论文 Introduction 与参考文献构建：

奠基工作（概念提出与早期警示）：
- Gail (1972)：最早在癌症临床试验背景下系统指出，若要求患者在随机化后存活一段时间才能进入分析，会人为夸大生存率。这是 immortal time bias 概念的雏形。
- Anderson et al. (1983)：在心脏移植研究中发现，等待移植期间患者必须存活，导致"等待名单"组被人为筛选，产生虚假的治疗获益。这是该偏倚最经典的案例。
主要进展（偏倚机制的澄清与分类）：
- Suissa (2003, 2008)：系统回顾了药物流行病学中的 immortal time bias，通过重新分析经典研究（如 statin 与死亡率），展示了如何通过正确的设计（如 time-dependent Cox 模型）消除偏倚。作者在文中引用 Suissa 指出，许多研究错误地将"治疗分组"定义为"随访期间是否接受治疗"，而非"基线分配"。
- Rothman & Greenland (1998)：在经典教材中明确了选择偏倚的结构性定义——样本入选概率与结局相关。本文作者引用此观点，论证 immortal time bias 本质上是选择偏倚的一种特例。
当前 Frontier（统一框架与设计原则）：
- Hernán & Robins (2016, 2020)：提出并完善了 Target Trial Emulation（目标试验模拟） 框架。这是当前的主流方法。作者引用该框架指出，消除偏倚的关键在于将观察性研究的设计严格对标一个假想的随机对照试验（RCT），明确"资格标准"、"治疗分配"与"随访起点"三者在时间上的同步性。
- Hernán et al. (2016)：具体展示了如何用纵向数据模拟目标试验，处理时变的治疗策略。
本文的位置：本文是一篇综述与方法论澄清文章。它并非提出新的统计量或估计量，而是对已有文献中的偏倚机制进行结构性分类（Selection vs. Misclassification），并统一在 Target Trial 框架下给出设计指南。作者明确指出，"Immortal time bias" 这个术语具有误导性，因为它让人误以为偏倚源于"那段时间"，而实际上偏倚源于"基于未来信息分组或筛选样本"这一动作。

子线索聚类：这些被引文献大致落在两条子线索上： - 子线索 A：偏倚识别与量化：侧重于通过数学推导或模拟展示偏倚的大小与方向（Gail, Anderson, Suissa）。这条线关注"偏倚是如何产生的"以及"后果有多严重"。 - 子线索 B：研究设计框架：侧重于提供一套规范的设计语言与流程，从源头避免偏倚（Hernán & Robins, Rothman & Greenland）。这条线关注"如何正确设计观察性研究"。本文属于 B 类，试图用 A 类的机制洞察来强化 B 类的设计规范。

这个方向在追问的核心问题： 1. 识别问题：在观察性数据中，哪些设计模式会导致虚假的因果效应估计？（本文回答：基于事后信息的分组与基于事后资格的筛选。） 2. 归因问题：偏倚的源头到底是"Immortal time"这段时间，还是其他机制？（本文回答：是 Selection 或 Misclassification，Immortal time 只是表象。） 3. 解决方案：如何利用现有纵向数据结构设计分析策略，以避免偏倚？（本文回答：严格遵循 Target Trial 框架的协议。）

⚠️ 作者的 framing： - 作者把缺口 frame 成：虽然 "Immortal time bias" 这一术语广为人知，但其结构性成因常被误解，导致研究者可能只关注"有没有 immortal time"而忽略了真正的源头——Selection 与 Misclassification。作者通过将问题重新 frame 为"Target Trial 的三个时间锚点是否对齐"，让自己的综述成为"纠正误解、提供实操指南"的显然下一步。 - 淡化的竞争路线：作者主要推崇设计层面的解决方案（Design-based approach），相对淡化了纯统计调整方法（如 IP weighting 或 g-estimation 在处理该偏倚时的具体技术细节，虽然 Target Trial 框架隐含了这些，但本文重心在"设计"而非"估计量"）。 - 缺失的引用：Introduction 中未引用任何关于有向无环图（DAG）的文献（如 Pearl 或 Greenland 的因果图工作）。虽然文中描述的机制完全可以用 DAG 表达（Collider stratification），但作者选择了文字描述而非图形化语言。这可能是为了让临床读者更易读，但也值得研究者去查：DAG 视角是否更清晰地揭示了 Selection 的本质？

张力：未见明显对立引用。该领域对偏倚的存在性与机制有共识，主要差异在于表述方式与解决侧重点（设计 vs. 模型调整）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据

在展开具体例子前，先立清楚本文讨论的生存分析设定：

符号与变量：
\(t = 0\)：研究时间的起点（例如：诊断日、入院日）。
\(A(t)\)：时变的治疗状态，\(A(t)=1\) 表示在 \(t\) 时刻接受了治疗，\(A(t)=0\) 表示未接受。
\(T\)：感兴趣的生存时间或随访终点。
\(D\)：死亡事件（\(D=1\) 表示死亡）。
\(L(t)\)：时变协变量（如病情严重程度）。
Immortal Time：时间区间 \([0, \tau]\)，在此期间患者必须存活才能满足某种条件（如"等到治疗"或"被纳入分析"）。
模型（数据生成机制）：真实世界中，治疗分配往往不是在 \(t=0\) 发生的，而是随着时间推移发生的。例如，患者可能在入院后几天才接受手术。真实的因果效应是：如果在 \(t=0\) 立即手术 vs. 如果在 \(t=0\) 永不手术，对生存的影响。
可观测数据：研究者拥有的是纵向观察性数据，记录了每个患者的 \(\{L(t), A(t), D(t)\}\) 序列。
关键区分：研究者想要的是"基线策略"的因果效应（\(t=0\) 决定治或不治），但观测到的是"延迟策略"的执行结果（患者可能在 \(t=5\) 才接受治疗）。

第二步：最小内核——"等待名单"偏倚

本文的核心思路可以通过一个最简特例——心脏移植研究——来完全理解。这个例子支撑了整篇论文的论证逻辑。

最简特例设定：假设我们要研究"接受心脏移植（Treatment）"对"死亡"的影响。 - 错误的设计（引入偏倚）： 1. 分组定义：研究者根据患者最终是否接受移植，将人群分为"移植组"和"非移植组"。 2. 随访起点：设为入院日（\(t=0\)）。 3. 现象：移植组患者必须在等待期内存活，直到等到心脏供体（假设在 \(t=\tau\) 进行手术）。如果患者在 \(t < \tau\) 死亡，他会被归入"非移植组"（因为他死时还没接受移植）。 4. 后果：移植组自动排除了那些"病情太重、等不到供体就死亡"的高危患者。因此，移植组在 \(t=0\) 时的风险特征实际上比非移植组更低。

在这个特例下，要证的命题退化成什么？ - 命题：上述设计会导致虚假的治疗获益估计。 - 证明直觉（为什么成立）：设 \(S(t)\) 为生存函数。 - 真实情况：移植组在 \(t < \tau\) 时并未接受治疗，其生存率应与"等待名单"组相同。 - 错误设计下：移植组在 \(t < \tau\) 的生存率被强制为 100%（因为死了就不在移植组了）。 - 偏倚来源：Selection（选择偏倚）。入选"移植组"的概率取决于存活到 \(t=\tau\) 这一未来事件。 - 同时也是 Misclassification（错分）：在 \(t=0\) 时，所有患者其实都是"未治疗"状态，但错误地将 \(t=0\) 到 \(t=\tau\) 的时间段标记为"治疗状态"。

本文的关键想法怎么破？ - Target Trial Emulation（目标试验模拟）： 1. 明确资格标准：在 \(t=0\) 时确定谁有资格接受移植。 2. 明确分配策略：定义两个策略——"在 \(t=0\) 计划接受移植" vs "在 \(t=0\) 计划不移植"。 3. 同步起点：随访起点 \(t=0\) 必须与策略分配时刻对齐。 4. 数据处理：对于实际在 \(t=\tau\) 才移植的患者，在 \([0, \tau)\) 区间内应被视为"未治疗"（即使用 time-dependent covariate 或 cloning + censoring 方法）。

结论：通过这个最小内核，作者证明了：偏倚并非来自"Immortal time"这段时间本身，而是来自用未来信息定义过去的状态。只要打破这种时间倒置，偏倚即可消除。

三、这篇论文做了什么¶

三句话： 1. 研究了观察性生存分析中 Immortal Time Bias 的结构性成因，指出其源于 Selection Bias 或 Misclassification。 2. 核心工具是 Target Trial Emulation 框架，通过严格定义资格、分配与随访起点的同步性来识别偏倚。 3. 主要结论是澄清了概念误区，并针对纵向数据提供了三种具体的分析策略。

关键设定与假设： - 设定：生存分析背景，数据为纵向观察性数据。 - 核心假设： - SUTVA（隐含）：个体间的治疗分配互不干扰（如供体分配不竞争）。 - 时间可识别性：所有用于定义资格或分组的变量在时间轴上是可追溯的。 - 相比已有文献的强化： - 本文并未提出新的统计假设，而是强化了设计层面的约束：要求研究者必须像设计 RCT 一样，明确写出 Protocol（资格标准、分配策略、随访起点）。

主要结果：本文是综述型论文，结果表现为分类框架与分析策略，而非定理。

偏倚源头的分类（核心理论贡献）：作者将 Immortal Time Bias 分解为两种机制：
- Selection Bias（选择偏倚）：当样本入选分析集的条件依赖于"存活到某时刻"时产生。例如，要求患者"存活到接受治疗"才能进入治疗组。
- 直觉：这相当于在 Collider（存活状态）上进行了条件化，打开了后门路径。
- Misclassification（错分）：当治疗状态在随访起点尚未确定，却被错误地回溯标记为"已治疗"时产生。
- 直觉：这相当于将"未治疗"时间段的人为归入了"治疗"组，稀释了治疗组的基线风险。
纵向数据的分析策略（核心方法贡献）：当拥有纵向数据时，作者总结了三种避免偏倚的策略：
- 策略 A：Time-Dependent Analysis（时依性分析）。将治疗作为时变协变量放入 Cox 模型。在 \(t\) 时刻未治疗的人，其贡献的时间段归入"未治疗"风险集；一旦接受治疗，后续时间归入"治疗"风险集。
- 解决了什么：消除了 Misclassification，因为不再强行回溯标记治疗状态。
- 局限：如果存在时变混杂，标准 Cox 模型仍可能有偏。
- 策略 B：Cloning & Censoring（克隆与删失）。为每个符合资格的患者创建两个克隆副本，一个分配到"治疗策略"，一个分配到"对照策略"。在随访过程中，一旦患者偏离分配的策略（如治疗组克隆未接受治疗，或对照组克隆接受了治疗），则对其进行删失。
- 解决了什么：完美模拟了 Target Trial 的"意向性分析（ITT）"。
- 技术难点：删失引入了选择偏倚，需要使用 IP Weighting（逆概率加权）来校正。
- 策略 C：Baseline Analysis（基线分析）。仅使用基线信息，将治疗定义为"基线时是否已接受治疗"。这避免了 Immortal Time，但丢弃了大量数据，且改变了因果问题的定义（从"是否治疗"变成了"基线时是否已治疗"）。

证明路线与技术技巧：本文无数学证明，但论证逻辑严密： - 整体路线： 1. 定义 Target Trial 的三个核心要素（Eligibility, Assignment, Follow-up）。 2. 展示当这三者在时间上错位时，如何产生 Immortal Time。 3. 通过具体案例（如激素治疗、心脏移植），画出时间轴图示，直观展示偏倚的产生过程。 4. 对比错误设计与正确设计，展示如何通过策略 A/B/C 消除偏倚。 - 关键跳跃点： - 将直观的"Immortal time"概念，精确映射到因果推断中的"Selection"与"Misclassification"机制。这一步是概念澄清的核心。 - 引入 Cloning & Censoring 方法，这是连接观察性数据与 Target Trial 的关键技术桥梁。它允许研究者在"事后诸葛亮"的数据结构上，重建"事前分配"的假想结构。

真实例子与应用： - 例子 1：心脏移植研究。 - 数据/场景：经典的心脏移植生存分析。 - 错误做法：按最终是否移植分组，随访起点设为入院。 - 结果：移植组显示出虚假的生存获益。 - 正确做法：使用 Time-dependent analysis 或 Cloning 方法。 - 说明什么：验证了 Selection Bias 机制。

例子 2：激素替代疗法（HRT）。
数据/场景：观察性研究曾显示 HRT 降低心血管风险，与 RCT 结果矛盾。
错误做法：要求女性在随访开始后一段时间内持续用药才能进入治疗组，引入 Immortal Time。
结果：观察性研究高估了 HRT 的获益。
说明什么：展示了 Misclassification 机制（用药前的健康时间被算作用药时间）。

🔎 结论是否比证明窄：本文为综述，结论基于已有文献的逻辑推演，未发现过度宣称。作者明确指出 Target Trial Emulation 并不能解决所有问题（如未测量的混杂），结论严谨。

四、开放问题¶

本文作为方法学综述，主要解决的是"识别与避免已知偏倚"的问题。它留下的开放问题或延伸方向包括：

时变混杂的处理：文中提到的 Cloning & Censoring 策略需要配合 IP Weighting 来校正删失引入的偏倚。若存在大量时变混杂，IP Weighting 的方差会很大，且对模型设定敏感。是否有更稳健的估计方法？（扎根点：文中提到 IP Weighting 时的局限性讨论。）
Target Trial 的统计效率：Cloning 方法虽然消除了偏倚，但人为制造了删失，可能损失统计效率。在有限样本下，如何权衡偏倚与方差？（扎根点：策略 B 的讨论。）
阴性对照与敏感性分析：当 Target Trial 的某些协议要素（如依从性）无法完美模拟时，如何设计敏感性分析来量化残余偏倚？（扎根点：文末关于"Unmeasured confounding"的提及。）

提醒：要确认上述问题是否为真 gap，建议检索 2016 年后 Hernán 团队关于 Target Trial Emulation 的实证论文，以及关于 Longitudinal Treatment Strategies 的最新方法学文献（如 g-methods 的进展）。

Maintained by 陈星宇 · Homepage · Source on GitHub

A Structural Description of Biases That Generate Immortal Time¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论