Evaluation of potential approaches for counting person-time in instances where no active comparator is present¶

作者: Katherine Giorgio, Pamela L Lutsey, Wendy Wang, Rob Walker, Faye L Norby et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: University of Minnesota（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf266

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在缺乏"活性对照"的观察性研究中，如何为"未处理/未治疗"组指定一个合理的随访起点（索引日期），从而使得目标试验框架得以应用。在经典的目标试验模拟中，研究者需要比较"接受治疗 A"与"接受治疗 B"（或"不接受治疗"）两组人群从同一时刻开始随访的结果。当存在活性对照（如药物 B）时，药物 B 的处方日期自然地定义了对照组的索引日期。然而，当研究问题涉及"接受治疗 vs. 不治疗"且数据库中不存在"不治疗"的处方记录时，对照组的索引日期变得不可观测，这导致无法定义随访起点、无法计算人时，进而无法估计因果效应。这是一个在药物流行病学中极为常见但方法论研究相对匮乏的设计难题。当前成熟度：实践驱动型——问题源于真实数据库分析的迫切需求，现有解决方案多为经验性尝试，缺乏系统的理论评估与比较。

发展脉络：

奠基工作：目标试验框架的引入与标准化
- Hernán & Robins (2016) 提出了目标试验框架，将因果推断问题明确为"模拟一个假想的随机对照试验"。这一工作奠定了整个领域的基石：它规定了清晰的对照、明确的随访起点与终点。然而，该框架隐含地假设了对照组同样存在可观测的"治疗起始时刻"（索引日期），对于"不治疗"组如何定义索引日期，经典框架并未给出明确答案。
主要进展：活性对照设定下的成熟应用
- 随后的大量文献（如 Hernán et al. 2016 在心血管疾病研究中的应用）集中在"新药 vs. 旧药"的活性对照比较上。在这一设定下，索引日期由处方记录自然决定，方法论相对成熟。作者在引言中明确指出，这一设定下的因果推断已经形成了一套标准化的分析流程。
当前 Frontier：无活性对照时的索引日期缺失问题
- 当研究问题变为"用药 vs. 不用药"时，"不治疗"组在数据库中没有处方记录，因此没有自然的索引日期。作者指出，这是一个被长期忽视但极具挑战性的缺口。
- 既往尝试与局限：作者引用了 Liu et al. (2012)，该工作尝试通过匹配方法为未治疗者指定索引日期，但作者指出这种方法可能引入严重的选择偏倚，且缺乏系统的评估。此外，Schneeweiss et al. (2010) 讨论了药物流行病学中的设计问题，但未专门针对"无索引日期"这一结构性缺失提出解决方案。作者强调，现有文献中虽然零星存在一些处理策略（如使用历史数据的均值或预测模型），但"没有一项研究对这些方法在多大程度上能够还原真实因果效应进行过系统的数值实验评估"（引用句意译）。
本文的位置：
- 本文是首个系统评估多种"替代索引日期"策略的数值实验研究。它不提出单一新方法，而是将现有实践中可能采用的策略（Rejection Sampling、中位数、预测模型、匹配）置于同一框架下，利用一个已知"真实答案"的设定（SGLT2i vs. 磺脲类，已知 HR 约为 0.69）作为基准，检验这些策略能否还原这一效应。

子线索聚类：

目标试验模拟：这是本文的顶层框架。核心思想是将观察性数据分析视为对假想 RCT 的模拟，强调明确的资格标准、治疗分配与随访起点。本文完全遵循这一范式，只是在"对照组随访起点"这一环节遇到了结构性缺失。
索引日期指定策略：这是本文的核心技术线索。涉及如何利用已有信息（基线特征、历史就诊记录）为没有事件发生的个体"伪造"一个随访起点。具体包括：
- 基于分布的方法：如指定所有对照组为同一固定日期或样本中位数日期。
- 基于个体预测的方法：如利用基线特征预测其可能发生治疗的时间。
- 基于抽样/匹配的方法：如 Rejection Sampling 或从处理组"借"索引日期。
药物流行病学中的偏倚评估：利用"阴性对照"或"已知效应"设定来校准方法。本文采用的正是这一思路：选择一个已有大量 RCT 证据的药物比较（SGLT2i vs. 磺脲类），将其作为"基准真值"，以此判断各种索引日期策略的偏差。

这个方向在追问的核心问题： 1. 识别问题：在缺乏活性对照时，因果效应是否仍可识别？如果可识别，需要什么样的假设（如条件可交换性、无未测量的时变混杂）？ 2. 设计问题：在众多可能的"替代索引日期"策略中，哪一种引入的偏倚最小？是否存在一种"足够好"的通用策略？ 3. 敏感性分析：当索引日期无法准确观测时，如何量化由此引入的不确定性？

⚠️ 作者的 framing：作者将缺口 frame 为一个实证设计问题而非纯理论识别问题。他们强调"在缺乏活性对照时，研究者往往被迫采用某种策略，但这些策略的性能未知"。这种 framing 让本文的"数值实验评估"成为显然的下一步。 被淡化或回避的路线： * 作者未深入讨论G-formula 或 Marginal Structural Models 等纯理论方法是否可以绕过"索引日期"问题。在经典因果推断中，如果模型正确，理论上可以不依赖"随访起点对齐"这一设计手段。作者将焦点锁定在"目标试验模拟"这一特定设计框架内，可能回避了更复杂的纵向因果推断模型（需处理时变混杂）的讨论。 * 缺失的引用：引言中未引用关于Left Truncation（左截断）或Immortal Time Bias的经典统计学文献。实际上，"索引日期指定不当"本质上会导致 Immortal Time Bias。虽然作者在正文中提到了这一偏倚，但引言部分对这一经典统计概念的溯源略显不足。

张力：未见明显对立引用。各被引工作更多是在不同侧面补充问题背景，而非提出竞争性理论。这表明该方向尚处于"问题定义与初步探索"阶段，而非"范式竞争"阶段。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号与潜在结果：
- \(Z_i \in \{0, 1\}\)：处理变量。\(Z_i = 1\) 表示接受 SGLT2i（处理组），\(Z_i = 0\) 表示接受磺脲类（在本文设计中作为"伪未治疗组"）。
- \(T_i^{true}\)：真实的治疗起始时间（索引日期）。对于 \(Z_i=1\)，这是可观测的处方日期；对于 \(Z_i=0\)，在一般设定下这是不可观测的（因为"不治疗"没有处方），但在本文的数值实验设定中，\(Z_i=0\) 组实际上服用了磺脲类，因此作者知道其真实索引日期，并将其隐藏以测试各种方法。
- \(Y_i(t)\)：\(t\) 时刻的潜在结果（如是否发生心血管事件）。
- \(X_i\)：基线协变量向量（年龄、性别、并发症史等）。
- \(C_i\)：删失时间（如保险失效）。
模型（数据生成机制）：
- 本文基于 MarketScan 数据库，选取了 73,070 名 2 型糖尿病患者。
- 真实世界设定：患者先服用二甲双胍，随后二线治疗分为两组：SGLT2i 组（处理）和磺脲类组（对照）。
- 因果效应：目标是估计 SGLT2i 相比磺脲类对心血管疾病的风险比（HR）。根据已有 RCT 证据，真实 HR 约为 0.69。
可观测数据：
- 处理组：观测到 \(\{X_i, T_i^{true}, Y_i(t), C_i\}\)。索引日期明确为 SGLT2i 处方日期。
- 对照组（在一般问题设定下）：若研究"用药 vs. 不用药"，对照组无处方记录，我们观测到 \(\{X_i, Y_i(t), C_i\}\)，但缺失 \(T_i^{true}\)。无法定义随访起点，无法计算人时。
- 对照组（在本文实验设定下）：作者将磺脲类组"伪装"成未治疗组。他们假装不知道磺脲类的处方日期，尝试用各种方法去"猜"一个替代索引日期 \(\hat{T}_i\)。随后，用 \(\hat{T}_i\) 计算出的 HR 与真实 HR（0.69）比较，看哪种方法偏差最小。

第二步：最小内核

这篇论文的核心数学困难不是复杂的证明，而是如何在一个缺失关键变量（索引日期）的结构下，重构一个使得因果比较有意义的时间原点。

最简特例：Rejection Sampling（拒绝采样法） 这是本文表现最好的方法，也是理解全文逻辑的最小内核。
- 问题：对照组没有索引日期，如何计算人时？
- 直觉：如果对照组患者的基线特征 \(X\) 分布与处理组相似，那么他们的"风险起始时间"分布可能也相似。我们可以从处理组的索引日期分布中"借"一个日期给对照组。
- 具体做法：
  1. 设处理组的索引日期分布为 \(F_1(t)\)（由数据可观测）。
  2. 对于对照组中的每一个个体 \(j\)，我们想赋予它一个索引日期 \(T_j\)。
  3. 拒绝采样机制：
    - 从处理组中随机抽取一个索引日期候选值 \(t^*\)。
    - 计算该候选日期被接受的概率。这个概率取决于对照组个体 \(j\) 的基线特征 \(X_j\) 与处理组在该时间点 \(t^*\) 的特征分布是否匹配。
    - 如果接受，则 \(T_j = t^*\)；否则重新抽取。
  4. 更具体的实现（文中变体）：文中实际做法是，基于基线特征 \(X\) 构建一个倾向性得分模型或类似模型，预测个体在某个时间点开始治疗的可能性。通过拒绝采样，使得对照组被赋予的索引日期分布及其与 \(X\) 的关联，尽可能模仿处理组的观测分布。
- 为什么这个方法有效（在数学直觉上）：目标试验框架要求"可比性"。如果通过拒绝采样，我们强制对照组的索引日期分布与处理组一致（或者在给定 \(X\) 下一致），那么我们就人为构造了一个"伪随机化"的时间起点。这相当于在时间维度上进行了某种形式的匹配或加权，使得两组的随访起点不再是一个随意定义的变量，而是一个受控的设计变量。
- 其他方法的失败内核：
  - 中位数法：给所有对照组赋予同一个中位数日期。这忽略了个体异质性。如果早期治疗的患者病情更重，那么中位数法会错误地让所有对照组都在"中间时刻"开始随访，导致时间依赖性混杂无法被控制。
  - 预测模型法：用 \(X\) 预测索引日期。这看似合理，但问题在于：处理组的索引日期分布是选择性的（只有被医生开了药的人才会有索引日期）。对照组（未治疗）如果被预测了一个日期，这个日期是基于"治疗人群"的模型预测的，可能不适用于"未治疗人群"，导致外推偏差。

三、这篇论文做了什么¶

三句话： ① 研究了在药物流行病学目标试验模拟中，当缺乏活性对照导致对照组索引日期缺失时，如何通过替代方法指定索引日期以减少偏倚的问题。 ② 核心方法是利用一个已知因果效应的设定（SGLT2i vs. 磺脲类，HR=0.69），将磺脲类组伪装成"未治疗组"，通过数值实验比较了六种索引日期指定策略。 ③ 主要结论是，只有基于拒绝采样的策略能够较好地还原真实效应（HR 0.61-0.63），而简单的中位数、预测模型或匹配算法均导致严重偏倚（HR 接近 1.0 或更高）。

关键设定与假设：

目标试验模拟设定：
- 明确定义了资格标准、治疗策略、随访起点、终点和因果效应。
- 核心假设：假设在给定基线协变量 \(X\) 下，治疗分配与潜在结果独立。这是标准的无混杂假设。
"伪未治疗"设定：
- 这是本文最巧妙的设计。作者选取了一个已有大量 RCT 证据的药物对（SGLT2i vs. 磺脲类）。真实世界中，磺脲类组有明确的处方日期。
- 作者将磺脲类组视为"未治疗组"，并故意隐藏其真实处方日期。
- 目的：创造一个"索引日期缺失"的场景，同时拥有"真实答案"（RCT 的 HR=0.69）作为校准基准。
六种替代策略：
- Rejection Sampling (两种变体)：基于倾向性得分或协变量分布，从处理组的索引日期分布中抽样。
- Median (两种变体)：指定样本中位数日期或个体入组时间中位数。
- Prediction Model：利用处理组数据建立 \(T \sim X\) 模型，预测对照组索引日期。
- Matching Algorithm：基于协变量匹配，将处理组的索引日期直接赋给匹配的对照组。

主要结果：

基准效应：参考值为 HR = 0.69（SGLT2i 相比磺脲类降低 31% 心血管风险）。
各方法表现：
- Rejection Sampling：HR = 0.61 和 0.63。最接近 0.69，置信区间覆盖参考值。表明该方法引入的偏倚最小。
- Median：HR = 1.10 和 1.15。严重高估风险，甚至得出相反结论（SGLT2i 更危险）。原因：人为制造了 Immortal Time Bias（不恰当的随访起点导致部分"安全时间"被错误归因）。
- Prediction Model：HR = 0.96。几乎完全抹去了真实效应。原因：预测模型将"治疗时间"作为一个可预测的函数，忽略了治疗决策中的随机性及不可观测因素，导致两组在时间维度上不可比。
- Matching：HR = 1.07。同样表现不佳。
统计含义：拒绝采样之所以有效，是因为它在重构索引日期时，保留了处理组索引日期分布的随机性与协变量关联结构，从而最大程度地维持了目标试验框架所需的"可比性"。

证明路线与技术技巧（理论型必写，要具体）：本文为应用/方法评估型论文，无纯数学证明。但其数值实验设计体现了严谨的统计逻辑：

构造"已知答案"的测试环境：
- 利用外部知识（RCT 证据）作为 Ground Truth。这比单纯的模拟数据更有说服力，因为数据结构来自真实世界，保留了复杂的依赖关系。
分离设计因素：
- 唯一变化的变量是"索引日期指定方法"。其他所有分析流程（Cox 模型、协变量调整、随访定义）完全一致。这实现了对单一设计因素的"控制实验"。
偏倚的量化：
- 不比较 P 值，而是比较点估计值与参考值的距离。这是正确的，因为在有偏设计下，样本量越大，P 值越显著，但结论越错误。关注点估计的偏差是因果推断评估的核心。

真实例子与应用：

数据：MarketScan 商业数据库（2013-2019），73,070 名 2 型糖尿病患者。
场景：二线治疗（二甲双胍后），SGLT2i vs. 磺脲类对心血管疾病的影响。
应用细节：
- 作者首先展示了原始数据的基线不平衡（SGLT2i 组更年轻、并发症更少）。
- 在应用各种索引日期策略后，作者展示了生存曲线。Rejection Sampling 得到的生存曲线与原始磺脲类组的真实曲线形状最接近；而 Median 等方法得到的生存曲线形状发生畸变，显示出错误的生存优势或劣势。
想说明什么：
- 说明在无活性对照时，随意指定索引日期（如用中位数）是极度危险的，会导致完全错误的结论。
- Rejection Sampling 是一个潜在的稳健解，值得在类似研究中推荐。它提供了一种在数据缺失时"重构"合理对照结构的途径。

🔎 结论是否比证明窄：本文结论基于单一数据集和特定药物对。虽然逻辑上该结论应具有普适性，但作者明确指出，不同疾病、不同药物的治疗决策机制不同，Rejection Sampling 的表现可能依赖于"处理组索引日期分布是否可迁移至对照组"这一隐含假设。如果对照组（未治疗）的潜在治疗时间分布与处理组有本质差异（如病情轻重分布不同），Rejection Sampling 可能也会失效。作者未对此进行敏感性分析，这是结论的一个边界。

四、开放问题（点到为止，扎根具体语句）¶

理论识别条件：在什么严格的因果假设下，Rejection Sampling 能够给出无偏估计？作者未给出数学证明。扎根点：第三节结果部分，作者仅展示了数值表现，未涉及识别理论。问题：能否证明在给定 \(X\) 下，若处理时间与结果满足某种可忽略性，则 Rejection Sampling 估计量一致？
敏感性分析框架：当 Rejection Sampling 的核心假设（处理组时间分布可迁移）不成立时，如何量化偏倚？扎根点：讨论部分提到"Extreme care should be taken"，但未提供具体的敏感性分析工具。问题：开发一个针对索引日期缺失的敏感性分析参数。
外部有效性：本文基于磺脲类作为"伪对照"，如果真实的"未治疗"组与任何治疗组都不可比（如健康人群不就医），Rejection Sampling 是否依然有效？扎根点：引言提到"no active comparator is present"，但实验设计仍使用了"活性对照"（磺脲类）来模拟。问题：在完全没有药物暴露记录的纯未治疗人群中，如何验证方法的有效性？
计算效率与实现：Rejection Sampling 在大规模数据上的计算成本如何？扎根点：方法部分未讨论计算复杂度。问题：当样本量极大或协变量维度极高时，采样效率是否会急剧下降？是否需要结合高维统计方法优化采样过程？

Maintained by 陈星宇 · Homepage · Source on GitHub

Evaluation of potential approaches for counting person-time in instances where no active comparator is present¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论