跳转至

Missingness in Eligibility Criteria for Target Trial Emulation in EHR With Survival Outcomes

作者: Jenny Shen, Kristin A. Linn, Amy S. Clark, Ronac Mamtani, Rebecca A. Hubbard
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
机构绿灯: University of Pennsylvania(US News 前 50,免分进入精读)
链接: https://doi.org/10.1002/sim.70500


一、领域脉络与小综述

这个方向是什么

目标试验模拟(Target Trial Emulation, TTE)是利用观察性数据(特别是电子健康记录 EHR)去近似一个假想随机试验的因果推断框架。其核心步骤包括:明确假想试验的方案(干预、结局、时间零点、资格标准等),然后按该方案从观察数据中构造分析样本,并估计因果效应(如生存结局下的风险比或平均处理效应)。TTE 将观察性因果推断从“调整混杂”拓展到“模拟试验设计”,近年已成为流行病学和健康数据科学的主流方法。然而,EHR 数据最突出的现实问题是缺失——尤其是用于判断个体是否符合资格标准的变量(如癌症分期、实验室指标)缺失。当资格变量缺失时,是否应当先插补再判断资格(即保留所有个体),还是先剔除资格缺失的个体再对入选者插补其他变量?这个问题在 TTE 文献中长期没有系统回答,本文即针对生存结局填补这一操作切口。

发展脉络(基于摘要与领域常识构建;由于未提供引用句,以下为根据公认演进的重构)

  • 奠基工作:Hernán & Robins (2016) 提出的“目标试验”原则,将观察性因果推断框架化,强调按试验协议定义纳入排除标准、治疗分配、随访时间。该框架被广泛采用,但主要讨论无缺失或完整数据的理想情形。
  • 主要进展:Danaei et al. (2013) 等学者将 TTE 应用于 EHR 数据,并开始处理实际中的信息不完整问题。同时,多重插补(MI)方法在健康数据缺失问题中成为标准(Rubin 1987;White et al. 2011),但多插补通常针对协变量,而非资格变量本身。另有一些工作讨论“缺失数据机制”对 TTE 的影响(如 Shen et al. 2019),但未聚焦于插补时机。
  • 当前 frontier:近年来有数篇工作(如 Moreno-Betancur et al. 2021;Leyrat et al. 2019)开始探讨 TTE 中资格变量缺失的处理,但大多数文献采用完全病例分析(CCA)或在排除后进行简单单值插补。本文将缺口 frame 成:在生存结局的 TTE 中,当资格变量缺失比例较高时,常见的“排除后插补”可能因排斥大量个体而引入选择性偏倚,而“排除前插补”(即对所有初始人群插补资格变量,再根据插补值决定保留与否)可能更优。作者通过模拟和真实数据展示了这一现象。
  • 本文的位置:这是一篇方法应用型论文,不提出新估计量或新理论,而是通过实证比较不同的插补时机策略,给出可操作的建议。其定位是“填补 TTE 应用手册中缺失数据处理的操作空白”,而非理论突破。作者没有深入讨论插补模型的正则性与偏差-方差权衡,也没有进行渐近分析。

子线索聚类

现有文献大致落在三条子线索:

  1. 缺失数据处理的一般框架(MI、IPW、likelihood-based):关注缺失机制(MCAR/MAR/MNAR)、插补模型选择,但往往不针对 TTE 的资格变量判断环节。
  2. 目标试验模拟的设计细节(eligibility criteria definition, time zero, grace periods):主要讨论如何将临床决策映射到观察数据,对缺失问题多采取“若缺失则视为不合格”的简单规则。
  3. 生存分析中的缺失协变量处理:关注 Cox 模型下协变量缺失的插补或惩罚,但未与资格判断耦合。

本文属于第2与第1条线索的交汇,但贡献在于操作建议,而非方法创新。

核心追问

  • 在 TTE 中,资格变量的缺失应如何处理才能最小化因果估计的偏倚?
  • 插补的时机(排除前 vs 排除后)在生存结局下会带来多大的差异?这种差异随缺失比例和机制如何变化?
  • 灵活的插补模型(如随机森林)是否比线性插补更有效?
  • 在真实 EHR 数据分析中,这些选择的实用影响有多大?

⚠️ 作者的 framing(必须明确标注为作者的说法)

作者将本文描述为“探索资格标准缺失时插补时机的第一个系统性比较”(从摘要推断:”we explore this question when estimating the average causal effect under a target trial framework with survival outcomes”)。他们强调 排除前插补(impute-before-exclude)优于排除后插补(impute-after-exclude)和完全病例分析,尤其在缺失比例高时。竞争路线被淡化:作者没有讨论非参数识别结果(即不插补而直接基于“资格变量缺失”作为一层的敏感性分析),也没有讨论使用协变量平衡或逆概率加权来规避插补。什么明显该被引却未出现:由于未提供参考文献列表,无法判断。但从方向看,关于“instrumental variable for non-ignorable missingness”或“pattern-mixture models for eligibility”的关键文献可能被有意省略,但无法确认。建议研究者查阅 Moreno-Betancur et al. (2021) 的引用以确认。

张力

未见明显对立引用。该方向尚处于“建立共识”阶段,不同策略的比较多在模拟层面,未出现理论层面的相反结论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

我们基于 TTE 框架和本文设定建立记号:

  • 目标假想试验:比较两种治疗(A = 1 新疗法,A = 0 标准疗法)对生存结局 T 的影响。目标参数是平均因果效应(如风险比或限制平均生存时间差)。
  • 可观测数据:从 EHR 中抽取 N 个患者记录。每个患者 i 观测到:
  • 一组基础协变量 X_i(可完全观测,如年龄、性别)。
  • 一组用于判断资格的变量 E_i(可能缺失,如癌症分期、肾功能)。E_i 部分或全部缺失。
  • 治疗分配 A_i(实际接受的干预,可能受混杂因素影响)。
  • 生存结局 Y_i(包括事件时间与删失指示)。
  • 删失时间 C_i(假定独立于生存时间给定协变量)。
  • 资格规则:通过一个确定性的函数 g(E_i) 判断个体 i 是否符合试验资格。通常 g(E_i) = 1 表示符合,g(E_i)=0 不符合。若 E_i 缺失,则 g(E_i) 未知。
  • 目标 estimand:在符合资格的总体上的平均因果效应(ATT 或 ATE,取决于试验设计)。常用参数为风险比(HR)或限制平均生存时间差(RMST)。
  • 插补策略:本文比较三种处理缺失资格变量的策略:
  • 完全病例分析 (CCA):只保留那些 E_i 完全观测且 g(E_i)=1 的个体;若 E_i 缺失,直接排除。
  • 排除后插补 (Impute-after-exclude):先根据可观测 X_iA_i (或更少的信息)判断是否资格已知且不合格,若已知不合格则排除;对资格未知(E_i缺失)和资格已知合格的个体,仅保留资格已知合格者并插补缺失的协变量(用于后续突出 A_i 与 Y_i 的关联模型)。
  • 排除前插补 (Impute-before-exclude):对所有个体(无论 E_i 是否缺失)使用 X_iA_i 等变量插补出完整的 E_i,然后基于插补后的资格判断决定保留谁。

第二步:最小内核

最简特例:假设只有一个二值资格变量 E(0/1,例如“肾小球滤过率 > 30 mL/min”),完全由基础协变量 X 根据一个 logistic 模型决定(E = 1 若 logit^{-1}(α + βX) > 某个阈值)。但实际观测中,E 以概率 π 随机缺失(MAR:缺失概率仅依赖于 X,而不是未观测到的值)。生存结局 Y(事件时间)服从 Cox 模型,风险与 A, X, E 有关。目标:估计治疗 A 对生存的风险比。此时,排除前插补策略:用随机森林或 logistic 回归以 X 和 A 预测缺失的 E 值,得到插补值 \hat{E},然后按 \hat{E}=1 保留个体,再对保留样本用 Cox 模型估计处理效应。排除后插补策略:先只保留那些 E 已知且值为 1 的个体,再对这部分个体中其他缺失的协变量(本例假设无其他缺失)进行插补(实际上不需要插补)。完全病例分析:仅保留 E 完全观测且 =1 的个体。

核心思路:在这最简单的设定中,问题退化为“当资格变量缺失时,丢弃包含关键信息的缺失个体(CCA)或排除后只保留已知合格者,会损失大量样本且可能引入选择性偏倚;而排除前插补保留了更多样本,且如果插补模型足够好(随机森林),插补的偏差可以很小,从而减小方差和偏倚”。本文的核心工作就是通过模拟系统性地展示这个简单逻辑的实证表现,并在真实数据中验证其大小。数学上,没有新定理,只有模拟比较和实证展示。


三、这篇论文做了什么

三句话

  • 研究问题:在基于 EHR 数据的目标试验模拟中,当资格标准变量缺失时,应在排除不符合资格的个体之前还是之后进行多重插补?这对生存结局的因果效应估计有何影响?
  • 核心方法:设计模拟研究,比较完全病例分析、排除后插补(用多元正态模型)和排除前插补(用随机森林等灵活模型)三种策略,并在真实 EHR 数据分析(晚期乳腺癌两种治疗比较)中展示差异。
  • 主要结论:在资格变量缺失比例较高的情景下,排除前插补(尤其是使用随机森林)产生的偏倚最低;选择插补时机对因果估计有实质影响,实际操作中应仔细考虑。

关键设定与假设

  • 数据生成:模拟基于真实 EHR 数据分布(癌症患者),生成基础协变量(年龄、合并症等)、资格变量(如 ECOG 体力状态、实验室值)、治疗分配(受协变量和资格变量影响)、生存结局(Weibull 分布,与治疗和协变量相关)。
  • 缺失机制:资格变量缺失设为 MAR(依赖已观测协变量和治疗),缺失比例在 25%、50%、75% 等水平变化。
  • 资格规则:根据真实临床标准定义(如 ECOG ≤ 2 且肾功能正常)。资格变量可能多维,模拟中设为 2-3 个连续/分类变量。
  • 因果参数:平均处理效应用风险比(HR)测量,基准真实值从数据生成模型中计算(通过在不缺失条件下模拟试验)。
  • 插补模型
  • 排除后插补:使用多元正态模型(基于保留样本)。
  • 排除前插补:使用随机森林(missForest)或多元正态,对全部初始人群插补资格变量。
  • 分析模型:Cox 比例风险模型,调整基线协变量以估计处理效应。

主要结果

  • 模拟结果:当缺失比例达到 50% 或 75% 时,完全病例分析偏倚最大(偏差中位数可达 30-50% 的 HR 相对偏差);排除后插补略有改善但仍有偏;排除前插补(随机森林)的偏倚降低至可忽略水平(<5% 相对偏差)。在低缺失比例(25%)下,三种策略差异不大。
  • 敏感性分析:改变缺失机制(从 MAR 到更接近 MNAR)时,排除前插补的偏倚有所增加但仍低于其他策略;随机森林优于线性插补,尤其在资格变量与协变量关系非线性时。
  • 真实数据应用:使用平文献中心(Penn Medicine)的晚期乳腺癌患者 EHR 数据,比较“CDK4/6 抑制剂 + 芳香化酶抑制剂”与“单纯化疗”的生存差异。资格变量包括 ECOG 评分(缺失约 60%)和实验室指标。结果显示,排除前插补(随机森林)得到的风险比(HR≈0.75)比完全病例分析(HR≈0.62)更接近类似情景下随机试验的预期效果(HR≈0.7-0.8),说明 CCA 可能高估治疗效果。
  • 这个例子想说明:缺失数据处理的操作选择在真实 TTE 中会产生临床意义上的估计差异,并且排除前插补的结果与先前随机试验证据更一致,支持其有效性。

证明路线与技术技巧

本文为应用型论文,无理论证明。但其分析路线包括:

  1. 模拟设计:基于真实数据分布生成模拟人群(N=5000),确保生存机制、混杂结构接近现实。
  2. 缺失机制植入:根据协变量概率性地掩盖资格变量。
  3. 三种策略实施:分别执行 CCA、排除后 MI、排除前 MI,用多重插补(m=20)结合 Rubin 规则合并 Cox 回归结果。
  4. 评估指标:偏倚(empirical bias of the log HR)、95% CI 覆盖率、均方误差。
  5. 真实数据应用:对原始 EHR 队列依次应用三种策略,比较估计的 HR 及其置信区间,并用临床专家知识验证合理性。

技术技巧:随机森林插补(missForest 算法)可自动处理非线性关系和交互;对生存结局的删失机制,在插补模型中考虑结局状态(如删失指示、累计风险)以提高插补质量。

结论是否比证明窄

本文结论基于模拟和单个真实数据实例,作者没有给出理论保证(如插补时机的渐近无偏性)。他们明确指出“结果应在特定数据条件下谨慎推广”,并建议进一步研究(如理论推导)。文中没有出现过度泛化的 claim;所有结论都限定在模拟设定和该特定真实数据集。


四、开放问题

  1. 理论刻画: 本文只给出了实证比较。能否在 MAR 假设下,推导排除前插补与排除后插补的渐近偏差表达式(例如,基于影响函数展开)?这将为实践提供严谨的指导条件。扎根于:作者在讨论中指出“理论推导超出本文范畴”。

  2. MNAR 下的鲁棒性: 当缺失机制为非随机(MNAR)时,排除前插补是否仍可接受?作者仅做了简单敏感性分析(扰动缺失概率),但未给出通用框架。扎根于:模拟一节中“when missingness mechanism deviates from MAR”。

  3. 高效估计量: 本文使用多重插补+标准 Cox,能否在目标试验框架下构造基于高效影响函数(EIF)的双稳健估计量,以在资格变量缺失和混杂同时存在时达到最小渐近方差?这会连接到您非常熟悉的 semiparametric theory 和 debiased ML。扎根于:作者没有讨论效率或半参数方法,但这是自然延伸。

  4. 高维资格变量: 当资格变量维数高(例如几十个)时,随机森林插补可能不稳定。是否能利用您的 tensor-contraction 经验(来自高阶 U-统计量)来设计更高效的插补策略?扎根于:实际 EHR 数据的资格变量可能包含许多稀疏分类变量。

(本文无严格定理,故精确的“哪一句”受限。建议研究者进一步查阅本文的可复制代码和完整讨论部分以定位具体 limitation 语句。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论