A doubly robust framework for addressing outcome-dependent selection bias in multi-cohort EHR studies¶

作者: Ritoban Kundu, Xu Shi, Michael Kleinsasser, Lars G Fritsche, Maxwell Salvatore et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biostatistics/kxag001

一、核心问题与贡献¶

①研究了多队列电子健康记录（EHR）非概率样本中，由于结果依赖的选择偏差导致的关联参数估计失真问题。②提出了联合增强逆概率加权（JAIPW）估计量，通过引入辅助得分模型整合多队列个体数据与外部概率样本。③证明了 JAIPW 在选择模型或结果模型任一正确指定时具备双重稳健性，且在选择模型错定下相对偏差和 RMSE 显著低于传统联合 IPW 方法。

二、基础设定¶

核心概念与符号：
$Y$: 结果变量（如疾病状态），$X$: 暴露/协变量。
$S_k$: 选择指示变量（$S_k=1$ 表示进入第 $k$ 个队列/中心），$K$ 为队列总数。
$\pi_k(X, Y) = P(S_k=1|X, Y)$: 选择概率，允许其依赖结果 $Y$。
$\mu = E[g(X, Y)]$: 目标关联参数（如回归系数、风险差）。
Auxiliary score model: 辅助得分模型，利用外部概率样本信息构建，用于修正选择概率模型错定带来的偏差。
关键假设：
Outcome-dependent selection: $P(S_k=1|X,Y)$ 依赖 $Y$。含义：选择机制直接受疾病状态影响（如患病者更易入组）。相比传统仅依赖协变量的缺失机制假设，更贴合 EHR 就诊行为现实。
Double robustness condition: 选择模型 $\pi_k(X,Y)$ 或结果模型 $E[g(X,Y)|X]$ 至少一个正确指定。含义：提供抗模型错定的稳健性，放宽了传统 IPW 必须精准指定选择模型的要求。
Data integration assumption: 外部概率样本与 EHR 样本共享相同的底层总体分布，且外部样本为无偏的概率样本。含义：允许利用外部数据校准内部非概率样本的分布偏移。
问题背景：传统 IPW 在多队列且选择机制异质时极易错定，导致严重偏差。与最相关文献的区别：相比单一队列的 AIPW (Robins et al.)，本文处理多队列异质选择机制；相比仅利用外部汇总数据的校准方法，本文通过辅助得分模型整合外部概率样本的个体数据实现双重稳健。

三、主要定理 / 核心结果¶

核心发现的量化描述：
JAIPW 估计量具备 $\sqrt{n}$-相合性与渐近正态性。
模拟中，在选择模型错定下，JAIPW 相较最优联合 IPW 方法的相对偏差降低最高 6 倍，RMSE 降低最高 5 倍。
实证：MGI 数据中癌症-性别关联估计与国家基准对齐；癌症-PRS 关联（外部样本无 PRS 变量）展示了方法在协变量不完全重叠时的适用性。
与 baseline 的对比：对比了 Naive (完全忽略选择偏差)、IPW (仅依赖选择模型)、Joint IPW (联合多队列 IPW)、传统 AIPW。JAIPW 在选择模型错定下全面胜出，在两者均对时效率与最优方法相当。
结论的稳健性：双重稳健性在理论上保证了一致性；模拟通过改变选择模型与结果模型的错定程度验证了 DR 性质；实证通过国家基准数据验证了估计的准确性。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
识别：利用外部概率样本的无偏性，将目标参数 $\mu$ 的估计转化为对 $E[g(X,Y) \cdot w(S, X, Y)]$ 的估计，其中 $w$ 涉及选择概率的逆。
估计量：JAIPW = IPW 部分 + Outcome regression 部分 - 交叉项 + Auxiliary score 修正项。核心在于构造辅助得分，利用外部样本估计 $E[g(X,Y)|X]$ 或相关矩，从而在 $\pi_k$ 错定时仍能纠偏。
核心假设的可信度分析：
结果依赖选择假设在 EHR 中高度可信（疾病直接驱动就诊记录），但完全条件独立性（给定 $X,Y$ 下无其他未测量的选择驱动因素）可能被违背（如健康意识等不可测变量）。
验证：实证中通过对比国家基准间接验证；理论上缺乏对隐性违背的严格敏感性分析。
稳健性检验策略：模拟中系统性错定选择模型（如真实含交互项，拟合仅主效应）和结果模型；实证中与已知总体真值（国家癌症统计数据）对比。
计算/实现细节：涉及多步参数估计（选择模型、结果模型、辅助得分模型），可通过 R 实现；若结合机器学习估计 nuisance parameters，需考虑交叉拟合以避免过拟合偏差（文中主要探讨参数模型，但框架可扩展）。

五、与研究者兴趣的关联¶

连接到哪个子方向：双重稳健因果推断 / 数据融合 / 非概率样本选择偏差修正。
可借鉴的核心思路或技术工具：辅助得分模型的构造思路——当内部非概率样本的选择机制难以建模时，如何利用外部概率样本（即使协变量不完全重叠，如 PRS 仅在内部有）构造正交性条件，实现 DR。多队列异质选择机制的联合建模框架，可迁移至多中心/多时期的因果推断问题中处理异质处理效应或选择偏差。
值得精读的关键参考文献：
Robins, Rotnitzky, Zhao (1994) - AIPW 的奠基性文献，理解 DR 的原始构造与渐近理论。
Lesko et al. (2017) - EHR 选择偏差文献，理解结果依赖选择偏差在流行病学中的具体表现与识别难题。

六、延伸思考与练习¶

假设扰动：若外部概率样本与内部 EHR 样本的底层总体分布不一致（如存在总体漂移/shift），结论如何变化？技术上需要引入什么新工具（如重要性加权/transportability 理论）？
开放问题：当外部数据仅有汇总统计量而非个体数据时，如何构造辅助得分模型实现双重稳健？如何将此框架扩展到高维协变量设定下，结合 DML/Debiased ML 估计 nuisance parameters？
理解检测题：假设外部概率样本中不包含暴露变量 $X$（如文中的 PRS），但包含结果 $Y$ 和部分协变量 $Z$。请基于 JAIPW 的逻辑，推导或说明如何仅利用 $Z$ 和 $Y$ 构造辅助得分，使得在选择模型 $\pi(Y, Z)$ 错定时仍能保证估计量的相合性。

Maintained by 陈星宇 · Homepage · Source on GitHub