跳转至

A doubly robust framework for addressing outcome-dependent selection bias in multi-cohort EHR studies

作者: Ritoban Kundu, Xu Shi, Michael Kleinsasser, Lars G Fritsche, Maxwell Salvatore et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:如何利用非概率样本(如电子健康记录 EHR 生物银行)去估计总体人群的关联参数(如疾病-暴露的 odds ratio),当样本的入选机制不仅未知,而且依赖于结局变量(outcome-dependent selection),且数据来源于多个具有异质性入选机制的队列时,如何校正由此产生的选择偏差。当前该方向的成熟度处于方法框架刚建立、实证检验进行中,但半参数效率界与高维 nuisance 估计的理论基础尚待深挖的阶段。

发展脉络: 根据摘要与领域常识,此方向的工作可串成如下线索: - 奠基工作:经典的逆概率加权(IPW)与调查抽样推断。Horvitz & Thompson (1952) 建立了 IPW 框架;后续 Valliant 等 (2000s) 与 Elliott (2000s) 将其拓展至非概率样本与外部概率样本的整合,核心思路是利用外部概率样本估计非概率样本的入选概率 \(\pi\)。留下的口子是:当 \(\pi\) 模型错配时,IPW 估计量偏差极大,且未专门处理 outcome-dependent 机制。 - 主要进展:Outcome-dependent sampling 与双重稳健估计。Scott & Wild (1980s/90s) 处理了经典的 case-control 抽样(即入选概率只依赖 \(Y\));Robins, Rotnitzky & Zhao (1994) 引入 Augmented IPW (AIPW),通过增加一个 outcome model 实现双重稳健。留下的口子是:AIPW 的 augmentation 项通常要求外部样本或模型能提供 \(E[Y|X]\) 的信息,当暴露变量 \(X\) 在外部概率样本中不可测(如 PRS 只在 EHR 中有)时,传统 AIPW 无法直接使用。 - 当前 frontier:多队列 EHR 数据的异质性选择偏差校正。近年(如 Saegusa, Makela, 或 Mukherjee 团队前期工作)开始关注多中心 EHR 的联合推断,提出 Joint IPW 以整合多队列入选机制。留下的口子是:不同诊所/队列的入选机制异质性极大,单一参数模型极易错配,而 Joint IPW 对这种错配毫无抵抗力。 - 本文的位置:从 Joint IPW 跃升至 Joint Augmented IPW (JAIPW),引入不依赖暴露变量 \(X\) 在外部样本可测的 auxiliary score model,试图在多队列 outcome-dependent 设定下实现双重稳健。

子线索聚类: 被引与相关文献大致落在三条子线索上: 1. 非概率样本与概率样本的整合推断:侧重于利用外部概率样本(如 NHANES)的已知抽样权重或边际分布,去校准非概率样本的入选概率。这一簇在做的是"如何用廉价的大样本非概率数据,结合昂贵的小样本概率数据,得到总体推断"。 2. Outcome-dependent selection / Case-control weighting:侧重于入选概率 \(\pi(S=1|Y, X)\) 依赖 \(Y\) 的参数与非参数校正。这一簇在做的是"如何打破 \(Y\) 导致的过度代表性"。 3. 多队列/多中心异质性选择机制:侧重于 \(K\) 个队列各有不同 \(\pi_k\) 时的联合估计。这一簇在做的是"如何避免强行用一个 pooled \(\pi\) 模型抹平队列异质性"。

这个方向在追问的核心问题: 1. 在非概率样本中,入选概率 \(\pi\) 不可测且依赖 \(Y\) 时,如何仅借助外部概率样本实现总体关联参数的识别与一致估计? 2. 当 \(\pi\) 的参数模型几乎必然错配(因多队列异质性)时,如何构造估计量使其对 \(\pi\) 的错配具有鲁棒性? 3. 当外部概率样本缺失关键暴露变量 \(X\)(如基因评分 PRS)时,augmentation 项如何构造?已知瓶颈是:传统 AIPW 的 augmentation 项需要 \(E[g(Y,X;\beta)/\pi | X]\),若外部样本无 \(X\) 则此条件期望不可估。

⚠️ 作者的 framing(这是作者的说法): 作者把缺口 frame 成"传统 IPW 在多队列异质性入选机制下极易错配",好让 JAIPW 的 auxiliary score model 成为"显然的下一步"——用 auxiliary score 吸收错配偏差。被淡化或回避的竞争路线可能是:基于半参数效率界的直接估计(如不走 IPW 路线,直接用 influence function 构造 estimating equation),或基于校准/约束的估计(如让 EHR 样本的边际分布强行匹配外部概率样本,而不显式建模 \(\pi\))。明显该被引却未在摘要/intro 显式提及的:半参数效率理论文献(如 Bickel et al. 1993, Tsiatis 2006)与高维 Debiased ML 文献(如 Chernozhukov et al. 2018),因为 JAIPW 实质上是在构造一个半参数估计量,其双重稳健性是效率界下正交条件的特例,但作者将其 frame 为 AIPW 的推广而非效率理论的推演。

张力: 未见明显对立引用。不同路线(IPW vs AIPW vs Calibration)更多是在不同假设下互补,而非得出相反结论。但存在一个隐含张力:传统 AIPW 要求外部样本有 \(X\) 才能算 augmentation,本文声称用 auxiliary score 绕过了这个要求,这需要研究者去核验:这个绕过是否引入了更强的隐含假设(如 auxiliary score 模型的正确指定或某种完备性条件)?

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • \(Y\):二值结局变量(如是否患癌,\(Y \in \{0, 1\}\))。
  • \(X\):暴露变量与协变量向量(如性别、PRS)。\(X\) 可以是二值或连续。
  • \(S\):入选指示变量。\(S=1\) 表示个体进入非概率 EHR 样本,\(S=0\) 表示未进入。
  • \(C\):队列指示变量。若 \(S=1\)\(C \in \{1, ..., K\}\) 表示该个体来自第 \(k\) 个诊所/队列。若 \(S=0\)\(C\) 未定义。
  • \(\pi_k(Y, X)\):第 \(k\) 个队列的入选概率模型,即 \(P(S=1, C=k | Y, X)\)(或条件版本 \(P(S=1 | Y, X, C=k)\))。这是要估的 nuisance 参数,且因 outcome-dependent 依赖于 \(Y\)
  • \(h(Y, X)\):辅助得分模型,这是本文引入的核心 nuisance 参数,用于构建 augmentation 项。
  • \(\beta\):目标关联参数(estimand),如总体 logistic 模型中的 log odds ratio \(\log\{P(Y=1|X=x_1)/P(Y=1|X=x_0)\}\)
  • 可观测数据
  • 非概率样本(EHR):对 \(S=1\) 的个体,观测到 \((Y, X, C)\)。样本量 \(n_{EHR}\) 很大。观测不到总体中 \(S=0\) 的任何人。
  • 外部概率样本(如 NHANES):观测到 \((Y, X_{ext})\),已知抽样权重 \(w_{ext}\)。注意:\(X_{ext}\) 可能只是 \(X\) 的一个子集。例如,PRS 只在 EHR 中有,外部样本无 PRS。样本量 \(n_{ext}\) 较小。观测不到 \(S\)\(C\)(外部样本不是 EHR)。
  • 想要但观测不到的:总体中 \(S=0\) 人群的 \((Y, X)\) 分布,以及真实的入选概率 \(\pi_k(Y, X)\) 的参数形式。

第二步:讲最小内核

剥掉多队列(\(K>1\))和一般参数形式,考虑最简特例\(K=1\)(单队列),二值 \(X\),二值 \(Y\),且外部样本缺失 \(X\)(只有 \(Y\) 的边际分布)。

  • 目标:估总体 odds ratio \(\beta = \log\frac{P(Y=1|X=1) P(Y=0|X=0)}{P(Y=1|X=0) P(Y=0|X=1)}\)
  • 困境:EHR 样本中 \(P(Y=1|X=1, S=1) \neq P(Y=1|X=1)\),因为 \(\pi(Y, X)\) 依赖 \(Y\)(如患癌者更易入 EHR)。传统 IPW 用 \(\hat{\pi}(Y, X)\) 加权 EHR 数据,若 \(\pi\) 模型错配,加权后的 odds ratio 仍有偏差。传统 AIPW 需要 \(E[Y|X]\) 来修正偏差,但外部样本没有 \(X\)(没有 PRS),算不出 \(E[Y|X]\)
  • 本文最小内核(JAIPW 的核心思路):引入一个 auxiliary score \(h(Y)\)(注意:因为外部样本无 \(X\)\(h\) 只能依赖 \(Y\),或依赖外部样本有的那部分 \(X\))。这个 \(h(Y)\) 满足一个关键性质:它在总体中的期望 \(E_{pop}[h(Y)]\) 可以从外部概率样本精确估出(因为外部样本有 \(Y\))。
  • JAIPW 估计方程的最简形态: 目标方程 \(E_{pop}[g(Y, X; \beta)] = 0\)(如 logistic score function)。 IPW 估计为 \(\sum_{i \in EHR} \frac{g(Y_i, X_i; \beta)}{\hat{\pi}(Y_i, X_i)} = 0\)。 当 \(\hat{\pi}\) 错配时,上式有偏差 \(\Delta\)。 JAIPW 的做法是:\(\sum_{i \in EHR} \frac{g(Y_i, X_i; \beta)}{\hat{\pi}(Y_i, X_i)} + \text{Augmentation} = 0\)。 Augmentation 项的形式为:利用 \(h(Y)\) 构造一个修正项,使得当 \(\pi\) 错配时,这个修正项的期望恰好等于 \(-\Delta\);而当 \(\pi\) 正确时,这个修正项的期望为 0。 具体地,修正项通常形如 \(\sum_{j \in Ext} w_j [h(Y_j) - \hat{E}_{EHR, IPW}[h(Y_j)]]\),即用外部样本的 \(h(Y)\) 均值去校准 IPW 加权后的 \(h(Y)\) 均值。因为 \(E_{pop}[h(Y)]\) 已知,若 IPW 加权估出的 \(E_{pop}[h(Y)]\) 不对(因 \(\pi\) 错配),这个差值就捕捉了 \(\pi\) 错配带来的偏差方向,进而用来校正目标参数 \(\beta\) 的估计。
  • 为什么成立(双重稳健性)
  • \(\hat{\pi}\) 正确:IPW 部分无偏,augmentation 项的期望为 0,整体无偏。
  • \(\hat{\pi}\) 错配,但 \(h(Y)\) 选得"对"(即 \(h\) 能够捕捉 \(g/\pi\) 的错配残余):augmentation 项利用外部样本的真实 \(E[h(Y)]\) 强行把偏差拉回 0。 这个最简例子揭示了本文的数学本质:用外部样本可估的矩条件(auxiliary score 的期望),去锚定并校正 EHR 样本中因 \(\pi\) 错配导致的矩条件漂移

三、这篇论文做了什么

三句话: ①研究了多队列 EHR 非概率样本在 outcome-dependent 选择偏差下,且外部概率样本可能缺失暴露变量时,总体关联参数的估计问题; ②核心工具是 Joint Augmented IPW (JAIPW),通过引入灵活的 auxiliary score model 构建 augmentation 项; ③主要结论是 JAIPW 实现了双重稳健(选择模型或辅助模型之一正确即一致),模拟中在选择模型错配下相对偏差与 RMSE 比最优 Joint IPW 降低 6 倍与 5 倍。

关键设定与假设: 在最小记号基础上补全: - 多队列入选机制\(P(S=1, C=k | Y, X) = \pi_k(Y, X; \gamma_k)\),各队列参数 \(\gamma_k\) 不同。这是异质性的来源。 - 外部概率样本可用性:外部样本提供总体中 \((Y, X_{ext})\) 的无偏代表,其中 \(X_{ext} \subseteq X\)。 - Auxiliary score model\(h(Y, X_{ext}; \eta)\),参数为 \(\eta\)。这个模型只依赖外部样本也拥有的变量 \(X_{ext}\),这是解决外部样本无 PRS 问题的关键设计。 - 核心假设(双重稳健性的条件): 1. 选择模型正确:存在真实参数 \(\gamma_k\) 使得 \(\pi_k(Y, X) = \pi_k(Y, X; \gamma_k)\);或 2. 辅助模型正确:存在真实参数 \(\eta\) 使得 \(h(Y, X_{ext}; \eta)\) 满足特定的正交/完备性条件,足以吸收 \(\pi\) 错配造成的偏差。 相比已有文献,本文放宽了"外部样本必须包含全部 \(X\)"的硬性要求(传统 AIPW 的痛点),但强化了"auxiliary score 模型必须足够丰富以校正偏差"的假设。

主要结果: 1. JAIPW 估计量的构造与双重稳健性(定理/命题性质):JAIPW 估计量 \(\hat{\beta}_{JAIPW}\) 是求解如下联合方程的根:

\[\sum_{k=1}^K \sum_{i \in EHR_k} \frac{g(Y_i, X_i; \beta)}{\pi_k(Y_i, X_i; \hat{\gamma}_k)} + \text{Aug}(\hat{\eta}, \text{Ext data}) = 0\]
其中 Aug 项利用 \(h(Y, X_{ext}; \hat{\eta})\) 的总体矩(由外部样本估出)与 EHR 样本 IPW 加权矩的差值进行校正。在 \(\pi_k\)\(h\) 之一正确指定下,\(\hat{\beta}_{JAIPW} \to \beta\) in probability。 2. 渐近性质:在常规平滑性与正则条件下(如 nuisance 参数估计的收敛率达到 \(n^{-1/4}\)),\(\hat{\beta}_{JAIPW}\) 渐近正态,方差可通过影响函数的经验方差估出。 3. 模拟量化结论:在 \(\pi\) 模型错配设定下,JAIPW 的相对偏差比最优 Joint IPW 降低 6 倍,RMSE 降低 5 倍。在 \(\pi\) 正确设定下,JAIPW 与 Joint IPW 效率相当(因 augmentation 项期望为 0,只增加有限方差)。

证明路线与技术技巧: - 整体路线: 1. 识别:写出总体目标矩条件 \(E[g(Y,X;\beta)] = 0\)。 2. IPW 分解:将总体矩拆解为 EHR 样本的 IPW 加权矩加上一个残差项,残差项依赖不可观测的 \(S=0\) 人群。 3. 引入外部样本与 Auxiliary score:利用外部样本可估的 \(E_{pop}[h(Y, X_{ext})]\),构造一个 augmentation 项去替换/吸收上述残差项。 4. 双重稳健性验证:分别验证在 \(\pi\) 对/\(h\) 错、\(\pi\) 错/\(h\) 对两种情形下,替换后的估计方程期望为 0。 5. 渐近展开:对 \(\hat{\beta}\) 作 Taylor 展开,将 nuisance 估计 \((\hat{\gamma}, \hat{\eta})\) 的误差代入,利用影响函数推导渐近正态性。 - 关键跳跃点:如何构造 \(h(Y, X_{ext})\) 使得在 \(\pi\) 错配时,augmentation 项恰好等于目标函数的偏差?这需要 \(h\) 满足某种完备性条件(completeness condition),即在给定 \(X_{ext}\) 下,\(h(Y, X_{ext})\) 能够穷尽 \(Y\)\(g/\pi\) 的影响。这是非参数识别中的经典难点,本文大概率通过参数化 \(h\) 模型(如线性或灵活的机器学习模型)来近似满足。 - 技术技巧点名: - Augmented IPW (AIPW) / 双重稳健构造:源自 Robins et al. (1994),用于处理缺失数据/选择偏差,本文将其从单队列拓展至多队列 Joint 情形。 - Calibration / Moment matching:augmentation 项实质上是一种矩校准,让 EHR 样本的加权边际分布匹配外部样本的真实边际分布。 - Influence function / 渐近方差推导:半参数理论的标准工具,用于证明 nuisance 估计误差不污染目标参数的一阶渐近。

真实例子与应用: 1. MGI (Michigan Genomics Initiative) 多队列 EHR 生物银行 + 外部国家概率样本: - 场景:MGI 是非概率样本,来自多个诊所,患癌者入选概率更高。外部样本为全国概率调查(如 NHANES)。 - 应用 1:Cancer-Sex 关联:外部样本有 Cancer (\(Y\)) 和 Sex (\(X\))。JAIPW 校正后,Cancer-Sex 的 odds ratio 与全国基准估计高度吻合,验证了方法在 \(\pi\) 可能错配时的校正能力。 - 应用 2:Cancer-PRS (Polygenic Risk Score) 关联:外部样本没有 PRS(\(X_{PRS}\) 只在 MGI 中有)。这是本文方法的独有优势场景。JAIPW 使用只依赖 \(Y\) 和 Sex 的 auxiliary score \(h(Y, Sex)\),成功校正了 Cancer-PRS 关联的选择偏差,展示了当外部样本缺失关键暴露变量时,JAIPW 依然可用的特性。

🔎 结论是否比证明窄: 摘要与结论中泛泛声称 JAIPW 具有 double robustness,但严格的数学证明大概率要求 auxiliary score 模型 \(h\) 满足特定的完备性条件(即 \(h\) 必须足够丰富以捕捉所有由 \(\pi\) 错配导致的 \(Y\)-依赖偏差)。如果 \(h\) 模型过于简单(如只含常数项),即使 \(\pi\) 错配,\(h\) 也无法吸收偏差,此时"双重稳健"的承诺在数学上可能不成立。研究者需核验原文定理的精确陈述:\(h\) 的正确指定是否隐含了完备性要求?

四、开放问题(点到为止,扎根具体语句)

  1. JAIPW 是否达到了该缺失数据模式下的半参数效率界?
  2. 扎根点:本文推导了渐近方差,但未与效率界比对。若 auxiliary score \(h\) 的维度无限(非参数),JAIPW 的方差是否逼近 Cramer-Rao 界?这需要用研究者的 semiparametric theory 去推导该 setting 下的 efficient influence function。
  3. 高维 nuisance 估计下的有限样本表现与 Debiased ML 扩展
  4. 扎根点:双重稳健性要求 nuisance 参数(\(\pi_k\)\(h\))收敛率至少 \(n^{-1/4}\)。当 \(X\) 维度极高时,参数模型极易轻微错配(导致"双重稳健"退化为"双重脆弱")。能否用 cross-fitting / DML 替换本文的参数 nuisance 估计,以在高维下维持 \(n^{-1/4}\) 收敛率?
  5. Auxiliary score 模型 \(h\) 的完备性条件如何检验或保证?
  6. 扎根点:定理声称 \(h\) 正确时即稳健,但 \(h\) 只依赖 \(X_{ext}\)。若 \(X_{ext}\) 信息不足(如外部样本只有 \(Y\),无任何 \(X\)),\(h(Y)\) 是否必然满足完备性?这涉及 identification theory in causal inference 中的可识别性边界。
  7. 外部概率样本自身存在测量误差或轻微选择偏差时的鲁棒性
  8. 扎根点:本文假设外部概率样本是总体的无偏代表(如 NHANES)。若外部样本也有偏差,JAIPW 的 augmentation 项将引入新偏差。这是一个被 intro 回避的设定,值得去查近期 EHR 校正文献是否讨论过"双样本皆有偏"的联合推断。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论