A doubly robust framework for addressing outcome-dependent selection bias in multi-cohort EHR studies¶

作者: Ritoban Kundu, Xu Shi, Michael Kleinsasser, Lars G Fritsche, Maxwell Salvatore et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何利用非概率样本（如电子健康记录 EHR 生物银行）去估计总体人群的关联参数（如疾病-暴露的 odds ratio），当样本的入选机制不仅未知，而且依赖于结局变量（outcome-dependent selection），且数据来源于多个具有异质性入选机制的队列时，如何校正由此产生的选择偏差。当前该方向的成熟度处于方法框架刚建立、实证检验进行中，但半参数效率界与高维 nuisance 估计的理论基础尚待深挖的阶段。

发展脉络：根据摘要与领域常识，此方向的工作可串成如下线索： - 奠基工作：经典的逆概率加权（IPW）与调查抽样推断。Horvitz & Thompson (1952) 建立了 IPW 框架；后续 Valliant 等 (2000s) 与 Elliott (2000s) 将其拓展至非概率样本与外部概率样本的整合，核心思路是利用外部概率样本估计非概率样本的入选概率 \(\pi\)。留下的口子是：当 \(\pi\) 模型错配时，IPW 估计量偏差极大，且未专门处理 outcome-dependent 机制。 - 主要进展：Outcome-dependent sampling 与双重稳健估计。Scott & Wild (1980s/90s) 处理了经典的 case-control 抽样（即入选概率只依赖 \(Y\)）；Robins, Rotnitzky & Zhao (1994) 引入 Augmented IPW (AIPW)，通过增加一个 outcome model 实现双重稳健。留下的口子是：AIPW 的 augmentation 项通常要求外部样本或模型能提供 \(E[Y|X]\) 的信息，当暴露变量 \(X\) 在外部概率样本中不可测（如 PRS 只在 EHR 中有）时，传统 AIPW 无法直接使用。 - 当前 frontier：多队列 EHR 数据的异质性选择偏差校正。近年（如 Saegusa, Makela, 或 Mukherjee 团队前期工作）开始关注多中心 EHR 的联合推断，提出 Joint IPW 以整合多队列入选机制。留下的口子是：不同诊所/队列的入选机制异质性极大，单一参数模型极易错配，而 Joint IPW 对这种错配毫无抵抗力。 - 本文的位置：从 Joint IPW 跃升至 Joint Augmented IPW (JAIPW)，引入不依赖暴露变量 \(X\) 在外部样本可测的 auxiliary score model，试图在多队列 outcome-dependent 设定下实现双重稳健。

子线索聚类：被引与相关文献大致落在三条子线索上： 1. 非概率样本与概率样本的整合推断：侧重于利用外部概率样本（如 NHANES）的已知抽样权重或边际分布，去校准非概率样本的入选概率。这一簇在做的是"如何用廉价的大样本非概率数据，结合昂贵的小样本概率数据，得到总体推断"。 2. Outcome-dependent selection / Case-control weighting：侧重于入选概率 \(\pi(S=1|Y, X)\) 依赖 \(Y\) 的参数与非参数校正。这一簇在做的是"如何打破 \(Y\) 导致的过度代表性"。 3. 多队列/多中心异质性选择机制：侧重于 \(K\) 个队列各有不同 \(\pi_k\) 时的联合估计。这一簇在做的是"如何避免强行用一个 pooled \(\pi\) 模型抹平队列异质性"。

这个方向在追问的核心问题： 1. 在非概率样本中，入选概率 \(\pi\) 不可测且依赖 \(Y\) 时，如何仅借助外部概率样本实现总体关联参数的识别与一致估计？ 2. 当 \(\pi\) 的参数模型几乎必然错配（因多队列异质性）时，如何构造估计量使其对 \(\pi\) 的错配具有鲁棒性？ 3. 当外部概率样本缺失关键暴露变量 \(X\)（如基因评分 PRS）时，augmentation 项如何构造？已知瓶颈是：传统 AIPW 的 augmentation 项需要 \(E[g(Y,X;\beta)/\pi | X]\)，若外部样本无 \(X\) 则此条件期望不可估。

⚠️ 作者的 framing（这是作者的说法）：作者把缺口 frame 成"传统 IPW 在多队列异质性入选机制下极易错配"，好让 JAIPW 的 auxiliary score model 成为"显然的下一步"——用 auxiliary score 吸收错配偏差。被淡化或回避的竞争路线可能是：基于半参数效率界的直接估计（如不走 IPW 路线，直接用 influence function 构造 estimating equation），或基于校准/约束的估计（如让 EHR 样本的边际分布强行匹配外部概率样本，而不显式建模 \(\pi\)）。明显该被引却未在摘要/intro 显式提及的：半参数效率理论文献（如 Bickel et al. 1993, Tsiatis 2006）与高维 Debiased ML 文献（如 Chernozhukov et al. 2018），因为 JAIPW 实质上是在构造一个半参数估计量，其双重稳健性是效率界下正交条件的特例，但作者将其 frame 为 AIPW 的推广而非效率理论的推演。

张力：未见明显对立引用。不同路线（IPW vs AIPW vs Calibration）更多是在不同假设下互补，而非得出相反结论。但存在一个隐含张力：传统 AIPW 要求外部样本有 \(X\) 才能算 augmentation，本文声称用 auxiliary score 绕过了这个要求，这需要研究者去核验：这个绕过是否引入了更强的隐含假设（如 auxiliary score 模型的正确指定或某种完备性条件）？

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(Y\)：二值结局变量（如是否患癌，\(Y \in \{0, 1\}\)）。
\(X\)：暴露变量与协变量向量（如性别、PRS）。\(X\) 可以是二值或连续。
\(S\)：入选指示变量。\(S=1\) 表示个体进入非概率 EHR 样本，\(S=0\) 表示未进入。
\(C\)：队列指示变量。若 \(S=1\)，\(C \in \{1, ..., K\}\) 表示该个体来自第 \(k\) 个诊所/队列。若 \(S=0\)，\(C\) 未定义。
\(\pi_k(Y, X)\)：第 \(k\) 个队列的入选概率模型，即 \(P(S=1, C=k | Y, X)\)（或条件版本 \(P(S=1 | Y, X, C=k)\)）。这是要估的 nuisance 参数，且因 outcome-dependent 依赖于 \(Y\)。
\(h(Y, X)\)：辅助得分模型，这是本文引入的核心 nuisance 参数，用于构建 augmentation 项。
\(\beta\)：目标关联参数（estimand），如总体 logistic 模型中的 log odds ratio \(\log\{P(Y=1|X=x_1)/P(Y=1|X=x_0)\}\)。
可观测数据：
非概率样本（EHR）：对 \(S=1\) 的个体，观测到 \((Y, X, C)\)。样本量 \(n_{EHR}\) 很大。观测不到总体中 \(S=0\) 的任何人。
外部概率样本（如 NHANES）：观测到 \((Y, X_{ext})\)，已知抽样权重 \(w_{ext}\)。注意：\(X_{ext}\) 可能只是 \(X\) 的一个子集。例如，PRS 只在 EHR 中有，外部样本无 PRS。样本量 \(n_{ext}\) 较小。观测不到 \(S\) 和 \(C\)（外部样本不是 EHR）。
想要但观测不到的：总体中 \(S=0\) 人群的 \((Y, X)\) 分布，以及真实的入选概率 \(\pi_k(Y, X)\) 的参数形式。

第二步：讲最小内核

剥掉多队列（\(K>1\)）和一般参数形式，考虑最简特例：\(K=1\)（单队列），二值 \(X\)，二值 \(Y\)，且外部样本缺失 \(X\)（只有 \(Y\) 的边际分布）。

目标：估总体 odds ratio \(\beta = \log\frac{P(Y=1|X=1) P(Y=0|X=0)}{P(Y=1|X=0) P(Y=0|X=1)}\)。
困境：EHR 样本中 \(P(Y=1|X=1, S=1) \neq P(Y=1|X=1)\)，因为 \(\pi(Y, X)\) 依赖 \(Y\)（如患癌者更易入 EHR）。传统 IPW 用 \(\hat{\pi}(Y, X)\) 加权 EHR 数据，若 \(\pi\) 模型错配，加权后的 odds ratio 仍有偏差。传统 AIPW 需要 \(E[Y|X]\) 来修正偏差，但外部样本没有 \(X\)（没有 PRS），算不出 \(E[Y|X]\)。
本文最小内核（JAIPW 的核心思路）：引入一个 auxiliary score \(h(Y)\)（注意：因为外部样本无 \(X\)，\(h\) 只能依赖 \(Y\)，或依赖外部样本有的那部分 \(X\)）。这个 \(h(Y)\) 满足一个关键性质：它在总体中的期望 \(E_{pop}[h(Y)]\) 可以从外部概率样本精确估出（因为外部样本有 \(Y\)）。
JAIPW 估计方程的最简形态：目标方程 \(E_{pop}[g(Y, X; \beta)] = 0\)（如 logistic score function）。 IPW 估计为 \(\sum_{i \in EHR} \frac{g(Y_i, X_i; \beta)}{\hat{\pi}(Y_i, X_i)} = 0\)。当 \(\hat{\pi}\) 错配时，上式有偏差 \(\Delta\)。 JAIPW 的做法是：\(\sum_{i \in EHR} \frac{g(Y_i, X_i; \beta)}{\hat{\pi}(Y_i, X_i)} + \text{Augmentation} = 0\)。 Augmentation 项的形式为：利用 \(h(Y)\) 构造一个修正项，使得当 \(\pi\) 错配时，这个修正项的期望恰好等于 \(-\Delta\)；而当 \(\pi\) 正确时，这个修正项的期望为 0。具体地，修正项通常形如 \(\sum_{j \in Ext} w_j [h(Y_j) - \hat{E}_{EHR, IPW}[h(Y_j)]]\)，即用外部样本的 \(h(Y)\) 均值去校准 IPW 加权后的 \(h(Y)\) 均值。因为 \(E_{pop}[h(Y)]\) 已知，若 IPW 加权估出的 \(E_{pop}[h(Y)]\) 不对（因 \(\pi\) 错配），这个差值就捕捉了 \(\pi\) 错配带来的偏差方向，进而用来校正目标参数 \(\beta\) 的估计。
为什么成立（双重稳健性）：
若 \(\hat{\pi}\) 正确：IPW 部分无偏，augmentation 项的期望为 0，整体无偏。
若 \(\hat{\pi}\) 错配，但 \(h(Y)\) 选得"对"（即 \(h\) 能够捕捉 \(g/\pi\) 的错配残余）：augmentation 项利用外部样本的真实 \(E[h(Y)]\) 强行把偏差拉回 0。这个最简例子揭示了本文的数学本质：用外部样本可估的矩条件（auxiliary score 的期望），去锚定并校正 EHR 样本中因 \(\pi\) 错配导致的矩条件漂移。

三、这篇论文做了什么¶

三句话： ①研究了多队列 EHR 非概率样本在 outcome-dependent 选择偏差下，且外部概率样本可能缺失暴露变量时，总体关联参数的估计问题； ②核心工具是 Joint Augmented IPW (JAIPW)，通过引入灵活的 auxiliary score model 构建 augmentation 项； ③主要结论是 JAIPW 实现了双重稳健（选择模型或辅助模型之一正确即一致），模拟中在选择模型错配下相对偏差与 RMSE 比最优 Joint IPW 降低 6 倍与 5 倍。

关键设定与假设：在最小记号基础上补全： - 多队列入选机制：\(P(S=1, C=k | Y, X) = \pi_k(Y, X; \gamma_k)\)，各队列参数 \(\gamma_k\) 不同。这是异质性的来源。 - 外部概率样本可用性：外部样本提供总体中 \((Y, X_{ext})\) 的无偏代表，其中 \(X_{ext} \subseteq X\)。 - Auxiliary score model：\(h(Y, X_{ext}; \eta)\)，参数为 \(\eta\)。这个模型只依赖外部样本也拥有的变量 \(X_{ext}\)，这是解决外部样本无 PRS 问题的关键设计。 - 核心假设（双重稳健性的条件）： 1. 选择模型正确：存在真实参数 \(\gamma_k\) 使得 \(\pi_k(Y, X) = \pi_k(Y, X; \gamma_k)\)；或 2. 辅助模型正确：存在真实参数 \(\eta\) 使得 \(h(Y, X_{ext}; \eta)\) 满足特定的正交/完备性条件，足以吸收 \(\pi\) 错配造成的偏差。相比已有文献，本文放宽了"外部样本必须包含全部 \(X\)"的硬性要求（传统 AIPW 的痛点），但强化了"auxiliary score 模型必须足够丰富以校正偏差"的假设。

主要结果： 1. JAIPW 估计量的构造与双重稳健性（定理/命题性质）：JAIPW 估计量 \(\hat{\beta}_{JAIPW}\) 是求解如下联合方程的根：

\[\sum_{k=1}^K \sum_{i \in EHR_k} \frac{g(Y_i, X_i; \beta)}{\pi_k(Y_i, X_i; \hat{\gamma}_k)} + \text{Aug}(\hat{\eta}, \text{Ext data}) = 0\]

其中 Aug 项利用 \(h(Y, X_{ext}; \hat{\eta})\) 的总体矩（由外部样本估出）与 EHR 样本 IPW 加权矩的差值进行校正。在 \(\pi_k\) 或 \(h\) 之一正确指定下，\(\hat{\beta}_{JAIPW} \to \beta\) in probability。 2. 渐近性质：在常规平滑性与正则条件下（如 nuisance 参数估计的收敛率达到 \(n^{-1/4}\)），\(\hat{\beta}_{JAIPW}\) 渐近正态，方差可通过影响函数的经验方差估出。 3. 模拟量化结论：在 \(\pi\) 模型错配设定下，JAIPW 的相对偏差比最优 Joint IPW 降低 6 倍，RMSE 降低 5 倍。在 \(\pi\) 正确设定下，JAIPW 与 Joint IPW 效率相当（因 augmentation 项期望为 0，只增加有限方差）。

证明路线与技术技巧： - 整体路线： 1. 识别：写出总体目标矩条件 \(E[g(Y,X;\beta)] = 0\)。 2. IPW 分解：将总体矩拆解为 EHR 样本的 IPW 加权矩加上一个残差项，残差项依赖不可观测的 \(S=0\) 人群。 3. 引入外部样本与 Auxiliary score：利用外部样本可估的 \(E_{pop}[h(Y, X_{ext})]\)，构造一个 augmentation 项去替换/吸收上述残差项。 4. 双重稳健性验证：分别验证在 \(\pi\) 对/\(h\) 错、\(\pi\) 错/\(h\) 对两种情形下，替换后的估计方程期望为 0。 5. 渐近展开：对 \(\hat{\beta}\) 作 Taylor 展开，将 nuisance 估计 \((\hat{\gamma}, \hat{\eta})\) 的误差代入，利用影响函数推导渐近正态性。 - 关键跳跃点：如何构造 \(h(Y, X_{ext})\) 使得在 \(\pi\) 错配时，augmentation 项恰好等于目标函数的偏差？这需要 \(h\) 满足某种完备性条件（completeness condition），即在给定 \(X_{ext}\) 下，\(h(Y, X_{ext})\) 能够穷尽 \(Y\) 对 \(g/\pi\) 的影响。这是非参数识别中的经典难点，本文大概率通过参数化 \(h\) 模型（如线性或灵活的机器学习模型）来近似满足。 - 技术技巧点名： - Augmented IPW (AIPW) / 双重稳健构造：源自 Robins et al. (1994)，用于处理缺失数据/选择偏差，本文将其从单队列拓展至多队列 Joint 情形。 - Calibration / Moment matching：augmentation 项实质上是一种矩校准，让 EHR 样本的加权边际分布匹配外部样本的真实边际分布。 - Influence function / 渐近方差推导：半参数理论的标准工具，用于证明 nuisance 估计误差不污染目标参数的一阶渐近。

真实例子与应用： 1. MGI (Michigan Genomics Initiative) 多队列 EHR 生物银行 + 外部国家概率样本： - 场景：MGI 是非概率样本，来自多个诊所，患癌者入选概率更高。外部样本为全国概率调查（如 NHANES）。 - 应用 1：Cancer-Sex 关联：外部样本有 Cancer (\(Y\)) 和 Sex (\(X\))。JAIPW 校正后，Cancer-Sex 的 odds ratio 与全国基准估计高度吻合，验证了方法在 \(\pi\) 可能错配时的校正能力。 - 应用 2：Cancer-PRS (Polygenic Risk Score) 关联：外部样本没有 PRS（\(X_{PRS}\) 只在 MGI 中有）。这是本文方法的独有优势场景。JAIPW 使用只依赖 \(Y\) 和 Sex 的 auxiliary score \(h(Y, Sex)\)，成功校正了 Cancer-PRS 关联的选择偏差，展示了当外部样本缺失关键暴露变量时，JAIPW 依然可用的特性。

🔎 结论是否比证明窄：摘要与结论中泛泛声称 JAIPW 具有 double robustness，但严格的数学证明大概率要求 auxiliary score 模型 \(h\) 满足特定的完备性条件（即 \(h\) 必须足够丰富以捕捉所有由 \(\pi\) 错配导致的 \(Y\)-依赖偏差）。如果 \(h\) 模型过于简单（如只含常数项），即使 \(\pi\) 错配，\(h\) 也无法吸收偏差，此时"双重稳健"的承诺在数学上可能不成立。研究者需核验原文定理的精确陈述：\(h\) 的正确指定是否隐含了完备性要求？

四、开放问题（点到为止，扎根具体语句）¶

JAIPW 是否达到了该缺失数据模式下的半参数效率界？
扎根点：本文推导了渐近方差，但未与效率界比对。若 auxiliary score \(h\) 的维度无限（非参数），JAIPW 的方差是否逼近 Cramer-Rao 界？这需要用研究者的 semiparametric theory 去推导该 setting 下的 efficient influence function。
高维 nuisance 估计下的有限样本表现与 Debiased ML 扩展
扎根点：双重稳健性要求 nuisance 参数（\(\pi_k\) 与 \(h\)）收敛率至少 \(n^{-1/4}\)。当 \(X\) 维度极高时，参数模型极易轻微错配（导致"双重稳健"退化为"双重脆弱"）。能否用 cross-fitting / DML 替换本文的参数 nuisance 估计，以在高维下维持 \(n^{-1/4}\) 收敛率？
Auxiliary score 模型 \(h\) 的完备性条件如何检验或保证？
扎根点：定理声称 \(h\) 正确时即稳健，但 \(h\) 只依赖 \(X_{ext}\)。若 \(X_{ext}\) 信息不足（如外部样本只有 \(Y\)，无任何 \(X\)），\(h(Y)\) 是否必然满足完备性？这涉及 identification theory in causal inference 中的可识别性边界。
外部概率样本自身存在测量误差或轻微选择偏差时的鲁棒性
扎根点：本文假设外部概率样本是总体的无偏代表（如 NHANES）。若外部样本也有偏差，JAIPW 的 augmentation 项将引入新偏差。这是一个被 intro 回避的设定，值得去查近期 EHR 校正文献是否讨论过"双样本皆有偏"的联合推断。

Maintained by 陈星宇 · Homepage · Source on GitHub

A doubly robust framework for addressing outcome-dependent selection bias in multi-cohort EHR studies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论