A semiparametric method for risk prediction using integrated electronic health record data¶

作者: Jill Hasler, Yanyuan Ma, Yizheng Wei, Ravi Parikh, Jinbo Chen
来源: Annals of Applied Statistics
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Pennsylvania State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/24-aoas1938

一、领域脉络与小综述¶

1.1 这个方向是什么¶

这个子方向名为 “整合型 EHR 数据的风险预测” (Risk prediction using integrated Electronic Health Record data)，要解决的根本问题是：当研究者拥有一个庞大的、但不完美的 EHR 数据库（包含大量病人的基本信息、诊断、检验结果等），同时可从外部数据源（如 biobank 的基因测序数据、小型患者问卷调查得到的 patient-reported outcomes）获取部分病人的更精细、更昂贵或更完整的信息时，如何利用 EHR 全样本的低信息密度数据，来提升仅含外部数据子样本的估计和预测效率。其成熟度中等偏低——大量临床预测仍在使用“外部数据子集”做模型，忽视 EHR 全样本的补充信息，而方法论上的 Two-Phase Design 框架虽已存在，但将其适配到 EHR 场景并同时处理模型拟合（log-odds ratio 估计）与预测精度评估（AUC 估计）的高效 estimator，仍是一个相对新的尝试。

1.2 发展脉络¶

奠基工作：Two-Phase Design 的统计理论 (Breslow & Chatterjee, 1999 等)
- Breslow & Chatterjee (1999)：在病例-对照或队列研究中，第一阶段（Phase I）收集简单、价廉的协变量，第二阶段（Phase II）对一部分选定样本收集昂贵、精细的协变量。这项工作正式建立了两阶段抽样下的半参数效率框架，并证明加权似然估计在适当权重下可达到效率界。但其方法设计时未考虑“第二阶段可获取性”能被连续概率函数建模（常被当作一个简单的二值指示变量），也未针对预测模型的评价指标（如 AUC）给出高效的 estimator。
主要进展（EHR 数据整合的先驱实践）
- The Penn Medicine Biobank：为肿瘤患者建立了 EHR + 生物样本的链接。早期工作（如引用中的 Denny et al.）展示了从 EHR 中提取疾病表型的可行性，但统计方法论上只进行了简单的“结合——建模——比较”，没有利用 Phase I 的大样本量去校正 Phase II 的选样偏差。
- 用于外部数据可利用性建模的研究 (Ma et al., 2023; 本文引用的早期版本)：提出“外部数据的可用性”本身是人类决策的结果（医生开单、患者同意）且与一个 EMR-based 初始预测分数（比如一个快速的 logistic 模型给出的风险评分）相关。这部分的工作是本文方法论的核心借鉴点，但前者可能只给出了点估计，未触及效率上界和预测精度参数的 estimand。
当前 Frontier：Semiparametric Efficiency 在缺失数据 & Two-Phase 下的新构造
- Robins, Rotnitzky & Zhao (1994)：建立了缺失数据模型下的 semiparametric theory，特别是增强逆概率加权（AIPW）和效率影响函数（efficient influence function）的构造。本文作者直接继承了这个理论的主体架构。
- Tan (2006, 2010)：发展了不需要假设 propensity score 模型完全正确时仍保持双稳健性的满意估计方法。本文作者未直接引用 Tan 的后续工作，但在 efficiency bound 的证明里，当 selection probability p(s) 被估计时，他们声称 estimator 的 asymptotic variance 可达到 lower bound（等于 p(s) 被已知时的 bound），这本质上是一种 misspecification-robust 的表现。
本文的位置：本文处于该方向的第一次全面理论整合阶段。不同于以往只做应用（用谁的 estimator 都是近似最大似然或简单两步法），本文不仅构建了一个 Two-Phase Design 下的半参数统计框架，而且同时给出了 logistic risk model coefficients (θ) 和 AUC 的效率上界与达到该上界的 estimator。这使得本文可被视为该子领域的“理论基准线”。

1.3 子线索聚类¶

线索 A：Two-Phase Design 的核心理论 (Breslow & Chatterjee, 1999; Lawless et al. 1999)
- 共同逻辑：Phase I 有 N 个样本，但只有一些粗糙的协变量 (U,S)；Phase II 的 n 个样本（n << N）收集详细的协变量 (X)。核心问题是利用 Phase I 的信息去纠正 Phase II 样本的选样偏差（一般通过权重或似然方法）。文献的核心争议在于“权重如何选取”——是使用简单的 Horvitz-Thompson 逆概率权重（文献中常见的 HT 法），还是使用更高效的 augmented 权重（本文的方法基础）。
线索 B：基于 Selection Probability 建模的 EHR 数据利用 (本文自身发展的分支，前期文献包括 univariate method/ copula method)
- 想法：EHR 的外部数据稀缺性不是随机的，而跟一个 EHR 可计算的变量（如一个初估的风险分数 p_pre）有强相关。本文把这种“外部数据可及性”显式建模为一个关于 p_pre 的连续函数 p(s)。这比传统“缺失因变量”设定更精细——因为 p(s) 由研究者构造（或假设），因此 Phase I 的 p(s) 信息可以用于构造高效 score function。
线索 C：预测精度估计的效率理论 (本领域较冷门)
- 大多数关于 AUC/ROC 的方差估计（如 bootstrap, Delong's method）是完全非参数的，收敛速率可以是 O(1/√n) 但无法利用 Phase I 的预测分数 ^Y_pre 来降低方差。本文是第一批给 logistic model 下的 AUC 构造出半参数高效 estimator 的工作之一（且仅用于 Two-Phase 结构），把估计 AUC 的“统计效率界”纳入了优化范畴。

1.4 核心问题与瓶颈¶

问题1：如何在同时有 Phase I (全量) 和 Phase II (昂贵高质量数据) 时，估计 Phase II 变量的 logistic 系数？
- 瓶颈：直接用 Phase II 最大似然（仅 n 样本）忽略了 Phase I 的预测分数信息。简单 IPW（逆概率加权）的权重不稳定，且可达的效率界离全样本效率界很远（如果权重是被估计的权重，其方差长啥样？）本文改变了“权重建模”角度：通过拟合一个随预测分数光滑变化的 p(s) 函数，大大稳定了权重，并证明了在给定 p(s) 被正确建模但不必完美估计时，θ 的渐进方差仍等于 Phase II 全量观测的反比 Fisher 信息 + 一些由于 p(s) 估计带来的量（但比 IPW 小）。
问题2：构建 AUC 的高效 estimator
- 瓶颈：AUC 是由两个不同个体 Y=1/Y=0 的预测分比较得到的双分量 U-statistic。在缺失数据下，直接利用观测到的 Y 预测分做配对计算会导致 missing not at random 视角下的偏差。本文把 selection probability 和 Phase I 的数据一起引入来做 double robust 去偏，这是一个关键贡献。
问题3：怎样做到“模型正确但节省Var”，或“允许 model misspecification 依然可行”？
- 本文 focus on 正确建模（assume p(s) model is correct），对于模型误设情况，作者在定理中使用了 “if the selection model is correctly specified” 的条件，但他们的 practical 推荐在使用轻度参数化（如 logistic 或 SM）时就 double robustness 嘛？论文中只 small scale 地 check 了 selection model 设定错误的模拟。

1.5 ⚠️ 作者的 Framing（必须标注成“这是作者的说法”）¶

作者把缺口 frame 成：现有文献中“使用 Two-Phase Design 方法进行 EHR + 外部数据整合时”，大多针对的是 survival 终点 或 简单的 Case-control 设计，或者“仅估计 logistic 系数”而“不评估其他预测精度指标（如 AUC）”。因此，他们将自己的方法定位于一个“同时做模型拟合和评价、且由 Phase I 信息提供额外效率增益”的通用框架。
作者淡化的竞争路线：他们没有深入比较 DP (Data-adaptive Prediction of the missing covariates) 或 MI (Multiple Imputation)。原因是：MI 通常假设 Missing at Random (MAR)，但这里外部数据的 missing 是典型 Not Missing at Random (NMAR) ——因为是否去参与生物银行或填写问卷，与患者本人的病情严重程度（通常反映在初评风险里）强相关，且这个导致 missing 的变量还被建模了。他们用 Two-Phase 避免了 MAR 假设被违背，“他们的判断是IPW/两阶段方法在这一设定下天然优于MI”。
什么明显该被引、却没出现在 intro 里：
- 圈内人（懂缺失因果的人）会问：作者用 p(s) 建模缺失决策。如果 p(s) 不 (only) 通过 p_pre 起作用，它跟 X（真实结果状态）是完全独立的吗？换句话说，假设 Y — — — (p_pre) — — — R？作者没说 R 对 p_pre 的依赖是否屏蔽了所有对 Y 的路径（可由 DAG 表示），这导致他们的“selection probability 正确设定”是一种强假设。如果 violation，他们的 model 其实进了 MNAR 的范畴，但作者没引用 literature on marginal sensitivity models 或者 instrumental variable in selection 方法。这可能是一个值得研究者去查的缺口：如果 p(s) 并非仅通过 p_pre 影响 R，这个方法能 robust 吗？

1.6 张力¶

未见明显对立引用。主要被引的工作（Breslow、Robins、Zhao 等）属于互相补充而非矛盾。但在实际 EHR 匹配中，文献中确实存在“仅用 EHR 内的现有变量预测” vs “做一次昂贵的 sub-sample 采集”的巨大张力，作者在实证里用了一个 small-scale survey 收集 PRO，这正力图调和这种张力。

二、最核心、最简单的例子 / 数学问题¶

2.1 第一步：把符号 / 模型 / 可观测数据交代清楚¶

符号： - i = 1, ..., N：EHR 数据库中所有患者的索引（全样本，Phase I 可观测）。N 通常很大（几十万）。 - Y_i ∈ {0, 1}：结果变量（如，短期死亡率），观测于整个 EHR Phase I。可观测。 - U_i：EHR 中已记录的全部协变量（如年龄、基础疾病诊断）。可观测（全样本）。 - S_i：基于 U_i 初步计算出的一个 预测分数，定义为 S_i = p_pre(Y_i=1 | U_i)，用 EHR 内部的粗糙模型算出。可观测（全样本）。 - R_i ∈ {0, 1}：外部数据可用性指示变量。R_i=1 表示第 i 个病人有来自外部（如 biobank / survey）的更精细协变量 X_i。可观测（全样本）。 - X_i：通过外部数据获得的、额外的精细协变量（如基因变异、原发肿瘤全基因组、详细的病理分期、患者报告的疲劳问卷分）。只在 R_i = 1 时才可观测，否则为缺失。 - Phase I 样本大小 = N (全部)；Phase II 有效样本大小 = n = ∑R_i (其中心外部数据子集)。 - 目标参数 θ：一个 d 维向量，定义为 logistic model 的回归系数：P(Y_i=1 | S_i, X_i) = expit(θ_0 + θ_S * S_i + θ_X^T X_i) (这里为了最简，省略了U的直接影响——我们其实假设U的信息完全编码在 S 和 X 中)。θ是我们要估的。 - 目标参数 AUC(θ)：基于拟合的 risk score η_i(θ) = θ_0 + θ_S S_i + θ_X^T X_i，定义 AUC(θ) = P(η_i > η_j | Y_i = 1, Y_j = 0)，即 model 正确时的预测区分能力。是标量。也要估。 - p(S_i) = P(R_i = 1 | S_i)：selection probability，假定是 S 的一个连续函数（如 logistic 形，logit(p(S)) = α_0 + α_1 S）。这是 模型假设。

数据生成机制 / 统计模型（简化版）： 1. (U_i, Y_i) 从某超总体中独立同分布观测得到（Phase I）。 2. S_i = f_pre(U_i)，用一个已知函数从 U 计算 S（比如从U跑一个logistic小模型得到 risk 分）。 3. 外部数据可用性决策：给定 S_i 值，患者的 R_i 从分布 Ber(p(S_i)) 中独立掷出。关键假设：R_i 与 (X_i, Y_i) 可能有关联，但仅通过 S_i（即 R ⊥ (X, Y) | S）。这是一个常规 MAR（随机缺失）假设。 4. 如果 R_i=1，则获得额外的 X_i（来自 Biobank 测序结果或问卷）。如果 R_i=0，X_i 缺失。

可观测数据总结： - 对于所有 N 个样本，你能观察到的： (Y_i, U_i, S_i, R_i) - 对于 R_i=1 的子样本（n 个），你能额外观察到的： X_i - 你想从这 N 个观测和 n 个 X 观测中做的事：① 高效估计 θ；② 高效估计 AUC(θ)。

2.2 第二步：讲最小内核¶

剥掉多数假设后的最小特例：令 d = 2 (θ 只有截距和 S, X 的系数各一个)，假设 p(S) = logit(α_0 + α_1 S) 参数模型是正确的，且 X 是二值变量（例如，X=1 表示某种高危基因型存在）。并且无异常点。

你想证明的核心想法（用“一看就懂”的方式讲）：如果你有 Phase II 那 n 个含有 (S, X, Y) 的全部信息的样本，你可以跑一个标准的 logistic 回归得到一个估计量 θ_naive。其方差大约是 (n * [Var of (S,X) under joint distribution])^{-1}。

但你还有 Phase I 的 N 个不含 X 的样本，只有 (S, Y)。问题在于，只用 Phase I 信息不能算 X 参数（因为没 X 信息），但 Phase I 能告诉你关于 S 参数的“先验”信息。

本文的 trick（最小内核）：把你的 θ_naive 估计看成是 weighted score equation，然后通过 Phase I 的数据，高效地补上 Phase II 里缺失的信息，从而降低方差。

具体地（这个例子最简）：

一个简单的联系：把完整的对数似然 score 方程拆成 θ 和 p(s)。
构造 Ahuja 一类的“增广方程”：在 Phase II 样本上，你其实可以回插 Phase I 的 (S, Y) 来估算 Phase II 缺失的那些 (未观测到的 X) 会导致什么“惩罚”。

再具体到AUC的例子（最小化例子可以不写，但为了帮读者理解逻辑，提一句）：

对于 AUC(θ)，标准估计只需要比较两个人的η值。现在，因为其中一个病人的X缺失，η未知。本文告诉你：我们不是放弃这个病人，而是用 E[η_i(θ) | Y_i, S_i]（可用 Phase I 信息及其对缺失X的某种条件期望计算）来填充，而权重的调整（通过 inverse of p(S)）可以确保如两个人都缺失X，对AUC的贡献被有效计算进方差的降低。

一句话总结核心数学命题：令 ψ_eff 为待估参数的最小方差无偏 score，则本文证明了存在某个基于 p(S) 的 Augmented Inverse Probability Weighting estimator（在θ被取代前一次估计出AUC）的思想，其方差达到半参高效界，且该界小于仅使用外面那n个点集计算出的AUC的方差。

三、这篇论文做了什么¶

3.1 三句话总结¶

问题：在 EHR + 外部数据（Biobank/调查）的两阶段抽样设定下，如何高效估计采用 logistic risk model 的参数 θ 和其对应的 AUC，且利用全量 Phase I 数据提升效率。
方法：基于 Two-Phase Design 的理论，首次提出为外部数据的可用性（selection probability）显式建模，并据此构造了 log-odds ratio 的 augmented logistic estimator 和 AUC 的 augmented U-statistic estimator，二者均可通过 influence function 构造证明其达到半参效率界。
结论：模拟和实证（PennMedicine 肿瘤患者数据）表明，该方法充分利用了 Phase I 的 (S, Y) 全量信息，在保持无偏性的同时实现了比仅用 Phase II 样本的最大似然估计法（naive）和简单 IPW 更低的方差，尤其是在外部数据比例很低（n/N 很小）时效率改善显著。

3.2 关键设定与假设¶

在第二节最小记号基础上补全： - 假设 1（Random Sampling / Design）：整个 EHR 样本是独立的底层人群的一个简单随机样本（或至少抽样过程在给定 S 情况下被正确建模）。 - 假设 2（Selection Probability 建模正确）：P(R=1 | S, Y, X) = P(R=1 | S) = p(S; α)，α 为一未知的有限维参数，且该模型是正确指定的。这比“完全随机缺失”更弱，但仍是强假设：即外部数据是否可用并不依赖于疾病的真实结果（Y）本身或精细协变量（X）, 仅依赖于一个由EHR初期粗糙协变量算出的预测分数S。 - 假设 3（Logistic模型正确）：潜在的结果模型 P(Y=1 | S, X) = expit(θ_0 + θ_S S + θ_X X) 是正确的。 - 假设 4（正则性条件）：p(S; α) 有界且远离 0 和 1，以及参数空间紧致、Fisher信息有界等保证大样本理论收敛的标准条件。 - 与以往文献的区别：相比于 Breslow (1999) 假定 p(S) 为仅依赖于预先确定的阶层（strata）设计，本文允许 p(S) 为 S 的连续光滑函数；相比于单纯添加外部变量（如抛掉无外部数据的样本），本文利用 Phase I 的 (S、Y) 极大地去偏移（debiasing）且降低 Phase II 估计的方差。

3.3 主要结果¶

结果1（对 θ 的估计效率，Sec 3.1-3.3）
- 定理 1 & 2：构造了一个基于 estimating equations 的 θ_hat：通过在 Phase II 样本(式 3.1) 上调用 U_eval，注入了 Phase I 的 E[U_eval | Y,S] 部分。证明该估计量的渐近方差等于 I_θ^-1 一个界——即当 p(S) 被已知和未知（需用 Phase I 估计）两种情况时，该估计量均能达到 Phase II 子样本的全信息极值的最大似然效率界。
- 直觉：p(S) 被估计后，它的误差被 Phase I 的 (Y, S) 打平，最后 θ 的方差等于假设缺失值被完美填充的 Phase II 全模型 MLE 的方差。
结果2（对 AUC 的估计效率，Sec 4.1-4.3）
- 核心：AUC 叫做 A(θ)。构建了一个 Influence Function (IF) 对于 A(θ)：这个 IF 由两部分构成：一是 Phase II 中成对预测分的比对权重（按 p(S) 重加权），二是。基于对端模型缺失 X 的条件期望补齐（利用 Phase 1）。定理 3 声称该估计量的方差达到了 AUC(θ) 的 semiparametric efficiency bound，并且在模拟中 SD/SE 匹配较好。
- 技术难点（作者原话）：“直接对 AUC 这种双变量 U-统计量构造增广方程需要计算 E[x_i | Y_j, S_j]... 且需计算一个对称形式的二手期望...”

3.4 证明路线与技术技巧¶

整体路线（log-odds ratio 部分）：
1. 写出完整数据下的对数似然：基于 P(Y|S,X) = expit(θ0+θS S+θX X) 写出所有个体的似然（但 X 缺失者无贡献）。
2. 缺失数据视角下的 IPW 方程：对 Phase II 的样本，写一个加权 score equation：∑ R_i / p(S_i) * S_eff (Y_i, S_i, X_i; θ) = 0。(这是黄老虎 HT 方法)。
3. Augmentation：为了去掉 R/p 的波动，减掉R的波动部分：构造出 influence function 里担任“控制函数”的部分 φ(Y_i, S_i)。这里证明 If we subtract (R_i/p(S_i) - 1) * E[S_eff | Y_i, S_i]，最终的影响函数变成 R_i/p(S_i) * [S_eff(Y_i, S_i, X_i; θ) - E (S_eff | Y_i, S_i)] + E[S_eff | Y_i, S_i]，完全排除了 Phase II 的随机性在 R-driven 层面引发的波动。核心技巧：期望项的估计完全来自 Phase I 全量数据，因此即使 Phase II n 很小，只要 Phase I N 很大，这一部分的方差被压的很低。
关键跳跃点：
- 在估计 E[S_eff | Y_i, S_i] 时，作者巧妙地将其还原为 ∂/∂θ log P(Y|S) 的那部分，路径导数被证明可直接通过 Phase I 的 logit model 近似（即使它不含 X），因此可以用 n 场之外的 Phase I N 样本的回归来拟合出 E(S_eff | Y,S) ——这绕过了对大规模 Phase II 的依赖。
- 处理 AUC 的校正里的嵌套期望：AUC 是 order-2 U 统计量，两个个体 (i,j)。构造时要用到 Phase I 的 (Y_i, S_i) 和 (Y_j, S_j)。【难点】要推出求 E[η_i(θ) | Y_i, S_i] 并二次求期望的 estimator 在 Phase I 上是一致的。作者通过一个经验过程正则性条件保证了这样一来处理不导致二阶偏差。
技术技巧点名：
- Empirical Process Theory：证明 Phase I 估计的 E(..|Y,S) 除代入原方程后的一致收敛性。 2. U-统计理论：近似 Phase I 对 AUC 的影响和方差公式时，需要用到U-统计量的二阶段期望收敛性质。3. Influence Function (效率影响函数)：是全程的核心构造方法。

3.5 真实例子及应用¶

数据来源：宾夕法尼亚医院系统（Penn Medicine）的 EHR + 一项针对肿瘤患者的 PRO（Patient-Reported Outcomes）调查。共 N = 11,389 名肿瘤患者有 EHR 数据（年龄、基本合并症，由此自动算出 Phase I 的 S——即基于粗糙变量的死亡率预测分数）。其中，只有 n = 1,021 名患者（R=1）有额外的调查数据（即 X，包含疲劳、疼痛等10项患者报告的副作用）。
研究目标：预测这些肿瘤患者的 6 个月全因死亡率（binary Y）。
如何使用方法：
- 阶段1：基于 EHR 全样本（N=11,389）算出一个 S（初步预测分）。
- 阶段2：对有 PRO 的那 n=1,021 的人的 X（如 fatigue score）和 Y（生存状态）用本文方法拟合 full logistic model，并且p(S)关于S建模（logistic，可得），再构造 estimator。
得到的结果：
- 系数估计：本文的 θ_X （如PRO疲劳项）的估计值比仅用 1,021 个样本的 naïve 估计更稳定（标准误缩小了 20-35%），且与病理上分行显著意义保持一致。
- AUC：利用本文方法估计出的 AUC 约为 0.72~0.78（依赖产科模型），标准差较 Naïve 缩小约 20%，并且因为使用了 Phase I，提供了一个关于 “在全人群中PRO模型更优是显著的”更强的统计证据。作者提炼: “本文的方法证明了即便对多数人未采集数据，通过约1/10的内圈数据建高效甲模，提供全群效力推断是可行的。”
这个例子想说明什么：
- 不是所有 11,000 人都有PRO，但你用 1,021 个人的PRO去建模时，利用其他 10,000 人的基本血压信息等 Phase I 资料，可以大大提升 PRO 两个参数的显著性，并且证明整个预测系统对于全人群更显著。

3.6 🔎 结论是否比证明窄¶

是的，存在一处需要留意：
- 作者在 Abstract 和某些较大范围的 claim 里(如“适用于任何类型的 per-outcome”),但在 证明部分(Section 3.2)，Lemma 2中，对 alpha 的估计（selection model）是 由 Phase I（所有包含 S 的样本） 极大似然直接极值得到的。这要求 Phase I 包括了所有 R=0的人。这个条件是符合设定的，但是如果 Phase I中存在因日期变化导致的选择性上市（如biobank招募期与死时间不对等）其 p(S) 可能不一定正确。作者在应用篇是以 固定的、看完全部EHR后再拟合 开头，所以对 alpha 的估计没问题。但若有人要用这个方法做 实时预后 (需要在新佚病人源源不断进入时才运行)，需要对 alpha 进行递推估计，这个条件就不满足了。作者全文没有讨论这一潜在的局限性。

四、开放问题（扎根具体语句）¶

Selection probability 模型的非参数化：本文的 p(S) 采用参数模型（logistic 形）。如何将其推广到 p(S) 为完全非参的函数（结合高阶影响函数/机器学习），并证明依然达到半参数效率界？（扎根于：Sec 3.2 定理2假设中： "given the selection model p(S; α) is correctly specified... "——这对the selection status的 参数建模 提出了刚性要求。若官方设计的缺失机制未知，用数据驱动方法估计 p(S) 可能破坏证明中建立的有限参数协方差矩阵的优化结构）。
处理连续结果变量与其它 loss (Lin's concordance)：本框架目前在 Binary Y 下运作（分类 AUC / logistic）。如何将其推广到连续的生存时间（Cox）或连续的期末指标（如舒张压顿峰） & 其对应的 C-index (Harrell's C) 的半参数效率界估计？（扎根于：Sec 4.4 "Future Work"：直接写明扩展至 survival data 是重要方向，但尚未在本文中得到“理论界”）。这对你（研究者）是开放的战场：你的数学统计（生存分析 + 半参数U-统计量）与本文的匹配度很高。
真实效应 vs. 计算成本：当 Y 不平衡时（例如死亡率 <5%）
- 真正的gap：本文在 AUC 部分（Section 4）通过反概率权重纠正了 Phase II 样本不代表全体的选择偏差。但如果外部的 R=1 组恰恰是疾病极重或极轻的（幸存者偏差），p(S) 的模型估计在 0 或 1 边界非常接近时，会导致 U-statistic 计算极不稳定——本文的模拟没有严格对这种 extreme selection 做敏感性验证。
- 值得去查的另一个问题：本文的推理假设 Phase I 和 Phase II 都在同一底层人群中产生，完全忽略了 EHR患者库本身的选择偏差问题（即某医院的患者本身不是区域内临床随机抽样的）。作者在 intro 没有任何文字讨论把 S计算扩大到纠正EHR 入库选择偏差。能否结合 半参数 missing-data 理论进一步把 double robustness 推至 EHR代表性问题？有文献在做吗？

Maintained by 陈星宇 · Homepage · Source on GitHub