A semiparametric method for addressing underdiagnosis using electronic health record data¶

作者: Weidong Ma, Jordana B Cohen, Jinbo Chen
来源: Biometrics
主题: 流行病学
相关性: 7/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf157

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是从正‑无标签（Positive-Unlabeled, PU）数据中估计个体患病概率的问题，这是 EHR 数据分析中特有的结构性问题：确诊（阳性）患者的疾病状态已知，但“未确诊”群体中混杂了漏诊者与真正无病者，因此无法获得明确的阴性标签。由于传统监督学习需同时有正负训练样本，PU 数据迫使统计方法必须在不依赖阴性金标准的情况下进行识别或估计。本文通过主动验证（ascertainment）一小部分未标注患者的真实状态，将 PU 数据转化为半参数缺失数据问题，并发展出n⁻¹/²‑相合且半参数有效的估计量。该方向交叉了三个子领域：PU learning、缺失数据半参数效率理论、以及 EHR 中的诊断偏倚校正。

发展脉络¶

根据摘要中透露的关键信息（“The key challenge is the positive-unlabeled EHR data structure” 以及 “we propose ascertaining condition statuses for a small subset of unlabeled patients”），并结合该领域的通用文献，可将脉络梳理如下：

奠基工作：经典 PU learning
早期 PU learning 假定已标记样本是总体中阳性个体的随机子样本（即“selected completely at random”假设），如 Elkan & Noto (2008) 和 du Plessis & Sugiyama (2014)。这些方法通常分为两步：先估计先验概率 P(Y=1)，再学习分类器。其核心局限是假设阳性标记的选取机制与特征无关——这在 EHR 诊断数据中几乎不成立（诊断概率随症状、就诊频次、医生偏好变化）。
后续工作放宽了选取机制，例如 Scott (2015) 提出“case-control”设定下仅需 P(标记|Y=1) 已知，但仍旧需要较强的机制假设。
引入验证子集
在生物统计与流行病学中，对未标注病例进行主动验证（“gold‑standard” ascertainment）是一种常见做法，例如 outcome‑dependent sampling、two‑phase designs（Breslow & Chatterjee, 1999; Reilly & Pepe, 1995）。这些方法利用部分金标准结果来提高估计效率，但通常假定标记机制可以完全模型化。
本文创新在于：主动验证子集并未全部用于训练分类器，而是作为识别性的锚点（identification anchor），结合半参数效率理论构造出估计量——这意味着验证子集可以很小（占样本的很小比例），却足以消除经典 PU learning 中不可识别的问题。
半参数效率理论在缺失数据中的应用
自 Robins、Rotnitzky & Zhao (1994) 起，半参数效率理论提供了构造 n⁻¹/²‑相合估计量及其方差的一致估计量的系统方法，核心是有效影响函数（efficient influence function, EIF）与 nuisance 参数的正交性。Tsiatis (2006) 将其推广到一般的缺失数据结构。
本文显然将这些工具应用于 PU + 部分验证数据的设定，从而获得了双重稳健性（double robustness）的潜力（尽管摘要未明确提及，但 EIF 估计通常具有此性质）。
本文的位置
作者将 PU 数据 + 主动验证结构刻画为一种半参数缺失数据问题，其中缺失指示为“未诊断且未验证”。通过构造 EIF 估计量，本文既避免了经典 PU learning 对标记机制的强假设，又比简单的“只用验证子集拟合分类器”更有效率（因为利用了未验证未标注样本的特征分布信息）。在方法论上，本文位于“PU learning + 高效验证设计”与“半参数效率 + 流行病 EHR”的交汇点。

子线索聚类¶

聚类	主要工作（代表性）	它们在做什么
经典 PU learning（分类器）	Elkan & Noto (2008); du Plessis & Sugiyama (2014); Scott (2015); Blanchard et al. (2010)	假设标记为随机选取或类先验已知，估计 P(Y=1
两阶段验证设计（two‑phase / verification sampling）	Breslow & Chatterjee (1999); Reilly & Pepe (1995); Pepe et al. (1999)	对部分样本进行金标准验证，用加权或伪似然方法整合验证与未验证数据。聚焦于相合性，而非半参数有效性。
半参数效率缺失数据	Robins & Rotnitzky (1992); Robins et al. (1994); Tsiatis (2006); van der Laan & Robins (2003)	在 outcome‑dependent 或 coarsened data 下构造 n⁻¹/²‑有效估计量，给出 EIF 与双稳健估计。
EHR 诊断偏倚校正	Bastarache et al. (2018); Denny et al. (2013)	以 phenotyping 算法识别 EHR 中未编码的疾病，但通常依赖于专家规则或机器学习，缺乏统计推断框架。

这个方向在追问的核心问题¶

识别问题：仅用 PU 数据，在无任何额外假设下，P(Y=1|Z) 是不可识别的。需要多少、或者以何种形式的外部信息（如随机标记样本、已知先验、工具变量）才能实现识别？
效率问题：当部分验证子集可用时，最优的整合策略是什么？如何利用未验证样本的特征分布信息，达到半参数有效界？
稳健性问题：关键假设（如验证子集是否随机、labeled positive 是否有假阳性）被违背时，估计量的偏差多大？能否构造双稳健估计量？
实践问题：在大型 EHR 数据中，主动验证通常昂贵（手动 chart review）。如何在有限验证预算下设计采样策略，最大化估计量的精度？

已知瓶颈：经典 PU learning 对标记机制的依赖很强；验证采样设计往往假设阶段之间的独立，忽略真实诊断过程产生的依赖；EHR 数据的高维特征则给半参数方法带来 neighborhoods 调整的挑战。

⚠️ 作者的 framing¶

由于未获得论文引言全文，以下判断基于摘要中的语言和该领域常见 framing 策略（研究者可自行核查论文引言具体语句）：

作者把缺口 frame 成：现有方法主要关注分类或变量选择，但缺乏一个能结合验证子集、在半参数框架下实现 n⁻¹/²‑相合且有效推断的统计方法。本文被定位为“first”这样做的方法（摘要中提到“develop a novel statistical method… study the asymptotic properties”）。
被淡化或回避的竞争路线：
纯生成式方法（如 Gaussian mixture 模型用于 PU 数据）本可以完成同一任务，但可能因为效率或稳健性不足被跳过。
EM 型算法结合验证子集（如 semi‑supervised learning with label propagation）也未被提及。这些方法在 EHR 文献中常见，但通常缺乏渐近理论。
什么明显该被引 / 该存在、却没出现在 intro 里？（推测性问题，表示研究者可去核查）
Proximal causal inference 中关于“负对照”进行不可识别性校正的工作（Miao et al., 2018; Tchetgen Tchetgen et al., 2020）与本文结构相似——都是用辅助变量解决未观测的混杂/缺失。若本文关于识别性的假设（验证子集随机性）被违反，此类方法可能是替代方案。
直接来自 epidemiology 的“验证偏倚”（verification bias）校正方法（Begg & Greenes, 1983; Zhou, 1998）虽源自诊断测试准确率研究，但 intent 相似，可能被引用作为对比。

张力¶

未见明显对立引用。经典 PU learning 与两阶段验证设计之间主要是在方法复杂度与假设强度上的梯度差异，而非逻辑矛盾。一个可能（但未在摘要中呈现）的张力是：完全随机验证 vs. 条件验证（outcome-dependent）的设计选择会直接影响 EIF 的形状，作者可能只讨论了简单随机情况，这一缺口值得关注。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设总体为临床人群。对每个个体，定义：

记号	含义	类型
\(Y \in \{0,1\}\)	疾病真实状态（1=有病，0=无病）	潜在变量（unobservable for most）
\(Z \in \mathbb{R}^d\)	EHR 特征向量（年龄、实验室检查、诊断代码等）	可观测
\(D \in \{0,1\}\)	是否在 EHR 中被正式诊断（diagnosed）	可观测
\(V \in \{0,1\}\)	是否被选入主动验证（ascertained）子集	可观测

假设： - 无假阳性：若 \(D=1\)，则 \(Y=1\) （确诊即真实患病）。这是 PU learning 中的标准设定（"positive" 标签无误）。 - 验证提供金标准：若 \(V=1\)，则通过 chart review 等手段获得真实 \(Y\)。 - 验证机制：未在摘要中明确给出，但最简单的设定是随机验证：\(V \perp Y \mid Z\)（验证概率仅依赖于特征，或完全随机）。为便于理解，下文先假设完全随机验证（验证子集是简单随机样本）。

可观测数据：从总体中抽取 \(n\) 个独立同分布个体。对每个个体，观测数据为

\[O_i = (Z_i, D_i, V_i, \, \underbrace{D_i Y_i + V_i Y_i}_{\text{observed } Y_{\text{obs}}} ).\]

具体来说： - 若 \(D_i=1\)，则 \(Y_i\) 观察到（=1）； - 若 \(D_i=0\) 且 \(V_i=1\)，则 \(Y_i\) 也观察到； - 若 \(D_i=0\) 且 \(V_i=0\)，则 \(Y_i\) 缺失（只知 \(Z_i\) 与未诊断状态）。

目标 estimand：个体患病概率函数

\[\pi(z) = P(Y=1 \mid Z=z).\]

注意：本文的重点是估计这个条件概率（而非单纯做一个分类器），并且要求得到 \(n^{-1/2}\)-相合且半参数有效估计。

潜在但观测不到的量：
- \(Y\) 对 \((D=0, V=0)\) 的个体缺失。
- 整个数据生成过程中，\(D\) 与 \(Y\) 的关系（诊断机制）可能依赖于 \(Z\) 以及未观测因素（如医生行为），但本文不需要对诊断机制建模——这是 PU + 验证数据带来的识别性优势：只要验证子集提供部分 \(Y\)，便可识别 \(\pi(z)\)。

第二步：最小内核¶

剥去所有一般性假设，支持整篇论文的最小特例是：

一维特征 \(Z\) 为 binary（0/1），且验证子集为完全随机抽取（忽略采样设计）。
假设模型为最简单的形式：\(\pi(z) = \exp(\beta_0 + \beta_1 z)/(1+\exp(\beta_0+\beta_1 z))\)。

在这个特例下，数据可简化为下表（每格为样本计数示意）：

诊断状态	验证状态	已知 \(Y\)	特征 \(Z=0\)	特征 \(Z=1\)
D=1	总有 \(Y=1\)	是	\(n_{p0}\)	\(n_{p1}\)
D=0	V=1	是	\(n_{v00}, n_{v01}\)	\(n_{v10}, n_{v11}\)
D=0	V=0	否	\(n_{u0}\)	\(n_{u1}\)

在第四行（未诊断且未验证）中，我们只知道特征 \(z\)，不知道 \(Y\)。
经典 logistic 回归无法直接使用，因为缺少阴性样本。

核心思路：利用验证子集的 \(Y\) 信息，建立关于 \((\beta_0,\beta_1)\) 的估计方程，再将未验证样本的特征边际分布 \(P(Z=z \mid D=0, V=0)\) 作为一个“额外矩条件”来提升效率。

具体地，写出完全数据的似然（若所有 \(Y\) 已知）为：

\[l(\beta) = \sum_i \,[Y_i \log\pi(Z_i) + (1-Y_i)\log(1-\pi(Z_i))].\]

对于缺失 \(Y\) 的个体，其贡献是边际似然（对 \(Y\) 积分）：

\[\log \left[ \pi(Z_i)^{Y_i ?} \right] \text{无法直接写，应用条件期望。}\]

在 PU+验证设定下，可以用 influence function 方法得到不需直接积分的估计。一个经典构造（模仿 Robins et al. 1994 用于 outcome missing at random 的情况）是：

\[\psi_{\text{eff}}(O; \beta, \eta) = w \cdot \nabla_\beta l_{\text{obs}}(\beta, Y) + \text{augmentation term}.\]

这里 \(\eta\) 包含 nuisance 参数（如 \(P(Y=1|Z)\) 或 \(P(V=1|Z)\)），正交于 EIF。

在最小特例中，该估计方程可显式写出： 1. 对诊断阳性者（D=1, V 任意）：用其真实 Y=1 及观测 Z 贡献标准 logistic score。 2. 对未诊断但验证者（D=0, V=1）：用其真实 Y 贡献 score。 3. 对未诊断且未验证者（D=0, V=0）：贡献一个残差修正项，形式为 \(\frac{1}{\hat{P}(V=0|Z)} [ (Y_{\text{imputed}}?) ...]\)。

最终估计量通过样本来解方程 \(\sum_i \psi_{\text{eff}}(O_i; \beta, \hat{\eta}) = 0\) 得到。因为在特例下参数只有两个，可以用解析或数值法求解，且大样本下 \(\hat{\beta}\) 是 \(\sqrt{n}\)-相合且达到半参数有效界。

这个最小内核揭示了论文的核心数学贡献：在 PU 数据 + 部分验证这个“部分缺失 Y”的结构下，存在一个 EIF 使得估计既不用对诊断机制建模（因为验证子集提供识别性），又比“只用验证子集做 logistic 回归”更有效（因为利用了未验证样本的 Z 分布）。论文的一般化则是将此特例推广到高维特征、可能的非参数模型、更复杂的验证采样设计。

三、这篇论文做了什么¶

三句话¶

研究问题：在 EHR 数据的正‑无标签（PU）结构下，利用对部分未标注患者进行主动验证获得的金标准，半参数地估计个体患病概率函数 \(P(Y=1|Z)\)。
核心工具：基于半参数效率理论构造估计量的影响函数（EIF），从而得到 n⁻¹/²‑相合且渐近正态的估计量，且该估计量达到半参数有效界。
主要结论：通过模拟研究验证了有限样本下的良好表现，并在 Penn Medicine EHR 数据中应用于识别漏诊的非酒精性脂肪性肝炎（NASH）患者，展示出该方法能够从 PU 结构中提取出有意义的风险概率。

关键设定与假设¶

由于未获得完整论文正文，以下设定根据摘要及该方向通用实践推断，研究者需在原文中核对具体标记。

可观测数据结构：\(n\) 个独立观测 \(\{ (Z_i, D_i, V_i, Y_{\text{obs},i}) \}_{i=1}^n\)，如第二节所述。
假设 1（无假阳性）：\(D=1 \Rightarrow Y=1\)。这是 PU 学习的核心假设，若违反（确诊出错），则估计量会系统上偏。
假设 2（验证子集质量）：验证过程无误差（chart review 获得真实 \(Y\)）。若验证也有测量误差，需额外校正。
假设 3（验证机制）：最关键。文中可能假设验证为条件随机（conditional at random），即 \(V \perp Y \mid Z, D=0\)，或者更弱一些。在缺失数据术语中，这对应 “outcome is missing at random (MAR) given Z in the unlabeled group”。该假设是可检验的吗？论文中应给出讨论。
假设 4（模型设定）：作者可能采用了参数化模型 \(\pi(z) = \pi(z; \beta)\)（如 logistic）作为工作模型，但 EIF 构造要求它在正确模型下有效——若模型 misspecified，估计量仍 n⁻¹/²‑相合于某个“最不错误”的参数？摘要未提供稳健性细节。

相比经典 PU learning，本文放宽了“标记机制随机”的假设，因为验证子集引入了部分金标准；但强化了验证机制的假设，要求验证子集无偏。

主要结果（推断）¶

渐近性质：由摘要声明 “We study the asymptotic properties of our method” 可推知，已证明估计量 \(\hat{\beta}\) 或 \(\hat{\pi}(z)\) 是 n⁻¹/²‑相合且渐近正态（CAN）的，且方差达到半参数有效界（即不存在任何正则估计量具有更小的渐近方差）。
有限样本：通过模拟研究进行评估，通常包括偏倚、方差、覆盖概率、与基线方法（如仅使用验证子集的 logistic 回归、传统的 PU 学习法）的比较。作者可能报告了在不同验证比例、不同特征维度下的表现。
真实数据应用：Penn Medicine EHR 数据，构建 NASH 漏诊风险模型。结果应展示候选漏诊患者的风险分布，以及通过图表验证。

证明路线与技术技巧¶

（以下为基于方法的合理推断，标注“推测”以示区分；实际细节需参见原文中定理与证明。）

整体路线（推测 3-5 步）：
写出完全数据下的得分函数：若 \(Y\) 全部已知，logistic 回归的 score 为 \(S_\beta(Y,Z) = Z(Y - \pi(Z; \beta))\)。
考虑缺失机制：给定实际观测模式（D, V），对缺失 \(Y\) 的个体利用 MAR 假设，计算逆概率加权（IPW）估计，但 IPW 通常未达到有效界。
构造正交化 EIF：对 IPW 估计增加一个 augmentation term，使之与 nuisance 参数（如 \(\eta = (\pi^*, P(V=1\mid Z))\) ）正交，从而得到 influence function \(\psi_{\text{eff}}(O; \beta, \eta)\)。具体做法模仿 Robins et al. (1994)：

\[\psi_{\text{eff}} = \frac{\Delta_{\text{obs}}}{\pi_{\text{obs}}(Z)} S_\beta + \left(1 - \frac{\Delta_{\text{obs}}}{\pi_{\text{obs}}(Z)}\right) \mathbb{E}[S_\beta \mid Z, \text{obs pattern}]\,?\]
此处 \(\Delta_{\text{obs}}\) 是 Y 被观测的指示，\(\pi_{\text{obs}}(Z)\) 是观测概率。因结构特殊（只有 D=0 & V=0 时缺失 Y），故只需估计 \(\pi_{\text{obs}}(Z) = P(V=0, D=0 \mid Z)\) 和条件期望 \(\mathbb{E}[S_\beta \mid Z, D=0, V=0]\)。
估计 nuisance 参数：用验证子集估计 \(\pi(z)\) 的初步值（如直接用验证子集做 logistic 回归作为初始估计），再用非参数方法估计 \(P(V=0, D=0 \mid Z)\)（例如通过倾向得分模型）。
得到最终估计量：求解 \(\sum_i \hat{\psi}_{\text{eff}}(O_i; \beta, \hat{\eta}) = 0\)，其中交叉拟合（cross-fitting）用来避免过高阶偏差。
关键跳跃点（最吃功夫的部分）：
如何选择 augmentation term 使得估计量与初始 nuisance 估计的速度条件无关（即允许 nuisance 估计以低于 n⁻¹/² 的速度收敛，EIF 估计仍 n⁻¹/²‑相合）。这需要证明正交性条件（the EIF is orthogonal to the nuisance tangent space）。这是半参数效率理论的标准化流程，但针对本文的 PU+验证结构，需要重新推导切线空间。
技术技巧点名：
Efficient Influence Function (EIF) 与正交性：核心工具，用于去除对 nuisance 估计的敏感性。
交叉拟合（Cross-fitting）：在 nuisance 估计与主方程之间避免 overfitting，通常用于 double/debiased machine learning。
经验过程（Empirical Process）理论：可能用于验证 Donsker 条件或 EIF 的 Lipschitz 性质。
双稳健性质（Double robustness）：若模型对 \(\pi(z)\) 或观测概率之一正确，估计量可能仍相合；但摘要未提，需原文核实。
高阶影响函数？ 因涉及半参数有效界，不排除使用高阶展开来控制偏差，但 PU+验证结构可能仅需一阶。

真实例子与应用¶

数据：Penn Medicine Electronic Health Record 数据，针对非酒精性脂肪性肝炎（NASH）。该疾病常无症状，漏诊率高。
如何应用：
将确诊 NASH 的患者视为 \(D=1\)（阳性）；未确诊患者中，随机抽取一小部分经过手工 chart review 验证其真实 NASH 状态（\(V=1\)）；其余为未标注。
特征 \(Z\) 包括实验室检查、用药记录、共患病编码等。
使用本文提出的半参数方法估计 \(\pi(z) = P(NASH | Z)\)，得到每个未确诊患者的估计风险。
得到什么结果：论文应报告受试者工作特征曲线下面积（AUC）、校准曲线、与仅使用验证子集模型的对比，以及发现的潜在漏诊 NASH 患者数量与特征分布。（具体数字需在原文中查阅。）
这个例子想说明什么：验证本文方法在真实 EHR 数据中可以从 PU 结构产生有临床价值的风险评估，且比只用验证样本的基准模型更高效（方差更小，或 AUC 更高）。

🔎 结论是否比证明窄¶

需在原文中检查以下可能的不匹配：

验证子集随机假设：证明中若假定完全随机验证，但真实例子中的验证采样可能不是完全随机（例如基于 risk score 的 outcome‑dependent sampling）。作者如何处理？若只考虑了随机验证，则真实例子中的估计量性质可能不适用。
参数模型 vs. 半参数有效界：若论文将模型限定为 logistic 回归，而真实函数为复杂的非线性，那么 EIF 达到的有效界只是最小化参数模型内的渐近方差，而非非参数有效界。摘要未明确是否推广到非参数模型（很可能只是参数/半参数）。
双稳健性声明：若文中 claim 了双稳健性，需确认证明中确实显示了在某一分量模型错误时仍相合；若未 claim，则估计量对模型 misspecification 可能敏感。

四、开放问题¶

以下为基于摘要和推测的开放问题，扎根于论文的局限或未来方向；研究者需在原文中寻找具体语句来确认。

验证子集的优化采样设计：本文的 EIF 基于验证子集是随机抽取或条件随机。在验证预算（人力 chart review）有限的情况下，如何设计非随机验证方案（如 case‑control sampling 或 risk‑score‑based oversampling）能进一步降低估计量渐近方差？ 这需要推导在新的验证设计下的 EIF 并证明有效界。扎根点：摘要只描述了“ascertaining condition statuses for a small subset”，未讨论采样设计的影响。
诊断机制与阳性标签可能误差：本文假设确诊患者必然真实患病（无假阳性），但实践中编码错误（misdiagnosis）存在。若阳性标签有误差，模型会如何？ 是否可能引入一类未知的“不确定阳性”？这需要放宽假设，可能结合测量误差模型或负对照。扎根点：该假设是 PU 学习的默认假设，但作者在 limitation 中应会提及（若有）。
扩展至纵向 EHR 数据：本文处理的是静态截面数据，但疾病状态随时间变化，诊断时间也是 event time。如何将本文半参数框架推广至疾病发生的动态预测，并处理时变的验证采样？ 这需要纵向因果推断中的边际结构化模型或 g‑estimation，并结合吸收状态。
与 Proximal Causal Inference 的联系：当验证子集不可靠或不可得时，PU 结构常需依赖辅助变量（proxy variables）来实现识别——这正是 proximal causal inference 关注的问题。能否将本文的验证子集视为一个“完美 negative control”，为 proximal 方法提供校准？ 这是方法论整合的一个方向。

研究者可采取的行动：每个问题都可在论文的 limitation 或 future work 部分寻找直接提及；若没有提及，则表明是开放缺口。核查同领域近期约 5 篇 PU learning 在 EHR 中的应用论文（如 Bastarache et al. 2018; Halpern et al. 2016; Bhatt et al. 2020）的 intro，看他们是否也指向以上几点——达成共识 = 真 gap，互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub