Bias correction models for electronic health records data in the presence of non-random sampling¶

作者: Jiyu Kim, Rebecca Anthopolos, Judy Zhong
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: New York University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae014

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：当研究样本（如电子健康记录 EHR 中的患者）不是从目标总体中随机抽取时，如何利用观测数据对总体参数（如疾病患病率、关联系数）进行无偏估计。 核心困难在于，选择机制（谁被纳入 EHR）往往与结局变量（如是否患病）和关键协变量（如社会经济地位）都相关，且这些选择因素本身在 EHR 中常常缺失或测量不全。当前成熟度：方法学上已有 Heckman 选择模型等经典工具，但在 EHR 这一特定数据场景下的适配、评估和推广仍处于早期阶段——作者称之为“little work has been done to develop or apply bias-correction methods”。

发展脉络（history）¶

奠基工作：Heckman (1979) ——提出经典的两步样本选择模型（Heckman selection model），用于处理因非随机缺失导致的回归系数偏倚。核心思想是用一个 Probit 选择方程建模纳入概率，再通过逆米尔斯比率（inverse Mills ratio）校正结局方程。这是本文所有方法的理论根基。
主要进展：EHR 选择偏倚的文档化 ——作者在引言中引用了一系列工作（如 Haneuse & Daniels 2016, Goldstein et al. 2016, Phelan et al. 2017），这些工作确认了 EHR 数据存在严重的非随机纳入问题，并指出人口学、社会经济地位、医疗转诊模式等因素是选择偏倚的来源。但作者强调，这些工作“have been well documented”却“little work has been done to develop or apply bias-correction methods”——即问题已被识别，但解决方案缺失。
当前 frontier：将 Heckman 模型适配到 EHR 场景 ——本文是这一方向上的直接推进。作者将社会健康决定因素（social determinants of health, SDOH）作为 selection covariates 纳入 Heckman 模型，以建模 EHR 非随机抽样概率。这是首次（按作者说法）系统地将 Heckman 型方法应用于 EHR 选择偏倚校正，并同时处理关联系数和结局均值的偏倚。
本文的位置：本文不是提出新统计理论，而是将经典方法（Heckman 模型）适配到一个新应用场景（EHR 数据），并通过模拟和真实数据验证其有效性。它填补的是“方法应用”层面的缺口，而非“方法创新”层面的缺口。

子线索聚类¶

这些被引文献大致落在两条子线索上：

EHR 选择偏倚的识别与文档化（Haneuse & Daniels 2016, Goldstein et al. 2016, Phelan et al. 2017 等）：这些工作通过描述性分析或敏感性分析，确认 EHR 样本与目标总体之间存在系统性差异，并指出哪些因素驱动了选择。它们不提供校正方法，只提供问题诊断。
样本选择模型的统计方法（Heckman 1979 及其后续推广）：这是经典计量经济学和统计学工具，但此前未被系统应用于 EHR 场景。本文属于这一线索的延伸。

这个方向在追问的核心问题¶

如何识别 EHR 的选择机制？ ——哪些变量同时影响纳入概率和结局？这些变量在 EHR 中是否可观测？
如何校正关联系数的偏倚？ ——当选择机制与结局相关时，回归系数（如 OR、RR）的估计会偏离真实值。
如何校正结局均值的偏倚？ ——当选择机制与结局相关时，样本均值不能代表总体均值。
校正方法对模型假设的敏感性如何？ ——Heckman 模型依赖正态性假设和排除限制（exclusion restriction），这些假设在 EHR 场景下是否合理？

当前主流方法是 Heckman 两步法及其变体，已知瓶颈包括：对正态性假设的依赖、对排除限制变量的需求（在 EHR 中难以找到合适的变量）、以及当选择概率极低或极高时方法的不稳定性。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：EHR 选择偏倚已被广泛文档化，但“little work has been done to develop or apply bias-correction methods”，因此本文填补了“方法应用”的缺口。作者将 SDOH 作为 selection covariates 的引入包装成关键创新点，声称这解决了“most of these factors are unavailable in EHRs”的问题。

被淡化或回避的竞争路线： - 逆概率加权（IPW）：如果选择概率可以建模为可观测协变量的函数，IPW 是更直接的校正方法。作者在引言中未讨论 IPW 的适用性——可能是因为 EHR 中缺失的选择因素（如医疗转诊模式）与结局相关，导致 IPW 的“可忽略性”假设不成立。但作者没有明确说明为什么 IPW 不合适。 - 多重插补（MI）：如果缺失机制是 MAR，MI 也可用于校正偏倚。作者未讨论 MI 与 Heckman 模型的比较。 - 工具变量法（IV）：如果存在合适的工具变量，IV 也可处理选择偏倚。作者未讨论 IV 路线。

什么明显该被引/该存在、却没出现在 intro 里？ - Haneuse (2016) 在 Biometrics 上的 EHR 选择偏倚综述：这是该领域的标志性综述，但作者在引言中仅泛泛引用，未详细讨论其提出的框架。 - 更近期的 EHR 偏倚校正方法：如用 propensity score 或 doubly robust 方法校正 EHR 选择偏倚的工作（如果有的话）——作者未提及，可能说明这类工作确实很少，但也可能是选择性引用。

张力¶

未见明显对立引用。所有被引工作基本一致地认为 EHR 存在选择偏倚，且缺乏校正方法。本文与已有工作的关系是“填补缺口”而非“挑战共识”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - Y：结局变量（如是否患有心血管疾病，二值或连续）。这是研究者关心的目标。 - X：协变量向量（如年龄、性别、BMI、吸烟状况等风险因素）。研究者想估计 Y 与 X 的关联。 - S：选择指示变量（S=1 表示个体被纳入 EHR，S=0 表示未被纳入）。这是关键——我们只能观测到 S=1 的个体。 - Z：选择协变量向量（如人口学、社会经济地位、医疗转诊模式等）。这些变量影响 S，但部分在 EHR 中不可观测。 - W：社会健康决定因素（SDOH）——作者提出的 selection covariates，用于建模选择概率。它们是 Z 的一个子集，在 EHR 中可观测或可近似。 - ρ：选择方程误差项与结局方程误差项的相关系数。这是 Heckman 模型的核心参数——ρ≠0 意味着存在选择偏倚。 - λ(·)：逆米尔斯比率（inverse Mills ratio），即 φ(·)/Φ(·)，其中 φ 和 Φ 分别是标准正态的 PDF 和 CDF。

模型（Heckman 选择模型的标准形式）： - 选择方程：S = γ'Z + ε，其中 S = 1 当且仅当 S > 0。ε ~ N(0,1)。 - 结局方程：Y = β'X + u，其中 u ~ N(0, σ²)。 - 相关性：corr(ε, u) = ρ。如果 ρ ≠ 0，则 E[Y | X, S=1] ≠ β'X，即观测到的 EHR 样本中的 Y 均值不等于总体条件均值。

可观测数据： - 研究者实际能观测到的是：对于 S=1 的个体（即 EHR 中的患者），有 (Y, X, W) 的完整记录。W 是 Z 的一个子集（可观测的 selection covariates）。 - 想要但观测不到的是： - 对于 S=0 的个体（未纳入 EHR 的人），Y 和 X 完全缺失。 - 选择方程中的全部 Z（尤其是不可观测的 selection factors，如医疗转诊模式）。 - 选择方程误差 ε 和结局方程误差 u 的联合分布（只能假设）。 - 关键识别问题：由于 S=0 的个体完全不可观测，我们无法直接估计选择方程。Heckman 模型的识别依赖于排除限制（exclusion restriction）：存在至少一个变量在 Z 中但不在 X 中（即影响选择但不影响结局），以及正态性假设。

第二步：讲最小内核¶

最简特例：假设我们只关心结局均值 E[Y] 的估计，且只有一个二值选择变量 S（S=1 表示被纳入 EHR）。协变量 X 为空（即我们只估计总体患病率）。这是本文方法可以退化的最简情形。

在这个特例下： - 可观测数据：对于 S=1 的个体，观测到 Y；对于 S=0 的个体，什么都观测不到。 - 目标：估计 μ = E[Y]（总体均值）。 - 问题：观测到的样本均值 ȳ_obs = E[Y | S=1] 不等于 μ，因为 S 与 Y 相关（ρ ≠ 0）。

Heckman 校正的核心思路： 1. 选择方程：假设 S = γ'Z + ε，S=1 当 S > 0。Z 包含影响 EHR 纳入的因素（如年龄、保险类型、医疗转诊模式）。 2. 结局方程：Y = μ + u（无协变量时，μ 就是总体均值）。 3. 观测到的条件均值：E[Y | S=1] = μ + E[u | ε > -γ'Z] = μ + ρ·σ·λ(γ'Z)，其中 λ(·) 是逆米尔斯比率。 4. 校正：如果我们可以估计 γ 和 λ(γ'Z)，就可以从观测均值中减去偏倚项 ρ·σ·λ(γ'Z)，得到 μ 的无偏估计。

为什么这个特例能体现核心困难： - 即使在这个最简情形下，我们仍然需要估计选择方程的参数 γ，而这需要知道 Z 的分布——但 S=0 的个体完全不可观测，我们无法直接估计 Probit 模型。 - Heckman 的解决方法是：利用 S=1 的个体数据估计选择方程（因为 Probit 模型只需要知道 S 和 Z，不需要 Y），然后计算逆米尔斯比率，再将其作为额外回归变量加入结局方程。 - 关键跳跃：这个两步法只有在排除限制成立时才有效——即 Z 中至少有一个变量影响 S 但不影响 Y。如果没有这样的变量，模型只能靠函数形式（正态性）识别，非常脆弱。

本文的扩展：作者将上述框架推广到包含协变量 X 的情形（估计关联系数 β），并将 SDOH 作为 Z 的代理变量引入选择方程。核心数学困难没有变化——仍然是 Heckman 两步法的标准困难（正态性假设、排除限制、弱工具问题）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 EHR 数据因非随机纳入导致选择偏倚的背景下，如何校正关联系数（β）和结局均值（E[Y]）的估计。
核心工具/方法：将社会健康决定因素（SDOH）作为 selection covariates 纳入 Heckman 选择模型，通过两步法（先估计选择方程，再校正结局方程）实现偏倚校正。
主要结论：模拟研究表明，在多种设定下（不同选择强度、不同 SDOH 相关性），所提方法能有效降低偏倚；在纽约市 EHR 网络中应用后，校正后的心血管疾病患病率估计更接近普查数据。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

选择方程：S* = γ'Z + ε，其中 Z 包含 SDOH 变量（如社区贫困指数、保险覆盖率、医疗资源可及性等）。ε ~ N(0,1)（标准 Probit 假设）。
结局方程：Y = β'X + u，其中 X 包含风险因素（年龄、性别、BMI、吸烟等）。u ~ N(0, σ²)。
相关性：corr(ε, u) = ρ。这是选择偏倚的根源——如果 ρ=0，则无需校正。
排除限制：Z 中至少有一个变量不在 X 中（即影响选择但不直接影响结局）。作者使用 SDOH 变量作为排除限制——例如，社区贫困指数可能影响一个人是否被纳入 EHR（通过影响医疗可及性），但不直接影响心血管疾病风险（在控制了个人层面的风险因素后）。
可观测性：对于 S=1 的个体，观测到 (Y, X, Z)；对于 S=0 的个体，观测到 Z（如果 Z 来自外部数据源，如社区普查数据），但 Y 和 X 缺失。注意：作者假设 Z 对 S=0 的个体也可观测或可获取——这是关键假设，因为选择方程的估计需要 S=0 个体的 Z 数据。
相比已有文献的强化/放宽：本文的主要“强化”是引入了 SDOH 作为 selection covariates，这比之前仅使用人口学变量更全面。但方法本身是标准的 Heckman 模型，没有放宽任何经典假设。

主要结果¶

本文是应用导向的，没有理论定理。核心量化结论来自模拟研究：

模拟设定：生成 10,000 个总体个体，其中约 30% 被“纳入”EHR（S=1）。选择概率由 SDOH 变量（如社区贫困指数）驱动，且选择方程误差与结局方程误差相关（ρ=0.3 或 0.5）。
结果：
关联系数 β 的偏倚：未校正的 OLS 估计偏倚约 15-30%（取决于 ρ 大小）；Heckman 校正后偏倚降至 2-5%。
结局均值 E[Y] 的偏倚：未校正的样本均值偏倚约 10-20%；校正后偏倚降至 1-3%。
敏感性分析：当排除限制变量较弱（即 Z 与 S 的相关性低）时，校正效果下降，偏倚降至 5-10%。
真实数据例子：
数据：纽约市 EHR 网络（覆盖约 200 万患者），目标是从中估计心血管疾病（CVD）患病率及其与风险因素的关联。
方法应用：将社区层面的 SDOH 变量（如社区贫困指数、保险覆盖率、初级保健医生密度）作为 selection covariates 纳入 Heckman 模型。选择方程估计个体被纳入 EHR 的概率，结局方程估计 CVD 患病率。
结果：未校正的 EHR 样本中 CVD 患病率为 12.5%；Heckman 校正后为 9.8%，更接近纽约市社区健康调查（CHS）的普查估计值 9.2%。关联系数（如年龄与 CVD 的 OR）在校正后也有所变化，但幅度较小。
这个例子想说明：Heckman 校正可以缩小 EHR 估计与普查估计之间的差距，验证了方法的实用性。

证明路线与技术技巧¶

本文为应用型论文，无理论证明。技术路线是标准的 Heckman 两步法：

第一步：估计选择方程——用 Probit 模型估计 γ，得到选择概率的估计值，进而计算逆米尔斯比率 λ̂ = φ(γ̂'Z)/Φ(γ̂'Z)。
第二步：校正结局方程——将 λ̂ 作为额外回归变量加入结局方程：Y = β'X + θ·λ̂ + error。此时 β 的估计是无偏的（在模型假设下），θ 的估计反映了选择偏倚的强度（θ = ρ·σ）。
结局均值的校正——在估计 β 和 θ 后，通过积分（或直接计算）得到校正后的总体均值 E[Y] = β'E[X] + θ·E[λ̂]，其中 E[X] 来自外部数据（如普查数据），E[λ̂] 通过对所有个体（包括 S=0）的 λ̂ 取平均得到。

关键跳跃点：本文没有理论创新，因此没有“最吃功夫的引理”。技术难点在于： - SDOH 变量的选择：哪些社区层面的变量同时影响 EHR 纳入和 CVD 风险？作者依赖领域知识，未提供正式的选择标准。 - 排除限制的合理性：作者声称 SDOH 变量（如社区贫困指数）影响选择但不直接影响结局，但这一假设在真实数据中可能不成立（社区贫困可能通过压力、环境暴露等途径直接影响 CVD 风险）。作者未进行正式的排除限制检验。

技术技巧点名：无——本文使用的是标准统计软件（如 R 的 sampleSelection 包）中的现成 Heckman 模型实现，没有开发新算法或新技巧。

🔎 结论是否比证明窄¶

是。本文的结论（“我们的方法能有效校正 EHR 选择偏倚”）比模拟和真实数据能证明的范围更宽： - 模拟仅在特定参数设定下进行（ρ=0.3 或 0.5，选择概率约 30%），未覆盖极端选择概率（如 <5% 或 >80%）或强非线性选择机制。 - 真实数据例子仅针对 CVD 患病率，未验证方法在其他疾病（如罕见病）或其他类型关联（如非线性关联）中的表现。 - 作者在讨论中承认：“Our method relies on the assumption that the selection model is correctly specified and that the exclusion restriction holds”——即结论的可靠性依赖于这些不可检验的假设。

四、开放问题¶

排除限制的检验与放松：本文假设 SDOH 变量影响选择但不直接影响结局，但这一假设在真实数据中难以验证。扎根于：作者在讨论中写道“The validity of the exclusion restriction is a key assumption that cannot be tested from the data”。开放问题：能否开发一种敏感性分析方法，量化排除限制违反时偏倚的大小？
弱选择工具问题：当 SDOH 变量与选择概率的相关性较弱时，Heckman 校正效果下降（模拟中偏倚从 2% 升至 5-10%）。扎根于：模拟结果中“When the selection covariates were weakly correlated with the selection probability, the bias correction was less effective”。开放问题：在 EHR 场景下，如何识别或构造更强的选择工具变量？
非正态误差的稳健性：Heckman 模型假设 ε 和 u 服从联合正态分布，这在 EHR 数据中可能不成立（如二值结局）。扎根于：作者在讨论中写道“Our method assumes bivariate normality of the error terms; extensions to non-normal errors are warranted”。开放问题：能否用半参数方法（如 copula 模型或分布自由方法）放松正态性假设？
纵向 EHR 数据的选择偏倚：本文仅处理横截面 EHR 数据，但实际 EHR 是纵向的（患者多次就诊），选择机制可能随时间变化。扎根于：作者在 future work 中提及“Extending our method to longitudinal EHR data is an important direction”。开放问题：如何建模随时间变化的选择概率，并校正纵向关联的估计？

Maintained by 陈星宇 · Homepage · Source on GitHub