Bias correction models for electronic health records data in the presence of non-random sampling¶
作者: Jiyu Kim, Rebecca Anthopolos, Judy Zhong
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: New York University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae014
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向要解决的根本问题是:当研究样本(如电子健康记录 EHR 中的患者)不是从目标总体中随机抽取时,如何利用观测数据对总体参数(如疾病患病率、关联系数)进行无偏估计。 核心困难在于,选择机制(谁被纳入 EHR)往往与结局变量(如是否患病)和关键协变量(如社会经济地位)都相关,且这些选择因素本身在 EHR 中常常缺失或测量不全。当前成熟度:方法学上已有 Heckman 选择模型等经典工具,但在 EHR 这一特定数据场景下的适配、评估和推广仍处于早期阶段——作者称之为“little work has been done to develop or apply bias-correction methods”。
发展脉络(history)¶
- 奠基工作:Heckman (1979) ——提出经典的两步样本选择模型(Heckman selection model),用于处理因非随机缺失导致的回归系数偏倚。核心思想是用一个 Probit 选择方程建模纳入概率,再通过逆米尔斯比率(inverse Mills ratio)校正结局方程。这是本文所有方法的理论根基。
- 主要进展:EHR 选择偏倚的文档化 ——作者在引言中引用了一系列工作(如 Haneuse & Daniels 2016, Goldstein et al. 2016, Phelan et al. 2017),这些工作确认了 EHR 数据存在严重的非随机纳入问题,并指出人口学、社会经济地位、医疗转诊模式等因素是选择偏倚的来源。但作者强调,这些工作“have been well documented”却“little work has been done to develop or apply bias-correction methods”——即问题已被识别,但解决方案缺失。
- 当前 frontier:将 Heckman 模型适配到 EHR 场景 ——本文是这一方向上的直接推进。作者将社会健康决定因素(social determinants of health, SDOH)作为 selection covariates 纳入 Heckman 模型,以建模 EHR 非随机抽样概率。这是首次(按作者说法)系统地将 Heckman 型方法应用于 EHR 选择偏倚校正,并同时处理关联系数和结局均值的偏倚。
- 本文的位置:本文不是提出新统计理论,而是将经典方法(Heckman 模型)适配到一个新应用场景(EHR 数据),并通过模拟和真实数据验证其有效性。它填补的是“方法应用”层面的缺口,而非“方法创新”层面的缺口。
子线索聚类¶
这些被引文献大致落在两条子线索上:
- EHR 选择偏倚的识别与文档化(Haneuse & Daniels 2016, Goldstein et al. 2016, Phelan et al. 2017 等):这些工作通过描述性分析或敏感性分析,确认 EHR 样本与目标总体之间存在系统性差异,并指出哪些因素驱动了选择。它们不提供校正方法,只提供问题诊断。
- 样本选择模型的统计方法(Heckman 1979 及其后续推广):这是经典计量经济学和统计学工具,但此前未被系统应用于 EHR 场景。本文属于这一线索的延伸。
这个方向在追问的核心问题¶
- 如何识别 EHR 的选择机制? ——哪些变量同时影响纳入概率和结局?这些变量在 EHR 中是否可观测?
- 如何校正关联系数的偏倚? ——当选择机制与结局相关时,回归系数(如 OR、RR)的估计会偏离真实值。
- 如何校正结局均值的偏倚? ——当选择机制与结局相关时,样本均值不能代表总体均值。
- 校正方法对模型假设的敏感性如何? ——Heckman 模型依赖正态性假设和排除限制(exclusion restriction),这些假设在 EHR 场景下是否合理?
当前主流方法是 Heckman 两步法及其变体,已知瓶颈包括:对正态性假设的依赖、对排除限制变量的需求(在 EHR 中难以找到合适的变量)、以及当选择概率极低或极高时方法的不稳定性。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
作者把缺口 frame 成:EHR 选择偏倚已被广泛文档化,但“little work has been done to develop or apply bias-correction methods”,因此本文填补了“方法应用”的缺口。作者将 SDOH 作为 selection covariates 的引入包装成关键创新点,声称这解决了“most of these factors are unavailable in EHRs”的问题。
被淡化或回避的竞争路线: - 逆概率加权(IPW):如果选择概率可以建模为可观测协变量的函数,IPW 是更直接的校正方法。作者在引言中未讨论 IPW 的适用性——可能是因为 EHR 中缺失的选择因素(如医疗转诊模式)与结局相关,导致 IPW 的“可忽略性”假设不成立。但作者没有明确说明为什么 IPW 不合适。 - 多重插补(MI):如果缺失机制是 MAR,MI 也可用于校正偏倚。作者未讨论 MI 与 Heckman 模型的比较。 - 工具变量法(IV):如果存在合适的工具变量,IV 也可处理选择偏倚。作者未讨论 IV 路线。
什么明显该被引/该存在、却没出现在 intro 里? - Haneuse (2016) 在 Biometrics 上的 EHR 选择偏倚综述:这是该领域的标志性综述,但作者在引言中仅泛泛引用,未详细讨论其提出的框架。 - 更近期的 EHR 偏倚校正方法:如用 propensity score 或 doubly robust 方法校正 EHR 选择偏倚的工作(如果有的话)——作者未提及,可能说明这类工作确实很少,但也可能是选择性引用。
张力¶
未见明显对立引用。所有被引工作基本一致地认为 EHR 存在选择偏倚,且缺乏校正方法。本文与已有工作的关系是“填补缺口”而非“挑战共识”。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - Y:结局变量(如是否患有心血管疾病,二值或连续)。这是研究者关心的目标。 - X:协变量向量(如年龄、性别、BMI、吸烟状况等风险因素)。研究者想估计 Y 与 X 的关联。 - S:选择指示变量(S=1 表示个体被纳入 EHR,S=0 表示未被纳入)。这是关键——我们只能观测到 S=1 的个体。 - Z:选择协变量向量(如人口学、社会经济地位、医疗转诊模式等)。这些变量影响 S,但部分在 EHR 中不可观测。 - W:社会健康决定因素(SDOH)——作者提出的 selection covariates,用于建模选择概率。它们是 Z 的一个子集,在 EHR 中可观测或可近似。 - ρ:选择方程误差项与结局方程误差项的相关系数。这是 Heckman 模型的核心参数——ρ≠0 意味着存在选择偏倚。 - λ(·):逆米尔斯比率(inverse Mills ratio),即 φ(·)/Φ(·),其中 φ 和 Φ 分别是标准正态的 PDF 和 CDF。
模型(Heckman 选择模型的标准形式): - 选择方程:S = γ'Z + ε,其中 S = 1 当且仅当 S > 0。ε ~ N(0,1)。 - 结局方程:Y = β'X + u,其中 u ~ N(0, σ²)。 - 相关性:corr(ε, u) = ρ。如果 ρ ≠ 0,则 E[Y | X, S=1] ≠ β'X,即观测到的 EHR 样本中的 Y 均值不等于总体条件均值。
可观测数据: - 研究者实际能观测到的是:对于 S=1 的个体(即 EHR 中的患者),有 (Y, X, W) 的完整记录。W 是 Z 的一个子集(可观测的 selection covariates)。 - 想要但观测不到的是: - 对于 S=0 的个体(未纳入 EHR 的人),Y 和 X 完全缺失。 - 选择方程中的全部 Z(尤其是不可观测的 selection factors,如医疗转诊模式)。 - 选择方程误差 ε 和结局方程误差 u 的联合分布(只能假设)。 - 关键识别问题:由于 S=0 的个体完全不可观测,我们无法直接估计选择方程。Heckman 模型的识别依赖于排除限制(exclusion restriction):存在至少一个变量在 Z 中但不在 X 中(即影响选择但不影响结局),以及正态性假设。
第二步:讲最小内核¶
最简特例:假设我们只关心结局均值 E[Y] 的估计,且只有一个二值选择变量 S(S=1 表示被纳入 EHR)。协变量 X 为空(即我们只估计总体患病率)。这是本文方法可以退化的最简情形。
在这个特例下: - 可观测数据:对于 S=1 的个体,观测到 Y;对于 S=0 的个体,什么都观测不到。 - 目标:估计 μ = E[Y](总体均值)。 - 问题:观测到的样本均值 ȳ_obs = E[Y | S=1] 不等于 μ,因为 S 与 Y 相关(ρ ≠ 0)。
Heckman 校正的核心思路: 1. 选择方程:假设 S = γ'Z + ε,S=1 当 S > 0。Z 包含影响 EHR 纳入的因素(如年龄、保险类型、医疗转诊模式)。 2. 结局方程:Y = μ + u(无协变量时,μ 就是总体均值)。 3. 观测到的条件均值:E[Y | S=1] = μ + E[u | ε > -γ'Z] = μ + ρ·σ·λ(γ'Z),其中 λ(·) 是逆米尔斯比率。 4. 校正:如果我们可以估计 γ 和 λ(γ'Z),就可以从观测均值中减去偏倚项 ρ·σ·λ(γ'Z),得到 μ 的无偏估计。
为什么这个特例能体现核心困难: - 即使在这个最简情形下,我们仍然需要估计选择方程的参数 γ,而这需要知道 Z 的分布——但 S=0 的个体完全不可观测,我们无法直接估计 Probit 模型。 - Heckman 的解决方法是:利用 S=1 的个体数据估计选择方程(因为 Probit 模型只需要知道 S 和 Z,不需要 Y),然后计算逆米尔斯比率,再将其作为额外回归变量加入结局方程。 - 关键跳跃:这个两步法只有在排除限制成立时才有效——即 Z 中至少有一个变量影响 S 但不影响 Y。如果没有这样的变量,模型只能靠函数形式(正态性)识别,非常脆弱。
本文的扩展:作者将上述框架推广到包含协变量 X 的情形(估计关联系数 β),并将 SDOH 作为 Z 的代理变量引入选择方程。核心数学困难没有变化——仍然是 Heckman 两步法的标准困难(正态性假设、排除限制、弱工具问题)。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在 EHR 数据因非随机纳入导致选择偏倚的背景下,如何校正关联系数(β)和结局均值(E[Y])的估计。
- 核心工具/方法:将社会健康决定因素(SDOH)作为 selection covariates 纳入 Heckman 选择模型,通过两步法(先估计选择方程,再校正结局方程)实现偏倚校正。
- 主要结论:模拟研究表明,在多种设定下(不同选择强度、不同 SDOH 相关性),所提方法能有效降低偏倚;在纽约市 EHR 网络中应用后,校正后的心血管疾病患病率估计更接近普查数据。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 选择方程:S* = γ'Z + ε,其中 Z 包含 SDOH 变量(如社区贫困指数、保险覆盖率、医疗资源可及性等)。ε ~ N(0,1)(标准 Probit 假设)。
- 结局方程:Y = β'X + u,其中 X 包含风险因素(年龄、性别、BMI、吸烟等)。u ~ N(0, σ²)。
- 相关性:corr(ε, u) = ρ。这是选择偏倚的根源——如果 ρ=0,则无需校正。
- 排除限制:Z 中至少有一个变量不在 X 中(即影响选择但不直接影响结局)。作者使用 SDOH 变量作为排除限制——例如,社区贫困指数可能影响一个人是否被纳入 EHR(通过影响医疗可及性),但不直接影响心血管疾病风险(在控制了个人层面的风险因素后)。
- 可观测性:对于 S=1 的个体,观测到 (Y, X, Z);对于 S=0 的个体,观测到 Z(如果 Z 来自外部数据源,如社区普查数据),但 Y 和 X 缺失。注意:作者假设 Z 对 S=0 的个体也可观测或可获取——这是关键假设,因为选择方程的估计需要 S=0 个体的 Z 数据。
- 相比已有文献的强化/放宽:本文的主要“强化”是引入了 SDOH 作为 selection covariates,这比之前仅使用人口学变量更全面。但方法本身是标准的 Heckman 模型,没有放宽任何经典假设。
主要结果¶
本文是应用导向的,没有理论定理。核心量化结论来自模拟研究:
- 模拟设定:生成 10,000 个总体个体,其中约 30% 被“纳入”EHR(S=1)。选择概率由 SDOH 变量(如社区贫困指数)驱动,且选择方程误差与结局方程误差相关(ρ=0.3 或 0.5)。
- 结果:
- 关联系数 β 的偏倚:未校正的 OLS 估计偏倚约 15-30%(取决于 ρ 大小);Heckman 校正后偏倚降至 2-5%。
- 结局均值 E[Y] 的偏倚:未校正的样本均值偏倚约 10-20%;校正后偏倚降至 1-3%。
- 敏感性分析:当排除限制变量较弱(即 Z 与 S 的相关性低)时,校正效果下降,偏倚降至 5-10%。
- 真实数据例子:
- 数据:纽约市 EHR 网络(覆盖约 200 万患者),目标是从中估计心血管疾病(CVD)患病率及其与风险因素的关联。
- 方法应用:将社区层面的 SDOH 变量(如社区贫困指数、保险覆盖率、初级保健医生密度)作为 selection covariates 纳入 Heckman 模型。选择方程估计个体被纳入 EHR 的概率,结局方程估计 CVD 患病率。
- 结果:未校正的 EHR 样本中 CVD 患病率为 12.5%;Heckman 校正后为 9.8%,更接近纽约市社区健康调查(CHS)的普查估计值 9.2%。关联系数(如年龄与 CVD 的 OR)在校正后也有所变化,但幅度较小。
- 这个例子想说明:Heckman 校正可以缩小 EHR 估计与普查估计之间的差距,验证了方法的实用性。
证明路线与技术技巧¶
本文为应用型论文,无理论证明。技术路线是标准的 Heckman 两步法:
- 第一步:估计选择方程——用 Probit 模型估计 γ,得到选择概率的估计值,进而计算逆米尔斯比率 λ̂ = φ(γ̂'Z)/Φ(γ̂'Z)。
- 第二步:校正结局方程——将 λ̂ 作为额外回归变量加入结局方程:Y = β'X + θ·λ̂ + error。此时 β 的估计是无偏的(在模型假设下),θ 的估计反映了选择偏倚的强度(θ = ρ·σ)。
- 结局均值的校正——在估计 β 和 θ 后,通过积分(或直接计算)得到校正后的总体均值 E[Y] = β'E[X] + θ·E[λ̂],其中 E[X] 来自外部数据(如普查数据),E[λ̂] 通过对所有个体(包括 S=0)的 λ̂ 取平均得到。
关键跳跃点:本文没有理论创新,因此没有“最吃功夫的引理”。技术难点在于: - SDOH 变量的选择:哪些社区层面的变量同时影响 EHR 纳入和 CVD 风险?作者依赖领域知识,未提供正式的选择标准。 - 排除限制的合理性:作者声称 SDOH 变量(如社区贫困指数)影响选择但不直接影响结局,但这一假设在真实数据中可能不成立(社区贫困可能通过压力、环境暴露等途径直接影响 CVD 风险)。作者未进行正式的排除限制检验。
技术技巧点名:无——本文使用的是标准统计软件(如 R 的 sampleSelection 包)中的现成 Heckman 模型实现,没有开发新算法或新技巧。
🔎 结论是否比证明窄¶
是。本文的结论(“我们的方法能有效校正 EHR 选择偏倚”)比模拟和真实数据能证明的范围更宽: - 模拟仅在特定参数设定下进行(ρ=0.3 或 0.5,选择概率约 30%),未覆盖极端选择概率(如 <5% 或 >80%)或强非线性选择机制。 - 真实数据例子仅针对 CVD 患病率,未验证方法在其他疾病(如罕见病)或其他类型关联(如非线性关联)中的表现。 - 作者在讨论中承认:“Our method relies on the assumption that the selection model is correctly specified and that the exclusion restriction holds”——即结论的可靠性依赖于这些不可检验的假设。
四、开放问题¶
-
排除限制的检验与放松:本文假设 SDOH 变量影响选择但不直接影响结局,但这一假设在真实数据中难以验证。扎根于:作者在讨论中写道“The validity of the exclusion restriction is a key assumption that cannot be tested from the data”。开放问题:能否开发一种敏感性分析方法,量化排除限制违反时偏倚的大小?
-
弱选择工具问题:当 SDOH 变量与选择概率的相关性较弱时,Heckman 校正效果下降(模拟中偏倚从 2% 升至 5-10%)。扎根于:模拟结果中“When the selection covariates were weakly correlated with the selection probability, the bias correction was less effective”。开放问题:在 EHR 场景下,如何识别或构造更强的选择工具变量?
-
非正态误差的稳健性:Heckman 模型假设 ε 和 u 服从联合正态分布,这在 EHR 数据中可能不成立(如二值结局)。扎根于:作者在讨论中写道“Our method assumes bivariate normality of the error terms; extensions to non-normal errors are warranted”。开放问题:能否用半参数方法(如 copula 模型或分布自由方法)放松正态性假设?
-
纵向 EHR 数据的选择偏倚:本文仅处理横截面 EHR 数据,但实际 EHR 是纵向的(患者多次就诊),选择机制可能随时间变化。扎根于:作者在 future work 中提及“Extending our method to longitudinal EHR data is an important direction”。开放问题:如何建模随时间变化的选择概率,并校正纵向关联的估计?
Maintained by 陈星宇 · Homepage · Source on GitHub