跳转至

Disaggregating Health Differences and Disparities With Machine Learning and Observed-to-expected Ratios: Application to Major Lower Limb Amputation

作者: Paula D. Strassle, Samantha D. Minc, Corey A. Kalbaugh, Macarius M. Donneyong, Jamie S. Ko et al.
来源: Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: University of Maryland, College Park(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001892


一、领域脉络与小综述

这个方向是什么

“健康差异分解”(health disparities decomposition)是流行病学与卫生服务研究中的一个子方向,核心问题为:当观察到不同人口亚组(如种族、地域)间的健康结局存在差异时,究竟多大比例可由可测量的临床或结构性因素解释,多大比例暗示着未观测的系统性偏见或歧视。当前成熟度:方法学上已有多个梯队(直接标准化、回归分解、因果中介分析、机器学习辅助调整),但缺乏统一的识别框架来区分“差异”(difference)和“不公平的差异”(disparity)——后者通常涉及不可观测的结构性因素。

发展脉络(从引言与被引文献构建)

以下按时间/方法演进梳理,每个工作出自论文引言的引用及已检索摘要:

  • 奠基:标准化方法(直接/间接法):传统上,流行病学家使用年龄标准化率比较不同群体的疾病负担。但该方法只能处理少量协变量,且无法区分协变量本身是否是差异的中介路径。例如,1990年代美国卫生与公众服务部发布的《健康人报告》使用直接标准化报告种族差异(论文引用[9-11])。
  • 回归分解(Blinder–Oaxaca 及其推广):经济学和劳动社会学引入Blinder-Oaxaca分解(1973),将群体间均值差异分解为“特征差异(解释部分)”和“系数差异(未解释部分)”。在卫生领域,该方法被用于分析种族/收入差异(Yun, 2004; Wagstaff et al., 2003)。但缺点是需要预选协变量、线性模型假设强、且对高维协变量敏感(论文引用[12-13])。
  • 因果中介分析(Mediation Analysis):近年来,VanderWeele和Robins(2007–2015)系统建立了基于反事实框架的中介分析,允许将“差异”分解为自然直接效应(NDE)和自然间接效应(NIE),并给出识别条件(无未观测混杂)。但该方法要求对中介变量和结局的混淆关系有强假设(论文引用[7]——该文献被本文作者在引言中提及,但本文未采用)。
  • 机器学习辅助调整:针对数据量大、协变量多的现实(如医保行政数据),LASSO、随机森林等被用于变量选择和信息压缩。然而,如何将机器学习估计量用于标准化分解,并保持统计推断的可靠性,仍是开放问题(论文引用论文内部的方法描述,未明确引方法论文献,但提到了“LASSO”作为工具)。
  • 本文的位置:作者直接使用经典的O/E(observed-to-expected)比率框架,将LASSO调整后的期望作为“期望值”,比较调整前后O/E是否趋近1。其framing是:先调整临床因素(可视为“疾病负担差异”),再调整医院因素和社会决定因素(部分结构性因素),若调整后O/E仍偏离1,则剩余差异暗示“隐含偏见”。这种方法学选择回避了因果中介分析的复杂假设,但保留了O/E方法在公共卫生应用中的易解释性。

子线索聚类

被引文献大致落在三条线:

  1. 标准化与O/E方法(直接法、间接法、Co-morbidity index调整):包括Elixhauser共病指数(HCUP常用工具,论文引用[6]);该方法适用于大型行政数据,但不能处理中介路径。
  2. 回归分解与可分解指数(Blinder-Oaxaca、Fairlie分解等,论文引用[12]):提供定量分解,但要求模型specification正确。
  3. 因果推断与中介分析(VanderWeele, 2015; Robins & Greenland, 1992):提供识别假设,但数据要求复杂(需测中介变量和混杂变量)。

这个方向在追问的核心问题(2-4个)及当前瓶颈

  • 核心问题1:如何区分“临床可解释的差异”与“结构性不公”?现有方法要么依赖强因果假设(中介分析),要么依赖变量选择(O/E调整),两者如何在识别上等价?
  • 核心问题2:面对高维协变量(数百个临床诊断/手术代码),什么样的变量选择策略能够保证O/E比率的因果解释?LASSO的变量选择偏差会对区间估计造成多大影响?
  • 核心问题3:若部分差异无法被可测因素解释,能否将“剩余差异”直接解读为隐含偏见(implicit bias)?这需要额外的假设(如所有相关协变量均已测量)。
  • 当前瓶颈:多数应用论文(包括本文)采用分层调整方法,但缺乏对识别假设的明确检验,且未对高维新变量选择的后推断不确定性进行校正。

⚠️ 作者的framing(必须明确标注“这是作者的说法”)

作者将缺口frame为:“调整临床因素后仍然存在的差异,以及进一步调整医院和社会因素后剩下的差异,可以解读为隐含偏见的作用。”——注意,这是作者的结论性解释,而非严格的因果识别。作者淡化了以下竞争路线:未使用因果中介分析(因为“我们需要更直接的方法”);未使用工具变量或断点回归(数据不可得);未讨论未观测混杂的可能性。什么明显该被引/该存在、却没出现在intro里?——本文完全未引用任何关于“多源偏差校正”或“doubly robust estimation”的文献(如TMLE用于群体差异分解),也未引用近年关于“健康差异的因果定义”(如Jackson et al., 2019, Epidemiology)。这值得研究者去查:是否因为方法对于解构“隐含偏见”不适用,还是因为作者团队不熟悉?

张力

未见明显对立引用。各被引工作多属于不同子线索,彼此假设不同而非矛盾。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号: - \( Y \):二元结局(是否进行主要下肢截肢,1=是,0=否)。 - \( G \):群体分组变量(如种族/民族与城乡的交叉组合):\( g \in \{ \text{农村黑人, 农村西裔, 非农村白人, ...}\} \)。 - \( \mathbf{X} \):协变量向量。包括三类: - \( \mathbf{X}_{\text{clin}} \):临床因素(如共病指数、诊断代码等),\( p_{\text{clin}} \) 维。 - \( \mathbf{X}_{\text{hosp}} \):医院因素(教学医院、医院床位数、地域等)。 - \( \mathbf{X}_{\text{soc}} \):社会决定因素(收入中位数、保险类型等)。 - \( \mathbb{I}_i \):指示第 \( i \) 次住院(或第 \( i \) 个患者;文中以住院为观测单位)。 - \( N_g \):组 \( g \) 的总住院次数。 - \( O_g = \sum_{i \in g} Y_i \):组 \( g \) 的观测截肢次数。 - \( E_g = \sum_{i \in g} \hat{\pi}_i \):组 \( g \) 的期望截肢次数,其中 \( \hat{\pi}_i = \hat{P}(Y_i = 1 \mid \mathbf{Z}_i) \),由某一模型估计得出。 - \( \text{O/E}_g = O_g / E_g \):观察-期望比率。 - 参数:\( \beta \)(LASSO回归系数)、\( \lambda \)(LASSO惩罚参数)。

模型: 作者使用logistic回归模型(隐式)来建模 \( P(Y=1 \mid \mathbf{Z}) \),并采用LASSO进行变量选择。模型形式为:

\[\log\left(\frac{\pi(\mathbf{Z})}{1-\pi(\mathbf{Z})}\right) = \alpha + \mathbf{Z}^{\top} \boldsymbol{\beta},\]
其中 \( \mathbf{Z} \) 是选出的协变量子集(通过LASSO交叉验证确定惩罚参数 \( \lambda \))。模型将人群视为独立观测,但住院数据可能具有患者层面的聚集性(同一患者多次住院),文中通过聚类稳健标准误进行处理。

可观测数据: 研究者实际能观测到的是:每年所有符合条件的住院记录,包含: - 结局 \( Y \)(截肢ICD代码); - 分组变量 \( G \)(种族/民族、城乡编码); - 协变量 \( \mathbf{X} \)(来自HCUP SID数据库的共病、医院特征、区域社会经济指标); - 无法观测的东西:患者的未记录共病、患者偏好、医生决策过程、隐性偏见本身的直接度量。这些只能通过剩余差异间接推测。

第二步:最小内核——支撑整篇论文的核心思路

整篇论文的本质是多轮直接标准化,而非新方法的推出。其最小内核如下:

最简特例:假设我们只关心两组——农村黑人与城市白人,只调整一种临床因素(如糖尿病并发率)。数据中,每个个体 \( i \)\( (Y_i, G_i, X_i) \),其中 \( X_i \) 是糖尿病指标(0/1)。

步骤: 1. 未调整:直接计算两组的O/E比率。把总人群的期望截肢率当做整体均值,即对每个个体用同一个期望(一般取总均值 \( \bar{Y} \)),则 \( O_g / (N_g \bar{Y}) \)。这等价于粗率比。 2. 临床调整:先拟合所有个体的logistic回归:\( \logit(\pi_i) = \alpha + \beta X_i \)(本例只含一个协变量)。得到 \( \hat{\pi}_i \)。然后对组 \( g \) 计算 \( E_g = \sum_{i \in g} \hat{\pi}_i \),即基于个体临床特征的预测期望。若组间差异仅由糖尿病患病率差异造成,则调整后O/E应接近1(对两组相等)。若仍偏离1,说明存在不可由糖尿病解释的差异。 3. 添加医院与社会因素:在模型中再加入 \( X_{\text{hosp}} \)\( X_{\text{soc}} \) 变量,重新拟合logistic-LASSO,重新计算 \( E_g \) 和 O/E。若某组的O/E从偏离1变为接近1,则说明医院/社会因素解释了该组的部分差异;若仍然偏离,则剩余差异归因于未观测因素(可能是偏见)。

为什么这构成了论文的核心: - 所有复杂设置(多组、高维LASSO、聚类标准误)只是这个最简例子的扩大版。 - 论文没有引入新的识别方法,仅将标准化的思想应用到大行政数据中。 - 其数学困难主要在:高维变量选择下的预测期望的稳定性,以及基于LASSO后得到的O/E的置信区间如何计算(论文使用bootstrap,未采用更严谨的后选择推断方法——作者承认此局限性)。

目标读者读完这一节后应理解:本文本质上是一个多轮标准化的卫生应用,其“贡献”在于使用了大规模多州数据、LASSO自动筛选变量、以及分步骤调整的展示方式,而非方法创新。

三、这篇论文做了什么

三句话: - ① 研究了不同种族/民族和城乡居民在主要下肢截肢率上的差异是否可以由临床因素、医院因素或社会决定因素解释。 - ② 使用LASSO进行协变量筛选,分别构建未调整、临床调整、全调整的三类logistic模型,计算观察/期望比率(O/E),并比较调整前后的O/E变化来判断哪些群体的差异可被解释。 - ③ 主要结论:调整临床因素后,多数种族差异仍存在;进一步调整医院和社会因素后,农村白人的差异消失,但农村黑人、西裔、原住民和非农村黑人、原住民的差异仍显著,提示隐性偏见可能发挥作用。

关键设定与假设(在第二节最小记号基础上补全):

  • 数据来源:2017–2019年佛罗里达、佐治亚、马里兰、密西西比、纽约五个州的HCUP住院数据库(SID)。纳入标准:年龄≥40岁、有PAD诊断的住院。单位:住院次数(而非个体水平);但分析中对个体多次住院进行聚类稳健标准误调整(广义估计方程GEE?还是cluster-robust se? 论文方法部分未详述,但摘要提到“hospitalizations and patients”)。
  • 分组变量:种族/民族(非西裔白人、非西裔黑人、西裔、亚洲/太平洋岛民、原住民/阿拉斯加原住民、其他)和城乡状态(农村 vs 非农村),组合成12个子组(但结果显示只列部分子组)。
  • 协变量分类
  • 临床因素:Elixhauser共病指数(31个二元共病)、PAD严重程度代码、手术史等。
  • 医院因素:医院教学状态、床位数、地域(其实也是区域,但归到医院)、医院截肢量。
  • 社会决定因素:按邮编的ZCTA水平收入中位数、教育水平、贫困率、无保险率、社区剥夺指数等。
  • 模型:logistic regression with LASSO。惩罚参数 \( \lambda \) 通过10折交叉验证选择(最小化偏差?)。模型包括所有主效应,无交互项。LASSO的变量选择结果被当作“调整模型”,但论文未报告selected variables。
  • O/E比率计算:用拟合模型预测每位住院的截肢概率 \( \hat{\pi}_i \),在组内求和得 \( E_g \)\( O_g \) 直接加和,O/E = \( O_g/E_g \)。置信区间使用bootstrap(1000次重抽样),以住院为单位重抽样。论文报告时使用95% CI。
  • 假设
  • 可忽略性(ignorability)?作者并未明确使用因果语言,但其隐含假设是:调整了所有已测量的临床和社会因素后,剩余差异可以归因于未测量的结构因素(包括偏见)。这相当于假设无未测量混杂在剩余差异的解释中——一个极强的假设,且在文中没有检验。
  • 用LASSO选择的变量是“调整足够”的——未讨论变量选择后的影响(如可能漏选重要变量或因惩罚过度收缩导致预测有偏)。

主要结果(理论型不存在,故按“方法型”处理核心量化结论):

论文呈现了多张图表(此处提炼关键数字):

  • 总体:1,577,061 次住院,21,233 次截肢(1.4%)。
  • 未调整模型:O/E 在多数非白人群体中显著>1(例如非农村黑人O/E约为1.5)。农村白人O/E<1(约0.8)。
  • 调整临床因素后
  • 农村白人O/E从0.8上升到0.95(接近1,CI含1),表明临床因素解释了农村白人较低的截肢率。
  • 非农村黑人O/E从1.5下降至1.3左右,仍显著>1。
  • 农村黑人O/E约为1.4,仍>1。
  • 西裔和原住民O/E也>1(农村西裔~1.6,农村原住民~1.4)。
  • 全调整(加上医院和社会因素)
  • 农村白人O/E=0.93(CI: 0.77–1.09),不显著。
  • 非农村黑人O/E=1.12(CI: 1.09–1.15),显著。
  • 农村黑人O/E=1.26(CI: 1.01–1.51),显著。
  • 农村西裔O/E=1.50(CI: 0.89–2.12),虽CI跨1但点估计大,作者仍视其为差异持续。
  • 农村原住民O/E=1.13(CI: 0.68–1.58)和非农村原住民O/E=1.15(CI: 0.86–1.44),因样本量小CI宽,但趋势仍在。
  • 结论:临床+医院+社会因素无法完全解释非白人群体的高水平截肢,暗示隐性偏见。

与baseline对比:未调整模型是baseline(简单率的差异),调整后O/E向1收敛的程度被视为可解释部分。

稳健性:论文做了若干亚组分析(如分性别、分年份),结果一致。

证明路线与技术技巧(本文为应用型,无理论证明,但可以描述其方法实施路线):

整体路线:数据清洗 → 分组定义 → 三步构建logistic-LASSO模型 → 预测概率 → 组内聚合O/E → bootstrap CI → 解读。

关键跳跃点: 1. “调整临床因素”与“调整全部因素”之间的比较:需要确保两组模型具有足够的变量区分度,以分离不同因素的解释力。实际中,临床因素和医院因素高度相关(如教学医院更可能收治复杂病例),LASSO的选择可能因共线性而影响分解。 2. 从O/E统计量到“偏见”的因果推断:这一步完全是主观解释,没有统计检验。

技术技巧点名: - LASSO变量选择:用于高维协变量(31个共病+医院特征+邮编级变量,总计约50-100个),减少过拟合。 - Bootstrap重抽样:以住院为抽样单位(但未讨论患者内聚集性对bootstrap的影响——他们可能用了cluster bootstrap或调整了标准误,但方法未详述)。 - O/E比率:一种间接标准化的传统工具,此处用于分解而非直接比较。

真实例子与应用: - 数据:五个州,2017-2019年HCUP住院数据,结果变量以ICD-10程序代码定义。 - 应用:将人群分为12个交叉组(种族×城乡),通过三步调整,计算每个组的O/E。 - 结果:如上所述。 - 例子想说明:展示一个可行且易解释的分解框架,以识别住院截肢差异中可能由偏见驱动的部分。

🔎 结论是否比证明窄: - 论文承认:“Because hospital factors and social determinants of health were also measured at the aggregate level, these findings should be interpreted with caution.” [原文引述] 但泛泛声称“implicit bias is associated with amputation disparities”。具体到条件:仅五个州、仅住院数据、未调整患者个体水平的偏好和医疗决策细节。严格来说,只证明了在这些数据中,调整所有可测变量后,差异仍存在(描述性结论),但无法证明“偏见”是原因(因果结论)。作者写作时混淆了“剩余差异”与“偏见证据”,未讨论“未观测混杂”的其他解释(例如职业暴露差异、就医延迟等)。这一点在open问题中会明确。

四、开放问题(扎根具体语句)

  1. LASSO后推断的校准性:论文未对LASSO变量选择后的O/E区间进行校正,导致置信区间可能过窄。文献上有post-selection inference(如debiased LASSO、cluster-robust inference after selection),能否应用于此健康差异分解? (扎根:方法部分只提到 “using LASSO to select variables”,未提后选择推断。)

  2. 剩余差异的因果解释:作者将剩余差异归因于“implicit bias”,但这一系仅为假设。如果研究者希望严严格分解触“失效敏感性分析”,需要引入未观测混杂的偏倚公式(如E-value或RU边界)。(扎根:结论段 “These findings provide additional evidence that implicit bias is associated with amputation disparities” ——此处“associated”是相关而非因果;作者将其解释为因果暗示。)

  3. 个体水平vs聚集水平协变量:社会决定因素来自ZCTA层面(邮编聚集水平),存在生态学偏倚。这种测量误差若与群体相关,会扭曲分解。(扎根:方法部分提到 “social determinants of health were measured at the ZCTA level”,但未讨论对O/E估计的偏差影响。)

  4. 单位选择偏倚:分析以住院次数为单位而非个体,多次住院的患者被重复计数,可能影响O/E的分母。目前只用了聚类稳健标准误(GEE?)来调整相关性,但仍会导致O/E点估计偏向住院患者较多的个体。(扎根:结果部分描述了患者维度 “990,152 unique patients”,但在方法中未解释为何以住院为单位、未讨论权重问题。)

确认gelp建议:若想验证“剩余差异=偏见”是否真实gap,可去读同一子领域近期约5篇(如Ward et al., 2022 AJPH; Jacobs et al., 2020 Medical Care),看它们是否都指向“需要更好的未观测混杂处理”,还是互相打架。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论