Disaggregating Health Differences and Disparities With Machine Learning and Observed-to-expected Ratios: Application to Major Lower Limb Amputation¶

作者: Paula D. Strassle, Samantha D. Minc, Corey A. Kalbaugh, Macarius M. Donneyong, Jamie S. Ko et al.
来源: Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: University of Maryland, College Park（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001892

一、领域脉络与小综述¶

这个方向是什么¶

“健康差异分解”（health disparities decomposition）是流行病学与卫生服务研究中的一个子方向，核心问题为：当观察到不同人口亚组（如种族、地域）间的健康结局存在差异时，究竟多大比例可由可测量的临床或结构性因素解释，多大比例暗示着未观测的系统性偏见或歧视。当前成熟度：方法学上已有多个梯队（直接标准化、回归分解、因果中介分析、机器学习辅助调整），但缺乏统一的识别框架来区分“差异”（difference）和“不公平的差异”（disparity）——后者通常涉及不可观测的结构性因素。

发展脉络（从引言与被引文献构建）¶

以下按时间/方法演进梳理，每个工作出自论文引言的引用及已检索摘要：

奠基：标准化方法（直接/间接法）：传统上，流行病学家使用年龄标准化率比较不同群体的疾病负担。但该方法只能处理少量协变量，且无法区分协变量本身是否是差异的中介路径。例如，1990年代美国卫生与公众服务部发布的《健康人报告》使用直接标准化报告种族差异（论文引用[9-11]）。
回归分解（Blinder–Oaxaca 及其推广）：经济学和劳动社会学引入Blinder-Oaxaca分解（1973），将群体间均值差异分解为“特征差异（解释部分）”和“系数差异（未解释部分）”。在卫生领域，该方法被用于分析种族/收入差异（Yun, 2004; Wagstaff et al., 2003）。但缺点是需要预选协变量、线性模型假设强、且对高维协变量敏感（论文引用[12-13]）。
因果中介分析（Mediation Analysis）：近年来，VanderWeele和Robins（2007–2015）系统建立了基于反事实框架的中介分析，允许将“差异”分解为自然直接效应（NDE）和自然间接效应（NIE），并给出识别条件（无未观测混杂）。但该方法要求对中介变量和结局的混淆关系有强假设（论文引用[7]——该文献被本文作者在引言中提及，但本文未采用）。
机器学习辅助调整：针对数据量大、协变量多的现实（如医保行政数据），LASSO、随机森林等被用于变量选择和信息压缩。然而，如何将机器学习估计量用于标准化分解，并保持统计推断的可靠性，仍是开放问题（论文引用论文内部的方法描述，未明确引方法论文献，但提到了“LASSO”作为工具）。
本文的位置：作者直接使用经典的O/E（observed-to-expected）比率框架，将LASSO调整后的期望作为“期望值”，比较调整前后O/E是否趋近1。其framing是：先调整临床因素（可视为“疾病负担差异”），再调整医院因素和社会决定因素（部分结构性因素），若调整后O/E仍偏离1，则剩余差异暗示“隐含偏见”。这种方法学选择回避了因果中介分析的复杂假设，但保留了O/E方法在公共卫生应用中的易解释性。

子线索聚类¶

被引文献大致落在三条线：

标准化与O/E方法（直接法、间接法、Co-morbidity index调整）：包括Elixhauser共病指数（HCUP常用工具，论文引用[6]）；该方法适用于大型行政数据，但不能处理中介路径。
回归分解与可分解指数（Blinder-Oaxaca、Fairlie分解等，论文引用[12]）：提供定量分解，但要求模型specification正确。
因果推断与中介分析（VanderWeele, 2015; Robins & Greenland, 1992）：提供识别假设，但数据要求复杂（需测中介变量和混杂变量）。

这个方向在追问的核心问题（2-4个）及当前瓶颈¶

核心问题1：如何区分“临床可解释的差异”与“结构性不公”？现有方法要么依赖强因果假设（中介分析），要么依赖变量选择（O/E调整），两者如何在识别上等价？
核心问题2：面对高维协变量（数百个临床诊断/手术代码），什么样的变量选择策略能够保证O/E比率的因果解释？LASSO的变量选择偏差会对区间估计造成多大影响？
核心问题3：若部分差异无法被可测因素解释，能否将“剩余差异”直接解读为隐含偏见（implicit bias）？这需要额外的假设（如所有相关协变量均已测量）。
当前瓶颈：多数应用论文（包括本文）采用分层调整方法，但缺乏对识别假设的明确检验，且未对高维新变量选择的后推断不确定性进行校正。

⚠️ 作者的framing（必须明确标注“这是作者的说法”）¶

作者将缺口frame为：“调整临床因素后仍然存在的差异，以及进一步调整医院和社会因素后剩下的差异，可以解读为隐含偏见的作用。”——注意，这是作者的结论性解释，而非严格的因果识别。作者淡化了以下竞争路线：未使用因果中介分析（因为“我们需要更直接的方法”）；未使用工具变量或断点回归（数据不可得）；未讨论未观测混杂的可能性。什么明显该被引/该存在、却没出现在intro里？——本文完全未引用任何关于“多源偏差校正”或“doubly robust estimation”的文献（如TMLE用于群体差异分解），也未引用近年关于“健康差异的因果定义”（如Jackson et al., 2019, Epidemiology）。这值得研究者去查：是否因为方法对于解构“隐含偏见”不适用，还是因为作者团队不熟悉？

张力¶

未见明显对立引用。各被引工作多属于不同子线索，彼此假设不同而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \( Y \)：二元结局（是否进行主要下肢截肢，1=是，0=否）。 - \( G \)：群体分组变量（如种族/民族与城乡的交叉组合）：\( g \in \{ \text{农村黑人, 农村西裔, 非农村白人, ...}\} \)。 - \( \mathbf{X} \)：协变量向量。包括三类： - \( \mathbf{X}_{\text{clin}} \)：临床因素（如共病指数、诊断代码等），\( p_{\text{clin}} \) 维。 - \( \mathbf{X}_{\text{hosp}} \)：医院因素（教学医院、医院床位数、地域等）。 - \( \mathbf{X}_{\text{soc}} \)：社会决定因素（收入中位数、保险类型等）。 - \( \mathbb{I}_i \)：指示第 \( i \) 次住院（或第 \( i \) 个患者；文中以住院为观测单位）。 - \( N_g \)：组 \( g \) 的总住院次数。 - \( O_g = \sum_{i \in g} Y_i \)：组 \( g \) 的观测截肢次数。 - \( E_g = \sum_{i \in g} \hat{\pi}_i \)：组 \( g \) 的期望截肢次数，其中 \( \hat{\pi}_i = \hat{P}(Y_i = 1 \mid \mathbf{Z}_i) \)，由某一模型估计得出。 - \( \text{O/E}_g = O_g / E_g \)：观察-期望比率。 - 参数：\( \beta \)（LASSO回归系数）、\( \lambda \)（LASSO惩罚参数）。

模型：作者使用logistic回归模型（隐式）来建模 \( P(Y=1 \mid \mathbf{Z}) \)，并采用LASSO进行变量选择。模型形式为：

\[\log\left(\frac{\pi(\mathbf{Z})}{1-\pi(\mathbf{Z})}\right) = \alpha + \mathbf{Z}^{\top} \boldsymbol{\beta},\]

其中 \( \mathbf{Z} \) 是选出的协变量子集（通过LASSO交叉验证确定惩罚参数 \( \lambda \)）。模型将人群视为独立观测，但住院数据可能具有患者层面的聚集性（同一患者多次住院），文中通过聚类稳健标准误进行处理。

可观测数据：研究者实际能观测到的是：每年所有符合条件的住院记录，包含： - 结局 \( Y \)（截肢ICD代码）； - 分组变量 \( G \)（种族/民族、城乡编码）； - 协变量 \( \mathbf{X} \)（来自HCUP SID数据库的共病、医院特征、区域社会经济指标）； - 无法观测的东西：患者的未记录共病、患者偏好、医生决策过程、隐性偏见本身的直接度量。这些只能通过剩余差异间接推测。

第二步：最小内核——支撑整篇论文的核心思路¶

整篇论文的本质是多轮直接标准化，而非新方法的推出。其最小内核如下：

最简特例：假设我们只关心两组——农村黑人与城市白人，只调整一种临床因素（如糖尿病并发率）。数据中，每个个体 \( i \) 有 \( (Y_i, G_i, X_i) \)，其中 \( X_i \) 是糖尿病指标（0/1）。

步骤： 1. 未调整：直接计算两组的O/E比率。把总人群的期望截肢率当做整体均值，即对每个个体用同一个期望（一般取总均值 \( \bar{Y} \)），则 \( O_g / (N_g \bar{Y}) \)。这等价于粗率比。 2. 临床调整：先拟合所有个体的logistic回归：\( \logit(\pi_i) = \alpha + \beta X_i \)（本例只含一个协变量）。得到 \( \hat{\pi}_i \)。然后对组 \( g \) 计算 \( E_g = \sum_{i \in g} \hat{\pi}_i \)，即基于个体临床特征的预测期望。若组间差异仅由糖尿病患病率差异造成，则调整后O/E应接近1（对两组相等）。若仍偏离1，说明存在不可由糖尿病解释的差异。 3. 添加医院与社会因素：在模型中再加入 \( X_{\text{hosp}} \) 和 \( X_{\text{soc}} \) 变量，重新拟合logistic-LASSO，重新计算 \( E_g \) 和 O/E。若某组的O/E从偏离1变为接近1，则说明医院/社会因素解释了该组的部分差异；若仍然偏离，则剩余差异归因于未观测因素（可能是偏见）。

为什么这构成了论文的核心： - 所有复杂设置（多组、高维LASSO、聚类标准误）只是这个最简例子的扩大版。 - 论文没有引入新的识别方法，仅将标准化的思想应用到大行政数据中。 - 其数学困难主要在：高维变量选择下的预测期望的稳定性，以及基于LASSO后得到的O/E的置信区间如何计算（论文使用bootstrap，未采用更严谨的后选择推断方法——作者承认此局限性）。

目标读者读完这一节后应理解：本文本质上是一个多轮标准化的卫生应用，其“贡献”在于使用了大规模多州数据、LASSO自动筛选变量、以及分步骤调整的展示方式，而非方法创新。

三、这篇论文做了什么¶

三句话： - ① 研究了不同种族/民族和城乡居民在主要下肢截肢率上的差异是否可以由临床因素、医院因素或社会决定因素解释。 - ② 使用LASSO进行协变量筛选，分别构建未调整、临床调整、全调整的三类logistic模型，计算观察/期望比率（O/E），并比较调整前后的O/E变化来判断哪些群体的差异可被解释。 - ③ 主要结论：调整临床因素后，多数种族差异仍存在；进一步调整医院和社会因素后，农村白人的差异消失，但农村黑人、西裔、原住民和非农村黑人、原住民的差异仍显著，提示隐性偏见可能发挥作用。

关键设定与假设（在第二节最小记号基础上补全）：

数据来源：2017–2019年佛罗里达、佐治亚、马里兰、密西西比、纽约五个州的HCUP住院数据库（SID）。纳入标准：年龄≥40岁、有PAD诊断的住院。单位：住院次数（而非个体水平）；但分析中对个体多次住院进行聚类稳健标准误调整（广义估计方程GEE？还是cluster-robust se? 论文方法部分未详述，但摘要提到“hospitalizations and patients”）。
分组变量：种族/民族（非西裔白人、非西裔黑人、西裔、亚洲/太平洋岛民、原住民/阿拉斯加原住民、其他）和城乡状态（农村 vs 非农村），组合成12个子组（但结果显示只列部分子组）。
协变量分类：
临床因素：Elixhauser共病指数（31个二元共病）、PAD严重程度代码、手术史等。
医院因素：医院教学状态、床位数、地域（其实也是区域，但归到医院）、医院截肢量。
社会决定因素：按邮编的ZCTA水平收入中位数、教育水平、贫困率、无保险率、社区剥夺指数等。
模型：logistic regression with LASSO。惩罚参数 \( \lambda \) 通过10折交叉验证选择（最小化偏差？）。模型包括所有主效应，无交互项。LASSO的变量选择结果被当作“调整模型”，但论文未报告selected variables。
O/E比率计算：用拟合模型预测每位住院的截肢概率 \( \hat{\pi}_i \)，在组内求和得 \( E_g \)，\( O_g \) 直接加和，O/E = \( O_g/E_g \)。置信区间使用bootstrap（1000次重抽样），以住院为单位重抽样。论文报告时使用95% CI。
假设：
可忽略性（ignorability）？作者并未明确使用因果语言，但其隐含假设是：调整了所有已测量的临床和社会因素后，剩余差异可以归因于未测量的结构因素（包括偏见）。这相当于假设无未测量混杂在剩余差异的解释中——一个极强的假设，且在文中没有检验。
用LASSO选择的变量是“调整足够”的——未讨论变量选择后的影响（如可能漏选重要变量或因惩罚过度收缩导致预测有偏）。

主要结果（理论型不存在，故按“方法型”处理核心量化结论）：

论文呈现了多张图表（此处提炼关键数字）：

总体：1,577,061 次住院，21,233 次截肢（1.4%）。
未调整模型：O/E 在多数非白人群体中显著>1（例如非农村黑人O/E约为1.5）。农村白人O/E<1（约0.8）。
调整临床因素后：
农村白人O/E从0.8上升到0.95（接近1，CI含1），表明临床因素解释了农村白人较低的截肢率。
非农村黑人O/E从1.5下降至1.3左右，仍显著>1。
农村黑人O/E约为1.4，仍>1。
西裔和原住民O/E也>1（农村西裔~1.6，农村原住民~1.4）。
全调整（加上医院和社会因素）：
农村白人O/E=0.93（CI: 0.77–1.09），不显著。
非农村黑人O/E=1.12（CI: 1.09–1.15），显著。
农村黑人O/E=1.26（CI: 1.01–1.51），显著。
农村西裔O/E=1.50（CI: 0.89–2.12），虽CI跨1但点估计大，作者仍视其为差异持续。
农村原住民O/E=1.13（CI: 0.68–1.58）和非农村原住民O/E=1.15（CI: 0.86–1.44），因样本量小CI宽，但趋势仍在。
结论：临床+医院+社会因素无法完全解释非白人群体的高水平截肢，暗示隐性偏见。

与baseline对比：未调整模型是baseline（简单率的差异），调整后O/E向1收敛的程度被视为可解释部分。

稳健性：论文做了若干亚组分析（如分性别、分年份），结果一致。

证明路线与技术技巧（本文为应用型，无理论证明，但可以描述其方法实施路线）：

整体路线：数据清洗 → 分组定义 → 三步构建logistic-LASSO模型 → 预测概率 → 组内聚合O/E → bootstrap CI → 解读。

关键跳跃点： 1. “调整临床因素”与“调整全部因素”之间的比较：需要确保两组模型具有足够的变量区分度，以分离不同因素的解释力。实际中，临床因素和医院因素高度相关（如教学医院更可能收治复杂病例），LASSO的选择可能因共线性而影响分解。 2. 从O/E统计量到“偏见”的因果推断：这一步完全是主观解释，没有统计检验。

技术技巧点名： - LASSO变量选择：用于高维协变量（31个共病+医院特征+邮编级变量，总计约50-100个），减少过拟合。 - Bootstrap重抽样：以住院为抽样单位（但未讨论患者内聚集性对bootstrap的影响——他们可能用了cluster bootstrap或调整了标准误，但方法未详述）。 - O/E比率：一种间接标准化的传统工具，此处用于分解而非直接比较。

真实例子与应用： - 数据：五个州，2017-2019年HCUP住院数据，结果变量以ICD-10程序代码定义。 - 应用：将人群分为12个交叉组（种族×城乡），通过三步调整，计算每个组的O/E。 - 结果：如上所述。 - 例子想说明：展示一个可行且易解释的分解框架，以识别住院截肢差异中可能由偏见驱动的部分。

🔎 结论是否比证明窄： - 论文承认：“Because hospital factors and social determinants of health were also measured at the aggregate level, these findings should be interpreted with caution.” [原文引述] 但泛泛声称“implicit bias is associated with amputation disparities”。具体到条件：仅五个州、仅住院数据、未调整患者个体水平的偏好和医疗决策细节。严格来说，只证明了在这些数据中，调整所有可测变量后，差异仍存在（描述性结论），但无法证明“偏见”是原因（因果结论）。作者写作时混淆了“剩余差异”与“偏见证据”，未讨论“未观测混杂”的其他解释（例如职业暴露差异、就医延迟等）。这一点在open问题中会明确。

四、开放问题（扎根具体语句）¶

LASSO后推断的校准性：论文未对LASSO变量选择后的O/E区间进行校正，导致置信区间可能过窄。文献上有post-selection inference（如debiased LASSO、cluster-robust inference after selection），能否应用于此健康差异分解？ (扎根：方法部分只提到 “using LASSO to select variables”，未提后选择推断。)
剩余差异的因果解释：作者将剩余差异归因于“implicit bias”，但这一系仅为假设。如果研究者希望严严格分解触“失效敏感性分析”，需要引入未观测混杂的偏倚公式（如E-value或RU边界）。(扎根：结论段 “These findings provide additional evidence that implicit bias is associated with amputation disparities” ——此处“associated”是相关而非因果；作者将其解释为因果暗示。)
个体水平vs聚集水平协变量：社会决定因素来自ZCTA层面（邮编聚集水平），存在生态学偏倚。这种测量误差若与群体相关，会扭曲分解。(扎根：方法部分提到 “social determinants of health were measured at the ZCTA level”，但未讨论对O/E估计的偏差影响。)
单位选择偏倚：分析以住院次数为单位而非个体，多次住院的患者被重复计数，可能影响O/E的分母。目前只用了聚类稳健标准误（GEE?）来调整相关性，但仍会导致O/E点估计偏向住院患者较多的个体。(扎根：结果部分描述了患者维度 “990,152 unique patients”，但在方法中未解释为何以住院为单位、未讨论权重问题。)

确认gelp建议：若想验证“剩余差异=偏见”是否真实gap，可去读同一子领域近期约5篇（如Ward et al., 2022 AJPH; Jacobs et al., 2020 Medical Care），看它们是否都指向“需要更好的未观测混杂处理”，还是互相打架。

Maintained by 陈星宇 · Homepage · Source on GitHub