跳转至

Research News

Detecting clinician implicit biases in diagnoses using proximal causal inference

Detecting clinician implicit biases in diagnoses using proximal causal inference¶

讲者: Vasilis Syrgkanis
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-04
主题: 因果推断
视频: https://youtu.be/ThSwOyrK5dg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2501.16399 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

1.1 子方向：用观察性数据检测临床决策中的隐性偏见¶

核心追问：如何从大规模电子健康记录（EHR）中，识别出医生因患者种族、性别等人口学属性而做出的不同诊断/治疗决策，且这种差异不能由患者真实的健康状态差异解释。
难点：患者健康状态（M）通常是未观测的潜在变量；直接比较不同属性患者的诊断率会混入“真实健康差异”（如种族间高血压发病率不同）与“医生偏见”两种效应。现有的检测方法（如态度量表、标准化病人实验）成本高、规模小，无法应用于百万级EHR数据库。

1.2 奠基与主流路线¶

传统因果中介分析（Imai et al., 2010; VanderWeele, 2015）：将患者属性分为“通过健康状态影响诊断”的间接路径与“直接”路径（后者视为偏见）。局限：要求健康状态可观测，否则识别需强无混杂假设。
近端因果推断（Miao et al., 2018; Tchetgen Tchetgen et al., 2020）：当存在未观测混杂/中介时，利用代理变量（proxies）来恢复因果效应。本报告是该框架在“检测偏见”这一特定应用中的变体。
反事实公平性（Kusner et al., 2017; Kilbertus et al., 2017）：从算法公平性角度定义“直接歧视”，但通常假设数据生成过程已知或可完全观测。

1.3 本报告站在哪¶

定位：将“隐性偏见检测”问题重构为含未观测中介的因果直接效应估计问题，并应用近端因果推断中的“桥梁函数”技术。
与最相关工作区别：
Fulcher et al. (2020, Tchetgen Tchetgen group)：使用近端推断估计自然直接效应，需估计条件密度（高维下困难）。本报告聚焦于控制直接效应（CDE），仅需求解一个偏线性IV方程，估计更简单。
Cui & Tchetgen (2021, “Causal Inference with Hidden Mediators”)：与本报告因果图相同，但目标也是自然直接效应；本报告采用不同的（更简单）识别策略与推断方法。

二、最小内核 / 一个最简例子¶

2.1 符号与数据¶

可观测数据：
\(A\)：患者敏感属性（二值：如性别=男/女）。
\(D\)：临床诊断结果（0/1，如是否诊断为心脏病）。
\(W\)：可观测的患者其他特征（年龄、收入、运动量等）。
\(Z\)：治疗代理变量——自我报告症状问卷（如“是否胸痛”），由患者填写，医生决策时不可见。
\(X\)：结果代理变量——客观检验指标（如血压检查值），医生决策时参考。
潜在不可观测量：
\(M\)：患者真实的健康状态（一维潜在变量，如“心血管真实风险”）。
目标参数：控制直接效应（CDE）
\[\theta = \mathbb{E}[ \mathbb{E}[D \mid A=1, M, W] - \mathbb{E}[D \mid A=0, M, W] ]\]
含义：相比男性患者，一位女性患者被诊断为心脏病的概率差，其中健康状态M被固定（类似“医生仅凭性别而非健康状态做决定”的偏见效应）。

2.2 核心思路（最简例子）¶

假设：偏线性结构（Partial Linearity）
\(\mathbb{E}[D \mid A, M, W, X] = \theta A + \underbrace{f_0(M, X)}_{\text{非线性}} + g_0(W)\)
\(\mathbb{E}[X \mid M, W] = F M + h(W)\)，其中F是未知常数（M与X的线性关系）。
关键：\(\mathbb{E}[Z \mid M, W]\)是M的某种非线性函数，且Z与D独立给M, W（即Z是“工具变量”）。
如何去掉W：
先用非参数回归得到所有变量的残差（\(\tilde{V} = V - \mathbb{E}[V \mid W]\)），将问题简化为不含W的三元组\((\tilde{A}, \tilde{X}, \tilde{Z}, \tilde{D})\)。
识别为线性IV：
在上述偏线性假设下，控制直接效应\(\theta\)等价于如下线性IV模型的解：
\[\mathbb{E}[\tilde{D} - \theta \tilde{A} \mid \tilde{X}, \tilde{Z}] = \tilde{X}^\top \beta\]
即存在某个函数\(h(x)=\tilde{X}^\top \beta\)（桥梁函数），使得
\[\mathbb{E}[\tilde{D} - \theta \tilde{A} - \tilde{X}^\top \beta \mid \tilde{Z}] = 0\]
这是一个标准的线性IV矩条件，其中\(\tilde{A}\)为内生变量，\(\tilde{Z}\)为工具变量。
关键假设：\(\text{Cov}(\tilde{X}, \tilde{Z})\)满列秩（等价于M对X的影响向量彼此线性独立）。实际中，加入足够多的血液指标X通常能保证此条件。

三、报告主体：讲者讲了什么¶

[0:01] - [0:11] 问题设定与动机¶

[0:01:04]：介绍合作者Kara Liu（博士生）与Russ Altman（斯坦福计算机系）。
[0:02:24]：引用黑人产妇死亡率是白人2.6倍的数据（来自CDC 2018-2021），指出“隐性偏见”可能导致不平等治疗。
[0:03:09]：定义三个挑战：(1) 检测方法必须可扩展到大型EHR数据；(2) 定义什么是“隐性偏见”；(3) 从观察数据中识别偏见效应。

[0:04:11] - [0:10:35] 方法论框架：用因果中介定义偏见¶

[0:04:36]：患者属性(A)→临床决策(D)的直接效应定义为偏见。但A可能通过患者真实健康状态(M)影响D，这一路径是合理的，不应计入偏见。
[0:06:01]：正式提出因果图：A→D（直接偏见）；A→M→D（通过健康状态的合理路径）；M不可观测。
[0:06:37]：选择控制直接效应（CDE）而非自然直接效应——理由：(a) 更易估计；(b) 如果CDE显著非零，则一定存在偏见（尽管反之不必然）。
[0:07:56]：CDE的G公式表达：\(\theta = \mathbb{E}[ \mathbb{E}[D | A=1, M, W] - \mathbb{E}[D | A=0, M, W] ]\)，但M不可观测。
[0:08:05]：引入代理变量：Z = 患者自评问卷（如“是否经常疲劳”），X = 客观检验（如血压）。幻灯强调：“Survey responses collected by enrollment coordinators (e.g., UK Biobank) and do not directly influence clinical decision”——因此Z可作为“工具变量”化代理。
[0:10:35]：因果图等价于“存在未观测混杂的近端推断”标准设置（Miao et al., 2018）。识别策略：求解一个非参数IV问题，找到“结果桥梁函数”\(h(X, D, W)\)使得
\[\mathbb{E}[Y - h(X, D, W) \mid Z, W] = 0\]
（此处Y = D，即诊断结果）。

[0:11:27] - [0:20:03] 技术贡献¶

[0:11:27]：引用两个最相关先行工作：
Fulcher et al. (2020, 含Shpitser)：近端因果中介分析，观测中介+隐藏混杂。
Cui & Tchetgen (“Causal Inference with Hidden Mediators”)：隐藏中介下的自然直接效应（与本报告的因果图相同，但目标不同）。
[0:14:30] - [0:14:49]：本报告的技术贡献：
在偏线性假设下，提出更简单的去偏机器学习估计与推断方法，无需解非参数线性逆问题（即使IV解不唯一）。
构建一套统计诊断与稳健性检验，检查识别假设。
实现Python库“ProximalDE”。
[0:18:39]：强调方法不仅适用于中介分析，还可推广到经典线性IV with 许多内生变量与许多工具变量、且协方差阵降秩的情形——这是标准文献未被充分关注的方向。

[0:21:25] - [0:38:35] 识别与估计¶

[0:21:27]：偏线性假设（PLR）：
\(\mathbb{E}[D \mid A, M, W, X] = \theta A + f_1(M, X) + g_1(W)\)
\(\mathbb{E}[X \mid M, W] = F M + g_2(W)\)，F满列秩（X的维度 ≥ M的维度）。
[0:24:38]：对W进行“预残差化”（减去W的线性预测）：问题简化为无W的结构。
[0:26:01]：残差后的模型变为标准线性IV：
\[\tilde{D} - \theta \tilde{A} = \tilde{X}^\top \beta + \varepsilon\]
工具变量为\(\tilde{Z}\)。需注意\(\tilde{X}\)与\(\tilde{Z}\)的协方差阵秩亏（因二者仅通过M相关），导致无穷多组\((\theta, \beta)\)满足矩条件。
[0:30:08]：引入对偶IV：找一组合并权重\(\gamma\)，使得新的工具变量\(\tilde{A} - \tilde{Z}^\top \gamma\)与\(\tilde{X}\)正交（即独立于\(\tilde{X}\)）。由Gibbs等关于“部分识别/去偏机器学习”的结果（如Benkeser et al., van der Laan），这样的\(\gamma\)存在当且仅当对偶IV有解。
[0:33:11] - [0:35:53]：关键定理：若对偶IV有解，则即使原始IV解不唯一，\(\theta\)被唯一识别。构造的新矩条件不依赖于桥梁函数\(h\)：
\[\mathbb{E}\big[ (\tilde{D} - \theta \tilde{A}) \cdot (\tilde{A} - \tilde{Z}^\top \gamma^*) \big] = 0\]
其中\(\gamma^*\)是某个最小范数解。该矩条件Neyman正交于\(\gamma\)与\(h\)，因此可使用去偏机器学习（如cross-fitting）做推断，不受其一阶估计误差影响。
[0:36:35] - [0:38:35]：估计方案：正则化两阶段最小二乘（2SLS），正则化参数\(\lambda\)选在\(n^{-1/3}\)到\(n^{-1}\)之间以保证渐近正态。诊断测试：存在性检验、弱识别检验（类似多IV下的F检验）、协方差秩检验（估计M的“有效维数”）。

[0:40:55] - [0:43:20] 实证结果¶

数据：UK Biobank，约50万人，65个血液指标（X），19个自评问卷（Z），多类诊断（心脏病、肾衰竭、抑郁等）。
[0:41:15]：报告识别出34个“显著偏见”案例（\(\theta >0\)且通过所有稳健性检验）。部分结果与文献一致（如女性心脏病诊断不足），部分不一致（如认为黑人肾衰竭诊断过度——但UK Biobank缺少诊断用的关键血检）。
[0:42:53]：稳健性：大多数显著估计对病案移除（influence removal）稳健； bootstrap置信区间与正态近似一致；按收入分层发现效果异质性。

额外讨论（Q&A + Shpitser讨论）¶

[0:43:37] - [0:44:21]：对偏线性中函数\(f_1, f_2\)无额外假设；只需它们在去偏推断中满足\(n^{1/4}\)率条件。
[0:46:10] - [0:46:51]：对F矩阵满秩假设的辩护——当加入足够多且功能不同的血液指标时，M的低维表示使这些模式线性无关，容易满足。若不满秩，方法失效但诊断测试会警告。
[0:47:19] - [0:55:00]：Shpitser讨论关键点：
目标并非严格意义的“控制直接效应”（通常固定M至某值），而是平均控制直接效应（marginalized CDE），更接近一个G公式问题，因此实际是标准近端推断（调整未观测混杂）。
建议是否可以放宽偏线性假设？
效率问题：近端框架下EIF的投影可能极复杂，是否可能推导出半参有效界？
讲者回应：偏线性是“从第一原则导出线性桥梁函数”的充分条件；软件可推广到标准未观测混杂调整场景。

四、对应论文与开放问题¶

(a) 对应论文¶

论文标题：Detecting clinician implicit biases in diagnoses using proximal causal inference
arXiv：2501.16399（已确认）
作者：Kara Liu, Russ Altman, Vasilis Syrgkanis
不确定项：转写中提到的另一合作者“Whitney”是谁未能确认（可能指Whitney Newey？）。

(b) 开放问题¶

每条扎根于转写中的具体语句：

可解释的“直接效应”含义：Shpitser指出，“干预种族”在因果定义上存在哲学困境。讲者回应为“感知到的种族”（[0:55:28]）。问题：如何定义能够被流行病学/社会学界接受的“潜在干预”？这是所有“检测不公”方法共同的开放大框架。
放宽偏线性假设：Shpitser问“多少线性足够？”讲者承认偏线性是充分非必要（[0:52:25]）。开放问题：是否存在更弱的可检验条件（如桥梁函数为可加模型或低维结构）仍能保证线性IV方法的有效性？
半参数效率：Shpitser问“是否推导了本问题的EIF？”讲者未直接回答。开放问题：在本报告的半参数模型中（偏线性+给定Z/X），控制直接效应θ的半参数有效界能否闭合形式表达？去偏机器学习的效率损失是多少？
多中心/异质性：讲者自身提到“分层分析发现收入间异质性”（[0:42:53]）。开放问题：如何将方法扩展到非线性效应异质性（如θ随X/W变化）？或与structure learning结合，自动发现哪些患者亚群受影响最大？
缺失代理变量：实证中UK Biobank缺少对肾衰竭诊断关键的血液指标（[0:42:04]）。开放问题：如何设计诊断测试（如现有工具变量变种的Sensitivity Analysis）来量化“代理未完全覆盖健康状态”时的偏差？
去偏机器学习的有限样本行为：正则化λ需要在\(n^{-1/3}\)到\(n^{-1}\)之间，但拥有50万样本的UK Biobank下，这种选择的实际性如何？有限样本的置信区间覆盖是否易受正则化调参影响？

Maintained by 陈星宇 · Homepage · Source on GitHub

评论