跳转至

Detecting clinician implicit biases in diagnoses using proximal causal inference

讲者: Vasilis Syrgkanis
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-04
主题: 因果推断
视频: https://youtu.be/ThSwOyrK5dg · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2501.16399 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

1.1 子方向:用观察性数据检测临床决策中的隐性偏见

  • 核心追问:如何从大规模电子健康记录(EHR)中,识别出医生因患者种族、性别等人口学属性而做出的不同诊断/治疗决策,且这种差异不能由患者真实的健康状态差异解释。
  • 难点:患者健康状态(M)通常是未观测的潜在变量;直接比较不同属性患者的诊断率会混入“真实健康差异”(如种族间高血压发病率不同)与“医生偏见”两种效应。现有的检测方法(如态度量表、标准化病人实验)成本高、规模小,无法应用于百万级EHR数据库。

1.2 奠基与主流路线

  • 传统因果中介分析(Imai et al., 2010; VanderWeele, 2015):将患者属性分为“通过健康状态影响诊断”的间接路径与“直接”路径(后者视为偏见)。局限:要求健康状态可观测,否则识别需强无混杂假设。
  • 近端因果推断(Miao et al., 2018; Tchetgen Tchetgen et al., 2020):当存在未观测混杂/中介时,利用代理变量(proxies)来恢复因果效应。本报告是该框架在“检测偏见”这一特定应用中的变体。
  • 反事实公平性(Kusner et al., 2017; Kilbertus et al., 2017):从算法公平性角度定义“直接歧视”,但通常假设数据生成过程已知或可完全观测。

1.3 本报告站在哪

  • 定位:将“隐性偏见检测”问题重构为含未观测中介的因果直接效应估计问题,并应用近端因果推断中的“桥梁函数”技术。
  • 与最相关工作区别
  • Fulcher et al. (2020, Tchetgen Tchetgen group):使用近端推断估计自然直接效应,需估计条件密度(高维下困难)。本报告聚焦于控制直接效应(CDE),仅需求解一个偏线性IV方程,估计更简单。
  • Cui & Tchetgen (2021, “Causal Inference with Hidden Mediators”):与本报告因果图相同,但目标也是自然直接效应;本报告采用不同的(更简单)识别策略与推断方法。

二、最小内核 / 一个最简例子

2.1 符号与数据

  • 可观测数据
  • \(A\):患者敏感属性(二值:如性别=男/女)。
  • \(D\):临床诊断结果(0/1,如是否诊断为心脏病)。
  • \(W\):可观测的患者其他特征(年龄、收入、运动量等)。
  • \(Z\)治疗代理变量——自我报告症状问卷(如“是否胸痛”),由患者填写,医生决策时不可见。
  • \(X\)结果代理变量——客观检验指标(如血压检查值),医生决策时参考。
  • 潜在不可观测量
  • \(M\):患者真实的健康状态(一维潜在变量,如“心血管真实风险”)。
  • 目标参数控制直接效应(CDE)
    \[\theta = \mathbb{E}[ \mathbb{E}[D \mid A=1, M, W] - \mathbb{E}[D \mid A=0, M, W] ]\]
    含义:相比男性患者,一位女性患者被诊断为心脏病的概率差,其中健康状态M被固定(类似“医生仅凭性别而非健康状态做决定”的偏见效应)。

2.2 核心思路(最简例子)

  • 假设:偏线性结构(Partial Linearity)
  • \(\mathbb{E}[D \mid A, M, W, X] = \theta A + \underbrace{f_0(M, X)}_{\text{非线性}} + g_0(W)\)
  • \(\mathbb{E}[X \mid M, W] = F M + h(W)\),其中F是未知常数(M与X的线性关系)。
  • 关键\(\mathbb{E}[Z \mid M, W]\)是M的某种非线性函数,且Z与D独立给M, W(即Z是“工具变量”)。
  • 如何去掉W
  • 先用非参数回归得到所有变量的残差(\(\tilde{V} = V - \mathbb{E}[V \mid W]\)),将问题简化为不含W的三元组\((\tilde{A}, \tilde{X}, \tilde{Z}, \tilde{D})\)
  • 识别为线性IV
  • 在上述偏线性假设下,控制直接效应\(\theta\)等价于如下线性IV模型的解:
    \[\mathbb{E}[\tilde{D} - \theta \tilde{A} \mid \tilde{X}, \tilde{Z}] = \tilde{X}^\top \beta\]
    即存在某个函数\(h(x)=\tilde{X}^\top \beta\)(桥梁函数),使得
    \[\mathbb{E}[\tilde{D} - \theta \tilde{A} - \tilde{X}^\top \beta \mid \tilde{Z}] = 0\]
    这是一个标准的线性IV矩条件,其中\(\tilde{A}\)为内生变量,\(\tilde{Z}\)为工具变量。
  • 关键假设\(\text{Cov}(\tilde{X}, \tilde{Z})\)满列秩(等价于M对X的影响向量彼此线性独立)。实际中,加入足够多的血液指标X通常能保证此条件。

三、报告主体:讲者讲了什么

[0:01] - [0:11] 问题设定与动机

  • [0:01:04]:介绍合作者Kara Liu(博士生)与Russ Altman(斯坦福计算机系)。
  • [0:02:24]:引用黑人产妇死亡率是白人2.6倍的数据(来自CDC 2018-2021),指出“隐性偏见”可能导致不平等治疗。
  • [0:03:09]:定义三个挑战:(1) 检测方法必须可扩展到大型EHR数据;(2) 定义什么是“隐性偏见”;(3) 从观察数据中识别偏见效应。

[0:04:11] - [0:10:35] 方法论框架:用因果中介定义偏见

  • [0:04:36]:患者属性(A)→临床决策(D)的直接效应定义为偏见。但A可能通过患者真实健康状态(M)影响D,这一路径是合理的,不应计入偏见。
  • [0:06:01]:正式提出因果图:A→D(直接偏见);A→M→D(通过健康状态的合理路径);M不可观测。
  • [0:06:37]:选择控制直接效应(CDE)而非自然直接效应——理由:(a) 更易估计;(b) 如果CDE显著非零,则一定存在偏见(尽管反之不必然)。
  • [0:07:56]:CDE的G公式表达:\(\theta = \mathbb{E}[ \mathbb{E}[D | A=1, M, W] - \mathbb{E}[D | A=0, M, W] ]\),但M不可观测。
  • [0:08:05]:引入代理变量:Z = 患者自评问卷(如“是否经常疲劳”),X = 客观检验(如血压)。幻灯强调:“Survey responses collected by enrollment coordinators (e.g., UK Biobank) and do not directly influence clinical decision”——因此Z可作为“工具变量”化代理。
  • [0:10:35]:因果图等价于“存在未观测混杂的近端推断”标准设置(Miao et al., 2018)。识别策略:求解一个非参数IV问题,找到“结果桥梁函数”\(h(X, D, W)\)使得
    \[\mathbb{E}[Y - h(X, D, W) \mid Z, W] = 0\]
    (此处Y = D,即诊断结果)。

[0:11:27] - [0:20:03] 技术贡献

  • [0:11:27]:引用两个最相关先行工作:
  • Fulcher et al. (2020, 含Shpitser):近端因果中介分析,观测中介+隐藏混杂。
  • Cui & Tchetgen (“Causal Inference with Hidden Mediators”):隐藏中介下的自然直接效应(与本报告的因果图相同,但目标不同)。
  • [0:14:30] - [0:14:49]:本报告的技术贡献:
  • 偏线性假设下,提出更简单的去偏机器学习估计与推断方法,无需解非参数线性逆问题(即使IV解不唯一)。
  • 构建一套统计诊断与稳健性检验,检查识别假设。
  • 实现Python库“ProximalDE”。
  • [0:18:39]:强调方法不仅适用于中介分析,还可推广到经典线性IV with 许多内生变量与许多工具变量、且协方差阵降秩的情形——这是标准文献未被充分关注的方向。

[0:21:25] - [0:38:35] 识别与估计

  • [0:21:27]:偏线性假设(PLR):
  • \(\mathbb{E}[D \mid A, M, W, X] = \theta A + f_1(M, X) + g_1(W)\)
  • \(\mathbb{E}[X \mid M, W] = F M + g_2(W)\),F满列秩(X的维度 ≥ M的维度)。
  • [0:24:38]:对W进行“预残差化”(减去W的线性预测):问题简化为无W的结构。
  • [0:26:01]:残差后的模型变为标准线性IV
    \[\tilde{D} - \theta \tilde{A} = \tilde{X}^\top \beta + \varepsilon\]
    工具变量为\(\tilde{Z}\)。需注意\(\tilde{X}\)\(\tilde{Z}\)的协方差阵秩亏(因二者仅通过M相关),导致无穷多组\((\theta, \beta)\)满足矩条件。
  • [0:30:08]:引入对偶IV:找一组合并权重\(\gamma\),使得新的工具变量\(\tilde{A} - \tilde{Z}^\top \gamma\)\(\tilde{X}\)正交(即独立于\(\tilde{X}\))。由Gibbs等关于“部分识别/去偏机器学习”的结果(如Benkeser et al., van der Laan),这样的\(\gamma\)存在当且仅当对偶IV有解。
  • [0:33:11] - [0:35:53]关键定理:若对偶IV有解,则即使原始IV解不唯一,\(\theta\)被唯一识别。构造的新矩条件不依赖于桥梁函数\(h\)
    \[\mathbb{E}\big[ (\tilde{D} - \theta \tilde{A}) \cdot (\tilde{A} - \tilde{Z}^\top \gamma^*) \big] = 0\]
    其中\(\gamma^*\)是某个最小范数解。该矩条件Neyman正交\(\gamma\)\(h\),因此可使用去偏机器学习(如cross-fitting)做推断,不受其一阶估计误差影响。
  • [0:36:35] - [0:38:35]:估计方案:正则化两阶段最小二乘(2SLS),正则化参数\(\lambda\)选在\(n^{-1/3}\)\(n^{-1}\)之间以保证渐近正态。诊断测试:存在性检验、弱识别检验(类似多IV下的F检验)、协方差秩检验(估计M的“有效维数”)。

[0:40:55] - [0:43:20] 实证结果

  • 数据:UK Biobank,约50万人,65个血液指标(X),19个自评问卷(Z),多类诊断(心脏病、肾衰竭、抑郁等)。
  • [0:41:15]:报告识别出34个“显著偏见”案例\(\theta >0\)且通过所有稳健性检验)。部分结果与文献一致(如女性心脏病诊断不足),部分不一致(如认为黑人肾衰竭诊断过度——但UK Biobank缺少诊断用的关键血检)。
  • [0:42:53]稳健性:大多数显著估计对病案移除(influence removal)稳健; bootstrap置信区间与正态近似一致;按收入分层发现效果异质性。

额外讨论(Q&A + Shpitser讨论)

  • [0:43:37] - [0:44:21]:对偏线性中函数\(f_1, f_2\)无额外假设;只需它们在去偏推断中满足\(n^{1/4}\)率条件。
  • [0:46:10] - [0:46:51]:对F矩阵满秩假设的辩护——当加入足够多且功能不同的血液指标时,M的低维表示使这些模式线性无关,容易满足。若不满秩,方法失效但诊断测试会警告。
  • [0:47:19] - [0:55:00]Shpitser讨论关键点
  • 目标并非严格意义的“控制直接效应”(通常固定M至某值),而是平均控制直接效应(marginalized CDE),更接近一个G公式问题,因此实际是标准近端推断(调整未观测混杂)。
  • 建议是否可以放宽偏线性假设?
  • 效率问题:近端框架下EIF的投影可能极复杂,是否可能推导出半参有效界?
  • 讲者回应:偏线性是“从第一原则导出线性桥梁函数”的充分条件;软件可推广到标准未观测混杂调整场景。

四、对应论文与开放问题

(a) 对应论文

  • 论文标题Detecting clinician implicit biases in diagnoses using proximal causal inference
  • arXiv:2501.16399(已确认)
  • 作者:Kara Liu, Russ Altman, Vasilis Syrgkanis
  • 不确定项:转写中提到的另一合作者“Whitney”是谁未能确认(可能指Whitney Newey?)。

(b) 开放问题

每条扎根于转写中的具体语句:

  1. 可解释的“直接效应”含义:Shpitser指出,“干预种族”在因果定义上存在哲学困境。讲者回应为“感知到的种族”([0:55:28])。问题:如何定义能够被流行病学/社会学界接受的“潜在干预”?这是所有“检测不公”方法共同的开放大框架。

  2. 放宽偏线性假设:Shpitser问“多少线性足够?”讲者承认偏线性是充分非必要([0:52:25])。开放问题:是否存在更弱的可检验条件(如桥梁函数为可加模型或低维结构)仍能保证线性IV方法的有效性?

  3. 半参数效率:Shpitser问“是否推导了本问题的EIF?”讲者未直接回答。开放问题:在本报告的半参数模型中(偏线性+给定Z/X),控制直接效应θ的半参数有效界能否闭合形式表达?去偏机器学习的效率损失是多少?

  4. 多中心/异质性:讲者自身提到“分层分析发现收入间异质性”([0:42:53])。开放问题:如何将方法扩展到非线性效应异质性(如θ随X/W变化)?或与structure learning结合,自动发现哪些患者亚群受影响最大?

  5. 缺失代理变量:实证中UK Biobank缺少对肾衰竭诊断关键的血液指标([0:42:04])。开放问题:如何设计诊断测试(如现有工具变量变种的Sensitivity Analysis)来量化“代理未完全覆盖健康状态”时的偏差?

  6. 去偏机器学习的有限样本行为:正则化λ需要在\(n^{-1/3}\)\(n^{-1}\)之间,但拥有50万样本的UK Biobank下,这种选择的实际性如何?有限样本的置信区间覆盖是否易受正则化调参影响?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论