An intersectional framework for counterfactual fairness in risk prediction¶

作者: Solvejg Wastvedt, Jared D Huling, Julian Wolfson
来源: Biostatistics
主题: 因果推断
相关性: 7/10
机构绿灯: University of Minnesota（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：算法公平性在统计与机器学习中的核心问题是：如何定义、识别与估计一个预测模型在不同群体间是否存在系统性偏差，并在因果或观测框架下给出可推断的度量。当前该方向已从单一维度的观测公平性（如不同种族间的假阳性率差异）走向多重交叉维度（Intersectionality，如“黑人+女性+低收入”）的反事实公平性，并在医疗风险预测等场景中遭遇了“预测本身引导干预（Treatment Guidance）”带来的因果反事实识别与估计瓶颈。该子方向正处于从“提出定义”向“建立严格估计与推断理论”过渡的阶段。

发展脉络： 1. 奠基工作（单一观测公平性与反事实框架的提出）： - Kusner et al. (2017) [4] 提出了反事实公平性，将因果潜在结果引入公平性定义，认为如果个体在反事实世界（改变受保护特征）下的预测与真实世界一致，则决策公平。但作者指出，该框架的反事实是针对“受保护特征（如种族）”，而非“干预分配”，且未考虑多重交叉群体。 - Obermeyer et al. (2019) [3] 在医疗算法中实证揭露了种族偏差：由于使用医疗成本作为健康需求的代理，导致同等风险水平下黑人患者实际更病重，这成为医疗算法公平性研究的标志性实证起点。 2. 主要进展（交叉性与反事实评估的引入）： - Foulds & Pan (2018) [10] 提出差分公平，首次将交叉性视角引入多属性公平性度量，利用差分隐私工具保证任意子群组合的统计性质，但停留在观测层面。 - Kearns et al. (2017) [5] 提出“公平性选区划分”问题，指出仅保证单一群体公平可能在无穷小的交叉子群上产生严重不公平，并证明了审计子群公平的计算复杂性等价于弱不可知学习。 - Coston et al. (2019) [13] 与 Mishler & Kennedy (2020) [2] 是本文最直接的方法论前驱：他们将反事实框架引入风险评估，指出当预测引导干预时，观测公平性指标失效，必须使用反事实错误率，并提出了双重稳健估计量。但本文作者指出，Mishler & Kennedy 的双重稳健估计量可能超出 [0,1] 界限，且两者均未考虑交叉群体及小样本推断问题。 3. 当前 Frontier 与理论挑战： - Molina & Loiseau (2022) [23] 试图通过边际公平性给出交叉公平性的界，缓解了交叉子群指数级爆炸导致的估计不可行问题，但非反事实框架。 - Fawkes et al. (2022) [22] 对因果公平性提出了根本性质疑，指出对种族等社会建构特征做反事实假设极难成立，且样本选择机制会破坏可忽略性。本文作者承认此质疑，但选择在医疗干预语境下绕开“改变种族”的反事实，转而定义“改变干预分配”的反事实。 4. 本文的位置： - 本文站在 Coston/Mishler 的反事实风险评估、Kearns/Foulds 的交叉性公平性、以及医疗算法偏差实证的交汇点，试图构建一个同时处理“多重交叉群体”与“干预引导下的反事实识别”的度量与推断框架。

子线索聚类： - 线索 A：观测交叉公平性及其计算/统计界（Kearns 2017, Foulds 2018, Molina 2022, Morina 2019）：关注如何定义与审计指数级子群的统计 parity，核心瓶颈是子群稀疏性与计算硬度。 - 线索 B：反事实风险评估与双重稳健估计（Coston 2019, Mishler 2020）：关注预测引导干预时的反事实错误率识别与 DR 估计，核心瓶颈是估计量可能越界及未覆盖交叉群体。 - 线索 C：因果公平性的根本哲学/识别质疑（Fawkes 2022, Benthall 2018, Kong 2022）：质疑对种族做反事实的合法性，指出社会建构变量的因果图假设不可验证，且存在选择偏差。

这个方向在追问的核心问题： 1. 如何在指数级增长的交叉子群中定义公平性度量，且使其在统计上可估计、可审计？（子群稀疏性与维度灾难） 2. 当预测模型本身决定干预分配（Treatment guidance）时，观测结果不再反映模型真实效能，反事实错误率如何识别与估计？（因果识别与 DR 估计的边界性质） 3. 对社会建构变量（如种族）做反事实假设是否具有本体论与认识论合法性？（识别假设的可验证性）

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：现有方法要么只看单一群体（忽略交叉性），要么只看观测结果（忽略干预引导的反事实），且现有 DR 估计量不保证 [0,1] 界限，小样本交叉子群推断缺乏工具。这使得本文的 u-value 与替代 bootstrap 成为“显然的下一步”。 - 被淡化或回避的竞争路线：作者回避了 Fawkes et al. (2022) [22] 对“改变种族”反事实的根本性挑战，转而声明自己的反事实是“改变干预”，但这仍要求在种族等变量条件下化干预的反事实，识别假设（可忽略性）依然极强。此外，Molina & Loiseau (2022) [23] 通过边际公平性逼近交叉公平性的路线被提及但未被深入对比，该路线在避免子群稀疏性上可能更具统计优势。 - 明显该被引却缺失的工作：在半参数效率理论与高维稀疏子群推断方面，缺乏对 Higher-Order Influence Functions (HOIF) 或 Targeted Maximum Likelihood Estimation (TMLE) 的引用——这些方法正是处理 DR 估计越界与稀疏子群高阶偏差的标准工具；在推断部分，缺乏对 Subgroup-specific inference 或高维多重检验的引用。

张力： - 未见明显对立引用。但存在隐性张力：Mishler & Kennedy (2020) [2] 的 DR 估计量被本文指出可能越界，而本文的替代估计量虽保证界限，却可能牺牲了 DR 性质或效率；Fawkes et al. (2022) [22] 认为因果公平性在种族上不可行，而本文虽声称避开“改变种族”，但其识别公式仍强烈依赖种族条件下的可忽略性，实质上并未完全消解该质疑。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与潜在变量：
\(A\)：受保护特征向量（如种族、性别），取值于有限集 \(\mathcal{A}\)，维度为 \(d\)。交叉子群定义为 \(A\) 的特定取值组合 \(a\)。
\(W\)：基线协变量（如年龄、合并症），可观测。
\(Z\)：干预分配（如是否接受 COVID-19 强化治疗），二值或连续，受预测模型驱动。
\(Y\)：观测到的结局（如是否感染 COVID-19 重症）。
\(Y^{(z)}\)：潜在结局，即在干预水平 \(Z=z\) 下会发生的结局。这是不可观测的潜在量。
\(R\)：风险预测模型的输出（如预测的感染概率），由 \((A, W)\) 生成，\(R = r(A, W)\)。
\(\tau\)：风险阈值，当 \(R > \tau\) 时触发干预 \(Z=1\)。
模型（数据生成机制）：
观测数据由 \((A, W, R, Z, Y)\) 构成，其中 \(R = r(A, W)\)，\(Z\) 的分配机制依赖于 \(R\)（即 \(Z \perp Y^{(z)} | R\) 或更复杂的依赖），\(Y = Y^{(Z)}\)（观测结局等于实际接受干预下的潜在结局）。
核心假设：可忽略性，即 \(Z \perp Y^{(z)} | (A, W)\)，意味着在给定基线特征下，干预分配与潜在结局独立；以及一致性 \(Y = Y^{(Z)}\)。
可观测数据与不可观测量：
研究者实际观测到的是 \((A_i, W_i, R_i, Z_i, Y_i)\) 的 iid 样本。
想要但观测不到的：对于接受了干预的患者 (\(Z=1\))，其如果不接受干预的结局 \(Y^{(0)}\) 不可观测；反之亦然。因此，反事实错误率（如在无干预世界下的假阳性率）无法直接计算，必须靠可忽略性假设进行识别。

第二步：讲最小内核（最简特例：二值干预 + 单一受保护特征 + 反事实假阳性率差异）

剥掉多重交叉与连续干预，考虑最简特例：\(A\) 为单一二值种族（0=白人，1=黑人），\(Z\) 为二值干预（0=无，1=有），\(R\) 为二值预测（0=低风险，1=高风险）。

核心度量退化：本文关注反事实错误率差异。在无干预的反事实世界（\(Z=0\)）下，假阳性率（FPR）定义为：模型预测高风险 (\(R=1\)) 但实际未发生不良结局 (\(Y^{(0)}=0\)) 的比例。反事实 FPR 差异为：
\[\Delta_{FPR}^{(0)}(1, 0) = P(R=1, Y^{(0)}=0 | A=1) - P(R=1, Y^{(0)}=0 | A=0)\]
这度量了：如果所有人都不接受干预，模型对黑人相比白人产生了多少多余的“虚警”。
识别怎么走：由于 \(Y^{(0)}\) 对 \(Z=1\) 的人不可测，利用可忽略性 \(Z \perp Y^{(0)} | (A, W)\)，可将其识别为：
\[P(R=1, Y^{(0)}=0 | A=a) = E_{W|A=a}[ P(R=1|A=a, W) \times P(Y=0 | Z=0, A=a, W) ]\]
这就是标准的 G-formula 识别。最小内核的数学困难在于：如何估计这个涉及条件概率乘积与边缘期望的嵌套泛函，并保证估计量在 [0,1] 之间。
为什么成立与本文的破法：传统 DR 估计将上述识别公式写成 outcome model 与 propensity model 的组合，但作者指出 DR 估计可能越界。本文的最小内核破法是：不直接估计概率泛函，而是估计 odds 或 log-odds 泛函，再通过变换映射回 [0,1]。在特例中，如果将 \(P(Y=0 | Z=0, A, W)\) 的估计换成对 \(\log\{P(Y=0 | ...)/P(Y=1 | ...)\}\) 的估计，再取指数变换，天然保证概率在 (0,1) 内。这就是支撑整篇论文估计策略的最小内核。

三、这篇论文做了什么¶

三句话： ①研究了医疗风险预测模型在多重交叉受保护群体与干预引导下的反事实不公平度量问题； ②核心工具是基于 G-formula 的反事实识别、log-odds 变换保证界限的估计量、以及基于子群合并的替代 bootstrap 推断； ③主要结论是定义了交叉反事实不公平度量，构造了保证 [0,1] 界限的估计量与 u-value 推断框架，并在 COVID-19 风险预测数据中实证揭示了单一群体公平性掩盖下的交叉不公平。

关键设定与假设：在第二节最小记号基础上补全： - 交叉子群：\(A\) 为向量，交叉子群 \(a\) 是 \(A\) 的一个具体取值（如黑人+女性+低收入）。不公平度量为反事实错误率在子群 \(a\) 与参考子群 \(a_{ref}\) 间的差异 \(\Delta(a, a_{ref})\)。 - 反事实错误率：定义了正/负反事实错误率，对应干预水平 \(z\) 下的 FP/FN。 - 核心假设强化与放宽： - 可忽略性 \(Z \perp Y^{(z)} | (A, W)\)：相比 Mishler & Kennedy，本文在医疗语境下强调此假设的合理性（医生基于观测记录决策，与潜在结局独立），但未在技术上放宽。 - Positivity \(0 < P(Z=z | A=a, W=w) < 1\)：这是识别的必要条件，但在交叉子群中极易破裂（某些子群几乎全被干预），本文通过子群合并与替代 bootstrap 隐性应对此问题，而非在假设层面放宽。 - SUTVA：隐含假设干预无溢出效应。

主要结果： 1. 识别结果：在可忽略性与一致性下，将反事实错误率识别为仅含观测量的 G-formula 泛函（如第二节特例所示），这是定理的基础。 2. 估计量构造与界限保证：提出基于 log-odds 变换的估计量。直觉：直接估计 \(P(Y=y | Z=z, A, W)\) 可能导致 DR 估计越界，本文先估计 log-odds \(\eta_z(A, W) = \log\{P(Y=y | Z=z, A, W) / P(Y=1-y | ...)\}\)，再取 softmax 变换 \(\pi_z = e^\eta / (1+e^\eta)\)，将 \(\pi_z\) 代入 G-formula 的样本平均中。必要条件：log-odds 模型需正确指定（或使用 ML 灵活指定），Positivity 需成立。解决的技术难点：避免了 Mishler & Kennedy (2020) DR 估计量超出 [0,1] 的问题，且在 ML 模型下仍保持界限。 3. u-value 与推断框架：定义 u-value 为观测到的交叉不公平度量在参考分布（公平模型下的分布）中的分位数，用于量化不公平的“极端性”。为解决交叉子群样本稀疏导致标准 bootstrap 失效的问题，提出替代 bootstrap：将稀疏子群与相似子群合并以构建方差估计的参考分布，再反推原子群的置信区间。

证明路线与技术技巧： - 整体路线： 1. 从因果假设出发，通过 G-formula 将反事实错误率识别为观测数据的泛函。 2. 将泛函中的条件概率参数化为 log-odds，通过变换保证概率估计的界限。 3. 利用样本平均构造点估计，证明其大样本性质。 4. 构造 u-value：通过重采样/合并策略估计零分布，计算分位数。 - 关键跳跃点：从 DR 估计到 log-odds 变换估计的跳跃。难点在于：log-odds 变换破坏了经典 DR 估计的双重稳健性（如果 outcome model 错但 propensity model 对，log-odds 变换后的估计是否仍一致？本文实质上依赖 outcome model 的正确指定或 ML 的收敛性，牺牲了部分 DR 性质以换取界限保证）。 - 技术技巧点名： - G-formula / Robins 的因果标准化：用于反事实泛函的识别，将 \(E[Y^{(z)}|A]\) 转化为 \(E_W[E[Y|Z=z, A, W]]\)。 - Log-odds / Softmax 变换：用于保证概率估计量落入 [0,1]，解决 DR 估计越界问题。 - 子群合并的替代 Bootstrap：用于稀疏子群的方差估计，借鉴了高维分类数据中合并稀疏单元的思想。 - 非劣效性检验框架：作者引用 Walker (2019) [18]，指出检验 \(\Delta \leq \epsilon\) 等价于非劣效性检验，将公平性推断转化为经典的非劣效边界检验问题。

真实例子与应用： - 数据/场景：中西部大型医疗系统的 COVID-19 风险预测模型。受保护特征为种族与性别，干预为基于风险评分的 COVID-19 强化护理，结局为重症/死亡。 - 怎么用上去：将本文的反事实错误率差异估计量应用于历史数据，计算不同交叉子群（如黑人女性 vs 白人男性）在无干预反事实世界下的 FPR 差异，并计算 u-value。 - 得到什么结果：实证显示，在单一种族维度上模型可能看似公平，但在交叉维度（种族+性别）上，黑人女性的反事实 FPR 显著高于参考群体，u-value 显示其不公平性处于极端位置。 - 想说明什么：验证交叉反事实框架的必要性——单一群体公平性掩盖了交叉群体的严重不公平；同时展示 log-odds 估计量与替代 bootstrap 在真实稀疏数据中的可行性。

🔎 结论是否比证明窄： - 作者在框架上声称处理了“干预引导下的反事实公平性”，但识别假设 \(Z \perp Y^{(z)} | (A, W)\) 实质上要求医生决策仅基于电子病历 \(W\)，不受未记录的潜在结局影响。在真实医疗场景中，医生往往掌握额外信息（如患者主观诉求），此假设极难验证。作者在讨论中承认了这一点，但定理的严格证明完全依赖此强假设，结论的适用范围比证明所需的假设条件窄。 - Log-odds 估计量保证了界限，但作者未严格证明其在 ML nuisance 估计下的半参数效率或收敛速率，仅给出了直觉与模拟支撑，理论结论弱于方法宣称。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率与高阶修正：本文的 log-odds 估计量牺牲了双重稳健性以换取界限，在稀疏交叉子群下，nuisance 参数的收敛速率可能不足。能否引入 HOIF (Higher-Order Influence Functions) 对 log-odds 估计量进行高阶偏差修正，以在保证界限的前提下逼近半参数效率界？（扎根于第三节对 Mishler & Kennedy DR 估计越界问题的讨论，以及缺乏 HOIF/TMLE 引用的空白）
Positivity 破裂与子群合并的统计性质：替代 bootstrap 通过合并稀疏子群构建参考分布，但合并策略的随机性与主观性未给出严格的大样本理论保证。能否给出合并策略下置信区间的渐近覆盖保证？（扎根于第四节对“小样本/稀疏交叉群组下标准 bootstrap 失效”的陈述）
可忽略性的可验证性：在医疗干预引导下，\(Z \perp Y^{(z)} | (A, W)\) 极难成立。能否在 Fawkes et al. (2022) [22] 的选择偏差框架下，给出反事实错误率的 bounds（而非点识别），并发展相应的 bounds 推断方法？（扎根于作者对 Fawkes 质疑的回应：“the validity of causal assumptions in this approach is difficult to establish”）
边际公平性逼近交叉公平性：Molina & Loiseau (2022) [23] 提出了通过边际公平性给出交叉公平性界的路线，本文未深入对比。能否将反事实错误率差异分解为边际反事实差异的高阶交互项，从而用低维边际估计逼近高维交叉度量，缓解维度灾难？（扎根于作者对 [23] 的引用：“Others have proposed methods for such selection... provide a guide for future work”）

Maintained by 陈星宇 · Homepage · Source on GitHub

An intersectional framework for counterfactual fairness in risk prediction¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论