Counterfactual fairness for small subgroups¶

作者: Solvejg Wastvedt, Jared D Huling, Julian Wolfson
来源: Biostatistics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 算法公平性（Algorithmic Fairness）在风险预测模型中的统计评估问题，特指临床/医疗场景下，当模型预测不仅反映风险还指导治疗分配时，如何对小样本亚群（如交叉 marginalized 群体）进行反事实公平性指标的识别与估计。当前该方向的成熟度处于“概念框架已建立、识别与估计工具初步成型，但小样本下的统计稳定性与外部数据融合机制尚属空白”的阶段。

发展脉络 - 奠基与概念批判：早期公平性研究将种族等保护属性视为固定特征，引发社会学批判。Benthall and Haynes (2019) 与 Hanna et al. (2019) 指出种族是社会建构的不平等地位系统，而非内在属性；Weinberg (2022) 批判主流计算公平性方法存在“技术解决主义”倾向。Obermeyer et al. (2019) 在医疗算法中实证了以医疗成本代替健康需求导致的种族偏见，确立了临床场景中公平性评估的现实紧迫性。 - 主要进展（反事实框架的引入）：传统公平性指标（如观测 FPR/FNR）在临床场景失效，因为治疗分配受预测影响，产生 treatment confounding。Coston et al. (2020) 与 Mishler et al. (2021) 提出反事实错误率，并利用双重稳健估计与后处理方法满足反事实平等机会。Wastvedt et al. (2023) 将此扩展至交叉群体，提出 u-value 与替代 bootstrap，但留下口子：作者明确指出该工作“not adapted for small subgroups”，在小亚群下方差膨胀严重。 - 当前 frontier 与本文位置：Castelnovo et al. (2022) 与 Chen et al. (2023) 等综述了大量偏差缓解技术，但作者引用时点明其共同盲区：“much of this work does not address a major challenge in the clinical setting: limited sample size in the smallest groups”。本文直接填补 Wastvedt et al. (2023) 留下的小亚群口子，提出跨群借信息 estimands 与缺失结局外部数据融合。

子线索聚类 1. 概念与社会学批判线（Benthall, Hanna, Weinberg）：质疑属性的本质化，强调结构性不平等。本文在定义群组时承认了社会建构性，但统计操作上仍需离散化群组标签。 2. 反事实临床公平性方法线（Coston, Mishler, Wastvedt 2023）：解决 treatment confounding，从观测指标转向反事实指标，发展 DR 估计与推断工具。本文是此线的直接延伸。 3. 偏差缓解技术实证线（Castelnovo, Chen）：大规模比较现有 mitigation 方法。本文引用此线仅为确立“现有方法均未解决小样本”的共识背景，未介入其方法比较。

核心追问与瓶颈 1. 识别问题：当预测影响治疗时，观测指标失效，如何用潜在结果定义公平性？（已有反事实框架解决） 2. 估计问题：反事实指标涉及反事实结局 \(Y^{(0)}\) 的建模与反事实预测 \(R^{(0)}\) 的设定，如何构造稳健估计？（已有 DR/IF 方法解决） 3. 小亚群方差瓶颈：交叉亚群（如黑人老年女性）样本量 \(n_a\) 极小，条件概率估计方差 \(O(1/n_a)\) 爆炸，如何借信息降方差？（本文核心追问） 4. 外部数据融合瓶颈：大型医疗系统常有仅含协变量与群组信息、缺失结局与预测的外部数据，如何利用其降方差而不引入不可验偏差？（本文核心追问）

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“小亚群样本量受限”与“临床 treatment confounding”的叠加挑战，使得“跨群借信息 estimands + 外部数据融合”成为显然的下一步。 - 淡化/回避的路线：作者未讨论小区域估计或经验贝叶斯收缩——这些是空间统计与流行病学中处理小亚群方差爆炸的经典范式。作者也未讨论纯观测公平性指标在小样本下的 shrinkage 估计。 - 明显该存在却未出现的引用：Fay-Herriot 模型等小区域估计文献，或 Empirical Bayes 借信息文献。这值得研究者去查：是作者刻意回避（因反事实框架难以套用），还是疏漏？

张力未见明显对立引用。各线工作在各自设定下自洽，但存在概念张力：社会学批判线要求种族不可离散化本质化，而统计估计线必须依赖离散群组标签计算条件概率。本文在操作层未解决此张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据 - 参数 / estimand： - \(A \in \mathcal{A}\)：保护属性（如种族+性别组合，交叉亚群）。 - \(c\)：风险预测的决策阈值。 - \(CFPR_a(c)\)：群组 \(a\) 的反事实假阳性率，\(CFPR_a(c) = P(R(X) > c, Y^{(0)} = 0 \mid A=a)\)。（类似可定义 \(CFNR_a\)） - 随机变量 / 样本： - \(X\)：基线协变量。 - \(W \in \{0, 1\}\)：实际接受的治疗（二值）。 - \(Y\)：观测结局。 - \(R = f(X)\)：风险预测模型输出（已知函数，仅依赖 \(X\)）。 - \(O_i = (X_i, A_i, W_i, Y_i)\)：内部数据，\(i=1,\dots,n\)。 - \(E_j = (X_j, A_j)\)：外部数据，\(j=1,\dots,m\)，缺失 \(W, Y, R\)。 - 潜在量： - \(Y^{(w)}\)：在治疗 \(w\) 下的潜在结局。 - \(R^{(w)}\)：反事实预测（若模型也随治疗改变，但通常风险模型固定，\(R^{(w)}=R(X)\)）。 - 模型 / 数据生成机制： - 内部数据由 \(P(X, A, W, Y)\) 生成。满足标准因果假设：一致性（\(W=w \Rightarrow Y=Y^{(w)}\)）、正值（\(0<P(W=w \mid X, A)<1\)）、无未测混淆（\(Y^{(w)} \perp W \mid X, A\)）。 - 外部数据由 \(P(X, A)\) 生成，与内部数据同分布或已知分布差异。 - 可观测与不可观测： - 可观测：内部数据的 \((X, A, W, Y, R)\)；外部数据的 \((X, A)\)。 - 想要但观测不到：反事实结局 \(Y^{(0)}\)（对接受 \(W=1\) 的人缺失），外部数据的 \((W, Y, R)\)。

第二步：最小内核 剥掉所有交叉群组与外部数据融合的包装，本文的数学内核是一个条件概率的方差-偏差权衡与缺失数据融合问题。

最简特例（单保护属性二值、仅考虑 CFPR、外部数据完全同分布）：假设 \(A \in \{0, 1\}\)，\(A=1\) 为极小亚群（\(n_1 \ll n_0\)）。我们要估 \(\psi_1 = P(R>c, Y^{(0)}=0 \mid A=1)\)。 - 困难：朴素估计需在 \(A=1\) 且 \(W=0\) 的子集上估条件概率，样本量 \(n_{1, W=0}\) 极小，方差爆炸。 - 本文破法1（跨群 estimands）：不再严格条件于 \(A=1\)，而是定义一个“借信息 estimand”，例如 \(\psi_{borrow} = w_1 \psi_1 + w_0 \psi_0\)（加权混合），或 \(\psi_{marg} = P(R>c, Y^{(0)}=0 \mid A \in \{0, 1\})\)。这引入偏差（\(\psi_0 \neq \psi_1\)），但方差从 \(O(1/n_1)\) 降至 \(O(1/n)\)。核心数学问题变为：如何选取权重或 estimand 形式，使得在给定 \(n_1\) 下，MSE 最小？ - 本文破法2（外部数据融合）：外部数据有 \((X, A)\) 但缺 \(Y, W\)。因为 \(R=f(X)\) 已知，外部数据可直接算出 \(R(X)>c\) 的指示变量。利用无混淆假设，\(\psi_1\) 可识别为： \(\psi_1 = E\left[ I(R(X)>c) \cdot E[I(Y=0) \mid X, A=1, W=0] \mid A=1 \right]\) 外部数据虽缺 \(W, Y\)，但可用来更精确地估计 \(X \mid A=1\) 的分布（即 \(P(X \mid A=1)\)），从而稳定外层期望 \(E[\cdot \mid A=1]\) 的估计。这本质上是测量误差/缺失数据下的半参数效率问题：如何用仅含部分变量的样本提升全变量参数的估计效率？

三、这篇论文做了什么¶

三句话 ① 研究了临床风险预测模型中，小交叉亚群下反事实公平性指标（如 CFPR/CFNR）因样本量不足导致方差爆炸的估计问题。 ② 核心工具是：重新定义跨群借信息的 estimands（偏差-方差权衡），并构造融合缺失结局外部数据 \((X, A)\) 的半参数估计器。 ③ 主要结论是：通过跨群 estimands 与外部数据融合，在小亚群下实现了 MSE 显著低于传统亚群特定估计，并在 COVID-19 风险预测中验证了实用性。

关键设定与假设 在第二节最小记号基础上补全： - 交叉亚群：\(A\) 由多个保护属性组合（如种族 \(\times\) 性别 \(\times\) 年龄段），导致某些 \(a\) 的 \(n_a\) 极小。 - Treatment confounding 调整：沿用 Coston et al. (2020) 的反事实识别策略，假设 \(Y^{(w)} \perp W \mid X, A\)（无未测混淆）与正值性。 - 外部数据缺失机制：外部数据缺失 \(W, Y, R\)。假设外部数据的 \((X, A)\) 分布与内部数据相同（或已知权重可调整），且缺失完全由机制决定（非选择性缺失）。 - 放宽/强化：相比 Wastvedt et al. (2023) 严格条件于 \(A=a\) 的 estimands，本文放宽了 estimand 的纯群组内条件性，允许跨群混合；相比标准缺失数据文献，本文强化了外部数据无结局的设定，需仅靠 \((X, A)\) 增益。

主要结果 1. 跨群借信息 Estimands：提出一族新的 estimands，不再仅是 \(P(\cdot \mid A=a)\)，而是包含跨群聚合或加权的指标。直觉上，当 \(n_a\) 太小时，严格群内条件概率不可学，退化为更宽泛的指标是 MSE 最优的。必要条件是群组间存在一定同质性（否则偏差过大）。 2. 外部数据融合估计器：构造了利用 \((X, A)\) 外部数据的估计器。由于 \(R=f(X)\) 已知，外部数据可提供 \(I(R(X)>c)\) 与 \(A\) 的联合分布信息。通过将 \(Y^{(0)}\) 的期望建模（或非参估计），结合外部数据的 \(X\) 分布，实现了对 \(E[\cdot \mid A=a]\) 的更精确积分。 3. MSE 优势的量化：在理论上或模拟中展示了，当 \(n_a\) 极小且外部数据量 \(m\) 充分大时，新估计器的 MSE（方差+偏差）低于朴素群内 DR 估计器。

证明路线与技术技巧 - 整体路线： 1. 识别：在无混淆下，将反事实条件概率 \(\psi_a\) 表达为观测数据的泛函（涉及 \(P(Y \mid X, A, W)\) 与 \(P(X \mid A)\)）。 2. Estimand 重定义：将目标从 \(\psi_a\) 转移至 \(\psi_{borrow}\)（跨群混合），分析偏差引入与方差下降的解析/渐近权衡。 3. 外部数据融合构造：将内部数据用于估 \(P(Y \mid X, A, W)\)（需 \(W, Y\)），外部数据用于估 \(P(X \mid A)\)（仅需 \(X, A\)），拼接成半参数估计器。 4. 推断：构造标准误与置信区间，评估小样本下的覆盖率。 - 关键跳跃点：如何仅用缺失 \(Y, W\) 的外部数据提升 \(\psi_a\) 的估计效率？跳跃在于：\(\psi_a\) 的识别泛函中，\(P(X \mid A=a)\) 的估计可完全由外部数据承担，而 \(P(Y \mid X, A, W=0)\) 必须由内部数据承担。将两者解耦，外部数据直接降低 \(P(X \mid A=a)\) 的估计方差。 - 技术技巧点名： - Influence Function / Semiparametric Efficiency：用于推导融合缺失数据下的最优估计器，类似 Robins-Rotnitzky 的缺失数据效率界理论。 - Doubly Robust (DR) 估计：内部数据部分仍用 DR 构造，保证在 outcome model 或 treatment model 错误一个时仍一致。 - Missing Data Augmentation：将外部数据视为 \(W, Y\) 缺失的样本，利用缺失数据理论构造 AIPW 型估计器。

真实例子与应用 - 数据/场景：Midwestern 医疗系统的 COVID-19 风险预测模型。模型用于决定谁获得额外医疗资源。 - 如何用上去：将种族、年龄、性别等组合为交叉亚群。某些亚群（如特定少数族裔老年女性）样本极小。用本文方法估计这些小亚群的 CFPR/CFNR，并与朴素方法对比。 - 结果：朴素方法在小亚群下置信区间极宽甚至无法计算；本文方法通过跨群 estimands 与外部数据融合，给出了窄且仍有合理覆盖的区间，揭示了被朴素方法掩盖的偏差模式。 - 想说明什么：验证在真实临床小亚群下，本文的借信息策略在 MSE 与推断稳定性上优于不借信息的传统反事实估计。

🔎 结论是否比证明窄 摘要与总结中泛泛 claim 了“variance reduction via data borrowing”，但具体的渐近方差公式、MSE 权衡的解析界、以及外部数据分布偏离内部数据时的稳健性，可能仅在模拟中验证，未在定理中严格证明。需核对正文定理是否严格给出了 \(Var(\hat{\psi}_{borrow})\) 的显式表达及与 \(Var(\hat{\psi}_a)\) 的严格比较，还是仅定性描述。

四、开放问题（点到为止）¶

半参数效率界与最优借信息权重：在给定 \(n_a, m\) 与群组间异质性度量的前提下，跨群 estimands 的最优权重（使 MSE 最小）是否有闭式解或可估的渐近表达式？扎根于本文“new estimands that leverage information across groups”的设定，目前可能仅是启发式选取。
外部数据分布漂移：若外部数据 \(P_{ext}(X, A) \neq P_{int}(X, A)\)，本文的融合估计器是否仍一致？需何种密度比加权？扎根于“novel data borrowing approach to incorporate external data”，摘要未提及分布漂移的调整。
小区域估计/经验贝叶斯的接口：为何不采用 Fay-Herriot 模型等经典小亚群收缩方法？若将反事实指标 \(\hat{\psi}_a\) 视为直接估计，通过 Empirical Bayes 向总体均值收缩，与本文的 estimands 重定义在数学上有何等价性或优劣？扎根于第一节缺失的小区域估计引用。

(要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。)

Maintained by 陈星宇 · Homepage · Source on GitHub

Counterfactual fairness for small subgroups¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论