跳转至

Fairness By Causal Mediation Analysis: Criteria, Algorithms, and Open Problems

讲者: Ilya Shpitser
讨论人: Ricardo Silva
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-01-10
主题: 因果推断
视频: https://youtu.be/6Yn4efwBIGQ · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告隶属于 “基于因果模型的算法公平性” 这一子方向。该子方向的核心追问是:如何从因果关系(而非纯统计关联)来定义和纠正算法决策中的“不公平”?

  • 奠基与主流路线:传统公平性机器学习文献中存在大量基于关联的判据,例如 demographic parity(决策概率独立于敏感特征)、equalized odds(错误率在不同敏感组间相等)。这些判据不涉及因果结构,其“合理性”常受到争议(例如:真实资质与敏感特征相关时,demographic parity 可能导致逆向歧视)。另一条路线是 counterfactual fairness(Kusner et al., 2017),它主张:如果个体在反事实世界中(其敏感特征被改变,但其余背景不变)的预测结果不变,则决策是公平的。这明确引入了因果模型。
  • 当前 Frontier:讲者 Shpitser 这条线属于 path-specific causal fairness。它比简单的反事实公平性更精细——不是要求“改变敏感特征对决策无影响”的全局约束,而是要求 “敏感特征只允许通过某些(好的)路径影响决策,但不允许通过某些(坏的)路径影响”。这需要对因果图上的路径进行“好/坏”划分,并将“不公平”具体化为某条路径上的因果效应不为零。
  • 这场报告的站位:报告站在一系列已发表工作的交汇点上。它提出了一套通用的方法论:以因果中介分析中的 纯直接效应 作为不公平的量化指标,然后通过 约束最大似然(KL散度最小化) 找到与原分布最接近的“公平世界分布”,在该分布下进行预测或策略学习。报告后半部分进一步讨论了如何用 近端推断 来处理该框架中关键的 未观测混杂 问题,使其能应用于更现实的场景。

这场报告可视为将 Shpitser 及其合作者在过去数年(约 2018–2022)中一系列关于因果中介分析、公平性与近端推断的论文串联起来的一次综合报告。核心合作者包括:Daniel Malinsky, Razieh Nabi, Amir Ghassami, Oliver Dukes, Eric Tchetgen Tchetgen, Thomas S. Richardson, James M. Robins。

二、最小内核 / 一个最简例子

假设我们关心的问题:一家公司在招聘时,是否存在基于申请者性别(A)的直接歧视?

形式化设定

  • 可观测数据
    • A ∈ {0, 1}: 敏感特征,申请者的性别(1 = 女, 0 = 男)。
    • M:中介变量(一个或多个),代表“与候选资格相关的、法律允许考虑的因素”。例如:工作经验年限、技能证书数量(这些因素本身也可能受到性别A的影响)。
    • Y ∈ {0, 1}:决策结果,是否录用(1 = 录用)。
    • X:预处理协变量,例如年龄、受教育年限,这些在A和M之前被测量。
  • Estimand (目标量)
    • 纯直接效应 (Pure Direct Effect, PDE)PDE = E[Y(1, M(0))] - E[Y(0)]
    • 这正是报告幻灯片中(以及开头的法律引文)所定义的。它指的是:将所有人的性别设定为女性,但每个人的简历质量M保持和她们“作为男性时”相同(即不受性别改变的影响),此时的预期录取率 与 真实世界中全为男性时的预期录取率 之差。
    • 核心思想:如果PDE ≠ 0,就说明存在“直接歧视”——仅因为将简历上的名字从“男性”换成“女性”就导致了录取率的差异(假定简历内容本身不变,即M(0))。
  • 假设:为使PDE可识别(能用观测数据表达),需要假设:
    1. 无未观测混杂AY 之间的因果路径上,所有混杂变量都被 X 捕捉。
    2. 无中介-结果混杂MY 之间没有未被 (X, A) 捕捉的混杂变量。
    3. 一致性 等标准因果推断假设。

最简特例 (d=1, 二值A, 二值Y)

  1. 观测到不公平的分布 p(A, M, Y):假设从公司数据发现,女性的平均录取率显著低于男性 (E[Y|A=1] < E[Y|A=0])。
  2. 拟合模型:构建两个模型:
    • 结果模型: E[Y | A, M, X] (例如,逻辑回归)。
    • 中介模型: p(M | A=0, X) (所有申请者按“男性时”的简历分布来考虑)。
  3. 计算PDE: 使用幻灯片中的中介公式: PDE = Σ_{X,M} ( E[Y | A=1, M, X] - E[Y | A=0, M, X] ) * p(M | A=0, X) * p(X) 计算得到的PDE值显著不为0(例如在转写中 [0:28:40] 提到的COMPAS数据中,PDE约为1.3)。
  4. 构造“公平世界”分布 p*: 我们希望找到一个 p*(A, M, Y, X),它:
    • 与原始分布 pKL散度 上最接近(保持数据总体结构)。
    • 满足 约束条件: PDE = 0(在新的分布下,直接路径上的效应为0)。
  5. 在公平世界中做预测: 不能用 E[Y | A, M, X] 对新来的申请者(来自不公平台)做预测,因为该模型是“不公平的”。 正确的做法是定义一个“公平的预测模型”:E*[Y | X],它 对敏感特征A和中介M进行边际化E*[Y | X] = Σ_{a, m} E[Y | a, m, X] * p*(a | X) * p*(m | a, X) 其中 p* 是满足PDE=0的分布。
    • 直觉:公平世界要求,对于所有拥有相同预处理特征X的人,其最终的预测结果不应依赖于那些“被禁止的路径”上的信息(A和M)。我们只能使用X来预测,这在预测准确率上付出了代价(正如转写 [0:29:50] 提到,公平预测的准确率低于完全自由的预测)。

这个例子清晰地展示了 从“不公平世界”到“公平世界”的数据分布迁移(通过对敏感A和中介M进行边际化),以及 公平性约束导致的准确率-公平性权衡

三、报告主体:讲者讲了什么

[0:00-0:05] 开场与动机 * 讲者从 ProPublica 的“机器偏见”报道谈起,称其是其进入公平性研究的起点,并坦言公平性问题非常困难,自己经历了从困惑到自信再到困惑的过程。 (转写 [0:01:34-0:02:13]) * 强调了法律(如美国民权法案)禁止基于敏感特征的歧视,但并未正式定义何为“歧视”,这为技术定义的介入留下了空间。(转写 [0:12:00])

[0:05-0:15] 公平性的因果框架 * 核心观点:“不公平”用法律语言表述,是“敏感特征沿着不被容许的因果路径对决策产生的影响”。(幻灯片“Features Of Our Approach”/ [0:06:30]) * 通过 中介分析 中的 纯直接效应 来量化该影响。以招聘为例:随机切换简历上的名字(改变性别感知但不改变简历内容)后观察到的录取差异,对应的是直接效应。(幻灯片“Review: Mediation Analysis”) * 提出 “fair world”p* 的概念:一个与观测分布 p 在 KL 散度上最近,但其中被指定的“坏的因果路径”上的效应为0的分布。(幻灯片“Our Approach (More Formally)”/ [0:09:40])

[0:15-0:30] 公平预测与 COMPAS 案例 * 在公平世界 p* 下,由于必须对敏感特征 A 和中介 M 进行边际化来处理新的测试样本,预测准确率必然受损。幻灯片 “Our Approach (Parametric Finite Sample Version)” 指出 不能使用 E[Y | X, A, M] 对新样本预测。 * 以 COMPAS 再犯预测模型为例:即使模型不直接使用种族(A),但使用取代的邮政编码等(M),仍能通过因果路径传递偏见。幻灯片 “Illustration of Approach via COMPAS” 展示了应用公平约束(控制PDE)后,准确率从67.8%降到66.4%(但仍优于完全弃用种族的64.0%)。(转写 [0:26:30-0:30:00])

[0:30-0:45] 公平策略学习 (Policy Learning) * 扩展问题:不仅做公平预测,还要学习一个公平的 决策策略(如“在什么条件下释放/关押”)。 * 定义了两类额外偏差: * 回顾性偏差 (Retrospective Bias):训练数据本身因过去的歧视而产生不公平。 * 前瞻性偏差 (Prospective Bias):优化的策略(如为了最大化效用)可能引入新的不公平,例如一个基于种姓决策的算法会加剧不公。 * 解决方案(幻灯片 “Our Approach”):使用不依赖决策A的估计量(例如基于 p(M|S, X)p(S|X) 的IPW型估计量)来约束政策优化问题。约束后,可在 p* 分布下用标准的Q-learning等方法来求解最优政策。 * 在 COMPAS 数据上的演示:控制PDE后,无论效用参数θ如何变化,两种族间的监禁率差距减小。(幻灯片 & 转写 [0:40:50])

[0:45-0:50] 似然再参数化与经验似然 * 困难:将PDE约束直接置于MLE中是一个复杂的约束优化问题。 * 解决方案 (Reparametrization):采用Robins于1999年提出的 结构嵌套模型 思想,将似然函数进行再参数化,使得PDE (用 φ(A) 表示) 成为似然中的一个 显式参数。约束问题变为简单的“固定此参数为0”的假设检验问题。(幻灯片 “A Better Way To Do Constrained MLE”) * 混合似然 (Hybrid Likelihood):针对预测问题,提出一种 半参数方法(对X部分使用非参数的经验权重,对M、Y使用参数模型),通过调整经验权重 p_i 来满足PDE为零的约束。(幻灯片 “Constraining The Hybrid Likelihood”) * 通过模拟实验比较了几种方法在 消除直接效应保持预测准确性 上的表现。结果表明,混合似然的约束方法能有效消除PDE,同时其预测误差远小于纯参数的约束MLE。

[0:50-0:55] 未观测混杂与近端因果推断 * 明确指出上述所有方法的关键弱点:过于依赖无未观测混杂的假设。这在现实中(如薪酬歧视)几乎必然不成立。 * 引入 近端因果推断 (Proximal Causal Learning) 作为应对策略。 * 核心思想:利用 代理变量 (proxy variables) (如 ZW) 来 “代替” 未被观测的混杂变量 U。(幻灯片 “Proximal Causal Learning: Example”) * 通过一组图形独立性假设和 完备性条件,证明了可以使用一个 桥函数 (bridge function) 来识别平均因果作用。最终得到 “proximal G-formula”。 * 讲者强调,虽然该识别策略在单时间点的治疗-结局模型中有效,但在存在中介路径的图中(图 A -> M -> Y),近端推断的复杂度会上升。(幻灯片 “A More Realistic Model”)

四、对应论文与开放问题

(a) 对应论文

这场报告概括了 Shpitser 及其合作者的多篇论文,以下为可识别的关键论文(基于幻灯片和转写),但需要亲自验证具体细节

  • 公平预测 / 预测模型的公平性:
    • Nabi, R., & Shpitser, I. (2018). Fair Inference On Outcomes. AAAI.
    • Nabi, R., Malinsky, D., & Shpitser, I. (2022). Optimal Training of Fair Predictive Models for Decision Support. CLEAR.
  • 公平策略学习:
    • Nabi, R., Malinsky, D., & Shpitser, I. (2019). Learning Optimal Fair Policies. ICML.
  • 近端因果推断:
    • Tchetgen Tchetgen, E. J., et al. 关于近端推断的基础性论文(2020年左右)。
    • Shpitser, I., Tchetgen Tchetgen, E. J., & Wood-Doughty, Z. (2021). The Proximal ID Algorithm. arXiv:2108.06818.
    • Dukes, O., Shpitser, I., & Tchetgen Tchetgen, E. J. (2021). Proximal mediation analysis. arXiv:2109.11904.
  • 似然再参数化:
    • 讲者提到“Recent result (derived by Razieh Nabi)”,具体论文未在幻灯片中明确给出,可能为一篇待发表或在审稿中的工作。

(b) 开放问题 (来源于转写和幻灯片)

  1. 路径集合与领域定义的复杂性:什么算是“不被容许的因果路径”是完全的领域内价值判断,而非技术问题。如何系统性地处理路径集合定义的模糊性?(转写 [0:10:00])
  2. 回顾性偏差 vs. 前瞻性偏差的相互影响:在政策学习中,如何严格地将这两种偏差分离并分别建模/纠正?如何设计算法来打破“不公正循环”?(转写 [0:34:10])
  3. 关于似然选择的争议:为何选择KL散度?对于现实世界(如法律)涉及的不同利益相关者,可能应该使用不同的 损失函数(例如,在信用评分中,对银行与借款者的成本不同),而非单纯的预测误差。讲者承认这可能是一个问题,并回应“因为我不知道还能怎么做”。(转写 [1:06:00])
  4. 近端推断的进一步推广:近端推断在存在多个中介的复杂动态因果结构(如多轮决策策略)中,其可识别性、估计方法和计算可行性如何?(幻灯片 “Proximal Learning (Extensions)”)
  5. 与真实世界数据(如健康差异)的深度结合:如何在真实医疗数据(如Nigerian PEPFAR项目 [0:51:55])中实施该框架?其 实际部署 的挑战何在?(讲者提到 ongoing work)
  6. 多利益相关者的框架设计:如何将法律与社会的多元视角(如法律条文、公共辩论)系统地转化为该因果模型中的形式化约束(如哪些路径是“坏”的,用什么损失函数)?(Ricardo Silva 的讨论环节)

Maintained by 陈星宇 · Homepage · Source on GitHub

评论