Association and causation: Attributes and effects of judges in equal employment opportunity commission litigation outcomes¶

作者: Michael E. Sobel, Gregory J. Wawro, Sean Farhang
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1774

一、领域脉络与小综述¶

这个方向是什么：本研究子方向聚焦于“属性效应”（attribute effects）的因果推断——当处理变量是法官、医生、政策制定者等实体的非随机属性（如种族、性别）时，如何定义和估计这些属性对决策结果的因果效应。其根本的科学问题在于：属性并非可操纵的处理变量（treatment），因此传统回归系数无法解释为因果效应，必须构建新的框架来比较“具有不同属性特征的主体作用于同一单位”时的潜在结果差异。该方向的成熟度中等，方法论基础（潜在结果框架）已很成熟，但如何在属性非随机分配的条件下严格定义并估计总体因果目标量仍是一个活跃但尚未完全解决的问题。
发展脉络（history）（基于领域知识，因缺少完整引用句，此处从摘要与主题推断）：
奠基工作（～1980s）：Rubin (1974) 和 Holland (1986) 奠定了潜在结果框架和因果推断的基本语言。Sobel (1990) 将这一框架应用于处理效应（如社会政策）。但奠基工作主要关注可操纵的处理变量（如药物、政策），对属性（attribute）是否能被类似框架处理存在争议。
主要进展（1990–2010）：研究者开始将潜在结果框架扩展至属性。例如，VanderWeele & Hernán (2013) 讨论“自然直接效应”和“间接效应”时触及属性，但未系统解决“属性非随机”这一基本问题。本文作者在摘要中明确指出“attributes are not treatments”，并认为传统回归系数“indicate how judges with different features adjudicate the different cases they are assigned”，而非因果效应——这已成为领域内共识。
当前frontier（2010起）：有若干工作尝试将匹配、分层、工具变量等方法用于“法官效应”或“医生效应”研究（如Keele et al. 2015, 2016），但均未建立从单位处理效应到总体目标量的严格比较框架。本文的位置是：直接定义UFC（单位特征比较）、AFC（平均特征比较）和QFC（分位数特征比较）作为总体目标量，并给出基于贝叶斯后验预测的估计方法，从而填补了“属性效应恰当下定义和估计”的缺失。
⚠️作者的framing（必须明确标注为“这是作者的说法”）：作者把缺口 frame 成——“现有方法比较的是不同法官在不同案件上的结果，而非同一案件的结果。我们通过定义UFC/AFC/QFC，并利用后验预测分布插补缺失潜在结果，构造了严格的方法论”。作者淡化了属性间隐含的比较问题（如不同种族法官审理案件的构成系统不同），而将焦点放在“单位层面比较”这一理想化但可操作的目标上。什么明显该被引/该存在、却没出现在intro里？——因摘要中未提供完整intro与参考文献，无法判断。
子线索聚类（基于已知领域）：
“可处理”属性效应：假设属性可视为随机或准随机分配（如法官随机分配案件或有足够多的匹配特征），采用回归或匹配方法。这条线索较弱，因为法官种族几乎不可能与案件特征无关。
潜在结果框架在属性比较中的应用：如Keele等用工具变量处理非随机案件分配；本文属于此线索，但更直接地基于潜在结果定义目标量。
贝叶斯分层模型插补缺失数据：与Rubin (1987) 的多重插补及后验预测分布相关。本文用的是两部分贝叶斯模型。
这个方向在追问的核心问题（2-4个）：
在属性非随机分配下，是否能识别因果效应（而不是简单关联）？识别假设是什么？（与无混淆性、工具变量等有何关系？）
如何定义有意义的总体因果目标量？当多个“处理”主体具有不同分配机制时，什么比较才是有意义且可估计的？
现有的估计方法（尤其是后验预测插补）是否稳健？其渐近性质如何？（半参数效率、置信区间覆盖率）
属性效应与常规处理效应（如药物）在因果解释上是否存在根本差异？若属性不可直接操纵，因果语言是否仍适用？
张力：未见明显对立引用（本次精读未能获取完整intro，无法准确判断）。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(i = 1, \dots, n\)：案件索引（单位）。
\(j = 1, \dots, J\)：法官索引（处理主体或处理类别；本文中为“所有可能审理该案的联邦法官”）。
\(A_j\)：法官 \(j\) 的属性特征，如种族（白人与非裔/非白人）。
\(Y_{ij}\)：潜在结果——案件 \(i\) 在法官 \(j\) 审理下的结果（如是否获得金钱救济 \(Y_{ij}^{(bin)} \in \{0,1\}\)；若获得，则金额 \(Y_{ij}^{(amt)} > 0\)）。
可观测数据：\((\text{实际分配法官 } J_i, \text{实测结果 } Y_i)\)，其中 \(Y_i = Y_{i,J_i}\)（SUTVA，隐含一致性假设：观测到的等于实际分配的潜在结果）。
模型（从摘要推断）：
假设存在一个两部分贝叶斯分层模型，用来建模潜在结果 \(Y_{ij}\) 的分布，但此处不对潜在结果分布做任何设定（只有贝叶斯学派才会将潜在结果的分布视为随机参数的函数）。
具体估计过程：利用所有可观测数据（不同案件在不同法官下的实测结果）拟合模型，然后对每个案件 \(i\)、每个未实际分配到的法官 \(j \neq J_i\)，从后验预测分布 \(p(Y_{ij} \mid \text{数据})\) 中插补缺失的潜在结果。
可观测数据：
可观测：案件 \(i\) 的实际分配法官 \(J_i\)，以及在该法官下的实测结果 \(Y_i\)（包含二元是否获得救济、若获得则金额）。
不可直接观测：每个案件在其他法官审理下的潜在结果 \(Y_{ij}\)（对于 \(j \neq J_i\)）。

第二步：讲最小内核¶

最简特例：考虑只有 \(J = 2\) 种法官类型：白人法官（\(j=1\)）和非裔法官（\(j=2\)）。假设每个案件 \(i\) 被随机分配给类型1或类型2中的某一法官（但实际中法官种族与案件分配可能相关，这里为了展示核心思路做特例）。我们想比较：如果同一个案件 \(i\) 被不同类型的法官审理，结果会差多少？
定义单位特征比较（UFC）：

\[\text{UFC}_i = Y_{i2} - Y_{i1}\]
（对于二元结果，取值 \(-1, 0, 1\)；对于连续金额，为实数）。
核心困难：\(\text{UFC}_i\) 中，我们最多只能观测到其中一个（若实际分配给类型2则 \(Y_{i2}\) 已知、\(Y_{i1}\) 缺失；反之亦然）。因此必须插补缺失部分。
最小内核的估计思路：
拟合模型：设所有可观测数据为 \((Y_i, A_{J_i}, X_i)\)，其中 \(X_i\) 是案件协变量。用两部分贝叶斯模型（逻辑回归+对数正态）拟合 \(Y_{i}^{(bin)}\) 和 \(Y_{i}^{(amt)}\) 对 \(A_j\) 和 \(X_i\) 的条件分布。
插补：对每个案件 \(i\)，从后验预测分布中抽取 \(M\) 套缺失的潜在结果 \(\tilde{Y}_{i, \text{missing}}\)。
计算目标量：基于完整数据（实测+插补），计算单位特征比较的平均值（AFC）和分位点（QFC）。
为什么这个特例抓住了核心：即使在这个最简单设定下，要比较的“两种法官类型”仍然是非随机属性，无法通过直接随机化来比较。本质问题是：在缺失数据结构下，如何构造一个有因果意义且可估计的总体目标量。本文的贡献在于：明确定义了UFC/AFC/QFC，并给出了一个（贝叶斯）估计策略，而不是纠缠于是否满足无混淆性。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：
研究了法官种族属性对EEOC歧视案件金钱救济结果的因果效应——并非传统回归系数，而是定义为“同一案件由不同种族法官审理时的潜在结果差异”。
核心工具是潜在结果框架，定义了单位特征比较（UFC）、平均特征比较（AFC）和分位数特征比较（QFC），并用两部分贝叶斯分层模型结合后验预测分布来插补缺失结果。
主要结论：案件最初分配给非白人/非裔法官时更可能获得金钱救济（概率比较显著）；但对救济金额的AFC区间覆盖0，中位数QFC的上限为负（表示非白人/非裔法官审理时金额可能稍低，但统计上不显著）。
关键设定与假设（在第二节最小记号基础上补全）：
设定：考虑所有在EEOC歧视案件中可能审理该案的联邦法官（约数百至数千人），而非只观察实际分配的一位。每位法官的种族属性 \(A_j\) 已知。
SUTVA + 一致性：观测结果等于实际分配法官的潜在结果，且不同研究单位间无交互。
模型假设（贝叶斯框架下的条件独立）：给定案件协变量 \(X_i\) 和法官种族 \(A_j\)，潜在结果 \(Y_{ij}\) 的条件分布由两部分贝叶斯模型充分刻画。注意：本文不需要无混淆性或工具变量假设，因为它直接建模所有潜在结果的联合分布（但代价是必须指定模型并依赖其正确性）。
两部分模型：
1. 二元部分（是否获得救济）：\(\logit(P(Y_{ij}^{(bin)}=1 \mid X_i, A_j)) = X_i^\top \beta + \gamma_{A_j}\)。
2. 连续金额部分（若获救济）：\(\log(Y_{ij}^{(amt)} \mid Y_{ij}^{(bin)}=1, X_i, A_j) \sim N(X_i^\top \alpha + \delta_{A_j}, \sigma^2)\)。
3. 其中 \(\gamma, \delta\) 为法官种族效应（固定效应或随机效应；摘要未明确说明，但从“分层模型”推断可能是随机效应）。
主要结果：
AFC（平均特征比较）：\(\mathbb{E}[\text{UFC}_i] = \mathbb{E}[Y_{i2} - Y_{i1}]\)（对二元结果是概率差异；对金额是金额均值差异）。95%后验区间：对于二元部分，区间完全大于0（非白人/非裔法官更可能裁决救济）；对于金额，区间覆盖0（无显著差异）。
QFC（分位数特征比较）：以中位数QFC为例（即 \(\text{Median}(Y_{i2} - Y_{i1})\)），其后验区间上限为负（非白人/非裔法官审理时金额更低）。这暗示均值与中位数趋势可能不一致，或分布有偏。
技术难点：构建整体目标量时需要在不违反因果解释的前提下整合所有法官和案件；后验预测插补产生的缺失值依赖模型指定正确。
证明路线与技术技巧（理论型，但本文为应用型，故只做合理推测）：
整体路线（基于后验预测）：
1. 对每个案件-法官对，指定合适的两部分模型，用MCMC（或近似）估计参数后验。
2. 从后验分布中抽取参数 \(\theta^{(s)}\)，再抽取每个缺失 \(Y_{ij}\)。
3. 对每次完整数据（实测+插补），计算 \(\overline{UFC}\)（AFC）和 \(q_q\)（QFC）。
4. 综合所有 \(s=1,\dots,S\) 次后验样本，得到AFC/QFC的后验均值与区间。
关键跳跃点：贝叶斯框架核心是将缺失数据视为随机变量，用后验预测分布插补。这与频率学派使用倾向得分匹配或工具变量的思路不同。难点在于模型指定的正确性——若模型错误，后验区间可能严重偏倚。
技术技巧点名：
- 两部分模型（hurdle model / two-part model）处理零膨胀连续数据（很多案件无救济金额）。
- 后验预测插补（posterior predictive imputation，PPI）用于缺失数据填补。
- 贝叶斯分层模型处理多层结构（案件嵌套于法官，但法官不嵌套于案件；近似的“交叉随机效应”）。
真实例子与应用：
数据：来自EEOC (Equal Employment Opportunity Commission) 在联邦法院提起的歧视诉讼案件（约1980s–2000s）。具体变量包括：案件特征（年份、地区、诉讼类型、被告类型）、法官特征（种族、性别、党派、经验等），结果变量为“是否获得金钱救济”（二元）和“金额”（连续正数）。
如何应用：将所有可能审理该案的法官（数百人）纳入考虑。对每个案件，实际只有1位法官审理。用后验预测插补使其对所有合法官都获得潜在结果。
结果：案件分配给非白人/非裔法官时，金钱救济概率更高（后验区间不跨0）；但救济金额的AFC区间跨0，中位数QFC的95%区间上限为负（意味着非白人/非裔法官审理时金额倾向更低，但不确定）。
例子作用：验证了他们定义的AFC/QFC在真实数据中的可操作性，并（间接）批评了传统回归系数——传统回归可能错误地认为“法官种族无效应”，而本文方法揭示出存在符号相反但统计上不显著的效应方向（概率升高但金额降低），这为后续研究提供了新的探索方向。
🔎 结论是否比证明窄：本文为应用型论文，无严格渐近论证。作者并没有证明AFC/QFC的估计量在半参数下是渐近正态或有效的——结论仅基于后验区间，且依赖贝叶斯模型正确。因此，结论是目前在贝叶斯框架下“可计算”的结果，而非“已被严格证明统计性质”的结果。

四、开放问题（点到为止，扎根具体语句）¶

正则渐近性质：本文使用后验预测插补，但未证明AFC估计量的半参数效率或渐近正态性。对于连续金额（AFC区间跨0），是否可以用经验影响函数（EIF）构造半参数有效估计量？能否给出后验区的频率学派性质？——扎根于摘要中“95% posterior interval”（频率学派覆盖率未知）和文中缺少理论效率分析。
对缺失机制的敏感性：贝叶斯模型假设缺失机制可以忽略（即给定观测数据后可忽略缺失概率与未观测潜在结果）。但现实是案件分配并非随机，这一假设是否合理、能否构造敏感性分析？——扎根于引言中“judges’ race is not a randomly assigned treatment”。
QFC的统计推断：中位数QFC（分位数比较）本身是“差异的分位数”而非“分位数之差”。其渐近分布或贝叶斯后验区间的覆盖率质量尚不明确。是否可用分位数回归或半参数方法进行更稳定的推断？——扎根于“the 95% posterior interval for the median QFC is negative”（指出其弱信号，但未说清楚差异的统计显著性）。
一般化至其他属性（如性别、党派、经验）：本文方法是否可系统推广？尤其是当法官特征高维或连续时（估计所有可能组合的潜在结果是否可行？）——扎根于“general methodology”的宣称与实际特例（仅二值种族）之间的差距。

Maintained by 陈星宇 · Homepage · Source on GitHub