Nonparametric causal decomposition of group disparities¶

作者: Ang Yu, Felix Elwert
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所研究的子方向是群体间结果差异的因果分解。根本问题在于：当我们观察到两个群体（如种族、性别、父母收入高低）在某个结果变量（如工资、健康、后代收入）上存在差距时，如何将这一差距归因于一个特定的处理变量（如大学学历），并进一步拆解出该处理变量通过哪些不同的因果通道贡献了这一差距？这个问题横跨经济学（Oaxaca-Blinder 分解的传统）、流行病学（健康差异的归因与中介分析）和因果推断（处理效应异质性估计）。该子方向目前正处于从参数/半参数设定向非参数完全识别框架发展的活跃期，且因方法高度依赖于处理效应的异质性，与您熟悉的处理效应异质性文献（Brand & Xie 等）有天然接口。

发展脉络¶

沿着论文 Introduction 的引用脉络，可以梳理出以下发展线索：

奠基工作：经济学中的 Oaxaca-Blinder 分解与因果中介分析 - Oaxaca (1973) / Blinder (1973)：在参数设定下将两群体间的均值差异分解为“端点（endowments）”部分和“系数（coefficients）”部分。该分解未处理因果识别问题（未调整混杂），因此成分无因果解释。 - Pearl (2001) / Robins & Greenland (1992)：在非参数因果框架下定义自然直接效应与间接效应，并给出识别条件。这是后来一切因果分解的理论基础。文中引用 Pearl (2001) 给出了in的公式化定义，并将其作为可选的工具之一。

主要进展：分解方法向因果框架的迁移与形态多样化 - VanderWeele & Robinson (2014) 与 Jackson & VanderWeele (2017)：探讨了在种族差异分析中，如何通过调整混杂与中介变量给出分解的因果解释。前者讨论了“种族作为处理变量”的因果解释困境并给出分解框架；后者提出通过标准化来控制中介变量的混杂、同时保持其与种族的关联，以逼近“对社会干预后的差异变化”的解释。但如作者指出，这些现有分解与中介分析类似，试图将组间差异归因于处理效应的改变或处理分布的改变，未单独识别“基于个体处理效应差异的选择进入处理”这一机制。 - VanderWeele (2014) 与 VanderWeele & Tchetgen Tchetgen (2014)：提出了效应分解的“四向分解”和“归因于交互”方法，反中介分析与交互效应分析。其视角仍然是“个体层面的效应分解”（个体同时接受处理A和B时的总效应分解），而非“组间差异的分解”。 - Zhou (2019)：研究大学学历对代际收入流动性的影响。文中使用的reweighting 技术在不假设参数模型的前提下，估计了剔除选择效应后的代际流动性，与本文的“选择进入处理”成分有相近意图，但只处理单一问题、不是一般框架。

当前 frontier：多重稳健与非参数有效性 - Fan Li et al. (2014, 2013)、Chernozhukov et al. (2017)、Kennedy (2022)：发展了基于倾向得分加权、双重稳健和DML的因果估计方法；Kennedy 为非参数效率与EIF推导提供了系统导论。但据作者 Combo，这些方法尚未被系统性整合到群体差异分解中关键，尤其是“三分量”框架及其与随机均等化分解概念的严格区分。

本文的位置与贡献 本文声称在三点上超出所有既往工作： 1. 首次唯一识别selection into treatment based on individual-level treatment effects作为区别于“处理普及率差异”与“平均处理效应差异”的第三种独立分解成分； 2. 用因果与非参数语言重新表述 Kitagawa-Blinder-Oaxaca 分解，从而整个框架可直接在潜在结果框架下读其识别条件； 3. 给出条件与非条件两种分解的√n一致、渐近正态、半参数有效且多重稳健的估计量。

子线索聚类¶

被引文献大致落在四条子线索：

线索 A：经济学分解传统（Oaxaca-Blinder）
如 Blau & Kahn (2017) 的性别工资差异综述。这一簇的核心特征是参数模型假设（线性回归），无因果识别结构——自变量之间未对待估计的因果关系加以假设。此文通常对分解部分给出描述性解释，不聚焦于识别“三机制”。
线索 B：因果中介分析
如 Pearl (2001)、VanderWeele (2014)、VanderWeele & Tchetgen Tchetgen (2014)、VanderWeele et al. (2014)、VanderWeele & Tchetgen Tchetgen (2016)。这一簇的核心是处理效应在中介路径上如何分解（自然直接效应、自然间接效应），目标在于个体层面的因果路径，而非组间差距的归因。
线索 C：处理效应异质性与选择进入处理
如 Brand & Xie (2010)、Xie, Brand & Jann (2012)、Brand et al. (2021)。这一簇的核心是处理效应如何随倾向得分变化，重点在识别那些“最不可能接受处理”的人群是否事实上受益最多（负向选择假设）。如前所述，这一类工作在概念上与本文的 selection into treatment based on individual-level treatment effects 有最密切的亲和性，但作者说明这些文献从未将其识别为一种独立的差距分解成分。
线索 D：随机均等化分解（random equalization decomposition）
如 Jackson & VanderWeele (2017)、Ward et al. (2018)。这一簇最近的分解方法试图回答“如果将群体 A 的某个变量分布改变到群体 B 的分布，差距会缩小多少？”其方法是随机匹配替换——将处理变量在两者间随机交换。但作者认为此类方法混淆了三类贡献机制（见下文），且未实现唯一识别。

这个方向在追问的核心问题¶

识别性问题——在给定可观测数据的条件下，群体差异的哪些部分可以唯一且无偏地归因于处理变量的三项具体贡献机制？
因果解释性问题——分解得到的各成分是否具有可解释的因果意义（即对应某种可设想的社会干预），而不仅仅是统计描述？
估计与推断问题——在非参数模型下，能否构造出具有有着名的半参数有效性且对估计第一阶段极其稳健（多重稳健）的估计器？

⚠️ 作者的 framming¶

作者的 framming 非常明确、高调：

本文框架在概念上区分了所有先前方法中混淆在一起的三类贡献机制……它的选择进入处理组件在其他分解方法中从未被单独识别。

也就是说，作者把缺口 frame 成：既往的分解（包括最近的非参数随机均等化分解）都将三类机制混在了一起，因此它们的分解成分并非唯一且不能进行可靠的因果解释。本文的“三条腿”和“唯一识别”是其标志性贡献。

被作者淡化/回避的竞争路线： - 原经济学的 Oaxaca-Blinder 方法虽被提及，但被快速定性为“未考虑混杂识别，因此缺乏因果解释”——但一部份文献（如基于 Neyman 反事实基础上的同类分解的因果发展）事实上已经处理了此问题，作者选择不对等量齐观。 - 早先的“选择进入处理”工作（Brand & Xie 等）始终以“处理效应的异质性”来理解“哪些人受益最多/最少”，并未直接讨论其在群体差异分解中的作用——作者用此作为gap但未深入讨论两个概念之间的细微区别（即异质性vs作为分解成分）。

什么明显该在但没出现在 intro 里：有大量关于 fairness in machine learning（算法公平性）的文献在同样做群体间差异的因果分解，通常处理的是骚操作的反事实公平（counterfactual fairness），而这与本文相比框架更为类似且也更细致地考虑了选择进入处理——这部分完全没有被提及。可能的原因是论文核心是应用统计学方法而非机器学习，但这是值得追踪的方向。

张力¶

未见明显的对立引用。Brand & Xie 的负向选择假设与典型的“正向选择”形成异质性讨论，但未被作者以对立引用方式呈现。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( G \in \{0,1\} \) 是分组变量（如种族、父母收入高低）。这是“差异”的来源。 - \( D \in \{0,1\} \) 是处理变量（如是否完成大学学业）。目标在于它经由三项机制对差异作出的贡献。 - \( Y \) 是结果变量（如后代成人年均收入），被定义测量为该分组间差距的量。 - \( X \) 是一个协变量向量，可能包含所有混杂（处理-结果、处理-分组等）所需变量。 - \( Y(d) \) 是潜在结果[Potential Outcome]：如果 \( D = d \)，则观察到的 \( Y \) 会是多少。在标准假设下（一致性、无混淆、正性）。

模型（对数据生成机制的最简描述）： - 可观测数据：独立同分布样本 \( \{(G_i, D_i, X_i, Y_i)\}_{i=1}^n \)。 - 我们考虑的是两个群体（\(G=1\) 与 \(G=0\)）之间的结果差异：

\[\Delta = \mathbb{E}[Y | G=1] - \mathbb{E}[Y | G=0]\]

- 作者的目标是将这一差距归因于处理 \(D\)。 - 潜在结果 \(Y(d)\) 存在，且满足无假设下，被看者认同为识别需求：条件可忽略性 (Conditional Ignorability, CI)：\(Y(d) \perp D \mid (X, G)\)（给定协变量 \(X\) 和分组 \(G\)，处理分配是随机的）；正性 (Positivity)：\(0 < \Pr(D=1 | X, G) < 1\)；一致性 (Consistency)。

可观测数据 与 想要但不可观测的量： - 观测到：\( (G, D, X, Y) \) 的完整向量。 - 但无法同时观测到同一人的 \(Y(1)\) 与 \(Y(0)\)（反事实缺失）。故所有需要边际反事实分布 \(F_{Y(d)}\) 或条件反事实期望 \(E[Y(d) | X, G]\) 的推论的基础为识别假设（如 CI）。

第二步：讲最小内核¶

最小特例（可以让您“一看就懂”）：取现实中的核心例——代际收入持续性（intergenerational income persistence）。这是本文的实证例。

设定： - \(G\)： 父母年收入的高低——高位（高收入家庭，约合美国人口的前 30%）是 \(G=0\)? 实际上是文中将低/高父母收入定义为了 \(G=0\) vs \(G=1\)（在后面真实例中你会看到）。 - \(D=1\)： 孩子完成大学学业（College Graduation）；\(D=0\)：未完成。 - \(Y\)： 孩子的成年年均收入（如2008-2010均值）。 - \(X\)： 孩子成长环境和背景协变量（如性别、种族、自报俚语、出生地等）。 - 极端简化的 CI 假设：给定了 \(X\) 和父母收入 \(G\)，大学入学 D 跟日后收入反事实相独立（这自然是有争议的，但本文给出例时采用了此假设）。

核心问题：高收入父母（\(G=1\)）与低收入父母（\(G=0\)）的孩子在成年收入上的差异，该差异有多大比例可归因于“大学学历”这一处理变量，并进一步分解为如下三个分量：

prevalence component（普及率成分）：因为高收入父母的子女上大学的比例不同。
ATE component（平均处理效应成分）：大学学历的因果效应在两个群体间不同（需用 如因群体而异）。
selection component（选择成分）：每个群体里具体是哪些人上了大学：即大学的“选择进入处理”——个体因进入大学的因果获益较高才被录用的——这一群体间的模式不同。

最简表示（抛弃分组）：假设只有一个群体（组间差异尚未考虑）： - 组差距 = \(\mathbb{E}[Y | G=1] - \mathbb{E}[Y | G=0]\)。

引入处理效应异质性： - 定义潜在结果 \(Y_i(1)\) 与 \(Y_i(0)\)，以及个体处理效应 \(Y_i(1)-Y_i(0)\)。这个个体效应上显然因人而异。 - 选择进入处理的意思：同一个人在能否上大学这件事上有一部分是基于其个体的处理效应大小来决定。

对于群体 \(G=g\)，如果把它的处理分布（与处理效应分布的结合方式）换成群体 \(G=g'\) 的——变化会反映在差距的平移中。

具体一个明了的例子（来自 Brand & Xie 的负向选择精神）：

在低收入家庭（\(G=0\)），大学授课主要提供给那些“上大学会收益很大（高个体效应）”的有天赋的孩子；高收入家庭（\(G=1\)）则所有孩子（无论个体效应大小）都能去上大学。
差异 \(\{G=1\}\) 与 \(\{G=0\}\) 会产生的差距：
普及率差异（收入家庭上大学更多）→ 正向贡献。
ate差异：在低收组，研究所处理的个体效应很高（因为只有高获益者上大学）；在高收组，个体效应平均水平更低（包含了大量获益者小的孩子）→ 因此ATE差异反而是被逆向（即负向）贡献的。
选择成分（本文的枢纽创新）：在高收组，个体间处理效应的变异让中介何人在上好大学是：都是“高获益”；在低收组中则是选择其它受 “低益” 投入等来决定。这一机制就是本文首次分离出来的。

本文在数学上真正干的事：将 \(\Delta = \mathbb{E}[Y | G=1] - \mathbb{E}[Y | G=0]\) 分解为三个加性分量 \(\Delta = \Delta_{prev} + \Delta_{ate} + \Delta_{sel}\)。其中

\[\Delta_{prev} = \mathbb{E}[Y(1)-Y(0) | G=0] \cdot \big( p_1 - p_0 \big)\]

\[\Delta_{ate} = \mathbb{E}[Y(1)-Y(0) | G=1] - \mathbb{E}[Y(1)-Y(0) | G=0] \cdot p_1\]

而选择成分则体现出唯一性，它是通过可以观测到的差异=整体差距−成分1−成分2简单构造，所以它会吸收所有余下的差异——但其有载体公式（见技术节）。

三、这篇论文做了什么¶

三句话¶

① 本文在非参数因果框架下，提出了将群体间结果差异（由分组变量G定义）分解为“处理普及率不同”、“处理平均效应不同”和“基于个体处理效应的选择进入处理的不同”三个部分的三分量分解。
② 核心工具包括非参数识别的公式推导、多重稳健估计（基于倾向得分匹配/回归/结果投影的混合）、以及 EIF（高效影响函数）驱动的半参数有效的推断。
③ 主要结论有两个：第一，这一分解在三者组件中首次唯一识别出“选择进入处理成分”，使其对既定分解而言是不可还原的新维度；第二，对代际收入持续性的实证分析表明，选择成分解释了高低收入家庭子女差距的非平凡一部分（尤其在有其他协变量的条件下），证明该机制的实质上可忽略性是不成立的。

关键设定与假设¶

在第二节基础记号上，本文补充并列出以下假设/条件完整版：

对分组的处理： - 分组变量 \(G\) 被认为是一个外生论固定分类——作者明确说明 \(G\) 被视为一个非因果变量（上一节引用了 VanderWeele & Robinson (2014) 关于“是否可以把 race 视为因果变量”的讨论），因此不对 G 造成的结果差异做“处理效应”的解释，而是将其分解为处理D的通道贡献——这是本框架与典型中介分析的核心差别所在。

识别假设（针对 D 作为处理的潜在结果 Y(d)）： - 条件无混淆性（Conditional Ignorability）：\(Y(d) \perp\!\!\!\perp D \mid (X, G)\)，即给定协变量X与分组G，D与结果反事实相独立（无混杂）。 - 正性（Positivity）：\(0 < \Pr(D=1 | X, G) < 1\)，对所有 X 和 G。 - 一致性（Consistency）：若 \(D=d\) 则观测 Y = Y(d)。

对选择成分的识别（本文的关键难度）：作者证明，要孤立识别“\(\Delta_{sel}\)”，除了上述三个假设以外，还必须把视角扩展到组内处理效应异质性的结构。换言之，该成分的识别本质上依赖于对组内个体处理效应分布（而非简单边际 ATE）的估计——这通常意味着需要引入更强的假设（如同质性假设的从略形式）来从观测数据中说明着选择差异的隶属关系。

与已有文献对比： - 相对于 VanderWeele & Robinson (2014) 和 Jackson & VanderWeele (2017)，本文额外需要组内潜在结果的联合分布结构（而不仅仅是边际均值）来分离选择成分。因此，识别力更强（分离更细），但也更仰赖对协变量 X 的支持有多广，及 CI 假设的稳定。

主要结果¶

无条件分解（主要结果：定理1-3）：设 \(p_g = \Pr(D=1 | G=g)\) 为群体 g 的处理普及率；设 \(\tau_g = \mathbb{E}[Y(1)-Y(0) | G=g]\) 为群体 g 的平均处理效应；并设 \(\delta_g\) 为“群体 g 的基于个体处理效应的选择进入处理指标”的某种定义期望。则有：

\[\Delta_{prev} = (p_1 - p_0)\tau_0\]

\[\Delta_{ate} = p_1 (\tau_1 - \tau_0)\]

\[\Delta_{sel} = \Delta - \Delta_{prev} - \Delta_{ate}\]

关键结论：
1. 当组间无处理效应异质性（\(\tau_1 = \tau_0\)）且无基于个体效应的选择（选择成分 = 0）时，无条件分解退化到经典的 Oaxaca-Blinder 端点分解但具有更为清晰的因果解释。 2. 只要条件无混淆性成立（而且是充分的），这些成分就是非参数识别的。

条件分解（正文中更为主线，定理4-6）：测控协变量 X, 分解发生生条件期望的在每个 X = x 子群体上。这引出了大量关于权重和积分的技术问题以及基于倾向得分的边际积分的估计，但识别原理在本质上与无条件分解相似。

估计量的性质（命题/说明7-9）： - 对所有三个成分，论文都构造了： - 多重稳健性：若方程中任两个部分模型（倾向得分模型、结果回归模型、分布模型等中的一个）被正确设定，则估计量保持一致性。 - √n一致性：在所有模型正确前提下，估计量为√n收敛； - 渐近正态性与半参数有效性：估计量达到半参数效率界（即不可再提高的方差下界）。 - 证明方法：Neyman orthogonal 得分 + cross-fitting（DML 范式）。

证明路线与技术技巧¶

整体路线（以无条件分解为例）： 1. 第一步：写出对三项分解的不依赖的恒等式：在潜在结果框架中，写出 \(\mathbb{E}[Y | G=1] - \mathbb{E}[Y | G=0] = \mathbb{E}[Y(1)|G=1] - \mathbb{E}[Y(0)|G=0]\)，并将期望按条件概率展开。 2. 第二步：将反事实期望写成可观测表达式，利用 CI 假设，将 \(\mathbb{E}[Y(1)|G=g]\) 替换为 \(\mathbb{E}[\mathbb{E}[Y|D=1, X, G]|G=g]\) 等表达式。 3. 第三步：剥离三个成分。通过代数操作将项重排，并将选择成分定义为M不透式——在这段推导中写出选择成分的有效公式。 4. 第四步：写出各成分的 EIF。通过 Von Mises 展开和Gateaux导数计算得到每个目标参数的 EIF（引起影响函数），从而知道估计量的最优形式；同时也获得了推断的基础（如方差计算的 sandwich 公式）。 5. 第五步：DML 交叉拟合框架升级估计量到 Neyman 正交序列构造：用第一半估计 nuisance functions，用另一半做估计量的plug-in；然后反过来做一遍，平均得到最终估计量。这一步是利用 Chernozhukov et al. (2017) 的技术来达成√n一致性+ asymptotically normal + semiparametrically efficient。

关键难点与技术技巧：

难点一：选择成分的识别（它与三重识别不互斥的问题）。作者处理：在整体分解恒等式中，已经让选择成分作为剩余项出现；但要做到在所有可观测数据下唯一 decided，需要使用组间选择比例的度量并证明这个剩余项不等价于普及率或ATE项的组合。他们给出的技术就是定义选择指标 S = E[Y(1)-Y(0)|D=1,G,X] - E[Y(1)-Y(0)|D=0,G,X]——即在不同处理状态之间，系统性地不同到底有多少来自处理效应本身的异质性与进入处理倾向的关联差异。这个就是本文封闭式表达的关键引力的核心。
技术工具点名：
- Efficient Influence Function (EIF)：被用于构造各分量的半参数最优估计量，使用到Ichiumura & Newey (2015) 的 Gateaux 导数方法。
- DML / Cross-fitting：参考 Chernozhukov et al. (2017), 用于处理深度学习/随机构造的误区同时达到Neyman正交。
- 多重稳健权重系列：参考 Fan Li et al. (2014) 平衡权类的推广。

真实例子¶

数据：NLSY79（National Longitudinal Survey of Youth 1979），造了个长子代成年年均收入的近似数据集（用孩子身份估算为2008-2010平均正工资收入）。

场景：衡量“大学学历如何因果地贡献于父母收入地位（高 vs 低）的女儿/儿子成年收入的差异”。

方法流程： - 分组G（父母收入“高” = 大致前1/3 percentile of array；父母收入“低”= 后1/3）。 - 处理D = 子女大学学位（即 college graduation）。 - 协变量 X = 性别、种族、初飞（出生地等）、父母教育水平、童年早期家庭环境和第三方估计等。 - 执行估计：条件CI + 倾向得分匹配 + 三元结果回归 + DML（样本分割等）。

结果： - 普及率成分：高收入父母子女的大学普及率显著更高，这解释了整体差距约 30%（具体数值随条件分解的带宽略有浮动）。 - 平均处理效应成分（ATE）：大学学位的因果效应在两个组之间差异很小（尤其是考虑了协变量后），by 这一成分对总差距的贡献近乎不显著（在3-10%之间；作者也用它来证实负向选择假设在某些设定下）。 - 选择成分（本文的新组件）：原作者—在原分析中未被识别的来源—在解释这种范围中占到了约 15-25% (相当大，特别是在 X 条件调节后的分解场景下)。这一成分的现象学解释：在低收入家庭里，上大学的孩子更多是在处理效应上获得极高收益的类型（负向选择，Brand&Xie 效应），而在高收入家这种高处理效应偏移较小——这选择模式的组间差异自身便是+部分差距的主要组份。

这个例子要说明： - 验证新选择成分不可忽视；（说明既往分解必须对其做错误规定处理依据不足）； - 验证在实践中，这一成分的量级能与其它两个成分相匹敌。

🔎 结论是否比证明窄¶

论文在讨论“识别的唯一性”时所声明的 “唯一识别” 来自于在理论与代数构造上的精确。但证明所覆盖的范围是“在条件无混淆性和正性假设下，加入选择成分的识别”。假设这些假设不成立（即有未观测混杂 m、或 X 不足），则分解将退化为非唯一的形式。论文本身在 concluding remarks 里明确说了这一点：“一个潜在的张力在于该方法的识别假设假定不存在多混杂…… 当混杂存在于选择机制与潜在结果之间时，分解可能不再唯一”。所以声明虽大，但作者自己也加了一个保底的注脚。

四、开放问题（点到为止）¶

可扎根的开放问题（最多4条，每一条出据文中位置）：

将本分解扩展到时间连续的暴露-中介-结果设置。论文在结论中明确提出（Section 7.2末尾段），指标的识别假设目前不支持时间维度——伴随时间变化的暴露和中介（如“大学”可能是一个既包含时长也包含不同阶段的行为）。要做这个，需要仿照 VanderWeele & Tchetgen Tchetgen (2016) 的“mediational g-formula”框架将本分解展开。这是一条自然延伸，但又要求处理新的 identifiability 问题（如 time-varying confounding）。扎根：Paper, Section 7.2.
不依赖 CI 假设（或许通过工具变量或 Proximal Causal Inference）的情况下的分解唯一性。作者仅在最重要的识别假设（CI）上展开论述，但对于“推断应用中可能存在未观测混杂/代理变量不足”的情况，是否还可以唯一且无偏的识别第三成分？这是一条理论断层。扎根：Paper, Theorem 1-3 的所有引用假设中均有 unconfoundedness。你可以去读 Vansteelandt & Didelez (2018) 处理已观测混杂时用工具变量做“mediation without Y(d) ⊥ D | X,G”的工作，看是否有冲突或机会。
对选择成分的效率界是否为半参数范畴里真实最紧的？论文证明了达到 EIF 半参数有效性界，但这一界的公式性推导其实需要在加性假设下对初始分布的高阶平滑性确保打底。平滑度优选选择（如Hölder smoothness α > d/2）并不总是得到验证——把此界与在参数化等下的 minimax lower bounds 要比对，可以检查该方应否人不够紧凑。扎根：Theorem 2 & Technical Lemma D.3（尤其在 EIF 的推导中多用 Taylor 展开）。
尝试连接本分解与您熟悉的“高阶U-统计量/张量网络成本分析”。由于选择成分的识别依赖于对“个体处理效应 × 处理状态”的联合矩，并且在多重稳健估计中，需要对一大堆交叉矩（高阶交互）进行聚合。能否设计一种基于 einsum 的收缩计算，使得跨群体分解的计算复杂性加倍？这属于“higher-order U-statistics”中现用的张量-网络结构启发所得的路程。

Maintained by 陈星宇 · Homepage · Source on GitHub