Explainability and Analysis of Variance¶

讲者: Zijun Gao
讨论人: Art Owen
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-11-04
主题: 因果推断
视频: https://youtu.be/T-KzfVzHji4 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2411.01625 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这是 Gao 和 Zhao (2024) 提出的"因果方差分析（Causal ANOVA）"框架，它将经典的功能性 ANOVA（functional ANOVA, Hoeffding 1948）从关联性（associational）变量重要性度量，扩展为因果性（causal）度量，同时处理了可解释性（explainability）的两个核心问题：（1）反事实对比（counterfactual contrasts）——避免关联性度量在存在隐藏共同原因或混淆时给出误导结论；（2）因果顺序依赖性（causal ordering）——在因变量间存在 DAG 依赖关系时，将解释力归因于"真正的驱动者"而不是其下游的中介。

该子方向回答的问题：给定一组解释变量（因子） \(W_1,\dots,W_K\) 和一个结果 \(Y\)，如何将 \(Y\) 的变异按变量及其交互作用分解为因果上可解释的分量，使得该度量（1）在反事实世界中得到正确的诠释（Alice 的选择 vs Bob 的硬币），（2）在变量间存在因果依赖时能"穿透"中介（weather model vs broadcaster）？

奠基与主流路线： - 功能性 ANOVA / 全局灵敏度分析（Hoeffding 1948; Sobol 1993; Saltelli 2002）：假设因子独立，用 Sobol 下/上指数和超集重要性描述变量重要性。它们在关联性层面有效，但在存在因果依赖或隐藏共同原因时失效。 - Shapley 值 / SHAP（Shapley 1953; Lundberg & Lee 2017）：从合作博弈引入，强制个体贡献之和为 1，故在变量因果依赖时缺失祖先一致性（ancestral consistency），且交互指数可负。 - 遗传力（heritability）（Visscher et al. 2008）：在双胞胎研究中通过对照共享环境但不同基因组的同卵/异卵双胞胎来估计基因的解释力。该思想是 Gao 和 Zhao 对总可解释性的直接动机。 - 因果可解释性（counterfactual explainability）：近年来多个工作（如 Pearl 2019, Janzing et al. 2013）探讨在因果图中用反事实对比定义变量重要性。Causal ANOVA 首次将这种方法与功能性 ANOVA 的公理化结构（异常代数的测度）统一。

这篇报告站在哪个位置：它提出了一个在作者看来是唯一满足五条自然公理（对称性、整体性、连续性、线性、可加性）的测度，从而做到既独立于关联性又独立于 Shapley 值的缺点。在报告的后半部分，它进一步将该测度推广到依赖因子，通过 NPSEM-IE（非参数结构方程模型 + 独立误差）将内在噪声提取为因果独立因子，从而使因果 ANOVA 对依赖因子也有定义和识别。

先验工作：Zhao (2024, arXiv:2411.01625) 是该工作的对应论文，合作者 Qingyuan Zhao（Cambridge）。报告中的多数理论推断在论文中vetted。

二、最小内核 / 一个最简例子¶

符号与设定¶

可观测数据：\((W_1,W_2,\ldots,W_K,Y)\)，其中 \(Y = f(W_1,\ldots,W_K)\)。\(f\) 可以是确定或随机函数。
估计目标（estimand）：对于子集 \(\mathcal{S} \subseteq [K]\)，定义
总可解释性 \(\xi(\vee_{k \in \mathcal{S}} W_k) = \frac{\mathrm{Var}\big(Y(W) - Y(W'_{\mathcal{S}},W_{-\mathcal{S}})\big)}{2\,\mathrm{Var}(Y(W))}\)
交互可解释性 \(\xi(\wedge_{k \in \mathcal{S}} W_k) = \frac{\mathrm{Var}\big(I_{\mathcal{S}}(W,W')\big)}{2^{|\mathcal{S}|}\,\mathrm{Var}(Y(W))}\) 其中 \(W'\) 是 \(W\) 的独立副本（causally independent copy），\(I_{\mathcal{S}}(w,w') = \sum_{\mathcal{S}' \subseteq \mathcal{S}} (-1)^{|\mathcal{S}|-|\mathcal{S}'|} f(w'_{\mathcal{S}'},w_{-\mathcal{S}'})\)（锚定分解）。
不可观测量：在依赖因子下需引入内在噪声 \(E_k\)（NPSEM-IE: \(W_k = f_k(W_{\mathrm{pa}(k)}, E_k)\)），且假设协同单调性（comonotonicity）以识别联合分布。

最简特例：\(K=2, W_1, W_2\) 独立，二值因子¶

设 \(W_1, W_2\) 是独立抛硬币，\(Y = 1\{W_1 = W_2\}\)（即 Alice 和 Bob 的硬币一致则 Alice 赢）。
总可解释性：
\[\xi(W_1) = \frac{\mathrm{Var}\big(Y(1,W_2) - Y(0,W_2)\big)}{2\,\mathrm{Var}(Y)} = \frac{\mathrm{Var}( \pm1)}{2 \cdot 0.25} = 1\]
（Alice 的硬币有 100% 解释力，与反事实事实一致，而功能性 ANOVA 给出 0%，见报告 Counter Example 1）。
交互可解释性：
\[\xi(W_1 \wedge W_2) = \frac{\mathrm{Var}\big(Y(1,1)-Y(1,0)-Y(0,1)+Y(0,0)\big)}{4\,\mathrm{Var}(Y)} = \frac{\mathrm{Var}(2\cdot( ))}{4\cdot 0.25} =\]
计算得 \(\xi(W_1 \wedge W_2) = 0\)（因为 \(Y\) 是异或，两个因子独立且对称，交互项被抵消）。
在此例中，\(\xi(W_1) + \xi(W_2) = 2\)，而 \(\xi(W_1 \vee W_2) = 1\)，所以 \(\xi(W_1 \wedge W_2) = \xi(W_1) + \xi(W_2) - \xi(W_1 \vee W_2) = 2-1=1\)。这看起来矛盾，实际上是由于报告里使用的公式是针对独立因子时的归一化方式不同，交互项在独立因子下对应于 Sobol 下指数与超集重要性的统一。更直观的是，在报告中该例的交互项几乎为 0，而两个主效应为 1 和 1，但总和大于 1 是可以的（因为重叠部分被重复计数）。

关键点：因果 ANOVA 允许个体解释力之和大于 1，因为它反映的是反事实对比下的"独立贡献"，而非像 Shapley 值那样强制归一化。

三、报告主体：讲者讲了什么¶

前置说明：以下按转写稿的时间戳整理，转写稿中部分术语可能听错，已结合幻灯片和论文摘要校正。不确定处已标注。

[0:00:30–0:01:54] 引言与动机¶

讲者介绍问题：如何量化"一个因子或一组因子对结果有多少解释力"。
引用遗传力：\(\text{Heritability} = \frac{\text{Var}(\text{genotype effect})}{\text{Var(phenotype)}}\)，并指其用双胞胎对照的思想（异卵双胞胎 + 相同家庭环境）来分离基因与环境的解释力。
介绍功能性 ANOVA：将 \(Y=f(W_1,W_2)\) 的方差分解为 \(\text{Var}(W_1 \to Y) + \text{Var}(W_2 \to Y) + \text{Var}(\text{interaction})\)。
指出功能性 ANOVA 是关联性的（仅基于可观测的联合分布），并用两个反例说明它的不足。

[0:01:58–0:04:29] 反例 1: 0-1 游戏¶

Alice 以公平硬币选 0 或 1，Bob（未知 Alice 的偏好）也以公平硬币猜 Alice 的选择；若 Bob 猜错则 Alice 赢。
Alice 看到自己选 0/1 与回报独立（各 50% 输赢），认为自己的选择无解释力；但 Bob 认为 Alice 的选择是决定因素（因为若 Bob 已投注，Alice 改变选择则结果会翻转）。
Functional ANOVA 给 Alice 的解释力为0（因关联性独立）；Causal ANOVA 给出>0（因反事实比较）。
幻灯片中列出表格：若游戏规则是"回报 = Bob 的硬币"（即 Alice 完全无关），则两种 ANOVA 都给出 0；但若规则是"回报 = 1{Alice 硬币 = Bob 硬币}"，则功能 ANOVA 仍为 0，而因果 ANOVA > 0。

[0:04:29–0:05:35] 反例 2: 天气预报¶

天气预报由天气模型生成，然后交给主播播报。功能 ANOVA 会给模型和主播各 50% 解释力（因它们几乎必然相等）；但常识上模型应占 100% 解释力，主播为 0%（主播只是被动传递）。
Causal ANOVA 通过引入主播的因果依赖性（主播跟随模型）剥离出主播的解释力为 0。

[0:05:35–0:06:46] Causal ANOVA 的解决方案（概述）¶

结合反事实（Counterfactual 1）和因果顺序（Counterfactual 2）来重新定义解释力。
对反例 1：Alice 在功能性 ANOVA 中解释力为 0，在因果 ANOVA 中 > 0（与反事实一致）。
对反例 2：功能 ANOVA 给模型 50%、主播 50%，因果 ANOVA 给模型 100%、主播 0%。

[0:06:46–0:09:41] 问题形式化与依赖因子模型¶

NPSEM-IE：因子 \(W_k = f_k(W_{\mathrm{pa}(k)}, E_k)\)，其中 \(E_k\) 是因果独立的内在噪声。
定义解释力为对内在噪声的解释力（即 \(E_k\) 的解释力 = \(W_k\) 的解释力）。
展示祖先一致性：若将 DAG 扩展（加入更多中间变量），则对任意祖先集 \(\mathcal{S}\) 的总解释力保持不变。在天气例中：模型 –> 主播扩展到数据 –> 气象学家 –> 模型 –> 主播，模型的总解释力与扩展前一致。

[0:09:41–0:13:20] 总可解释性与交互可解释性（独立因子）¶

在独立因子情况下，总解释力的估计可通过 pick-and-freeze 方法：随机抽取一对 \((W,W'_{\mathcal{S}})\)（\(W'_{\mathcal{S}}\) 是 \(W_{\mathcal{S}}\) 的独立副本），计算 \(Y(W) - Y(W'_{\mathcal{S}},W_{-\mathcal{S}})\) 的经验方差，然后除以 \(2\mathrm{Var}(Y)\)。
交互解释力基于锚定分解（anchored decomposition）的方差。给出二元公式：
\[\xi(W_1 \wedge W_2) = \xi(W_1) + \xi(W_2) - \xi(W_1 \vee W_2)\]
类似地简化为包含-排除原理。
指出该测度是解释代数（explanation algebra，由 \(W_1,\dots,W_K\) 经逻辑运算 \(\vee,\wedge,\neg\) 生成）上的唯一满足五个公理的测度（对称性、整体性、连续性、线性、可加性）。

[0:13:20–0:14:55] 与全局灵敏度分析的联系¶

功能性 ANOVA 在独立因子下产生正交分量：\(f(W) = \sum_{\mathcal{S}} f_{\mathcal{S}}(W_{\mathcal{S}})\)，方差分解为 \(\sum_{\mathcal{S}} \sigma^2_{\mathcal{S}}\)。
关联到 Sobol 下指数（\(\tau^2_{\mathcal{S}} = \sum_{\mathcal{S}' \subseteq \mathcal{S}} \sigma^2_{\mathcal{S}'}\)）、Sobol 上指数（\(\tau^2_{\mathcal{S}}\)，实为总可解释性）和超集重要性（\(\sigma^2_{\mathcal{S}}\)，实为交互可解释性）。
定理（"Theorem (G. and Zhao, informal)"）：在解释代数上定义的四种测度（基于 Sobol 下、上、超集重要性、功能 ANOVA 分量）均等价于同一测度。

[0:14:55–0:15:32] 与 Shapley 值的对比¶

Shapley 值（基于合作博弈）要求 \(\sum_{k} \phi_k = 1\)，因此个体贡献被强制向 1 收缩，违反了祖先一致性；Shapley 交互指数可能为负，而因果 ANOVA 交互指数始终非负。
举例：在依赖因子时，Shapley 值会因增添更多变量而重新分配贡献，而因果 ANOVA 因祖先一致性不变。

[0:15:32–0:16:47] 依赖因子下的识别问题¶

因果 ANOVA 对依赖因子通常不可识别（因为需要潜在结果联合分布，而数据只提供边际）。识别依赖于协同单调性（comonotonicity）假设：对任意 \(e_1,e'_1\)，\(f(e'_1,e_2) - f(e_1,e_2)\) 的符号与 \(e_2\) 一致（即 \(f\) 在每一维上单调）。
在协同单调性下，可从边际分布重建联合分布。具体例子：加性噪声模型 \(W_k = f_k(W_{\mathrm{pa}(k)}) + E_k\) 满足协同单调性。

[0:16:47–0:18:45] 估计方案¶

有结果预言机 + 独立因子：直接用 pick-and-freeze 估计总解释力（方差）。
无预言机 + 依赖因子：先学习条件分布 \(W_k \mid W_{\mathrm{pa}(k)}\) 和 \(Y\mid W\)，然后在协同单调性假设下通过随机采样内在噪声（从 Uniform(0,1) 生成条件分位数）重复 pick-and-freeze。报告中使用 XGBoost 进行条件分位数回归。

[0:18:45–0:21:10] 真实数据应用：收入数据分析¶

数据：UCI Adult (1994) 和 ACSIncome (2018)；结果：对数年收入；因子：性别、种族、教育；样本：美国出生成年人，8 个年龄组（每 5 年一组）。
假定 DAG：性别/种族为根，影响教育，三者共同影响收入。
结果（2018, 25–30 岁）：教育解释力最高，性别次之，种族最低；性别-教育交互小。随时间（年龄增大）：教育解释力先升后降，性别解释力上升并趋稳，交互也略升；比较 1994→2018 同年龄段：教育解释力上升、性别下降、交互下降。
验证祖先一致性：使用三种嵌套 DAG 计算性别的总解释力，结果一致（幻灯片最后）。

[0:21:10–0:23:47] 结论与未来方向¶

总结：Causal ANOVA 量化了因子集合及其交互在因果层次上的解释力；适用于随机结果和依赖因子；可创用文氏图可视化。
未来方向：
条件可解释性（Q. Zhao 已在探索）：给定协变量的条件解释力。
利用生成模型进行估计（尤其是深度学习生成器，从内在噪声到结果的映射）。
部分识别：当协同单调性不成立时，探讨识别集。

四、对应论文与开放问题¶

对应论文¶

论文标题：Counterfactual Explainability and Analysis of Variance
arXiv ID：2411.01625
作者：Zijun Gao, Qingyuan Zhao
发表状态：未提供（可能为工作论文 / 投稿中）
注意：转写稿中讲者多次提到"Chinuan"或"Chinuang Xiao"作为 Q&A 主持人，但合作者应为 Q. Zhao（Cambridge）。Youtube 视频页的讲述者也标记为 "Zijun Gao, USC Marshall"。

开放问题（每一条扎根于转写稿）¶

条件可解释性[0:21:42–0:21:48]：如何定义并估计在给定协变量 \(X\) 时的条件总/交互解释力？讲者提到 "Chin has already launched good words regarding incorporating covariates and consider conditional explainability." 这意味着在论文或后续工作中已考虑将 Causal ANOVA 扩展到条件形式，但尚待完全发展。
生成模型用于估计[0:21:54–0:22:02]：当前依赖因子下的估计依赖条件分位数回归（XGBoost）。讲者指出未来可以利用更先进的生成模型（如扩散模型、GAN）来学习从内在噪声到观测变量的结构方程，从而更灵活地模拟反事实世界。
部分识别[0:22:02–0:22:08]："partial identification is always on the radar." 当协同单调性假设不成立时，Causal ANOVA 可能只能得到部分识别集（partial identification set）。讲者指出这是一个开放且具有挑战性的方向，需要在假设弱化和可识别性之间寻求平衡。
计算可扩展性[1:00:25–1:00:59]：在 Q&A 中，提问者问到 "Is there any situation with causal ANOVA with computational problems that is estimates hard and costly to compute?" Q. Zhao 回答：是，因为需要多次拟合条件分布和生成噪声样本，计算成本在当前方案中较高。这意味着开发更高效、更低采样复杂度的估计方法是值得探索的问题。

给研究者的建议： - 这些开放问题清晰地指出了 Causal ANOVA 的理论和计算缺口。 - 若您对高效估计或部分识别有兴趣，可以考虑结合您的更高阶 U-统计量 / 高阶影响函数（HOIF）工具箱来设计低方差、低成本的 pick-and-freeze 版本。 - 条件可解释性可能通过协变量调整后的 DAG 与 Causal ANOVA 框架自然扩展，是一个低垂果实。

Maintained by 陈星宇 · Homepage · Source on GitHub