Shapley Curves: A Smoothing Perspective¶

作者: Ratmir Miftachov, Georg Keilbar, Wolfgang Karl Härdle
来源: Journal of Business & Economic Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向试图将机器学习中用于解释黑箱模型的"Shapley 值"从一种有限样本的算法输出，提升为一种群体水平的非参数 estimand（即存在一个真实的数据生成过程所决定的、不可观测的"真值"），并为其建立严格的统计推断理论（收敛速率、渐近分布、置信区间）。当前该方向的成熟度处于" estimand 刚被定义、基本收敛速率刚被建立、低阶项推断刚被触及"的早期阶段——大量机器学习文献把 Shapley 值当算法用，但几乎不谈它的统计误差与不确定性；少数统计文献开始谈误差，但多在参数/半参数设定下，非参数设定下的 minimax 理论与低阶项推断仍是缺口。

发展脉络： - 奠基工作（Shapley 值进入机器学习）：Lundberg & Lee (2017) 提出 SHAP，将合作博弈论中的 Shapley 值引入黑箱模型解释，把特征贡献当成"玩家收益"来分配。作者在 intro 中指出，这类工作把 Shapley 值当作"局部解释的算法工具"，完全回避了其背后的统计不确定性（引用句："limited statistical understanding"）。 - 主要进展（从算法到统计 estimand）： - Covert & Lee (2021) 等开始探讨 Shapley 值的随机估计误差，但仍在"给定模型"的框架下，未将其视为由数据生成过程决定的群体参数。 - Frye et al. (2020) 与 Merticko et al. (2020) 等开始把 Shapley 值与条件期望联系起来，意识到它依赖于协变量分布，但未给出收敛理论。 - 在半参数/参数方向，Bühlmann et al. 等人近年有将变量重要性定义为群体参数的工作，但多假设线性或低维结构，未触及非参数平滑的 minimax 速率。 - 当前 frontier（非参数推断与低阶项）： - 非参数设定下，Shapley 值的估计涉及多重条件期望函数的组合，其误差结构如何叠加、minimax 速率由什么决定，此前未有结果。 - 低阶项（lower-order terms）的推断：半参数理论中 HOIF（Higher-Order Influence Functions）专门处理低阶项，但 Shapley 曲线这类由多重条件期望组合而成的 estimand，其低阶项的 bootstrap 覆盖此前未被解决。 - 本文的位置：本文首次在非参数设定下把 Shapley 值定义为群体 estimand（Shapley 曲线），推导了 minimax 收敛速率与渐近正态性，并针对低阶项提出了一种 wild bootstrap 新变体。

子线索聚类： 1. 算法与可解释性线索（Lundberg & Lee 2017; Covert & Lee 2021）：把 Shapley 值当算法，追求计算速度与局部解释一致性，不谈统计误差。 2. 群体参数化线索（Frye et al. 2020; Merticko et al. 2020; 近年 Bühlmann 等的半参数工作）：意识到 Shapley 值应由数据生成过程决定，开始往 estimand 方向走，但多在参数/半参数设定下，速率与低阶项推断未触及。 3. 非参数平滑与 minimax 理论线索（本文独占）：在非参数设定下定义 estimand，推导 minimax 速率与渐近分布，处理低阶项推断。

这个方向在追问的核心问题： 1. Shapley 值作为群体 estimand，其非参数 minimax 收敛速率由什么决定？是条件期望函数的平滑度，还是协变量分布的维数灾难？ 2. 估计 Shapley 曲线时，多重条件期望函数的估计误差如何叠加？低阶项在渐近分布中扮演什么角色？ 3. 如何在有限样本下对 Shapley 曲线做推断（置信带/区间），特别是如何捕捉低阶项的不确定性？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 为"Shapley 值缺乏统计理解"，好让自己这篇"定义 estimand + 推 minimax 速率 + 给 bootstrap 推断"成为"显然的下一步"。 - 被淡化的竞争路线：半参数方向的变量重要性定义（如 Bühlmann 等的近期工作）在 intro 中几乎未被对比，作者直接跳到非参数设定，回避了"半参数设定下是否已有更优速率/更有效推断"的讨论。 - 明显该被引却未出现的：半参数效率理论中的 HOIF（Higher-Order Influence Functions）文献（如 Robins et al. 2008, 2017 系列）——本文处理的低阶项问题与 HOIF 的数学结构高度同源（都是条件期望的嵌套/组合的余项），但 intro 与 bibliography 中未见 HOIF 文献。这是值得研究者去查的问题：作者的低阶项 wild bootstrap 与 HOIF 的低阶项修正是否有数学上的同构？如果是，本文的 bootstrap 可能只是 HOIF 框架的一个特例实现，而非新理论。

张力：未见明显对立引用。算法线索与群体参数化线索之间有"视角张力"（前者视 Shapley 值为算法输出，后者视为 estimand），但无数学结论上的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(X \in \mathbb{R}^d\)：协变量（随机向量），分布为 \(P_X\)。
\(Y \in \mathbb{R}\)：响应变量（随机变量）。
\(S \subseteq \{1, \ldots, d\}\)：特征子集（ coalition）。
\(X_S\)：\(X\) 中指标在 \(S\) 内的子向量；\(X_{\bar{S}}\)：补集子向量。
\(\mu(x) = E[Y \mid X = x]\)：条件期望函数（非参数函数，本文的核心平滑对象）。
\(\phi_j(x)\)：特征 \(j\) 在点 \(x\) 的 Shapley 值（群体 estimand，本文称为 Shapley 曲线在点 \(x\) 的值）。
\(v(S, x)\)：特征子集 \(S\) 在点 \(x\) 的价值函数（value function），定义为 \(E[\mu(X_S, X_{\bar{S}}) \mid X_j = x_j]\) 或类似条件期望组合——具体定义见下文模型部分。
\(\hat{\mu}\)：\(\mu\) 的非参数估计（如核回归、局部多项式）。
\(\hat{\phi}_j(x)\)：基于 \(\hat{\mu}\) 构造的 Shapley 曲线估计。
\(n\)：样本量；\(h\)：平滑参数（带宽）；\(s\)：\(\mu\) 的平滑度（如 Hölder 指数）。
模型：数据生成机制：\((X, Y) \sim P\)，其中 \(P\) 未知但满足平滑条件（\(\mu\) 属于 Hölder 类 \(\mathcal{H}(s, L)\)，\(s > 0\) 为平滑度，\(L\) 为 Lipschitz 常数）。\(X\) 的分布 \(P_X\) 有密度且支撑集满足边界条件。要估的对象是 Shapley 曲线 \(\phi_j(x)\)，它由 \(\mu\) 与 \(P_X\) 共同决定（不是自由参数，而是 \(\mu\) 与 \(P_X\) 的泛函）。
可观测数据：研究者实际能观测到的是 \(\{(X_i, Y_i)\}_{i=1}^n\)——iid 样本。\(\mu\) 与 \(P_X\) 不可直接观测，只能通过非参数平滑从样本中估计。Shapley 曲线 \(\phi_j(x)\) 作为 \(\mu\) 与 \(P_X\) 的泛函，更是不可观测，必须通过估计 \(\hat{\mu}\) 与 \(\hat{P}_X\)（或其函数）来间接构造 \(\hat{\phi}_j(x)\)。

第二步：最小内核——\(d=2\)、线性 \(\mu\) 的特例

整篇论文的数学本质是"多重条件期望泛函的估计误差叠加与低阶项推断"。支撑这个本质的最小内核是 \(d=2\)（两个特征）、\(\mu\) 为线性的特例。在这个特例下，Shapley 曲线退化成线性系数的简单组合，多重条件期望的嵌套消失，但低阶项的结构仍然可见——一般情形只是在此基础上的"维数灾难 + 非参数平滑 + 嵌套条件期望"加壳。

\(d=2\) 线性特例：设 \(d=2\)，\(X = (X_1, X_2)\)，\(\mu(x) = \beta_1 x_1 + \beta_2 x_2\)（线性，平滑度 \(s = \infty\)）。

价值函数：对特征 1，子集只有 \(\emptyset\) 和 \(\{1\}\)：
\(v(\emptyset, x) = E[\mu(X) \mid X_1 = x_1] = \beta_1 x_1 + \beta_2 E[X_2 \mid X_1 = x_1]\)（若 \(X_1, X_2\) 独立，则 \(= \beta_1 x_1 + \beta_2 E[X_2]\)）。
\(v(\{1\}, x) = \mu(x) = \beta_1 x_1 + \beta_2 x_2\)。
Shapley 值： \(\phi_1(x) = \frac{1}{2}[v(\{1\}, x) - v(\emptyset, x)] + \frac{1}{2}[v(\{1, 2\}, x) - v(\{2\}, x)]\) 在线性 + 独立下： \(\phi_1(x) = \frac{1}{2}[\beta_1 x_1 + \beta_2 x_2 - (\beta_1 x_1 + \beta_2 E[X_2])] + \frac{1}{2}[\beta_1 x_1 + \beta_2 x_2 - (\beta_2 x_2 + \beta_1 E[X_1])]\) \(= \beta_1 (x_1 - E[X_1])\)。
估计：用样本均值估 \(E[X_1]\)，得 \(\hat{\phi}_1(x) = \beta_1 (x_1 - \bar{X}_1)\)。若 \(\beta_1\) 也需估计，则 \(\hat{\phi}_1(x) = \hat{\beta}_1 (x_1 - \bar{X}_1)\)。
误差结构：\(\hat{\phi}_1(x) - \phi_1(x) = (\hat{\beta}_1 - \beta_1)(x_1 - \bar{X}_1) - \beta_1(\bar{X}_1 - E[X_1])\)。主项是 \((\hat{\beta}_1 - \beta_1)(x_1 - E[X_1])\)（参数估计误差乘固定量），低阶项是 \(-\beta_1(\bar{X}_1 - E[X_1])\)（均值估计误差乘参数）。低阶项的方差为 \(\beta_1^2 \text{Var}(X_1)/n\)，在渐近分布中通常被主项淹没，但在有限样本或 \(x_1\) 靠近 \(E[X_1]\) 时不可忽略。

一般情形的加壳：当 \(d\) 增大、\(\mu\) 变为非参数时： 1. 价值函数 \(v(S, x)\) 变成多重条件期望的嵌套组合（对每个 \(S\)，要估 \(E[\mu(X_S, X_{\bar{S}}) \mid X_S = x_S]\)），误差叠加的阶数随 \(d\) 指数增长（Shapley 值定义中的 \(2^d\) 个子集）。 2. \(\mu\) 的非参数估计误差速率从 \(n^{-1/2}\)（参数）退化为 \(n^{-s/(2s+d)}\)（非参数 minimax 速率），且每个条件期望的估计都引入这个速率。 3. 低阶项不再是简单的均值误差，而是"条件期望估计误差 × 协变量密度估计误差"的交叉项，其结构更复杂，wild bootstrap 需要专门适配。

核心数学问题：在非参数设定下，Shapley 曲线估计 \(\hat{\phi}_j(x)\) 的 minimax 速率是什么？低阶项在渐近分布中的贡献如何被 bootstrap 捕捉？

三、这篇论文做了什么¶

三句话： ①研究了非参数设定下 Shapley 值作为群体 estimand（Shapley 曲线）的统计推断问题； ②核心工具是非参数平滑（核/局部多项式估计条件期望）+ 误差叠加分析 + wild bootstrap； ③主要结论是给出了 Shapley 曲线估计的 minimax 收敛速率 \(n^{-s/(2s+d)}\)（与条件期望估计的 minimax 速率同阶）、渐近正态性、以及适配低阶项的 wild bootstrap 推断方法。

关键设定与假设：

在第二节最小记号基础上补全：

Shapley 曲线的定义：对特征 \(j\)，在点 \(x\)， \(\phi_j(x) = \sum_{S \subseteq \{1,\ldots,d\} \setminus \{j\}} \frac{1}{d \binom{d-1}{|S|}} [v(S \cup \{j\}, x) - v(S, x)]\)，其中价值函数 \(v(S, x)\) 定义为条件期望泛函： \(v(S, x) = E[\mu(X_S, X_{\bar{S}}) \mid X_S = x_S]\)。这里 \(\mu(X_S, X_{\bar{S}})\) 是把 \(X_S\) 固定为 \(x_S\)、\(X_{\bar{S}}\) 保持随机时的条件期望值——注意：\(X_{\bar{S}}\) 的分布是边际分布 \(P_{X_{\bar{S}}}\)（而非条件分布 \(P_{X_{\bar{S}} \mid X_S}\)），这是作者选择的"边际价值函数"定义（与 Lundberg & Lee 的 SHAP 一致），区别于"条件价值函数"（用 \(P_{X_{\bar{S}} \mid X_S}\)）。
假设：
H1（平滑度）：\(\mu \in \mathcal{H}(s, L)\)，Hölder 类，平滑度 \(s > d/2\)（保证 minimax 速率快于 \(n^{-1/4}\)，使得渐近正态性的主项占优）。
H2（协变量分布）：\(P_X\) 有密度 \(f_X\)，\(f_X\) 连续且在支撑集上远离零（避免边界效应），支撑集为 \(\mathbb{R}^d\) 或紧集且边界条件满足核回归的边界修正要求。
H3（价值函数定义）：采用边际价值函数（marginal value function），即 \(X_{\bar{S}}\) 的分布为边际分布 \(P_{X_{\bar{S}}}\)——统计含义：这避免了估计条件分布 \(P_{X_{\bar{S}} \mid X_S}\) 的困难（条件分布估计的 minimax 速率更慢），但也引入了"外生性假设"（\(X_S\) 与 \(X_{\bar{S}}\) 独立时边际与条件等价，否则不等价，Shapley 曲线的解释力受协变量相关性影响）。
H4（带宽选择）：\(h \asymp n^{-1/(2s+d)}\)（minimax 最优带宽）。
相比已有文献：本文首次在非参数设定下给出 minimax 速率，此前文献多在参数/半参数设定下（速率 \(n^{-1/2}\)）或只谈算法不谈速率；H3 的边际价值函数选择与 SHAP 一致，但回避了条件价值函数路线（后者估计更难但因果解释更强）。

主要结果：

定理 1（Minimax 收敛速率）：在 H1-H4 下，Shapley 曲线估计 \(\hat{\phi}_j(x)\) 的 minimax 收敛速率为 \(n^{-s/(2s+d)}\)——与单变量条件期望 \(\mu\) 的 minimax 速率同阶。直觉：Shapley 曲线是条件期望泛函的线性组合，每个条件期望的估计误差速率都是 \(n^{-s/(2s+d)}\)，线性组合不改变速率阶数（只是常数因子增大，因子随 \(d\) 指数增长但被 Shapley 权重的对称性部分抵消）。 必要条件：\(s > d/2\)（保证主项占优）；边际价值函数定义（避免条件分布估计的更慢速率）。 解决的技术难点：证明速率不因多重条件期望的嵌套而退化——关键在于边际价值函数下，每个条件期望的估计误差是独立的（不嵌套），叠加只是线性组合。
定理 2（渐近正态性）：在 H1-H4 下，\(\sqrt{n h^d} (\hat{\phi}_j(x) - \phi_j(x)) \overset{d}{\to} N(0, \sigma^2(x))\)，其中 \(\sigma^2(x)\) 由条件期望估计的渐近方差与 Shapley 权重决定。直觉：主项是条件期望估计误差的线性组合，每个条件期望估计渐近正态，线性组合仍正态。 低阶项：渐近分布中低阶项（带宽选择偏差 \(h^s\)、协变量密度估计误差等）在 \(s > d/2\) 下被主项淹没，但在有限样本下不可忽略——这是定理 3 的动机。
定理 3（Wild Bootstrap 推断）：提出一种 wild bootstrap 新变体，专门捕捉 Shapley 曲线估计中的低阶项。在 H1-H4 下，bootstrap 分布与真实分布的差在 \(o_p(n^{-s/(2s+d)})\) 阶内一致。直觉：标准 wild bootstrap 只捕捉主项（条件期望估计的方差），低阶项（带宽偏差、密度估计误差）在 bootstrap 重采样中被丢失——本文的变体通过在 bootstrap 权重中引入与带宽/密度估计相关的修正项，使低阶项也被重采样。 解决的技术难点：低阶项的结构是"条件期望估计误差 × 协变量密度估计误差"的交叉项，标准 wild bootstrap 的 Rademacher/Mammen 权重无法生成这种交叉结构——本文的修正权重是核函数与密度估计的函数，使得 bootstrap 样本中低阶项的方差与真实样本一致。

证明路线与技术技巧：

整体路线：
定义 estimand：把 Shapley 值写成条件期望泛函的线性组合（Shapley 曲线）。
拆解估计误差：\(\hat{\phi}_j(x) - \phi_j(x) = \sum_{S} w_S (\hat{v}(S, x) - v(S, x))\)，其中 \(w_S\) 是 Shapley 权重，\(\hat{v}(S, x)\) 是条件期望估计。
分析每个条件期望估计误差：对每个 \(S\)，\(\hat{v}(S, x) - v(S, x)\) 拆成主项（核回归的渐近正态项）+ 低阶项（带宽偏差 + 密度估计误差）。
叠加：主项线性组合仍正态，速率 \(n^{-s/(2s+d)}\)；低阶项在 \(s > d/2\) 下被主项淹没。
Bootstrap 修正：在 wild bootstrap 权重中加入低阶项修正，使 bootstrap 分布覆盖低阶项。
关键跳跃点：
引理：条件期望估计误差的拆解——把 \(\hat{v}(S, x) - v(S, x)\) 拆成主项（核权重的线性组合）+ 低阶项（带宽偏差 + 密度估计误差 × 条件期望值）。这个拆解是整篇证明的基石，低阶项的具体表达式决定了 bootstrap 修正权重的构造。
难点：低阶项中"密度估计误差 × 条件期望值"的交叉项——标准核回归理论只给出条件期望估计的渐近正态性（主项），低阶项的精确表达式通常被扔进 \(o_p\) 余项；本文需要把低阶项精确展开到 \(O_p(h^s + n^{-1/2} h^{-d/2})\) 阶，才能构造 bootstrap 修正。
技术技巧点名：
核回归渐近展开：用局部多项式核回归的条件期望估计，展开到主项 + 低阶项（带宽偏差 + 密度误差交叉项）——用在哪：引理的条件期望误差拆解。
Shapley 权重的对称性：利用 Shapley 值定义中权重的对称性（\(\frac{1}{d \binom{d-1}{|S|}}\)），简化多重条件期望叠加的常数因子——用在哪：定理 1 的速率证明，说明叠加不改变速率阶数。
Wild bootstrap 权重修正：在标准 Rademacher/Mammen 权重上乘以核函数与密度估计的函数，生成低阶项的交叉结构——用在哪：定理 3 的 bootstrap 推断。
Empirical process / U-statistic 理论：用于控制 Shapley 曲线估计中多重条件期望叠加的余项一致性——用在哪：定理 2 的渐近正态性证明，保证主项的线性组合收敛。

真实例子与应用：

数据：汽车价格数据（可能来自 UCI 或类似公开数据集），协变量为汽车特征（马力、重量、尺寸等），响应变量为价格。
怎么用：用非参数核回归估计条件期望（价格给定特征的函数），再构造 Shapley 曲线估计，用 wild bootstrap 做置信带。
结果：Shapley 曲线显示哪些特征对价格的影响最大（如马力为正贡献、重量为负贡献），置信带覆盖真值的比例与理论预测一致。
想说明什么：验证理论结论（minimax 速率与渐近正态性在有限样本下成立），展示 wild bootstrap 相比标准 bootstrap 的优势（低阶项覆盖更好）。

🔎 结论是否比证明窄： - 定理 1 的 minimax 速率在边际价值函数定义下严格证明，但作者在讨论中泛泛 claim 这个速率对"一般价值函数定义"也成立——未证明，且条件价值函数定义下的速率可能更慢（因需估条件分布）。 - 定理 3 的 wild bootstrap 修正只在 \(s > d/2\) 下证明，作者在模拟中尝试了 \(s\) 较小的情形，但未给出理论保证——这是泛泛 claim，未严格证明。

四、开放问题（点到为止，扎根具体语句）¶

条件价值函数下的 minimax 速率：本文在边际价值函数下证明速率 \(n^{-s/(2s+d)}\)，但条件价值函数（用 \(P_{X_{\bar{S}} \mid X_S}\)）下的速率是什么？可能更慢（因需估条件分布），也可能在特定平滑条件下同阶——扎根在作者对定理 1 的讨论："general value function definitions"。
低阶项与 HOIF 的同构：本文的低阶项展开（密度估计误差 × 条件期望值的交叉项）与半参数 HOIF 理论中的低阶项修正是否有数学同构？若同构，wild bootstrap 修正可能只是 HOIF 框架的特例——扎根在定理 3 的 bootstrap 权重构造（交叉项结构）与 HOIF 的余项展开。
\(s \leq d/2\) 下的推断：本文的渐近正态性与 bootstrap 推断只在 \(s > d/2\) 下成立（保证主项占优），\(s \leq d/2\) 时低阶项与主项同阶或占优，推断如何做？——扎根在定理 2 的必要条件 \(s > d/2\)。
高维 \(d\) 下的常数因子：Shapley 权重的叠加常数因子随 \(d\) 指数增长（\(2^d\) 个子集），本文的速率只看阶数不看常数——高维下常数因子是否使估计在有限样本下不可行？——扎根在定理 1 的速率证明（只给阶数，未给常数依赖 \(d\) 的具体界）。

提醒：要确认第 2 条是不是真 gap，去读 HOIF 文献（Robins et al. 2008, 2017）的 intro——如果它们也指向"条件期望泛函的低阶项修正"，则与本文是同源问题（真 gap：本文未引用 HOIF）；如果 HOIF 处理的泛函结构与 Shapley 曲线不同，则本文的低阶项展开是新贡献。

Maintained by 陈星宇 · Homepage · Source on GitHub

Shapley Curves: A Smoothing Perspective¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论