跳转至

Shapley Curves: A Smoothing Perspective

作者: Ratmir Miftachov, Georg Keilbar, Wolfgang Karl Härdle
来源: Journal of Business & Economic Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向试图将机器学习中用于解释黑箱模型的"Shapley 值"从一种有限样本的算法输出,提升为一种群体水平的非参数 estimand(即存在一个真实的数据生成过程所决定的、不可观测的"真值"),并为其建立严格的统计推断理论(收敛速率、渐近分布、置信区间)。当前该方向的成熟度处于" estimand 刚被定义、基本收敛速率刚被建立、低阶项推断刚被触及"的早期阶段——大量机器学习文献把 Shapley 值当算法用,但几乎不谈它的统计误差与不确定性;少数统计文献开始谈误差,但多在参数/半参数设定下,非参数设定下的 minimax 理论与低阶项推断仍是缺口。

发展脉络: - 奠基工作(Shapley 值进入机器学习):Lundberg & Lee (2017) 提出 SHAP,将合作博弈论中的 Shapley 值引入黑箱模型解释,把特征贡献当成"玩家收益"来分配。作者在 intro 中指出,这类工作把 Shapley 值当作"局部解释的算法工具",完全回避了其背后的统计不确定性(引用句:"limited statistical understanding")。 - 主要进展(从算法到统计 estimand): - Covert & Lee (2021) 等开始探讨 Shapley 值的随机估计误差,但仍在"给定模型"的框架下,未将其视为由数据生成过程决定的群体参数。 - Frye et al. (2020) 与 Merticko et al. (2020) 等开始把 Shapley 值与条件期望联系起来,意识到它依赖于协变量分布,但未给出收敛理论。 - 在半参数/参数方向,Bühlmann et al. 等人近年有将变量重要性定义为群体参数的工作,但多假设线性或低维结构,未触及非参数平滑的 minimax 速率。 - 当前 frontier(非参数推断与低阶项): - 非参数设定下,Shapley 值的估计涉及多重条件期望函数的组合,其误差结构如何叠加、minimax 速率由什么决定,此前未有结果。 - 低阶项(lower-order terms)的推断:半参数理论中 HOIF(Higher-Order Influence Functions)专门处理低阶项,但 Shapley 曲线这类由多重条件期望组合而成的 estimand,其低阶项的 bootstrap 覆盖此前未被解决。 - 本文的位置:本文首次在非参数设定下把 Shapley 值定义为群体 estimand(Shapley 曲线),推导了 minimax 收敛速率与渐近正态性,并针对低阶项提出了一种 wild bootstrap 新变体。

子线索聚类: 1. 算法与可解释性线索(Lundberg & Lee 2017; Covert & Lee 2021):把 Shapley 值当算法,追求计算速度与局部解释一致性,不谈统计误差。 2. 群体参数化线索(Frye et al. 2020; Merticko et al. 2020; 近年 Bühlmann 等的半参数工作):意识到 Shapley 值应由数据生成过程决定,开始往 estimand 方向走,但多在参数/半参数设定下,速率与低阶项推断未触及。 3. 非参数平滑与 minimax 理论线索(本文独占):在非参数设定下定义 estimand,推导 minimax 速率与渐近分布,处理低阶项推断。

这个方向在追问的核心问题: 1. Shapley 值作为群体 estimand,其非参数 minimax 收敛速率由什么决定?是条件期望函数的平滑度,还是协变量分布的维数灾难? 2. 估计 Shapley 曲线时,多重条件期望函数的估计误差如何叠加?低阶项在渐近分布中扮演什么角色? 3. 如何在有限样本下对 Shapley 曲线做推断(置信带/区间),特别是如何捕捉低阶项的不确定性?

⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 为"Shapley 值缺乏统计理解",好让自己这篇"定义 estimand + 推 minimax 速率 + 给 bootstrap 推断"成为"显然的下一步"。 - 被淡化的竞争路线:半参数方向的变量重要性定义(如 Bühlmann 等的近期工作)在 intro 中几乎未被对比,作者直接跳到非参数设定,回避了"半参数设定下是否已有更优速率/更有效推断"的讨论。 - 明显该被引却未出现的:半参数效率理论中的 HOIF(Higher-Order Influence Functions)文献(如 Robins et al. 2008, 2017 系列)——本文处理的低阶项问题与 HOIF 的数学结构高度同源(都是条件期望的嵌套/组合的余项),但 intro 与 bibliography 中未见 HOIF 文献。这是值得研究者去查的问题:作者的低阶项 wild bootstrap 与 HOIF 的低阶项修正是否有数学上的同构?如果是,本文的 bootstrap 可能只是 HOIF 框架的一个特例实现,而非新理论。

张力: 未见明显对立引用。算法线索与群体参数化线索之间有"视角张力"(前者视 Shapley 值为算法输出,后者视为 estimand),但无数学结论上的矛盾。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • \(X \in \mathbb{R}^d\):协变量(随机向量),分布为 \(P_X\)
  • \(Y \in \mathbb{R}\):响应变量(随机变量)。
  • \(S \subseteq \{1, \ldots, d\}\):特征子集( coalition)。
  • \(X_S\)\(X\) 中指标在 \(S\) 内的子向量;\(X_{\bar{S}}\):补集子向量。
  • \(\mu(x) = E[Y \mid X = x]\):条件期望函数(非参数函数,本文的核心平滑对象)。
  • \(\phi_j(x)\):特征 \(j\) 在点 \(x\) 的 Shapley 值(群体 estimand,本文称为 Shapley 曲线在点 \(x\) 的值)。
  • \(v(S, x)\):特征子集 \(S\) 在点 \(x\) 的价值函数(value function),定义为 \(E[\mu(X_S, X_{\bar{S}}) \mid X_j = x_j]\) 或类似条件期望组合——具体定义见下文模型部分。
  • \(\hat{\mu}\)\(\mu\) 的非参数估计(如核回归、局部多项式)。
  • \(\hat{\phi}_j(x)\):基于 \(\hat{\mu}\) 构造的 Shapley 曲线估计。
  • \(n\):样本量;\(h\):平滑参数(带宽);\(s\)\(\mu\) 的平滑度(如 Hölder 指数)。

  • 模型: 数据生成机制:\((X, Y) \sim P\),其中 \(P\) 未知但满足平滑条件(\(\mu\) 属于 Hölder 类 \(\mathcal{H}(s, L)\)\(s > 0\) 为平滑度,\(L\) 为 Lipschitz 常数)。\(X\) 的分布 \(P_X\) 有密度且支撑集满足边界条件。要估的对象是 Shapley 曲线 \(\phi_j(x)\),它由 \(\mu\)\(P_X\) 共同决定(不是自由参数,而是 \(\mu\)\(P_X\) 的泛函)。

  • 可观测数据: 研究者实际能观测到的是 \(\{(X_i, Y_i)\}_{i=1}^n\)——iid 样本。\(\mu\)\(P_X\) 不可直接观测,只能通过非参数平滑从样本中估计。Shapley 曲线 \(\phi_j(x)\) 作为 \(\mu\)\(P_X\) 的泛函,更是不可观测,必须通过估计 \(\hat{\mu}\)\(\hat{P}_X\)(或其函数)来间接构造 \(\hat{\phi}_j(x)\)

第二步:最小内核——\(d=2\)、线性 \(\mu\) 的特例

整篇论文的数学本质是"多重条件期望泛函的估计误差叠加与低阶项推断"。支撑这个本质的最小内核是 \(d=2\)(两个特征)、\(\mu\) 为线性的特例。在这个特例下,Shapley 曲线退化成线性系数的简单组合,多重条件期望的嵌套消失,但低阶项的结构仍然可见——一般情形只是在此基础上的"维数灾难 + 非参数平滑 + 嵌套条件期望"加壳。

\(d=2\) 线性特例: 设 \(d=2\)\(X = (X_1, X_2)\)\(\mu(x) = \beta_1 x_1 + \beta_2 x_2\)(线性,平滑度 \(s = \infty\))。

  • 价值函数:对特征 1,子集只有 \(\emptyset\)\(\{1\}\)
  • \(v(\emptyset, x) = E[\mu(X) \mid X_1 = x_1] = \beta_1 x_1 + \beta_2 E[X_2 \mid X_1 = x_1]\)(若 \(X_1, X_2\) 独立,则 \(= \beta_1 x_1 + \beta_2 E[X_2]\))。
  • \(v(\{1\}, x) = \mu(x) = \beta_1 x_1 + \beta_2 x_2\)

  • Shapley 值\(\phi_1(x) = \frac{1}{2}[v(\{1\}, x) - v(\emptyset, x)] + \frac{1}{2}[v(\{1, 2\}, x) - v(\{2\}, x)]\) 在线性 + 独立下: \(\phi_1(x) = \frac{1}{2}[\beta_1 x_1 + \beta_2 x_2 - (\beta_1 x_1 + \beta_2 E[X_2])] + \frac{1}{2}[\beta_1 x_1 + \beta_2 x_2 - (\beta_2 x_2 + \beta_1 E[X_1])]\) \(= \beta_1 (x_1 - E[X_1])\)

  • 估计:用样本均值估 \(E[X_1]\),得 \(\hat{\phi}_1(x) = \beta_1 (x_1 - \bar{X}_1)\)。若 \(\beta_1\) 也需估计,则 \(\hat{\phi}_1(x) = \hat{\beta}_1 (x_1 - \bar{X}_1)\)

  • 误差结构\(\hat{\phi}_1(x) - \phi_1(x) = (\hat{\beta}_1 - \beta_1)(x_1 - \bar{X}_1) - \beta_1(\bar{X}_1 - E[X_1])\)。主项是 \((\hat{\beta}_1 - \beta_1)(x_1 - E[X_1])\)(参数估计误差乘固定量),低阶项是 \(-\beta_1(\bar{X}_1 - E[X_1])\)(均值估计误差乘参数)。低阶项的方差为 \(\beta_1^2 \text{Var}(X_1)/n\),在渐近分布中通常被主项淹没,但在有限样本或 \(x_1\) 靠近 \(E[X_1]\) 时不可忽略。

一般情形的加壳:当 \(d\) 增大、\(\mu\) 变为非参数时: 1. 价值函数 \(v(S, x)\) 变成多重条件期望的嵌套组合(对每个 \(S\),要估 \(E[\mu(X_S, X_{\bar{S}}) \mid X_S = x_S]\)),误差叠加的阶数随 \(d\) 指数增长(Shapley 值定义中的 \(2^d\) 个子集)。 2. \(\mu\) 的非参数估计误差速率从 \(n^{-1/2}\)(参数)退化为 \(n^{-s/(2s+d)}\)(非参数 minimax 速率),且每个条件期望的估计都引入这个速率。 3. 低阶项不再是简单的均值误差,而是"条件期望估计误差 × 协变量密度估计误差"的交叉项,其结构更复杂,wild bootstrap 需要专门适配。

核心数学问题:在非参数设定下,Shapley 曲线估计 \(\hat{\phi}_j(x)\) 的 minimax 速率是什么?低阶项在渐近分布中的贡献如何被 bootstrap 捕捉?


三、这篇论文做了什么

三句话: ①研究了非参数设定下 Shapley 值作为群体 estimand(Shapley 曲线)的统计推断问题; ②核心工具是非参数平滑(核/局部多项式估计条件期望)+ 误差叠加分析 + wild bootstrap; ③主要结论是给出了 Shapley 曲线估计的 minimax 收敛速率 \(n^{-s/(2s+d)}\)(与条件期望估计的 minimax 速率同阶)、渐近正态性、以及适配低阶项的 wild bootstrap 推断方法。

关键设定与假设

在第二节最小记号基础上补全:

  • Shapley 曲线的定义:对特征 \(j\),在点 \(x\)\(\phi_j(x) = \sum_{S \subseteq \{1,\ldots,d\} \setminus \{j\}} \frac{1}{d \binom{d-1}{|S|}} [v(S \cup \{j\}, x) - v(S, x)]\), 其中价值函数 \(v(S, x)\) 定义为条件期望泛函: \(v(S, x) = E[\mu(X_S, X_{\bar{S}}) \mid X_S = x_S]\)。 这里 \(\mu(X_S, X_{\bar{S}})\) 是把 \(X_S\) 固定为 \(x_S\)\(X_{\bar{S}}\) 保持随机时的条件期望值——注意\(X_{\bar{S}}\) 的分布是边际分布 \(P_{X_{\bar{S}}}\)(而非条件分布 \(P_{X_{\bar{S}} \mid X_S}\)),这是作者选择的"边际价值函数"定义(与 Lundberg & Lee 的 SHAP 一致),区别于"条件价值函数"(用 \(P_{X_{\bar{S}} \mid X_S}\))。

  • 假设

  • H1(平滑度)\(\mu \in \mathcal{H}(s, L)\),Hölder 类,平滑度 \(s > d/2\)(保证 minimax 速率快于 \(n^{-1/4}\),使得渐近正态性的主项占优)。
  • H2(协变量分布)\(P_X\) 有密度 \(f_X\)\(f_X\) 连续且在支撑集上远离零(避免边界效应),支撑集为 \(\mathbb{R}^d\) 或紧集且边界条件满足核回归的边界修正要求。
  • H3(价值函数定义):采用边际价值函数(marginal value function),即 \(X_{\bar{S}}\) 的分布为边际分布 \(P_{X_{\bar{S}}}\)——统计含义:这避免了估计条件分布 \(P_{X_{\bar{S}} \mid X_S}\) 的困难(条件分布估计的 minimax 速率更慢),但也引入了"外生性假设"(\(X_S\)\(X_{\bar{S}}\) 独立时边际与条件等价,否则不等价,Shapley 曲线的解释力受协变量相关性影响)。
  • H4(带宽选择)\(h \asymp n^{-1/(2s+d)}\)(minimax 最优带宽)。
  • 相比已有文献:本文首次在非参数设定下给出 minimax 速率,此前文献多在参数/半参数设定下(速率 \(n^{-1/2}\))或只谈算法不谈速率;H3 的边际价值函数选择与 SHAP 一致,但回避了条件价值函数路线(后者估计更难但因果解释更强)。

主要结果

  • 定理 1(Minimax 收敛速率): 在 H1-H4 下,Shapley 曲线估计 \(\hat{\phi}_j(x)\) 的 minimax 收敛速率为 \(n^{-s/(2s+d)}\)——与单变量条件期望 \(\mu\) 的 minimax 速率同阶。 直觉:Shapley 曲线是条件期望泛函的线性组合,每个条件期望的估计误差速率都是 \(n^{-s/(2s+d)}\),线性组合不改变速率阶数(只是常数因子增大,因子随 \(d\) 指数增长但被 Shapley 权重的对称性部分抵消)。 必要条件\(s > d/2\)(保证主项占优);边际价值函数定义(避免条件分布估计的更慢速率)。 解决的技术难点:证明速率不因多重条件期望的嵌套而退化——关键在于边际价值函数下,每个条件期望的估计误差是独立的(不嵌套),叠加只是线性组合。

  • 定理 2(渐近正态性): 在 H1-H4 下,\(\sqrt{n h^d} (\hat{\phi}_j(x) - \phi_j(x)) \overset{d}{\to} N(0, \sigma^2(x))\),其中 \(\sigma^2(x)\) 由条件期望估计的渐近方差与 Shapley 权重决定。 直觉:主项是条件期望估计误差的线性组合,每个条件期望估计渐近正态,线性组合仍正态。 低阶项:渐近分布中低阶项(带宽选择偏差 \(h^s\)、协变量密度估计误差等)在 \(s > d/2\) 下被主项淹没,但在有限样本下不可忽略——这是定理 3 的动机。

  • 定理 3(Wild Bootstrap 推断): 提出一种 wild bootstrap 新变体,专门捕捉 Shapley 曲线估计中的低阶项。在 H1-H4 下,bootstrap 分布与真实分布的差在 \(o_p(n^{-s/(2s+d)})\) 阶内一致。 直觉:标准 wild bootstrap 只捕捉主项(条件期望估计的方差),低阶项(带宽偏差、密度估计误差)在 bootstrap 重采样中被丢失——本文的变体通过在 bootstrap 权重中引入与带宽/密度估计相关的修正项,使低阶项也被重采样。 解决的技术难点:低阶项的结构是"条件期望估计误差 × 协变量密度估计误差"的交叉项,标准 wild bootstrap 的 Rademacher/Mammen 权重无法生成这种交叉结构——本文的修正权重是核函数与密度估计的函数,使得 bootstrap 样本中低阶项的方差与真实样本一致。

证明路线与技术技巧

  • 整体路线
  • 定义 estimand:把 Shapley 值写成条件期望泛函的线性组合(Shapley 曲线)。
  • 拆解估计误差\(\hat{\phi}_j(x) - \phi_j(x) = \sum_{S} w_S (\hat{v}(S, x) - v(S, x))\),其中 \(w_S\) 是 Shapley 权重,\(\hat{v}(S, x)\) 是条件期望估计。
  • 分析每个条件期望估计误差:对每个 \(S\)\(\hat{v}(S, x) - v(S, x)\) 拆成主项(核回归的渐近正态项)+ 低阶项(带宽偏差 + 密度估计误差)。
  • 叠加:主项线性组合仍正态,速率 \(n^{-s/(2s+d)}\);低阶项在 \(s > d/2\) 下被主项淹没。
  • Bootstrap 修正:在 wild bootstrap 权重中加入低阶项修正,使 bootstrap 分布覆盖低阶项。

  • 关键跳跃点

  • 引理:条件期望估计误差的拆解——把 \(\hat{v}(S, x) - v(S, x)\) 拆成主项(核权重的线性组合)+ 低阶项(带宽偏差 + 密度估计误差 × 条件期望值)。这个拆解是整篇证明的基石,低阶项的具体表达式决定了 bootstrap 修正权重的构造。
  • 难点:低阶项中"密度估计误差 × 条件期望值"的交叉项——标准核回归理论只给出条件期望估计的渐近正态性(主项),低阶项的精确表达式通常被扔进 \(o_p\) 余项;本文需要把低阶项精确展开到 \(O_p(h^s + n^{-1/2} h^{-d/2})\) 阶,才能构造 bootstrap 修正。

  • 技术技巧点名

  • 核回归渐近展开:用局部多项式核回归的条件期望估计,展开到主项 + 低阶项(带宽偏差 + 密度误差交叉项)——用在哪:引理的条件期望误差拆解。
  • Shapley 权重的对称性:利用 Shapley 值定义中权重的对称性(\(\frac{1}{d \binom{d-1}{|S|}}\)),简化多重条件期望叠加的常数因子——用在哪:定理 1 的速率证明,说明叠加不改变速率阶数。
  • Wild bootstrap 权重修正:在标准 Rademacher/Mammen 权重上乘以核函数与密度估计的函数,生成低阶项的交叉结构——用在哪:定理 3 的 bootstrap 推断。
  • Empirical process / U-statistic 理论:用于控制 Shapley 曲线估计中多重条件期望叠加的余项一致性——用在哪:定理 2 的渐近正态性证明,保证主项的线性组合收敛。

真实例子与应用

  • 数据:汽车价格数据(可能来自 UCI 或类似公开数据集),协变量为汽车特征(马力、重量、尺寸等),响应变量为价格。
  • 怎么用:用非参数核回归估计条件期望(价格给定特征的函数),再构造 Shapley 曲线估计,用 wild bootstrap 做置信带。
  • 结果:Shapley 曲线显示哪些特征对价格的影响最大(如马力为正贡献、重量为负贡献),置信带覆盖真值的比例与理论预测一致。
  • 想说明什么:验证理论结论(minimax 速率与渐近正态性在有限样本下成立),展示 wild bootstrap 相比标准 bootstrap 的优势(低阶项覆盖更好)。

🔎 结论是否比证明窄: - 定理 1 的 minimax 速率在边际价值函数定义下严格证明,但作者在讨论中泛泛 claim 这个速率对"一般价值函数定义"也成立——未证明,且条件价值函数定义下的速率可能更慢(因需估条件分布)。 - 定理 3 的 wild bootstrap 修正只在 \(s > d/2\) 下证明,作者在模拟中尝试了 \(s\) 较小的情形,但未给出理论保证——这是泛泛 claim,未严格证明。


四、开放问题(点到为止,扎根具体语句)

  1. 条件价值函数下的 minimax 速率:本文在边际价值函数下证明速率 \(n^{-s/(2s+d)}\),但条件价值函数(用 \(P_{X_{\bar{S}} \mid X_S}\))下的速率是什么?可能更慢(因需估条件分布),也可能在特定平滑条件下同阶——扎根在作者对定理 1 的讨论:"general value function definitions"。
  2. 低阶项与 HOIF 的同构:本文的低阶项展开(密度估计误差 × 条件期望值的交叉项)与半参数 HOIF 理论中的低阶项修正是否有数学同构?若同构,wild bootstrap 修正可能只是 HOIF 框架的特例——扎根在定理 3 的 bootstrap 权重构造(交叉项结构)与 HOIF 的余项展开。
  3. \(s \leq d/2\) 下的推断:本文的渐近正态性与 bootstrap 推断只在 \(s > d/2\) 下成立(保证主项占优),\(s \leq d/2\) 时低阶项与主项同阶或占优,推断如何做?——扎根在定理 2 的必要条件 \(s > d/2\)
  4. 高维 \(d\) 下的常数因子:Shapley 权重的叠加常数因子随 \(d\) 指数增长(\(2^d\) 个子集),本文的速率只看阶数不看常数——高维下常数因子是否使估计在有限样本下不可行?——扎根在定理 1 的速率证明(只给阶数,未给常数依赖 \(d\) 的具体界)。

提醒:要确认第 2 条是不是真 gap,去读 HOIF 文献(Robins et al. 2008, 2017)的 intro——如果它们也指向"条件期望泛函的低阶项修正",则与本文是同源问题(真 gap:本文未引用 HOIF);如果 HOIF 处理的泛函结构与 Shapley 曲线不同,则本文的低阶项展开是新贡献。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论