Moving beyond population variable importance: concept, theory and applications of individual variable importance¶

作者: Guorong Dai, Lingxuan Shao, Jinbo Chen
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssb/qkae115

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在非参数回归设定下，如何量化并推断某一协变量（或协变量子集）对结局变量的“关联强度”或“预测增益”，且这种量化不仅停留在总体平均水平上，而是能够精确到具有特定特征值的个体子群。当前该方向的成熟度处于“参数与半参数方法已有标准工具（如 ANOVA、部分依赖图、平均因果效应），但全非参数的个体级推断刚刚起步”的阶段——现有工具要么依赖模型正确设定，要么只给出总体平均量，缺乏对特定子群异质性的非参数刻画与严谨的渐近推断。

发展脉络： - 奠基工作：总体变量重要性的人口学奠基可追溯到 Fisher (1925) 的方差分析（ANOVA）与部分 R²，它们在参数线性模型下定义了协变量的总体贡献。这类工作留下了“只能刻画线性可加关系、严重依赖模型设定”的口子。 - 主要进展：为了摆脱线性设定，文献转向半参数与非参数的总体重要性度量。例如，Lehmann (1966) 提出基于秩的关联度量；Chen & Li (2009) 在非参数可加模型下定义了总体变量重要性；最近，Williamson et al. (2021) 与 Dai et al. (2022) 将总体变量重要性定义为 \(R^2\) 的差或比，并给出了非参数设定下的渐近性质。这些进展虽然摆脱了线性设定，但作者在 intro 中明确指出它们留下的口子：“Population-level VIM metrics average over the entire population, obscuring potentially substantial heterogeneity across subgroups... cannot answer whether a biomarker is useful for a specific subpopulation.” - 当前 frontier 与本文位置：当前 frontier 正从“总体平均”向“个体异质性”推移。在因果推断领域，个体因果效应的推断依赖于结构假设；而在纯关联/预测视角下，如何定义并推断个体级的变量重要性尚无严谨框架。本文正是填补这一口子：它首次在非参数回归下定义了“个体变量重要性”（一个条件均方误差比参数），并给出了全非参数估计量及其 \(n^{-1/2}\)-CAN 与渐近正态性质。

子线索聚类：被引文献大致落在三条子线索上： 1. 参数与半参数的总体 VIM：基于线性模型 / 可加模型的方差解释量（\(R^2\)、ANOVA）。这一簇在做“给定模型结构下，如何分解方差”，瓶颈是模型误设导致度量失效。 2. 非参数的总体 VIM：基于非参数回归的 \(R^2\) 差或比（Williamson et al. 2021; Dai et al. 2022）。这一簇在做“摆脱模型设定，在总体层面度量预测增益”，瓶颈是平均化掩盖了子群异质性。 3. 个体级异质性推断：因果推断中的条件平均因果效应（CATE）与交互效应估计。这一簇在做“给定处理与对照，如何推断特定子群的因果效应增量”，瓶颈是依赖强烈的因果假设（ignorability 等），且参数交互模型仍受误设困扰。

这个方向在追问的核心问题： 1. 如何定义一个不依赖模型设定的、反映协变量对特定子群预测增益的参数？ 2. 该参数在非参数设定下的识别条件是什么？ 3. 全非参数估计量能否达到 \(n^{-1/2}\) 收敛率并具有渐近正态性，从而支持个体级的严谨推断？ 4. 当变量间存在复杂非线性交互时，传统参数交互分析失效，非参数个体 VIM 能否捕捉这种关系？

⚠️ 作者的 framing： - 作者的说法：作者把缺口 frame 为“现有总体 VIM 掩盖了子群异质性，而参数交互分析依赖模型设定”，从而让“全非参数的个体 VIM”成为显然的下一步。 - 淡化或回避的竞争路线：intro 几乎没有讨论半参数方法（如部分线性模型、可加模型下的条件重要性），也没有讨论基于机器学习（如随机森林的 feature importance）的非理论推断路线。这些路线虽然也试图刻画异质性，但被作者以“模型误设”或“缺乏渐近理论”一笔带过。 - 明显该被引却未出现的：半参数效率界的奠基工作（如 Bickel et al. 1993; Robins et al. 2007 HOIF）未在 intro 出现——本文估计量涉及嵌套条件期望的估计，其半参数效率界与高阶影响函数理论是判断该估计量是否最优的直接参照，缺失这条引用意味着读者无法直接判断当前估计量的效率性质。此外，Dai et al. (2022) 是本文作者的前作，本文是其直接延伸，但 intro 对“为何不沿前作的半参数路线继续、而是转向全非参数”的交代不够清晰。

张力：未见明显对立引用。总体 VIM 与个体 VIM 并不矛盾，而是不同层面的度量；参数交互与非参数交互也不对立，而是强假设与弱假设的取舍。但存在一个隐含张力：Williamson et al. (2021) 与 Dai et al. (2022) 在总体 VIM 上已建立了非参数估计的渐近理论，而本文转向个体 VIM 时，条件期望的嵌套使得维数灾难更严重——作者声称全非参数估计可行，但未与半参数降维路线在效率或收敛率上做直接对比。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(Y\)：结局变量（连续随机变量）。
\(X\)：全部协变量向量（\(p\) 维），可拆分为 \(X_S\)（目标协变量子集，\(|S|=s\)）与 \(X_{-S}\)（剩余协变量，\(p-s\) 维）。
\(V\)：指定个体特征的协变量子集（\(V \subseteq X_{-S}\)，\(|V|=v\)），用于定义“具有什么特征的人”。
\(Z\)：\(X_{-S}\) 中不属于 \(V\) 的部分，即 \(X_{-S} = (V, Z)\)。
\(\mu(x)\)：真实条件均值函数 \(E[Y \mid X=x]\)。
\(\sigma^2(x)\)：真实条件方差 \(Var(Y \mid X=x)\)。
可观测数据：\((X_i, Y_i)\)，\(i=1,\dots,n\)，独立同分布。研究者能观测到全部协变量与结局，但无法观测潜在预测误差（只能通过条件期望计算）。
不可观测 / 需识别的量：个体变量重要性参数 \(\theta(v)\)（定义见下），它依赖于未知的条件均值 \(\mu\) 与条件方差 \(\sigma^2\)，需通过可观测数据的分布进行识别。

第二步：讲最小内核

剥掉所有高维与一般分布假设，取最简特例：\(X\) 为 2 维（\(X_1\) 为目标协变量，\(X_2\) 为指定特征），\(Y\) 为 1 维连续结局，无其他协变量（\(Z\) 为空）。

目标参数 \(\theta(v)\) 的定义：个体变量重要性被定义为两个条件均方误差（MSE）之比：
\[\theta(v) = \frac{MSE_{\text{reduced}}(v)}{MSE_{\text{full}}(v)}\]
其中：
\(MSE_{\text{full}}(v) = E[(Y - \mu(X_1, X_2))^2 \mid X_2=v]\)：给定 \(X_2=v\) 时，用全部协变量预测 \(Y\) 的 MSE。
\(MSE_{\text{reduced}}(v) = E[(Y - \mu_{-1}(X_2))^2 \mid X_2=v]\)：给定 \(X_2=v\) 时，去掉 \(X_1\) 后仅用 \(X_2\) 预测 \(Y\) 的 MSE，\(\mu_{-1}(x_2) = E[Y \mid X_2=x_2]\)。
核心数学问题：在此特例下，\(\theta(v)\) 退化为一个仅依赖 \(X_2=v\) 处条件分布的参数：
\[\theta(v) = \frac{E[\sigma^2(X_1, v) + (\mu(X_1, v) - \mu_{-1}(v))^2 \mid X_2=v]}{E[\sigma^2(X_1, v) \mid X_2=v]} = 1 + \frac{E[(\mu(X_1, v) - \mu_{-1}(v))^2 \mid X_2=v]}{E[\sigma^2(X_1, v) \mid X_2=v]}\]
这个式子一看就懂：\(\theta(v)-1\) 刻画的是“在 \(X_2=v\) 的人群中，知道 \(X_1\) 相比不知道 \(X_1\)，预测误差减少了多少比例”，它本质上是条件方差解释比例。
估计与推断的最小内核：要估计 \(\theta(v)\)，需估计三个嵌套的非参数条件期望：\(\mu(X_1, v)\)、\(\mu_{-1}(v)\)、\(\sigma^2(X_1, v)\)。本文的核心数学动作是：用核回归（或 sieve）估计这些条件均值，构造 plug-in 估计量 \(\hat{\theta}(v)\)，然后证明在适当的带宽（或 sieve 维数）选择下，\(\hat{\theta}(v)\) 是 \(n^{-1/2}\)-CAN（中心化渐近正态）且渐近方差可估，从而支持置信区间构造。 难点在哪：plug-in 估计量包含非参数条件均值估计的偏差，通常偏差是 \(O(h^2)\)（核带宽 \(h\)），而方差是 \(O(1/(nh^p))\)。要达到 \(n^{-1/2}\) 收敛，必须让偏差与方差同阶衰减，这要求 \(h\) 的选择满足特定平衡（undersmoothing），且渐近展开中交叉项的协方差结构需精确计算。

三、这篇论文做了什么¶

三句话： ①研究了在非参数回归下，如何定义并推断特定特征子群下某协变量对结局的个体级变量重要性。 ②核心工具是条件均方误差比参数，采用全非参数 plug-in 估计（核/sieve），并通过带宽/sieve 维数的 undersmoothing 控制偏差。 ③主要结论是：在适当光滑条件下，该全非参数估计量达到 \(n^{-1/2}\)-CAN 与渐近正态，且渐近方差有闭式或可估形式，模拟与真实数据（体形与收缩压的年龄异质性）验证了方法的鲁棒性与科学发现力。

关键设定与假设：在第二节最小记号基础上补全： - 设定：\((X_i, Y_i)\) i.i.d.，\(X \in \mathbb{R}^p\)，\(Y \in \mathbb{R}\)。目标子集 \(S\)，特征子集 \(V \subseteq X_{-S}\)，\(Z = X_{-S} \setminus V\)。 - 目标参数：

\[\theta(v) = \frac{E[(Y - \mu_{-S}(X_{-S}))^2 \mid V=v]}{E[(Y - \mu(X))^2 \mid V=v]}\]

其中 \(\mu_{-S}(x_{-S}) = E[Y \mid X_{-S}=x_{-S}]\)。 - 假设（逐条说明）： 1. 识别条件：\(\theta(v)\) 仅依赖 \((X, Y)\) 的联合分布，无需因果假设。统计含义：这是一个纯关联度量，只要联合分布可观测即可识别。 2. 光滑条件：\(\mu(x)\)、\(\mu_{-S}(x_{-S})\)、\(\sigma^2(x)\) 等条件函数具有足够阶数的的有界偏导数（如二阶连续可微）。统计含义：保证核/sieve 估计的偏差项可展开为 \(O(h^2)\) 或 \(O(K^{-2\alpha/d})\)（\(K\) 为 sieve 基函数个数，\(\alpha\) 为光滑阶），这是 undersmoothing 能奏效的前提。 3. 边界条件：\(V\) 的密度 \(f_V(v)\) 在 \(v\) 处有界且远离零。统计含义：避免核估计在边界点或低密度点处方差爆炸。 4. undersmoothing 条件：带宽 \(h\) 或 sieve 维数 \(K\) 的选择使得偏差项阶数低于 \(n^{-1/2}\)（如 \(h \sim n^{-1/(4+d)}\) 使得 \(h^2 = o(n^{-1/2})\)）。统计含义：这是达到 \(n^{-1/2}\)-CAN 的关键——牺牲偏差的最优收敛率，换取偏差项不干扰渐近分布的中心化。 5. 矩条件：\(Y\) 的条件四阶矩有界。统计含义：保证 \(\sigma^2\) 估计量的方差可控，以及渐近展开中高阶余项可忽略。 - 与已有文献对比：相比 Williamson et al. (2021) 的总体 VIM，本文参数从无条件期望变为条件期望，维数灾难更严重；相比参数交互模型，本文无需线性/可加设定，但代价是需 undersmoothing 且在高维时收敛率实际受限。

主要结果： - 定理（渐近正态性）：在上述光滑与 undersmoothing 条件下，

\[\sqrt{n}(\hat{\theta}(v) - \theta(v)) \xrightarrow{d} N(0, \sigma^2_{\theta}(v))\]

其中 \(\hat{\theta}(v)\) 是基于核或 sieve 的 plug-in 估计量，\(\sigma^2_{\theta}(v)\) 是可估的渐近方差。直觉：虽然 \(\hat{\theta}(v)\) 是非参数条件均值估计的复杂非线性函数，但由于 \(\theta(v)\) 对条件均值是光滑可微的，且 undersmoothing 消除了非参数偏差，plug-in 估计量的渐近分布由一阶线性展开（Delta method）主导，从而回到参数式的 \(n^{-1/2}\) 收敛与正态性。 必要条件：undersmoothing 是硬条件——若带宽取最优收敛率（如 \(h \sim n^{-1/(4+d)}\) 的最优平衡），偏差项为 \(O(n^{-2/(4+d)})\)，当 \(d>4\) 时偏差阶数高于 \(n^{-1/2}\)，渐近分布将非正态且中心化失败。 解决的技术难点：嵌套条件期望估计量在 Delta method 展开中的协方差结构计算——\(\hat{\theta}(v)\) 涉及 \(\hat{\mu}\)、\(\hat{\mu}_{-S}\)、\(\hat{\sigma}^2\) 的交叉项，需精确推导这些非参数估计量在条件 \(V=v\) 处的联合影响函数。

证明路线与技术技巧： - 整体路线： 1. 识别与分解：将 \(\theta(v)\) 表达为 \(\mu\)、\(\mu_{-S}\)、\(\sigma^2\) 与 \(f_V\) 的显式函数，确认其仅依赖可观测分布。 2. 构造 plug-in 估计量：用核回归（Nadaraya-Watson）或 sieve（多项式/样条基）估计 \(\hat{\mu}\)、\(\hat{\mu}_{-S}\)、\(\hat{\sigma}^2\)，代入 \(\theta(v)\) 的公式得 \(\hat{\theta}(v)\)。 3. 一阶展开：对 \(\hat{\theta}(v)\) 在真实条件均值处做 Taylor 展开，提取一阶线性项（影响函数），将余项控制为 \(o_p(n^{-1/2})\)。 4. 偏差-方差平衡：通过 undersmoothing 条件，证明非参数估计的偏差项在展开中被吸收到 \(o_p(n^{-1/2})\)，而方差项通过中心极限定理给出 \(n^{-1/2}\) 主导。 5. 渐近方差计算：计算一阶线性项的方差，证明其可估（用残差与核权重的经验协方差构造方差估计量）。 - 关键跳跃点： - 余项控制：最吃功夫的引理是证明 Taylor 展开的二阶及更高阶余项为 \(o_p(n^{-1/2})\)。难点在于非参数估计量的二阶余项涉及 \((\hat{\mu}-\mu)^2\) 等项，其阶数为 \(O_p(1/(nh^p) + h^4)\)，在 undersmoothing 下方差部分为 \(O_p(n^{-1/2} h^{-p/2})\)，需 \(h\) 足够小使得 \(h^{-p/2} = o(n^{1/2})\) 且 \(h^2 = o(n^{-1/2})\) 同时成立——这要求 \(p\) 不能太大（隐含了维数灾难的约束）。 - 条件 CLT：在 \(V=v\) 处，核估计量的权重是局部化的（仅落在带宽内的样本起作用），需用条件中心极限定理处理这种局部加权平均的渐近正态性。 - 技术技巧点名： 1. Delta method / 一阶影响函数展开：用于将非线性参数 \(\theta(v)\) 的估计量线性化，提取渐近方差的主导项。 2. Undersmoothing：非参数估计中故意选取次优带宽，使得偏差项衰减快于 \(n^{-1/2}\)，从而让渐近分布由方差项主导。这是半参数推断中的经典技巧（如 Newey 1994），本文将其应用于条件期望比参数。 3. Nadaraya-Watson 核回归 / Sieve 估计：用于构造条件均值的 plug-in 估计量，论文分别给出了两种估计路线的完整渐近理论。 4. 条件矩展开：在推导渐近方差时，需计算 \(E[(Y-\mu(X))^2 (Y-\mu_{-S}(X_{-S}))^2 \mid V=v]\) 等交叉条件矩，涉及条件协方差的分解。

真实例子与应用： - 数据：体形与收缩压的真实数据集（具体来源论文中给出，涉及中老年人群的生理指标）。 - 怎么用上去：将体形指标作为目标协变量 \(X_S\)，年龄作为指定特征 \(V\)，收缩压作为结局 \(Y\)，估计 \(\theta(age)\)——即在不同年龄下，体形对收缩压预测增益的比例。 - 结果：\(\theta(age)\) 随年龄增大而下降，即体形对收缩压的关联强度在老年人群中减弱。这与医学文献中基于参数交互回归的发现一致，但本文方法无需假设线性交互，且在存在复杂非线性关系时更可靠。 - 想说明什么：验证全非参数方法能捕捉参数交互分析可能遗漏的异质性关联，同时展示 \(\theta(v)\) 的科学解释力。

🔎 结论是否比证明窄： - 论文在定理中严格证明了 undersmoothing 条件下的 \(n^{-1/2}\)-CAN，但在讨论中泛泛 claim 该方法“可应用于高维设定”——证明路线中隐含了 \(p\) 不能太大的约束（undersmoothing 要求 \(h^{-p/2} = o(n^{1/2})\) 与 \(h^2 = o(n^{-1/2})\) 同时成立，这在 \(p>4\) 时对样本量要求极高），这一约束在定理陈述中未显式量化，而在应用部分被淡化。研究者需注意：定理的 \(n^{-1/2}\) 结论在 \(p\) 较大时实际可行性受限，这是“结论比证明窄”的典型信号。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界与最优估计：本文的 plug-in 估计量是否达到 \(\theta(v)\) 在非参数 nuisance 函数下的半参数效率界？当前估计量的渐近方差是否可被改进（如通过 one-step correction / debiased ML）？——扎根在本文未引用 Bickel et al. (1993) 或 HOIF 文献，且未讨论效率界。
高维设定下的收敛率与 minimax 界：当 \(p\) 较大时，undersmoothing 条件对 \(n\) 的要求使得 \(n^{-1/2}\)-CAN 实际不可行，此时 \(\theta(v)\) 的最优收敛率是什么？当前核估计是否 minimax optimal？——扎根在定理的 undersmoothing 条件隐含 \(p\) 约束，而应用部分泛泛 claim 高维适用。
无 undersmoothing 的推断：能否在不牺牲偏差收敛率（即取最优带宽）的情况下构造置信区间（如通过 bias-corrected bootstrap / HOIF debiasing）？——扎根在本文完全依赖 undersmoothing，未探讨偏差修正路线。
\(V\) 为连续高维时的局部化推断：当 \(V\) 维数 \(v\) 较大时，\(f_V(v)\) 的局部估计方差爆炸，\(\theta(v)\) 的推断是否可行？是否需对 \(V\) 做半参数降维？——扎根在边界条件假设 \(f_V(v)\) 远离零，未讨论 \(V\) 高维时的修正。

提醒：要确认第 1 条（效率界）是否真 gap，去读近期 5 篇非参数条件均值比参数的半参数推断 intro——若都指向“plug-in 不效率、需 one-step / debiasing”，则是共识真 gap；若互相打架（有人证明 plug-in 已效率），则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Moving beyond population variable importance: concept, theory and applications of individual variable importance¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论