Variable importance measures for heterogeneous treatment effects¶

作者: Oliver J Hines, Karla Diaz-Ordaz, Stijn Vansteelandt
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在因果推断中，当我们利用机器学习方法估计出条件平均处理效应（CATE）后，得到的往往是一个高度非参数化、难以解释的“黑箱”函数。科学实践（如精准医疗）不仅需要预测个体效应大小，更需要回答“哪些协变量驱动了处理效应的异质性”。该方向旨在为异质性因果效应提供非参数的、算法无关的变量重要性度量与推断框架。当前成熟度处于“框架提出与半参数有效估计刚建立，与机器学习结合的实证验证初步完成”的阶段。

发展脉络 将 intro 引用的工作串成一条线： - 奠基工作（CATE 估计与异质性发现）：早期工作聚焦于如何发现异质性。Athey & Imbens (2016) 与 Wager & Athey (2018) 提出因果树与因果森林，首次为 CATE 提供了点估计与渐近正态的置信区间；Künzel et al. (2019) 提出元学习器框架，将 CATE 估计解耦为任意 ML 回归器的组合；Kennedy (2023) 提出 DR-learner，基于伪结果给出了双重稳健的 CATE 误差界。这些工作留下了口子：能估 CATE，但无法量化哪个变量重要。 - 主要进展（回归 VIM 与算法无关框架）：为了解决变量重要性，Williamson et al. (2021, 2023) 借鉴 ANOVA 思想，在回归设定下提出了非参数的、算法无关的 VIM，定义为“移除某变量后总体预测风险的增加量”，并给出了基于有效影响函数的半参数有效估计与推断。这留下了口子：这些 VIM 针对的是回归预测风险，而非因果处理效应风险。 - 当前 frontier（因果 VIM 与可解释性）：Levy et al. (2021) 尝试定义处理效应异质性的基本度量（如处理效应方差），但未直接解决“移除某协变量后异质性损失多少”的 VIM 问题；同时，可解释 AI 领域的 SHAP（Lundberg & Lee, 2017）与 LIME（Ribeiro et al., 2016）被广泛用于特征归因，但 Janzing et al. (2019) 与 Chen et al. (2020) 指出，SHAP 在存在混杂时因使用观测条件期望而非干预条件期望，会给出误导性的因果归因。这留下了口子：需要一种具有明确因果语义（基于潜在结果）的非参数 VIM。 - 本文的位置：本文填补了“因果语义”与“回归 VIM”之间的缺口，将 Williamson 的回归 VIM 思想移植到 CATE 均方误差上，定义了 TE-VIM，并推导了可与任何 CATE 元学习器结合的半参数有效估计量。

子线索聚类 被引文献大致落在三条子线索上： 1. CATE 估计线索：关注如何灵活、稳健地估计 \(\tau(x)\)。包括因果森林（Athey et al., 2019; Wager & Athey, 2018）、元学习器（Künzel et al., 2019; Nie & Wager, 2021）、双重稳健学习（Kennedy, 2023）。这一簇在做：打破参数模型限制，用 ML 降偏差。 2. 非参数 VIM 线索：关注如何不依赖特定模型定义与推断变量重要性。包括 Williamson 等人的系列工作（2020, 2021, 2023），以及 Shapley 值的统计推广（Owen & Prieur, 2017; Williamson & Feng, 2020）。这一簇在做：定义总体水平的、算法无关的预测风险差，并做半参数有效推断。 3. 因果可解释性线索：关注 XAI 方法在因果设定下的局限与修正。包括 SHAP/LIME（Lundberg & Lee, 2017; Ribeiro et al., 2016），以及对其因果混淆的批判（Janzing et al., 2019; Chen et al., 2020）。这一簇在做：区分“对模型忠实”与“对数据忠实”，强调干预分布的因果语义。

核心追问与已知瓶颈 - 追问 1：如何定义一个既有明确因果语义（基于潜在结果），又能在非参数模型下被识别的变量重要性度量？ - 瓶颈：直接度量个体效应 \(Y_1-Y_0\) 的预测误差涉及潜在结果的联合分布，在无强假设下不可识别（Levy et al., 2021; Ding et al., 2016）。 - 追问 2：如何在不依赖特定 ML 算法（如随机森林内置的 Gini 重要性）的情况下，对 VIM 进行有效的统计推断（置信区间与假设检验）？ - 瓶颈：算法内置 VIM 不可跨算法比较，且常因变量尺度/类别数产生偏倚（Strobl et al., 2007）。 - 追问 3：当 VIM 估计依赖 ML 纠偏时，如何控制经验过程项的偏差？ - 瓶颈：ML 纠偏项的收敛速率若不够快，或落入 Donsker 类条件不满足，会导致推断失效（Newey & Robins, 2018; Hines et al., 2022）。

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“现有 CATE 估计是黑箱，缺乏对异质性驱动因素的洞察”，并强调“回归 VIM 没有因果语义，SHAP 有因果混淆”，从而让“基于 CATE 预测 MSE 的非参数 TE-VIM”成为显然的下一步。 - 淡化或回避的竞争路线：Intro 几乎未讨论基于参数/半参数模型交互项的推断（如 Lu et al., 2011 的惩罚回归框架，虽在参考文献中但 intro 未展开），也未深入比较直接对 CATE 函数做方差分解（Levy et al., 2021）与本文 MSE 差的优劣。此外，对 SHAP 的讨论停留在“因果混淆”，回避了 SHAP 在高维计算上的工程优势。 - 明显该被引却缺失的：半参数效率界的通用理论推导（如 Bickel et al., 1993 的经典教材，或更近的 Tsiatis, 2006），本文直接用了 EIF 但未引通用理论源头；高维 VIM 的变量选择一致性工作（如基于 VIM 的筛选方法），本文只做推断未做选择，这可能是刻意回避。

张力未见明显对立引用。Williamson 的回归 VIM 与 SHAP 的归因在“干预分布 vs 观测分布”上有概念张力，但本文通过采用潜在结果框架统一站到了“干预分布”一侧，未在引用中呈现直接对立的实证结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(X \in \mathbb{R}^p\)：观测到的基线协变量向量。
\(A \in \{0, 1\}\)：二值处理变量。
\(Y \in \mathbb{R}\)：观测到的连续或离散结果变量。
\(Y^a\)：潜在结果，若处理被设为 \(a\) 时的结果。
\(\tau(x) = E[Y^1 - Y^0 | X = x]\)：条件平均处理效应（CATE），本文的核心目标函数。
\(s \subseteq \{1, ..., p\}\)：协变量的某个子集索引；\(-s\) 为其补集。
\(X_s, X_{-s}\)：对应子集与补集的协变量向量。
\(\tau_s(x_{-s}) = E[Y^1 - Y^0 | X_{-s} = x_{-s}]\)：移除子集 \(s\) 后，仅用剩余协变量条件化的 CATE。
\(\Theta_s\)：本文定义的 TE-VIM（处理效应变量重要性度量）。
\(\pi(x) = P(A=1|X=x)\)：倾向得分。
\(m_a(x) = E[Y|A=a, X=x]\)：条件期望结果。
\(\eta\)：泛指所有 nuisance 函数（\(\pi, m_0, m_1\)）的集合。
模型（数据生成机制）：
观测数据 \((X, A, Y)\) 服从未知分布 \(P\)。
假设 SUTVA（潜在结果唯一，无干扰）与 Ignorability（\(A \perp (Y^1, Y^0) | X\)，即无未观测混杂）。
假设 Positivity（\(0 < \pi(x) < 1\) 几乎处处成立）。
在此非参数模型下，CATE \(\tau(x)\) 被识别为 \(m_1(x) - m_0(x)\)。
可观测数据：
研究者实际观测到的是 \(n\) 个独立同分布的样本 \(\{(X_i, A_i, Y_i)\}_{i=1}^n\)。
想要但观测不到的：个体处理效应 \(Y^1_i - Y^0_i\)（对同一个体只能观测 \(Y^1\) 或 \(Y^0\) 之一）。因此，直接计算个体效应的 MSE \(E[(Y^1-Y_0 - f(X))^2]\) 不可识别。本文通过将目标转化为 CATE 的 MSE，绕过了这一不可识别性。

第二步：最小内核——最简特例（单个变量 \(s=\{j\}\)，线性 CATE 情形）

剥掉所有高维、非参数光滑、元学习器的壳，支撑本文的最小内核是：在 Ignorability 下，如何将“移除某变量导致的 CATE 预测 MSE 增加”转化为一个可识别的、有半参数有效估计量的参数？

考虑最简特例：\(p=2\)，\(X=(X_1, X_2)\)，我们要度量变量 \(X_1\) 的重要性，即 \(s=\{1\}\)，\(-s=\{2\}\)。假设 CATE 恰好是线性的：\(\tau(x) = \beta_1 x_1 + \beta_2 x_2\)。那么移除 \(X_1\) 后的 CATE 为 \(\tau_{-s}(x_2) = E[\tau(X) | X_2=x_2] = \beta_1 E[X_1|X_2=x_2] + \beta_2 x_2\)。

要证的命题（TE-VIM 的退化形式）：本文定义 TE-VIM 为 CATE 预测 MSE 的增加： \(\Theta_s = E[(Y^1-Y^0 - \tau_{-s}(X_{-s}))^2] - E[(Y^1-Y^0 - \tau(X))^2]\) 在线性特例下，由于 \(\tau(X)\) 是最优预测，\(E[(Y^1-Y^0 - \tau(X))^2]\) 是不可约减的残差方差（设为 \(\sigma^2\)）。而 \(\tau_{-s}(X_{-s})\) 相比 \(\tau(X)\) 漏掉了 \(\beta_1 X_1\) 的信息，因此： \(\Theta_s = E[(\tau(X) - \tau_{-s}(X_{-s}))^2] = E[(\beta_1 X_1 - \beta_1 E[X_1|X_2])^2] = \beta_1^2 \text{Var}(X_1 | X_2)\) 直觉一眼看懂：在线性世界，变量 \(X_1\) 的因果重要性，就是其系数的平方乘以它对剩余变量不可解释的残差方差。
核心难点与破局：在一般非参数情形下，\(\Theta_s = E[(\tau(X) - \tau_{-s}(X_{-s}))^2]\) 依然依赖 \(\tau(X)\) 与 \(\tau_{-s}(X_{-s})\) 这两个无穷维函数的准确估计。若直接 plug-in 两个 ML 估计器做差，偏差会叠加且二阶项 \(E[(\hat{\tau}-\tau)^2]\) 无法忽略。 本文的破局：利用半参数理论，找到 \(\Theta_s\) 的有效影响函数（EIF）。通过一步估计/纠偏，构造伪结果，使得估计量的偏差仅依赖于 nuisance 函数 \(\eta\) 估计误差的乘积项（如 \((\hat{m}_1-m_1)(\hat{\pi}-\pi)\)），从而在 ML 估计下仍可获得 \(\sqrt{n}\) 收敛与有效推断。

三、这篇论文做了什么¶

三句话 ①研究了如何非参数地度量并推断协变量对处理效应异质性的重要性；②核心工具是基于 CATE 预测均方误差增加量定义 TE-VIM，并推导其有效影响函数以构造双重稳健的纠偏估计量；③主要结论是 TE-VIM 估计量在 ML 估计 nuisance 下达到半参数有效界，且零重要性假设下检验有良好有限样本表现。

关键设定与假设 在第二节最小记号基础上补全： - 定义 1 (TE-VIM)：\(\Theta_s = L\{\tau_{-s}\} - L\{\tau\}\)，其中 \(L\{f\} = E[(Y^1-Y^0 - f(X))^2]\)。由于 \(L\{\tau\}\) 不依赖 \(s\)，\(\Theta_s\) 实际等价于 \(E[(\tau(X) - \tau_{-s}(X_{-s}))^2]\)。 - 假设 1 (Ignorability & Positivity)：\(A \perp (Y^1, Y^0) | X\) 且 \(0 < \pi(x) < 1\)。相比已有 CATE 估计文献（Kennedy, 2023），这是标准设定；相比回归 VIM（Williamson, 2021），本文明确引入了潜在结果与因果语义。 - 假设 2 (Nuisance 误差速率)：要求 \(\|\hat{m}_a - m_a\| \|\hat{\pi} - \pi\| = o_P(n^{-1/2})\)。这是典型的双重稳健速率要求，与 Newey & Robins (2018) 的 cross-fitting 条件一致，放宽了 Donsker 类限制。 - 零重要性原假设：\(H_0: \Theta_s = 0\)，等价于 \(\tau(X)\) 不依赖 \(X_s\)（即 \(X_s\) 在 CATE 中无交互作用）。

主要结果

定理 1 (TE-VIM 的有效影响函数与估计量渐近正态性)：
陈述：在非参数模型下，\(\Theta_s\) 的 EIF 为 \(\phi_s(O; \eta, \Theta_s) = 2\{\tau(X) - \tau_{-s}(X_{-s})\}\{Y - m_A(X)\}\frac{A-\pi(X)}{\pi(X)(1-\pi(X))} + \{\tau(X) - \tau_{-s}(X_{-s})\}^2 - \Theta_s\)。基于此构造的一步估计量 \(\hat{\Theta}_s = P_n(\phi_s(O; \hat{\eta}, 0))\)（配合 cross-fitting），在 nuisance 误差速率满足假设 2 时，\(\sqrt{n}(\hat{\Theta}_s - \Theta_s) \to_d N(0, \text{Var}(\phi_s))\)。
直觉：EIF 的第一项是双重稳健的纠偏项，它将不可观测的 \(Y^1-Y^0\) 替换为伪结果 \(Y - m_A(X)\) 并用倾向得分加权，第二项是目标参数的显式表达。
必要条件：Cross-fitting 用于消除经验过程项；Nuisance 误差乘积项 \(o_P(n^{-1/2})\) 用于消除二阶偏差。
解决的技术难点：绕过了直接估计 \(E[(Y^1-Y^0 - f(X))^2]\) 的不可识别性，且避免了 plug-in 估计 \(\tau\) 与 \(\tau_{-s}\) 时带来的非忽略偏差。
定理 2 (零重要性假设检验)：
陈述：在 \(H_0: \Theta_s = 0\) 下，即使 \(\tau(X) = \tau_{-s}(X_{-s})\)，估计量仍渐近正态，且方差可稳健估计。
直觉与难点：通常参数在边界（如方差参数为 0）时，渐近分布会非正态（如超指数分布）。本文证明了在 \(H_0\) 下，EIF 的非线性部分消失，线性部分仍成立，从而保住了正态性，使得传统的 Wald 检验可用。

证明路线与技术技巧

整体路线：
识别：将不可识别的 \(L\{f\}\) 转化为仅依赖观测数据分布的期望（利用 \(E[Y^1-Y^0|X]=\tau(X)\)）。
求 EIF：在非参数模型（所有分布无限制）下，通过 Gateaux 导数计算 \(\Theta_s\) 的 EIF，得到 \(\phi_s\)。
构造估计量：基于 EIF 构造一步估计量，引入 Cross-fitting（样本分两半，交替估计 nuisance 与计算平均）。
展开与余项控制：将估计量误差展开为线性项 + 经验过程项 + 二阶余项。
渐近分布：证明经验过程项由 cross-fitting 消除，二阶余项由 nuisance 误差乘积速率控制，线性项主导，得正态性。
关键跳跃点：
余项分析：最吃功夫的是证明二阶余项 \(R_2 = P(\phi_s(O; \hat{\eta}, \Theta_s) - \phi_s(O; \eta, \Theta_s) - \phi_s'(O; \eta, \Theta_s)(\hat{\eta}-\eta))\) 确实是 nuisance 误差的乘积项。这里需要仔细展开 EIF 中 \(\tau\) 与 \(\tau_{-s}\) 的估计误差，并利用 \(E[\tau(X)-\tau_{-s}(X_{-s})|X_{-s}] = 0\) 的性质（在真实参数下）来抵消一阶项。
技术技巧点名：
Efficient Influence Function (EIF)：用于构造半参数有效估计量，保证渐近方差达到 Cramér-Rao 下界。
Cross-fitting / Sample splitting：用于控制经验过程项，避免 Donsker 类条件（Newey & Robins, 2018）。
Doubly Robust (DR) 结构：伪结果的构造使得偏差在 \(\hat{m}\) 或 \(\hat{\pi}\) 之一正确时为零，两者皆错时偏差为乘积项。
Neyman orthogonality：EIF 对 nuisance 参数的导数在真实值处为零，保证了 nuisance 估计误差不向一阶渗透。

真实例子与应用

用的什么数据 / 场景：ACTG 175 临床试验数据（HIV 患者治疗），通过 R 包 speff2trial 获取。研究两种抗逆转录病毒药物（A=0: ZDV only; A=1: ZDV+ddI）对 CD4 计数（连续结果）的效应异质性。
怎么把本文方法用上去：选取基线协变量（如年龄、性别、基线 CD4 等），计算每个变量的 TE-VIM（Leave-one-out 与 Keep-one-in 策略）。Nuisance 函数用 GAM（mgcv 包）与 Random Forest（ranger 包）估计，CATE 用 DR-learner 与 T-learner。
得到什么结果：发现基线 CD4 计数与年龄是驱动处理效应异质性的最重要变量（TE-VIM 估计值最大且显著拒绝 \(H_0\)），而性别等变量重要性接近 0。
这个例子想说明什么：验证理论推断的有效性（不同 ML 算法与 CATE 元学习器组合下，TE-VIM 结论一致）；展示 TE-VIM 相比单纯看 CATE 曲线，能给出更清晰的“谁驱动了异质性”的量化排序。

🔎 结论是否比证明窄 - 本文在定理 1 的陈述中要求 \(\|\hat{m}_a - m_a\| \|\hat{\pi} - \pi\| = o_P(n^{-1/2})\)，但在模拟与实证中使用了 GAM 与 RF，这些 ML 方法在有限样本下未必满足此速率（尤其在高维或光滑度不足时）。作者在正文中泛泛 claim “TE-VIM 可与任何 ML 方法结合”，这一 claim 比严格证明的条件宽——实际上只有满足特定收敛速率的 ML 才能保证推断有效。 - 对于 Shapley TE-VIM（将所有子集的 TE-VIM 聚合），本文仅在 Supplement D.3 给出定义，未给出渐近理论，但正文暗示了其可用性，这是一个未严格证明的延伸。

四、开放问题（点到为止）¶

Shapley TE-VIM 的推断理论：本文定义了 Shapley TE-VIM 以公平分配 \(2^p\) 个子集的重要性，但未给出其渐近分布与有效估计理论。扎根点：Supplement D.3 仅给出定义，正文 Section 3 未涉及 Shapley 值的定理。
高维设定下的变量选择与多重检验：当 \(p\) 很大时，对所有 \(p\) 个变量做 TE-VIM 检验面临多重比较问题，且 nuisance 函数估计的误差速率在 \(p>n\) 下难以满足 \(o_P(n^{-1/2})\)。扎根点：Intro 提及“CATE 估计可能代表复杂函数”，但理论部分假设了低维 nuisance 误差速率。
违背 Ignorability 时的 TE-VIM：当前 TE-VIM 依赖无未观测混杂，若存在隐藏混杂，\(\tau(x)\) 不可识别，TE-VIM 的因果语义崩塌。扎根点：Intro 承认“在观测研究中，无混杂假设必须仔细评估”，但未提供类似 R-learner 或 IV 下对混杂敏感的 VIM 推广。
零重要性边界下的更高阶修正：定理 2 证明了 \(H_0\) 下的正态性，但在有限样本中，当 \(\Theta_s\) 极小（接近边界）时，Wald 检验可能表现不佳。扎根点：Section 3 模拟中 \(H_0\) 检验的覆盖率有轻微偏差，暗示可能需要更高阶的展开（如您熟悉的 HOIF）来修正。

Maintained by 陈星宇 · Homepage · Source on GitHub

Variable importance measures for heterogeneous treatment effects¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论