Variable importance measures for heterogeneous treatment effects¶
作者: Oliver J Hines, Karla Diaz-Ordaz, Stijn Vansteelandt
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本统计问题是:在因果推断中,当我们利用机器学习方法估计出条件平均处理效应(CATE)后,得到的往往是一个高度非参数化、难以解释的“黑箱”函数。科学实践(如精准医疗)不仅需要预测个体效应大小,更需要回答“哪些协变量驱动了处理效应的异质性”。该方向旨在为异质性因果效应提供非参数的、算法无关的变量重要性度量与推断框架。当前成熟度处于“框架提出与半参数有效估计刚建立,与机器学习结合的实证验证初步完成”的阶段。
发展脉络 将 intro 引用的工作串成一条线: - 奠基工作(CATE 估计与异质性发现):早期工作聚焦于如何发现异质性。Athey & Imbens (2016) 与 Wager & Athey (2018) 提出因果树与因果森林,首次为 CATE 提供了点估计与渐近正态的置信区间;Künzel et al. (2019) 提出元学习器框架,将 CATE 估计解耦为任意 ML 回归器的组合;Kennedy (2023) 提出 DR-learner,基于伪结果给出了双重稳健的 CATE 误差界。这些工作留下了口子:能估 CATE,但无法量化哪个变量重要。 - 主要进展(回归 VIM 与算法无关框架):为了解决变量重要性,Williamson et al. (2021, 2023) 借鉴 ANOVA 思想,在回归设定下提出了非参数的、算法无关的 VIM,定义为“移除某变量后总体预测风险的增加量”,并给出了基于有效影响函数的半参数有效估计与推断。这留下了口子:这些 VIM 针对的是回归预测风险,而非因果处理效应风险。 - 当前 frontier(因果 VIM 与可解释性):Levy et al. (2021) 尝试定义处理效应异质性的基本度量(如处理效应方差),但未直接解决“移除某协变量后异质性损失多少”的 VIM 问题;同时,可解释 AI 领域的 SHAP(Lundberg & Lee, 2017)与 LIME(Ribeiro et al., 2016)被广泛用于特征归因,但 Janzing et al. (2019) 与 Chen et al. (2020) 指出,SHAP 在存在混杂时因使用观测条件期望而非干预条件期望,会给出误导性的因果归因。这留下了口子:需要一种具有明确因果语义(基于潜在结果)的非参数 VIM。 - 本文的位置:本文填补了“因果语义”与“回归 VIM”之间的缺口,将 Williamson 的回归 VIM 思想移植到 CATE 均方误差上,定义了 TE-VIM,并推导了可与任何 CATE 元学习器结合的半参数有效估计量。
子线索聚类 被引文献大致落在三条子线索上: 1. CATE 估计线索:关注如何灵活、稳健地估计 \(\tau(x)\)。包括因果森林(Athey et al., 2019; Wager & Athey, 2018)、元学习器(Künzel et al., 2019; Nie & Wager, 2021)、双重稳健学习(Kennedy, 2023)。这一簇在做:打破参数模型限制,用 ML 降偏差。 2. 非参数 VIM 线索:关注如何不依赖特定模型定义与推断变量重要性。包括 Williamson 等人的系列工作(2020, 2021, 2023),以及 Shapley 值的统计推广(Owen & Prieur, 2017; Williamson & Feng, 2020)。这一簇在做:定义总体水平的、算法无关的预测风险差,并做半参数有效推断。 3. 因果可解释性线索:关注 XAI 方法在因果设定下的局限与修正。包括 SHAP/LIME(Lundberg & Lee, 2017; Ribeiro et al., 2016),以及对其因果混淆的批判(Janzing et al., 2019; Chen et al., 2020)。这一簇在做:区分“对模型忠实”与“对数据忠实”,强调干预分布的因果语义。
核心追问与已知瓶颈 - 追问 1:如何定义一个既有明确因果语义(基于潜在结果),又能在非参数模型下被识别的变量重要性度量? - 瓶颈:直接度量个体效应 \(Y_1-Y_0\) 的预测误差涉及潜在结果的联合分布,在无强假设下不可识别(Levy et al., 2021; Ding et al., 2016)。 - 追问 2:如何在不依赖特定 ML 算法(如随机森林内置的 Gini 重要性)的情况下,对 VIM 进行有效的统计推断(置信区间与假设检验)? - 瓶颈:算法内置 VIM 不可跨算法比较,且常因变量尺度/类别数产生偏倚(Strobl et al., 2007)。 - 追问 3:当 VIM 估计依赖 ML 纠偏时,如何控制经验过程项的偏差? - 瓶颈:ML 纠偏项的收敛速率若不够快,或落入 Donsker 类条件不满足,会导致推断失效(Newey & Robins, 2018; Hines et al., 2022)。
⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“现有 CATE 估计是黑箱,缺乏对异质性驱动因素的洞察”,并强调“回归 VIM 没有因果语义,SHAP 有因果混淆”,从而让“基于 CATE 预测 MSE 的非参数 TE-VIM”成为显然的下一步。 - 淡化或回避的竞争路线:Intro 几乎未讨论基于参数/半参数模型交互项的推断(如 Lu et al., 2011 的惩罚回归框架,虽在参考文献中但 intro 未展开),也未深入比较直接对 CATE 函数做方差分解(Levy et al., 2021)与本文 MSE 差的优劣。此外,对 SHAP 的讨论停留在“因果混淆”,回避了 SHAP 在高维计算上的工程优势。 - 明显该被引却缺失的:半参数效率界的通用理论推导(如 Bickel et al., 1993 的经典教材,或更近的 Tsiatis, 2006),本文直接用了 EIF 但未引通用理论源头;高维 VIM 的变量选择一致性工作(如基于 VIM 的筛选方法),本文只做推断未做选择,这可能是刻意回避。
张力 未见明显对立引用。Williamson 的回归 VIM 与 SHAP 的归因在“干预分布 vs 观测分布”上有概念张力,但本文通过采用潜在结果框架统一站到了“干预分布”一侧,未在引用中呈现直接对立的实证结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(X \in \mathbb{R}^p\):观测到的基线协变量向量。
- \(A \in \{0, 1\}\):二值处理变量。
- \(Y \in \mathbb{R}\):观测到的连续或离散结果变量。
- \(Y^a\):潜在结果,若处理被设为 \(a\) 时的结果。
- \(\tau(x) = E[Y^1 - Y^0 | X = x]\):条件平均处理效应(CATE),本文的核心目标函数。
- \(s \subseteq \{1, ..., p\}\):协变量的某个子集索引;\(-s\) 为其补集。
- \(X_s, X_{-s}\):对应子集与补集的协变量向量。
- \(\tau_s(x_{-s}) = E[Y^1 - Y^0 | X_{-s} = x_{-s}]\):移除子集 \(s\) 后,仅用剩余协变量条件化的 CATE。
- \(\Theta_s\):本文定义的 TE-VIM(处理效应变量重要性度量)。
- \(\pi(x) = P(A=1|X=x)\):倾向得分。
- \(m_a(x) = E[Y|A=a, X=x]\):条件期望结果。
-
\(\eta\):泛指所有 nuisance 函数(\(\pi, m_0, m_1\))的集合。
-
模型(数据生成机制):
- 观测数据 \((X, A, Y)\) 服从未知分布 \(P\)。
- 假设 SUTVA(潜在结果唯一,无干扰)与 Ignorability(\(A \perp (Y^1, Y^0) | X\),即无未观测混杂)。
- 假设 Positivity(\(0 < \pi(x) < 1\) 几乎处处成立)。
-
在此非参数模型下,CATE \(\tau(x)\) 被识别为 \(m_1(x) - m_0(x)\)。
-
可观测数据:
- 研究者实际观测到的是 \(n\) 个独立同分布的样本 \(\{(X_i, A_i, Y_i)\}_{i=1}^n\)。
- 想要但观测不到的:个体处理效应 \(Y^1_i - Y^0_i\)(对同一个体只能观测 \(Y^1\) 或 \(Y^0\) 之一)。因此,直接计算个体效应的 MSE \(E[(Y^1-Y_0 - f(X))^2]\) 不可识别。本文通过将目标转化为 CATE 的 MSE,绕过了这一不可识别性。
第二步:最小内核——最简特例(单个变量 \(s=\{j\}\),线性 CATE 情形)
剥掉所有高维、非参数光滑、元学习器的壳,支撑本文的最小内核是:在 Ignorability 下,如何将“移除某变量导致的 CATE 预测 MSE 增加”转化为一个可识别的、有半参数有效估计量的参数?
考虑最简特例:\(p=2\),\(X=(X_1, X_2)\),我们要度量变量 \(X_1\) 的重要性,即 \(s=\{1\}\),\(-s=\{2\}\)。 假设 CATE 恰好是线性的:\(\tau(x) = \beta_1 x_1 + \beta_2 x_2\)。 那么移除 \(X_1\) 后的 CATE 为 \(\tau_{-s}(x_2) = E[\tau(X) | X_2=x_2] = \beta_1 E[X_1|X_2=x_2] + \beta_2 x_2\)。
-
要证的命题(TE-VIM 的退化形式): 本文定义 TE-VIM 为 CATE 预测 MSE 的增加: \(\Theta_s = E[(Y^1-Y^0 - \tau_{-s}(X_{-s}))^2] - E[(Y^1-Y^0 - \tau(X))^2]\) 在线性特例下,由于 \(\tau(X)\) 是最优预测,\(E[(Y^1-Y^0 - \tau(X))^2]\) 是不可约减的残差方差(设为 \(\sigma^2\))。而 \(\tau_{-s}(X_{-s})\) 相比 \(\tau(X)\) 漏掉了 \(\beta_1 X_1\) 的信息,因此: \(\Theta_s = E[(\tau(X) - \tau_{-s}(X_{-s}))^2] = E[(\beta_1 X_1 - \beta_1 E[X_1|X_2])^2] = \beta_1^2 \text{Var}(X_1 | X_2)\) 直觉一眼看懂:在线性世界,变量 \(X_1\) 的因果重要性,就是其系数的平方乘以它对剩余变量不可解释的残差方差。
-
核心难点与破局: 在一般非参数情形下,\(\Theta_s = E[(\tau(X) - \tau_{-s}(X_{-s}))^2]\) 依然依赖 \(\tau(X)\) 与 \(\tau_{-s}(X_{-s})\) 这两个无穷维函数的准确估计。若直接 plug-in 两个 ML 估计器做差,偏差会叠加且二阶项 \(E[(\hat{\tau}-\tau)^2]\) 无法忽略。 本文的破局:利用半参数理论,找到 \(\Theta_s\) 的有效影响函数(EIF)。通过一步估计/纠偏,构造伪结果,使得估计量的偏差仅依赖于 nuisance 函数 \(\eta\) 估计误差的乘积项(如 \((\hat{m}_1-m_1)(\hat{\pi}-\pi)\)),从而在 ML 估计下仍可获得 \(\sqrt{n}\) 收敛与有效推断。
三、这篇论文做了什么¶
三句话 ①研究了如何非参数地度量并推断协变量对处理效应异质性的重要性;②核心工具是基于 CATE 预测均方误差增加量定义 TE-VIM,并推导其有效影响函数以构造双重稳健的纠偏估计量;③主要结论是 TE-VIM 估计量在 ML 估计 nuisance 下达到半参数有效界,且零重要性假设下检验有良好有限样本表现。
关键设定与假设 在第二节最小记号基础上补全: - 定义 1 (TE-VIM):\(\Theta_s = L\{\tau_{-s}\} - L\{\tau\}\),其中 \(L\{f\} = E[(Y^1-Y^0 - f(X))^2]\)。由于 \(L\{\tau\}\) 不依赖 \(s\),\(\Theta_s\) 实际等价于 \(E[(\tau(X) - \tau_{-s}(X_{-s}))^2]\)。 - 假设 1 (Ignorability & Positivity):\(A \perp (Y^1, Y^0) | X\) 且 \(0 < \pi(x) < 1\)。相比已有 CATE 估计文献(Kennedy, 2023),这是标准设定;相比回归 VIM(Williamson, 2021),本文明确引入了潜在结果与因果语义。 - 假设 2 (Nuisance 误差速率):要求 \(\|\hat{m}_a - m_a\| \|\hat{\pi} - \pi\| = o_P(n^{-1/2})\)。这是典型的双重稳健速率要求,与 Newey & Robins (2018) 的 cross-fitting 条件一致,放宽了 Donsker 类限制。 - 零重要性原假设:\(H_0: \Theta_s = 0\),等价于 \(\tau(X)\) 不依赖 \(X_s\)(即 \(X_s\) 在 CATE 中无交互作用)。
主要结果
- 定理 1 (TE-VIM 的有效影响函数与估计量渐近正态性):
- 陈述:在非参数模型下,\(\Theta_s\) 的 EIF 为 \(\phi_s(O; \eta, \Theta_s) = 2\{\tau(X) - \tau_{-s}(X_{-s})\}\{Y - m_A(X)\}\frac{A-\pi(X)}{\pi(X)(1-\pi(X))} + \{\tau(X) - \tau_{-s}(X_{-s})\}^2 - \Theta_s\)。基于此构造的一步估计量 \(\hat{\Theta}_s = P_n(\phi_s(O; \hat{\eta}, 0))\)(配合 cross-fitting),在 nuisance 误差速率满足假设 2 时,\(\sqrt{n}(\hat{\Theta}_s - \Theta_s) \to_d N(0, \text{Var}(\phi_s))\)。
- 直觉:EIF 的第一项是双重稳健的纠偏项,它将不可观测的 \(Y^1-Y^0\) 替换为伪结果 \(Y - m_A(X)\) 并用倾向得分加权,第二项是目标参数的显式表达。
- 必要条件:Cross-fitting 用于消除经验过程项;Nuisance 误差乘积项 \(o_P(n^{-1/2})\) 用于消除二阶偏差。
-
解决的技术难点:绕过了直接估计 \(E[(Y^1-Y^0 - f(X))^2]\) 的不可识别性,且避免了 plug-in 估计 \(\tau\) 与 \(\tau_{-s}\) 时带来的非忽略偏差。
-
定理 2 (零重要性假设检验):
- 陈述:在 \(H_0: \Theta_s = 0\) 下,即使 \(\tau(X) = \tau_{-s}(X_{-s})\),估计量仍渐近正态,且方差可稳健估计。
- 直觉与难点:通常参数在边界(如方差参数为 0)时,渐近分布会非正态(如超指数分布)。本文证明了在 \(H_0\) 下,EIF 的非线性部分消失,线性部分仍成立,从而保住了正态性,使得传统的 Wald 检验可用。
证明路线与技术技巧
- 整体路线:
- 识别:将不可识别的 \(L\{f\}\) 转化为仅依赖观测数据分布的期望(利用 \(E[Y^1-Y^0|X]=\tau(X)\))。
- 求 EIF:在非参数模型(所有分布无限制)下,通过 Gateaux 导数计算 \(\Theta_s\) 的 EIF,得到 \(\phi_s\)。
- 构造估计量:基于 EIF 构造一步估计量,引入 Cross-fitting(样本分两半,交替估计 nuisance 与计算平均)。
- 展开与余项控制:将估计量误差展开为线性项 + 经验过程项 + 二阶余项。
-
渐近分布:证明经验过程项由 cross-fitting 消除,二阶余项由 nuisance 误差乘积速率控制,线性项主导,得正态性。
-
关键跳跃点:
-
余项分析:最吃功夫的是证明二阶余项 \(R_2 = P(\phi_s(O; \hat{\eta}, \Theta_s) - \phi_s(O; \eta, \Theta_s) - \phi_s'(O; \eta, \Theta_s)(\hat{\eta}-\eta))\) 确实是 nuisance 误差的乘积项。这里需要仔细展开 EIF 中 \(\tau\) 与 \(\tau_{-s}\) 的估计误差,并利用 \(E[\tau(X)-\tau_{-s}(X_{-s})|X_{-s}] = 0\) 的性质(在真实参数下)来抵消一阶项。
-
技术技巧点名:
- Efficient Influence Function (EIF):用于构造半参数有效估计量,保证渐近方差达到 Cramér-Rao 下界。
- Cross-fitting / Sample splitting:用于控制经验过程项,避免 Donsker 类条件(Newey & Robins, 2018)。
- Doubly Robust (DR) 结构:伪结果的构造使得偏差在 \(\hat{m}\) 或 \(\hat{\pi}\) 之一正确时为零,两者皆错时偏差为乘积项。
- Neyman orthogonality:EIF 对 nuisance 参数的导数在真实值处为零,保证了 nuisance 估计误差不向一阶渗透。
真实例子与应用
- 用的什么数据 / 场景:ACTG 175 临床试验数据(HIV 患者治疗),通过 R 包
speff2trial获取。研究两种抗逆转录病毒药物(A=0: ZDV only; A=1: ZDV+ddI)对 CD4 计数(连续结果)的效应异质性。 - 怎么把本文方法用上去:选取基线协变量(如年龄、性别、基线 CD4 等),计算每个变量的 TE-VIM(Leave-one-out 与 Keep-one-in 策略)。Nuisance 函数用 GAM(mgcv 包)与 Random Forest(ranger 包)估计,CATE 用 DR-learner 与 T-learner。
- 得到什么结果:发现基线 CD4 计数与年龄是驱动处理效应异质性的最重要变量(TE-VIM 估计值最大且显著拒绝 \(H_0\)),而性别等变量重要性接近 0。
- 这个例子想说明什么:验证理论推断的有效性(不同 ML 算法与 CATE 元学习器组合下,TE-VIM 结论一致);展示 TE-VIM 相比单纯看 CATE 曲线,能给出更清晰的“谁驱动了异质性”的量化排序。
🔎 结论是否比证明窄 - 本文在定理 1 的陈述中要求 \(\|\hat{m}_a - m_a\| \|\hat{\pi} - \pi\| = o_P(n^{-1/2})\),但在模拟与实证中使用了 GAM 与 RF,这些 ML 方法在有限样本下未必满足此速率(尤其在高维或光滑度不足时)。作者在正文中泛泛 claim “TE-VIM 可与任何 ML 方法结合”,这一 claim 比严格证明的条件宽——实际上只有满足特定收敛速率的 ML 才能保证推断有效。 - 对于 Shapley TE-VIM(将所有子集的 TE-VIM 聚合),本文仅在 Supplement D.3 给出定义,未给出渐近理论,但正文暗示了其可用性,这是一个未严格证明的延伸。
四、开放问题(点到为止)¶
- Shapley TE-VIM 的推断理论:本文定义了 Shapley TE-VIM 以公平分配 \(2^p\) 个子集的重要性,但未给出其渐近分布与有效估计理论。扎根点:Supplement D.3 仅给出定义,正文 Section 3 未涉及 Shapley 值的定理。
- 高维设定下的变量选择与多重检验:当 \(p\) 很大时,对所有 \(p\) 个变量做 TE-VIM 检验面临多重比较问题,且 nuisance 函数估计的误差速率在 \(p>n\) 下难以满足 \(o_P(n^{-1/2})\)。扎根点:Intro 提及“CATE 估计可能代表复杂函数”,但理论部分假设了低维 nuisance 误差速率。
- 违背 Ignorability 时的 TE-VIM:当前 TE-VIM 依赖无未观测混杂,若存在隐藏混杂,\(\tau(x)\) 不可识别,TE-VIM 的因果语义崩塌。扎根点:Intro 承认“在观测研究中,无混杂假设必须仔细评估”,但未提供类似 R-learner 或 IV 下对混杂敏感的 VIM 推广。
- 零重要性边界下的更高阶修正:定理 2 证明了 \(H_0\) 下的正态性,但在有限样本中,当 \(\Theta_s\) 极小(接近边界)时,Wald 检验可能表现不佳。扎根点:Section 3 模拟中 \(H_0\) 检验的覆盖率有轻微偏差,暗示可能需要更高阶的展开(如您熟悉的 HOIF)来修正。
Maintained by 陈星宇 · Homepage · Source on GitHub