Variable importance measures for heterogeneous treatment effects with survival outcome¶

作者: Simon Christoffer Ziersen, Torben Martinussen
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在因果推断中，当我们估计出异质性处理效应（CATE）后，如何可解释地、非参数地量化哪些协变量真正驱动了这种异质性。它当前处于方法论快速扩张期：连续/二元结局下的变量重要性度量（VIM）与部分线性投影已有成熟框架与半参数有效估计量，但向右删失生存数据的延伸刚刚起步，且对 CATE 的定义（风险差 vs 限制平均生存时间）与删失机制的鲁棒性处理尚在成型。

发展脉络： 1. 奠基工作（CATE 与非参数 VIM）：Wager & Athey (2015) 提出了因果森林用于非参数估计 CATE，解决了点估计与推断问题，但未触及“哪些变量重要”的归因问题。Williamson et al. (2020) 在回归设定下定义了算法无关的非参数 VIM（预测性度量），为脱离特定模型评估变量重要性打下基础。 2. 主要进展（TE-VIM 的提出与半参数化）：Levy et al. (2018) 定义了 CATE 的方差作为异质性基本度量，并用 TMLE 估计，但该度量不直接归因到特定协变量。Hines, Diaz-Ordaz & Vansteelandt (2022a)（即被引文献[5]的后续工作）正式提出了处理效应变量重要性度量（TE-VIM），将 CATE 关于某协变量的条件方差与全协变量条件方差之差定义为目标参数，并基于半参数效率理论构造了有效估计量。Vansteelandt & Dukes (2020) 与 Semenova & Chernozhukov (2017) 分别从假设-精益推断与 Debiased ML 角度，为 CATE 的最优线性/部分线性投影提供了估计框架，使得“即使 CATE 非线性，也能投影出线性效应修饰”成为可能。 3. 当前 frontier（生存设定下的异质性）：Cui et al. (2020) 提出了因果生存森林，Hu et al. (2020) 用 AFT-BART 评估生存 HTE，但两者均停留在预测 CATE 层面，未给出归因度量。Westling et al. (2021) 与 Rytgaard et al. (2021) 分别为处理特异性生存曲线与连续时间 TMLE 提出了双鲁棒/有效估计量，为生存设定下的半参数效率理论铺路。Boileau et al. (2023) 将 TEM-VIP 拓展至高维与生存结局，但侧重高维筛选，且对生存 CATE 的定义与删失鲁棒性未做细致拆解。 4. 本文的位置：本文填补了“生存数据下 TE-VIM 的半参数有效估计”这一口子，将 Hines et al. (2022a) 的连续结局 TE-VIM 延伸至右删失生存设定，并针对生存函数与 RMST 两种 CATE 定义分别推导了 efficient influence function 与渐近线性估计量，同时引入了 CATE 的最优部分线性投影作为新的异质性度量。

子线索聚类： - 线索 A：非参数 VIM 与算法无关推断（Williamson et al. 2020, Hines et al. 2022a）：定义脱离特定预测算法的、反映数据生成机制内在性质的 VIM，构造半参数有效估计量。 - 线索 B：CATE 的投影与效应修饰推断（Semenova & Chernozhukov 2017, Vansteelandt & Dukes 2020）：不追求估计整个 CATE 函数，而是将其投影到线性/部分线性空间，推断特定协变量的效应修饰作用。 - 线索 C：生存数据下的因果推断与机器学习（Cui et al. 2020, Hu et al. 2020, Westling et al. 2021, Rytgaard et al. 2021）：处理删失与混杂的联合挑战，提供生存曲线/RMST 的双鲁棒或有效估计。 - 线索 D：高维与多亚组 HTE 推断（Boileau et al. 2023, Wei et al. 2022）：将 HTE 推断拓展至高维协变量或多亚组同时推断，侧重筛选或 TMLE 框架。

这个方向在追问的核心问题： 1. 如何定义一个既反映因果机制又可识别的“变量重要性”参数，使其不依赖特定预测算法？ 2. 在 CATE 非线性或高维时，如何通过投影或 VIM 提取特定协变量的效应修饰信息，并给出有效的置信区间？ 3. 当结局是右删失生存数据时，CATE 的定义（风险差 vs RMST）如何影响 TE-VIM 的识别与估计？删失机制带来的 nuisance 参数收敛条件能否满足？ 4. 如何在生存设定下构造 nuisance 参数（生存函数、删失概率）的鲁棒估计，使得 one-step 估计量仍保持 \(n^{-1/2}\)-CAN？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有 TE-VIM 仅针对连续/二元结局，生存数据下的 TE-VIM 被忽视”，从而将自己的工作定位为“将 Hines et al. (2022a) 自然延伸至生存设定”。同时，作者引入了“最优部分线性投影”作为补充度量，声称它比 TE-VIM 更易解释。 - 被淡化或回避的竞争路线：Boileau et al. (2023) 的 TEM-VIP 框架已覆盖生存结局，但作者仅在引用中一笔带过，未深入对比其与本文 TE-VIM 的定义差异与估计策略优劣。高维设定下的变量筛选（如筛选全部协变量而非预设某子集）也被回避。 - 明显该被引却未出现的：针对生存数据下 CATE 投影的近期工作（如基于 RMST 的线性效应修饰模型）在 intro 中未见引用；此外，关于删失机制下双鲁棒估计的更早期奠基工作（如 Robins & Rotnitzky 1992 的经典双鲁棒性框架）也未出现，这可能是作者有意聚焦近期 ML-based 方法，但经典半参数生存推断的缺失值得研究者去查。

张力：未见明显对立引用。各被引工作在设定（连续 vs 生存、低维 vs 高维）与目标参数（VIM vs 投影 vs 亚组 ATE）上互补，未在相同设定下得出相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X\)：基线协变量向量，维度为 \(d\)，分布 \(P_X\)，可观测。
\(W\)：\(X\) 的一个子集（感兴趣的协变量组），维度为 \(k < d\)，可观测。
\(Z\)：\(X \setminus W\)（剩余协变量），可观测。
\(A\)：二元处理变量，取值 \(\{0, 1\}\)，可观测。
\(T\)：潜在生存时间（potential time-to-event），不可观测（因删失）。
\(C\)：潜在删失时间，不可观测。
\(Y\)：观测时间，\(Y = \min(T, C)\)，可观测。
\(\Delta\)：删失指示，\(\Delta = I(T \leq C)\)，可观测（1 表示未删失，0 表示删失）。
\(S(t | A, X)\)：给定处理与协变量下的生存函数，\(S(t | A, X) = P(T > t | A, X)\)，不可直接观测，需估计。
\(G(t | A, X)\)：给定处理与协变量下的删失生存函数，\(G(t | A, X) = P(C > t | A, X)\)，不可直接观测，需估计。
\(\tau\)：预设的时间截点（truncation time），用于定义 RMST，已知常数。
\(\text{RMST}(\tau | A, X)\)：限制平均生存时间，\(\text{RMST}(\tau | A, X) = \int_0^\tau S(t | A, X) dt\)，不可直接观测。
\(\text{CATE}_S(x)\)：基于生存函数的 CATE，\(\text{CATE}_S(x) = S(\tau | 1, x) - S(\tau | 0, x)\)，目标参数的源头（不可直接观测）。
\(\text{CATE}_R(x)\)：基于 RMST 的 CATE，\(\text{CATE}_R(x) = \text{RMST}(\tau | 1, x) - \text{RMST}(\tau | 0, x)\)，目标参数的源头。
\(\theta\)：本文的核心目标参数（TE-VIM 或投影系数），具体定义见下。
\(n\)：样本量。
数据生成机制：\((X, A, C, T)\) 联合分布，其中 \(T\) 与 \(C\) 在给定 \((A, X)\) 下独立（独立删失假设），\(A\) 的分配可能依赖 \(X\)（观察性数据需无混杂假设）。
可观测数据：\(n\) 个独立同分布样本 \((X_i, A_i, Y_i, \Delta_i)\)，\(i=1, \ldots, n\)。潜在生存时间 \(T_i\) 与删失时间 \(C_i\) 不可观测，只能通过 \(Y_i\) 与 \(\Delta_i\) 部分识别。

第二步：最小内核——生存函数 CATE 下的 TE-VIM

剥掉所有一般性论述与 RMST 的变体，本文最核心的数学问题是在右删失设定下，估计基于生存函数的 CATE 的变量重要性度量（TE-VIM），并证明其 one-step 估计量的渐近线性性。

最简特例：设 \(W\) 为单个协变量（\(k=1\)），目标参数为

\[\theta_S = E[\text{Var}(\text{CATE}_S(X) | W)] = E\left[\left(S(\tau | 1, X) - S(\tau | 0, X) - E[S(\tau | 1, X) - S(\tau | 0, X) | W]\right)^2\right].\]

这个参数衡量的是：知道 \(W\) 后，CATE 的剩余变异有多大。若 \(\theta_S = 0\)，则 \(W\) 完全解释了 CATE 的异质性；若 \(\theta_S\) 大，则 \(Z\) 中还有重要效应修饰变量。

核心思路（一看就懂）： 1. 识别：在无混杂（\(A \perp T | X\)）与独立删失（\(C \perp T | A, X\)）下，\(\text{CATE}_S(X)\) 可识别为 \(S(\tau | 1, X) - S(\tau | 0, X)\)，其中 \(S(t | a, x) = P(T > t | A=a, X=x)\) 可通过观测数据 \((Y, \Delta, A, X)\) 估计。 2. Efficient Influence Function (EIF)：在非参数模型下，\(\theta_S\) 的 EIF 为

\[\phi_S(O) = 2 \left(\text{CATE}_S(X) - E[\text{CATE}_S(X) | W]\right) \cdot \left(\frac{I(A=1) \Delta_{\tau}}{G(\tau | 1, X) \pi(X)} - \frac{I(A=0) \Delta_{\tau}}{G(\tau | 0, X) (1-\pi(X))} - \text{CATE}_S(X)\right) + \text{Var}(\text{CATE}_S(X) | W) - \theta_S,\]

其中 \(\Delta_{\tau} = I(Y > \tau)\)，\(\pi(X) = P(A=1 | X)\)。这个 EIF 的结构是“CATE 残差 × 伪结局残差 + 目标参数残差”，伪结局部分通过逆概率加权（IPW）处理删失与处理分配。 3. One-step 估计量：

\[\hat{\theta}_S = \theta_S(\hat{P}) + \frac{1}{n} \sum_{i=1}^n \phi_S(O_i; \hat{P}),\]

其中 \(\theta_S(\hat{P})\) 是 plug-in 估计量，\(\phi_S(O_i; \hat{P})\) 是用 nuisance 估计量（\(\hat{S}, \hat{G}, \hat{\pi}, \hat{E}[\text{CATE}_S | W]\)）代入 EIF。One-step 修正消去了 plug-in 的一阶偏差。 4. 渐近线性性：若 nuisance 估计量满足 2-norm 收敛率 \(O(n^{-1/4})\)（如 \(\|\hat{S} - S\|_2 = O(n^{-1/4})\)），且 \(\hat{G}(\tau | a, X)\) 与 \(\hat{\pi}(X)\) 远离 0（重叠性假设），则 \(\hat{\theta}_S\) 是 \(n^{-1/2}\)-CAN，渐近方差等于 EIF 的方差。

为什么成立：EIF 的二阶余项分析显示，只要 nuisance 估计量的乘积误差（如 \((\hat{S} - S)(\hat{\pi} - \pi)\)）的 2-norm 为 \(O(n^{-1/2})\)，one-step 修正即可消除偏差。\(O(n^{-1/4})\) 的收敛率保证了这一点。删失概率 \(\hat{G}\) 出现在 IPW 分母，其误差与 \(\hat{S}\) 的误差相乘，同样需要 \(O(n^{-1/4})\) 收敛率与重叠性保证。

三、这篇论文做了什么¶

三句话： ①研究了右删失生存数据下异质性处理效应的变量重要性度量（TE-VIM）与最优部分线性投影的估计问题； ②核心工具是半参数效率理论（efficient influence function 推导）与 one-step estimation / estimating equation； ③主要结论是为基于生存函数与 RMST 两种 CATE 定义下的 TE-VIM 及投影系数构造了渐近线性估计量，并在 nuisance 参数满足 \(n^{-1/4}\) 收敛率与重叠性条件下证明了 \(n^{-1/2}\)-CAN 性质。

关键设定与假设： - 设定：右删失生存数据 \((X, A, Y, \Delta)\)，二元处理 \(A\)，感兴趣协变量子集 \(W \subset X\)。 - 假设 1（无混杂 / Unconfoundedness）：\(A \perp T | X\)。统计含义：处理分配在给定全部基线协变量下独立于潜在生存时间，保证 CATE 的识别。与已有文献（Hines et al. 2022a, Westling et al. 2021）一致，未放宽。 - 假设 2（独立删失 / Independent censoring）：\(C \perp T | A, X\)。统计含义：删失机制在给定处理与协变量下不依赖生存时间，保证生存函数的识别。与 Westling et al. (2021) 一致，是生存因果推断的标准假设。 - 假设 3（重叠性 / Positivity）：\(\pi(X) = P(A=1 | X) \in (c, 1-c)\)，\(G(\tau | A, X) > c\) 对某 \(c > 0\)。统计含义：处理分配与删失概率均有足够支持，避免 IPW 分母爆炸。与连续结局 TE-VIM 相比，额外要求删失概率的重叠性。 - 假设 4（Nuisance 收敛率）：\(\|\hat{S} - S\|_2, \|\hat{G} - G\|_2, \|\hat{\pi} - \pi\|_2, \|\hat{E}[\text{CATE} | W] - E[\text{CATE} | W]\|_2 = O(n^{-1/4})\)。统计含义：机器学习 nuisance 估计量需达到一定收敛速度，以保证 one-step 估计量的二阶余项可控。与 Hines et al. (2022a) 一致，是 Debiased ML 的标准条件。

主要结果：

定理 1（TE-VIM 的 EIF 与渐近线性性）：
陈述：在假设 1-4 下，基于生存函数的 TE-VIM \(\theta_S\) 的 one-step 估计量 \(\hat{\theta}_S\) 是渐近线性的，\(\hat{\theta}_S - \theta_S = \frac{1}{n} \sum_{i=1}^n \phi_S(O_i) + o_p(n^{-1/2})\)，渐近方差为 \(\text{Var}(\phi_S(O))\)。
直觉：One-step 修正通过 EIF 消去了 plug-in 估计量的一阶偏差，二阶余项因 nuisance 的 \(n^{-1/4}\) 收敛率而被控制。
必要条件：假设 1-4 全部必要，尤其是假设 4 的 \(n^{-1/4}\) 条件与假设 3 的重叠性，否则二阶余项可能失控或 IPW 项方差爆炸。
技术难点：在生存设定下，EIF 中出现了删失概率 \(G(\tau | A, X)\) 的逆概率项，其与处理概率 \(\pi(X)\) 的联合误差分析需仔细处理，且 \(\Delta_{\tau} = I(Y > \tau)\) 的离散性使得 EIF 的结构比连续结局更复杂。
定理 2（RMST-TE-VIM 的 EIF 与渐近线性性）：
陈述：类似定理 1，但 CATE 定义为 \(\text{CATE}_R(X) = \text{RMST}(\tau | 1, X) - \text{RMST}(\tau | 0, X)\)，目标参数 \(\theta_R = E[\text{Var}(\text{CATE}_R(X) | W)]\)，EIF 中将 \(S(\tau | A, X)\) 替换为 \(\int_0^\tau S(t | A, X) dt\) 的 IPW 伪结局，one-step 估计量 \(\hat{\theta}_R\) 同样 \(n^{-1/2}\)-CAN。
直觉：RMST 是生存函数的积分，其 EIF 通过积分伪结局 \(\int_0^\tau \frac{I(Y > t) \Delta_t}{G(t | A, X)} dt\) 实现，结构与定理 1 类似，但伪结局是连续积分，计算更复杂。
必要条件：同定理 1，但需额外保证 \(\hat{G}(t | A, X)\) 在 \([0, \tau]\) 上的一致重叠性与收敛率。
定理 3（最优部分线性投影的估计与渐近线性性）：
陈述：定义 CATE 的最优部分线性投影 \(\beta = (E[\tilde{W} \tilde{W}^T])^{-1} E[\tilde{W} \text{CATE}(X)]\)，其中 \(\tilde{W} = W - E[W]\)（中心化），\(\beta\) 衡量 \(W\) 对 CATE 的线性效应修饰作用。通过 estimating equation（基于 EIF 的矩条件）构造估计量 \(\hat{\beta}\)，在假设 1-4 下 \(\hat{\beta}\) 是 \(n^{-1/2}\)-CAN。
直觉：投影参数 \(\beta\) 是 CATE 在 \(W\) 上的最优线性近似，estimating equation 利用 EIF 的 Neyman 正交性消除 nuisance 偏差。
必要条件：同定理 1-2，且需 \(E[\tilde{W} \tilde{W}^T]\) 可逆（\(W\) 无完全共线性）。

证明路线与技术技巧：

整体路线：
识别：在假设 1-2 下，将 CATE（\(S\) 或 RMST 版本）表达为可观测分布的函数（通过 IPW 或 G-formula）。
EIF 推导：在非参数模型下，用路径导数法或 Gateaux 导数推导目标参数的 EIF。关键步骤是将 CATE 的 EIF（已知）嵌入到 TE-VIM 的 EIF 中，利用链式法则处理 \(\text{Var}(\text{CATE} | W)\) 的结构。
One-step / Estimating equation 构造：用 nuisance 估计量代入 EIF，构造 one-step 估计量（TE-VIM）或求解矩条件（投影 \(\beta\)）。
二阶余项分析：展开 \(\hat{\theta} - \theta\)，证明余项为 nuisance 误差的二次项，在 \(n^{-1/4}\) 收敛率下为 \(O_p(n^{-1/2})\)。
渐近线性性证明：结合经验过程理论，证明 \(\frac{1}{n} \sum \phi(O_i; \hat{P}) - \frac{1}{n} \sum \phi(O_i; P) = o_p(n^{-1/2})\)，从而 \(\hat{\theta} - \theta = \frac{1}{n} \sum \phi(O_i; P) + o_p(n^{-1/2})\)。
关键跳跃点：
EIF 中删失伪结局的构造：在连续结局下，CATE 的伪结局是 \(\frac{A - \pi(X)}{\pi(X)(1-\pi(X))} Y\)；在生存设定下，需将 \(Y\) 替换为 \(\frac{\Delta_{\tau} I(Y > \tau)}{G(\tau | A, X)}\)（生存函数版）或 \(\int_0^\tau \frac{I(Y > t)}{G(t | A, X)} dt\)（RMST 版）。这个替换需保证伪结局在 IPW 下无偏估计 CATE，且其与 CATE 残差的乘积在 EIF 中正确出现。
二阶余项中 \(G\) 的处理：\(G\) 出现在分母，其误差 \((\hat{G} - G)\) 与 \((\hat{S} - S)\) 的乘积需通过重叠性假设与 \(n^{-1/4}\) 收敛率控制，避免分母误差放大。
技术技巧点名：
Efficient Influence Function (EIF) 推导：用 Gateaux 导数或路径导数法推导 TE-VIM 与投影参数的 EIF，核心是链式法则处理 \(\text{Var}(\text{CATE} | W)\) 的非线性结构。
One-step estimation：通过 \(\hat{\theta} = \theta(\hat{P}) + \frac{1}{n} \sum \phi(O_i; \hat{P})\) 消除一阶偏差，是半参数效率理论的标准工具。
Estimating equation (Neyman orthogonality)：投影参数 \(\beta\) 的估计通过求解 \(E[\tilde{W} (\text{pseudo-outcome} - \tilde{W}^T \beta)] = 0\) 实现，伪结局的构造保证了矩条件对 nuisance 参数的正交性。
Empirical process / Donsker class arguments：用于证明 nuisance 估计量代入 EIF 后的经验过程余项为 \(o_p(n^{-1/2})\)，需假设 nuisance 估计量落在足够小的 Donsker 类中（或用 cross-fitting 避免此假设，本文提及 cross-fitting 但未在定理中强制要求）。
IPW for censoring：用 \(\frac{\Delta_{\tau}}{G(\tau | A, X)}\) 构造删失逆概率加权伪结局，是生存推断的经典技巧（Robins & Rotnitzky 1992），本文将其嵌入 EIF 结构。

真实例子与应用： - 数据集 1（流行病学队列）：作者使用了 Liraglutide 心血管结局试验（Marso et al. 2016，被引文献[1]）的数据，评估 Liraglutide（vs 安慰剂）对 2 型糖尿病患者心血管事件生存时间的异质性效应，TE-VIM 与投影度量用于识别哪些基线特征（如 BMI、HbA1c）驱动了效应异质性。 - 数据集 2（医学队列）：另一个真实数据集（文中具体名称需查全文，可能是 follicular cell lymphoma 或类似生存数据），用于对比生存函数 CATE 与 RMST CATE 下 TE-VIM 的表现。 - 应用方式：用机器学习（如随机森林或 HAL）估计 nuisance 参数（\(\hat{S}, \hat{G}, \hat{\pi}\)），代入 one-step 估计量计算 TE-VIM 与投影系数，构造置信区间。 - 结果说明：真实数据例子展示了 TE-VIM 与投影度量的实际可计算性，并对比了两种 CATE 定义下的结论差异（如某协变量在生存函数 CATE 下重要，但在 RMST CATE 下不重要），验证了方法的实用性，而非单纯理论验证。

🔎 结论是否比证明窄： - 作者在定理陈述中严格要求假设 1-4（尤其是 \(n^{-1/4}\) 收敛率与重叠性），但在应用部分与讨论中泛泛 claim “机器学习 nuisance 估计量通常满足这些条件”，未具体验证所用的随机森林或 HAL 是否在生存设定下达到 \(n^{-1/4}\) 收敛率。这是一个典型的“证明窄、claim 广”的地方，研究者需注意：生存函数与删失概率的机器学习估计量在高维下的收敛率保证并不总是成立。 - 投影参数 \(\beta\) 的 estimating equation 估计量被 claim 为“渐近线性”，但证明中可能隐含了 \(E[\tilde{W} \tilde{W}^T]\) 的估计误差可控的假设，这在 \(W\) 维度较高时需额外条件。

四、开放问题（点到为止，扎根具体语句）¶

高维 \(W\) 下的投影参数推断：本文定理 3 假设 \(E[\tilde{W} \tilde{W}^T]\) 可逆，当 \(W\) 维度较高或存在共线性时，投影系数 \(\beta\) 的估计与推断如何保证？扎根点：定理 3 的陈述与证明中 \(E[\tilde{W} \tilde{W}^T]\) 的可逆假设，以及 intro 中对“部分线性投影易解释”的 claim。
Nuisance 收敛率在生存设定下的可满足性：作者 claim 机器学习估计量可达 \(n^{-1/4}\)，但生存函数与删失概率的估计在高维下的收敛率保证缺乏理论支撑（如随机森林在生存设定下的收敛率未知）。扎根点：假设 4 的陈述与讨论部分对“机器学习通常满足此条件”的泛泛 claim。
删失机制依赖时间的设定：本文假设 \(C \perp T | A, X\)（独立删失），若删失依赖时间变化的中间变量（如依赖 \(T\) 的部分信息），TE-VIM 的识别与 EIF 如何修改？扎根点：假设 2 的陈述与 intro 中对“独立删失”的依赖，以及 Westling et al. (2021) 对更一般删失机制的讨论。
TE-VIM 与 TEM-VIP 的定义差异与优劣：Boileau et al. (2023) 的 TEM-VIP 也覆盖生存结局，但定义与本文 TE-VIM 不同（TEM-VIP 基于 CATE 关于 \(W\) 的条件期望变异，而非条件方差变异），两者在生存设定下的推断效率与解释性有何差异？扎根点：intro 中对 Boileau et al. (2023) 的简短引用与本文 TE-VIM 的定义对比。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Variable importance measures for heterogeneous treatment effects with survival outcome¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论