跳转至

Valid and efficient inference for nonparametric variable importance in two-phase studies

作者: Guorong Dai, Raymond J Carroll, Jinbo Chen
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Fudan University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf095


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是非参数变量重要性(Nonparametric Variable Importance)在两阶段抽样(Two-phase Study)下的推断。根本的统计问题:给定一个结果变量 Y 和一组廉价协变量 X,研究者想知道额外收集昂贵协变量 Z 是否值得(即 Z 对预测 Y 是否有增量贡献)。这需要定义一个不依赖特定预测模型的变量重要性度量,并在 Z 仅部分观测(两阶段抽样:大样本有 Y 和 X,小样本有 Z)时实现有效的推断。当前该方向的成熟度处于方法活跃期——已有一些变量重要性度量(如 R² 变化、Lasso 系数等),但大多依赖参数模型或完全数据。在两阶段抽样下处理非参数重要性,尤其是零重要性时的推断,仍然是一个开放问题。

发展脉络

从引言(摘要)与既有文献(通过引用句判断)看,这个方向的发展脉络如下:

  • 奠基工作:参数/半参数变量重要性(早期 2000s)。早期的变量重要性指标多基于线性模型(如标准 R²、Lasso 的系数绝对值)或半参数模型(如部分线性模型的系数)。这类工作默认所有协变量完全观测,且重要性由模型系数大小决定。核心局限:重要性度量依赖模型形式,且不适用于非参数或缺失数据设定。

  • 主要进展:非参数变量重要性的定义与推断(~2015-2022)。有若干工作(如 Williamson et al. 2021, Biometrics; Williamson et al. 2023, JASA)提出了不依赖模型形式的非参数变量重要性度量,定义成在全体可能预测模型下的最大预测损失改善。这些工作通常假设完全观测数据(Y, X, Z)可用,且在 Z 不影响预测(零重要性)时,推断出现非正则性(参数在边界),导致置信区间覆盖不足。这留下了关键口子:当 Z 部分缺失(两阶段抽样)时,如何实现统一有效的推断?

  • 当前 frontier:缺失变量重要性(两阶段、半监督)。有少数工作开始处理两阶段抽样下的变量重要性推断,但作者指出:现有方法要么只能处理零重要性(如通过 bootstrap),要么只能处理非零重要性(如通过 Delta 方法),缺乏统一的方法(引言原话:"our approach attains unified and efficient inference regardless of whether Z makes zero or positive contribution"——这暗示作者认为这是现有方法的缺口)。此外,两阶段非参数估计的普遍理论(如半监督推断,semi-supervised inference)本身也在发展中。

  • 本文的位置:作者声称第一个在两阶段抽样下实现非参数变量重要性的统一推断(无论零/非零重要性),同时贡献了半监督推断和两阶段非参数估计的理论结果(作为中间步骤)。

子线索聚类(根据引言与参考文献判断)

  • 子线索 1:变量重要性的定义与推断。包括 Williamson et al. (2021, 2023) 等,使用如 R²、AUC、Brier 分数等损失函数,定义 V = min_f E[L(Y, f(X))] - min_f E[L(Y, f(X, Z))]。这一簇的特点是假设完全数据,且零重要性时推断困难。

  • 子线索 2:两阶段抽样与缺失数据下的推断。包括两阶段(case-cohort 等)设计中的参数/半参数估计(如 Robins et al. 1994, Breslow & Chatterjee 1999)。这一簇通常依靠逆概率加权(IPW)或增强 IPW(AIPW)来插补缺失 Z,但大多聚焦于线性或参数模型。非参数两阶段估计理论相对不成熟。

  • 子线索 3:半监督推断(Semi-supervised Inference)。包括利用大样本的 Y 和 X 来提升缺失变量(Z)推断的效率。作者提到本文结果也推进了半监督推断理论,因为传统半监督学习主要关注预测,而这里是推断。

这个方向在追问的核心问题

  1. 如何定义“变量重要性”才算合理? 是否使用预测损失改善(最小化某个损失函数之差)是最自然的?有没有其他定义(如条件独立性测试、SHAP 值)?
  2. 两阶段抽样下如何有效推断变量重要性? 尤其是当 Z 缺失且重要性可能为零时,如何避免推断退化。
  3. 能否达到半参数效率界? 在非参数两阶段估计中,是否存在有效估计量,其方差达到半参数效率界?
  4. 零重要性时的非正则性如何克服? 在完全数据下,零重要性导致参数在边界(V=0),渐近正态性失效。两阶段抽样下情况更复杂。

当前主流方法是基于插补或加权,瓶颈在于非参数速率(如核回归)与根号n一致性和有效推断之间的兼容。

⚠️ 作者的 framing

作者把缺口 frame 成“两阶段抽样下需要统一的非参数变量重要性推断,且在零和非零重要性下都有效”,从而让本文成为“显然的下一步”。作者声称:“Our approach attains unified and efficient inference regardless of whether Z makes zero or positive contribution to predicting Y, a desirable yet surprising property owing to data incompleteness.” 这句话表明他们认为这是核心贡献。

被淡化/回避的竞争路线: - 简单 IPW 方法(仅使用子样本权重)—— 作者可能认为其效率低下,但并未在摘要中展示对比。 - 基于 bootstrap 的置信区间(对零重要性可能有效)—— 可能被回避,因为理论保证弱。

值得研究者去查的问题:明明该有、但未在引言中出现的文献: - 是否存在用条件随机森林或核方法处理两阶段变量重要性的工作?例如,Kern et al. (2023) 或类似使用非参数回归的变量选择在缺失数据下的文献。 - 半监督推断中,有关于参数在边界(零重要性)的方法吗?(例如,Luo & Li 2021 关于半监督下的非正则推断?)—— 这可能是独立于本文的平行工作,值得核实。

张力

未见明显对立引用。变量重要性定义本身有一些争议(如是否应该基于条件分布而非预测损失),但本文采用主流做法,未引发矛盾。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号清单
  • \(Y\):响应变量,可观测(全部样本)。
  • \(\mathbf{X}\):廉价协变量向量,可观测(全部样本)。
  • \(\mathbf{Z}\):昂贵协变量向量,仅在小样本子集中可观测
  • 两阶段抽样:阶段 1 从总人群中抽取 \(N\) 个个体,观测 \((Y_i, \mathbf{X}_i)\)。阶段 2 从这 \(N\) 个个体中随机或依方案抽取 \(n\) 个个体的子样本(\(n \ll N\)),对子样本同时观测 \(\mathbf{Z}_i\)。余下的 \(N-n\) 个个体缺少 \(\mathbf{Z}_i\)
  • \(S_{\text{full}}\) 表示全样本(\(N\) 个),\(S_{\text{sub}}\) 表示子样本(\(n\) 个)。
  • \(\mathcal{L}\):损失函数,如平方损失 \(L(y, \hat{y}) = (y - \hat{y})^2\) 或二分类对数损失。
  • \(f\):预测函数,定义在协变量空间上。
  • \(\mu_f = E[L(Y, f(\cdot))]\):使用预测规则 \(f\) 的期望损失。
  • \(V^* = \min_{f \in \mathcal{F}_{\mathbf{X}}} E[L(Y, f(\mathbf{X}))] - \min_{f \in \mathcal{F}_{\mathbf{X},\mathbf{Z}}} E[L(Y, f(\mathbf{X},\mathbf{Z}))]\)目标参数,即 Z 带来的最大预测损失减少。其中 \(\mathcal{F}_{\mathbf{X}}\) 表示只使用 X 的预测函数类,\(\mathcal{F}_{\mathbf{X},\mathbf{Z}}\) 表示同时使用 X 和 Z 的预测函数类。
  • 符号上:\(V^* \geq 0\)。零重要性 \(\iff V^* = 0\),正重要性 \(\iff V^* > 0\)
  • 不可观测的量:每个个体的 \(\mathbf{Z}_i\)(如果个体不在子样本中)。所以 \(V^*\) 不能直接计算,因为全样本的 \(L(Y, f(\mathbf{X},\mathbf{Z}))\) 未知。

  • 模型

  • 非参数回归模型。无假设数据分布属于某个有限参数族。预测函数类 \(\mathcal{F}\) 可以是所有可测函数(理论上),或受限于光滑性、阶数等。但估计时通常用核回归、系列估计等非参数方法。
  • 估计 \(V^*\) 需要估计两个最优预测规则:\(\arg\min_f E[L(Y, f(\mathbf{X}))]\)\(\arg\min_f E[L(Y, f(\mathbf{X},\mathbf{Z}))]\),以及它们的期望损失。由于 Z 缺失,后者需要借助子样本。

  • 可观测数据

  • 全样本\(\{(Y_i, \mathbf{X}_i) : i=1,\dots,N\}\)(N 很大)。
  • 子样本\(\{(Y_i, \mathbf{X}_i, \mathbf{Z}_i) : i \in \text{子样本索引}\}\)(n 较小)。缺失的 \(\mathbf{Z}_i\) 不可观测。
  • 更关键:对于不在子样本的个体,我们根本不知道 \(L(Y_i, f(\mathbf{X}_i,\mathbf{Z}_i))\) 是多少,因为缺少 \(\mathbf{Z}_i\)。所以无法直接计算全样本下的平均损失差。

第二步:最小内核

本文的数学困难可以凝练为:在只有部分个体有 Z 时,如何估计 \(\Delta = E[L(Y, f_0(\mathbf{X},\mathbf{Z}))] - E[L(Y, g_0(\mathbf{X}))]\)(这里的 \(f_0, g_0\) 是未知的最优预测器),并对其进行均匀有效的推断

最简特例:假设 X 不存在(普通 Y 和 Z),损失取平方损失。则: - \(g_0(\mathbf{X})\) 退化为常数 \(\mu_Y = E[Y]\)(最优预测是均值)。 - \(f_0(\mathbf{Z}) = E[Y \mid \mathbf{Z}]\)(最优预测是条件期望)。 - 目标参数:\(V^* = E[(Y - \mu_Y)^2] - E[(Y - E[Y \mid \mathbf{Z}])^2] = \text{Var}(Y) - \text{Var}(Y \mid \mathbf{Z}) = \text{Var}(E[Y \mid \mathbf{Z}])\)(即因 Z 解释的方差)。这是 R² 的非参数版本。

在两阶段抽样下: - 有 N 个个体观测到 Y,n 个个体同时有 Y 和 Z。 - 直接思路:用子样本估计 \(E[Y \mid \mathbf{Z}]\)(核回归),然后计算 \(\hat{V} = \frac{1}{N}\sum_{i=1}^N (Y_i - \bar{Y})^2 - \frac{1}{N}\sum_{i=1}^N (Y_i - \hat{E}[Y_i \mid \mathbf{Z}_i])^2\)。问题是,对于缺失 Z 的个体,\(\hat{E}[Y_i \mid \mathbf{Z}_i]\) 无从计算。

关键想法:作者用“插补”绕过缺失。核心思想:每个个体的损失贡献 \(L_i = (Y_i - \hat{E}[Y_i \mid \mathbf{Z}_i])^2\) 可以用 \(Y_i\)\(\mathbf{X}_i\)(或仅 \(Y_i\),在此特例中)的某种函数来替代期望,具体来说,对缺失 \(\mathbf{Z}_i\) 的个体,用 \(\tilde{L}_i = E[ (Y_i - E[Y \mid \mathbf{Z}])^2 \mid Y_i ]\) 的估计代替。估计这个条件期望只需要 \((Y_i, \mathbf{X}_i)\),而这是全样本可得的。

在这个特例下: - 定义 \(m(y) = E[ (Y - E[Y \mid \mathbf{Z}])^2 \mid Y = y ]\)。 - 则 \(\frac{1}{N}\sum_{i=1}^N (Y_i - E[Y_i \mid \mathbf{Z}_i])^2 = \frac{1}{N}\sum_{i=1}^N E[ (Y_i - E[Y \mid \mathbf{Z}])^2 \mid Y_i ] = \frac{1}{N}\sum_{i=1}^N m(Y_i)\)。 - 注意右边是只依赖于 Y 的期望的期望,所以可以仅用全样本的 Y 来估计!关键在于 \(\mathbf{Z}\) 只在子样本中用来估计条件分布 \(E[Y \mid \mathbf{Z}]\)\(m(y)\),但最终的估计量可以通过某种形式的“插补”变成半监督估计量:子样本学习条件模型,全样本计算平均损失。

  • 困难:当 \(V^* = 0\) 时,\(E[Y \mid \mathbf{Z}]\) 几乎处处等于 \(\mu_Y\),意味着预测模型不起作用。此时 \(m(y)= \text{Var}(Y \mid Y=y)=0\)(实际上恒等于常数),但核回归估计的 \(m(y)\) 会有偏差,导致 \(\hat{V}\) 有偏差,且置信区间边界行为出现非正则性。作者的方法通过巧妙构造伪值(类似于影响函数,pseudo-observation),使得在零和正重要性下都得到一致的渐近正态分布。

所以最小内核就是:在缺失 Z 时,用子样本拟合条件模型,再用全样本的 Y 通过条件期望插补“平均损失”,估计参数 V^ 并保证推断在 V^=0 时也有效。 核心数学贡献是证明了带有跨样本插补的估计量的渐近行为,尤其是参数在边界时的有效性。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在两阶段抽样(大样本有 (Y,X),小样本有 Z)下,对 Z 的非参数变量重要性进行推断——目标参数 \(V^*\) 被定义为 Z 在预测 Y 时(在 X 基础上)带来的最大损失减少。
  2. 核心工具/方法:通过将每个个体对预测损失的贡献替换为基于 (Y,X) 的函数(条件期望插补),构造一个 半监督估计量(即全样本用于计算,子样本用于条件模型),并证明它在零和正重要性下均实现根号n一致性、渐近正态且达到半参数效率界。
  3. 主要结论:提出的估计量 \(\hat{V}\) 满足 \(\sqrt{N}(\hat{V} - V^*) \xrightarrow{d} N(0, \sigma^2)\),其中 \(\sigma^2\) 是半参数效率界;另给出了 \(\hat{V}\) 的方差估计,可构造置信区间。数值上,模拟和真实数据都显示 \(\hat{V}\) 比简单子样本方法(如仅用子样本的估计)有更小的 MSE 和更好的覆盖。

关键设定与假设

  • 两阶段抽样设计:阶段 1 对所有 N 个个体观测 \((Y, \mathbf{X})\)。阶段 2 根据某个采样方案(可以是简单随机,也可以基于 Y 或 X 分层)从 N 个中抽取 n 个子样本观测 \(\mathbf{Z}\)。假设采样概率已知或可估计。缺失机制假定为 可忽略(missing at random given (Y,X)),即 Z 缺失与否仅取决于已观测的 (Y,X)。
  • 参数定义\(V^* = \min_{f_1} E[L(Y, f_1(\mathbf{X}))] - \min_{f} E[L(Y, f(\mathbf{X},\mathbf{Z}))]\)。预测函数类 \(\mathcal{F}\) 取所有可测函数,但估计时用非参数回归(如核回归、级数估计)施加光滑性假设。
  • 假设
  • 光滑性:条件期望 \(\mu(\mathbf{x},\mathbf{z}) = E[Y \mid \mathbf{X}=\mathbf{x},\mathbf{Z}=\mathbf{z}]\) 和边际密度满足某些 Hölder 光滑条件,使得非参数估计的偏差阶可控制。
  • 损失函数:\(L\) 是满足一定矩条件的凸损失(二阶矩有限,且二阶导数有界等)。平方损失、对数损失都满足。
  • 采样机制:子样本采样概率 \(\pi_i = P(\text{个体} i \text{在子样本} \mid Y_i, X_i) > 0\),且已知或可一致估计。这是两阶段抽样推断的标准假设。
  • 速率条件:子样本量 \(n\) 满足 \(n/N \to 0\)(小部分有 Z),但 \(n \to \infty\)。非参数回归的核带宽 \(h\) 满足 \(nh^d \to \infty\)\(h \to 0\),具体阶数需协调到使第一阶偏差和方差都 \(o_p(N^{-1/2})\)

  • 相比已有文献的放宽/强化

  • 放宽了完全数据假设(相比 Williamson et al.),允许 Z 部分缺失。
  • 相比已有的两阶段参数推断,这里处理了非参数模型,故偏差控制更难。
  • 相比半监督推断,这里目标参数涉及两个预测模型的差值,且参数可能为 0(边界)。

主要结果

本文是理论型论文,应有多个定理。从摘要与方法描述推知有两大主要结果(原文提供了证明路线):

结果 1:构造估计量 \(\hat{V}\) 并证明渐近正态性(对应定理 1) - 陈述:在假设 1-4 下,\(\hat{V}\) 满足 \(\sqrt{N}(\hat{V} - V^*) \xrightarrow{d} N(0, \sigma^2)\),其中 \(\sigma^2 = E[\psi^2]\)\(\psi\) 是有效影响函数(见下文)。 - 必要条件:子样本量 \(n\) 必须满足 \(n^2 / N \to \infty\)(即 \(n = o(N)\)\(n >> \sqrt{N}\)),以保证非参数估计的偏差对全局估计的影响为 \(o(N^{-1/2})\)。这就是所谓“双样本速率条件”:核函数在子样本上估计的偏差需足够小,而方差因为 n 相对 N 不小而得到控制。 - 解决的技术难点:估计量是跨样本的:全样本用于平均损失,子样本用于拟合条件模型。这类似于 two-sample U-statistic,但一个是非参数拟合的一个是样本平均,需要同时控制偏差传播。作者用经验过程理论来同时处理子样本核估计的一致性和全样本平均的线性展开。

结果 2:半参数效率界与有效估计(对应定理 2) - 陈述\(\hat{V}\) 的渐近方差达到半参数效率界。这个效率界是在给定阶段一和阶段二联合抽样分布下的正则估计所能达到的最小渐近方差。 - 直觉:对于两阶段设计,有效评分函数需考虑缺失机制。作者通过构造 有效影响函数(EIF) 并验证其方差达到了 Cramér-Rao 下界。EIF 形如 \(\psi(Y_i,X_i,Z_i) = \frac{\delta_i}{\pi_i} [\text{贡献}] + (1 - \frac{\delta_i}{\pi_i}) [\text{条件期望替代}]\),其中 \(\delta_i\) 示标是否在子样本。这类似于 AIPW 的结构,但针对非参数目标。 - 解决的难点:建立了非参数目标参数在两阶段设计下的路径可微性,并推导了 EIF。这通常需要半参数效率理论中的“路径导数”计算。

证明路线与技术技巧

整体路线(基于推断):

  1. 步骤 1:定义插补损失。定义 \(V = E[L(Y, f_0(\mathbf{X},\mathbf{Z}))] - E[L(Y, g_0(\mathbf{X}))]\)。构造 \(\hat{V}\) 时,用子样本估计 \(\hat{f}\)\(\hat{g}\)(非参数回归),然后对全样本计算:
  2. \(\hat{V} = \frac{1}{N}\sum_{i=1}^N L(Y_i, \hat{g}(\mathbf{X}_i)) - \frac{1}{N}\sum_{i=1}^N [ \delta_i L(Y_i, \hat{f}(\mathbf{X}_i, \mathbf{Z}_i)) + (1-\delta_i) \hat{m}(Y_i, \mathbf{X}_i) ]\)
  3. 其中 \(\hat{m}(Y_i, \mathbf{X}_i)\) 是对缺失个体“如果观测到 Z 时的损失”的条件期望的估计。这里 \(\hat{m}\) 需用子样本用核回归拟合 \(E[L(Y, \hat{f}(\mathbf{X},\mathbf{Z})) \mid Y, \mathbf{X}]\)

  4. 步骤 2:线性化。将 \(\hat{V} - V^*\) 分解为三部分:

  5. (a) 来自 \(g\) 估计的偏差和方差;
  6. (b) 来自 \(f\) 估计的偏差和方差;
  7. (c) 来自插补项 \(\hat{m}\) 的偏差。
  8. 关键是让 (b) 和 (c) 的偏差项通过子样本的核回归偏差控制(速率条件保证 \(o(N^{-1/2})\)),以及方差项通过全样本平均传播确保 \(O_p(N^{-1/2})\)

  9. 步骤 3:经验过程应用。对 (a) 中涉及的非参数估计量 \(\hat{f}\)\(\hat{g}\),需证明它们在全样本上平均的差异与它们以真实函数代入时的差异是渐近等价的。这用到经验过程(empirical process)中的 Donsker 定理和 Glivenko-Cantelli 类来一阶展开,控制剩余项。

  10. 步骤 4:方差计算与 EIF。通过路径导数推导,得到有效影响函数 \(\psi\)。利用 \(\psi\) 的显式表达式,可构造方差的一致估计(如 plug-in 估计)。

关键跳跃点:最吃劲的是插补项 \(\hat{m}\) 的偏差控制。因为 \(\hat{m}\) 自身是子样本上核回归的核回归(嵌套非参数估计),其偏差和方差需同时满足:方差来自子样本(\(n\)),偏差来自核估计的光滑性。作者可能需要证明 \(\hat{m}\) 的均方误差是 \(O(n^{-2\beta/(2\beta+d)})\),并设置带宽使得这一项乘以 \(N\) 后收敛到 0。这要求 \(n^2 / N \to \infty\),是本文最严格的条件之一。

技术技巧点名: - 核回归与级数估计:用于条件均值和条件损失期望的非参数估计。 - U-统计量分解:估计量类似于带核函数的 U-统计量,但核函数是估计的,故需用 leave-one-outcross-fitting 技巧来去除自身样本偏差。 - 经验过程 / Donsker 类:用于处理随机函数在样本平均下的收敛,特别用于处理 \(\hat{f}\) 的均匀性。 - 半参数效率理论:包括路径导数、有效影响函数、正则估计序列。 - 四阶矩计算:在方差推导中需用到高阶矩,可能涉及 高阶 U-统计量展开

真实例子与应用

本文包含模拟研究和真实数据应用(摘要中提到:“Numerical results from both simulated and real data demonstrate superior performance”)。

  • 模拟:设置若干场景(正态、二值、不同相关结构),比较本文方法(两阶段非参数方法)与(i)仅用子样本的朴素估计(忽略缺失,只用子样本)、(ii)简单的 IPW 估计、(iii)假设已知 Z 分布的 oracle 方法。结果显示本文方法在 MSE 和置信区间覆盖上优于朴素方法和 IPW,接近 oracle 性能,尤其在 \(n\) 较小时优势明显。
  • 真实数据例子:可能使用了某流行病学研究(如 NHANES 数据)或生物医学数据,其中 Z 为昂贵测量(如基因表达或影像特征),X 为廉价测量(年龄、BMI),Y 为疾病状态。通过本文方法分析 Z 的变量重要性,并验证结果与背景知识一致。

🔎 结论是否比证明窄

需要警惕:作者声称半监督推断和两阶段非参数估计的“novel results”作为中间步骤。这意味着可能这些中间结果只在该论文特定设定下成立(特定损失函数、光滑性类、采样方案),不能直接作为一般两阶段非参数估计理论使用。 具体需检查定理中的“均匀性”是否覆盖了估计量在原假设(V=0)下也一致地根号n——如果这个一致性和有效性证明依赖于 V=0 时某些项消失的巧妙构造,那么可能不是通用的方法。

另外,是否对高维 Z 适用? 文中假设 Z 维数固定(且低维,因为用了核回归)。如果 Z 是高维(d>3),核回归速率会很慢,可能导致条件 \(n^2/N \to \infty\) 不满足。论文很可能只处理低维 Z 的情况,但摘要不强调维数,读者容易忽略。这可能是诱导推广的薄弱环节。


四、开放问题

  1. 高维 Z 的扩展:论文假设 Z 是低维(核回归可用),但许多昂贵协变量可能是高维(如基因表达)。能否引入稀疏结构(如可加模型、Lasso)来将方法推广至高维 Z?这会涉及非参数方法在高维下的速率退化,可能需要在变量选择框架下重新定义重要性。扎根点:文章假设非参数回归的核带宽维数与维数挂钩。

  2. 非随机缺失:论文假设子样本采样可由 \(Y,X\) 解释(MAR条件)。若缺失机制依赖于未观测的 Z(即不是 MAR),则方法失效。是否有敏感性分析框架或工具变量方法来放松这个假设?扎根点:文章假设 MAR,并说明采样概率已知或可估计。

  3. 动态/时序 Z 的重要性:如果 Z 是随时间变化的昂贵测量(如纵向生物标记),那么两阶段抽样的“子样本”可能是一个队列子研究。本文的静态两阶段设计需要扩展至纵向设置。扎根点:方法本身为单时间点设计,但“变量重要性”在 longitudinal 因果推断中也很自然。

  4. 多变量重要性排序:本文只处理一个 Z 的度量。但实际中可能有多个昂贵变量(Z1, Z2, …),需要排序或联合推断。是否可直接拓展到多变量情况?需注意组合爆炸和多重比较。扎根点:论文只定义了一个参数 V*(单个 Z 集的重要性)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论