The projected covariance measure for assumption-lean variable significance testing¶

作者: Anton Rask Lundborg, Ilmun Kim, Rajen D. Shah, Richard J. Samworth
来源: Annals of Statistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在给定协变量 \(Z\) 的条件下，如何检验变量 \(X\) 对响应 \(Y\) 是否具有预测显著性，即检验条件均值独立性 \(H_0: \mathbb{E}[Y|X,Z] = \mathbb{E}[Y|Z]\)。其核心困难在于，这是一个模型自由（model-free）的非参数假设，传统的参数模型（如线性回归的 \(t\) 检验）在模型误设下不仅功效低下，甚至会导致第一类错误膨胀（大量错误拒绝）。当前该方向的成熟度处于有成熟半参数/非参数框架，但 minimax 最优速率与完全模型自由的稳健检验框架刚刚被确立的阶段。

发展脉络（history）： - 奠基工作：Doksum & Samarov (1995) 与 Fan & Li (1996) 开启了非参数设定下检验条件均值依赖的先河，但他们的方法受限于特定的平滑假设或低维设定，留下“高维且模型自由下如何稳健检验”的口子。 - 主要进展：Shah & Peters (2020) 提出了 Generalised Covariance Measure (GCM)，作者在 intro 中明确指出 GCM 是本文的直接前身：“GCM ... based on the sample covariance between Y and X after adjusting for Z ... requires the estimation of conditional means of Y and X given Z”。GCM 留下的口子是：它本质上依赖 \(X\) 与 \(Y\) 在给定 \(Z\) 下残差的协方差，当 \(X\) 与 \(Y\) 的依赖关系高度非线性（如复杂交互）时，线性协方差捕捉不到，导致功效为 0。 - 当前 frontier：非参数检验的 minimax 速率研究。Ingster (1993) 与 Lepski & Spokoiny (1999) 建立了低维非参数检验的 minimax 理论，但高维/模型自由下的最优速率一直缺乏显式刻画。 - 本文的位置：作者将本文定位为 GCM 的非线性推广与 minimax 速率的填补者。本文提出 Projected Covariance Measure (PCM)，将“残差协方差”替换为“投影与响应的条件协方差期望”，并证明基于样条回归的 PCM 版本达到了非参数检验的 minimax 最优速率。

子线索聚类： 1. 线性/残差调整路线：以 Shah & Peters (2020) 的 GCM 为代表。这一簇在做“去混叠后的线性关联检验”，通过估计 \(\mathbb{E}[Y|Z]\) 和 \(\mathbb{E}[X|Z]\) 取残差，算样本协方差。局限在于对非线性依赖与交互效应完全盲视。 2. 非参数平滑检验路线：以 Fan & Li (1996), Guo & Zou (2016) 为代表。这一簇在做“基于特定非参数基（如核、样条）的检验”，通常依赖严格的低维平滑假设，缺乏对高维 \(Z\) 的适应性。 3. 模型自由/半参数稳健路线：以 Shah & Peters (2020) 的 Hardness 结果与本文 PCM 为代表。这一簇在做“不依赖真实回归模型形式的稳健检验”，PCM 通过引入投影步骤与交叉拟合，试图同时兼容 ML 黑箱方法与 minimax 最优速率。

这个方向在追问的核心问题： 1. 在模型误设下，如何构造一个第一类错误严格受控（渐近水平 \(\alpha\)）且对任意非线性依赖保持功效的检验统计量？ 2. 在 \(Z\) 的维度较高时，非参数条件均值独立性检验的 minimax optimal testing rate 是什么？分离常数与指数速率的边界在哪？ 3. 如何在利用复杂 ML 方法（如 Random Forest）保证功效的同时，不破坏统计量在零假设下的渐近分布性质？

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：GCM 只能捕捉线性关联，面对复杂交互功效为零；而现有的非参数检验又受限于低维与强平滑假设。因此，一个“能兼容 ML 方法、且在样条下达到 minimax 最优速率”的框架是显然的下一步。 - 被淡化或回避的竞争路线：作者几乎没有讨论基于核方法（如 HSIC / MMD）的条件独立性检验（如 Fukumizu et al. 2004, Zhang et al. 2012），这些方法同样声称模型自由且能捕捉非线性依赖。作者也未讨论基于最近邻的条件独立性检验（如 Sen & Sen 2014）。 - 明显该被引却未出现的：条件独立性检验的核方法文献（Kernel Conditional Independence Test），以及高维非参数检验的自适应方法（如 Lepski 方法在检验中的推广）。这是值得研究者去查的缺口：作者声称 minimax optimal，但未引未比的自适应检验文献是否已经覆盖了该速率？

张力：未见明显对立引用。但存在一个隐性张力：Shah & Peters (2020) 证明了在某些高维设定下，条件独立性检验是计算上不可行的（Hardness result），而本文提出的 PCM 在样条下达到了 minimax 最优速率。这两者之间的设定边界（\(Z\) 的维度、平滑参数的约束）是否完全无缝衔接，需要研究者亲自核验 Shah & Peters (2020) 的 Hardness 假设与本文 Theorem 5 的假设是否在同一设定下。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(Y\)：响应变量（实值随机变量）。
\(X\)：待检验的目标变量（可以是实值或多维）。
\(Z\)：调整/混叠协变量（多维）。
\((X_i, Z_i, Y_i)\)：第 \(i\) 个样本，\(i=1,\dots,n\)，独立同分布。
\(m_0(z) = \mathbb{E}[Y|Z=z]\)：\(Y\) 对 \(Z\) 的条件均值（零假设下的真实回归函数）。
\(f_0(x,z) = \mathbb{E}[Y|X=x,Z=z]\)：\(Y\) 对 \((X,Z)\) 的真实条件均值。
\(H_0\)：零假设，即 \(f_0(x,z) = m_0(z)\) 对所有 \((x,z)\) 成立（条件均值独立性）。
\(H_1\)：对立假设，即存在 \((x,z)\) 使得 \(f_0(x,z) \neq m_0(z)\)。
\(\mathcal{D}_1, \mathcal{D}_2\)：样本分割的两半数据集，\(|\mathcal{D}_1| = n_1, |\mathcal{D}_2| = n_2\)。
\(\hat{f}, \hat{m}\)：在 \(\mathcal{D}_1\) 上估计的回归函数（\(\hat{f}\) 估计 \(f_0\)，\(\hat{m}\) 估计 \(m_0\)）。
可观测数据：研究者实际能观测到的是 \((X_i, Z_i, Y_i)\) 的 \(n\) 个独立样本。\(f_0, m_0\) 是潜在/不可观测的函数，只能靠非参数方法估计；条件期望 \(\mathbb{E}[\cdot|Z]\) 也是不可观测的，需在 \(\mathcal{D}_2\) 上再估计。

第二步：讲最小内核

整篇论文的证明与方法本质上是一个二维样条回归特例的推广。考虑最简特例：\(Z\) 是一维（\(d=1\)），\(X\) 是一维，\(Y\) 是实值，且我们只用一阶样条（线性回归）来做 \(\hat{f}\) 与 \(\hat{m}\) 的估计。

在这个最简特例下，PCM 的核心思路退化成： 1. 投影步骤：在 \(\mathcal{D}_1\) 上，用线性回归拟合 \(Y \sim (X, Z)\) 得到 \(\hat{f}(X,Z) = \hat{\beta}_0 + \hat{\beta}_1 X + \hat{\beta}_2 Z\)；用线性回归拟合 \(Y \sim Z\) 得到 \(\hat{m}(Z) = \hat{\gamma}_0 + \hat{\gamma}_2 Z\)。 2. 协方差步骤：在 \(\mathcal{D}_2\) 上，计算“投影增量” \(\hat{f}(X,Z) - \hat{m}(Z) = \hat{\beta}_1 X + (\hat{\beta}_0 - \hat{\gamma}_0) + (\hat{\beta}_2 - \hat{\gamma}_2)Z\)。然后计算该增量与 \(Y\) 在给定 \(Z\) 下的条件协方差的期望：

\[T_{n} = \mathbb{E}_{\mathcal{D}_2}\left[ \text{Cov}_{\mathcal{D}_2}\left( Y, \hat{f}(X,Z) - \hat{m}(Z) \mid Z \right) \right]\]

在线性特例下，由于 \(\hat{f} - \hat{m}\) 中 \(Z\) 的部分在给定 \(Z\) 下是常数，条件协方差只捕捉 \(Y\) 与 \(X\) 的残差关联，退化回类似 GCM 的形式，但关键区别在于：\(\hat{f}\) 是对 \((X,Z)\) 的非线性投影的估计，在最简特例中它恰好是线性的，但在一般情形下，\(\hat{f}(X,Z) - \hat{m}(Z)\) 捕捉的是 \(f_0(X,Z) - m_0(Z)\) 的非线性投影增量。

要证的命题在最简特例下退化成什么：在 \(H_0\) 下，\(f_0(X,Z) - m_0(Z) = 0\)。只要 \(\hat{f}\) 和 \(\hat{m}\) 的估计误差足够小（\(L_2\) 误差 \(o_P(n^{-1/4})\)），\(T_n\) 在 \(H_0\) 下渐近服从正态分布，均值为 0。在对立假设 \(H_1\) 下，\(f_0(X,Z) - m_0(Z) \neq 0\)，\(T_n\) 的均值非零，且只要信号强度超过某个阈值（依赖于平滑度与维度），检验的功效趋于 1。

为什么成立（核心直觉）： PCM 的本质是一个双重去混叠的 orthogonal score。\(\hat{f}(X,Z) - \hat{m}(Z)\) 是 \(Y\) 在 \((X,Z)\) 上投影与在 \(Z\) 上投影的差，它提取了 \(X\) 带来的额外预测增量。然后，计算这个增量与 \(Y\) 的条件协方差期望，相当于在 \(Z\) 的层内再算一次关联，彻底去除了 \(Z\) 的线性与非线性混叠效应。交叉拟合（\(\mathcal{D}_1\) 估函数，\(\mathcal{D}_2\) 算协方差）保证了 \(\hat{f}, \hat{m}\) 与 \(\mathcal{D}_2\) 独立，使得条件协方差的期望可以分解为：

\[\mathbb{E}[\text{Cov}(Y, \hat{f}-\hat{m}|Z)] = \mathbb{E}[\text{Cov}(f_0, \hat{f}-\hat{m}|Z)] + \mathbb{E}[\text{Cov}(\epsilon, \hat{f}-\hat{m}|Z)]\]

在 \(H_0\) 下，第一项为 0（因为 \(f_0=m_0\)），第二项因为 \(\hat{f}-\hat{m}\) 与 \(\epsilon\) 独立（交叉拟合）且 \(\mathbb{E}[\epsilon|Z]=0\) 而为 0。这就是 Type I error 严格受控的根源。

三、这篇论文做了什么¶

三句话： ① 研究了在给定协变量 \(Z\) 下检验变量 \(X\) 对响应 \(Y\) 的条件均值独立性（模型自由零假设 \(H_0: \mathbb{E}[Y|X,Z]=\mathbb{E}[Y|Z]\)）的问题。 ② 核心方法是提出 Projected Covariance Measure (PCM)，通过样本分割与交叉拟合，先用灵活回归估计投影增量 \(\hat{f}-\hat{m}\)，再计算其与 \(Y\) 的条件协方差期望作为检验统计量。 ③ 主要结论是：PCM 在模型误设下保持 Type I error 渐近受控，且基于样条回归的 PCM 版本达到了该非参数检验问题的 minimax optimal testing rate（分离常数与指数速率的边界被显式刻画）。

关键设定与假设： - 定义 1 (Conditional Mean Independence)：\(H_0: f_0(x,z) = m_0(z)\) 对所有 \((x,z)\) 几乎必然成立。 - 假设 1 (Moment bounds)：\(Y\) 有四阶矩有界，\(\hat{f}, \hat{m}\) 有界。这是保证协方差统计量方差有限与渐近正态的基础。 - 假设 2 (Estimation rates)：\(\|\hat{f} - f_0\|_{L_2(\mathcal{D}_2)} = o_P(n^{-1/4})\) 且 \(\|\hat{m} - m_0\|_{L_2(\mathcal{D}_2)} = o_P(n^{-1/4})\)。这是半参数 debiased / orthogonal score 构造的经典速率要求，保证了估计误差不破坏统计量的中心极限定理。 - 假设 3 (Variance bound)：\(\text{Var}(\hat{f}(X,Z) - \hat{m}(Z) | Z)\) 的期望有下界。这是为了保证检验统计量在对立假设下能累积信号，不至于方差过大掩盖均值。 - 假设 4 (Sobolev smoothness)：\(f_0, m_0\) 属于 Sobolev 空间 \(\mathcal{S}^{s,p}\)，平滑度为 \(s\)，维度为 \(p\)。这是证明 minimax 速率的核心假设，相比已有文献（如 Fan & Li 1996 的低维固定平滑），本文显式处理了 \(p\) 随 \(n\) 增长的高维情形。

主要结果： - Theorem 1 (Asymptotic normality under \(H_0\))：在假设 1-2 下，\(n^{1/2} T_n / \hat{V}_n \xrightarrow{d} N(0,1)\)，其中 \(\hat{V}_n\) 是基于 \(\mathcal{D}_2\) 估计的方差。这保证了 Type I error 的渐近精确控制。直觉：交叉拟合使得投影增量的估计误差成为二阶项，一阶项为 0。 - Theorem 2 (Power guarantee)：在对立假设下，若信号强度 \(\mathbb{E}[(f_0(X,Z)-m_0(Z))^2]\) 超过 \(C n^{-2s/(2s+p)}\)（\(C\) 为常数），PCM 的功效趋于 1。这直接匹配了非参数检验的 minimax 速率。 - Theorem 5 (Minimax optimal testing rate)：本文的核心理论贡献。证明了在 Sobolev 空间 \(\mathcal{S}^{s,p}\) 下，任何水平 \(\alpha\) 的检验，其分离常数（separation rate）不可能低于 \(n^{-s/(2s+p)}\)（指数速率），而基于样条的 PCM 恰好达到 \(n^{-2s/(2s+p)}\) 的信号强度要求，从而是 minimax optimal 的。必要条件：\(s > p/2\)（平滑度必须足够高，否则非参数检验不可行）。

证明路线与技术技巧： - 整体路线： 1. 构造统计量：定义 \(T_n = \mathbb{E}_{\mathcal{D}_2}[\text{Cov}_{\mathcal{D}_2}(Y, \hat{f}-\hat{m}|Z)]\)，并写出其条件期望的分解式。 2. 零假设下的中心极限定理：利用交叉拟合的独立性，将 \(T_n\) 分解为真实信号项 + 估计误差项。证明估计误差项的方差在 \(n^{-1/4}\) 速率下为 \(o_P(n^{-1/2})\)，从而不干扰一阶正态极限。 3. 对立假设下的功效分析：计算 \(T_n\) 的均值，证明其等于 \(\mathbb{E}[(f_0-m_0)^2]\) 加上二阶余项。当信号强度超过分离常数时，均值除以标准差趋于无穷。 4. Minimax 下界：构造两个 Sobolev 空间上的先验分布（零假设下的先验与对立假设下的先验），利用 Le Cam 方法证明任何检验的总错误概率有下界。 5. Minimax 上界：证明样条 PCM 的分离常数恰好匹配下界。 - 关键跳跃点： - 从线性协方差到条件协方差期望：GCM 只算 \(\text{Cov}(Y-\hat{m}, X-\hat{g})\)，PCM 算 \(\mathbb{E}[\text{Cov}(Y, \hat{f}-\hat{m}|Z)]\)。这一跳跃的难点在于：条件协方差 \(\text{Cov}(Y, \hat{f}-\hat{m}|Z)\) 本身是一个随机变量（依赖于 \(Z\)），再对其取期望，需要控制 \(\hat{f}-\hat{m}\) 在给定 \(Z\) 下的方差波动。作者通过假设 3（方差下界）与假设 2（估计速率）绕过了这个难点。 - Minimax 下界的构造：在 \(p\) 维 Sobolev 空间上构造对立假设的先验，使得 \(f_0-m_0\) 是一个随机函数，其 \(L_2\) 范数的期望恰好落在分离常数边界上。这需要精细的 Sobolev 空间范数与 Bessel 核的计算。 - 技术技巧点名： - Cross-fitting sample splitting：用在统计量构造上，保证 \(\hat{f}, \hat{m}\) 与 \(\mathcal{D}_2\) 独立，这是 orthogonal score / debiased ML 的标准技巧，起消除一阶偏差的作用。 - Neyman orthogonalization / Projection：用在 \(\hat{f}-\hat{m}\) 的构造上，\(\hat{f}\) 是对 \((X,Z)\) 的投影，\(\hat{m}\) 是对 \(Z\) 的投影，差值天然对 \(m_0\) 的估计误差正交（因为 \(\mathbb{E}[\text{Cov}(f_0, \hat{m}-m_0|Z)] = 0\)），起降低对 \(m_0\) 估计速率要求的作用。 - Le Cam method：用在 minimax 下界证明上，通过构造两个混合分布，计算总变差距离的下界，起证明任何检验不可行的作用。 - Sobolev space approximation by splines：用在 minimax 上界证明上，利用样条在 Sobolev 空间上的逼近速率 \(O(n^{-s/(2s+p)})\)，起证明 PCM 达到最优分离常数的作用。

真实例子与应用： - 模拟实验：作者设计了多个模拟场景验证 PCM 的 Type I error 与功效。 - 场景 1 (Type I error under model misspecification)：数据生成 \(Y = Z_1 + Z_2 + \epsilon\)，但拟合线性模型 \(Y \sim X + Z\)（\(X\) 与 \(Z\) 相关）。此时线性模型的 \(t\) 检验因误设导致大量错误拒绝（Type I error 超过 0.5），而 PCM（使用 Random Forest 或 Additive Model）保持 Type I error 在 0.05 附近。 - 场景 2 (Power against nonlinear dependence)：数据生成 \(Y = X \cdot Z_1 + Z_2 + \epsilon\)（交互效应）。GCM 因只捕捉线性协方差，功效接近 0；PCM（使用 Random Forest）功效接近 1。 - 场景 3 (Minimax rate verification)：在 Sobolev 空间下生成数据，改变信号强度与样本量，验证 PCM 的功效转折点是否匹配 \(n^{-2s/(2s+p)}\) 的理论预测。 - 真实数据例子：本文为纯理论/模拟驱动，无实证例子。

🔎 结论是否比证明窄： - 作者在 intro 和 abstract 中泛泛 claim PCM 可以“leverage flexible nonparametric or machine learning methods, such as additive models or random forests”，但 Theorem 1 的严格证明只要求 \(\hat{f}, \hat{m}\) 达到 \(o_P(n^{-1/4})\) 的 \(L_2\) 速率。Random Forest 在高维下是否必然达到此速率，未被本文证明，且现有文献对 Random Forest 的 \(L_2\) 速率保证多限于低维或特定分布假设。这是一个结论比证明宽的地方。 - Theorem 5 的 minimax optimal rate 只在样条回归下严格证明，对其他 ML 方法（如 Kernel、Neural Network）是否同样达到此速率，本文只 conjecture，未证明。

四、开放问题（点到为止，扎根具体语句）¶

高维 \(Z\) 下的 \(o_P(n^{-1/4})\) 速率可行性：Theorem 1 要求 \(\|\hat{f}-f_0\|_{L_2} = o_P(n^{-1/4})\)，当 \(Z\) 的维度 \(p\) 较大时，非参数回归达到此速率需要 \(s > p/2\)（假设 4）。若 \(s < p/2\)，PCM 是否仍有渐近正态性？扎根于 Theorem 1 的假设 2 与 Theorem 5 的必要条件 \(s > p/2\)。
条件协方差期望的方差估计：本文用 \(\hat{V}_n\) 估计 \(T_n\) 的方差，但 \(\hat{V}_n\) 的构造依赖于对 \(\text{Var}(Y|Z)\) 的非参数估计。在高维下，\(\text{Var}(Y|Z)\) 的估计速率是否同样满足 \(o_P(n^{-1/4})\)？扎根于 Section 3.2 的方差估计公式与假设 1。
Kernel / Neural Network 下的 Minimax rate：Theorem 5 只证明了样条 PCM 的 minimax optimal，其他非参数方法（如 Reproducing Kernel Hilbert Space 回归）是否同样达到 \(n^{-2s/(2s+p)}\) 的分离常数？扎根于 Section 5 的最后一段，作者仅提及“the approach is general”，但未给出其他方法的速率证明。
与条件独立性检验的 Hardness 边界：Shah & Peters (2020) 证明了条件独立性检验在某些高维设定下不可行，本文 PCM 的 minimax optimal 设定（\(s > p/2\)）是否恰好落在 Hardness 设定之外？扎根于 intro 对 Shah & Peters (2020) 的引用与 Theorem 5 的设定对比——需研究者亲自核验两者的 \(p\) 与 \(s\) 约束是否重合。

Maintained by 陈星宇 · Homepage · Source on GitHub

The projected covariance measure for assumption-lean variable significance testing¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论