Feature screening for metric space-valued responses based on Fréchet regression with its applications¶

作者: Bing Tian, Jian Kang, Wei Zhong
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf007

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：当响应变量（response）取值于一个一般的度量空间（metric space），而非传统的欧几里得空间时，如何从超高维（ultrahigh-dimensional）的预测变量中筛选出真正重要的特征？传统的变量筛选方法（如基于相关系数、线性模型系数的SIS）严重依赖响应变量的向量空间结构（如均值、方差、线性可加性），无法直接处理分布数据、矩阵值数据、流形数据等复杂对象。当前该方向的成熟度较低，大多数方法仍局限于标量或低维向量响应，针对度量空间响应的超高维筛选几乎是空白。

发展脉络（history）¶

奠基工作：Sure Independence Screening (SIS) 的提出
- Fan & Lv (2008)：提出了SIS方法，利用边际相关系数对超高维线性模型进行变量筛选，并证明了sure screening性质（以概率趋于1保留所有重要变量）。这是整个领域的起点，确立了“边际效用 + 阈值筛选”的范式。
- Fan & Song (2010)：将SIS推广到广义线性模型（GLM），使用边际似然比或边际残差作为效用函数。这为后续将SIS扩展到非欧几里得响应提供了“边际效用”这一可泛化的概念。
主要进展：SIS向复杂响应和复杂模型的扩展
- Zhu et al. (2011)：提出了基于距离相关（distance correlation）的SIS（DC-SIS），它不假设模型形式，能捕捉非线性依赖，且适用于多元响应。这是第一个不依赖线性模型假设的SIS方法，但其响应仍需是欧几里得空间中的向量。
- Li et al. (2012)：提出了基于秩相关（rank correlation）的SIS，对异常值更稳健。
- He et al. (2019)：提出了基于分位数回归的SIS，适用于异方差和非正态误差。
- Liu et al. (2014)：提出了基于互信息（mutual information）的SIS，能捕捉更复杂的依赖关系。
- Cui et al. (2015)：提出了基于经验条件分布函数的SIS（ECD-SIS），适用于响应为标量的情况，但能处理非线性依赖。
当前Frontier：Fréchet回归与度量空间响应
- Petersen & Müller (2019)：提出了Fréchet回归框架，将回归分析从欧几里得空间推广到一般的度量空间。核心思想是：用“Fréchet期望”（使距离平方期望最小的点）替代传统均值，从而定义条件Fréchet期望（回归函数）。这为处理分布、矩阵、流形等复杂响应提供了统一的回归框架。
- Chen et al. (2023)：提出了Fréchet分位数回归，进一步丰富了Fréchet回归的工具箱。
- 本文 (Tian, Kang & Zhong, 2024)：本文的位置是首次将SIS的思想与Fréchet回归框架结合，解决“响应为度量空间值”时的超高维变量筛选问题。它填补了从“欧几里得响应SIS”到“度量空间响应SIS”的空白。

子线索聚类¶

基于模型的SIS：假设响应与预测变量之间存在某种参数化或半参数化模型（如线性、GLM、分位数回归）。代表工作：Fan & Lv (2008), Fan & Song (2010), He et al. (2019)。优点：统计效率高，理论成熟。缺点：模型假设强，易因模型误设而失效。
基于依赖度量的SIS：不假设模型形式，直接度量预测变量与响应之间的边际依赖强度。代表工作：Zhu et al. (2011) (距离相关), Li et al. (2012) (秩相关), Liu et al. (2014) (互信息), Cui et al. (2015) (ECD)。优点：灵活，能捕捉非线性关系。缺点：对高维复杂依赖的统计效率可能低于模型方法，且多数方法仍要求响应为欧几里得空间中的向量。
基于Fréchet回归的SIS（本文）：这是对“基于依赖度量的SIS”的推广，使其能处理度量空间响应。核心创新在于将“边际效用”定义为边际Fréchet回归的残差平方和，该定义仅依赖于响应对象之间的距离度量。

这个方向在追问的核心问题¶

如何定义“重要性”：当响应不是向量时，如何构造一个合理的边际效用（marginal utility）来度量单个预测变量与响应之间的关联强度？传统相关系数、协方差等概念失效。
Sure Screening性质的证明：在度量空间响应的设定下，需要什么样的正则条件（如距离度量的性质、响应空间的几何性质）才能保证sure screening性质？证明框架需要从欧几里得空间推广到一般度量空间。
计算可行性：对于超高维预测变量（如p > 10^5），边际效用的计算必须足够快。Fréchet回归本身可能涉及复杂的优化（如计算Fréchet均值），如何保证筛选过程在计算上是可行的？
阈值选择：如何在实际中确定一个数据驱动的阈值来区分重要与不重要变量？理论上的阈值通常依赖于未知参数，实际中常用的是“取前d个”或“基于随机排列的阈值”。

⚠️ 作者的Framing¶

作者把缺口frame成什么：作者明确指出，现有SIS方法（如Fan & Lv, 2008; Fan & Song, 2010; Zhu et al., 2011）都“主要针对标量或向量响应”（"mainly focus on scalar or vector responses"），而实际应用中响应可以是分布、矩阵等复杂对象。因此，本文的“显然的下一步”就是将SIS推广到Fréchet回归框架下，从而处理度量空间值的响应。
哪些竞争路线被他淡化或回避了：作者淡化了“基于模型”的SIS路线，因为Fréchet回归本身是一个非参数框架，不假设线性或可加性。作者也回避了与“基于核方法”的SIS（如HSIC-based SIS）的直接比较，尽管核方法也能处理非向量数据。这可能是因为核方法通常需要定义正定核，而Fréchet回归仅需一个距离度量，更一般化。
什么明显该被引/该存在、却没出现在intro里？：作者没有引用任何关于“超高维数据下的Fréchet回归变量选择”的文献。这很可能是因为该领域确实是空白。此外，作者没有引用关于“度量空间中的假设检验”的文献，例如检验一个预测变量是否与响应独立。这可能是未来工作的一个方向。

张力¶

未见明显对立引用。所有被引工作都在各自的设定下（欧几里得响应、特定模型）证明了SIS的有效性，本文是在一个更一般的设定下（度量空间响应）提出新方法，属于扩展而非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( Y \)：响应变量，取值于一个度量空间 \( (\Omega, d) \)，其中 \( d(\cdot, \cdot) \) 是 \( \Omega \) 上的距离度量。这是核心记号，\( Y \) 可以是一个概率分布、一个矩阵、一个流形上的点等。
- \( X = (X_1, \dots, X_p)^T \)：\( p \) 维预测变量向量。\( p \) 是维数，通常远大于样本量 \( n \)（超高维）。
- \( \{(X_i, Y_i)\}_{i=1}^n \)：可观测的独立同分布样本。
- \( \mathcal{I} = \{1, \dots, p\} \)：所有预测变量的索引集。
- \( \mathcal{I}^* \)：真正重要的预测变量的索引集（未知）。这是要估计的目标。
- \( m(x) = \mathbb{E}[Y | X = x] \)：在欧几里得空间中，这是条件期望。在Fréchet回归中，它被替换为条件Fréchet期望：\( m_{\oplus}(x) = \arg\min_{\omega \in \Omega} \mathbb{E}[d^2(Y, \omega) | X = x] \)。这是模型的核心，它定义了一个“回归函数”，其输出是度量空间中的一个点。
- \( \hat{m}_{\oplus}(x) \)：基于样本估计的条件Fréchet期望。
- \( \text{GRSS}(X_j) \)：预测变量 \( X_j \) 的边际广义残差平方和（Generalized Residual Sum of Squares）。这是本文提出的边际效用。
模型：
- 数据生成机制：\( (X, Y) \) 服从某个联合分布 \( P_{X,Y} \)，其中 \( Y \in \Omega \)，\( X \in \mathbb{R}^p \)。
- 回归模型：\( Y = m_{\oplus}(X) \oplus \epsilon \)，其中 \( \oplus \) 不是加法，而是表示 \( Y \) 围绕条件Fréchet期望 \( m_{\oplus}(X) \) 随机波动。这个“波动”由距离度量 \( d \) 来量化。
- 已知：距离度量 \( d \) 是已知的（由研究者根据响应类型选择，如Wasserstein距离、Frobenius范数等）。
- 要估的对象：重要变量集 \( \mathcal{I}^* \)。
可观测数据：
- 研究者能观测到：\( n \) 个独立同分布的样本对 \( (X_i, Y_i) \)，其中 \( X_i \) 是 \( p \) 维向量，\( Y_i \) 是度量空间 \( \Omega \) 中的一个点。
- 研究者能计算：任意两个响应对象 \( Y_i \) 和 \( Y_j \) 之间的距离 \( d(Y_i, Y_j) \)。
- 研究者不能直接观测到：响应对象的“向量空间表示”（如均值、协方差矩阵），因为 \( \Omega \) 可能没有向量空间结构。例如，对于概率分布响应，你只能看到分布本身，不能直接看到它的均值向量（除非你计算它，但计算均值本身已隐含了向量空间结构，而Fréchet回归试图避免这一点）。

第二步：讲最小内核¶

最简特例：响应为概率分布，预测变量为单个二元变量

假设我们想研究一个基因（预测变量 \( X_1 \)）是否影响大脑某个区域的体素强度分布（响应 \( Y \)）。\( X_1 \) 是二元变量（0 = 基因不表达，1 = 基因表达）。\( Y \) 是一个概率分布（该区域所有体素强度的直方图）。我们观测到 \( n \) 个样本 \( (X_{1i}, Y_i) \)。

核心问题：\( X_1 \) 是否重要？即，\( Y \) 的分布是否依赖于 \( X_1 \)？

传统方法（不可行）：计算 \( Y \) 的均值向量（一个标量）与 \( X_1 \) 的相关系数。但 \( Y \) 是分布，其均值只是一个数字，会丢失大量信息（如方差、形状）。

Fréchet-SIS的最小内核：

定义“无模型”的基准：首先，忽略 \( X_1 \)，计算所有 \( Y_i \) 的无条件Fréchet均值 \( \hat{\mu} \)：
\[\hat{\mu} = \arg\min_{\omega \in \Omega} \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \omega)\]
这相当于“用同一个分布去拟合所有样本”。其对应的“总残差平方和”为 \( \text{TGRSS} = \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \hat{\mu}) \)。
定义“有模型”的预测：现在，利用 \( X_1 \) 的信息。对于 \( X_1 = 0 \) 的样本，计算其条件Fréchet均值 \( \hat{m}_{\oplus}(0) \)；对于 \( X_1 = 1 \) 的样本，计算 \( \hat{m}_{\oplus}(1) \)：
\[\hat{m}_{\oplus}(x) = \arg\min_{\omega \in \Omega} \frac{1}{n_x} \sum_{i: X_{1i}=x} d^2(Y_i, \omega)\]
其中 \( n_x \) 是 \( X_1 = x \) 的样本数。这相当于“用两个不同的分布去分别拟合两组样本”。其对应的“模型残差平方和”为 \( \text{MGRSS}(X_1) = \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \hat{m}_{\oplus}(X_{1i})) \)。
定义边际效用：\( X_1 \) 的边际效用就是边际广义残差平方和 \( \text{GRSS}(X_1) \)：
\[\text{GRSS}(X_1) = \text{TGRSS} - \text{MGRSS}(X_1)\]
这个值越大，说明利用 \( X_1 \) 的信息后，对 \( Y \) 的“预测”改善得越多，即 \( X_1 \) 越重要。

为什么这个例子是“最小内核”： - 它剥离了所有高维复杂性（\( p=1 \)）。 - 它剥离了连续预测变量的复杂性（\( X_1 \) 是二元变量，条件Fréchet均值就是组内Fréchet均值，计算简单）。 - 它清晰地展示了Fréchet-SIS的核心思想：通过比较“有”和“没有”该预测变量时，对响应对象的预测误差（由距离度量衡量）的改善程度，来定义变量的重要性。这个思想完全独立于响应空间的向量结构。

论文的一般情形：当 \( p \) 很大时，对每个 \( X_j \) 重复上述过程，计算 \( \text{GRSS}(X_j) \)。然后对所有 \( j \) 的 \( \text{GRSS}(X_j) \) 进行排序，选择前 \( d \) 个或超过某个阈值的变量。当 \( X_j \) 是连续变量时，条件Fréchet均值 \( \hat{m}_{\oplus}(X_j) \) 需要通过核平滑等非参数方法估计，计算复杂度增加，但核心思想不变。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对响应变量取值于一般度量空间（如分布、矩阵）的超高维预测变量筛选问题，提出了一种新的确定独立筛选方法——Fréchet-SIS。
核心工具/方法：利用边际广义残差平方和（GRSS） 作为边际效用，该效用仅依赖于响应对象之间的距离度量，通过比较“全模型”（无预测变量）和“边际模型”（仅含单个预测变量）的Fréchet回归残差来评估变量重要性。
主要结论：在温和的正则条件下，证明了Fréchet-SIS具有sure screening性质，即能以概率趋于1保留所有重要变量。模拟和真实数据（ADNI基因筛选、经济学案例）验证了其有效性。

关键设定与假设¶

设定：
- 响应 \( Y \in (\Omega, d) \)，\( (\Omega, d) \) 是一个可分且完备的度量空间。这是保证Fréchet均值存在且唯一的基本条件。
- 预测变量 \( X \in \mathbb{R}^p \)，\( p \) 随样本量 \( n \) 增长，且 \( \log p = O(n^\kappa) \) 对某个 \( \kappa \in (0, 1) \) 成立。这是超高维的典型设定。
- 重要变量集 \( \mathcal{I}^* \) 的大小 \( s = |\mathcal{I}^*| \) 是有限的，且 \( s = o(n) \)。这是稀疏性假设。
假设（用于证明Sure Screening性质）：
- (C1) 距离度量的有界性：存在常数 \( C_0 \) 使得 \( d^2(Y, \omega) \leq C_0 \) 对所有 \( Y, \omega \in \Omega \) 几乎必然成立。含义：响应空间是“有界”的，这简化了概率集中不等式的应用。与已有文献的比较：比许多非参数回归的假设（如次高斯性）更强，但更易处理。
- (C2) 条件Fréchet均值的平滑性：对于每个重要变量 \( X_j \) (\( j \in \mathcal{I}^* \))，条件Fréchet期望 \( m_{\oplus}(x) \) 作为 \( x \) 的函数是 \( \beta \)-Hölder连续的（\( \beta > 0 \)）。含义：重要变量对响应的影响是“平滑”的，非参数估计（如核回归）才能有效。相比已有文献：这是非参数回归的标准假设。
- (C3) 边际效用的可分离性：存在常数 \( c_1 > 0 \) 和 \( \gamma \ge 0 \)，使得对于所有重要变量 \( j \in \mathcal{I}^* \)，其总体边际效用 \( \text{GRSS}^*(X_j) \ge c_1 n^{-\gamma} \)。含义：重要变量的信号强度不能太弱，必须与噪声变量有足够大的“距离”。这是SIS类方法的核心假设，保证了信号能被检测到。相比已有文献：与Fan & Lv (2008) 中的“最小边际相关系数”假设类似，但这里是用距离度量定义的。
- (C4) 核函数与带宽条件：用于估计条件Fréchet均值的核函数是Lipschitz连续的，且带宽 \( h \) 满足 \( h \to 0 \) 且 \( nh^p \to \infty \)。含义：非参数估计的常规条件，确保估计的一致性。

主要结果¶

定理1 (Sure Screening性质)：在假设(C1)-(C4)下，存在常数 \( c_2 > 0 \) 和 \( c_3 > 0 \)，使得：
\[\mathbb{P}\left( \min_{j \in \mathcal{I}^*} \text{GRSS}(X_j) > \max_{j \notin \mathcal{I}^*} \text{GRSS}(X_j) \right) \ge 1 - O\left( \frac{s}{n^{c_2}} + \frac{p}{n^{c_3}} \right)\]
直觉：这个定理说，只要样本量 \( n \) 足够大，所有重要变量的样本边际效用（GRSS）都会大于所有噪声变量的样本边际效用。因此，通过设定一个合适的阈值（例如，取前 \( s \) 个或所有GRSS大于某个值的变量），就能以高概率选出所有重要变量。
- 必要条件：信号强度 \( \gamma \) 不能太大（即信号不能太弱），且 \( \log p \) 的增长速度受限于 \( n \) 的某个幂次。
- 解决的技术难点：证明的关键在于处理非参数估计 \( \hat{m}_{\oplus}(X_j) \) 带来的误差，并将其与边际效用的偏差联系起来。作者使用了U-统计量和经验过程理论来统一处理这些误差。

证明路线与技术技巧¶

整体路线：
1. 定义总体边际效用：定义 \( \text{GRSS}^*(X_j) = \mathbb{E}[d^2(Y, \mu)] - \mathbb{E}[d^2(Y, m_{\oplus}(X_j))] \)，其中 \( \mu \) 是无条件Fréchet均值，\( m_{\oplus}(X_j) \) 是真实的条件Fréchet均值。这是理论上的“黄金标准”。
2. 分解样本边际效用：将样本边际效用 \( \text{GRSS}(X_j) \) 分解为总体边际效用 \( \text{GRSS}^*(X_j) \) 加上一个估计误差项。这个误差项来自两方面：用样本均值 \( \hat{\mu} \) 估计 \( \mu \)，以及用核估计 \( \hat{m}_{\oplus}(X_j) \) 估计 \( m_{\oplus}(X_j) \)。
3. 控制估计误差：利用假设(C1)（距离有界）和(C2)（平滑性），通过U-统计量的指数不等式（如Hoeffding不等式）和核估计的收敛速度，证明估计误差项以高概率被一个很小的量 \( \delta_n \) 控制住。
4. 分离信号与噪声：对于重要变量（\( j \in \mathcal{I}^* \)），其总体边际效用 \( \text{GRSS}^*(X_j) \) 至少为 \( c_1 n^{-\gamma} \)。对于噪声变量（\( j \notin \mathcal{I}^* \)），其总体边际效用为0（因为 \( X_j \) 与 \( Y \) 独立，所以 \( m_{\oplus}(X_j) = \mu \)）。因此，只要 \( \delta_n \) 小于 \( c_1 n^{-\gamma} / 2 \)，就能以高概率将两者分开。
5. 应用Bonferroni不等式：对所有 \( p \) 个变量同时控制误差，得到定理中的概率下界。
关键跳跃点：
- 难点：如何在没有向量空间结构的情况下，量化非参数估计 \( \hat{m}_{\oplus}(X_j) \) 的误差？在欧几里得空间中，误差是 \( ||\hat{m}(x) - m(x)||^2 \)，但在度量空间中，没有“减法”和“范数”。
- 作者的解法：作者巧妙地利用了距离的三角不等式和Fréchet均值的定义。他们证明，\( d^2(Y_i, \hat{m}_{\oplus}(X_{ji})) \) 与 \( d^2(Y_i, m_{\oplus}(X_{ji})) \) 之间的差异，可以被 \( d^2(\hat{m}_{\oplus}(X_{ji}), m_{\oplus}(X_{ji})) \) 控制住，而后者又可以通过核估计的经典收敛速度来界定。这个技巧将度量空间中的问题转化为了一个关于距离的标量问题。
技术技巧点名：
- U-统计量指数不等式：用于控制 \( \text{TGRSS} \) 和 \( \text{MGRSS} \) 中样本均值与总体期望的偏差。
- 核估计的收敛速度：用于控制 \( \hat{m}_{\oplus}(X_j) \) 与 \( m_{\oplus}(X_j) \) 之间的“距离”。
- 三角不等式：作为核心工具，将度量空间中的复杂误差分解为可处理的标量误差。

真实例子与应用¶

阿尔茨海默病神经影像研究 (ADNI)：
- 数据/场景：从ADNI数据库中获取数据。响应变量是42个脑区中每个脑区的体素强度分布（即每个脑区有一个概率分布作为响应）。预测变量是582,591个SNP（单核苷酸多态性）。目标是筛选出与每个脑区活动相关的关键基因。
- 方法应用：对每个脑区，使用Fréchet-SIS从582,591个SNP中筛选出最重要的前几个SNP。距离度量选择为Wasserstein距离（适用于概率分布）。
- 结果：成功识别出一些已知与阿尔茨海默病相关的基因（如APOE、TOMM40、CLU等），并发现这些基因在不同疾病阶段（正常、轻度认知障碍、阿尔茨海默病）和不同脑区中的重要性模式不同。
- 例子想说明什么：验证了Fréchet-SIS在超高维（p >> n）且响应为复杂对象（分布）的真实场景中的实用性和生物学可解释性。它证明了该方法能发现传统基于标量响应（如脑区体积）的方法可能遗漏的、与分布形状变化相关的遗传关联。
经济学案例研究：
- 数据/场景：使用美国各县的经济数据。响应变量是收入分布（每个县有一个收入分布）。预测变量包括一系列社会经济指标（如教育水平、失业率、产业结构等）。
- 方法应用：使用Fréchet-SIS筛选出影响收入分布形状的关键经济指标。
- 结果：筛选出的变量与经济学直觉相符（如教育水平、失业率是重要预测因素）。
- 例子想说明什么：展示了Fréchet-SIS在经济学领域的跨领域适用性，说明该方法不局限于生物医学。

🔎 结论是否比证明窄¶

窄的方面：定理1的证明依赖于距离有界性假设(C1)。这个假设在理论上很强，但在实际应用中，许多度量空间（如Wasserstein空间）是无界的。作者在模拟和实证中使用了无界的Wasserstein距离，但理论结果并未覆盖这种情况。这是一个典型的“证明比结论窄”的例子。作者在文中承认了这一点，并指出“放宽有界性假设是未来工作”。
泛化的claim：作者在摘要和引言中声称该方法适用于“一般度量空间”。但严格来说，其理论只适用于有界度量空间。对于无界空间，sure screening性质是否仍然成立，是一个开放问题。

四、开放问题¶

放宽有界性假设：能否在响应空间无界（如Wasserstein空间、\( L^2 \) 空间）的情况下，证明Fréchet-SIS的sure screening性质？这可能需要引入次高斯性或矩条件来控制距离的尾部行为。扎根点：论文“Discussion”部分明确提到“Relaxing the boundedness assumption on the metric space is an important future direction”。
自适应阈值选择：本文使用“取前d个”的简单策略。能否提出一个数据驱动的、基于随机排列或Bootstrap的阈值选择方法，并证明其一致性？扎根点：论文在模拟中使用了“取前 \( \lfloor n/\log n \rfloor \) 个”的固定策略，但未提供理论指导。
与其他复杂响应筛选方法的比较：本文未与基于核方法的SIS（如HSIC-SIS）进行理论和模拟比较。当响应为分布时，HSIC-SIS（使用高斯核）与Fréchet-SIS（使用Wasserstein距离）在统计效率和计算复杂度上孰优孰劣？扎根点：论文引言中未提及核方法SIS，这是一个值得研究者去查的潜在竞争路线。
Fréchet-SIS在因果推断中的应用：能否将Fréchet-SIS用作因果推断中的高维协变量筛选或工具变量筛选的前置步骤？例如，在估计分布响应（如收入分布）的因果效应时，先用Fréchet-SIS从大量候选协变量中筛选出重要混淆变量。扎根点：论文的应用场景（ADNI）本身具有因果推断的潜力（基因影响脑区分布），但本文仅做了关联筛选。

Maintained by 陈星宇 · Homepage · Source on GitHub