跳转至

Feature screening for metric space-valued responses based on Fréchet regression with its applications

作者: Bing Tian, Jian Kang, Wei Zhong
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf007


一、领域脉络与小综述

这个方向是什么

这个子方向解决的根本问题是:当响应变量(response)取值于一个一般的度量空间(metric space),而非传统的欧几里得空间时,如何从超高维(ultrahigh-dimensional)的预测变量中筛选出真正重要的特征? 传统的变量筛选方法(如基于相关系数、线性模型系数的SIS)严重依赖响应变量的向量空间结构(如均值、方差、线性可加性),无法直接处理分布数据、矩阵值数据、流形数据等复杂对象。当前该方向的成熟度较低,大多数方法仍局限于标量或低维向量响应,针对度量空间响应的超高维筛选几乎是空白。

发展脉络(history)

  1. 奠基工作:Sure Independence Screening (SIS) 的提出

    • Fan & Lv (2008):提出了SIS方法,利用边际相关系数对超高维线性模型进行变量筛选,并证明了sure screening性质(以概率趋于1保留所有重要变量)。这是整个领域的起点,确立了“边际效用 + 阈值筛选”的范式。
    • Fan & Song (2010):将SIS推广到广义线性模型(GLM),使用边际似然比或边际残差作为效用函数。这为后续将SIS扩展到非欧几里得响应提供了“边际效用”这一可泛化的概念。
  2. 主要进展:SIS向复杂响应和复杂模型的扩展

    • Zhu et al. (2011):提出了基于距离相关(distance correlation)的SIS(DC-SIS),它不假设模型形式,能捕捉非线性依赖,且适用于多元响应。这是第一个不依赖线性模型假设的SIS方法,但其响应仍需是欧几里得空间中的向量。
    • Li et al. (2012):提出了基于秩相关(rank correlation)的SIS,对异常值更稳健。
    • He et al. (2019):提出了基于分位数回归的SIS,适用于异方差和非正态误差。
    • Liu et al. (2014):提出了基于互信息(mutual information)的SIS,能捕捉更复杂的依赖关系。
    • Cui et al. (2015):提出了基于经验条件分布函数的SIS(ECD-SIS),适用于响应为标量的情况,但能处理非线性依赖。
  3. 当前Frontier:Fréchet回归与度量空间响应

    • Petersen & Müller (2019):提出了Fréchet回归框架,将回归分析从欧几里得空间推广到一般的度量空间。核心思想是:用“Fréchet期望”(使距离平方期望最小的点)替代传统均值,从而定义条件Fréchet期望(回归函数)。这为处理分布、矩阵、流形等复杂响应提供了统一的回归框架。
    • Chen et al. (2023):提出了Fréchet分位数回归,进一步丰富了Fréchet回归的工具箱。
    • 本文 (Tian, Kang & Zhong, 2024)本文的位置是首次将SIS的思想与Fréchet回归框架结合,解决“响应为度量空间值”时的超高维变量筛选问题。它填补了从“欧几里得响应SIS”到“度量空间响应SIS”的空白。

子线索聚类

  1. 基于模型的SIS:假设响应与预测变量之间存在某种参数化或半参数化模型(如线性、GLM、分位数回归)。代表工作:Fan & Lv (2008), Fan & Song (2010), He et al. (2019)。优点:统计效率高,理论成熟。缺点:模型假设强,易因模型误设而失效。
  2. 基于依赖度量的SIS:不假设模型形式,直接度量预测变量与响应之间的边际依赖强度。代表工作:Zhu et al. (2011) (距离相关), Li et al. (2012) (秩相关), Liu et al. (2014) (互信息), Cui et al. (2015) (ECD)。优点:灵活,能捕捉非线性关系。缺点:对高维复杂依赖的统计效率可能低于模型方法,且多数方法仍要求响应为欧几里得空间中的向量。
  3. 基于Fréchet回归的SIS(本文):这是对“基于依赖度量的SIS”的推广,使其能处理度量空间响应。核心创新在于将“边际效用”定义为边际Fréchet回归的残差平方和,该定义仅依赖于响应对象之间的距离度量。

这个方向在追问的核心问题

  1. 如何定义“重要性”:当响应不是向量时,如何构造一个合理的边际效用(marginal utility)来度量单个预测变量与响应之间的关联强度?传统相关系数、协方差等概念失效。
  2. Sure Screening性质的证明:在度量空间响应的设定下,需要什么样的正则条件(如距离度量的性质、响应空间的几何性质)才能保证sure screening性质?证明框架需要从欧几里得空间推广到一般度量空间。
  3. 计算可行性:对于超高维预测变量(如p > 10^5),边际效用的计算必须足够快。Fréchet回归本身可能涉及复杂的优化(如计算Fréchet均值),如何保证筛选过程在计算上是可行的?
  4. 阈值选择:如何在实际中确定一个数据驱动的阈值来区分重要与不重要变量?理论上的阈值通常依赖于未知参数,实际中常用的是“取前d个”或“基于随机排列的阈值”。

⚠️ 作者的Framing

  • 作者把缺口frame成什么:作者明确指出,现有SIS方法(如Fan & Lv, 2008; Fan & Song, 2010; Zhu et al., 2011)都“主要针对标量或向量响应”("mainly focus on scalar or vector responses"),而实际应用中响应可以是分布、矩阵等复杂对象。因此,本文的“显然的下一步”就是将SIS推广到Fréchet回归框架下,从而处理度量空间值的响应。
  • 哪些竞争路线被他淡化或回避了:作者淡化了“基于模型”的SIS路线,因为Fréchet回归本身是一个非参数框架,不假设线性或可加性。作者也回避了与“基于核方法”的SIS(如HSIC-based SIS)的直接比较,尽管核方法也能处理非向量数据。这可能是因为核方法通常需要定义正定核,而Fréchet回归仅需一个距离度量,更一般化。
  • 什么明显该被引/该存在、却没出现在intro里?:作者没有引用任何关于“超高维数据下的Fréchet回归变量选择”的文献。这很可能是因为该领域确实是空白。此外,作者没有引用关于“度量空间中的假设检验”的文献,例如检验一个预测变量是否与响应独立。这可能是未来工作的一个方向。

张力

未见明显对立引用。所有被引工作都在各自的设定下(欧几里得响应、特定模型)证明了SIS的有效性,本文是在一个更一般的设定下(度量空间响应)提出新方法,属于扩展而非对立。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
    • \( Y \):响应变量,取值于一个度量空间 \( (\Omega, d) \),其中 \( d(\cdot, \cdot) \)\( \Omega \) 上的距离度量。这是核心记号\( Y \) 可以是一个概率分布、一个矩阵、一个流形上的点等。
    • \( X = (X_1, \dots, X_p)^T \)\( p \) 维预测变量向量。\( p \) 是维数,通常远大于样本量 \( n \)(超高维)。
    • \( \{(X_i, Y_i)\}_{i=1}^n \):可观测的独立同分布样本。
    • \( \mathcal{I} = \{1, \dots, p\} \):所有预测变量的索引集。
    • \( \mathcal{I}^* \):真正重要的预测变量的索引集(未知)。这是要估计的目标
    • \( m(x) = \mathbb{E}[Y | X = x] \):在欧几里得空间中,这是条件期望。在Fréchet回归中,它被替换为条件Fréchet期望\( m_{\oplus}(x) = \arg\min_{\omega \in \Omega} \mathbb{E}[d^2(Y, \omega) | X = x] \)这是模型的核心,它定义了一个“回归函数”,其输出是度量空间中的一个点。
    • \( \hat{m}_{\oplus}(x) \):基于样本估计的条件Fréchet期望。
    • \( \text{GRSS}(X_j) \):预测变量 \( X_j \)边际广义残差平方和(Generalized Residual Sum of Squares)。这是本文提出的边际效用。
  • 模型
    • 数据生成机制:\( (X, Y) \) 服从某个联合分布 \( P_{X,Y} \),其中 \( Y \in \Omega \)\( X \in \mathbb{R}^p \)
    • 回归模型:\( Y = m_{\oplus}(X) \oplus \epsilon \),其中 \( \oplus \) 不是加法,而是表示 \( Y \) 围绕条件Fréchet期望 \( m_{\oplus}(X) \) 随机波动。这个“波动”由距离度量 \( d \) 来量化。
    • 已知:距离度量 \( d \) 是已知的(由研究者根据响应类型选择,如Wasserstein距离、Frobenius范数等)。
    • 要估的对象:重要变量集 \( \mathcal{I}^* \)
  • 可观测数据
    • 研究者能观测到:\( n \) 个独立同分布的样本对 \( (X_i, Y_i) \),其中 \( X_i \)\( p \) 维向量,\( Y_i \) 是度量空间 \( \Omega \) 中的一个点。
    • 研究者能计算:任意两个响应对象 \( Y_i \)\( Y_j \) 之间的距离 \( d(Y_i, Y_j) \)
    • 研究者不能直接观测到:响应对象的“向量空间表示”(如均值、协方差矩阵),因为 \( \Omega \) 可能没有向量空间结构。例如,对于概率分布响应,你只能看到分布本身,不能直接看到它的均值向量(除非你计算它,但计算均值本身已隐含了向量空间结构,而Fréchet回归试图避免这一点)。

第二步:讲最小内核

最简特例:响应为概率分布,预测变量为单个二元变量

假设我们想研究一个基因(预测变量 \( X_1 \))是否影响大脑某个区域的体素强度分布(响应 \( Y \))。\( X_1 \) 是二元变量(0 = 基因不表达,1 = 基因表达)。\( Y \) 是一个概率分布(该区域所有体素强度的直方图)。我们观测到 \( n \) 个样本 \( (X_{1i}, Y_i) \)

核心问题\( X_1 \) 是否重要?即,\( Y \) 的分布是否依赖于 \( X_1 \)

传统方法(不可行):计算 \( Y \) 的均值向量(一个标量)与 \( X_1 \) 的相关系数。但 \( Y \) 是分布,其均值只是一个数字,会丢失大量信息(如方差、形状)。

Fréchet-SIS的最小内核

  1. 定义“无模型”的基准:首先,忽略 \( X_1 \),计算所有 \( Y_i \)无条件Fréchet均值 \( \hat{\mu} \)

    \[\hat{\mu} = \arg\min_{\omega \in \Omega} \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \omega)\]
    这相当于“用同一个分布去拟合所有样本”。其对应的“总残差平方和”为 \( \text{TGRSS} = \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \hat{\mu}) \)

  2. 定义“有模型”的预测:现在,利用 \( X_1 \) 的信息。对于 \( X_1 = 0 \) 的样本,计算其条件Fréchet均值 \( \hat{m}_{\oplus}(0) \);对于 \( X_1 = 1 \) 的样本,计算 \( \hat{m}_{\oplus}(1) \)

    \[\hat{m}_{\oplus}(x) = \arg\min_{\omega \in \Omega} \frac{1}{n_x} \sum_{i: X_{1i}=x} d^2(Y_i, \omega)\]
    其中 \( n_x \)\( X_1 = x \) 的样本数。这相当于“用两个不同的分布去分别拟合两组样本”。其对应的“模型残差平方和”为 \( \text{MGRSS}(X_1) = \frac{1}{n} \sum_{i=1}^n d^2(Y_i, \hat{m}_{\oplus}(X_{1i})) \)

  3. 定义边际效用\( X_1 \) 的边际效用就是边际广义残差平方和 \( \text{GRSS}(X_1) \)

    \[\text{GRSS}(X_1) = \text{TGRSS} - \text{MGRSS}(X_1)\]
    这个值越大,说明利用 \( X_1 \) 的信息后,对 \( Y \) 的“预测”改善得越多,即 \( X_1 \) 越重要。

为什么这个例子是“最小内核”: - 它剥离了所有高维复杂性(\( p=1 \))。 - 它剥离了连续预测变量的复杂性(\( X_1 \) 是二元变量,条件Fréchet均值就是组内Fréchet均值,计算简单)。 - 它清晰地展示了Fréchet-SIS的核心思想:通过比较“有”和“没有”该预测变量时,对响应对象的预测误差(由距离度量衡量)的改善程度,来定义变量的重要性。这个思想完全独立于响应空间的向量结构。

论文的一般情形:当 \( p \) 很大时,对每个 \( X_j \) 重复上述过程,计算 \( \text{GRSS}(X_j) \)。然后对所有 \( j \)\( \text{GRSS}(X_j) \) 进行排序,选择前 \( d \) 个或超过某个阈值的变量。当 \( X_j \) 是连续变量时,条件Fréchet均值 \( \hat{m}_{\oplus}(X_j) \) 需要通过核平滑等非参数方法估计,计算复杂度增加,但核心思想不变。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:针对响应变量取值于一般度量空间(如分布、矩阵)的超高维预测变量筛选问题,提出了一种新的确定独立筛选方法——Fréchet-SIS。
  2. 核心工具/方法:利用边际广义残差平方和(GRSS) 作为边际效用,该效用仅依赖于响应对象之间的距离度量,通过比较“全模型”(无预测变量)和“边际模型”(仅含单个预测变量)的Fréchet回归残差来评估变量重要性。
  3. 主要结论:在温和的正则条件下,证明了Fréchet-SIS具有sure screening性质,即能以概率趋于1保留所有重要变量。模拟和真实数据(ADNI基因筛选、经济学案例)验证了其有效性。

关键设定与假设

  • 设定
    • 响应 \( Y \in (\Omega, d) \)\( (\Omega, d) \) 是一个可分且完备的度量空间。这是保证Fréchet均值存在且唯一的基本条件。
    • 预测变量 \( X \in \mathbb{R}^p \)\( p \) 随样本量 \( n \) 增长,且 \( \log p = O(n^\kappa) \) 对某个 \( \kappa \in (0, 1) \) 成立。这是超高维的典型设定。
    • 重要变量集 \( \mathcal{I}^* \) 的大小 \( s = |\mathcal{I}^*| \) 是有限的,且 \( s = o(n) \)。这是稀疏性假设。
  • 假设(用于证明Sure Screening性质)
    • (C1) 距离度量的有界性:存在常数 \( C_0 \) 使得 \( d^2(Y, \omega) \leq C_0 \) 对所有 \( Y, \omega \in \Omega \) 几乎必然成立。含义:响应空间是“有界”的,这简化了概率集中不等式的应用。与已有文献的比较:比许多非参数回归的假设(如次高斯性)更强,但更易处理。
    • (C2) 条件Fréchet均值的平滑性:对于每个重要变量 \( X_j \) (\( j \in \mathcal{I}^* \)),条件Fréchet期望 \( m_{\oplus}(x) \) 作为 \( x \) 的函数是 \( \beta \)-Hölder连续的(\( \beta > 0 \))。含义:重要变量对响应的影响是“平滑”的,非参数估计(如核回归)才能有效。相比已有文献:这是非参数回归的标准假设。
    • (C3) 边际效用的可分离性:存在常数 \( c_1 > 0 \)\( \gamma \ge 0 \),使得对于所有重要变量 \( j \in \mathcal{I}^* \),其总体边际效用 \( \text{GRSS}^*(X_j) \ge c_1 n^{-\gamma} \)含义:重要变量的信号强度不能太弱,必须与噪声变量有足够大的“距离”。这是SIS类方法的核心假设,保证了信号能被检测到。相比已有文献:与Fan & Lv (2008) 中的“最小边际相关系数”假设类似,但这里是用距离度量定义的。
    • (C4) 核函数与带宽条件:用于估计条件Fréchet均值的核函数是Lipschitz连续的,且带宽 \( h \) 满足 \( h \to 0 \)\( nh^p \to \infty \)含义:非参数估计的常规条件,确保估计的一致性。

主要结果

  • 定理1 (Sure Screening性质):在假设(C1)-(C4)下,存在常数 \( c_2 > 0 \)\( c_3 > 0 \),使得:
    \[\mathbb{P}\left( \min_{j \in \mathcal{I}^*} \text{GRSS}(X_j) > \max_{j \notin \mathcal{I}^*} \text{GRSS}(X_j) \right) \ge 1 - O\left( \frac{s}{n^{c_2}} + \frac{p}{n^{c_3}} \right)\]
    直觉:这个定理说,只要样本量 \( n \) 足够大,所有重要变量的样本边际效用(GRSS)都会大于所有噪声变量的样本边际效用。因此,通过设定一个合适的阈值(例如,取前 \( s \) 个或所有GRSS大于某个值的变量),就能以高概率选出所有重要变量。
    • 必要条件:信号强度 \( \gamma \) 不能太大(即信号不能太弱),且 \( \log p \) 的增长速度受限于 \( n \) 的某个幂次。
    • 解决的技术难点:证明的关键在于处理非参数估计 \( \hat{m}_{\oplus}(X_j) \) 带来的误差,并将其与边际效用的偏差联系起来。作者使用了U-统计量经验过程理论来统一处理这些误差。

证明路线与技术技巧

  • 整体路线
    1. 定义总体边际效用:定义 \( \text{GRSS}^*(X_j) = \mathbb{E}[d^2(Y, \mu)] - \mathbb{E}[d^2(Y, m_{\oplus}(X_j))] \),其中 \( \mu \) 是无条件Fréchet均值,\( m_{\oplus}(X_j) \) 是真实的条件Fréchet均值。这是理论上的“黄金标准”。
    2. 分解样本边际效用:将样本边际效用 \( \text{GRSS}(X_j) \) 分解为总体边际效用 \( \text{GRSS}^*(X_j) \) 加上一个估计误差项。这个误差项来自两方面:用样本均值 \( \hat{\mu} \) 估计 \( \mu \),以及用核估计 \( \hat{m}_{\oplus}(X_j) \) 估计 \( m_{\oplus}(X_j) \)
    3. 控制估计误差:利用假设(C1)(距离有界)和(C2)(平滑性),通过U-统计量的指数不等式(如Hoeffding不等式)和核估计的收敛速度,证明估计误差项以高概率被一个很小的量 \( \delta_n \) 控制住。
    4. 分离信号与噪声:对于重要变量(\( j \in \mathcal{I}^* \)),其总体边际效用 \( \text{GRSS}^*(X_j) \) 至少为 \( c_1 n^{-\gamma} \)。对于噪声变量(\( j \notin \mathcal{I}^* \)),其总体边际效用为0(因为 \( X_j \)\( Y \) 独立,所以 \( m_{\oplus}(X_j) = \mu \))。因此,只要 \( \delta_n \) 小于 \( c_1 n^{-\gamma} / 2 \),就能以高概率将两者分开。
    5. 应用Bonferroni不等式:对所有 \( p \) 个变量同时控制误差,得到定理中的概率下界。
  • 关键跳跃点
    • 难点:如何在没有向量空间结构的情况下,量化非参数估计 \( \hat{m}_{\oplus}(X_j) \) 的误差?在欧几里得空间中,误差是 \( ||\hat{m}(x) - m(x)||^2 \),但在度量空间中,没有“减法”和“范数”。
    • 作者的解法:作者巧妙地利用了距离的三角不等式Fréchet均值的定义。他们证明,\( d^2(Y_i, \hat{m}_{\oplus}(X_{ji})) \)\( d^2(Y_i, m_{\oplus}(X_{ji})) \) 之间的差异,可以被 \( d^2(\hat{m}_{\oplus}(X_{ji}), m_{\oplus}(X_{ji})) \) 控制住,而后者又可以通过核估计的经典收敛速度来界定。这个技巧将度量空间中的问题转化为了一个关于距离的标量问题。
  • 技术技巧点名
    • U-统计量指数不等式:用于控制 \( \text{TGRSS} \)\( \text{MGRSS} \) 中样本均值与总体期望的偏差。
    • 核估计的收敛速度:用于控制 \( \hat{m}_{\oplus}(X_j) \)\( m_{\oplus}(X_j) \) 之间的“距离”。
    • 三角不等式:作为核心工具,将度量空间中的复杂误差分解为可处理的标量误差。

真实例子与应用

  • 阿尔茨海默病神经影像研究 (ADNI)
    • 数据/场景:从ADNI数据库中获取数据。响应变量是42个脑区中每个脑区的体素强度分布(即每个脑区有一个概率分布作为响应)。预测变量是582,591个SNP(单核苷酸多态性)。目标是筛选出与每个脑区活动相关的关键基因。
    • 方法应用:对每个脑区,使用Fréchet-SIS从582,591个SNP中筛选出最重要的前几个SNP。距离度量选择为Wasserstein距离(适用于概率分布)。
    • 结果:成功识别出一些已知与阿尔茨海默病相关的基因(如APOE、TOMM40、CLU等),并发现这些基因在不同疾病阶段(正常、轻度认知障碍、阿尔茨海默病)和不同脑区中的重要性模式不同。
    • 例子想说明什么:验证了Fréchet-SIS在超高维(p >> n)且响应为复杂对象(分布)的真实场景中的实用性和生物学可解释性。它证明了该方法能发现传统基于标量响应(如脑区体积)的方法可能遗漏的、与分布形状变化相关的遗传关联。
  • 经济学案例研究
    • 数据/场景:使用美国各县的经济数据。响应变量是收入分布(每个县有一个收入分布)。预测变量包括一系列社会经济指标(如教育水平、失业率、产业结构等)。
    • 方法应用:使用Fréchet-SIS筛选出影响收入分布形状的关键经济指标。
    • 结果:筛选出的变量与经济学直觉相符(如教育水平、失业率是重要预测因素)。
    • 例子想说明什么:展示了Fréchet-SIS在经济学领域的跨领域适用性,说明该方法不局限于生物医学。

🔎 结论是否比证明窄

  • 窄的方面:定理1的证明依赖于距离有界性假设(C1)。这个假设在理论上很强,但在实际应用中,许多度量空间(如Wasserstein空间)是无界的。作者在模拟和实证中使用了无界的Wasserstein距离,但理论结果并未覆盖这种情况。这是一个典型的“证明比结论窄”的例子。作者在文中承认了这一点,并指出“放宽有界性假设是未来工作”。
  • 泛化的claim:作者在摘要和引言中声称该方法适用于“一般度量空间”。但严格来说,其理论只适用于有界度量空间。对于无界空间,sure screening性质是否仍然成立,是一个开放问题。

四、开放问题

  1. 放宽有界性假设:能否在响应空间无界(如Wasserstein空间、\( L^2 \) 空间)的情况下,证明Fréchet-SIS的sure screening性质?这可能需要引入次高斯性或矩条件来控制距离的尾部行为。扎根点:论文“Discussion”部分明确提到“Relaxing the boundedness assumption on the metric space is an important future direction”。
  2. 自适应阈值选择:本文使用“取前d个”的简单策略。能否提出一个数据驱动的、基于随机排列或Bootstrap的阈值选择方法,并证明其一致性?扎根点:论文在模拟中使用了“取前 \( \lfloor n/\log n \rfloor \) 个”的固定策略,但未提供理论指导。
  3. 与其他复杂响应筛选方法的比较:本文未与基于核方法的SIS(如HSIC-SIS)进行理论和模拟比较。当响应为分布时,HSIC-SIS(使用高斯核)与Fréchet-SIS(使用Wasserstein距离)在统计效率和计算复杂度上孰优孰劣?扎根点:论文引言中未提及核方法SIS,这是一个值得研究者去查的潜在竞争路线。
  4. Fréchet-SIS在因果推断中的应用:能否将Fréchet-SIS用作因果推断中的高维协变量筛选工具变量筛选的前置步骤?例如,在估计分布响应(如收入分布)的因果效应时,先用Fréchet-SIS从大量候选协变量中筛选出重要混淆变量。扎根点:论文的应用场景(ADNI)本身具有因果推断的潜力(基因影响脑区分布),但本文仅做了关联筛选。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论