An adaptive model checking test for the functional linear model¶
作者: Enze Shi, Yi Liu, Ke Sun, Lingzhu Li, Linglong Kong
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 函数线性模型(Functional Linear Model, FLM)的模型检验旨在回答一个根本的统计问题:当预测子是无限维的函数(如曲线、图像)时,我们假设的线性结构 \(Y = \int X(t)\beta(t)dt + \varepsilon\) 是否真实成立?如果不成立而继续使用 FLM,后续的估计与推断将失去意义。当前,FLM 的估计与推断(如置信带、假设检验)已有较成熟的 minimax 理论与渐近框架,但模型检验(Model checking / Goodness-of-fit)——即在函数数据下检验模型设定是否正确——的理论与工具远未成熟,尤其是如何在离散观测、无限维预测子下构造既有 tractable 零分布、又在局部替代下有渐近功效分析的检验,长期存在缺口。
发展脉络: - 奠基与估计阶段:FLM 的早期核心在于解决斜率函数 \(\beta(t)\) 估计这一不适定问题。Hall & Horowitz (2007) [9] 建立了基于 FPCA 的估计与收敛率框架;Cai & Yuan (2010) [1] 引入 RKHS 正则化,在更弱条件下达到 minimax rate;Müller & Stadtmüller (2005) [10] 将 FLM 推广至广义响应(链接函数)。这一阶段留下了推断与检验的空白。 - 推断与检验的初步探索:Shang & Cheng (2014) [3] 在 RKHS 框架下为广义 FLM 构造了置信区间与检验,发现了新的 Wilks 现象,但主要针对全局行为推断;García-Portugués 等 (2012) [13] 首次为 FLM 提出了基于随机投影的拟合优度检验,但作者在本文中指出其“计算复杂度高且功效较低”;Cuesta-Albertos 等 (2017) [4] 改进了投影经验过程方法,达到 \(O(n^{-1/2})\) 的最快检测率,但依赖 wild bootstrap 定临界值,没有 tractable 的零分布。 - 离散观测与局部替代的缺口:现有检验大多假设函数预测子 \(X(t)\) 是完全连续观测的。Cai & Yuan (2011) [2] 与 Zhu 等 (2012) [12] 揭示了离散网格点数与样本量之间存在 phase transition,但作者指出:“Existing tests considering discretely observed data either lack the theoretical results under local alternatives or cannot provide a reference relationship between the sample size and the number of grid points for the asymptotic properties”。 - 自适应混合检验的引入(非函数数据):Li, Zhu & Zhu (2019) [8] 在多变量回归中提出了 moment-based 与 conditional moment-based 检验的混合(Hybrid test),既继承了矩检验的 tractable 零分布与对振荡替代的敏感,又继承了经验过程检验的 \(O(n^{-1/2})\) 最快检测率。Tan 等 (2016) [18] 发展了投影自适应检验。本文的位置:将 [8] 的混合自适应思想移植到函数数据,并填补离散观测下网格点数与样本量关系的理论缺口。
子线索聚类: 1. 基于经验过程 / 投影的检验([4], [13], [19]):通过残差标记的经验过程或随机投影构造 omnibus 检验,检测率可达 \(n^{-1/2}\),但零分布不可 tract,需 bootstrap/Monte Carlo;且对高频振荡替代不够敏感。 2. 基于矩 / RKHS 正则化的检验([3]):利用正则化估计构造检验统计量,有 tractable 渐近分布(如 Wilks 型),但在高维/函数设定下受 curse of dimensionality 困扰,对局部替代的检测率往往慢于 \(n^{-1/2}\)。 3. 充分降维(SDR)与模型自适应([6], [7], [16]):通过降维子空间(如 central mean subspace)识别模型结构,为混合检验提供“自适应维度”的入口。[8] 证明了混合检验的自适应维度恰好对应残差相关的 central subspace。
这个方向在追问的核心问题: 1. 零分布的可 tract 性与最快检测率的兼容:能否构造一个检验,既不需要 bootstrap 定临界值(有精确或渐近卡方分布),又能在局部替代下达到 \(O(n^{-1/2})\) 检测率? 2. 离散观测的理论合法性:当 \(X(t)\) 仅在有限网格点上观测时,网格点数 \(m\) 与样本量 \(n\) 须满足什么关系,才能保证检验的渐近性质不崩塌? 3. 模型自适应:检验能否自动识别真实模型偏离的方向(全局偏离 vs. 振荡偏离),从而在不同替代下都保持高功效,而不是对某类替代“盲”?
⚠️ 作者的 framing: - 作者将缺口 frame 为:现有函数检验要么零分布不可 tract,要么缺乏局部替代下的渐近分析,要么假设 \(X(t)\) 连续观测。这使得本文的“混合检验 + 离散网格 + tractable 卡方 + unvisited local alternatives”成为显然的下一步。 - 被淡化的竞争路线:[4] 的随机投影检验虽需 bootstrap,但在 \(n^{-1/2}\) 检测率上已很成熟;作者仅以“计算复杂度高且功效较低”一笔带过,未深入比较在何种替代下混合检验严格优于投影检验。[3] 的 RKHS Wilks 现象检验有 tractable 分布,作者未将其作为主要对比基准。 - 缺失的引用 / 应存在却未出现的:半参数效率理论下的模型检验(如一般回归模型的有效影响函数检验)、以及高维/函数设定下的 minimax 检验率下界(如 Ingster 的三阶段检验理论在函数空间的推广)——这些是判断本文功效率是否达到理论极限的关键参照,但 intro 中未出现。值得研究者去查:函数空间模型检验的 minimax separation rate 是否已知?本文的 \(n^{-1/2}\) 是否在某种意义上 optimal?
张力: 未见明显对立引用。但存在隐含张力:[4] 等经验过程检验声称达到 \(n^{-1/2}\) 最快检测率,而 [8] 指出矩检验在多变量下受 curse of dimensionality 限制、检测率慢于 \(n^{-1/2}\);本文在函数设定下声称混合检验继承了 \(n^{-1/2}\) 检测率,但 [8] 的原文指出在函数数据下存在“shrinkage of critical order of \(\delta_n\)”——这两者之间的速率折衷是否被本文完全理清,需在技术节仔细核对。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Y_i\):标量响应变量(实值随机变量),第 \(i\) 个个体的观测结果。
- \(X_i(t)\):函数预测子(随机函数,取值于 Hilbert 空间 \(H\),如 \(L^2[0,1]\)),第 \(i\) 个个体的曲线。
- \(\beta(t)\):斜率函数(待估/待检验的参数函数,属于 \(H\)),在零假设下模型假定为该 \(\beta\)。
- \(\varepsilon_i\):误差项,独立于 \(X_i\),均值为 0,方差 \(\sigma^2\)。
- \(n\):样本量(个体数)。
- \(m\):网格点数(每个 \(X_i(t)\) 在区间 \([0,1]\) 上被离散观测的点数,如 \(t_1, \dots, t_m\))。
- \(U_i\):残差,\(U_i = Y_i - \int X_i(t)\beta(t)dt\)(零假设下的残差;若模型错定,真实残差为 \(Y_i - \int X_i(t)\beta_{true}(t)dt\))。
- \(d\):残差子空间的维度(用于模型自适应的关键整数参数,由数据驱动估计)。
- \(E(\cdot)\):期望算子;\(E(U|X)\) 为条件期望(条件矩检验的核心);\(E(U \cdot h(X))\) 为无条件矩(常规矩检验的核心),\(h\) 为某指示/投影函数。
- 可观测数据:研究者实际观测到的是 \(\{(Y_i, X_i(t_1), \dots, X_i(t_m))\}_{i=1}^n\)。\(X_i(t)\) 的连续轨迹不可观测,只能在 \(m\) 个离散点上取值;\(\beta(t)\) 同样只能在离散点上被估计/代入。误差 \(\varepsilon_i\) 不可观测,只能通过残差 \(U_i\) 逼近。
- 不可观测 / 需假设识别的量:真实的模型偏离方向 \(g(X)\)(若模型错定,真实关系为 \(Y = \int X\beta + g(X) + \varepsilon\),\(g\) 为不可观测的偏离函数);连续的 \(X_i(t)\) 与 \(\beta(t)\) 的完整轨迹。
模型(数据生成机制): 零假设 \(H_0\):\(Y_i = \int_0^1 X_i(t)\beta(t)dt + \varepsilon_i\)。 局部替代假设 \(H_{1n}\):\(Y_i = \int_0^1 X_i(t)\beta(t)dt + \delta_n g(X_i) + \varepsilon_i\),其中 \(\delta_n \to 0\) 为局部替代收缩速率,\(g(X_i)\) 为偏离方向(可振荡、可平滑)。
第二步:最小内核——最简特例(单网格点 / 一维投影下的混合检验)
剥掉函数无限维、多网格点、FPCA 估计等一般性外壳,核心数学困难与思想在最简特例中已完全显现:设 \(X_i\) 退化为一维标量预测子 \(x_i\)(即 \(m=1\), \(d=1\)),\(\beta\) 为常数,零假设 \(H_0: Y_i = \beta x_i + \varepsilon_i\)。
此时,常规矩检验(Moment-based test, \(T_M\))检查 \(E(U \cdot x) = 0\),统计量为 \(n^{-1}\sum U_i x_i\);条件矩检验(Conditional moment-based test, \(T_C\))检查 \(E(U | x) = 0\) 的某投影,统计量为 \(n^{-1}\sum U_i \hat{E}(U_i | x_i)\)(或残差标记经验过程的某泛函)。
混合检验的最小内核: \(T_{hybrid} = T_M + T_C\)(或两者的加权组合)。 - 在 \(H_0\) 下:\(T_M\) 与 \(T_C\) 各自渐近正态/卡方,且因 \(U_i\) 与 \(x_i\) 在 \(H_0\) 下独立,两者渐近独立;故 \(T_{hybrid}\) 的零分布为可 tract 的卡方分布(自由度 = 两成分自由度之和)。 - 在 \(H_{1n}: Y_i = \beta x_i + \delta_n g(x_i) + \varepsilon_i\) 下: - 若 \(g(x)\) 为平滑偏离(如 \(g(x)=x^2\)),\(T_M\) 对其敏感(因 \(E(U \cdot x)\) 偏离 0 的量级为 \(\delta_n\)),检测率 \(O(n^{-1/2})\); - 若 \(g(x)\) 为振荡偏离(如 \(g(x)=\sin(kx)\) 且 \(E(x \sin(kx)) \approx 0\)),\(T_M\) 对其“盲”(无条件矩偏离),但 \(T_C\) 捕获 \(E(U|x)\) 的偏离,检测率仍达 \(O(n^{-1/2})\); - 混合检验 \(T_{hybrid}\) 自动继承了两者的优势:对平滑偏离靠 \(T_M\) 拉动,对振荡偏离靠 \(T_C\) 拉动,总检测率始终为 \(O(n^{-1/2})\)。
本文在函数设定下的“加壳”: - \(x_i\) 升维为函数 \(X_i(t)\),无条件矩 \(E(U \cdot h(X))\) 中的 \(h(X)\) 需通过残差子空间(维度 \(d\))的基函数来选择(实现模型自适应:\(d\) 小时退化为矩检验,\(d\) 大时逼近条件矩检验); - \(\beta(t)\) 需估计(引入 FPCA/RKHS 估计误差),残差 \(U_i\) 替换为 \(\hat{U}_i\); - \(X_i(t)\) 仅在 \(m\) 个网格点观测,积分 \(\int X_i \beta\) 替换为离散求和 \(\sum_{j=1}^m X_i(t_j)\beta(t_j) \Delta t\),需控制 \(m\) 与 \(n\) 的关系以消去离散化误差。
三、这篇论文做了什么¶
三句话: ① 研究了函数线性模型(FLM)在离散观测下的模型检验问题,目标是构造既有 tractable 零分布又在各类局部替代下保持高功效的检验; ② 核心方法是将常规矩检验与条件矩检验混合,通过残差子空间的维度 \(d\) 实现模型自适应,并在离散网格点上构造统计量; ③ 主要结论是混合检验在 \(H_0\) 下服从卡方分布,在局部替代(含 unvisited local alternatives)下检测率达 \(O(n^{-1/2})\),并推导了维持渐近理论所需的 \(m\) 与 \(n\) 关系。
关键设定与假设: - 设定:Scalar-on-function 回归,\(Y_i = \int X_i(t)\beta(t)dt + \varepsilon_i\),\(X_i(t)\) 在 \([0,1]\) 的 \(m\) 个等距网格点上离散观测。 - 假设 A1(误差):\(\varepsilon_i\) 独立同分布,均值为 0,方差 \(\sigma^2\),有有限四阶矩;独立于 \(X_i\)。 - 假设 A2(预测子):\(X_i(t)\) 为均值为 0 的随机函数,有 Karhunen-Loève 展开 \(X_i(t) = \sum_{\nu=1}^\infty \xi_{i\nu} \phi_\nu(t)\),其中 \(\xi_{i\nu}\) 为 FPCA 得分,\(\phi_\nu\) 为正交基。 - 假设 A3(谱衰减):特征值 \(\lambda_\nu\) 满足 \(\lambda_\nu \asymp \nu^{-2k}\)(\(k>1\)),控制 \(X_i(t)\) 的平滑度与 FPCA 截断的收敛率;同时斜率函数 \(\beta(t)\) 属于某 RKHS,其平滑度与 \(\lambda_\nu\) 衰减匹配(参考 [3] 的 Assumption A3)。 - 假设 A4(网格点数与样本量关系):\(m \asymp n^r\),其中 \(r\) 的具体范围由定理给出(如 \(r > (2k+1)/(4k)\)),确保离散化误差与估计误差不破坏渐近性质。这是本文相比 [4], [19] 等假设连续观测的文献新增的关键假设,直接回应了 [2] 揭示的 phase transition。 - 假设 A5(维度 \(d\) 的增长):残差子空间维度 \(d\)(用于混合检验的自适应)满足 \(d \to \infty\) 但 \(d/n \to 0\),且 \(d\) 与 \(\lambda_\nu\) 衰减率协调,确保条件矩成分的渐近可行性。
主要结果:
定理 1(零分布):在 \(H_0\) 与假设 A1-A5 下,混合检验统计量 \(T_n\) 渐近服从 \(\chi^2_d\) 分布(自由度等于残差子空间维度 \(d\))。 - 直觉:\(T_n\) 的矩成分与条件矩成分在 \(H_0\) 下渐近独立(因残差与预测子独立),各自贡献卡方分量,加总仍为卡方;tractable 分布免去了 bootstrap。 - 必要条件:\(d\) 不能过大(\(d/n \to 0\)),否则条件矩成分的方差估计不稳定,卡方分布崩塌;\(m\) 必须足够大(A4),否则离散化误差污染残差,独立性失效。
定理 2(局部替代下的功效):在 \(H_{1n}: Y_i = \int X_i\beta + \delta_n g(X_i) + \varepsilon_i\) 下,若 \(\delta_n = n^{-1/2}\),则 \(T_n \to \infty\)(以概率趋于 1),检测率为 \(O(n^{-1/2})\)。 - 直觉:混合检验继承了条件矩检验对任意偏离方向的敏感性(\(E(U|X)\) 偏离 0 必被捕获),故对全局替代与振荡替代均达最快速率。 - Unvisited local alternatives:作者特别强调了对“unvisited”局部替代的功效——指偏离方向 \(g(X)\) 不落在残差子空间的前 \(d\) 个基方向上(即常规矩检验对它“盲”),但条件矩成分仍能捕获 \(E(U|X)\) 的偏离,证明混合检验在此情形下不损失功效。
定理 3(离散化误差的控制):给出了 \(m\) 与 \(n\) 的具体关系(如 \(m \geq C n^{(2k+1)/(4k)}\)),使得离散求和逼近连续积分的误差在渐近分析中可忽略。 - 直觉:[2] 证明了均值估计中 \(m\) 与 \(n\) 的 phase transition;本文将该逻辑移植到模型检验,确保残差估计的离散化误差不掩盖 \(\delta_n\) 级的局部替代信号。
证明路线与技术技巧:
整体路线: 1. 离散化与 FPCA 截断:将连续积分 \(\int X_i\beta\) 替换为 \(m\) 点离散求和,将 \(X_i(t)\) 投影到前 \(K\) 个 FPCA 基上(\(K\) 由 \(\lambda_\nu\) 衰减决定),得到离散残差 \(\hat{U}_i\)。 2. 残差子空间构造:基于 \(\hat{U}_i\) 与 FPCA 得分 \(\hat{\xi}_{i\nu}\),构造残差标记的投影方向(前 \(d\) 个方向用于矩成分,全部方向用于条件矩成分的逼近)。 3. 混合统计量的分解:将 \(T_n\) 写成矩成分 \(T_M\) 与条件矩成分 \(T_C\) 的和,证明两者在 \(H_0\) 下的渐近独立性(通过残差与预测子的独立性 + 中心极限定理)。 4. 局部替代下的功效展开:在 \(H_{1n}\) 下,将 \(T_M\) 与 \(T_C\) 的均值展开为 \(\delta_n\) 的线性项 + 高阶余项;证明即使 \(g(X)\) 不在矩成分的投影方向上(unvisited),条件矩成分的均值偏离仍为 \(\delta_n\) 量级,故 \(T_n\) 的均值 \(\to \infty\)。 5. 离散化误差的吸收:通过 \(m\) 与 \(n\) 的关系(A4),证明离散求和误差与 FPCA 截断误差在 \(H_0\) 与 \(H_{1n}\) 下均为 \(o_p(n^{-1/2})\),不干扰主项。
关键跳跃点: - 残差替换的偏差控制:用 \(\hat{U}_i = Y_i - \sum \hat{X}_i \hat{\beta}\) 替换真实残差 \(U_i\),需证明 \(\hat{\beta}\) 的估计误差对 \(T_n\) 的影响为 \(o_p(1)\)(\(H_0\) 下)或 \(o_p(\delta_n)\)(\(H_{1n}\) 下)。这是所有残差型检验的通用难点,本文通过 FPCA 截断的收敛率(A3)与 \(\beta\) 的 RKHS 正则化估计(参考 [1])来控制。 - Unvisited local alternatives 的功效证明:常规矩检验在 \(g(X)\) 不在投影方向上时均值为 0,看似无法检测;本文证明条件矩成分在此情形下均值仍偏离,关键是 \(E(U|X)\) 的偏离不依赖于投影方向的选择,而是全局的。
技术技巧点名: - FPCA 截断与谱衰减控制([9], [2]):用于将无限维 \(X_i(t)\) 降维到有限 \(K\) 维,控制截断误差。 - RKHS 正则化估计([1]):用于估计 \(\beta(t)\),保证 \(\hat{\beta}\) 的收敛率足够快以不污染残差。 - 残差子空间的维度选择 / SDR([7], [16]):用 TDRR 方法([16] 的修改版)数据驱动地选择 \(d\),实现模型自适应。 - 卡方分布的渐近论证:通过投影方向的正交性与残差的独立性,将二次型统计量分解为独立正态分量的平方和。 - 离散求和逼近连续积分的误差分析([2]):移植 phase transition 逻辑,确定 \(m \asymp n^r\) 的阈值。
真实例子与应用: - DTI 数据(阿尔茨海默病神经影像学):分析 ADNI 数据集的扩散张量成像(DTI)数据(参考 [5], [38]),将脑白质完整性(各向异性分数 FA,函数曲线)作为预测子,认知评分(标量)作为响应。检验 FLM 是否成立(即认知评分与 FA 曲线的关系是否为线性积分形式)。结果显示混合检验能检测出非线性偏离,且功效高于单独的矩检验或条件矩检验。 - 模拟实验:采用 [7] 中定义的 9 个场景(不同偏离方向:平滑、振荡、混合),比较混合检验与 [4] 的投影检验、[13] 的检验、以及单独矩/条件矩检验的功效。混合检验在振荡替代下显著优于矩检验,在平滑替代下优于条件矩检验,且零分布的卡方逼近准确(无需 bootstrap)。
🔎 结论是否比证明窄: - 作者在摘要与 intro 中泛泛声称“higher powers under the alternatives than its components”,但严格证明仅在局部替代 \(\delta_n = n^{-1/2}\) 下给出 \(T_n \to \infty\) 的渐近保证;对固定替代(\(\delta_n\) 固定)的功效优势未严格证明,只是模拟支持。 - “Unvisited local alternatives”的功效定理(定理 2)要求 \(g(X)\) 满足特定的可积性条件(确保 \(E(U|X)\) 偏离可被条件矩成分捕获),但文中未显式列出这些条件,只说“under different underlying models”——这是一个比证明宽的 claim。
四、开放问题(点到为止,扎根具体语句)¶
- 函数模型检验的 minimax separation rate:本文证明检测率为 \(O(n^{-1/2})\),但这是否在函数空间模型检验的 minimax 意义下 optimal?需查阅函数空间 Ingster-type 三阶段检验理论,确认 \(n^{-1/2}\) 是否为最小分离速率的下界,或是否存在更快的检测率(如 \(n^{-1}\) 在某些平滑替代下)。扎根点:定理 2 声称 \(O(n^{-1/2})\) 为“fastest possible rate”,但未引用 minimax 检验下界文献。
- \(m\) 与 \(n\) 关系的 phase transition 边界收紧:本文给出 \(m \asymp n^r\) 的充分条件(A4),但这是否为必要条件?[2] 在均值估计中给出了精确的 phase transition 阈值;本文的 \(r\) 是否可进一步收紧至必要边界?扎根点:假设 A4 及定理 3 的陈述,仅给出充分关系。
- 高维函数预测子(\(p \to \infty\))下的模型检验:本文假设单函数预测子 \(X_i(t)\);[17] 已探索了大规模函数线性回归(\(p\) 个函数预测子)的推断,但模型检验在 \(p \to \infty\) 下的混合检验是否可行?残差子空间的维度 \(d\) 如何与 \(p\) 协调?扎根点:intro 提到“scalar-on-function model in (1)”并列举了其他 FLM 形式,但未触及多函数预测子设定。
- 条件矩成分的计算可行性:当 \(d\) 大时,条件矩成分涉及 \(E(U|X)\) 的非参数估计(如核回归或 RKHS 回归),在函数数据下计算成本是否可控?[4] 以“计算复杂度高”批评过类似方法,本文的混合检验在 \(d\) 大时是否面临同样问题?扎根点:摘要声称“tractable chi-squared null distribution”,但计算成本未量化。
Maintained by 陈星宇 · Homepage · Source on GitHub