An adaptive model checking test for the functional linear model¶

作者: Enze Shi, Yi Liu, Ke Sun, Lingzhu Li, Linglong Kong
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：函数线性模型（Functional Linear Model, FLM）的模型检验旨在回答一个根本的统计问题：当预测子是无限维的函数（如曲线、图像）时，我们假设的线性结构 \(Y = \int X(t)\beta(t)dt + \varepsilon\) 是否真实成立？如果不成立而继续使用 FLM，后续的估计与推断将失去意义。当前，FLM 的估计与推断（如置信带、假设检验）已有较成熟的 minimax 理论与渐近框架，但模型检验（Model checking / Goodness-of-fit）——即在函数数据下检验模型设定是否正确——的理论与工具远未成熟，尤其是如何在离散观测、无限维预测子下构造既有 tractable 零分布、又在局部替代下有渐近功效分析的检验，长期存在缺口。

发展脉络： - 奠基与估计阶段：FLM 的早期核心在于解决斜率函数 \(\beta(t)\) 估计这一不适定问题。Hall & Horowitz (2007) [9] 建立了基于 FPCA 的估计与收敛率框架；Cai & Yuan (2010) [1] 引入 RKHS 正则化，在更弱条件下达到 minimax rate；Müller & Stadtmüller (2005) [10] 将 FLM 推广至广义响应（链接函数）。这一阶段留下了推断与检验的空白。 - 推断与检验的初步探索：Shang & Cheng (2014) [3] 在 RKHS 框架下为广义 FLM 构造了置信区间与检验，发现了新的 Wilks 现象，但主要针对全局行为推断；García-Portugués 等 (2012) [13] 首次为 FLM 提出了基于随机投影的拟合优度检验，但作者在本文中指出其“计算复杂度高且功效较低”；Cuesta-Albertos 等 (2017) [4] 改进了投影经验过程方法，达到 \(O(n^{-1/2})\) 的最快检测率，但依赖 wild bootstrap 定临界值，没有 tractable 的零分布。 - 离散观测与局部替代的缺口：现有检验大多假设函数预测子 \(X(t)\) 是完全连续观测的。Cai & Yuan (2011) [2] 与 Zhu 等 (2012) [12] 揭示了离散网格点数与样本量之间存在 phase transition，但作者指出：“Existing tests considering discretely observed data either lack the theoretical results under local alternatives or cannot provide a reference relationship between the sample size and the number of grid points for the asymptotic properties”。 - 自适应混合检验的引入（非函数数据）：Li, Zhu & Zhu (2019) [8] 在多变量回归中提出了 moment-based 与 conditional moment-based 检验的混合（Hybrid test），既继承了矩检验的 tractable 零分布与对振荡替代的敏感，又继承了经验过程检验的 \(O(n^{-1/2})\) 最快检测率。Tan 等 (2016) [18] 发展了投影自适应检验。本文的位置：将 [8] 的混合自适应思想移植到函数数据，并填补离散观测下网格点数与样本量关系的理论缺口。

子线索聚类： 1. 基于经验过程 / 投影的检验（[4], [13], [19]）：通过残差标记的经验过程或随机投影构造 omnibus 检验，检测率可达 \(n^{-1/2}\)，但零分布不可 tract，需 bootstrap/Monte Carlo；且对高频振荡替代不够敏感。 2. 基于矩 / RKHS 正则化的检验（[3]）：利用正则化估计构造检验统计量，有 tractable 渐近分布（如 Wilks 型），但在高维/函数设定下受 curse of dimensionality 困扰，对局部替代的检测率往往慢于 \(n^{-1/2}\)。 3. 充分降维（SDR）与模型自适应（[6], [7], [16]）：通过降维子空间（如 central mean subspace）识别模型结构，为混合检验提供“自适应维度”的入口。[8] 证明了混合检验的自适应维度恰好对应残差相关的 central subspace。

这个方向在追问的核心问题： 1. 零分布的可 tract 性与最快检测率的兼容：能否构造一个检验，既不需要 bootstrap 定临界值（有精确或渐近卡方分布），又能在局部替代下达到 \(O(n^{-1/2})\) 检测率？ 2. 离散观测的理论合法性：当 \(X(t)\) 仅在有限网格点上观测时，网格点数 \(m\) 与样本量 \(n\) 须满足什么关系，才能保证检验的渐近性质不崩塌？ 3. 模型自适应：检验能否自动识别真实模型偏离的方向（全局偏离 vs. 振荡偏离），从而在不同替代下都保持高功效，而不是对某类替代“盲”？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有函数检验要么零分布不可 tract，要么缺乏局部替代下的渐近分析，要么假设 \(X(t)\) 连续观测。这使得本文的“混合检验 + 离散网格 + tractable 卡方 + unvisited local alternatives”成为显然的下一步。 - 被淡化的竞争路线：[4] 的随机投影检验虽需 bootstrap，但在 \(n^{-1/2}\) 检测率上已很成熟；作者仅以“计算复杂度高且功效较低”一笔带过，未深入比较在何种替代下混合检验严格优于投影检验。[3] 的 RKHS Wilks 现象检验有 tractable 分布，作者未将其作为主要对比基准。 - 缺失的引用 / 应存在却未出现的：半参数效率理论下的模型检验（如一般回归模型的有效影响函数检验）、以及高维/函数设定下的 minimax 检验率下界（如 Ingster 的三阶段检验理论在函数空间的推广）——这些是判断本文功效率是否达到理论极限的关键参照，但 intro 中未出现。值得研究者去查：函数空间模型检验的 minimax separation rate 是否已知？本文的 \(n^{-1/2}\) 是否在某种意义上 optimal？

张力：未见明显对立引用。但存在隐含张力：[4] 等经验过程检验声称达到 \(n^{-1/2}\) 最快检测率，而 [8] 指出矩检验在多变量下受 curse of dimensionality 限制、检测率慢于 \(n^{-1/2}\)；本文在函数设定下声称混合检验继承了 \(n^{-1/2}\) 检测率，但 [8] 的原文指出在函数数据下存在“shrinkage of critical order of \(\delta_n\)”——这两者之间的速率折衷是否被本文完全理清，需在技术节仔细核对。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Y_i\)：标量响应变量（实值随机变量），第 \(i\) 个个体的观测结果。
\(X_i(t)\)：函数预测子（随机函数，取值于 Hilbert 空间 \(H\)，如 \(L^2[0,1]\)），第 \(i\) 个个体的曲线。
\(\beta(t)\)：斜率函数（待估/待检验的参数函数，属于 \(H\)），在零假设下模型假定为该 \(\beta\)。
\(\varepsilon_i\)：误差项，独立于 \(X_i\)，均值为 0，方差 \(\sigma^2\)。
\(n\)：样本量（个体数）。
\(m\)：网格点数（每个 \(X_i(t)\) 在区间 \([0,1]\) 上被离散观测的点数，如 \(t_1, \dots, t_m\)）。
\(U_i\)：残差，\(U_i = Y_i - \int X_i(t)\beta(t)dt\)（零假设下的残差；若模型错定，真实残差为 \(Y_i - \int X_i(t)\beta_{true}(t)dt\)）。
\(d\)：残差子空间的维度（用于模型自适应的关键整数参数，由数据驱动估计）。
\(E(\cdot)\)：期望算子；\(E(U|X)\) 为条件期望（条件矩检验的核心）；\(E(U \cdot h(X))\) 为无条件矩（常规矩检验的核心），\(h\) 为某指示/投影函数。
可观测数据：研究者实际观测到的是 \(\{(Y_i, X_i(t_1), \dots, X_i(t_m))\}_{i=1}^n\)。\(X_i(t)\) 的连续轨迹不可观测，只能在 \(m\) 个离散点上取值；\(\beta(t)\) 同样只能在离散点上被估计/代入。误差 \(\varepsilon_i\) 不可观测，只能通过残差 \(U_i\) 逼近。
不可观测 / 需假设识别的量：真实的模型偏离方向 \(g(X)\)（若模型错定，真实关系为 \(Y = \int X\beta + g(X) + \varepsilon\)，\(g\) 为不可观测的偏离函数）；连续的 \(X_i(t)\) 与 \(\beta(t)\) 的完整轨迹。

模型（数据生成机制）：零假设 \(H_0\)：\(Y_i = \int_0^1 X_i(t)\beta(t)dt + \varepsilon_i\)。局部替代假设 \(H_{1n}\)：\(Y_i = \int_0^1 X_i(t)\beta(t)dt + \delta_n g(X_i) + \varepsilon_i\)，其中 \(\delta_n \to 0\) 为局部替代收缩速率，\(g(X_i)\) 为偏离方向（可振荡、可平滑）。

第二步：最小内核——最简特例（单网格点 / 一维投影下的混合检验）

剥掉函数无限维、多网格点、FPCA 估计等一般性外壳，核心数学困难与思想在最简特例中已完全显现：设 \(X_i\) 退化为一维标量预测子 \(x_i\)（即 \(m=1\), \(d=1\)），\(\beta\) 为常数，零假设 \(H_0: Y_i = \beta x_i + \varepsilon_i\)。

此时，常规矩检验（Moment-based test, \(T_M\)）检查 \(E(U \cdot x) = 0\)，统计量为 \(n^{-1}\sum U_i x_i\)；条件矩检验（Conditional moment-based test, \(T_C\)）检查 \(E(U | x) = 0\) 的某投影，统计量为 \(n^{-1}\sum U_i \hat{E}(U_i | x_i)\)（或残差标记经验过程的某泛函）。

混合检验的最小内核： \(T_{hybrid} = T_M + T_C\)（或两者的加权组合）。 - 在 \(H_0\) 下：\(T_M\) 与 \(T_C\) 各自渐近正态/卡方，且因 \(U_i\) 与 \(x_i\) 在 \(H_0\) 下独立，两者渐近独立；故 \(T_{hybrid}\) 的零分布为可 tract 的卡方分布（自由度 = 两成分自由度之和）。 - 在 \(H_{1n}: Y_i = \beta x_i + \delta_n g(x_i) + \varepsilon_i\) 下： - 若 \(g(x)\) 为平滑偏离（如 \(g(x)=x^2\)），\(T_M\) 对其敏感（因 \(E(U \cdot x)\) 偏离 0 的量级为 \(\delta_n\)），检测率 \(O(n^{-1/2})\)； - 若 \(g(x)\) 为振荡偏离（如 \(g(x)=\sin(kx)\) 且 \(E(x \sin(kx)) \approx 0\)），\(T_M\) 对其“盲”（无条件矩偏离），但 \(T_C\) 捕获 \(E(U|x)\) 的偏离，检测率仍达 \(O(n^{-1/2})\)； - 混合检验 \(T_{hybrid}\) 自动继承了两者的优势：对平滑偏离靠 \(T_M\) 拉动，对振荡偏离靠 \(T_C\) 拉动，总检测率始终为 \(O(n^{-1/2})\)。

本文在函数设定下的“加壳”： - \(x_i\) 升维为函数 \(X_i(t)\)，无条件矩 \(E(U \cdot h(X))\) 中的 \(h(X)\) 需通过残差子空间（维度 \(d\)）的基函数来选择（实现模型自适应：\(d\) 小时退化为矩检验，\(d\) 大时逼近条件矩检验）； - \(\beta(t)\) 需估计（引入 FPCA/RKHS 估计误差），残差 \(U_i\) 替换为 \(\hat{U}_i\)； - \(X_i(t)\) 仅在 \(m\) 个网格点观测，积分 \(\int X_i \beta\) 替换为离散求和 \(\sum_{j=1}^m X_i(t_j)\beta(t_j) \Delta t\)，需控制 \(m\) 与 \(n\) 的关系以消去离散化误差。

三、这篇论文做了什么¶

三句话： ① 研究了函数线性模型（FLM）在离散观测下的模型检验问题，目标是构造既有 tractable 零分布又在各类局部替代下保持高功效的检验； ② 核心方法是将常规矩检验与条件矩检验混合，通过残差子空间的维度 \(d\) 实现模型自适应，并在离散网格点上构造统计量； ③ 主要结论是混合检验在 \(H_0\) 下服从卡方分布，在局部替代（含 unvisited local alternatives）下检测率达 \(O(n^{-1/2})\)，并推导了维持渐近理论所需的 \(m\) 与 \(n\) 关系。

关键设定与假设： - 设定：Scalar-on-function 回归，\(Y_i = \int X_i(t)\beta(t)dt + \varepsilon_i\)，\(X_i(t)\) 在 \([0,1]\) 的 \(m\) 个等距网格点上离散观测。 - 假设 A1（误差）：\(\varepsilon_i\) 独立同分布，均值为 0，方差 \(\sigma^2\)，有有限四阶矩；独立于 \(X_i\)。 - 假设 A2（预测子）：\(X_i(t)\) 为均值为 0 的随机函数，有 Karhunen-Loève 展开 \(X_i(t) = \sum_{\nu=1}^\infty \xi_{i\nu} \phi_\nu(t)\)，其中 \(\xi_{i\nu}\) 为 FPCA 得分，\(\phi_\nu\) 为正交基。 - 假设 A3（谱衰减）：特征值 \(\lambda_\nu\) 满足 \(\lambda_\nu \asymp \nu^{-2k}\)（\(k>1\)），控制 \(X_i(t)\) 的平滑度与 FPCA 截断的收敛率；同时斜率函数 \(\beta(t)\) 属于某 RKHS，其平滑度与 \(\lambda_\nu\) 衰减匹配（参考 [3] 的 Assumption A3）。 - 假设 A4（网格点数与样本量关系）：\(m \asymp n^r\)，其中 \(r\) 的具体范围由定理给出（如 \(r > (2k+1)/(4k)\)），确保离散化误差与估计误差不破坏渐近性质。这是本文相比 [4], [19] 等假设连续观测的文献新增的关键假设，直接回应了 [2] 揭示的 phase transition。 - 假设 A5（维度 \(d\) 的增长）：残差子空间维度 \(d\)（用于混合检验的自适应）满足 \(d \to \infty\) 但 \(d/n \to 0\)，且 \(d\) 与 \(\lambda_\nu\) 衰减率协调，确保条件矩成分的渐近可行性。

主要结果：

定理 1（零分布）：在 \(H_0\) 与假设 A1-A5 下，混合检验统计量 \(T_n\) 渐近服从 \(\chi^2_d\) 分布（自由度等于残差子空间维度 \(d\)）。 - 直觉：\(T_n\) 的矩成分与条件矩成分在 \(H_0\) 下渐近独立（因残差与预测子独立），各自贡献卡方分量，加总仍为卡方；tractable 分布免去了 bootstrap。 - 必要条件：\(d\) 不能过大（\(d/n \to 0\)），否则条件矩成分的方差估计不稳定，卡方分布崩塌；\(m\) 必须足够大（A4），否则离散化误差污染残差，独立性失效。

定理 2（局部替代下的功效）：在 \(H_{1n}: Y_i = \int X_i\beta + \delta_n g(X_i) + \varepsilon_i\) 下，若 \(\delta_n = n^{-1/2}\)，则 \(T_n \to \infty\)（以概率趋于 1），检测率为 \(O(n^{-1/2})\)。 - 直觉：混合检验继承了条件矩检验对任意偏离方向的敏感性（\(E(U|X)\) 偏离 0 必被捕获），故对全局替代与振荡替代均达最快速率。 - Unvisited local alternatives：作者特别强调了对“unvisited”局部替代的功效——指偏离方向 \(g(X)\) 不落在残差子空间的前 \(d\) 个基方向上（即常规矩检验对它“盲”），但条件矩成分仍能捕获 \(E(U|X)\) 的偏离，证明混合检验在此情形下不损失功效。

定理 3（离散化误差的控制）：给出了 \(m\) 与 \(n\) 的具体关系（如 \(m \geq C n^{(2k+1)/(4k)}\)），使得离散求和逼近连续积分的误差在渐近分析中可忽略。 - 直觉：[2] 证明了均值估计中 \(m\) 与 \(n\) 的 phase transition；本文将该逻辑移植到模型检验，确保残差估计的离散化误差不掩盖 \(\delta_n\) 级的局部替代信号。

证明路线与技术技巧：

整体路线： 1. 离散化与 FPCA 截断：将连续积分 \(\int X_i\beta\) 替换为 \(m\) 点离散求和，将 \(X_i(t)\) 投影到前 \(K\) 个 FPCA 基上（\(K\) 由 \(\lambda_\nu\) 衰减决定），得到离散残差 \(\hat{U}_i\)。 2. 残差子空间构造：基于 \(\hat{U}_i\) 与 FPCA 得分 \(\hat{\xi}_{i\nu}\)，构造残差标记的投影方向（前 \(d\) 个方向用于矩成分，全部方向用于条件矩成分的逼近）。 3. 混合统计量的分解：将 \(T_n\) 写成矩成分 \(T_M\) 与条件矩成分 \(T_C\) 的和，证明两者在 \(H_0\) 下的渐近独立性（通过残差与预测子的独立性 + 中心极限定理）。 4. 局部替代下的功效展开：在 \(H_{1n}\) 下，将 \(T_M\) 与 \(T_C\) 的均值展开为 \(\delta_n\) 的线性项 + 高阶余项；证明即使 \(g(X)\) 不在矩成分的投影方向上（unvisited），条件矩成分的均值偏离仍为 \(\delta_n\) 量级，故 \(T_n\) 的均值 \(\to \infty\)。 5. 离散化误差的吸收：通过 \(m\) 与 \(n\) 的关系（A4），证明离散求和误差与 FPCA 截断误差在 \(H_0\) 与 \(H_{1n}\) 下均为 \(o_p(n^{-1/2})\)，不干扰主项。

关键跳跃点： - 残差替换的偏差控制：用 \(\hat{U}_i = Y_i - \sum \hat{X}_i \hat{\beta}\) 替换真实残差 \(U_i\)，需证明 \(\hat{\beta}\) 的估计误差对 \(T_n\) 的影响为 \(o_p(1)\)（\(H_0\) 下）或 \(o_p(\delta_n)\)（\(H_{1n}\) 下）。这是所有残差型检验的通用难点，本文通过 FPCA 截断的收敛率（A3）与 \(\beta\) 的 RKHS 正则化估计（参考 [1]）来控制。 - Unvisited local alternatives 的功效证明：常规矩检验在 \(g(X)\) 不在投影方向上时均值为 0，看似无法检测；本文证明条件矩成分在此情形下均值仍偏离，关键是 \(E(U|X)\) 的偏离不依赖于投影方向的选择，而是全局的。

技术技巧点名： - FPCA 截断与谱衰减控制（[9], [2]）：用于将无限维 \(X_i(t)\) 降维到有限 \(K\) 维，控制截断误差。 - RKHS 正则化估计（[1]）：用于估计 \(\beta(t)\)，保证 \(\hat{\beta}\) 的收敛率足够快以不污染残差。 - 残差子空间的维度选择 / SDR（[7], [16]）：用 TDRR 方法（[16] 的修改版）数据驱动地选择 \(d\)，实现模型自适应。 - 卡方分布的渐近论证：通过投影方向的正交性与残差的独立性，将二次型统计量分解为独立正态分量的平方和。 - 离散求和逼近连续积分的误差分析（[2]）：移植 phase transition 逻辑，确定 \(m \asymp n^r\) 的阈值。

真实例子与应用： - DTI 数据（阿尔茨海默病神经影像学）：分析 ADNI 数据集的扩散张量成像（DTI）数据（参考 [5], [38]），将脑白质完整性（各向异性分数 FA，函数曲线）作为预测子，认知评分（标量）作为响应。检验 FLM 是否成立（即认知评分与 FA 曲线的关系是否为线性积分形式）。结果显示混合检验能检测出非线性偏离，且功效高于单独的矩检验或条件矩检验。 - 模拟实验：采用 [7] 中定义的 9 个场景（不同偏离方向：平滑、振荡、混合），比较混合检验与 [4] 的投影检验、[13] 的检验、以及单独矩/条件矩检验的功效。混合检验在振荡替代下显著优于矩检验，在平滑替代下优于条件矩检验，且零分布的卡方逼近准确（无需 bootstrap）。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛声称“higher powers under the alternatives than its components”，但严格证明仅在局部替代 \(\delta_n = n^{-1/2}\) 下给出 \(T_n \to \infty\) 的渐近保证；对固定替代（\(\delta_n\) 固定）的功效优势未严格证明，只是模拟支持。 - “Unvisited local alternatives”的功效定理（定理 2）要求 \(g(X)\) 满足特定的可积性条件（确保 \(E(U|X)\) 偏离可被条件矩成分捕获），但文中未显式列出这些条件，只说“under different underlying models”——这是一个比证明宽的 claim。

四、开放问题（点到为止，扎根具体语句）¶

函数模型检验的 minimax separation rate：本文证明检测率为 \(O(n^{-1/2})\)，但这是否在函数空间模型检验的 minimax 意义下 optimal？需查阅函数空间 Ingster-type 三阶段检验理论，确认 \(n^{-1/2}\) 是否为最小分离速率的下界，或是否存在更快的检测率（如 \(n^{-1}\) 在某些平滑替代下）。扎根点：定理 2 声称 \(O(n^{-1/2})\) 为“fastest possible rate”，但未引用 minimax 检验下界文献。
\(m\) 与 \(n\) 关系的 phase transition 边界收紧：本文给出 \(m \asymp n^r\) 的充分条件（A4），但这是否为必要条件？[2] 在均值估计中给出了精确的 phase transition 阈值；本文的 \(r\) 是否可进一步收紧至必要边界？扎根点：假设 A4 及定理 3 的陈述，仅给出充分关系。
高维函数预测子（\(p \to \infty\)）下的模型检验：本文假设单函数预测子 \(X_i(t)\)；[17] 已探索了大规模函数线性回归（\(p\) 个函数预测子）的推断，但模型检验在 \(p \to \infty\) 下的混合检验是否可行？残差子空间的维度 \(d\) 如何与 \(p\) 协调？扎根点：intro 提到“scalar-on-function model in (1)”并列举了其他 FLM 形式，但未触及多函数预测子设定。
条件矩成分的计算可行性：当 \(d\) 大时，条件矩成分涉及 \(E(U|X)\) 的非参数估计（如核回归或 RKHS 回归），在函数数据下计算成本是否可控？[4] 以“计算复杂度高”批评过类似方法，本文的混合检验在 \(d\) 大时是否面临同样问题？扎根点：摘要声称“tractable chi-squared null distribution”，但计算成本未量化。

Maintained by 陈星宇 · Homepage · Source on GitHub

An adaptive model checking test for the functional linear model¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论