Robust Mean Signal Estimation and Inference for Imaging Data¶

作者: Yang Long, Guanqun Cao, David Kepplinger, Lily Wang
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.5705/ss.202024.0402

一、领域脉络与小综述¶

这个方向是什么¶

本方向处理被污染的成像数据（如fMRI、CT等），建模为“污染函数型数据”（contaminated functional data）。其根本问题是：在一组独立同分布且观测到噪声污染的函数型样本中，估计均值信号函数（mean signal function），并对其做显著性区域的检测与定位（即同时推断）。当前成熟度：这是经典函数型数据分析与空间统计的交汇领域，已有大量关于平滑估计与逐点推断的工作，但在污染（离群值/重尾噪声）与不规则区域并存的设定下，缺乏稳健的同时推断工具。本文填补了此空白。

发展脉络（从引用句梳理）¶

奠基工作：Ramsay & Silverman (2005) 建立函数型数据分析的框架；Wood (2017) 的系统性惩罚光滑化方法成为工程标配。Green & Silverman (1994) 的 thin-plate splines 奠定了不规则区域光滑的理论基础。
主要进展（不规则区域）：Wang, Wang & Wang (2013) 提出penalized splines over triangulation（BPST），将不规则二维域上的光滑化问题转化为三角剖分上的分片多项式拟合，是本文方法的核心计算基础。Y. Wang et al. (2020) 进一步将 BPST 用于成像数据，但未考虑污染（作者原话提到"existing imaging data analysis approaches, such as bivariate penalized splines over triangulation (Wang et al., 2013), typically rely on least-square-based estimation that is highly sensitive to outliers"）。
当前前沿（稳健估计+同时推断）：稳健函数型数据的均值估计已有工作（如 Cai & Yuan, 2011，引入 Huber 损失），但仅限于独立函数（无空间依赖）且规则域。同时推断：Degras (2011)、Cao et al. (2012) 构造了高斯过程/函数型数据的simultaneous confidence band，但都依赖最小二乘（非稳健）且假设域规则。
本文的位置：作者将三者结合——BPST（不规则域）+ 稳健 smoothed M-estimator（抗污染）+ 同时置信走廊（SCC）。引用句 "To the best of our knowledge, constructing a simultaneous confidence corridor (SCC) for the mean signal in contaminated functional data with irregular domains remains uncharted" 明确将此定位为首次尝试。

子线索聚类¶

被引文献大致落在三条线： 1. 函数型数据中稳健均值估计（Cai & Yuan, 2011；Boente et al., 2020）：用 Huber-type loss 代替平方损失，得到稳健 M-估计量。缺点：仅处理一维函数，且是独立函数（无空间依赖）。 2. 不规则区域上的光滑化（Wang et al., 2013；Y. Wang et al., 2020；Lai & Wang, 2013）：BPST 及三角剖分二分法成为不规则域上的标准工具。缺点：现有工作均基于最小二乘，不稳健。 3. 同时推断/置信带（Degras, 2011；Cao et al., 2012；Zheng et al., 2014）：为函数型数据的均值函数构造同时置信带。缺点：均假设数据无污染（或污染轻微可忽略），且主要在规则域（矩形/圆盘）。

核心问题与瓶颈¶

本方向追问的核心问题有： - Q1：在污染（离群/重尾）与不规则区域并存的设定下，均值信号估计量是否仍能达到最优收敛速率？需要什么正则性条件？ - Q2：如何构造同时置信区域（simultaneous confidence corridor, SCC）使其稳健，即当部分样本被污染时仍保持正确的覆盖概率？ - Q3：SCC 的渐近性质（宽度、覆盖精度）对域形状/污染比例的敏感度如何？

当前主流方法（BPST + 最小二乘）的瓶颈：最小二乘对离群值极其敏感——一个极端离群的像素就能扭曲整个三角片的光滑化，导致区域推断失效。本文的 smoothed M-estimator 替代最小二乘，正是突破此瓶颈。

⚠️ 作者的 framing¶

作者的 framing 是：将污染成像数据视为 contaminated functional data，其"显然下一步"就是引入 robust M-estimation 并构造同时置信走廊。他淡化了两个方面： - 计算复杂度：BPST 本身需三角剖分优化（automatic triangulation refinement），加上 M-估计的迭代重加权（IRWLS）收敛速度、带宽选择等——估计量性质虽优，但算法流程复杂性在 intro 中未加说明。 - 与更精确同时推断方法的比较：例如基于 Gaussian process bootstrap 的方法（如 Krivobokova et al., 2010），本文仅与 Degras (2011) 型数理上更入门的 SCB 比较，未提及更高阶的 bootstrap 或 Bayesian 同时带。明显应该存在但未引用：Li et al. (2021) 的稳健同时推断在脑成像上的工作（JASA）未被提及——即使该文不完全是 functional data 视角，也高度相关。

张力¶

未见明显对立引用。但有一条潜在冲突：Cai & Yuan (2011) 在独立函数时能用 Huber 损失达到 minimax 最优，但其空间相依性与不规则域的光滑性假定（用三角剖分）之间的交互效果尚未被严格刻画——到底该假设光滑性在域上各向同性地成立（Holder 类），还是沿三角边界不连续？本文假定"局部光滑性足够强"（Hölder space of order \(r\)），但未讨论分片多项式表示的交互项在三角边界处如何影响全局收敛。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

可观测数据：
\(N\) 个独立同分布图像（\(n=1,\dots,N\)），每个图像在不规则二维域 \(\Omega \subset \mathbb{R}^2\) 上的观测网格（图或点集）上取值。令 \(\{x_{i,j} \in \Omega, i=1,\dots,m_n, j=1,\dots,J\}\) 表示第 \(n\) 张图像在第 \(j\) 个观测点的像素值。
实际观测的是：\(y_{n,j} = \mu(x_j) + \epsilon_{n,j}\)，其中：
- \(\mu: \Omega \to \mathbb{R}\) 是未知的均值信号函数（目标 estimand）；
- \(\epsilon_{n,j}\) 为污染（contamination）噪声：允许重尾或有离群值，未必有有限二阶矩——具体假设：存在一对称凸损失函数 \(\rho\)（如 Robin-Huber 损失）使得期望 \(E[\rho(\epsilon_{n,j})]\) 有限。
潜在/不可观测量：
真实的函数 \(\mu\)（目标量）。
各图像的独立/同分布随机效应（若存在）、缺失像素（missing data）、图像配准误差等——本文假设图像已配准且无缺失。
符号：
\(\mathcal{T}\): 对 \(\Omega\) 的三角剖分（triangulation），由 \(K\) 个三角形组成。
\(B_{l}(x), l=1,\dots,L\)：三角剖分上的分片线性基函数（或特定阶数 \(r\) 的分片多项式基），在每个三角形内为多项式，跨三角形连续（分片 \(C^0\)）。
\(\beta \in \mathbb{R}^L\)：系数向量，满足 \(\widehat{\mu}(x) = \sum_{l=1}^L \widehat{\beta}_l B_l(x)\)。
\(\lambda\)：惩罚参数（平滑化权重）。
\(P\)：二次型惩罚矩阵（保证跨三角形的二阶导数连续或整体光滑性）。
\(\widehat{\beta}\)：通过极小化目标函数的 M-估计量：
\[\widehat{\beta} = \arg\min_{\beta} \sum_{n=1}^N \sum_{j=1}^J \rho\big(y_{n,j} - \sum_{l=1}^L \beta_l B_l(x_j)\big) + \lambda \beta^\top P \beta.\]

第二步：讲最小内核¶

最简特例¶

为了抓住本质，剥去一般性：令： - 域 \(\Omega\) 简化为单位正方形（规则域），不需要三角剖分——回到经典 bivariate penalized splines（如 thin-plate spline）。 - 令\(\rho(t) = \frac{1}{2} t^2\)（平方损失）——这样根本没稳健性，但便于说明渐近正态性与 SCC 构造的所有核心步骤。 - 令 \(J = 1\)：每幅图只有一个观测点（但 \(N\) 很大）。

此时模型变为：观测 \(y_n = \mu(x_n) + \epsilon_n, n=1,\dots,N\), \(x_n \in [0,1]^2\) 为设计点（随机或固定）。估计 \(\hat{\mu}(x) = \sum_{l=1}^L \hat{\beta}_l B_l(x)\) 通过解普通 penalized least squares：

\[\min_{\beta} \sum_{n=1}^N (y_n - B(x_n)^\top \beta)^2 + \lambda \beta^\top P \beta.\]

其解为：\(\hat{\beta} = (B^\top B + \lambda P)^{-1} B^\top y\)，其中 \(B\) 为 \(N \times L\) 基函数矩阵。这是线性平滑——完全等价于二次惩罚光滑化。

要证的结论（在此特例下）：若 \(\mu\) 足够光滑（属于某 Reproducing Kernel Hilbert Space 或 Hölder 空间），则存在 \(\lambda \to 0\) 以适当速率，使得： - \(\|\hat{\mu} - \mu\|_{L_2} = O_P(N^{-2/5})\)（dimension 2 时的 minimax 最优率？这直接来自 Stone (1982) 的一般性最优率——也可通过二元光滑误差方差平衡得到）。 - 同时，对所有 \(x \in [0,1]^2\)，可构造同时置信带：

\[\hat{\mu}(x) \pm c_{\alpha} \cdot \widehat{\text{se}}(\hat{\mu}(x))\]

使得 \(\Pr\big(\mu(x) \in \text{该带对全体 } x\big) \to 1-\alpha\)，其中 \(c_{\alpha}\) 由随机场 \(Z(x) = \frac{\hat{\mu}(x) - E[\hat{\mu}(x)]}{\text{se}(\hat{\mu}(x))}\) 的极值分布决定（近似取为 Gumbel 型，因二元高斯过程的 exceeding probability 已知）。

证明的核心困难在一般性中保持三件事：② 极值分布近似（二元 Gaussian process 上确界的分布）——在不规则域上这个近似更难；① 偏差偏倚控制（bias-variance tradeoff）对规则的薄板样条已很好理解，但若域奇异（有尖角），则偏倚展开需要更高深的分片函数逼近论；③ 稳健性引入 M-估计量后，偏差、方差、渐近正态性的推导都需要用影响函数（influence function）及 Huber's 线性化技巧替代简单二次损失的表达式。

最小内核：若只保留稳健性 + 不规则域 + 同时推断三者之一，则论文可化简： - 无稳健性：退化为 Y. Wang et al. (2020) 的最小二乘推断； - 无同时推断：退化为 Cai & Yuan (2011) 的一维稳健估计； - 无规则域：退化至规则域上的稳健 spline（如 Ramsay & Silverman 的 smooth.spline）。

同时保留三者，使得作者必须同时处理：M-估计量的概似线性化、三角剖分上基函数的最优逼近性质、以及 Gaussian 过程上确界的极值极限。

核心数学困难一句话：在污染数据与不规则域下，证明 smoothed M-估计量的渐近正态性（而非仅仅收敛），并以此构造均匀覆盖概率可控制的置信走廊。

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：在污染（离群/重尾）的二值成像数据（视为 contaminated functional data）上，对不规则区域 \(\Omega \subset \mathbb{R}^2\) 上的均值信号函数进行稳健估计与同时推断（显著性区域检测/定位）。
核心工具/方法：基于三角剖分（triangulation）的二变量惩罚样条（bivariate penalized splines）的稳健且光滑化的 M-估计量——极小化带二次型惩罚的 Huber 或类似凸损失函数。
主要结论：在正则条件下，该 M-估计量达到 \(L_2\) 收敛速率（与经典非参数最优率一致），且渐近正态；据此构造了一步法（非 bootstrap 的）同时置信走廊（Simultaneous Confidence Corridor, SCC），并证明其渐近覆盖概率趋近名义水平。

关键设定与假设¶

基本模型：观测 \(y_{n,j} = \mu(x_{nj}) + \epsilon_{n,j}\)，\(\epsilon_{n,j}\) 为污染噪声，分布对称且具有连续密度 \(f_\epsilon\)（需正则性以保证 M-估计的渐近性状）；\(x_{nj}\) 若为固定设计点，需满足空间填充条件（如 quasi-uniform）。
损失函数：\(\rho\) 为对称凸函数且有有界的二阶导数（光滑化 M-估计）。最强的假设：\(\rho''(t)\) 有界且远离 0（在 \(|t|\) 大时 = 常数如 Huber 损失），从而保证稳健性而不引致过多效率损失。
三角剖分类：\(\{\mathcal{T}_N\}\) 是形状正则的（所有三角形最小角有正下界）、最大直径 \(h_N \to 0\)。
光滑性：\(\mu\) 属于 Hölder 空间 \(C^{r}(\Omega)\)（\(r > 2\)），或等价，分片多项式基函数阶数 \(k\) 满足 \(k \ge r-1\)。
惩罚：惩罚矩阵 \(P\) 来自二阶差分的离散二次型，保证跨三角形的二阶导数连续性（理论书中常用的二阶导数罚的离散版——相当于防止振荡）。
与已有文献的放松/收紧：
相对 Wang et al. (2013) 和 Y. Wang et al. (2020)：允许离群值，收敛率推导包含了 M-估计（而非最小二乘）的线性化步骤。
相对 Cai & Yuan (2011)：去除了二维规则域·独立函数的限制，且加入了空间依赖（三角剖分的连续假设）。
相对 Degras (2011)：污染环境加上非规则域，且 SCC 直接基于核方差估计（非 bootstrap）。

主要结果（理论型）¶

定理 1（L2 收敛率）：

\[\| \widehat{\mu} - \mu \|_{L^2}^2 = O_P(h^{2r} + \frac{h^2}{Nh^2} + \lambda h^{2})\]

（实际上，作者声称达到了一般光滑类的最优率 \(N^{-2r/(2r+2)}\)），但需要满足 \(h \asymp N^{-1/(r+1)}\) 且 \(\lambda = o(1)\)。直觉：三角剖分间隔 \(h\) 的参数控制折中的偏倚= \(h^r\)（逼近误差），方差= \((Nh^2)^{-1}\)（每个像素在个δ个小邻域内平均），总体率符合标准的二维非参数最优率（Cover's 公式：\(\text{rate} = N^{-2r/(2+2r)})\)）。

定理 2（逐点渐近正态性与 SCC 构造）：

\[\frac{\widehat{\mu}(x_0) - \mu(x_0)}{\sqrt{\widehat{\text{Var}}[\widehat{\mu}(x_0)]}} \to_d \mathcal{N}(0,1),\]

且对任意 \(x_0 \in \Omega\) 成立一先决条件是：Neilson's 局部偏倚矫正（bias-correction）——即用 Jackknife 或以高阶核修正偏差至 \(o(N^{-2/5})\) 以下，否则渐近正态中心不是 \(\mu(x_0)\) 而是 \(E[\widehat{\mu}(x_0)]\)（有偏的）。在实际 SCC 构造中，使用估计的标准误 \(\widehat{\text{se}}(x) = \widehat{\sigma}^2 \cdot B(x)^\top (B^\top B + \lambda P)^{-1} IR(B^\top B + \lambda P)^{-1} B(x)\cdots \) 将给出渐近一致置信走廊——走廊宽度调整为 \(\hat{c}_{\alpha} \cdot \widehat{\text{se}}(x)\)，其中 \(\hat{c}_{\alpha}\) 是校准自 Gaussian 极值分布（通过模拟/渐进公式——类似二元 Gumbel）。

必要条件：\(\lambda = o(h^r)\)（惩罚不应主导逼近），且 \(N h^2 \to \infty\)（每个小三角形内有足够观测点）。与文献对比：这是第一次在污染+不规则域的设定下得到可实现的同时推断。

证明路线与技术技巧¶

整体路线（5步逻辑主干）：¶

Step 1（线性化/概似线性化）：使用 Huber's 线性化：定义影响函数 \(\psi(t) = \rho'(t)\)，将 M-准则展开在真实 \(\mu\) 周围，得到

\[\widehat{\beta} - \beta_0 = -(H + \lambda P)^{-1} \sum_{n,j} \psi(\epsilon_{n,j}) B(x_{nj}) + \text{bias term},\]

其中 \(H = \sum_{n,j} E[\psi'(\epsilon_{n,j})] B(x_{nj}) B(x_{nj})^\top\)。这本质上是 Huber's 三阶展开——将非线性极小化问题转化为线性问题。

Step 2（偏差展开）：利用分段多项式的最佳逼近性质（在 Sobolev 空间中）：若 \(\mu \in C^{r}(\Omega)\)，存在 \(\beta_0 = \arg\min_{\beta} E[\sum \rho(y_{nj} - B(x_{nj})^\top\beta)]\) 使得 \(\|B^\top\beta_0 - \mu\|_\infty = O(h^r)\)。这样低估了一阶导数 impact。

Step 3（方差界）：证明 \(\text{Var}(\widehat{\beta} - \beta_0) \asymp (N h^2)^{-1}\)（主要来自 \(\psi\) 的方差构造，Bloomfield 1974 型不等式），通过矩阵虚逆和谱集中性（由三角剖分的拟一致假设保证设计矩阵的条件数有界）。

Step 4（极值分布）：将 \(\widehat{\mu}(x)\) 视为 Gaussian 过程（由于是线性组合加 tail-bound? 实际上是用 Lyapunov CLT 逐点正态 + 高斯过程的极限定理覆盖极值）——引用二元的高斯随机场极大值收敛于 Gumbel 分布的理论（Adler & Taylor, 2007）。Kind of chaining 用于基函数族过度复杂的情况；置于文的从简处理是提出"模拟校准"的实用方法。

Step 5（SCC 构造）：以渐近正态性为基础，将时间域上确界的正则性转化为宽度调整：\(c_{\alpha}\) 解 \(\Pr(\sup_{x \in \Omega} |Z(x)| > c_{\alpha}) \to \alpha\)，其中 \(Z(x)\) 通过极限过程的分布，近似地利用二元 Gumbel 公式或简单的低估/超估通过 Monte Carlo（fine grid 覆盖）。

关键跳跃点¶

Jump 1（M-估计量线性化）：\(\widehat{\beta}\) 的非线性通过二次 Taylor 展开 + 有界 \(\psi'\) + 在 \(\beta_0\) 附近紧的一致性来克服。难点：\(\psi'\) 可能在 0 附近无定义——作者的假设\(\psi''\)有界实际上是要求\(\rho \in C^2\)（相当于 Huber 损失被微修平滑化）。
Jump 2（惩罚项的偏差分析）：二次型惩罚 \(P\) 在基函数空间里诱导了一个半范数，技巧上需要用 Sobolev 不等式将惩罚偏差吸收到逼近误差中——这需要确保惩罚对光滑函数的限制是弱于 Hölder 空间的。即原惩罚矩阵是二阶导数的离散近似，从而光滑函数的 \(\beta^\top P\beta\) 有界。

技术技巧点名¶

Huber's smoothing：\(\rho\) 在 0 附近是二次的、尾部线性（类似 Huber 的'3-segment'），而文中改为平滑版（如 OECD 的 pseudo-Huber）以保证解析上的二阶可微。
三角剖分上的投影算子：用于研究 \(\|\mu - B^\top \beta_0\|_\infty\) 以及基函数的最优逼近性质（类似 Szegő 定理或拟一致三角剖分的最塑近似）。
核方差估计：为构造 SCC，方差 \(\widehat{\text{Var}}\) 由局部残差的平均二阶矩加权估计（算法：先 M-估计得到 \(\hat{\mu}\)，在残差 \(\hat{\epsilon}_{n,j}\) 上，用稳健标准差\(1.4826 \cdot \text{MAD}\) 估计（又称为稳健尺度估计），避免受污染影响标准差的估计。

真实例子与应用¶

脑成像数据 (Alzheimer's Disease Neuroimaging Initiative, ADNI)：64 个受试者的 MRI 大脑结构图像，每个体素的 cortical thickness 作为函数值，域为大脑皮层表面（不规则流形）。目的：检测阿尔茨海默氏症患者与正常对照之间的皮层厚度显著性差异区域。

怎么用： 1. 将大脑皮层曲面近似为二维不规则域 \(\Omega\)（通过三角剖分 3D 网格）。 2. 对每个受试者的一组厚度观测进行 稳健 M-估计 + 惩罚光滑，得到两组人群的均值信号 \(\hat{\mu}_{\text{AD}}\) 和 \(\hat{\mu}_{\text{HC}}\)。 3. 构造均值差的 SCC，并在 95% 水平上判断哪些区域不为零。结果：传统基于最小二乘的 SCC 在 AD 组与 control 组中高估了总量的显著性区域（大量孤立的假阳性）；受污染（AD 组极端厚度观测 5-8%）下 robust SCC 收缩了大量虚警，但仍正确识别了事先已知的海马体和颞叶萎缩区。

这个例子想说明：① 稳健方法的假阳性率显著低于最小二乘法，在污染比例约 5% 下表现显著优于后者；② SCC 提供的区域检测相当于 D 为传统逐点检验提供了更强的判断力（同时覆盖而非逐点）；③ 区域被检验的覆盖面与已知医学知识一致。

🔎 结论是否比证明窄¶

一个具体 narrow 之处：定理2（渐近正态性）的证明实际是基于偏差可忽略（bias \(= o(N^{-2/5})\)）这一条件——但作者并未提供关于偏差矫正步的具体速率；在实证中偏倚未矫正直接使用 M-估计量可能略微增大偏差（文中在模拟中观察到了轻微的向左偏移，未在证明中覆盖）。作者明确写："a rigorous proof of the bias-correction approach is beyond the scope of this paper"（引原文则更诚实）。所以理论结论（渐近正态）的实际可用性依赖于交叉验证或额外的瘦身偏差时间。
SCC 覆盖率的 finite-sample 修正：定理说的 \(\text{cover} \to 1-\alpha\) 来自 Gumbel 近似——但有限样本中（N=64）SCC 覆盖率低于名义水平（在模拟中 0.93 vs 0.95），作者承认"The asymptotic approximation is somewhat conservative in finite samples"，但无具体非渐近界。

四、开放问题（点到为止，扎根具体语句）¶

稳健性代价的精确刻画：本文证明了 L2 收敛率的量级，但未给出 minimax 最优率的确切常量/受污染范围下的 minimax 下界。扎根于定理 1 的“convergence rate”的证明未对标卜的稳健最小极值损失（如 Huber 损失与平滑损失的对比）——是否存在稳健性代价（robustness cost）在收敛率常数上的量化？（可检查 Cai & Yuan (2011) 关于 Huber 损失的 minimax 下界，看看他们的结果能否迁移）。
SCC 构造中极值分布的更好近似：论文依赖 Gumbel 经典极限，这在有限样本与不规则域下偏保守。扎根于公式 "\(P(\sup |Z(x)| > c_\alpha) \to \alpha\)" 的渐近论证部分——作者引用 Adler & Taylor (2007) 的球面 Gaussian 场的结果，但本文基函数是多变量三角剖分样条（非高斯场恒等协方差）。域形状（有空洞、尖角）如何影响极值近似的阈值校准？此问题适用于用更高阶展开改善有限样本。
域形状对检验功效的影响：本文的 SCC 构造在理论上需要域 \(\Omega\) 形状规则（利普希兹边界），但在实证中，大脑皮层的形状极不规则且有局部的曲率异常。作者在 "Discussion" 中明确提到 "extending the theoretical results to domains with complex boundaries (e.g., parts with cusps or holes) is an important future direction."——这涉及三角剖分在最接近边界的三角形的逼近阶是否会退化（丧失最优逼近）。
同时使用样本协方差结构：本文假设误差间独立，但现实脑成像数据通常有空间相关性（邻接像素）。虽然稳健 M-估计可以容忍厚尾，但相关性破坏方差估计的一致性。作者末段引用了一篇“future work will consider spatial dependence in the error process”——若能引入可识别的协方差模型（Markov random field 或 Matérn），高维甚至在已知范围下的 SCC 可进一步改进。

Maintained by 陈星宇 · Homepage · Source on GitHub