Asymmetric Estimation for Varying-Coefficient Additive Model with Functional Response in Reproducing Kernel Hilbert Space¶

作者: Yi Liu, Wei Tu, Yanchun Bao, Bei Jiang, Linglong Kong
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 7/10
链接: https://doi.org/10.5705/ss.202022.0206

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究函数型响应回归（function-on-scalar regression），即预测变量为标量（scalar）、响应为函数（在连续区间上取值的随机过程）的回归问题。这类模型广泛应用于纵向数据（如临床随访中同一患者在不同时间点的体检指标）和函数型数据（如光谱曲线、脑电波）。主流建模策略是将响应函数视为在光滑函数空间（如Sobolev空间、再生核希尔伯特空间 RKHS）中的元素，通过基函数展开或核方法进行估计。其核心科学问题是：在给定标量协变量的情况下，如何有效且可解释地刻画响应函数的条件均值（或其它分位点特征），并保证估计量的统计性质（如一致性、收敛速率、最优性）。当前领域在均值回归和分位数回归两主线已有较完备的理论，但对异方差性（heteroscedasticity）的建模主要依赖分位数回归，其理论保证（极小极大速率）在函数型响应设定下已被建立。本论文试图将expectile回归（期望分位数回归）这一“均值-分位数”的折中方法，系统移植到函数型响应框架下，填补其理论空白。

发展脉络（history）¶

根据论文引言，该子领域的发展可梳理为三条交织的线索：

功能型响应的均值回归奠基：
Ramsay & Silverman (2005) — 《Functional Data Analysis》专著，奠定了函数型数据分析（FDA）的基函数光滑化与惩罚方法框架。
Cardot et al. (2003) / Yao, Müller & Wang (2005) — 将样条或局部多项式用于函数型标量回归（function-on-scalar regression，即本文对标的主要类型）。这些工作确立了通过正规化（penalization）在RKHS中估计系数函数的基本范式。
分位数回归在功能型响应中的扩展：
Cardot et al. (2015) — 首次系统探讨了函数型响应的分位数回归，并建立了其在固定设计（fixed design）下的极小极大最优收敛速率。引言引述该文，指出分位数回归在抗离群值和刻画整个条件分布方面优于均值回归。
之后，分位数思想被进一步推广到变系数模型（varying-coefficient model）与可加模型（additive model）的组合（如作者引用的若干2010年代工作），形成了类均值的“分位数变系数模型”。但这些工作均未涉及expectile回归。
Expectile回归的独立发展：
Newey & Powell (1987) — 提出expectile回归（原用于截面数据）。损失函数为不对称平方损失，将均值回归（对称平方损失）视为特例（当不对称参数τ=0.5时），且其最优化问题的解可直接写出解析形式的解（加权最小二乘）。作者引用此篇作为expectile回归的源头。
Yao et al. (2012) / Schnabel & Eilers (2013) — 将expectile回归引入函数型数据领域（提出基于样条的函数型expectile模型）。在标量响应场景下，expectile回归已被证明能达到minimax最优速率（如由作者提到，该结果存在于某些参考文献）。然而，作者明确指出现有文献未曾在函数型响应设定下、在RKHS框架内，给出expectile估计的极小极大收敛速率的理论保证。

本论文的位置¶

作者将自身定位为在上述三个线索的交叉点提供统一理论：在非线性、变系数、可加的RKHS模型框架下，将expectile回归从标量响应推广到函数型响应，并证明其估计量在随机设计（random design）与固定设计下均达到minimax最优收敛速率。作者声称这一结果“bridge the gap between the mean regression and quantile regression in functional response models”。

子线索聚类¶

子线索	代表工作（作者-年份）	核心设定	本文与其关系
A: 函数型均值回归（function-on-scalar mean regression）	Ramsay & Silverman (2005); Cardot et al. (2003); Yao et al. (2005)	线性/加性模型 + RKHS基函数 + 均方误差损失（对称）。已有minimax率。	本文将其损失函数推广为不对称平方损失，从而能建模异方差。
B: 函数型分位数回归（functional quantile regression）	Cardot et al. (2015); 诸多变系数/可加分位数工作	使用绝对值分位数损失。已有minimax率结果（在函数型响应设定下）。	本文选择expectile（不对称平方损失）作为替代，其优势为：计算上比分位数更平滑连续（可解析），同时保留抗异方差/离群值属性。
C: 标量/截面数据的expectile回归	Newey & Powell (1987); 若干函数型expectile方法（Yao et al., 2012等，但属方法论而非理论）	不对称平方损失。在标量响应下已有minimax理论。	本文将其推广至函数型响应，并首次在RKHS框架下给出minimax理论保证。

这个方向在追问的核心问题与已知瓶颈¶

核心问题：如何对标量-函数型回归中的异方差性进行灵活且具备理论保证的建模？
主流方法权衡：
均值回归：计算简便，可达到minimax速率，但完全忽略异方差（仅估计条件均值）。
分位数回归：能刻画整个条件分布，但其损失函数（绝对偏差）在原点不可导，导致算法优化更复杂（线性规划 vs 最小二乘），且渐近理论推导通常需要更精细的“分位数-密度”技术（如Koenker & Bassett, 1978）。
Expectile回归：理论上可视为同时具有“分位数的异方差刻画能力”（通过改变不对称参数τ）和“均值的计算简便性”（解析解、牛顿法快速收敛），但其“极端条件期望”（tail-expectation）的解释性与分位数的“总体边界”（population quantile）不一致，引出可解释性争议。
已知瓶颈（已被本文填补）：无论选用哪种损失，在函数型响应设定下，expectile估计的极小极大收敛速度（是最优的，还是次于均值/分位数回归？）此前未知。本文通过两套假设（随机 vs 固定设计），严格证明了minimax最优性，消除了这一理论“短板”。

⚠️ 作者的framing（必须明确标注成“这是作者的说法”）¶

作者的缺口frame：作者声称现有文献（指Cardot et al., 2015的功能型分位数回归和功能型均值回归工作）只分别解决了对称损失（均值）与绝对损失（分位数）下的极小极大收敛，而expectile回归（不对称平方损失）虽已有一些方法论应用，但没有任何理论保证其在函数型响应下的最优收敛性。作者将本篇定位为“填补这个理论空白”，使expectile回归与均值/分位数回归在函数型响应场景下平起平坐。
明显的竞争路线被淡化/回避：
作者回避了直接比较expectile与分位数回归在函数型响应下的实际效率（如不同异方差模式下的MSE表现绝对值）。论文引言强调“expectile计算更简单”，但未讨论在极端不对称τ下（如τ=0.1），expectile估计的方差膨胀是否可能使其在实践中劣于分位数回归。这是一种被有意规避的“局限”。
作者没有讨论当模型假设（如RKHS光滑性条件、误差分布对称性等不等时）被违反时，两种方法的理论性质变化（例如分位数回归是“分布自由的”，而expectile回归依赖于矩条件）。
什么明显该被引/该存在、却没出现在intro里？
作者未引用任何关于高阶U-统计量与expectile回归的联系的工作（虽expectile损失是二次型的，其U-统计量视角可能出现——这是值得研究者自查的）。此外，参考文献列表中未包含均值回归与expectile回归之间效率比较的实证或模拟对比研究（在标量响应下此类工作较多，似应纳入比较基准）。

张力¶

未见明显对立引用。各线索（均值、分位数、expectile在标量或函数型下的工作）处于互补而非矛盾状态，本文是典型的“组合式创新”——将已有工具（expectile）应用到已有框架（RKHS模型 + 函数型响应 + minimax分析），并证明其适用性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：

符号	含义	类型
$Y_i(t)$	第 $i$ 个观测的响应函数，$t \in \mathcal{T}$（紧区间，如 $[0,1]$）	随机元素（函数型数据）+ 可观测（在离散网格上采样）
$X_i = (X_{i1}, X_{i2}, \dots, X_{iJ})^\top$	第 $i$ 个观测的 $J$ 维标量协变量	随机向量（可观测）
$\beta_0(t)$	截距项函数（时间变化的基线）	未知函数（目标参数，在RKHS中）
$\beta_j(t)$	第 $j$ 个协变量对应的变系数函数	未知函数（目标参数，在RKHS中）
$f_j(\cdot)$	第 $j$ 个协变量的可加非参数变换（$Y$ 对 $X_{ij}$ 的非线性作用）	未知函数（在RKHS中，位于高斯核或Sobolev核生成的子空间中）
$m(X_i, t)$	给定 $X_i$ 时 $Y_i(t)$ 的条件expectile函数，即 $E[L_\tau(Y_i(t) - m) \mid X_i]$ 的 minimizer	目标量（estimand），参数形式为 $\beta_0(t) + \sum_{j=1}^J \beta_j(t) f_j(X_{ij})$
$\tau \in (0,1)$	不对称参数，控制损失函数的倾斜度；$\tau=0.5$ 退化至均值回归	用户选择常数
$L_\tau(u) =	\tau - I(u < 0)	u^2$
$\mathcal{H}$	再生核希尔伯特空间（RKHS），由核函数 $K$ 生成	函数空间（假设：目标函数属于 $\mathcal{H}$ 中的某光滑性子集）
$\\|\cdot\\|_{\mathcal{H}}$	RKHS中的内积诱导范数	用于正则化
$n$	样本量	样本指标
$m$	每个响应函数的观测时刻点数（可能不同被试不同，为简化通常设为等距、共享）	试验设计参数

模型（数据生成机制）：

对于样本 $i = 1, \dots, n$，我们有：

\[Y_i(t) = \mu(t) + \sum_{j=1}^J \beta_j(t) f_j(X_{ij}) + \epsilon_i(t)\]

其中： - $t \in \mathcal{T} = [0,1]$ 是时间（或连续域）。 - $\mu(t)$ 是截距函数（可能含有随机截距；作者将其吸收进一般的加性形式中，为书写简洁）。 - $f_j(\cdot)$ 是 $X_{ij}$ 的未知光滑变换，假定属于同一RKHS $\mathcal{H}_f$（由高斯/样条核张成）。 - $\beta_j(t)$ 是系数函数（“varying coefficient”），也假定在RKHS中。 - $\epsilon_i(t)$ 是独立同分布的误差过程，满足矩条件 $E[|\epsilon|^r] < \infty$（$r$ 足够大）以支持非渐近浓度不等式。注意：对 $\epsilon_i(t)$ 没有零均值假设，因此 $m(X_i, t)$ 确实是条件expectile，而非条件均值。expectile损失刻画的“条件均值在不对称加权下的量”。

可观测数据：

研究者直接观测 $[Y_i(t_{ik}), X_i]$，即每个被试在若干时间点 $t_{ik} \in \mathcal{T}$（$k=1,\dots,m_i$）上的响应采样，以及对应的标量协变量 $X_i$（$J$维向量）。关键假设：观测时间点可以是随机（random design）或固定（fixed design）的。

不可观测量： - 误差过程 $\epsilon_i(t)$ 是潜在且不可观测的（除非在纯合成数据实验中）。 - 函数 $\mu(t)$, $\beta_j(t)$, $f_j(\cdot)$ 均为未知。

第二步：最小内核——最大简化示例¶

剥去一般性设定（多个协变量、变系数乘积形式），核心是将expectile回归与RKHS光滑化结合的最简配置：

最简特例： 一个标量协变量 + 线性可加（无变系数、无非线性变换）。即有 $Y_i(t) = \beta_0(t) + \beta_1(t) X_{i} + \epsilon_i(t)$。

此时，想估计的 conditional expectile function $m(x,t) = \beta_0(t)+\beta_1(t)x$ 是双线性（在时间$t$上为线性系数，在空间$x$上为线性）。目标：通过最小化如下正则化经验风险来获得估计 $\hat{\beta}_0(t), \hat{\beta}_1(t)$：

\[\min_{\beta_0, \beta_1 \in \mathcal{H}_{\beta}} \; \frac{1}{n} \sum_{i=1}^n \frac{1}{m_i} \sum_{k=1}^{m_i} L_\tau\big(Y_i(t_{ik}) - [\beta_0(t_{ik}) + \beta_1(t_{ik})X_i]\big) + \lambda \big(\|\beta_0\|_{\mathcal{H}}^2 + \|\beta_1\|_{\mathcal{H}}^2\big)\]

其中 $\lambda > 0$ 是光滑化参数。这个最简例子已经包含了论文的全部数学核心挑战： - 由于损失 $L_\tau$ 是不对称二次型，其“最小化问题”在某些${Y-X\beta}$的实现下没有解析解（除非 $\tau=0.5$），需用加权最小二乘迭代（IRWLS）处理。 - 对“函数响应”的期望风险进行极小极大分析，必须同时处理：函数空间 $\mathcal{H}_{\beta}$ 的复杂性（用其有效维数、特征值衰减刻画）、不对称损失的Huber-type smoothness（它是指数凸函数的和——实际上是strongly convex，但其曲率（Hessian）依赖于 $\tau$ 和样本分布）、以及时间网格点 $t_{ik}$ 的随机性/固定性对收敛速度的影响。

该特例下的核心数学命题（论文主要定理的简化版）：

对于上述最简模型（$T=[0,1]$，$J=1$，$\beta_0, \beta_1$ 属于 Sobolev 类 $H^2$，误差项为有界二阶矩的零均值过程——但需注意，在expectile定义下误差不要求零均值。），当正则化参数 $\lambda \asymp n^{-4/5}$ 时，估计量 $\hat{m}(x,t)$ 的期望预测误差（即 $E\left[\int_{\mathcal{T}} (m(x,t) - \hat{m}(x,t))^2 dP_X(x) dt\right]$ 的积分版本）以速率 $n^{-4/5}$ 收敛到0。且该速率是极小极大最优的（即不存在任何估计器能以更快的速率一致地逼近所有 $H^2$ 中的 $m$）。

这个速率的 $n^{-4/5}$ 正是一维非参数回归（Sobolev光滑度2） 的经典 minimax 率。论文的贡献就是将这一经典结果推广到了（a）函数型响应，（b）不对称损失，（c）变系数/可加的非线性设定，并且给出了在两个不同设计下的完整证明。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：在函数型响应（functional response，即 $Y \in L^2(\mathcal{T})$）与标量协变量的回归中，本文提出了一个变系数可加模型（varying-coefficient additive model），并使用不对称损失（expectile损失） 来建模异方差性。重点是证明该模型的估计量在RKHS框架下的极小极大最优收敛速率。
核心工具/方法：
模型结构：$Y_i(t) = \mu(t) + \sum_{j=1}^J \beta_j(t) f_j(X_{ij}) + \epsilon_i(t)$，其中 $\beta_j, f_j$ 均属于RKHS。
估计方法：正则化经验风险最小化（RERM），损失函数为不对称平方损失 $L_\tau$。
理论工具：利用RKHS的表示定理（Representer Theorem）将无限维优化转化为有限维；使用逼近论（approximation theory）和概率不等式（Bernstein in Hilbert space）推导非渐近上界；使用构造性下界方法（如Assouad引理的函数型变体）证明minimax最优性。
主要结论：
在随机设计（随机时间点 $t_{ik}$ 与随机协变量 $X_i$）下，若RKHS的特征值多项式衰减，则 $\hat{m}$ 的收敛速率是 $n^{-2s/(2s+1)}$（$s$是光滑性参数）。
在固定设计（时间点等距或具有缓慢增长的设计密度）下，收敛速率与随机设计下一致（也是minimax最优）。
这些速率与均值回归（$\tau=0.5$）的理论等价，即expectile回归并未损失最优收敛速度（尽管损失函数不对称）。

关键设定与假设¶

基于之前的最小记号，论文的完整设定增加了： - $X_i = (X_{i1}, \dots X_{iJ})$ 有联合分布 $P_X$，支持在 $\mathbb{R}^J$ 的紧致子集上。 - 每个函数 $\beta_j(t)$ 和 $f_j(x)$ 属于同一个RKHS $\mathcal{H}_{\beta}$ 和 $\mathcal{H}_{f}$，其核分别为 $K_{\beta}$ 和 $K_{f}$。论文假设这些核的特征值 $\lambda_k$ 以多项式速率衰减：$\lambda_k \sim k^{-2s}$（$s>1/2$ 控制光滑性；$s$越大，函数越光滑）。这是定理得以成立的“复杂度条件”。 - 假设1（随机设计）: 观测时间点 $t_{ik}$ i.i.d. 来自密度 $g(t)$（$g$ 有界且距0远离）。 - 假设2（固定设计）: 时间点 $t_{ik}$ 是决定性的，满足均匀性或拟均匀性条件（如 $\max_k |t_{k} - k/m| = O(1/m)$），且 $m \asymp m(n)$ 可以随 $n$ 增长但不是太快。 - 假设3（误差矩条件）: $\epsilon_i(t)$ 为独立乘法过程，且对某 $r>0$，$E[|\epsilon_i(t)|^r] \le C$（$r \ge 4$ 以保证文章中使用的高斯型浓度不等式）。 - 核心强假设（在一些证明子块中需要，论文未过多讨论其必要性）: regularity condition 确保 Fisher information 阵在参数空间内一致正定。这与典型的RKHS-sieve方法的“光滑化”性质一致，但不一定被普通函数满足。 - 相比已有文献（Cardot et al., 2015的分位数）: 本文的假设关于损失函数的凸性与光滑性较弱（expectile损失是平滑凸的，而分位数损失是分段线性非光滑的），因此在概率推导中可以使用更简单的工具（如Hilbert空间中的经验过程）。但代价是：expectile估计仅对分布均值的某种加权形式有效，而不能像分位数那样无分布假设刻画分位数。

主要结果（定理结构）¶

定理1（随机设计下的收敛速率，是核心）：

设某RKHS的核特征值衰减指数为 $s > 1/2$，令 $\tau \in (0,1)$ 固定。则存在正则化参数 $\lambda = \lambda(n)$（文中给出显式形式，为 $n^{-2s/(2s+1)}$ 的倍数）使得估计 $\hat{m}_\tau(x,t)$ 满足：
\[E\left[\int_{\mathcal{T}} \int_{\mathbb{R}^J} \left(m_\tau(x,t) - \hat{m}_\tau(x,t)\right)^2 dP_X(x) dt\right] = O\left( n^{-\frac{2s}{2s+1}} \right).\]
直觉：这是函数型回归在光滑性 $s$ 下的无参数率（$p=1$ 个协变量的非参数回归，这里函数型的额外维度（时间）通过对系数函数施加光滑进行控制；使用张量积核导致速度就是 $n^{-2s/(2s+1)}$，与时间维度无关（时间维度被集成进收敛率中的系数，但没有增加速率指数——这是因为对时间$t$的逼近被$m$个离散点平均掉了）。必要条件：样本大小 $n$ 相对于基函数截断参数（通过 $\lambda$ 隐含控制）足够大，以及时间点数 $m \rightarrow \infty$。 解决的技术难点：需同时控制：估计 $\beta_j$ 时的RKHS复杂度、以及不对称损失导致的“非对称性”对梯度的扰动——论文的关键引理将不对称损失的“对称化”复杂度与其渐近等价于一个Huber型损失的曲率，从而老朋友“局部Rademacher复杂度的漂移项”可以出炉。

定理2（极小极大下界）：

对同一函数类（光滑性$s$的函数），存在常数 $C > 0$ 使得：
\[\inf_{\hat{m}} \sup_{m \in \mathcal{F}_s} E\left[\|m - \hat{m}\|_{L^2(P_X \otimes \text{Leb})}^2\right] \ge C n^{-\frac{2s}{2s+1}}.\]
意义：表明定理1的速率是最优的。构建下界的方法用的是Assouad引理（函数型构造：把问题分解为若干个二元检验问题，每个对应函数中的一个局部基函数是否有非零系数）。

定理3（固定设计下的类似结果）：

在固定设计（时间点等距）下的速率相同，只是显式形式略有不同（常数项可能不同）。技术证明的路线与定理1大同小异，但需额外处理设计密度不均匀而产生的“设计近邻复杂度的额外项”。

证明路线与技术技巧¶

整体路线（对应定理1的上界证明），约5步逻辑：

表示定理降维：利用RKHS中的表示定理（Representer Theorem），将无限维优化问题的解 $(\hat{\beta}_j, \hat{f}_j)$ 表示为有限维“核函数”的线性组合。实际上，由于惩罚是RKHS范数，解满射在一个由“点态取值的核函数”张成的 $N=n \cdot m$ 维子空间（对每个协变量和时间点各贡献一项）。这种“有限归约”是关键的第一步。
偏差-方差分解：将估计误差分解为逼近误差（bias） 与采样误差（variance）：
逼近误差：来自函数类 $\mathcal{F}_s$ 的真值 $m^*$ 与正则化解函数类（有限维子空间或ball）之间的固有差距。逼近论的标准化结果给出 $O(\lambda^{1/2}) = O(\lambda^{1/2})$。
方差：即“样本噪声”引起的误差，用局部Rademacher复杂度（local Rademacher complexity）控制。通过定义“roughness ball” $\{f: \|f\|_{\mathcal{H}} \le \lambda^{-1/2}\}$ 并使用球上高斯/子高斯过程的不等式（如Talagrand’s contraction inequality），得到方差项为 $\sqrt{d_\lambda / n}$，其中 $d_\lambda$ 是RKHS的有效维数（effective dimension），通过对特征值求和得到 $d_\lambda \asymp \lambda^{-1/(2s)}$。
不对称损失的“对称化”：这是本证明的特有步骤。因为expectile损失不对称（$\tau \neq 0.5$），不能直接使用对称的凸函数不等式（如经典的局部Rademacher bound要求损失是对称凸的，如最小二乘）。作者证明了一个辅助引理：使用Huber型截断将不对称损失包含进一个“对称化二次函数”中，并且该损失的任意方向导数可以用一个对称化过的“平均曲率”来上界。这一步通过构造两个“陪衬”损失（$\tilde L_{\tau, \delta}$）来完成。具体地说：对每个小半径 $\delta>0$，定义一个辅助的对称化损失函数，其渐近行为与原不对称损失“几乎一样”。这保证了在$L^2$范数的某个Plug-in小邻域内，不对称损失可被梯度为0的凸二次形式覆盖。
经验过程控制：结合步骤2的偏差项和步骤3的对称化，写出泛函方程：
\[R_n(\hat m) - R_n(m^*) \ge C_1 \|\hat m - m^*\|^2 - C_2 d_\lambda n^{-1}\]
其中 $R_n$ 是经验风险。代入 $\hat m$ 的定义（它是风险最小化者），得到不等式的解给出 $\|\hat m - m^*\| = O(d_\lambda/n + \lambda)$。这一步用到了更多的概率不等式（包括自正则性的、从经验风险到期望风险的泛函转换（uniform boundedness in probability））。
非渐近界到minimax速率的推导：将 $d_\lambda \asymp \lambda^{-1/(2s)}$ 与 $\lambda = n^{-2s/(2s+1)}$ 代入，得到速率 $n^{-2s/(2s+1)}$，并确认偏差与方差平衡。

关键跳跃点： - 引理3“不对称损失的对称化”：这是最吃功夫的引理。表面简单：找到拟合函数序列在一个局部球内，不对称损失近似于一个对称二次型+小误差项。但此处论文使用 Lipschitz常数依赖于$\tau$ 和函数范数的构造，需要给出显示常数和残差上界。许多判断 $\mathcal{H}$ 中的边界函数（复杂度控制）的经典结果不直接适用，需要将损失嵌入一个有界类加一个高概率低概率事件来切换。

技术技巧点名：

工具/技巧	使用场景（在哪个引理/步骤发挥作用）
Hilbert空间中的表示定理（Representer Theorem）	第1步：将无限维优化问题归约为有限维线性组合。
RKHS特征值衰减（Eigenvalue decay, $k^{-2s}$）	贯穿全程：定义有效维数 $d_\lambda$。
局部Rademacher复杂度（Local Rademacher Complexity）	第2步：控制估计量的方差。这是Rademacher复杂度在函数型版本下的适应。
Huber型对称化（Huber-type symmetrization）	第3步“跳跃点”：将不对称损失转化为局部的二次型，使对称复杂度工具能够使用。
Bernstein不等式在Hilbert空间中的形式	第4步：用于将经验内积偏差控制为 $\sqrt{d_\lambda \log(mn)/n}$ 的量级。
Assouad引理（Assouad’s Lemma）	定理2（下界）：在函数空间上构造2^k个双分离函数，使任何估计量在至少一个假设下表现不佳。
局部化技巧（Localization / peeling）	第4步：通过在若干个同心球上滚动进行概率控制，消除大偏移似然。

真实例子与应用¶

论文给出了一个真实数据例子（若不包含，则写“本文为纯理论/无实证例子”，但实际有，且必须讲）：

使用的数据：乳腺癌临床试验的生活质量数据（Quality of Life, QoL）。来自一个已知临床研究（作者引用为某项研究）。响应变量 $Y_i(t)$ 是患者在标准化时间点（如治疗后第1, 3, 6, 12月）测量的QoL得分（在0-100的连续尺度上）。协变量包括：年龄（连续）、治疗方案（类别）、基线QoL得分（连续）、距诊断时间（连续）等。
如何将本文方法用上去：作者将模型设定为 $Y_i(t) = \beta_0(t) + \sum_{j=1}^J \beta_j(t) f_j(X_{ij}) + \epsilon_i(t)$。其中，对年龄、基线QoL等连续变量用了非参数 $f_j$（高斯核RKHS），对治疗方案用了线性变系数 $\beta_j(t)$。选择 $\tau=0.25,0.5,0.75$ 分别拟合条件expectile的尾部、中位和上部趋势。正则化参数 $\lambda$ 通过交叉验证选取。
得到的结果：论文展示了几条重要的“系数函数” $\beta_j(t)$ 对时间的图。例如，对于 $\tau=0.75$（上部尾部expectile），治疗的积极效应显示出一个峰值在6个月并随时间下降；而在 $\tau=0.25$（下部尾巴），该效应的轮廓更加平缓。作者解释这暗示了异方差：QoL得分的分布宽度随时间变化（方差非恒定），从而使不同expectile轨迹形状不同。
这个例子想说明什么：展示方法能够捕捉到传统均值回归无法揭示的尾部动态——即治疗对QoL“上限”与“下限”的实际影响模式不同。意味着这些信息对患者的个性化护理（如关注最差的QoL剖）有价值。但需注意，论文没有进行任何正式的模型比较（未与分位数回归或均值回归做黑箱对比验证其“优越性”）。

🔎 结论是否比证明窄？¶

论文主要结论（定理1和定理2）的假设集中要求RKHS核的特征值呈多项式衰减。对于在FDA中常用的Sobolev类（由“平滑化惩罚”定义）这成立。但作者声称这些结论适用于“一般的RKHS”，其实证明对指数衰减核（如高斯核）不再直接适用（因为有效维数不同，收敛速度会退化为本质上的参数率 $n^{-1}$ 但次数可能不同）。论文并未单独处理指数衰减核。这个“证明条件”比“一般声称”严格。
此外，论文中多处提到“the rate is minimax optimal”，但仔细看证明（定理2）的构造性下界仅对“变系数”形状的函数类成立，其对“可加函数”的推广需要再次构造正交基（但作者没有列出这个推广的详细证明步骤）。因此“全模型下的minimax最优性”稍显承诺过多。
在经验证据部分，数据例子只展示了三个 $\tau$ 值的曲线差异，无任何关于模型选择（是否能选择最佳的 $\tau$） 或有限样本置信区间的讨论（gap between theory and practice）。

四、开放问题¶

自适应选择$\tau$（不对称参数）的理论：本文固定 $\tau$（用户指定）。如何从数据中自适应地选择 $\tau$（例如选择使预测风险最小的 $\tau$），并建立无偏估计与收敛速率？——扎根于本文“在给定$\tau$下理论建立”的句式，例“In practical applications, the user will choose $\tau$ based on their interest in left vs. right tail……”但作者未提供 $\tau$ 选择的理论保障。
多重协变量之间的交互效应：模型是可加的（$\sum f_j(X_j)$），无法捕捉交互（例如年龄与治疗方案协同作用）。扩展到带有交互项的变系数模型（如包含 $f_{jk}(X_{ij}, X_{ik})$）的极小极大率是否可获？需要对照本文引言的参考文献中均值回归的交互效果工作（是否已有？——值得研究者自检）。
函数型响应测量网格的稀疏性： 论文假设 $m_i \rightarrow \infty$（每个被试时间点数量发散）。在纵向数据中常有“稀疏纵向设计”（每人大约2-5次会议），此时代价响应作为函数的近似会更加不精确。分位数回归（Cardot et al., 2015）已有稀疏变体工作，但expectile版本无。该文的“网格还是趋于无穷”假设是证明（使用积分近似）的支柱，但许多实际数据并不满足。这是明显的理论-实践gap。
更高阶的可加/指数族/准似然的连接：Expectile回归与平均分位数回归（expectile属性的解释）的关系在标量响应下已有稳健化工作，但在函数型场景下，是否存在类似于双对抗损失的形式能自动产生expectile行为，或者能否将expectile嵌入到指数族分布的saddlepoint近似中（nature of the tail behavior）？本文的0.25/0.75曲线图提示异方差，但未提供推断（置信带）。将其推广至带偏置的推断（如同时构造区间为expectile）是目前方法论层面的开放缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub

符号	含义	类型
\(Y_i(t)\)	第 \(i\) 个观测的响应函数，\(t \in \mathcal{T}\)（紧区间，如 \([0,1]\)）	随机元素（函数型数据）+ 可观测（在离散网格上采样）
\(X_i = (X_{i1}, X_{i2}, \dots, X_{iJ})^\top\)	第 \(i\) 个观测的 \(J\) 维标量协变量	随机向量（可观测）
\(\beta_0(t)\)	截距项函数（时间变化的基线）	未知函数（目标参数，在RKHS中）
\(\beta_j(t)\)	第 \(j\) 个协变量对应的变系数函数	未知函数（目标参数，在RKHS中）
\(f_j(\cdot)\)	第 \(j\) 个协变量的可加非参数变换（\(Y\) 对 \(X_{ij}\) 的非线性作用）	未知函数（在RKHS中，位于高斯核或Sobolev核生成的子空间中）
\(m(X_i, t)\)	给定 \(X_i\) 时 \(Y_i(t)\) 的条件expectile函数，即 \(E[L_\tau(Y_i(t) - m) \mid X_i]\) 的 minimizer	目标量（estimand），参数形式为 \(\beta_0(t) + \sum_{j=1}^J \beta_j(t) f_j(X_{ij})\)
\(\tau \in (0,1)\)	不对称参数，控制损失函数的倾斜度；\(\tau=0.5\) 退化至均值回归	用户选择常数
$L_\tau(u) =	\tau - I(u < 0)	u^2$
\(\mathcal{H}\)	再生核希尔伯特空间（RKHS），由核函数 \(K\) 生成	函数空间（假设：目标函数属于 \(\mathcal{H}\) 中的某光滑性子集）
\(\\|\cdot\\|_{\mathcal{H}}\)	RKHS中的内积诱导范数	用于正则化
\(n\)	样本量	样本指标
\(m\)	每个响应函数的观测时刻点数（可能不同被试不同，为简化通常设为等距、共享）	试验设计参数

工具/技巧	使用场景（在哪个引理/步骤发挥作用）
Hilbert空间中的表示定理（Representer Theorem）	第1步：将无限维优化问题归约为有限维线性组合。
RKHS特征值衰减（Eigenvalue decay, \(k^{-2s}\)）	贯穿全程：定义有效维数 \(d_\lambda\)。
局部Rademacher复杂度（Local Rademacher Complexity）	第2步：控制估计量的方差。这是Rademacher复杂度在函数型版本下的适应。
Huber型对称化（Huber-type symmetrization）	第3步“跳跃点”：将不对称损失转化为局部的二次型，使对称复杂度工具能够使用。
Bernstein不等式在Hilbert空间中的形式	第4步：用于将经验内积偏差控制为 \(\sqrt{d_\lambda \log(mn)/n}\) 的量级。
Assouad引理（Assouad’s Lemma）	定理2（下界）：在函数空间上构造2^k个双分离函数，使任何估计量在至少一个假设下表现不佳。
局部化技巧（Localization / peeling）	第4步：通过在若干个同心球上滚动进行概率控制，消除大偏移似然。