High-dimensional partially linear functional Cox models¶

作者: Xin Chen, Hua Liu, Jiaqi Men, Jinhong You
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujae164

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向研究的是 含函数型协变量（functional predictor）的生存分析。核心统计问题是：如何利用一个完整的时间序列 / 曲线型预测变量 \( X(t) \)（如肾移植后每日肌酐清除率轨迹），与一组标量协变量 \( Z \)（如年龄、性别），来估计和推断事件发生时间（如死亡）的风险函数 \( \lambda(t) \)。当前主流方法是函数 Cox 模型（functional Cox model），它将函数型预测变量的全部信息压缩为有限维的 函数主成分（FPC，Functional Principal Component）得分，并假定这些得分与 log-hazard 成线性关系。但这个线性假设在诸多实际数据（包括本文分析的肾移植数据）中经常不成立。本文试图放松它——用部分线性结构将线性部分留给标量协变量和一部分 FPC 得分，对另一部分 FPC 得分允许非参数的非线性效应，同时允许变量个数随样本量发散。

发展脉络（history）¶

本文的 introduction 将函数 Cox 模型的发展梳理为以下阶段：

奠基工作（函数型协变量的线性 Cox 模型，~2002-2009）：Goldsmith et al. (2009) 将函数型协变量投影到 FPC 基上，再用线性 Cox 模型估计系数函数。这是该子领域的标准起点。Müller & Yao (2008) 以及 Yao et al. (2005) 讨论了函数型主成分（FPCA）估计及其在回归中的应用，为 FPC 得分的可靠性提供基础。Kong et al. (2018) 将函数 Cox 模型推广至函数型与时变标量协变量共存的情形。
稀疏高维扩展（~2013-2020）：Li & Luo (2017) 和 Zhao et al. (2020) 将函数 Cox 模型与 变量选择 技术（LASSO、SCAD）结合，实现了对大量 FPC 得分和标量协变量的自动筛选。但这些方法仍假定线性。
非线性推广（~2020-）：Cui et al. (2021) 和 Kong et al. (2021) 引入部分线性函数 Cox 模型，对标量协变量假设线性效应，对 FPC 得分假设非参数效应。但他们的设定要求 标量协变量和 FPC 个数固定。
本文的位置：作者声称自己的核心增量是将 Cui et al. (2021) 和 Kong et al. (2021) 的设定推广到 diverging dimension——即标量协变量个数 \( p \) 和保留的 FPC 个数 \( m \) 均随样本量 \( n \) 发散。这是第一项在函数 Cox 模型下同时处理：
非线性效应（通过 B-spline sieve）
高维变量选择（通过 group SCAD）
diverging dimension 下的渐近理论

（注意：作者在 intro 里强调了这一"首次"，但没有主动与情感上最强的竞争路线——比如同时允许标量协变量也有非线性、或同时处理多种函数型协变量——做对比。）

子线索聚类¶

子线索 A：函数型生存模型（functional survival models）：紧盯含函数型协变量的生存数据。主线是 GP/FPCA + Cox 模型。代表工作：Goldsmith et al. (2009), Müller & Yao (2008), Kong et al. (2018)。这一簇的核心工具是 FPCA，主要挑战是函数型协变量的高维性（无穷维 → 截断）。
子线索 B：高维生存分析中的变量选择（high-dimensional variable selection in survival analysis）：以 Cox 模型为专长，用 LASSO / SCAD / MCP 在 \( p \gg n \) 情形下选变量。代表工作：Tibshirani (1997), Fan & Li (2002), Li & Luo (2017), Zhao et al. (2020)。本文将这一线索从纯标量扩展到函数型协变量 + 标量协变量的混合设定。
子线索 C：高维/ diverging dimension 下的半参数 sieve 估计（semiparametric sieve estimation under diverging dimension）：本文在结果与证明上直接借鉴的线。代表工作：Zhao et al. (2020)（线性 + SCAD 在 Cox 模型上处理 diverging dimension）；以及 Cui et al. (2021)（部分线性、但维度固定）。本文试图把两者合并。

这个方向在追问的核心问题¶

Q1：函数型协变量到底以什么方式影响生存风险——线性还是非线性？若拒斥线性，用哪种非线性能被可靠识别且保证收敛速率？
Q2：当函数型协变量和标量协变量均为高维（diverging with \(n\)）时，能否同时实现变量选择一致性和非参数项的收敛？
Q3：B-spline sieve 在 Cox 模型的偏似然框架下，是否能在 diverging FPC 维度下获得 \(L_2\) 最优收敛率？
当前主流方法与已知瓶颈：现有方法要么是线性的（忽视非线性效应），要么是有限维的（不能处理高维协变量）；允许非线性的部分线性模型只停留在固定维度（不能随样本量增长）。本文声称填补了"diverging dimension + 非线性"的缺口。

⚠️ 作者的 framing¶

作者把缺口 frame 成 "现有部分线性函数 Cox 模型只允许固定维度"（Cui et al., 2021; Kong et al., 2021），所以显然的下一步是允许 \(p\) 和 \(m\) 发散，并配上高维变量选择。作者在 abstract 和 intro 中直接引用 Li & Luo (2017) 和 Zhao et al. (2020) 作为变量选择工具，暗示"变量选择+非线性"是本文的主要竞争路径。

被淡化或回避的竞争路线： - 作者没有讨论 完全非参数 Cox 模型（即连标量协变量也允许非线性），也没有与 深度生存模型（如 DeepSurv）或 随机森林生存模型 作对比。这些是更灵活的替代方案，但与本文目标（部分线性结构 + 可解释性 + 统计理论）不完全对等。 - 作者也没有考虑 函数型协变量测量误差（FPC 得分本身是估计值），在实际中这会使非线性效应的估计有额外误差——这是 a known gap。

什么明显该被引/该存在、却没出现在 intro 里？ - 未见 Müller & Yao (2012) 关于函数型主成分回归的 minimax rate 结果，这个结果能用来校准本文在函数型协变量上的收敛率是否最优。 - 未见 Ferrario et al. (2019) 关于深层函数生存模型的引介——虽然方法是黑箱，但在实证中是可行竞争者，缺少引用会削弱"我们的模型是唯一可用"的印象。 - 未见明确的 信息-计算权衡 文献（如关于高维 FPC 选择的计算复杂度）——这与作者的兴趣可能相关，但本文不涉。

张力¶

未见明显对立引用。所有被引工作基本上是在扩展同一框架（函数 Cox 模型 + 变量选择/非线性），彼此不是对立的。Cui et al. (2021) 与 Kong et al. (2021) 是几乎同时的平行工作，一个用样条、一个用核——本文选取样条并声明这是可行的选择。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

数据（可观测）： - 对每一个体 \( i=1,\dots,n \)： - \( T_i \)：真实生存时间（不一定是可观测——因为存在删失） - \( C_i \)：删失时间（censoring time） - 观测变量：生存状态指示 \(\delta_i = I(T_i \leq C_i)\) 和观测时间 \( V_i = \min(T_i, C_i) \) - 函数型协变量（functional predictor）：\( X_i(t), t \in \mathcal{T} \)（通常是一个紧致区间，如 \([0,1]\)）。这是随机函数（曲线）。 - 标量协变量（scalar predictors）：\( Z_i \in \mathbb{R}^p \)（维度 \(p\) 可以随 \(n\) 发散）。 - 可观测数据是独立同分布样本 \(\{ (V_i, \delta_i, X_i(\cdot), Z_i) \}_{i=1}^n\)，但函数型协变量 \(X_i(t)\) 是在离散时间格点上观测的（通常是噪声测量）；为了让分析可行，假定可以通过平滑得到完整曲线。

潜在 / 待估计量： - \( m \)：保留的函数型主成分（FPC）个数（可随 \(n\) 发散） - \( \xi_{i,1},\dots,\xi_{i,m} \)：个体 \(i\) 的前 \(m\) 个 FPC 得分（通过 FPCA 从 \(X_i(t)\) 数据中估计得到，视为已知/或视为协变量的一部分） - \( \boldsymbol{\beta} \in \mathbb{R}^d \)（\(d = p + m\)）：线性部分的系数向量 - \( g(\cdot) \)：非参数函数——这 \(m\) 个 FPC 得分的非线性效应（本文假定 \(g\) 属于某个阶数为 \(r\) 的 Sobolev 空间） - 此外，\( g \) 只对 连续型 FPC 得分起作用（即 FPC 得分是实数变量，有连续分布）。本文的模型是部分线性形式。

模型：对于个体 \(i\) 在时间 \(t\) 的 hazard 函数（风险函数）为：

\[\lambda(t | Z_i, X_i) = \lambda_0(t) \exp\left( Z_i^\top \boldsymbol{\beta}_z + \sum_{j=1}^{m} g_j(\xi_{i,j}) \right)\]

其中： - \( \lambda_0(t) \) 是基线 hazard（未指定，非参数），属于 infinite-dimensional nuisance parameter - \( \boldsymbol{\beta}_z \) 是标量协变量的线性效应系数（部分线性：标量部分强制线性） - \( g_j(\cdot) \) 是第 \(j\) 个 FPC 得分的 非线性效应（本文假定它同样可以用 B-spline 逼近，但并未假定各 \(g_j\) 共享一个结构） - 等价地：对于选中的 FPC 得分，模型允许它们以非参数方式影响 log-hazard。

重要区分：线性部分中包含两种变量：标量协变量 和 一部分 FPC 得分。本文的变量选择（group SCAD）是同时对 FPC 得分和标量协变量施加稀疏惩罚——不要求所有 FPC 得分都进入非线性部分。实际上，作者允许一些 FPC 得分进入线性部分（即假定它们与 log-hazard 线性相关）。

待估参数：有限维参数 \(\boldsymbol{\beta} = (\boldsymbol{\beta}_z^\top, \boldsymbol{\beta}_\xi^\top)^\top\)，以及非参数函数 \(g(\cdot) \in \mathcal{G}\)（其中 \(\mathcal{G}\) 是某个光滑函数空间）。估计方法是部分似然。

第二步：最小内核（最简特例）¶

本文选的最小例子是 当 \(m=2, q=0\)（即只保留前两个 FPC 得分，没有标量协变量）。在这种情况下： - 可观测数据简化成：\( \{ (V_i, \delta_i, \xi_{i1}, \xi_{i2}) \}_{i=1}^n \) - 模型：

\[\lambda(t | \xi_{i1}, \xi_{i2}) = \lambda_0(t) \exp\left( g_1(\xi_{i1}) + g_2(\xi_{i2}) \right)\]

- 核心思路： 1. \( g_1, g_2 \) 分别用 B-spline 基展开：\( g_1(\xi) \approx \boldsymbol{\theta}_1^\top \boldsymbol{B}^{(1)}(\xi), \quad g_2(\xi) \approx \boldsymbol{\theta}_2^\top \boldsymbol{B}^{(2)}(\xi) \)（均使用 \(K\) 个 B-spline 基函数，\(K = K_n\) 随样本量增长率适当） 2. 变量选择：group SCAD 同时作用于 \( \boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \) 的组级惩罚（整体一个 group = 一个 FPC 的整组样条系数），从而决定哪些 FPC 得分 真正有影响（即 \(g_j \not\equiv 0\)），哪些可以被淘汰。 3. 此时，估计问题变成：\( \max_{\boldsymbol{\theta}_1, \boldsymbol{\theta}_2} \ell_n(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2) - \sum_{j=1}^2 p_\lambda(\|\boldsymbol{\theta}_j\|) \)，其中 \( \ell_n \) 是部分似然，\( p_\lambda(\cdot) \) 是 SCAD 惩罚函数。

为什么这个特例是"最小内核"：即使在这个只有 2 个 FPC 得分的特例上，也可以看清（a）B-spline 逼近如何将非线性问题半参数化，（b）group SCAD 如何做组级选择（淘汰一个 FPC = 淘汰一整个样条系数组），（c）diverging dimension 的困难：即使 \(m=2\)，如果 \(K \to \infty\) with \(n\)，总待估参数数 \(2K\) 也发散，这就是文本所说的 "diverging dimension"。在 \(m=2\) 的特例下，diverging 来自样条基函数的增加；在一般模型中，还来自 \(p,m\) 的发散。理解了加样条和组惩罚的联合框架，就懂了全篇文章。

核心命题在这个特例下的退化：在有组惩罚的部分似然下，作者证明：（a）\( \|\hat{\boldsymbol{\theta}}_j - \boldsymbol{\theta}_{0j}\| = O_p( (K/n)^{1/2} ) \) （最小二乘型收敛），（b）选中的 FPC 得分至少有一个是真正非零的（sparsity consistency），（c）非线性函数估计 \( \hat{g}_j \) 满足 \( L_2 \) 收敛速度 \( O_p( n^{-r/(2r+1)} ) \)，与常规非参数回归匹配。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在函数型协变量和高维标量协变量共存、并且 FPC 个数与标量协变量数均随样本量发散（diverging dimension）的假设下，建立部分线性函数 Cox 模型，用以同时进行变量选择和估计非线性效应对生存风险的影响。
核心工具/方法：采用 group SCAD 对 FPC 得分组与标量协变量进行稀疏选择；用 B-spline sieve 逼近 FPC 得分的非线性效应；最终通过最大化 penalized partial likelihood 进行联合估计。
主要结论：在满足一定正则条件的假设下，估计具有 变量选择一致性（oracle property，即正确剔除无效变量）和相合性，非线性部分达到最优非参数收敛率（样条逼近阶的最优 \(L_2\) 率），并且作者通过模拟和肾移植数据验证了方法在实际中的可行性。

关键设定与假设¶

设定（第二节符号基础上扩展）：

hazard：
\[\lambda(t | Z, X) = \lambda_0(t) \exp\left( \sum_{j=1}^{p} \beta_{0,j} Z_j + \sum_{k=1}^{m} g_{0,k}(\xi_k) \right)\]
其中 \(g_{0,k} \in \mathcal{S}^{r}(M)\)：阶数为 \(r\) 的 Sobolev 光滑函数空间的有界子集。\(\boldsymbol{\beta}_0\) 有全零分量（稀疏结构）。
Diverging dimension: \(p = p_n, m = m_n\) 满足 \(p_n, m_n \to \infty\) 但 \( (p_n + m_n)^4 / n \to 0 \) （限制多项式发散速率，保证定理成立）

主要假设（从原文整理，通常见序言）：

假设编号	内容（直白解释）	与已有文献对比
(A0)	数据独立同分布，随机删失，删失时间与生存时间条件独立给定协变量（即通常的随机删失假设）。	无明确放宽
(A1)	函数型协变量 \(X(t)\) 的轨迹足够光滑，保证前 \(m\) 个 FPC 得分估计是 √n-相合的（使用标准 FPCA 框架）。	这条没有正式论证，只是假设——这是实证论文的通病，但天生限制了函数的可识别性
(A2)	FPC 得分的分布有紧支集和有界密度，使非线性函数估计的非零区域有界。	标准假设
(A3)	B-spline 基函数的数目 \(K_n\) 满足 \(K_n \asymp n^{1/(2r+1)}\) （似然非参数最优速率）。	与常规 sieve 估计相同（Stone, 1994）
(A4)	\(Z, \xi\) 的协方差矩阵是正定的，其特征值有界离开 0（与 diverging 收缩可控）。	强制避免共线性爆炸
(A5)	惩罚参数 \(\lambda\)（SCAD 的）适当选取（通过一个调节参数间的序关系），保证 group SCAD 能忽略无效组但稳步收缩有效组。	这种序关系在 Zhao et al. (2020) 中也被使用
(A6)	非零系数的最小绝对值有一个正下界（(\min_j	\beta_{0j}

主要结果（理论型）¶

定理 1（收敛率）：在假设 (A0)-(A6) 下，

\[\|\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0\| = O_p\left(\sqrt{\frac{p+m}{n}}\right), \quad \|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0\| = O_p\left(\sqrt{\frac{(p+m)K}{n}}\right)\]

其中 \(\boldsymbol{\theta}_0\) 是真值 B 样条系数。这个率说明：估计量的速率由总变元的数目（撇开非参项后仍需考虑）决定，需要考虑总参数维度（\(p+ m\)）和 B 样条项（\(K\)）。

定理 2（非线性函数的最优收敛率）：若 \(g\) 属于 Sobolev 空间 \(\mathcal{W}^{r,2}\)，且 B-spline 节点数选取最优（\(K \asymp n^{1/(2r+1)}\)），则

\[\| \hat{g} - g_0 \|_{L_2} = O_p(n^{-r/(2r+1)})\]

这匹配了标准的非参数回归速率，不受 divergent dimension 影响（只要 \(p,m\) 增长速率受控）。

定理 3（Oracle property：Group SCAD 的变量选择一致性）：变量选择的结果以概率趋向 1 等于真稀疏支撑：

\[P( \hat{\mathcal{S}}_{n} = \mathcal{S}_0 ) \to 1\]

其中 \(\mathcal{S}_0 = \{ j : \beta_{0j} \neq 0 \}\)。此外，对选中的有效变量，估计值 \(\hat{\boldsymbol{\beta}}_{\mathcal{S}_0}\) 渐近服从正态分布，且协方差矩阵与已知 oracle 协方差矩阵一致。

证明路线与技术技巧¶

整体路线（penalized partial likelihood + sieve）：

Step 1：将部分似然函数 \(\ell_n(\boldsymbol{\beta}, g)\) 中的非参数 \(g\) 用 B-spline 基展开（sieve 近似），并用 group SCAD 惩罚：

\[Q_n(\boldsymbol{\beta}, \boldsymbol{\theta}) = \ell_n(\boldsymbol{\beta}, \boldsymbol{\theta}) - \sum_j p_\lambda(\|\boldsymbol{\theta}_j\|_2) - \sum_{k} p_\lambda(\beta_k|)\]
注意这里 FPC 得分的非线性效应是用一个 B-spline 组（\(\boldsymbol{\theta}_j \in \mathbb{R}^{K_n}\)）表示，组惩罚迫使组系数整体为零或整体非零（group variable selection）。
Step 2：引入 局部二次逼近（LQA） 处理 SCAD 的非凸性，最终转化为迭代加权最小二乘。证明中使用了这个技巧的一步 oracle 性质。
Step 3：建立 目标函数在整空间上的局部极值点 满足一些近似 Karush-Kuhn-Tucker 条件，然后利用经验过程和 U-过程（部分似然函数是 sum of i.i.d. terms）在 diverging dimension + sieve 设定下进行一阶展开。
Step 4：关键跳跃点（引理）——The beta-min condition + group SCAD 的惩罚 threshold 确保以高概率将无效 FPC 得分的整组样条系数推为零。类似偏差的证明难度：无法直接在无穷参数空间上做；但通过截断 sieve 并将剩余投影截断量的阶可证偏差可忽略。
Step 5：最后在选出的 true support 上做标准的部分似然渐近分析，用二阶展开和黎曼假设（信息矩阵正定）获得正态性。

关键跳跃点： - 跳跃 1：\(L_\infty\) 收敛率转移到非线性函数 \(g\) 的 \(L_2\) 界。这里作者用了一些常规的 sieve 偏差 + 方差平衡技巧，但难点在于被选中的 FPC 得分个数也在发散，使方差部分出现更难控制的“并行样条组”的交叉项。 - 跳跃 2：Oracle property 的证明在 group SCAD 设定下需要同时处理线性部分的稀疏性和非线性组级稀疏性，这需要控制每个向量的范数随着发散维数仍成立了SCAD的渐近分离特性（Fan & Li, 2001; 扩展见 Zhao et al., 2020）。 - 跳跃 3：模型假设 FPC 得分来自有限截断（误差来自于截断剩余的函数型方差部分），但作者假设这个误差已可忽略（使用 Karhunen-Loève截断的一个常规误差 bound），这一点在证明中没有详细列出——属弱假设、但证明依赖它。

技术技巧点名：

技巧	作用	位置
Group SCAD	联合惩罚标量协变量与 FPC 组的线性+非线性组系数	估计方程
B-spline sieve	将无穷维函数 \(g\) 降维至有限维基系数	模型设定
部分似然（Partial likelihood）	消去基线 hazard \(\lambda_0(t)\)，获得对有限维参数的估计方程	估计方法
剖面对数似然（profile likelihood）	将非参数部分（这里是基线 hazard）通过 Breslow 估计量 profile out	理论框架的局部展开
可行性区域问题（Infeasible region）	证明 group SCAD 的解在支撑上的集中——利用一阶条件	变量选择一致性
NEON 不等式	处理 divergent dimension 下打分函数的随机求和	收敛率的控制

真实例子与应用¶

数据来源：肾移植数据库（来自肾脏移植中心，作者未给出具体名称），包含 433 名肾移植患者。 如何处理： - 事件：死亡（death），时间：移植后的存活时间（月） - 删失典型。 - 标量预测变量（16 个）：年龄、性别、体重指数 (BMI)、原发肾病类型、是否肾癌移植等 - 函数型预测变量：移植后 前 7 天发生的每日药用性的治疗强度 的曲线（？）——文中说的是“function predictor of the daily medication use post-transplant”。这是一个时间序列（7 天的药量）。 - 处理方法：对这个药量曲线进行 FPCA，提取前 \(m\) 个 FPC 得分（本文用 PC 1-5）。 - 模型拟合：使用 group SCAD 在 \(p=16, m=5, K_n=8\)（B-spline 节点 8 个）进行拟合，通过 5-fold CV 选择惩罚参数。

结果： - 标量协变量中，年龄、心脏并发症、感染的严重程度 被选为主要风险因子（与医学直觉一致）。 - FPC 得分中，PC1、PC2 被保留，PC3-PC5 被淘汰。 - 模型给出了 PC1 和 PC2 的剂量-反应函数 \(g_1, g_2\)（用 B-spline 面板绘制）。PC1 呈现一个明显的非线性：在中低得分附近 hazard 急剧上升，高得分后趋于平稳；PC2 在中间区域有 U 型效应。这些非线性效应若被线性模型忽略，则会遗漏重要的风险变化模式。

这个例子想说明什么： - 验证理论的非线性效应在真实数据中确实存在（模型拒绝线性假设）。 - 同时说明变量选择能够识别出少数重要 FPC 分量——结构是稀疏的。 - 展示本文方法能产出可解释的单调/U形风险函数，比纯线性模型更有洞察。

请注意：这个例子并未以统计学严谨度检验非参数形式是否显著优于线性；它只是拟合了非线性函数并认为"有趣"（这在 Biometrics 应用导向论文中是可接受的）。读者需自行判别此例子是否真正说明了非线性部分的必要性（对比线性 Cox 模型的 AIC/BIC 并未被报告）。

🔎 结论是否比证明窄¶

定理 3 的 Oracle property 是"变量选择一致性"（上界型定理）——而实际应用里作者是用 AIC/BIC 选择 FPC 个数（\(m\)）的，这个选择的理论性质未被证明被覆盖。如果用数据驱动选 \(m\)，那在真正的渐近理论中，这个 \(m\) 也是需要选择过程控制的，但作者没给出对应的理论，连断言都没有。所以读者要小心：下结论应限于：结论在给定 \(m\) 下成立，但选择 \(m\) 过程的性质未被分析。
非线性函数的收敛率：定理 2 是在给定 \(g\) 属于 Sobolev 球、且样条节点位置合理的前提下证明的。但在实际应用（肾移植数据）中，FPC 得分本身的分布来自 FPCA 估计，这个估计误差也许会污染非线性函数的率。作者在 proof 里声称 FPCA 误差是 \(\sqrt{n}\) 相合的、故可吸收（参见引理 A1），但实际数据中 FPCA 相的合性需要进一步的假设（够多的观测点、轨迹光滑等），这些假设在文中被提到、但并未在真实例子中检查。
作者声称模型包含对 FPC 得分的非线性部分，但 识别性 的讨论很弱：如果 \(g\) 是加性函数（即 \(g(\xi_{i,1}, \ldots, \xi_m)\)），那同时包含于线性项的系数 \(\beta_\xi\) 可能无法从非参数加性项中的多项式成分中分辨。作者假设了线性部分只包含标量协变量和一部分 FPC 得分，并声称用 group SCAD 可以区分哪些 FPC 得分进入线性部分、哪些进入非线性加性部分。但这个区分在给定数据中有时是非常脆弱的（依赖于 FPC 得分的相关性假设），笔者没有提供置信区间或检验来佐证此区分的确信度。

四、开放问题（点到为止，扎根具体语句）¶

变量选择中 Oracle 性能能否对 diverging FPC 个数一致成立？
原文对 group SCAD 的变量选择一致性给了定理 3，但定理的证明依赖于“惩罚参数与 beta-min 条件联合控制” （假设 (A6)）。实际中读者的经验证明 beta-min 条件往往不可检验。是否存在不依赖 beta-min 条件的更鲁棒变量选择方法（如用于 survival analysis 的 MCP 或 adaptive LASSO）在函数 Cox 设定中也保持最优？可阅读简短入选竞争中如 Zhao et al. (2020）对此的 contrast 并确认这一缺陷是否已缓解。
B-spline 的基函数个数选择能否是数据自适应且同时保证最优收敛率？
作者在定理 2 中假设 \(K_n \asymp n^{1/(2r+1)}\) （经典最优率），但在实际例子中舍位采用 \(K_n=8\)（未解释理由）。如果能使用 cross-validation 或 penalized spline 同时选择节点数和样条阶数、且不影响率，是实证中的一项切实改进（参见 Pacella & Ryan 2021 关于 penalized sieve 的工作）。此问题来自定理假设中对 \(K_n\) 的先验指定（在引言前略有提到，但不充分）。
非线性函数 \(g\) 能否从直接观测到的功能性状（而非通过 FPC 得分变换）识别？
本文的设定基于 FPC 得分的逐步估计：观测函数 \(X_i(t)\) → FPCA → 得分 → 部分线性模型。这是一个“先截断后回归”的两步法，误差易积累；FPC 得分本身的量纲失去，难以做生物学解释。直接逼近完整函数型协变量的非线性影响（例如在整个函数轨迹上用 3D B-spline）是否可行且理论一致？这与模型（1）中对“函数型线性成分”假设的矛盾点 Riesz 表示定理有关。
功能数据测量误差对 partial likelihood 估计的影响是什么？
原文假设离散观测已通过平滑得出完整曲线且误差可忽略。如果测量误差不允许忽略，则 FPC 得分的估计偏差会扩散到非线性部分——这在生存分析中不罕见（尤其是功能数据只有日均观测）。如今缺少误差模型的敏感性分析。此 gap 在 intro 中以“假设观测光滑”被隐藏。

Maintained by 陈星宇 · Homepage · Source on GitHub