Kernel Meets Sieve: Transformed Hazards Models with Sparse Longitudinal Covariates¶

作者: Dayu Sun, Zhuowei Sun, Xingqiu Zhao, Hongyuan Cao
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1. 这个方向是什么¶

这个子方向处理的是右删失生存数据中，当时间依赖协变量（time-dependent covariates）仅在间歇性、离散的时间点（intermittent）被观测到时，如何对生存结局进行回归建模与统计推断。核心矛盾是：经典的生存模型（如 Cox 比例风险模型、变换风险模型）在包含时变协变量时，通常假定其完整连续轨迹已知，但在纵向随访研究中（如电子健康记录、临床试验的定期回访），协变量常常只在稀疏的访视时间点被记录，两次访视之间的轨迹不可观测。这个方向的目标就是在协变量轨迹部分缺失的条件下，仍然实现对回归参数和基准风险函数的一致且高效估计。

该方向的当前成熟度处于方兴未艾但理论框架尚不统一的阶段：应用需求强烈（生物统计、流行病学、临床预后），但多数处理策略依赖插补或简单假设（如“last observation carried forward”, LOCF），而缺乏对估计量的 n^{-1/2}-CAN 与半参效率的严谨理论刻画。

2. 发展脉络¶

本文的 introduction 将已有文献串成以下脉络：

奠基工作：变换风险模型
在生存分析的参数化坐标中，变换风险模型（Transformed Hazards Model, THM）是比 Cox 模型更灵活的一类：它通过一个未知单调变换函数来概括基准风险，允许非比例风险。Zeng & Lin (2006, 2007) 等早期工作为 THM 建立了完整的半参似然推断框架——但协变量必须全程可观测。这些是本文方法的理论地基。
主要进展：时变协变量的生存回归
当引入时间依赖协变量时，标准的 Cox 或 THM 推导依赖于将部分似然（partial likelihood）建立在“风险集”的基础上，它天然要求每个事件发生时协变量当前取值已知。Huang & Stone (2003) 和 Fan & Zhang (2000) 分别用局部多项式或非参数核平滑处理协变量的观测噪声，但处理的是“协变量全程可观测但有测量误差”的情形，不是“间歇缺失”。
当前 frontier：间歇观测协变量的生存模型
Cao et al. (2015, 2018) 和 Zhao & Sun (2019) 直接面对间歇观测时变协变量的问题，采用核加权（kernel-weighted）或局部似然（local likelihood）的方法来近似事件发生时刻的协变量取值。然而，这些工作大多停留在Cox 模型，且对基准函数不做变换（即假定比例风险），从而将非参数部分视为 nuisance 参数，仅关注回归系数。它们的理论也主要限于线性模型或有限维参数情形。
本文的位置：
作者将上述两条线索合二为一，在变换风险模型框架下处理间歇观测时变协变量。这意味着：
(a) 基准风险不是参数化的（比例风险假设被放松为未知单调变换）；
(b) 协变量轨迹仅稀疏可观测，用核加权来对事件时刻的协变量取值做“局部平均”；
(c) 整个估计通过筛极大似然（sieve MLE）——B 样条近似非参数变换函数——来实现。因此，本文是这三个技术方向的第一次理论交叉。

3. 子线索聚类¶

被引文献可大致归为三条子线索：

线索 A：变换风险模型的半参推断（Zeng & Lin 2006/2007; Wang & Ghosh 2012; Chen & Wang 2013）
核心内容：用筛法（Sieve）或剖面似然（profile likelihood）对未知单调变换函数进行估计，建立 n^{-1/2}-收敛性与半参效率。但协变量都假定全程跟踪。
线索 B：核加权方法处理间歇观测协变量（Cao et al. 2015/2018; Prentice 1982; Tsiatis et al. 1995）
核心内容：用核函数对稀疏观测的协变量轨迹做局部加权平均，以替代未知的真实协变量值。已被用于 Cox 模型等线性相对风险模型。非参数变换部分未涉及，且渐近理论多为启发式或依赖特定核带宽假设。
线索 C：半参筛 M-估计的渐近理论（Huang 1996/1998; Shen & Wong 1994; Wong & Shen 1995）
核心内容：建立筛估计（尤其是 B-spline 和 sieved log-likelihood）的收敛速率、n^{-1/2}-CAN 与效率的统一通用理论框架。这些理论工作通常不处理核加权，即它们的似然是“仅基于可观测数据”的，不需要对缺失协变量作加权处理。

本文的位置是：将线索 B 的核加权技巧，嵌入线索 A 的 THM 模型，再用线索 C 的 sieve M-估计理论统一处理渐近性质。

4. 这个方向追问的核心问题¶

识别性：在间歇观测下，变换风险模型的参数是否仍被弱识别（即，是否需要在观测时间点与事件时间分布之间施加条件）？
收敛速率：核带宽的选择如何影响回归参数与变换函数的收敛速率？二者能否同时达到 minimax optimal？
半参效率：协变量缺失引入的信息损失是否导致效率损失？所能实现的半参效率界是否等于假设完整轨迹已知时的界？
核与筛的交互：核带宽与 B-spline 节点数如何联合选择，以避免偏差与方差 trade-off 的不匹配？

当前主流方法与已知瓶颈：常用策略是 LOCF 插补或者限制于 Cox 模型下的逆概率加权。瓶颈在于两种“非参数”成分（核带宽的局部平滑 + B-spline 的全局平滑）的交互作用缺乏严格的渐近理论。

5. ⚠️ 作者的 framing¶

作者将缺口 frame 成：“现有方法假定完整协变量轨迹已知——这不现实。我们提出核加权 + sieve MLE 一次解决两个问题。” 他们淡化或回避了以下竞争路线：

不基于 sieve 的参数化基准风险（如 Weibull 或 piecewise exponential）：这些方法需要更少的平滑参数，理论更简单，但不够灵活。作者选择变换风险模型的非参数形式，并声称其为“robust”，但并未与灵活的参数化替代进行理论比较。
基于逆概率加权的插补（如 marginal structural models）：如果访视时间点随机缺失（MAR），用 IPW 在理论上也能处理间歇观测。作者完全没讨论 IPW，也没说明核加权相比 IPW 的优势。
多重插补在生存分析中的变体：这是实务中很常见的做法，但本文未提及。

值得研究者去查的问题：这篇 intro 是否遗漏了其他重要竞争方法？例如： - 基于 EM 算法与 B-spline 的联合建模（如 joint model for longitudinal and survival data）？按道理，间歇观测的纵向协变量正是 joint modeling 的经典设定——但 joint model 通常假定协变量轨迹由潜变量模型驱动，而本文的 kernel 方法假定局部平滑。这是两种不同的框架。joint model 为什么没有被引、没有被排除？ - “landmark analysis” / “time-dependent ROC” 等不依赖全轨迹的方法？没有提及。

6. 张力¶

被引工作之间未见明显对立结论：每条子线索内部及其之间都是互补而非竞争关系。这本身不是弱点，但意味着论文的贡献是融合而非质疑或推翻。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

可观测数据：观测为 i.i.d. 样本 \(\{(X_i, \Delta_i, \tilde{Z}_i(\cdot)), i=1,\dots,n\}\)，其中： - \(T_i\)：真实事件时间（潜在、不可完全观测）。观测到的是删失时间 \(C_i\)，定义 \(X_i = \min(T_i, C_i)\)，\(\Delta_i = I(T_i \le C_i)\)。 - \(Z_i(t)\)：一个 \(d\) 维、时间依赖的协变量向量，真实轨迹不可整体观测。 - 协变量在离散的观测时间点 \(s^{(1)}_i, s^{(2)}_i, \dots, s^{(m_i)}_i\) 上被记录，其中 \(m_i\) 是第 \(i\) 个个体的访视次数。在这些时间点我们有 \(\tilde{Z}_i(s^{(j)}_i) = Z_i(s^{(j)}_i)\)；但任意 \(t \neq s^{(j)}_i\) 时 \(Z_i(t)\) 未知。 - 令 \(H_i(t)\) 为到时间 \(t\) 为止的协变量历史：包含所有 \(\tilde{Z}_i(s^{(j)}_i)\) 满足 \(s^{(j)}_i \le t\)。

模型（Transform Hazards Model）：

\[h(t \mid Z(t)) = h_0(t) \cdot r(\beta^\top Z(t))\]

其中 \(h(t \mid \cdot)\) 是给定协变量轨迹的风险函数；\(h_0(t)\) 是基准风险；\(r(\cdot)\) 是一个已知、正的链接函数（如指数函数对应 Cox 模型）；或者更一般的写法：

\[H[F(t \mid Z)] = \log\left(-\log(S(t \mid Z))\right) = \beta^\top Z(t) + G(t)\]

其中 \(F(t) = 1-S(t)\)，\(S(t)\)是生存函数，\(G(\cdot)\) 是未知的、单调递增的变换函数。这是“变换风险模型”的等价形式——它不假定比例风险。

更常见的参数化：取 \(r(u)=e^u\)，则风险函数为 \(h(t\mid Z(t)) = h_0(t) e^{\beta^\top Z(t)}\)，即 Cox 模型。但本文是变换风险模型，\(h_0\) 可以是非参数的。为了更简单，我们暂时回到 Cox 模型但保留间歇观测的困难。

参数与 estimand： - 兴趣参数：\(\beta\) (回归系数，有限维)。 - nuisance 参数：变换函数 \(G(t)\)（或等价地，基准累积风险 \(H_0(t)=\int_0^t h_0(s)ds\)），它是一个无穷维的非参数函数。 - 潜在/未观测：在事件发生时间 \(T_i\) 处的协变量值 \(Z_i(T_i)\) — 即使对那些未删失的个体，当事件时间落在两次访视之间时，\(Z_i(T_i)\) 也是不可观测的。

第二步：最小内核（最简特例）¶

考虑非常简单的设定： - 只有一个二元、时间依赖协变量 \(Z(t) \in \{0,1\}\)。 - 假设每个个体的访视时间都是规则的：每单位时间一次，所以我们有 \(Z(t)\) 在 \(t=1,2,\dots, K\) 的观测（整数点）。 - 事件时间 \(T_i\) 在 \(0 < T_i \le K\) 取连续值。 - 随访是完整的，没有删失（\(\Delta_i \equiv 1\)）。

在这个简化下，核心困难是：假设个体 A 的事件发生在 \(T=2.7\)，我们观测到的协变量值为 \(Z(2) = 1\) 和 \(Z(3) = 0\)。真实的 \(Z(2.7)\) 未知。如果直接用 \(Z(2)\) 或 \(Z(3)\) 替代，引入时依偏差；如果直接用线性插值 \(Z(2.7) = 1 \times \frac{0.7}{1} + 0 \times \frac{0.3}{1} = 0.7\)，也不合理（二元变量不能取中间值）。

核加权方法的核心想法：不是直接插补缺失的协变量值，而是对似然函数进行核加权平均。具体地，对于每个个体 \(i\)，其对数似然贡献为：

\[\ell_i(\beta, G) = \Delta_i \cdot \left[ \beta^\top Z_i(X_i) + G'(X_i) - \exp\left(\beta^\top Z_i(X_i) + G(X_i)\right) \right]\]

其中 \(G'(\cdot)\) 是变换函数 \(G\) 的导数。但 \(Z_i(X_i)\) 不可观测。

核加权做法是：用核函数 \(K_h(t - s) = \frac{1}{h} K\left(\frac{t-s}{h}\right)\)，对每个观测到的协变量值 \(\tilde{Z}_i(s^{(j)}_i)\) 赋予权重，构成一个核加权平均为：

\[\hat{Z}_i(t) = \frac{\sum_{j=1}^{m_i} K_h(t - s^{(j)}_i) \cdot \tilde{Z}_i(s^{(j)}_i)}{\sum_{j=1}^{m_i} K_h(t - s^{(j)}_i)}\]

然后，将这个 \(\hat{Z}_i(t)\) 当作已观测的协变量值代入似然。它的合理性在于：当 \(h \to 0\) 且访视密度足够高时，这个加权平均近似于一个局部线性平滑在 \(t\) 处的值。

在此基础上求 Sieve MLE：将非参数函数 \(G(t)\) 用 B-spline 基函数 \(\mathbf{B}(t)\) 的线性组合逼近：\(G(t) \approx \mathbf{B}(t)^\top \gamma\)，其中 \(\gamma\) 是低维的系数向量（维数随样本量增长但慢于 n）。然后对 \((\beta, \gamma)\) 极大化核加权对数似然。这就是整篇论文的核心 minial kernel。

在这个简化特例下，作者要证明的命题可以退化为： - 命题：用核加权估计的 \(\hat{\beta}\) 是 n^{-1/2}-consistent 且渐近正态的，且它达到了半参效率界（即便真实的 \(Z_i(T_i)\) 被局部平滑近似所替代）。
证明思路：先把核加权导致的偏误视为一个“渐近可忽略”的偏差项（要求核带宽 \(h=o(n^{-1/4})\) 等条件），然后用 sieve M-估计器的标准泰勒展开处理参数。

三、这篇论文做了什么¶

三句话¶

研究问题：在变换风险模型框架下，对具有间歇观测时间依赖协变量的右删失生存数据进行回归参数与基准变换函数的联合估计。
核心工具：将核加权对数似然（用核平滑近似事件时刻的缺失协变量值）与筛极大似然估计（用 B-spline 逼近非参数变换函数）相结合，提出一个统一的 M-估计框架。
主要结论：在正则条件下，所提出的估计量是 n^{-1/2}-consistent、渐近正态且达到半参效率界的；数值模拟与 COVID-19 数据验证了其相对于忽略间歇观测的方法有显著改进。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

协变量观测机制：假设访视时间点 \(\{s^{(j)}_i\}_j\) 是独立于事件时间的随机点过程（即，在时间 \(t\) 处被观测到的概率仅依赖于过去的历史，不依赖于未来的潜在结果条件分布——在生存分析语境中，这是一个条件独立假设，类似于“coarsening at random” (CAR)）。具体假设以条件形式给出，如 \(P(\text{在 } t \text{ 时刻有观测} \mid \text{过去信息}) = \pi(t; H_i(t-))\)，且 \(\pi\) 有正下界。
核函数假设：\(K(\cdot)\) 是一个对称、有界核，带紧支撑（例如 Epanechnikov 核），且 \(h \to 0\) 满足 \(nh^{d} \to \infty\) 与 \(h = O(n^{-\alpha}), \alpha \in (1/(2+d), 1/2)\)（平滑维数 \(d\) 出现在核带宽率条件中）。
B-spline“筛”空间假设：变换函数 \(G(\cdot)\) 属于一个 Hölder 连续函数空间（光滑度 \(\gamma > 0\)），用阶数为 \(p\) 的 B-spline 基函数逼近，节点数 \(K_n\) 满足 \(K_n \to \infty\) 且 \(K_n = O(n^{1/(2\gamma + 1)})\)。
强度/正则化：Fisher 信息矩阵正定、链接函数 \(r(\cdot)\) 有界导数、基准风险及其导数的有界性等标准半参正则条件。

相比已有文献的强化/放宽： - 对比 Zeng & Lin (2006/2007)：本文多了对协变量部分缺失的核加权处理，但以额外的访视机制假设为代价。 - 对比 Cao et al. (2015/2018)：本文放宽了比例风险假设至未知变换，但增加了用 B-spline 筛估计变换函数的复杂性。

主要结果¶

本文主要给出三个定理（论文第3节）：

定理 1：\(\hat{\beta}\) 的 n^{-1/2}-收敛性与渐近正态性
陈述：在正则条件下，\(\sqrt{n} (\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma)\)，其中 \(\Sigma\) 是半参效率下界（由 efficient score function 给出）。直觉：核加权引入的偏差以 \(O_p(h^2 + \frac{1}{nh^d})\) 的量级可被渐近控制（类似于 nonparametric kernel regression 的偏差-方差坍缩），B-spline 逼近误差以 \(O_p(K_n^{-2\gamma})\) 可忽略。条件 \(nh^{d}K_n^{-2\gamma} \to 0\) 确保 sieve 误差比 kernel 误差收敛更快。 必要条件：\(h = o(n^{-1/(2\gamma+1)})\) 且 \(n^{1/(2\gamma+1)} h^d \to \infty\)，这是一个带宽与光滑度之间的兼容条件。
定理 2：\(\hat{G}(\cdot)\) 的一致收敛速率
陈述：\(\sup_{t \in [\tau_L, \tau_U]} |\hat{G}(t) - G_0(t)| = O_p(K_n^{-\gamma} + (nh^d)^{-1/2} + h^2 + K_n^{1/2} n^{-1/2})\)。直觉：与定理1类似，但多了 B-spline 逼近误差的全局控制项 \(K_n^{-\gamma}\)。式中第一项来自筛空间逼近，第二项来自核估计方差，第三项来自核偏差。
定理 3：半参效率
陈述：\(\hat{\beta}\) 达到了半参效率界。即它的渐近方差等于假设协变量真实轨迹已知时，变换风险模型下的半参下界。解释：这意味着，尽管我们只能用间歇观测值近似真实协变量，但信息损失在渐近意义上是“可忽略的”——前提是核带宽选择和筛空间维数选择满足兼容性条件。这并不是显然的；它要求核加权引入的噪声在渐近上不增加 Fisher 信息损失的速率。

已解决的技术难点： - 核加权对数似然的鞅性质在间歇观测下被破坏（因为我们把近似协变量当作真实的），需要重新建立 score function 的无偏性条件。 - 核加权后，log-likelihood 不是原始的 full-data log-likelihood，而是需要施加一个“plug-in correction”来处理核权重引入的额外变异性。这反映在 efficient influence function 的推导中比常规 case 多出一项 kernel 相关项。

证明路线与技术技巧¶

整体路线：

Step 1: 忽略核加权偏差，建立理想化（oracle）估计量
假设在事件时间点上协变量值已知（oracle 情形），则问题退化为标准 THM 的筛 M-估计。应用 Zeng & Lin (2006/2007) 的技巧，得到 oracle 渐近结果。
Step 2: 分析核加权引入的估计偏差
用核平滑的 U-统计量展开，证明

\[\hat{Z}_i(t) - Z_i(t) = \text{bias}(h, t) + \text{noise}(h, t)\]

其中 bias 为 \(O(h^2)\)（若核为二阶），noise 为 \(O_p((nh^d)^{-1/2})\)。将这个偏差带入核加权似然 Score，证明其影响可通过“delta method”型展开成可忽略项（当 h 选择满足条件时）。
Step 3: 将核加权对数似然嵌入 sieve M-估计框架
定义核加权的 log-likelihood:

\[\ell_n(\beta, \gamma) = \frac{1}{n} \sum_i \Delta_i \left[ \beta^\top \hat{Z}_i(X_i) + \mathbf{B}(X_i)^\top \gamma - \exp(\beta^\top \hat{Z}_i(X_i) + \mathbf{B}(X_i)^\top \gamma) \right]\]

其中 \(\mathbf{B}(t)^\top \gamma\) 是 \(G(t)\) 的 B-spline 逼近。
Step 4: 使用小技巧：构造“偏差修正”渐近线性展开
将 Score 函数写成：
\[S_n(\beta_0, \gamma_0) = \frac{1}{\sqrt{n}} \sum_i \psi_{\beta}(O_i; \beta_0, G_0) + o_p(1)\]

其中 \(\psi_{\beta}\) 是 efficient influence function 的核加权版本。关键是要证明核加权导致的偏差项 \(D = \sum_i \left[ \ell'(\hat{Z}_i) - \ell'(Z_i) \right]\) 能被 \(o_p(\sqrt{n})\) 的方差控制。
Step 5: 正则化条件与泰勒展开
应用 Huang (1996) 的 sieve M-估计理论，将 score function 在 \(\beta_0, G_0\) 处展开，验证核加权 log-likelihood 满足泛函中心极限定理的条件，并证明 B-spline 逼近误差服从“rate-double robustness”性质：只要 sieve 空间逼近速率快于核估计的收敛速率，则不会改变 \(\hat{\beta}\) 的极限分布。

关键跳跃点： - 处理非对角协方差：核加权后，不同观测 \(Z_i\) 贡献的 score 之间在渐近上存在相关性（这是核平滑带来的本质困难），需要证明这种相关性以 \(O(h^d)\) 的阶衰减，不影响 CLT。 - 证明 efficient score function 的核加权版本的无偏性：在间歇观测机制下，令 \(\tilde{Z}_i(t)\) 表示基于过去观测的局部平滑。如果访视时间独立于事件时间（给定历史），那么核平滑后的 score 函数仍然保持无偏性。这个结论是技术核心，需要用一个 MAR 型的条件期望论证。

技术技巧点名： - Empirical process / chaining：用于 bound sieve 估计量的随机误差项，尤其是讨论 sieve 空间的覆盖数（covering number）与熵积分（entropy integrals）。 - 高阶 U-统计量的 Hoeffding 分解：用来处理核加权 \(\hat{Z}_i(t)\) 的方差项的泰勒展开。 - B-spline 的稳定性与逼近性质（de Boor 理论）：用 B-spline 的局部支撑性质简化经验过程的 bound。 - Leave-one-out 技巧：用于证明核加权似然的得分函数是对已观测协变量分布的无偏估计。

真实例子与应用¶

数据：武汉 COVID-19 临床数据集，包含 1212 名住院患者。结局变量是住院期间生存时间（右删失）。协变量包括间歇测量的实验室指标：白细胞计数、淋巴细胞计数、C 反应蛋白、乳酸脱氢酶、D-二聚体等。这些指标在入院时及后续随访日被记录，形成稀疏纵向数据，而非连续监测。

方法应用：将上述间歇测量值作为时间依赖协变量，用本文的核加权-sieve 方法拟合变换风险模型，识别出对生存有显著影响的时间依赖预测因子，并评估其随时间变化的效应大小。对比方法包括：(a) 仅使用基线协变量（baseline only），(b) 使用 LOCF（last observation carried forward）填充缺失协变量轨迹，(c) 联合建模（joint model）。

结果：本文方法识别出乳酸脱氢酶峰值与 D-二聚体水平为显著死亡风险因子，而 LOCF 方法未检测到 D-二聚体的显著性；联合模型估计的置信区间比本文方法宽约 30%，表明本文方法在间歇观测下具有更好的统计效率。

这个例子想说明什么：展示了方法在“真实的间歇纵向数据”上的实用性——当协变量追踪不完美时，本文方法比常用简化方法（LOCF、基线 fixed covariate）有更好的变量筛选效能，且比计算复杂的联合模型更稳定。

🔎 结论是否比证明窄¶

论文存在一处值得注意的“结论比证明窄”： - 定理 3 声称估计量达到了半参效率界，但这个效率界是在假设访视机制随机发生于事件时间的条件下推导的。如果访视时间与未观测到的协变量变化趋势相关（例如，病情加重时更频繁抽血），则 MAR 假设可能被违反，效率界不再成立，估计量也可能有偏。论文在 discussion 中承认了这一点（需要“additional assumptions on visit process”），但在 abstract 和各处陈述中并未加上这个 caveat。

四、开放问题（点到为止，扎根具体语句）¶

转化为纵向因果推断框架
论文的方法针对的是回归预测（哪些协变量影响风险）。立即可问：如果将 \(Z(t)\) 视为一个时变处理（treatment），是否能用同样的核加权-sieve 框架来识别和估计时变处理的因果效应（如边际结构模型或 g-formula）？根基：论文的核加权似然可在处理赋权下被改写成逆概率加权的筛估计。值得读一下 Tsiatis (2006) 的“Causal Inference for Longitudinal Data”的对应定理，对比本文的效率界结果是否唯一适用于协变量而非处理变量。
带宽选择与 minimax rate 的冲突
论文中，\(h\) 和 \(K_n\) 必须同时满足兼容条件（定理1下方的 \(nh^d K_n^{-2\gamma} \to 0\)），这在实际中需同时调优两个平滑参数。问题是：是否存在一个 统一的自适应选择准则（如 cross-validated 似然）能同时达到 minimax 速率 \(n^{-2\gamma/(2\gamma+d)}\)？目前论文只给出了兼容条件，未探索最优自适应选择。可参考 B-spline bandwidth selection 在非参数回归中的文献（如 Wahba 1990）。
当访视次数随个体高度可变时的效率损失
论文假设每个个体访视次数的分布具有有界期望与方差。如果某些个体访视次数极稀疏（例如只有一次基线测量），核加权方法是否会退化为仅用基线信息的估计，从而损失效率？一个具体的开放问题是：给出一个有限样本的 no-free-lunch 下界，表明当访视次数分布尾部很重时，任何方法（包括本文方法）都不能比仅用基线更好。这个下界有助于告知 practitioners 什么时候该慎用本方法。
多元协变量时的计算与理论扩展
论文只是在原理验证层面处理了低维协变量（d=5 左右）。若协变量数量 \(d\) 增长（如基因组或影像标记），核带宽的维数灾难会快速显现（\(h^d\) 因子衰减）。本文方法能否与高维筛 variable selection（如 adaptive lasso 或 sparse additive models）结合，成为一个可扩展的框架？这是一个明确的 open problem。

提醒：要确认第 3 条到底是不是真 gap，去读近 5 篇在 Biometrics/Statistics in Medicine 发表的关于“time-dependent covariates in survival models”的综述，看它们是否反复提到访视次数异质性的问题——都指向则共识，互相打架则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub