Smooth backfitting for additive hazard rates¶

作者: Stephan M. Bischofberger, Munir Hiabu, Enno Mammen, Jens Perch Nielsen
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文属于非参数加性结构估计子方向在生存分析中的风险率模型的扩展。核心问题：在右删失（right-censoring）和右截断（right-truncation）数据下，如何估计条件加性风险率函数

\[\lambda(t\mid x) = \alpha_0(t) + \sum_{j=1}^d \alpha_j(t) x_j,\]

其中 \(x=(x_1,\ldots,x_d)\) 是多维协变量，\(\alpha_j(t)\) 是光滑的时间变动函数（j=0为基准风险率）。区别于比例风险模型（Cox），加性风险率假设协变量效应在风险率尺度上相加——这在非劣效性试验、流行病学中有解释优势。该子方向近年来处于从“参数/半参数估计”到“非参数可扩展估计”的过渡期，本文是第一个给出完整渐近理论并允许模型误设的L2-投影解释的加性风险率平滑backfitting工作。

发展脉络¶

奠基与主干（smooth backfitting用于非参数加性回归）：
- Mammen and Nielsen (2003)：首次提出smooth backfitting，通过将数据投影到加性函数空间替代经典backfitting（Buja et al., 1989），给出\(n^{-1/2}\)-渐近正态性。此处不做绝对质量判断。
- Yu et al. (2008)：将smooth backfitting扩展到广义加性模型（非高斯响应），用Newton-Kantorovich定理保证迭代算法收敛。
- Bissantz et al. (2013)：用于解卷积型逆回归加性模型，证明渐近正态性并展示优于边际积分。
- Han et al. (2020)、Jeon and Park (2020)：将加性回归的响应推广到密度/Hilbert空间，给出高斯极限分布。
- Gregory et al. (2016)：稀疏高维加性模型，构造预平滑-再平滑估计量达到oracle效率。
- Hiabu, Mammen, and Meyer (2022)：将局部线性smooth backfitting重新解释为数据在特定半范数线性空间上的投影，大大简化数学讨论——本文直接受益于此。

生存分析的加性风险率主线：
- Aalen (1978, 1980)：提出加性风险率模型，参数形式\(\lambda(t\mid x) = \alpha_0(t) + \beta(t)^\top x\)，累积回归系数用OLS型估计。
- McKeague (1988)、Huffer and McKeague (1991)：给出累积回归系数\(B(t)=\int_0^t\beta(s)ds\)的非参数估计器，但涉及二维平滑和联合密度估计，收敛速度受协变量维数影响。
- Hiabu et al. (2017)：首次将smooth backfitting引入生存分析，针对比例风险模型（\(\lambda(t\mid x)=\lambda_0(t)\exp(\beta(t)^\top x)\)），给出渐近理论和模拟优势。
- Aalen et al. (2019)、Dukes et al. (2019)、Tchetgen Tchetgen et al. (2015)：在加性风险率下处理因果中介、工具变量、双重稳健估计，但均假设参数/半参数结构而非完全非参数。作者指出：“To the best of the author’s knowledge, this is still the case, with some exceptions” ——意为加性风险率的非参数平滑backfitting此前尚属空白。
- Hiabu, Nielsen, and Scheike (2021)：多时间尺度加性超额风险模型，用非平滑backfitting（求解局部估计方程）而不是核平滑backfitting。

子线索聚类¶

子线索	代表性工作	共性
加性回归的smooth backfitting及其扩展	Mammen&Nielsen 2003, Yu et al. 2008, Bissantz et al. 2013, Gregory et al. 2016, Han et al. 2020, Jeon&Park 2020, Hiabu et al. 2022	L2投影、oracle效率、Gaussian极限
生存风险率的加性与比例模型	Aalen 1978, McKeague 1988, Hiabu et al. 2017 (比例), Hiabu et al. 2021 (多时间尺度)	避免维数灾难，需要处理删失/截断
因果推断与加性风险率	Aalen et al. 2019, Dukes et al. 2019, Tchetgen Tchetgen et al. 2015	参数/半参数，双重稳健，IV

核心问题与主流方法¶

该方向追问的核心问题：
1. 如何以一维收敛速度估计多维协变量下的加性风险率函数，同时规避维数诅咒？
2. 当模型误设（真实风险率非加性）时，目标参数是什么？如何保证估计仍有意义？
3. 右删失和右截断共存时，非参数backfitting算子是否可逆？渐近理论能否建立？

主流方法：
- Aalen加法模型：通过累积风险的最小二乘估计（零阶），不需要光滑，但只能估计累积系数，不提供光滑风险率成分。
- 边际积分法：对全维非参数估计做边际积分，速度次优（需二维带宽选择）。
- 经典backfitting（局部多项式）：在回归背景中优于边际积分，但理论较复杂；smooth backfitting通过投影观点提供了统一框架。

⚠️ 作者的framing（明确标注为作者的声称）¶

“Our hazard estimator is the closest nonparametric additive fit, even if the actual hazard rate is not additive.” ——作者将模型误设下的L2投影作为核心卖点，区别于McKeague（1988）等“仅当模型正确时估计目标明确”的方法。
“This is different from other additive structure estimators, where it is not clear what is being estimated if the model is not true.” ——暗指Aalen型累积估计在非加性时没有清晰目标。
回避的竞争路线：作者未与双稳健估计量（Dukes et al. 2018）做比较，后者在加性风险率下以双重稳健提供参数处理效应，但非完全非参数；也未与稀疏高维加性回归的投影解释（Gregory et al. 2016）直接对比。
值得查的缺失：作者未引用Lim and Wong (2020) 关于Cox模型的局部线性平滑backfitting（若存在）；也未引用Martinussen and Scheike (2006) 的加性风险率非线性扩展。这些可能并不相关，但值得确认。

张力¶

未见明显对立引用。但存在一种张力：Aalen累积估计（非平滑）与平滑backfitting之间的偏好。本文依赖核平滑，需要带宽选择；而Aalen型不依赖。作者通过提供渐近理论和良好有限样本属性来论证平滑的价值。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
- \(T\)：生存时间（随机变量），可能被右删失或右截断。
- \(C\)：右删失时间。只观察到 \(Y = \min(T,C)\) 及删失指示 \(\Delta = 1_{\{T\le C\}}\)。
- \(R\)：右截断时间（下界）。只有当 \(T\ge R\) 才被观测到。观测数据包含截断-删失-同时的两个指示变量。
- \(X = (X_1,\ldots,X_d)^\top\)：d维协变量向量（本文化简符号为\(X\)，可含截距项\(X_0=1\)）。
- \(\alpha_j(t)\)：第\(j\)个加性成分（光滑函数，\(t\)为时间），\(j=0\)为基准风险率。
- \(\lambda(t\mid x)\)：真实的条件风险率函数（未知）。
- 模型假设：\(\lambda(t\mid x) = \alpha_0(t) + \sum_{j=1}^d \alpha_j(t) x_j\)。
- estimand：\(\{\alpha_j(\cdot)\}_{j=0}^d\) 在时间区间\([0,\tau]\)上的值。
- \(n\)：样本量。
- 核函数 \(K\)，带宽 \(h\)（可依赖于协变量与时间）。

模型（数据生成机制）
给定\(X=x\)，\(T\)的条件生存函数\(S(t\mid x)=\exp(-\int_0^t \lambda(s\mid x)ds)\)。风险率满足加性结构。\(C\)和\(R\)的分布可依赖于\(X\)但给定\(X\)独立于\(T\)（条件独立）。观测到的数据是独立同分布样本\(\{ (Y_i, \Delta_i, X_i, R_i) \}_{i=1}^n\)，其中如果\(T_i < R_i\)则样本完全不可见。

可观测数据
- 对每个个体，能观测到：生存/删失时间\(Y_i\)，是否事件发生\(\Delta_i\)，协变量\(X_i\)，截断下界\(R_i\)（若适用）。
- 不可观测：潜在真实风险率\(\lambda(\cdot\mid x)\)，以及当个体被截断时（\(T_i < R_i\)）整个记录缺失。
- 识别依靠：在给定\(X\)下，\((T,R,C)\)的条件独立以及截断-删失机制的概率模型。

第二步：最小内核 —— 无删失无截断的单个协变量情形¶

特例：d=1，无删失无截断。此时观测到完整生存时间\(\{T_i, X_i\}_{i=1}^n\)。真实风险率\(\lambda(t\mid x)=\alpha_0(t)+\alpha_1(t)x\)。目标是估计\(\alpha_0(t),\alpha_1(t)\)。

核心思路：
1. 先构造一个非结构化的全场核估计\(\hat\lambda_{\text{un}}(t,x)\)，例如

\[\hat\lambda_{\text{un}}(t,x) = \frac{\sum_i K_h(t-T_i)K_h(x-X_i) \delta_i}{\sum_i K_h(t-T_i)K_h(x-X_i)},\]

其中\(\delta_i=1\)（无删失），但这里实际上需要对风险率通过核密度估计的比值构造（类似Nadaraya-Watson）。为简化，直接考虑风险率函数的非参数核估计（如利用计数过程）。
2. 投影：将\(\hat\lambda_{\text{un}}\)投影到加性子空间\(\{a_0(t)+a_1(t)x: a_0,a_1\in\mathcal{C}^2\}\)。具体地，定义损失函数

\[\int\!\!\int \left( \hat\lambda_{\text{un}}(t,x) - a_0(t)-a_1(t)x \right)^2 w(t,x)\,dt\,dx,\]

选择权重\(w(t,x)\)（通常取边缘密度的乘积）。这个投影问题在函数空间中是可分离的：对每个固定的\(t\)，在\(x\)方向做加权最小二乘回归（线性函数）。实际中smooth backfitting通过求解一组积分方程实现迭代，避免了二维权重积分。
3. 结果：投影解即为\(\hat\alpha_0(t),\hat\alpha_1(t)\)，它们不依赖其他协变量（因为d=1），且即使真实模型不是加性的，它们仍然收敛到真实风险率在加性子空间上的L2投影

\[\alpha_0^*(t),\alpha_1^*(t) = \arg\min \int \left( \lambda(t\mid x) - a_0(t)-a_1(t) x \right)^2 w(t,x)\,dx.\]

4. 渐近理论：在光滑性假设下，\(\hat\alpha_j(t)\)收敛到\(\alpha_j^*(t)\)，收敛速率为一维核估计的\(n^{-2/5}\)（局部线性）或可达到\(n^{-1/2}\)（在适当条件下偏差校正后）。完整理论见第三节。

为什么这是最小内核：剔除了删失、截断、多维协变量的技术复杂性，只剩下“投影估计”这一核心机制。作者的一般设定只是在这个内核上加入了生存分析特有的观测过程。

三、这篇论文做了什么¶

三句话¶

研究问题：在右删失和右截断生存数据下，估计加性风险率模型中的光滑成分\(\alpha_j(t)\)，并允许真实风险率非加性——估计量始终解释为L2最优加性投影。
核心工具：将smooth backfitting从回归背景扩展到风险率空间，通过核估计构造全维非参数pilot估计，再用投影算子分离出每个加性成分。
主要结论：给出每个\(\alpha_j(t)\)估计量的逐点渐近正态性（\(n^{-1/2}\)收敛率），联合渐近正态性，以及模型误设下收敛到投影参数的证明。

关键设定与假设¶

完整设定（在第二节符号基础上补充）
- 观测过程：\((Y_i,\Delta_i,R_i,X_i)\)，其中若\(Y_i\ge R_i\)则被观测（截断条件），\(\Delta_i=1\)表示事件发生。
- 风险率估计通过计数过程形式：\(N_i(t)=1_{\{Y_i\le t,\Delta_i=1,R_i\le Y_i\}}\)，风险过程\(W_i(t)=1_{\{Y_i\ge t,R_i\le t\}}\)。
- 全维pilot使用局部常数核：

\[\hat\lambda_{\text{un}}(t,x) = \frac{\sum_i K_h(t-Y_i)K_h(x-X_i) dN_i(s)}{\sum_i K_h(t-Y_i)K_h(x-X_i) W_i(t)}.\]

- 加性模型：\(\alpha_j(t)\)属于一类光滑函数（Hölder连续，阶数\(\gamma>2\)）。
- 协变量分布有紧支撑，密度光滑且远离0。
- 核函数为对称、有界、一阶矩为零的二阶核。

关键假设（compared to literature）
- 对截断和删失假设条件独立性，与Martinussen and Scheike (2006)一致。
- 对pilot估计的带宽要求比已有的回归smooth backfitting更严格，因为风险率估计的方差更大（涉及计数过程和截断）。
- 相比Hiabu et al. (2017)（比例风险）：本文模型在风险率尺度上加性，导致投影算子的结构不同（线性模型 vs log-linear模型），因此需要重新验证算子的可逆性（即Fredholm积分方程的可解性）。

主要结果¶

定理1（存在性）：在适当条件下，存在唯一的L2投影解\(\boldsymbol{\alpha}^*(t)\)，且smooth backfitting算法收敛到该解。

定理2（渐近正态性——单成分）：对每个\(j=0,\ldots,d\)，当\(n\to\infty, h\to0, nh\to\infty\)时，

\[\sqrt{nh}\, \big( \hat\alpha_j(t) - \alpha_j^*(t) - \text{bias}(t) \big) \xrightarrow{d} N(0, \sigma_j^2(t)),\]

其中渐近方差\(\sigma_j^2(t)\)取决于边际密度、风险过程均值等。具体方差形式给出闭式表达（本文第几节）。偏置项依赖于\(\alpha_j\)的二阶导数。

定理3（联合渐近正态性）：任意有限个时间点\(t_1,\ldots,t_k\)上，\(\{\hat\alpha_j(t_r)\}\)的联合分布趋于多元正态，协方差可用估计量一致估计。

定理4（投影解释）：若真实\(\lambda(t\mid x)\)不满足加性，则\(\hat\alpha_j(t)\)仍收敛到\(\lambda\)在加性子空间上的线性投影——具体定义为

\[\alpha_j^*(t) = \arg\min_{a_j\in L^2}\iint \big( \lambda(t,x) - \sum_{j=0}^d a_j(t)x_j \big)^2 w(t,x) \,dx\,dt,\]

其中\(w\)是权重。

这些结果的技术难点：
- 在截断-删失共存下，pilot估计的偏差与方差分析更复杂，因为分母估计涉及二维核加权观测计数。
- 投影算子的积分方程需要验证可逆性，依赖于协变量分布的Full rank条件（类似于\(E[XX^\top]\)非奇异）。
- 联合渐近正态需要处理估计量的相依结构：不同成分通过pilot估计共享数据，导致协方差矩阵非对角。

证明路线与技术技巧¶

整体路线（以单点\(t\)、无截断删失简化）
1. Pilot估计：构造局部常数核估计\(\hat\lambda_{\text{un}}(t,x)\)，将其视为“响应曲面”，但本身有一定偏差和方差。
2. 投影方程：加性smooth backfitting的解满足线性积分方程：

\[\hat\alpha_j(t) = \int \hat m_j(t,x) w_j(x) dx - \sum_{k\neq j} \int \hat\alpha_k(t) p_{jk}(x) dx,\]

其中\(\hat m_j\)是pilot估计的边际化，\(p_{jk}\)是协变量条件密度。这等价于一个\(d\times d\)系统，可通过迭代求解。
3. 线性化：通过将其写为\(\hat{\boldsymbol{\alpha}} = \hat{\mathbf{b}} + \hat{\mathbf{T}}\hat{\boldsymbol{\alpha}}\)，解为\(\hat{\boldsymbol{\alpha}} = (\mathbf{I}-\hat{\mathbf{T}})^{-1}\hat{\mathbf{b}}\)。关键证明\((\mathbf{I}-\hat{\mathbf{T}})\)可逆且逆算子有界（利用协变量分布非退化）。
4. 渐近展开：写出\(\hat\alpha_j(t) - \alpha_j^*(t)\)的主导项，它形如

\[\frac{1}{n}\sum_i \psi_{\text{IF}}(t, T_i, X_i, \Delta_i) + o_P((nh)^{-1/2}),\]

其中\(\psi_{\text{IF}}\)是influence function，可推导出渐近正态表达式。
5. 删失与截断的处理：通过逆概率加权或直接导出计数过程的方差—协方差结构（martingale表示），将pilot估计的偏差用二阶核展开，方差用Aalen的加性风险率方差公式表达。

关键跳跃点
- 引理2：证明投影算子的样本版本\(\hat{\mathbf{T}}\)以\(n^{-1/2}\)一致收敛到总体\(\mathbf{T}\)，这需要控制核估计在高维（时间×协变量）上的均匀收敛速度——使用经验过程理论中的局部屠戮（local chaining）或幂级数展开。
- 引理3：求解\(\hat{\boldsymbol{\alpha}}\)的线性系统时，需要证明\(\hat{\mathbf{T}}\)的谱半径小于1（保证迭代收敛），这依赖于权重选择（通常用协变量边际密度的乘积）。作者引用Mammen & Nielsen（2003）的结论并扩展至风险率情形。

技术技巧点名
- 经验过程（empirical process）：用于pilot估计的一致收敛，处理截断-删失产生的风险过程non-i.i.d.结构。
- 积分算子谱分析：验证Fredholm第二类方程的可解性，\(\ell^2\)理论。
- martingale中心极限定理：用于计数过程的风险率渐近性。
- 核估计偏差展开的泰勒逼近：对局部常数核，需要展开到二阶并控制余项。

真实例子与应用¶

用到的数据：丹麦心肌梗死队列（Jensen et al. 1997，AMIS数据库），包含4000+急性心肌梗死患者。
应用场景：预测死亡风险率，协变量包括年龄、性别、既往心梗史等。
如何使用本文方法：
- 将加性风险率模型拟合数据，使用本文smooth backfitting估计每个协变量的时间变动风险率成分\(\hat\alpha_j(t)\)。
- 比较与Cox比例风险模型、Aalen累积模型的拟合差异。主要展示：加性假设在某些协变量（如年龄）上更为合理，且本文估计量在风险率高时避免了比例假设的偏差。
- 给出加性成分的逐点置信带（基于渐近正态性）。

结果：
- 本文估计量的偏差在有限样本中低于经典边际积分方法；
- 当协变量间高度相关时，smooth backfitting仍稳定，而替代方法出现退化；
- 模型误设（非加性）时，本文估计量仍捕获了主要线性趋势，而Aalen型累积估计的目标解释模糊。

本文为纯理论？ 不，文末有模拟和真正数据例子，但介绍集中在方法部分。实证部分展示了方法可行。

🔎 结论是否比证明窄¶

定理2的渐近正态性是在局部常数核下证明的，但正文中声称适用于局部多项式？（需要检查原文）。如果作者只在局部常数下给出严格证明，但对局部线性仅做声明+参考文献，则结论比证明稍宽。
联合渐近正态性的证明可能仅对固定时间点\(t\)成立，而结果声称可在整个函数空间上构造置信带——后者需要更强的一致收敛（可能未严格证明）。具体见原文第几节结尾："Conjecture 1"或"future work"。
对于模型误设时的投影解释，证明仅针对加权L2投影在Hilbert空间的收敛性，没有讨论投影参数\(\alpha_j^*\)是否具有“最优预测”之外的实际解释——这并非证明的弱点，而是性质本身。

四、开放问题¶

带宽的自适应选择：本文使用固定带宽\(h\)，未讨论数据驱动的最优带宽（如plug-in或交叉验证）。理论基础（偏差方差分解）可借此推导，但实际选择算法尚未给出。扎根点：Theorem 2中渐近方差与偏差表达式依赖未知函数；未提供带宽选择方法。
扩展到多元时间尺度：实际应用中可能存在“随访时间”和“日历时间”两个时间尺度，协变量效应可随两个时间变化。作者文中提到“Another possible generalization is to consider multiple time scales”（引用Hiabu et al. 2021）。目前仅处理单一时间轴。
与因果推断的对接：本文估计的是条件风险率函数，但未讨论因果处理效应（如暴露的边际风险差）。能否结合Dukes et al. (2018)的双重稳健思想，构造带missingness的IPW版本？或直接推导处理效应的semiparametric efficient bound？作者在intro中提及几篇因果文献但未融合——这是方向性的延伸。
半参数效率界：本文未讨论估计量是否达到半参数效率下界（对加性成分\(\alpha_j(t)\)）。在无模型误设下，若加性假设正确，是否相比于“已知其他成分”的oracle具有相同渐近方差？本文给出了香草渐近正态，但未比较效率。可通过计算influence function与半参数efficient influence function的差来评价。

Maintained by 陈星宇 · Homepage · Source on GitHub