Conditional hazard rate estimation for right censored data¶

作者: Sam Efromovich
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: https://doi.org/10.3150/23-bej1679

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的是右删失数据下条件风险率函数的非参数估计问题。核心困难在于：右删失破坏了标准非参数回归所需的完整样本结构，使得传统的小波阈值收缩或核估计无法直接应用；同时，条件风险率涉及寿命分布与删失分布两个未知函数的比值，属于半参数结构，需要在尖锐极小化极大意义下同时处理估计偏差、方差与删失带来的额外随机性。当前该方向在单变量连续协变量情形已有成熟理论，但在混合型协变量（连续+分类）、自适应维数以及尖锐常数方面仍有缺口。

发展脉络：根据 Introduction 的引用梳理，该领域的发展线索如下：

奠基工作（右删失下的非参数估计）：
- Gill (1980) 与 Andersen et al. (1993)：建立了计数过程鞅理论，为右删失数据的渐近理论奠定了基础。这是处理删失数据的标准框架。
- Kaplan & Meier (1958)：提出了著名的 Kaplan-Meier 估计器，解决了边际生存函数的估计问题，但未涉及条件情形。
主要进展（条件估计与光滑化）：
- Dabrowska (1989, 1992)：较早探讨了条件生存函数与风险率的非参数估计，使用了核光滑方法，但主要关注相合性，未触及极小极大最优性。
- McKeague & Utikal (1990)：研究了条件风险率的核估计，建立了渐近正态性，但未处理边界偏差与最优收敛速率问题。
- Gonzalez-Manteiga & Cadarso-Suarez (1994)：进一步发展了条件风险率的核估计，关注了偏差校正，但理论框架仍停留在传统的 \(O(n^{-4/5})\) 速率，未达尖锐界。
当前 Frontier（尖锐极小极大与自适应估计）：
- Efromovich 本人的一系列工作 (1999, 2001, 2004, 2016)：作者长期深耕非参数自适应估计。Introduction 中明确指出，此前的工作（如 Efromovich 2016）解决了边际风险率的尖锐估计问题，以及条件密度的估计问题，但条件风险率因其涉及两个条件分布函数（寿命与删失时间）的比值结构，在尖锐界与自适应理论方面存在空白。
- Uzunbajakava (1994)：虽然涉及条件风险率，但作者在 Introduction 中暗示其方法在处理删失机制时不够精细，未能达到尖锐极小极大界。
本文的位置：
- 作者将本文定位为填补"右删失下条件风险率函数的尖锐极小极大估计"这一空白的工作。相比前人工作，本文不仅追求最优速率，还追求常数项的最优，并进一步解决了协变量维数自适应与混合型协变量的问题。

子线索聚类：被引文献大致落在以下三条子线索上： 1. 鞅与计数过程框架：以 Gill, Andersen 为代表，提供了一套处理删失数据的通用概率工具，侧重于大样本性质而非非参数最优速率。 2. 核光滑与经典非参数回归：以 Dabrowska, McKeague 为代表，将核方法移植到条件风险率估计，解决了相合性与渐近分布问题，但在偏差-方差权衡的精细度上未达极小极大。 3. Efromovich 学派的 Oracle 逼近与自适应理论：以作者本人及 Pinsker (1980) 为基础，强调在均方积分误差（MISE）准则下，不仅达到最优速率，还要逼近 Oracle 的常数系数，并实现数据驱动的光滑参数选择。

这个方向在追问的核心问题： 1. 尖锐界：在右删失干扰下，条件风险率估计的 MISE 下界是什么？能否构造估计器同时达到速率与常数的最优？ 2. 自适应：当风险率函数的光滑度未知时，能否构造数据驱动的估计器，使其表现逼近"知道光滑度"的 Oracle？ 3. 维数灾难与变量选择：当协变量包含连续与分类变量时，估计器能否自动识别"无关协变量"并恢复单变量收敛速率？

⚠️ 作者的 framing：作者将本文 frame 为"首个在右删失下实现条件风险率尖锐极小极大估计并解决维数自适应问题"的工作。 - 淡化的竞争路线：作者未在 Introduction 中深入讨论半参数有效估计（如基于 Influence Function 的方法）与本文非参数方法的对比。前者在低维结构模型下可能更有效，而本文方法完全非参数，侧重于 MISE 准则。 - 缺失的引用：Introduction 中未引用局部多项式回归在删失数据下的最新进展（如 Spierdijk 等人的工作），也未提及机器学习方法（如 Random Survival Forests）在条件风险率估计上的应用。这暗示作者将问题严格限定在"经典统计决策论"框架内，而非预测导向。

张力：未见明显对立引用。该领域的主流趋势是从相合性走向最优速率，再到尖锐界，本文属于这一主流趋势的自然延伸，不存在明显的理论矛盾或学派对立。

二、最核心、最简单的例子 / 数学问题¶

在展开全文技术细节前，先确立记号与最小内核。

第一步：符号、模型与可观测数据

符号与参数：
- \(T\)：潜在寿命时间，随机变量，取值 \(t \in [0, \infty)\)。
- \(X\)：协变量，取值于 \(\mathbb{R}^d\)（连续情形）或混合空间。
- \(C\)：删失时间，随机变量。
- \(h(t|x)\)：目标参数，给定 \(X=x\) 时 \(T\) 的条件风险率函数。定义为 \(h(t|x) = f(t|x) / S(t|x)\)，其中 \(f\) 是条件密度，\(S\) 是条件生存函数。
- \(G(t|x)\)：给定 \(X=x\) 时删失变量 \(C\) 的条件生存函数，即 \(G(t|x) = P(C > t | X=x)\)。这是冗余参数。
- \(H(t|x)\)：累积风险率函数，\(H(t|x) = \int_0^t h(u|x) du\)。
模型：
- 数据生成机制：\((T, C, X)\) 联合分布未知。假设 \(T\) 与 \(C\) 在给定 \(X\) 下条件独立，即 \(T \perp C | X\)。这是识别条件风险率的关键假设。
- 目标：在 Sobolev 空间或解析函数类假设下，估计 \(h(t|x)\)，并最小化 MISE (Mean Integrated Squared Error)：\(R(\hat{h}, h) = E \int (\hat{h}(t|x) - h(t|x))^2 dx dt\)。
可观测数据：
- 研究者观测不到 \(T\) 或 \(C\) 的完整样本。
- 可观测变量：\(Y = \min(T, C)\)（观测时间），\(\Delta = \mathbb{I}(T \le C)\)（示性函数，\(\Delta=1\) 表示未删失/事件发生，\(\Delta=0\) 表示删失）。
- 样本：\((Y_1, \Delta_1, X_1), \dots, (Y_n, \Delta_n, X_n)\) i.i.d.。

第二步：最小内核

剥离掉混合协变量、高维情形与自适应选择，支撑本文的最小数学内核是：单变量连续协变量下，条件风险率的 Oracle 估计与删失机制的处理。

最简特例：设 \(X\) 为标量（\(d=1\)），且 \(h(t|x)\) 关于 \(t\) 和 \(x\) 足够光滑。假设我们有一个 Oracle，知道 \(h(t|x)\) 属于某个特定的函数类（如 Sobolev 空间），且知道 \(h\) 的 Fourier 系数。

核心困难：若数据无删失（\(C=\infty\)），观测到 \(T\) 的完全样本，则条件风险率估计退化为条件密度估计问题，可用小波或级数展开求解，最优 MISE 速率约为 \(n^{-2s/(2s+1)}\)（\(s\) 为光滑度）。
删失带来的变化：由于只能观测到 \((Y, \Delta)\)，我们无法直接计算 \(h(t|x)\) 的经验 Fourier 系数。
本文的破题思路（最小内核）：利用计数过程表示与鞅变换，构造一个"伪观测"或"无偏估计"结构。定义计数过程 \(N(t) = \mathbb{I}(Y \le t, \Delta=1)\) 和风险过程 \(R(t) = \mathbb{I}(Y \ge t)\)。经典结论是：\(dN(t) - h(t|X) R(t) dt\) 是关于 \(T\) 的自然滤子的鞅增量。本文利用这一结构，构造了一个基于 Fourier 级数的估计器。 关键直觉：在 Oracle 设定下，若已知 \(h(t|x)\) 的基函数展开形式，则系数估计可以通过积分 \(\int \phi_k(t) dN(t)\) 来构建。这里，\(dN(t)\) 扮演了"完全数据"中 \(dH(t)\) 的角色，但需要通过 \(R(t)\) 进行加权调整以消除删失偏差。 尖锐界的来源：MISE 分解中，方差项受限于 \(n\)，而偏差项受限于函数类的光滑性。删失通过 \(G(t|x)\)（删失生存函数）影响方差项——因为 \(P(\Delta=1|X) = G(T|X)\)，删失概率越高，有效样本越少，方差越大。本文证明了，在 \(G(t|x)\) 已知或可估的条件下，条件风险率估计的 MISE 下界与上界匹配，且常数项显式依赖于 \(G\) 的性质。

三、这篇论文做了什么¶

三句话： 1. 研究了右删失数据下条件风险率函数的非参数估计问题，在给定连续与分类协变量时，建立了 MISE 准则下的尖锐极小极大界。 2. 提出了一种基于级数展开的数据驱动估计器，利用 Oracle 方法证明了该估计器能自适应逼近最优收敛速率与常数系数。 3. 证明了当寿命与协变量独立时，该估计器具有"神谕性"，能自动识别独立性并以单变量速率收敛。

关键设定与假设： - 条件独立假设：\(T \perp C | X\)。这是识别条件风险率的必要条件。 - 光滑性假设：条件风险率 \(h(t|x)\) 属于 Sobolev 空间或解析函数类，具有特定的光滑度 \(s\)。 - 支撑集假设：\(h(t|x)\) 与 \(G(t|x)\) 在紧集上有界且下界严格大于零（保证分母不为零，风险集非空）。 - 混合协变量：\(X = (U, V, W)\)，其中 \(U\) 为连续变量，\(V\) 为有序分类变量，\(W\) 为名义分类变量。相比传统文献仅处理连续变量，这是一个推广。

主要结果：

定理：MISE 尖锐下界：
- 作者推导了在给定光滑度 \(s\) 下，任何估计器 \(\hat{h}\) 必然满足的下界：
  \[\inf_{\hat{h}} \sup_{h \in \mathcal{H}(s)} R(\hat{h}, h) \ge C(s) n^{-2s/(2s+1)} (1 + o(1))\]
- 这里的常数 \(C(s)\) 显式依赖于条件风险率本身的性质以及删失机制 \(G\)。这比仅给出速率 \(n^{-2s/(2s+1)}\) 更精细。
定理：Oracle 估计器的构造与上界：
- 构造了一个基于 Fourier 级数（或小波）的估计器。核心步骤是对计数过程 \(N(t)\) 进行正交变换。
- 证明了该 Oracle 估计器的 MISE 达到了上述下界，从而确立了尖锐极小极大性。
- 技术难点：如何处理 \(G(t|x)\) 未知的情况。作者提出了一个 plug-in 估计器 \(\hat{G}\)，并证明了估计 \(G\) 带来的额外误差项可以被主项吸收，不影响整体收敛速率。
定理：维数自适应与独立性检验：
- 当 \(X\) 维数增加时，通常会遇到维数灾难。作者提出的估计器通过某种截断或选择机制（文中具体为级数展开的截断阶数选择），能够自适应地调整有效维数。
- 关键结论：若 \(T \perp X\)（即 \(h(t|x) = h(t)\)），估计器能自动识别这一结构，其 MISE 收敛速率恢复为 \(n^{-2s/(2s+1)}\)（单变量速率），而非受维数 \(d\) 惩罚的速率。这类似于"自动变量选择"。

证明路线与技术技巧：

整体路线：
- 第一步：将条件风险率函数展开为正交基函数（如 Fourier 或小波基）的级数形式。将函数估计问题转化为系数估计问题。
- 第二步：利用计数过程鞅性质，构造系数的无偏估计量。具体地，利用 \(E[dN(t)|X] = h(t|X) R(t) dt\)，通过积分变换提取 Fourier 系数。
- 第三步：分析 MISE 的偏差-方差分解。偏差来自级数截断，方差来自样本噪声与删失噪声。
- 第四步：利用 Pinsker 型极小极大定理，计算贝叶斯风险下界，推导常数项。
- 第五步：构造数据驱动的截断参数选择规则，证明其风险逼近 Oracle 风险。
关键跳跃点：
- 处理冗余参数 \(G\)：证明估计删失分布 \(G\) 的误差不会主导估计误差。这需要精细的偏差分析，利用了 \(G\) 的光滑性假设。
- 独立性识别：证明估计器在 \(T \perp X\) 时能"自动"恢复单变量速率。这依赖于对估计器系数的渐近性质分析——当独立性成立时，涉及 \(X\) 的高阶系数趋于零，估计器自动降维。
技术技巧点名：
- Oracle 不等式：用于连接数据驱动估计器与 Oracle 估计器的表现。
- Pinsker 常数：用于计算非参数估计的精确常数项，这是 Efromovich 学派的标志性工具。
- 鞅积分：处理右删失数据的标准工具，将观测数据转化为可分析的随机积分形式。
- Block-thresholding（块阈值）：虽然文中未明确强调该术语，但自适应级数估计通常隐含了分组选择的思想，用于适应函数的不同光滑度。

真实例子与应用： - 数据场景：论文给出了一个关于减少温室气体排放的实际例子。具体涉及某种工业过程或设备的寿命数据。 - 应用方式：将条件风险率估计用于分析在特定操作条件（协变量 \(X\)）下，设备失效（需要更换或维修，导致排放增加）的风险率。 - 结果展示：展示了估计出的条件风险率曲线，对比了不同协变量水平下的风险差异。作者意在说明该方法能捕捉非线性、非单调的风险趋势，这是传统参数模型（如 Cox 模型）可能遗漏的。 - 目的：验证了估计器在有限样本下的可行性，并展示了其在指导工业决策（如何设置操作参数以延长寿命、减少排放）中的价值。

🔎 结论是否比证明窄： - 论文声称"数据驱动估计器匹配 Oracle 表现"，这在理论上仅证明在 MISE 意义下成立。对于有限样本，并未给出具体的非渐近界，这是非参数统计文献的常态，但读者需注意"匹配"是渐近意义上的。 - 关于"混合协变量"的理论结果，部分依赖于对分类变量的特定编码与光滑性假设，这在实际数据中可能需要验证。

四、开放问题¶

非光滑删失机制下的尖锐界：本文假设删失分布 \(G(t|x)\) 也是光滑的。若 \(G\) 本身有跳跃或奇异点（如行政删失边界），条件风险率估计的尖锐界是否改变？扎根点：Introduction 中对 \(G\) 光滑性的假设描述。
高维协变量下的计算可行性：当协变量维数 \(d\) 较大时，级数展开的项数呈指数增长。虽然理论上自适应估计器能降维，但计算复杂度是否可承受？扎根点：文中关于维数灾难的讨论与自适应结果。
依赖性删失：核心假设是 \(T \perp C | X\)。若存在未观测的共变导致条件独立性不成立（非随机删失），该估计器的稳健性如何？扎根点：Introduction 中对条件独立性假设的陈述。
非参数假设检验：本文解决了估计问题。基于此估计器，如何构造条件风险率相等的非参数检验（如检验 \(h(t|x_1) = h(t|x_2)\)）？扎根点：文中仅讨论了估计的 MISE，未涉及假设检验。

Maintained by 陈星宇 · Homepage · Source on GitHub

Conditional hazard rate estimation for right censored data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论