Extended generalized Marshall–Olkin model for dependent censoring¶
作者: Salima Helali
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1111/sjos.70053
一、领域脉络与小综述¶
这个方向是什么: 生存分析中的“依赖删失”与“竞争风险”要解决的根本统计问题是:当个体可能经历多种不同类型的终止事件(如不同死因),且某种事件的发生会物理上阻止其他事件被观测(即产生删失),同时这些潜在事件时间之间存在统计相依性时,如何仅从可观测的“最先发生事件及其类型”数据中,识别并估计各类型事件的边际生存概率与联合生存结构。当前该子方向的成熟度处于“半参数模型识别已解决、非参数 sieve 估计渐近理论有进展、但依赖结构非参数估计的 minimax 最优性与效率界尚不清晰”的阶段。
发展脉络: - 奠基工作:Marshall & Olkin (1967) 提出了经典的 Marshall-Olkin 分布,引入了“致命冲击”模型(多个独立 Poisson 冲击源导致系统或子系统失效),首次在多变量生存分析中给出了具有物理相依机制(非零概率的同时死亡)的联合分布解析形式,但该模型要求冲击源完全独立,留下了相依结构无法灵活刻画的口子。 - 主要进展:Cuadras & Augé (1981) 以及后续的 Mulero & Albadalejo (2010) 等人将 Marshall-Olkin 扩展到允许冲击源本身具有相依性(如通过混合分布引入相依),形成了 Extended Marshall-Olkin (EMO) 模型,使得联合分布的相依结构更灵活,但留下“如何从竞争风险删失数据中非参数估计该模型参数”的口子。 - 当前 frontier:在竞争风险的识别与估计方面,基于 copula 的方法(如 Braekers & Veraverbeke 2005, de Uña-Álvarez & Veraverbeke 2013)将边际分布与相依结构分离,提供了半参数识别框架;在非参数估计技术上,Bernstein 多项式 sieve(如 Petrone 1999, Babu & Chaubey 2006, Sancetta 2007)被证明在生存函数估计中有良好的渐近性质(收敛速度与渐近正态性)。当前 frontier 的瓶颈在于:当删失机制与感兴趣事件存在依赖时,非参数估计的收敛速度往往受限于维数诅咒,且缺乏针对特定相依删失模型(如 EMO)的定制化 sieve 估计及其效率分析。 - 本文的位置:本文填补了“EMO 模型在依赖删失下的非参数 sieve 估计”这一空白,将 Bernstein 多项式 sieve 同时应用于边际分布与联合生存概率的估计,并证明了其渐近正态性。
子线索聚类: 1. 多变量失效模型与相依结构刻画:从经典 MO 模型到 EMO 模型(Cuadras & Augé, Mulero & Albadalejo),这一簇在做“如何用更灵活的概率模型(引入相依冲击)刻画多变量同时失效与统计相依”。 2. 竞争风险的 copula 识别与半参数估计:Braekers & Veraverbeke, de Uña-Álvarez & Veraverbeke 等,这一簇在做“在依赖竞争风险下,如何利用 copula 分离边际与相依,从而识别不可观测的联合生存概率”。 3. Bernstein 多项式 sieve 估计理论:Petrone, Babu & Chaubey, Sancetta 等,这一簇在做“Bernstein 多项式作为逼近工具,在非参数估计中的收敛速度、渐近正态性及贝叶斯非参数解释”。
这个方向在追问的核心问题: 1. 在依赖删失下,边际生存函数与联合生存概率是否可识别?识别需要何种 copula 结构假设? 2. 识别后的非参数估计,其收敛速度能达到多少?是否受维数诅咒的硬限制? 3. 依赖删失下的非参数估计,其渐近分布是什么?能否构造置信区间? 当前主流方法(copula + Kaplan-Meier 型加权 / sieve)已知瓶颈:收敛速度在相依结构非参数估计时往往慢于 \(n^{-1/2}\),且渐近方差的结构极其复杂,难以直接用于区间估计。
⚠️ 作者的 framing(这是作者的说法): 作者把缺口 frame 成:“尽管 EMO 模型已被提出用于刻画依赖竞争风险,但缺乏专门针对该模型、同时估计边际与联合生存概率的非参数估计方法及其渐近理论”。这让本文的 Bernstein sieve 估计成为“显然的下一步”。 被淡化或回避的竞争路线:作者未提及其他非参数 sieve(如 B-spline、小波)在依赖删失中的估计理论,也未讨论半参数效率界与 HOIF(Higher-Order Influence Functions)路线(如 Robins 的依赖删失高阶影响函数方法,可能在收敛速度上提供改进)。 明显该被引 / 该存在却没出现的:依赖删失下的效率理论文献(如 Robins & Rotnitzky 1992 关于依赖删失的 semiparametric efficiency bound);非参数估计 minimax 理论(如 Donoho & Johnstone 1994);以及近期关于 Bernstein sieve 最优性的更精确收敛速度文献。这是值得研究者去查的问题:本文的 Bernstein sieve 估计是否达到了依赖删失下的 minimax 最优率?
张力:未见明显对立引用。EMO 模型与 copula 路线在逻辑上是兼容的(EMO 模型的联合分布可由特定生存 copula 表出),但存在“模型驱动(EMO 物理机制)”与“纯统计驱动(copula 灵活刻画)”的路线张力,本文试图将两者结合(用 EMO 的 copula 结构,但用非参数 sieve 估计),未深入讨论两者在识别约束上的冲突或互补。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(T_1, T_2\):潜在失效时间(随机变量),分别表示两种竞争风险事件的发生时间。
- \(C\):删失时间(随机变量),独立于 \(T_1, T_2\)(本文假设,见后文设定)。
- \(Y = \min(T_1, T_2, C)\):可观测的最小时间。
- \(\Delta_1 = I(T_1 \leq T_2, T_1 \leq C)\):指示是否观测到事件 1 且未被删失。
- \(\Delta_2 = I(T_2 \leq T_1, T_2 \leq C)\):指示是否观测到事件 2 且未被删失。
- \(\Delta_0 = I(C \leq T_1, C \leq T_2)\):指示是否被删失。
- \(S_1(t_1), S_2(t_2)\):边际生存函数,\(S_1(t_1) = P(T_1 > t_1)\),\(S_2(t_2) = P(T_2 > t_2)\)。
- \(\bar{F}(t_1, t_2) = P(T_1 > t_1, T_2 > t_2)\):联合生存函数。
- \(\hat{C}(u_1, u_2)\):生存 copula,满足 \(\bar{F}(t_1, t_2) = \hat{C}(S_1(t_1), S_2(t_2))\)。
- \(n\):样本量。
-
\(m\):Bernstein 多项式的阶数(sieve 参数)。
-
模型(Extended Marshall-Olkin 模型): 数据生成机制:存在三个独立的潜在冲击源 \(X_1, X_2, Z\)(非负随机变量),其中 \(X_1\) 仅导致事件 1,\(X_2\) 仅导致事件 2,\(Z\) 导致事件 1 与 2 同时发生(致命公共冲击)。EMO 模型将 \(X_1, X_2, Z\) 的分布推广为允许相依(例如通过混合分布或 copula),但本文实际设定中,核心识别依赖于 \(T_1, T_2\) 的联合生存函数可由生存 copula \(\hat{C}\) 与边际 \(S_1, S_2\) 表出,且 EMO 模型在 \(T_1 = T_2\) 处有一个奇异质量(同时失效的正概率)。本文的估计目标是 \(S_1, S_2\) 与 \(\bar{F}\)(或 \(\hat{C}\))。
-
可观测数据: 研究者实际能观测到的是 \(n\) 个独立同分布的三元组 \((Y_i, \Delta_{1i}, \Delta_{2i})_{i=1}^n\)。其中 \(Y_i\) 是时间,\(\Delta_{1i}, \Delta_{2i}\) 是事件类型指示。想要但观测不到的是 \((T_{1i}, T_{2i})\) 的联合实现——当 \(\Delta_{1i}=1\) 时,只知 \(T_{1i}=Y_i\) 且 \(T_{2i} > Y_i\);当 \(\Delta_{0i}=1\) 时,只知 \(T_{1i}, T_{2i} > Y_i\)。依赖删失的核心困难在于:从这种只暴露“谁先发生”的部分信息中,恢复 \(T_1, T_2\) 的联合相依结构。
第二步:最小内核
支撑整篇论文的最小内核是一个二值删失下的边际生存函数 Bernstein sieve 估计。剥掉多变量、竞争风险与 copula 的外壳,核心数学问题是:
最简特例(单变量生存函数的 Bernstein sieve 估计): 设 \(T\) 为感兴趣时间,\(C\) 为删失时间,\(T\) 与 \(C\) 独立。观测 \((Y, \Delta)\),\(Y=\min(T,C)\),\(\Delta=I(T \leq C)\)。目标估 \(S(t) = P(T > t)\)。 Bernstein 多项式 sieve 估计定义为:
本文的一般情形只是将 \(\hat{p}_k\) 从单变量 KM 估计推广到依赖竞争风险下的边际与联合生存概率估计,将 \(B_{k,m}(t)\) 推广到二维 Bernstein 多项式 \(B_{(k_1,k_2),(m_1,m_2)}(t_1, t_2)\),核心证明逻辑仍是“sieve 逼近误差 + 经验过程误差的 Bernstein 权重线性组合传递渐近正态性”。
三、这篇论文做了什么¶
三句话: ①研究了依赖竞争风险下(EMO 模型)边际生存函数与联合生存概率的非参数估计问题。 ②核心工具是 Bernstein 多项式 sieve 估计,将离散的 Kaplan-Meier 型估计映射到多项式空间以强制光滑性。 ③主要结论是在适当正则条件(\(S\) 有 \(r\) 阶导数、\(m/n \to 0\))下,证明了边际与联合生存概率估计量的渐近正态性,并推导了收敛速度。
关键设定与假设: 在第二节记号基础上补全: 1. EMO 模型设定:\(T_1, T_2\) 由潜在冲击 \(X_1, X_2, Z\) 生成,\(T_1 = \min(X_1, Z)\),\(T_2 = \min(X_2, Z)\)。联合生存函数 \(\bar{F}(t_1, t_2) = P(X_1 > t_1, X_2 > t_2, Z > \max(t_1, t_2))\),可由生存 copula 表为 \(\bar{F}(t_1, t_2) = \hat{C}(S_1(t_1), S_2(t_2))\),且在 \(t_1 = t_2\) 处有奇异质量 \(P(Z \leq \min(X_1, X_2))\)。 2. 独立删失假设:\(C\) 与 \((T_1, T_2)\) 独立。这是本文最强的识别假设,相比已有文献(如依赖删失的 copula 方法,允许 \(C\) 与 \(T\) 有特定相依结构),本文在此处做了简化,未处理删失与失效时间的相依。 3. 正则条件: - \(S_1, S_2\) 与 \(\bar{F}\) 在 \([0,1]^d\) 上有 \(r\) 阶连续导数(控制 Bernstein 逼近误差阶)。 - \(m \to \infty\) 且 \(m/n \to 0\)(控制经验过程误差占优)。 - 支撑集条件:\(P(C \geq \tau) > 0\),其中 \(\tau\) 是感兴趣的时间点(保证尾部有足够观测)。
主要结果: 1. 定理:边际生存函数 \(\hat{S}_{1,m}, \hat{S}_{2,m}\) 的渐近正态性: 陈述:\(\sqrt{n}(\hat{S}_{j,m}(t) - S_j(t)) \xrightarrow{d} N(0, \sigma_j^2(t))\),其中 \(\sigma_j^2(t)\) 由 KM 型估计的渐近方差与 Bernstein 权重的组合决定。 直觉:Bernstein 权重 \(B_{k,m}(t)\) 是确定性多项式,渐近方差完全由初始估计 \(\hat{p}_k\) 的协方差结构通过线性组合传递而来。 必要条件:\(m \propto n^{1/(2r+1)}\)(平衡逼近与经验误差)。 解决的技术难点:在竞争风险下,\(\hat{p}_k\) 不是简单 KM 估计,而是需要处理 \(\Delta_1, \Delta_2\) 指示的加权估计,其协方差结构更复杂。
-
定理:联合生存概率 \(\hat{\bar{F}}_m(t_1, t_2)\) 的渐近正态性: 陈述:\(\sqrt{n}(\hat{\bar{F}}_m(t_1, t_2) - \bar{F}(t_1, t_2)) \xrightarrow{d} N(0, \Sigma(t_1, t_2))\)。 直觉:二维 Bernstein 多项式 \(B_{(k_1,k_2),(m_1,m_2)}(t_1, t_2)\) 将离散网格点上的联合生存概率估计平滑到连续区域。 必要条件:\(m_1, m_2 \propto n^{1/(2r+1)}\)。 解决的技术难点:联合生存概率在 EMO 模型下有奇异分量(\(t_1=t_2\) 处的质量),但 Bernstein 多项式逼近的是连续部分,奇异部分需单独处理(通过边际估计与 copula 结构的分解)。
-
收敛速度: 当 \(S\) 有 \(r\) 阶导数时,\(\hat{S}_m\) 与 \(\hat{\bar{F}}_m\) 的收敛速度为 \(O_P(n^{-r/(2r+1)})\),这是非参数估计的经典收敛速度,未达到 \(n^{-1/2}\)(除非 \(r \to \infty\),即参数情形)。
证明路线与技术技巧: - 整体路线: 1. 分解:将 \(\hat{S}_m(t) - S(t)\) 分解为 (A) Sieve 逼近误差 \(S(t) - \sum S(k/m) B_{k,m}(t)\) 与 (B) 经验过程误差 \(\sum (\hat{p}_k - S(k/m)) B_{k,m}(t)\)。 2. 控制逼近误差:利用 Bernstein 多项式的逼近阶定理(若 \(S\) 有 \(r\) 阶导数,逼近误差 \(O(m^{-r})\)),选取 \(m \propto n^{1/(2r+1)}\) 使 (A) 为 \(O(n^{-r/(2r+1)})\)。 3. 控制经验过程误差:将 \(\hat{p}_k\) 表为计数过程的泛函,利用 Kaplan-Meier 型估计的渐近线性表示(影响函数展开),将 (B) 表为经验过程的加权积分。 4. 传递渐近正态性:由于 \(B_{k,m}(t)\) 是确定性权重,(B) 的渐近分布由 \(\hat{p}_k\) 的联合渐近正态性 + 确定性线性组合直接得出。 5. 联合生存概率:将二维 Bernstein sieve 估计分解为边际估计与 copula 估计的组合,分别传递渐近正态性,再利用 Delta 方法得到联合估计的渐近正态性。
-
关键跳跃点: 最吃功夫的引理是竞争风险下 \(\hat{p}_k\)(网格点上的边际与联合生存概率估计)的渐近线性表示。难点在于:竞争风险数据中,\(\hat{p}_k\) 需要同时处理 \(\Delta_1, \Delta_2\) 的指示,其影响函数涉及多个计数过程的协方差,且在 EMO 模型下需分解奇异与连续分量。作者通过将 \(\hat{p}_k\) 表为 Aalen-Johansen 型估计的泛函,绕过了奇异质量对渐近分布的干扰。
-
技术技巧点名:
- Bernstein 多项式逼近定理:用于控制 sieve 逼近误差阶(定理 3.1 的基础)。
- 影响函数展开 / 渐近线性表示:用于将 \(\hat{p}_k\) 分解为确定性泛函 + 零均值经验过程,从而传递渐近正态性(核心引理)。
- Delta 方法:用于从边际估计与 copula 估计的渐近正态性推导联合估计的渐近正态性(定理 4.2)。
- 计数过程 martingale 展开:用于处理竞争风险下 KM/Aalen-Johansen 估计的渐近性质(虽非本文首创,但本文依赖此展开完成 \(\hat{p}_k\) 的线性表示)。
真实例子与应用: - 用的什么数据:本文使用了真实数据应用,具体为“膀胱癌复发时间数据”(Byar 1980 数据集,常用于竞争风险文献),该数据集记录了膀胱癌患者的复发时间、死亡时间与删失时间,存在两种竞争风险(复发与死亡)。 - 怎么把本文方法用上去:将复发时间作为 \(T_1\),死亡时间作为 \(T_2\),删失时间作为 \(C\),应用 Bernstein sieve 估计 \(\hat{S}_{1,m}, \hat{S}_{2,m}\) 与 \(\hat{\bar{F}}_m\),选取 \(m\) 通过交叉验证或规则 \(m \propto n^{1/3}\)(假设 \(r=1\))。 - 得到什么结果:估计出的边际生存函数与联合生存概率曲线比直接 KM 估计更光滑,且在尾部更稳定(方差更小),但未报告置信区间或与半参数方法的效率对比。 - 这个例子想说明什么:验证 Bernstein sieve 估计在有限样本下的光滑性与稳定性,展示相对 KM 估计的直观优势,但未展示相对其他非参数方法(如 B-spline)或半参数方法的优势。
🔎 结论是否比证明窄: 本文在定理中严格证明了“在 \(C\) 与 \((T_1, T_2)\) 独立、\(S\) 有 \(r\) 阶导数、\(m/n \to 0\)”条件下的渐近正态性与收敛速度。但在 Abstract 与 Introduction 中,泛泛 claim 该方法适用于“dependent competing risks using the Extended Marshall-Olkin model”,未明确强调“独立删失”这一强假设的局限性——实际上,EMO 模型刻画的是 \(T_1, T_2\) 间的依赖,而删失 \(C\) 仍被假设为独立,这在依赖删失文献中是一个窄条件,与“dependent censoring”的标题存在张力。
四、开放问题(点到为止,扎根具体语句)¶
- 依赖删失下的识别与估计:本文假设 \(C\) 与 \((T_1, T_2)\) 独立(设定部分明确陈述),但标题与 framing 强调“dependent censoring”。若放宽为 \(C\) 与 \(T_1, T_2\) 存在相依(如通过 copula 刻画),Bernstein sieve 估计的渐近正态性是否仍成立?需重新推导影响函数与方差结构。扎根点:Abstract 中“subject to censoring”与 Section 2 中独立删失假设的矛盾。
- Minimax 最优性与效率界:本文收敛速度为 \(n^{-r/(2r+1)}\),但未讨论依赖竞争风险下的 semiparametric efficiency bound 或 minimax lower bound。Bernstein sieve 是否达到 minimax 最优率?若未达到,HOIF 路线能否在光滑性假设下改进收敛速度?扎根点:结论部分未提及效率界或 minimax 性质。
- Sieve 参数 \(m\) 的自适应选择:本文理论要求 \(m \propto n^{1/(2r+1)}\),但实际数据中 \(r\) 未知。如何构造数据驱动的 \(m\) 选择方法(如 Lepski 方法或交叉验证),并证明其自适应收敛速度?扎根点:正则条件中 \(m/n \to 0\) 的理论要求与模拟中 \(m\) 的固定选择。
- 奇异质量的处理:EMO 模型在 \(T_1=T_2\) 处有奇异质量,本文的 Bernstein sieve 逼近的是连续部分,奇异质量的估计依赖边际估计与 copula 的分解。奇异点的渐近性质是否与连续点不同?扎根点:定理 4.2 的陈述中未区分奇异点与连续点的渐近方差。
要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub