Extended generalized Marshall–Olkin model for dependent censoring¶

作者: Salima Helali
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1111/sjos.70053

一、领域脉络与小综述¶

这个方向是什么：生存分析中的“依赖删失”与“竞争风险”要解决的根本统计问题是：当个体可能经历多种不同类型的终止事件（如不同死因），且某种事件的发生会物理上阻止其他事件被观测（即产生删失），同时这些潜在事件时间之间存在统计相依性时，如何仅从可观测的“最先发生事件及其类型”数据中，识别并估计各类型事件的边际生存概率与联合生存结构。当前该子方向的成熟度处于“半参数模型识别已解决、非参数 sieve 估计渐近理论有进展、但依赖结构非参数估计的 minimax 最优性与效率界尚不清晰”的阶段。

发展脉络： - 奠基工作：Marshall & Olkin (1967) 提出了经典的 Marshall-Olkin 分布，引入了“致命冲击”模型（多个独立 Poisson 冲击源导致系统或子系统失效），首次在多变量生存分析中给出了具有物理相依机制（非零概率的同时死亡）的联合分布解析形式，但该模型要求冲击源完全独立，留下了相依结构无法灵活刻画的口子。 - 主要进展：Cuadras & Augé (1981) 以及后续的 Mulero & Albadalejo (2010) 等人将 Marshall-Olkin 扩展到允许冲击源本身具有相依性（如通过混合分布引入相依），形成了 Extended Marshall-Olkin (EMO) 模型，使得联合分布的相依结构更灵活，但留下“如何从竞争风险删失数据中非参数估计该模型参数”的口子。 - 当前 frontier：在竞争风险的识别与估计方面，基于 copula 的方法（如 Braekers & Veraverbeke 2005, de Uña-Álvarez & Veraverbeke 2013）将边际分布与相依结构分离，提供了半参数识别框架；在非参数估计技术上，Bernstein 多项式 sieve（如 Petrone 1999, Babu & Chaubey 2006, Sancetta 2007）被证明在生存函数估计中有良好的渐近性质（收敛速度与渐近正态性）。当前 frontier 的瓶颈在于：当删失机制与感兴趣事件存在依赖时，非参数估计的收敛速度往往受限于维数诅咒，且缺乏针对特定相依删失模型（如 EMO）的定制化 sieve 估计及其效率分析。 - 本文的位置：本文填补了“EMO 模型在依赖删失下的非参数 sieve 估计”这一空白，将 Bernstein 多项式 sieve 同时应用于边际分布与联合生存概率的估计，并证明了其渐近正态性。

子线索聚类： 1. 多变量失效模型与相依结构刻画：从经典 MO 模型到 EMO 模型（Cuadras & Augé, Mulero & Albadalejo），这一簇在做“如何用更灵活的概率模型（引入相依冲击）刻画多变量同时失效与统计相依”。 2. 竞争风险的 copula 识别与半参数估计：Braekers & Veraverbeke, de Uña-Álvarez & Veraverbeke 等，这一簇在做“在依赖竞争风险下，如何利用 copula 分离边际与相依，从而识别不可观测的联合生存概率”。 3. Bernstein 多项式 sieve 估计理论：Petrone, Babu & Chaubey, Sancetta 等，这一簇在做“Bernstein 多项式作为逼近工具，在非参数估计中的收敛速度、渐近正态性及贝叶斯非参数解释”。

这个方向在追问的核心问题： 1. 在依赖删失下，边际生存函数与联合生存概率是否可识别？识别需要何种 copula 结构假设？ 2. 识别后的非参数估计，其收敛速度能达到多少？是否受维数诅咒的硬限制？ 3. 依赖删失下的非参数估计，其渐近分布是什么？能否构造置信区间？当前主流方法（copula + Kaplan-Meier 型加权 / sieve）已知瓶颈：收敛速度在相依结构非参数估计时往往慢于 \(n^{-1/2}\)，且渐近方差的结构极其复杂，难以直接用于区间估计。

⚠️ 作者的 framing（这是作者的说法）：作者把缺口 frame 成：“尽管 EMO 模型已被提出用于刻画依赖竞争风险，但缺乏专门针对该模型、同时估计边际与联合生存概率的非参数估计方法及其渐近理论”。这让本文的 Bernstein sieve 估计成为“显然的下一步”。 被淡化或回避的竞争路线：作者未提及其他非参数 sieve（如 B-spline、小波）在依赖删失中的估计理论，也未讨论半参数效率界与 HOIF（Higher-Order Influence Functions）路线（如 Robins 的依赖删失高阶影响函数方法，可能在收敛速度上提供改进）。 明显该被引 / 该存在却没出现的：依赖删失下的效率理论文献（如 Robins & Rotnitzky 1992 关于依赖删失的 semiparametric efficiency bound）；非参数估计 minimax 理论（如 Donoho & Johnstone 1994）；以及近期关于 Bernstein sieve 最优性的更精确收敛速度文献。这是值得研究者去查的问题：本文的 Bernstein sieve 估计是否达到了依赖删失下的 minimax 最优率？

张力：未见明显对立引用。EMO 模型与 copula 路线在逻辑上是兼容的（EMO 模型的联合分布可由特定生存 copula 表出），但存在“模型驱动（EMO 物理机制）”与“纯统计驱动（copula 灵活刻画）”的路线张力，本文试图将两者结合（用 EMO 的 copula 结构，但用非参数 sieve 估计），未深入讨论两者在识别约束上的冲突或互补。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(T_1, T_2\)：潜在失效时间（随机变量），分别表示两种竞争风险事件的发生时间。
\(C\)：删失时间（随机变量），独立于 \(T_1, T_2\)（本文假设，见后文设定）。
\(Y = \min(T_1, T_2, C)\)：可观测的最小时间。
\(\Delta_1 = I(T_1 \leq T_2, T_1 \leq C)\)：指示是否观测到事件 1 且未被删失。
\(\Delta_2 = I(T_2 \leq T_1, T_2 \leq C)\)：指示是否观测到事件 2 且未被删失。
\(\Delta_0 = I(C \leq T_1, C \leq T_2)\)：指示是否被删失。
\(S_1(t_1), S_2(t_2)\)：边际生存函数，\(S_1(t_1) = P(T_1 > t_1)\)，\(S_2(t_2) = P(T_2 > t_2)\)。
\(\bar{F}(t_1, t_2) = P(T_1 > t_1, T_2 > t_2)\)：联合生存函数。
\(\hat{C}(u_1, u_2)\)：生存 copula，满足 \(\bar{F}(t_1, t_2) = \hat{C}(S_1(t_1), S_2(t_2))\)。
\(n\)：样本量。
\(m\)：Bernstein 多项式的阶数（sieve 参数）。
模型（Extended Marshall-Olkin 模型）：数据生成机制：存在三个独立的潜在冲击源 \(X_1, X_2, Z\)（非负随机变量），其中 \(X_1\) 仅导致事件 1，\(X_2\) 仅导致事件 2，\(Z\) 导致事件 1 与 2 同时发生（致命公共冲击）。EMO 模型将 \(X_1, X_2, Z\) 的分布推广为允许相依（例如通过混合分布或 copula），但本文实际设定中，核心识别依赖于 \(T_1, T_2\) 的联合生存函数可由生存 copula \(\hat{C}\) 与边际 \(S_1, S_2\) 表出，且 EMO 模型在 \(T_1 = T_2\) 处有一个奇异质量（同时失效的正概率）。本文的估计目标是 \(S_1, S_2\) 与 \(\bar{F}\)（或 \(\hat{C}\)）。
可观测数据：研究者实际能观测到的是 \(n\) 个独立同分布的三元组 \((Y_i, \Delta_{1i}, \Delta_{2i})_{i=1}^n\)。其中 \(Y_i\) 是时间，\(\Delta_{1i}, \Delta_{2i}\) 是事件类型指示。想要但观测不到的是 \((T_{1i}, T_{2i})\) 的联合实现——当 \(\Delta_{1i}=1\) 时，只知 \(T_{1i}=Y_i\) 且 \(T_{2i} > Y_i\)；当 \(\Delta_{0i}=1\) 时，只知 \(T_{1i}, T_{2i} > Y_i\)。依赖删失的核心困难在于：从这种只暴露“谁先发生”的部分信息中，恢复 \(T_1, T_2\) 的联合相依结构。

第二步：最小内核

支撑整篇论文的最小内核是一个二值删失下的边际生存函数 Bernstein sieve 估计。剥掉多变量、竞争风险与 copula 的外壳，核心数学问题是：

最简特例（单变量生存函数的 Bernstein sieve 估计）：设 \(T\) 为感兴趣时间，\(C\) 为删失时间，\(T\) 与 \(C\) 独立。观测 \((Y, \Delta)\)，\(Y=\min(T,C)\)，\(\Delta=I(T \leq C)\)。目标估 \(S(t) = P(T > t)\)。 Bernstein 多项式 sieve 估计定义为：

\[\hat{S}_m(t) = \sum_{k=0}^m \hat{p}_k B_{k,m}(t), \quad B_{k,m}(t) = \binom{m}{k} t^k (1-t)^{m-k}\]

其中 \(\hat{p}_k\) 是对 \(S(k/m)\) 的某个初始估计（如 Kaplan-Meier 估计 \(\hat{S}_{KM}(k/m)\)）。核心思路：Kaplan-Meier 估计在尾部方差大、不光滑；Bernstein 多项式通过将离散的 KM 估计映射到多项式空间，强制光滑性，同时利用多项式的组合结构逼近连续生存函数。渐近正态性的证明内核：当 \(m \to \infty, m/n \to 0\) 时，\(\hat{S}_m(t) - S(t)\) 可分解为： 1. Sieve 逼近误差：\(S(t) - \sum_{k=0}^m S(k/m) B_{k,m}(t)\)，由 Bernstein 多项式的逼近阶控制（若 \(S\) 有 \(r\) 阶导数，误差 \(O(m^{-r})\)）。 2. 经验过程误差：\(\sum_{k=0}^m (\hat{p}_k - S(k/m)) B_{k,m}(t)\)，由 KM 估计在离散点上的渐近正态性 + Bernstein 权重的线性组合控制，方差 \(O(n^{-1})\)。两者相加，选取 \(m \propto n^{1/(2r+1)}\)，使逼近误差与经验误差同阶，达到非参数最优收敛速度 \(n^{-r/(2r+1)}\)，且通过线性组合结构，\(\hat{S}_m(t)\) 的渐近分布由 \(\hat{p}_k\) 的渐近正态性直接传递而来。

本文的一般情形只是将 \(\hat{p}_k\) 从单变量 KM 估计推广到依赖竞争风险下的边际与联合生存概率估计，将 \(B_{k,m}(t)\) 推广到二维 Bernstein 多项式 \(B_{(k_1,k_2),(m_1,m_2)}(t_1, t_2)\)，核心证明逻辑仍是“sieve 逼近误差 + 经验过程误差的 Bernstein 权重线性组合传递渐近正态性”。

三、这篇论文做了什么¶

三句话： ①研究了依赖竞争风险下（EMO 模型）边际生存函数与联合生存概率的非参数估计问题。 ②核心工具是 Bernstein 多项式 sieve 估计，将离散的 Kaplan-Meier 型估计映射到多项式空间以强制光滑性。 ③主要结论是在适当正则条件（\(S\) 有 \(r\) 阶导数、\(m/n \to 0\)）下，证明了边际与联合生存概率估计量的渐近正态性，并推导了收敛速度。

关键设定与假设：在第二节记号基础上补全： 1. EMO 模型设定：\(T_1, T_2\) 由潜在冲击 \(X_1, X_2, Z\) 生成，\(T_1 = \min(X_1, Z)\)，\(T_2 = \min(X_2, Z)\)。联合生存函数 \(\bar{F}(t_1, t_2) = P(X_1 > t_1, X_2 > t_2, Z > \max(t_1, t_2))\)，可由生存 copula 表为 \(\bar{F}(t_1, t_2) = \hat{C}(S_1(t_1), S_2(t_2))\)，且在 \(t_1 = t_2\) 处有奇异质量 \(P(Z \leq \min(X_1, X_2))\)。 2. 独立删失假设：\(C\) 与 \((T_1, T_2)\) 独立。这是本文最强的识别假设，相比已有文献（如依赖删失的 copula 方法，允许 \(C\) 与 \(T\) 有特定相依结构），本文在此处做了简化，未处理删失与失效时间的相依。 3. 正则条件： - \(S_1, S_2\) 与 \(\bar{F}\) 在 \([0,1]^d\) 上有 \(r\) 阶连续导数（控制 Bernstein 逼近误差阶）。 - \(m \to \infty\) 且 \(m/n \to 0\)（控制经验过程误差占优）。 - 支撑集条件：\(P(C \geq \tau) > 0\)，其中 \(\tau\) 是感兴趣的时间点（保证尾部有足够观测）。

主要结果： 1. 定理：边际生存函数 \(\hat{S}_{1,m}, \hat{S}_{2,m}\) 的渐近正态性：陈述：\(\sqrt{n}(\hat{S}_{j,m}(t) - S_j(t)) \xrightarrow{d} N(0, \sigma_j^2(t))\)，其中 \(\sigma_j^2(t)\) 由 KM 型估计的渐近方差与 Bernstein 权重的组合决定。直觉：Bernstein 权重 \(B_{k,m}(t)\) 是确定性多项式，渐近方差完全由初始估计 \(\hat{p}_k\) 的协方差结构通过线性组合传递而来。必要条件：\(m \propto n^{1/(2r+1)}\)（平衡逼近与经验误差）。解决的技术难点：在竞争风险下，\(\hat{p}_k\) 不是简单 KM 估计，而是需要处理 \(\Delta_1, \Delta_2\) 指示的加权估计，其协方差结构更复杂。

定理：联合生存概率 \(\hat{\bar{F}}_m(t_1, t_2)\) 的渐近正态性：陈述：\(\sqrt{n}(\hat{\bar{F}}_m(t_1, t_2) - \bar{F}(t_1, t_2)) \xrightarrow{d} N(0, \Sigma(t_1, t_2))\)。直觉：二维 Bernstein 多项式 \(B_{(k_1,k_2),(m_1,m_2)}(t_1, t_2)\) 将离散网格点上的联合生存概率估计平滑到连续区域。必要条件：\(m_1, m_2 \propto n^{1/(2r+1)}\)。解决的技术难点：联合生存概率在 EMO 模型下有奇异分量（\(t_1=t_2\) 处的质量），但 Bernstein 多项式逼近的是连续部分，奇异部分需单独处理（通过边际估计与 copula 结构的分解）。
收敛速度：当 \(S\) 有 \(r\) 阶导数时，\(\hat{S}_m\) 与 \(\hat{\bar{F}}_m\) 的收敛速度为 \(O_P(n^{-r/(2r+1)})\)，这是非参数估计的经典收敛速度，未达到 \(n^{-1/2}\)（除非 \(r \to \infty\)，即参数情形）。

证明路线与技术技巧： - 整体路线： 1. 分解：将 \(\hat{S}_m(t) - S(t)\) 分解为 (A) Sieve 逼近误差 \(S(t) - \sum S(k/m) B_{k,m}(t)\) 与 (B) 经验过程误差 \(\sum (\hat{p}_k - S(k/m)) B_{k,m}(t)\)。 2. 控制逼近误差：利用 Bernstein 多项式的逼近阶定理（若 \(S\) 有 \(r\) 阶导数，逼近误差 \(O(m^{-r})\)），选取 \(m \propto n^{1/(2r+1)}\) 使 (A) 为 \(O(n^{-r/(2r+1)})\)。 3. 控制经验过程误差：将 \(\hat{p}_k\) 表为计数过程的泛函，利用 Kaplan-Meier 型估计的渐近线性表示（影响函数展开），将 (B) 表为经验过程的加权积分。 4. 传递渐近正态性：由于 \(B_{k,m}(t)\) 是确定性权重，(B) 的渐近分布由 \(\hat{p}_k\) 的联合渐近正态性 + 确定性线性组合直接得出。 5. 联合生存概率：将二维 Bernstein sieve 估计分解为边际估计与 copula 估计的组合，分别传递渐近正态性，再利用 Delta 方法得到联合估计的渐近正态性。

关键跳跃点：最吃功夫的引理是竞争风险下 \(\hat{p}_k\)（网格点上的边际与联合生存概率估计）的渐近线性表示。难点在于：竞争风险数据中，\(\hat{p}_k\) 需要同时处理 \(\Delta_1, \Delta_2\) 的指示，其影响函数涉及多个计数过程的协方差，且在 EMO 模型下需分解奇异与连续分量。作者通过将 \(\hat{p}_k\) 表为 Aalen-Johansen 型估计的泛函，绕过了奇异质量对渐近分布的干扰。
技术技巧点名：
Bernstein 多项式逼近定理：用于控制 sieve 逼近误差阶（定理 3.1 的基础）。
影响函数展开 / 渐近线性表示：用于将 \(\hat{p}_k\) 分解为确定性泛函 + 零均值经验过程，从而传递渐近正态性（核心引理）。
Delta 方法：用于从边际估计与 copula 估计的渐近正态性推导联合估计的渐近正态性（定理 4.2）。
计数过程 martingale 展开：用于处理竞争风险下 KM/Aalen-Johansen 估计的渐近性质（虽非本文首创，但本文依赖此展开完成 \(\hat{p}_k\) 的线性表示）。

真实例子与应用： - 用的什么数据：本文使用了真实数据应用，具体为“膀胱癌复发时间数据”（Byar 1980 数据集，常用于竞争风险文献），该数据集记录了膀胱癌患者的复发时间、死亡时间与删失时间，存在两种竞争风险（复发与死亡）。 - 怎么把本文方法用上去：将复发时间作为 \(T_1\)，死亡时间作为 \(T_2\)，删失时间作为 \(C\)，应用 Bernstein sieve 估计 \(\hat{S}_{1,m}, \hat{S}_{2,m}\) 与 \(\hat{\bar{F}}_m\)，选取 \(m\) 通过交叉验证或规则 \(m \propto n^{1/3}\)（假设 \(r=1\)）。 - 得到什么结果：估计出的边际生存函数与联合生存概率曲线比直接 KM 估计更光滑，且在尾部更稳定（方差更小），但未报告置信区间或与半参数方法的效率对比。 - 这个例子想说明什么：验证 Bernstein sieve 估计在有限样本下的光滑性与稳定性，展示相对 KM 估计的直观优势，但未展示相对其他非参数方法（如 B-spline）或半参数方法的优势。

🔎 结论是否比证明窄：本文在定理中严格证明了“在 \(C\) 与 \((T_1, T_2)\) 独立、\(S\) 有 \(r\) 阶导数、\(m/n \to 0\)”条件下的渐近正态性与收敛速度。但在 Abstract 与 Introduction 中，泛泛 claim 该方法适用于“dependent competing risks using the Extended Marshall-Olkin model”，未明确强调“独立删失”这一强假设的局限性——实际上，EMO 模型刻画的是 \(T_1, T_2\) 间的依赖，而删失 \(C\) 仍被假设为独立，这在依赖删失文献中是一个窄条件，与“dependent censoring”的标题存在张力。

四、开放问题（点到为止，扎根具体语句）¶

依赖删失下的识别与估计：本文假设 \(C\) 与 \((T_1, T_2)\) 独立（设定部分明确陈述），但标题与 framing 强调“dependent censoring”。若放宽为 \(C\) 与 \(T_1, T_2\) 存在相依（如通过 copula 刻画），Bernstein sieve 估计的渐近正态性是否仍成立？需重新推导影响函数与方差结构。扎根点：Abstract 中“subject to censoring”与 Section 2 中独立删失假设的矛盾。
Minimax 最优性与效率界：本文收敛速度为 \(n^{-r/(2r+1)}\)，但未讨论依赖竞争风险下的 semiparametric efficiency bound 或 minimax lower bound。Bernstein sieve 是否达到 minimax 最优率？若未达到，HOIF 路线能否在光滑性假设下改进收敛速度？扎根点：结论部分未提及效率界或 minimax 性质。
Sieve 参数 \(m\) 的自适应选择：本文理论要求 \(m \propto n^{1/(2r+1)}\)，但实际数据中 \(r\) 未知。如何构造数据驱动的 \(m\) 选择方法（如 Lepski 方法或交叉验证），并证明其自适应收敛速度？扎根点：正则条件中 \(m/n \to 0\) 的理论要求与模拟中 \(m\) 的固定选择。
奇异质量的处理：EMO 模型在 \(T_1=T_2\) 处有奇异质量，本文的 Bernstein sieve 逼近的是连续部分，奇异质量的估计依赖边际估计与 copula 的分解。奇异点的渐近性质是否与连续点不同？扎根点：定理 4.2 的陈述中未区分奇异点与连续点的渐近方差。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Extended generalized Marshall–Olkin model for dependent censoring¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论