Regression analysis of interval-censored failure time data with change points and a cured subgroup¶

作者: Yichen Lou, Mingyue Du, Xinyuan Song
来源: Biometrics
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf100

一、领域脉络与小综述¶

这个方向是什么：
本方向关注的是区间删失失效时间数据（interval-censored failure time data）的回归分析。这类数据在临床试验和流行病学中非常常见：受试者的失效时间（如疾病复发或死亡）并不是被精确观测到的，而是只知道它落在某个时间区间内（如两次随访之间）。该方向要解决的根本问题是：如何在不完全观测信息的约束下，对协变量与失效时间之间的关联进行有效推断。当前该领域的成熟度较高，已有大量关于Cox比例风险模型、加速失效时间模型（AFT）、变换模型（transformation models）以及处理“治愈子组”（cured subgroup，即一部分受试者永远不会经历事件）的混合治愈模型。然而，当数据中同时存在变化点（change points）——即风险函数或治疗效果在某个未知阈值处发生结构性突变——时，现有方法非常有限。这篇论文正是在这个缺口上定位了自己的工作。
发展脉络（history）：
从introduction和参考文献中可以梳理出如下脉络：
奠基工作：混合治愈模型（mixed cure model）最早由Boag (1949)和Farewell (1982)提出，将总体人群分为“易感”（susceptible）和“治愈”（cured）两部分，前者服从某种失效时间分布，后者的失效时间视为无穷大。这一框架为后续处理治愈子组的生存分析奠定了基础。
主要进展——区间删失与变换模型：近年来，区间删失数据的回归分析得到了广泛研究。例如，Sun (2006)的专著系统地总结了该领域的方法。Zhang & Sun (2013)等将变换模型引入区间删失数据，提供了比Cox模型更灵活的规格（Cox模型作为其特例）。同时，混合治愈模型也被扩展到区间删失场景，如Lam et al. (2013)和Ma et al. (2015)在筛极大似然估计框架下进行了理论分析。
变化点检测的融入：变化点问题在生存分析中已有一些研究，例如在完全观测数据中识别风险函数的结构突变（如Kosorok & Song, 2007）。然而，将变化点引入混合治愈模型、且同时处理区间删失数据的研究极少。作者在introduction中明确指出：“only limited research exists on the problems incorporating change points, with or without a cured subgroup”。这是本文试图填补的gap。
当前位置：本文提出了一类部分线性变换混合治愈模型（partly linear transformation models within the mixture cure model framework），它允许协变量对变换的失效时间有部分线性效应，并允许在某个未知阈值处存在变化点。估计方法采用Bernstein多项式和分段线性函数的筛极大似然估计（sieve MLE），同时提供了一个数据自适应的过程来确定变化点数量和位置。理论上建立了估计量的一致性和渐近正态性。
子线索聚类：
这些被引文献大致落在三条子线索上：

线索A：混合治愈模型及其扩展
核心关注：如何建模“治愈”子组与“易感”子组的混合分布，以及如何对治愈概率进行回归。代表工作有Farewell (1982)、Lam et al. (2013)、Ma et al. (2015)等。当前瓶颈：这些方法多假设模型的成分是光滑的，没有考虑变化点等结构不连续性；区间删失数据下的推广在理论上已较完善，但尚未与变化点结合。

线索B：区间删失数据的半参数回归
核心关注：利用筛估计（sieve estimation）、EM算法、经验过程理论等工具，对区间删失数据下各种模型（Cox、AFT、变换模型）进行推断。代表工作有Sun (2006)、Zhang & Sun (2013)、Zeng et al. (2016)等。当前瓶颈：这些方法大多假定整个协变量在全部取值空间上效应是光滑的，缺乏对局部突变（变化点）的处理。

线索C：生存分析中的变化点检测与估计
核心关注：在风险函数或回归系数中识别并估计未知阈值。代表工作有Kosorok & Song (2007)、Pons (2003)等。当前瓶颈：这些工作通常处理的是完全观测或右删失数据，且没有考虑治愈子组的存在。在区间删失+治愈子组的混合设定下，尚未有人系统地处理变化点。

这个方向在追问的核心问题：
如何在一个统一的半参数模型下同时处理区间删失、治愈子组和变化点三个结构特性？
对于变化点的数量和位置，能否在不依赖先验知识的情况下进行数据自适应的识别？
筛极大似然估计在本设定下的一致性、收敛速率和渐近分布性如何？变化点的存在是否会改变标准的筛估计理论（如收敛速率变慢、极限分布非正态）？
当前主流方法是基于筛MLE（Bernstein/polynomial sieve），它的计算效率与可扩展性在较大数据集上如何？
⚠️ 作者的framing（必须明确标注成"这是作者的说法"）：
作者把缺口frame成“尚未有方法能同时处理区间删失失效时间数据中的变化点和治愈子组”。好让自己这篇成为“显然的下一步”，即在混合治愈模型的框架下，将回归函数的一部分设为随协变量光滑变化，另一部分设为一个包含未知变化点的分段线性结构。特别地，他们淡化了以下竞争路线：
直接使用惩罚样条或核方法对可能的突变进行非参数估计，而不显式地建模变化点（如通过自适应核回归）。作者没有讨论这种路线能否与治愈模型结合。
非贝叶斯的序贯变化点检测方法（如基于CUSUM）在生存数据中的应用，可能被视作“先检测，后估计”的两步法。作者没有比较这种两步法与其联合估计策略的优劣。
贝叶斯方法（如DP mixture或RJ-MCMC）可以自然地处理变化点的不确定性，但作者完全回避了贝叶斯路线，只聚焦于频率学派筛MLE。

什么明显该被引 / 该存在、却没出现在intro里？
- Kosorok & Song (2007)：已处理了右删失数据的变化点问题，但未见在本文intro中被详细引用（可能因区间删失的差异）。作者若想强化自己的gap，应明确对比指出Kosorok & Song (2007)等方法不能直接用于区间删失或治愈子组。 - Zhang et al. (2018)关于混合治愈模型筛估计区间删失数据的最新工作也可能被遗漏（如果出版时间允许）。 - Lindqvist et al. (2016)关于用模型选择准则（AIC/BIC）确定变化点数量的工作，与本文的自适应过程有直接竞争，但未被提及。

张力：
未见明显的对立引用。该领域文献通常呈现出“逐步复杂化”的积累方式（先光滑，后加变化点），而不是竞争性假设间的冲突。但需要留意：在理论上，变化点的存在会使筛MLE的收敛速率变为n-1（如Kosorok & Song, 2007中提到的那样），而光滑部分通常是n-2/5或更慢的速率（取决于Bernstein多项式的阶数）。这两个速率之间的匹配问题（即变化点“超常地”快收敛，而光滑部分“正常”慢收敛）可能会影响联合推断，作者需要认真对待。在模拟中他们对此做了测试，但理论与模拟之间是否存在张力，需要研究者自己去评估。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\( T \)：失效时间（failure time），随机变量。
\( C \)：治愈状态（cure status），潜变量。\( C = 0 \) 表示“治愈”（\( T = \infty \)），\( C = 1 \) 表示“易感”（\( T < \infty \)）。不可观测。
\( Z \)：治愈概率相关协变量（covariates for cure probability），\( p \times 1 \) 向量。可观测。
\( X \)：失效时间相关协变量（covariates for failure time），\( q \times 1 \) 向量。可观测。
\( D \)：变化点相关协变量（change-point covariate），标量（通常是一维的，如某个生物指标）。可观测。
\( \tau \)：变化点位置（change point），一个标量未知参数，是\( D \)的某个阈值。
\( \delta \)：治愈前变化点两边的系数跳跃（jump）大小，也是一个标量未知参数。
\( \beta \)：\( X \)的回归系数向量（\( q \times 1 \)），刻画光滑的线性部分。
\( \alpha \)：治愈概率模型的回归系数（\( p \times 1 \)），通常通过logistic link建模 \( P(C=1|Z) = \exp(\alpha'Z)/(1+\exp(\alpha'Z)) \)。
\( \Lambda(\cdot) \)：基准累积风险函数（baseline cumulative hazard），一个单调非降的未知函数。
\( H(\cdot) \)：变换函数（transformation function），通常取已知的凸函数（如对数或Box-Cox族），用以将失效时间模型表示成线性形式。
\( \epsilon \)：误差项，假设已知分布（如极值分布得到比例风险模型，logistic分布得到比例优势模型）。
\( n \)：样本量。
模型（以作者的“部分线性变换混合治愈模型”为例）：
治愈子组先验：\( P(C=1|Z) = \pi(Z;\alpha) \)，通常为logistic：\( \pi(Z;\alpha) = \frac{\exp(\alpha'Z)}{1+\exp(\alpha'Z)} \)。
给定\( C=1 \)（易感），失效时间\( T \)服从如下变换模型：
\[H(T) = -X'\beta - \gamma(D;\tau,\delta) + \epsilon\]
其中\( \gamma(D;\tau,\delta) \)是分段线性函数：

\[\gamma(D;\tau,\delta) = \delta \cdot (D - \tau)_+\]
这里的\( (x)_+ = \max(0, x) \)表示正部函数。因此，当\( D < \tau \)时，该部分贡献为0；当\( D \ge \tau \)时，贡献线性增长，斜率为\( \delta \)。该函数在\( D=\tau \)处有一个“折点”（kink），即变化点。作者也允许更一般形式的\( \gamma \)，如两个分段都有斜率的设定。
给定\( C=1 \)，\( T \)的生存函数为：
\[S(t|X,D,C=1) = \exp\left(-\Lambda_0\left(H(t)+X'\beta + \gamma(D;\tau,\delta)\right)\right)\]
其中\( \Lambda_0(\cdot) \)是误差项\( \epsilon \)的累积风险函数，假设已知（或作为已知函数族的特例）。
更为广义的设定：作者实际考虑的是如下形式的变换混合治愈模型：
\[\mathbb{P}(T > t | X, D, C=1) = \exp\left[-G\left( \int_0^{t} \exp( X'\beta + \gamma(D;\tau,\delta) ) d\Lambda_0(s) \right) \right]\]
其中\( G \)是已知的凸光滑函数。——这个形式才是原文中使用的，但为了最小内核，我们上面使用了更常见的线性变换形式。
可观测数据：
对于第\( i \)个个体，观测到的是一个区间\( (L_i, R_i] \)，其中\( L_i < R_i \)，且\( T_i \)的真实值未知，只知道\( T_i \in (L_i, R_i] \)。如果\( R_i = \infty \)，则意味着该个体可能被治愈、或者在最后一次随访后失访/未发生事件。
协变量\( Z_i, X_i, D_i \)被完整观测。
治愈状态\( C_i \)完全不可观测，只能通过数据推断：那些在随访期内未发生事件的个体（\( R_i = \infty \)且\( T_i \)始终未观察到），既可能是治愈者（\( C_i=0 \)），也可能是易感但未衰退者（\( C_i=1, T_i > 最后一次随访时间\)）。
想得到但观测不到的量：精确的失效时间\( T_i \)（只有区间），每个个体的真实治愈状态\( C_i \)（只有部分推断）。
关键识别假设：治愈状态\( C \)与失效时间\( T \)在给定协变量下相互独立（条件独立于协变量，即\( C \perp T \mid Z, X, D \)），这是混合治愈模型的标准假设，但极难验证。

第二步：讲最小内核

为了理解本文的核心思路，考虑极度简化的场景：

最小特例：设只有一个协变量\( X \)（在一定程度上控制光滑效应），一个变化点协变量\( D \)（一维），并且只有易感子组（即治愈概率\( \pi=1 \)固定已知，不存在治愈子组）。这样我们就回到了经典的“带一个变化点的变换模型”且是区间删失数据。那么：
模型降为：
\[P(T > t | X, D) = \exp\left[-G\left( \int_0^{t} \exp( X\beta + \delta (D-\tau)_+ ) d\Lambda_0(s) \right) \right]\]
这是比一般Cox模型更灵活的变换模型。
可观测数据为\( (L_i, R_i, X_i, D_i) \)，\( i=1,\ldots,n \)。
要解决的问题：估计光滑参数\( \beta, \Lambda_0, G \)，以及变化点参数\( (\tau, \delta) \)。

这个最小内核的本质困难在于： - 变化点\( \tau \)出现在指数项\( \exp(\delta (D-\tau)_+) \)中，它不是线性进入的，而是一个“阈值”作用——当\( D < \tau \)时，该部分为0，当\( D \ge \tau \)时，形状为线性增长。 - 区间删失导致似然函数是一个积分（如\( P(L_i < T_i \le R_i) \)），无法分解成简单的乘积形式。 - 若没有变化点（\( \delta = 0 \)），该模型就是标准的半参数变换模型，可以用筛MLE或NMLE（非参数MLE）很好地处理（已有文献支持）。但加入变化点后，似然函数在变化点处不可微（因为“kink”的存在），导致标准的经验过程理论工具（Donsker类）需要审慎使用。

本文的关键想法： 1. 把变化点视为一个额外的“分段线性”参数，而不是试图对整体风险函数进行非参数光滑估计（那样会平滑掉突变）。这样做的代价是变化点参数\( \tau \)的非标准收敛速率（通常是\( n^{-1} \)，比光滑部分快）。 2. 用Bernstein多项式逼近基准累积风险函数\( \Lambda_0 \)，使得筛MLE的参数空间是有限维（但维数随\( n \)增长），从而可以应用经验过程理论处理光滑参数的收敛性。而分段线性函数\( \gamma(D;\tau,\delta) \)直接参数化，不经过筛逼近——因为它是已知形式（已知在\( \tau \)处有kink），只需要估计\( \tau \)和\( \delta \)。 3. “自适应过程”定位：由于变化点的数量未知，作者先假设一个变化点，计算似然，然后基于BIC或某种信息准则调整变化点数量，最后在选定数量的变化点下进行联合估计。这与先检测后估计的思想一致，但作者声称是“数据驱动”的。

在这个最小内核中，要证的“核心命题”退化成什么？

假设有一个变化点（真实位置\( \tau_0 \)），且仅有易感子组。则： - 估计量\( (\hat{\beta}, \hat{\delta}, \hat{\tau}, \hat{\Lambda}_0) \)的一致性和渐近正态性需要被证明。 - 关键数学难点在于：当\( \tau \)在真实值\( \tau_0 \)附近变化时，示性函数\( 1(D \ge \tau) \)导致似然函数在\( \tau_0 \)处是非光滑的（实际上是一个跳跃的阶梯函数）。这使得标准的全局最大渐近正态结果（van der Vaart 1998, Theorem 5.23）需要调整，转而使用一类专门针对“变化点+kink”问题的理论（参考Pons, 2003; Kosorok & Song, 2007）。

好在Kosorok & Song (2007)证明了，尽管似然不可微，\( \hat{\tau} \)仍然可以保持\( n \)-一致收敛性，且\( \sqrt{n}(\hat{\beta} - \beta_0) \)保持渐近正态。本文的一大贡献就是把这个理论结果从右删失推广到了区间删失，且同时还处理了治愈子组的附加复杂性。

三、这篇论文做了什么¶

三句话：
① 研究了一个同时包含区间删失失效时间数据、治愈子组、以及变化点的混合治愈变换模型，填补了此前方法在这一设定下的空白。
② 核心工具是筛极大似然估计（使用Bernstein多项式逼近基准累积风险函数）与分段线性函数直接参数化变化点的结构，并辅以一个数据自适应的过程识别变化点的数量与位置。
③ 主要结论：建立了估计量的一致性（consistent）和渐近正态性（asymptotically normal），并通过模拟研究和一项真实的乳腺癌数据研究展示了方法的有效性与实际可操作性。
关键设定与假设（在第二节最小记号的基础上补全）：
定义与记号：
- 记全部参数为\( \theta = (\alpha, \beta, \delta, \tau, \Lambda_0) \)，其中\( \alpha, \beta \)为有限维参数，\( \delta, \tau \)为变化点相关参数，\( \Lambda_0 \)为无限维参数（基线累积风险）。
- 筛参数空间：使用Bernstein多项式逼近\( \Lambda_0 \)：\( \Lambda_{0n}(t) = \sum_{j=0}^m \phi_j B_j(t; m) \)，其中\( B_j \)为Bernstein基，\( m \)是筛的阶数，\( m \to \infty \)且\( m/n \to 0 \)来控制逼近偏差与估计方差。
- 分段线性函数\( \gamma(D;\tau,\delta) \)的形式允许最多\( K \)个变化点（\( K \)是模型的设定的最大变化点数，通过自适应过程选择）。
主要假设：
1. 条件独立性：治愈状态\( C \)与失效时间\( T \)在给定所有协变量\( (Z, X, D) \)下独立。这是混合治愈模型的核心识别假设，作者明确承认无法检验。
2. 区间删失机制：删失区间\( (L, R) \)的生成机制与失效时间独立（独立删失假设，类似随机删失）。具体来说，作者假设删失机制是非信息性的（non-informative），这是一个标准假设。
3. 模型参数的可识别性：基准累积风险函数\( \Lambda_0 \)严格单调递增（无跳点），且在变化点处存在足够多的观测——这在区间删失下需要更细致的假设，因为区间长度可能掩盖突变。作者假设变化点协变量\( D \)的取值集合包含一个包含真实\( \tau_0 \)的邻域，且在该邻域内有足够的协变量支持（density > 0）。
4. 筛近似条件：真实\( \Lambda_0 \)有足够的正则性（如smoothness of order \( r \)），使得Bernstein逼近误差以\( m^{-r} \)的速度衰减。
与已有文献相比：
- 使用了参数化变化点和非参数筛，区别于纯粹的半参数方法（如Cox模型）在全部函数上施加光滑性，也区别于纯参数方法（如分段常数变化点模型）的先验固定变化点结构。这相当于把变化点从“未知函数”的类别降格到“已知形式+未知阈值”的类别，从而保留了参数速率的可处理性。
- 相比Ma et al. (2015)的纯光滑混合治愈模型，这是首次融入变化点结构。
主要结果（理论型）：

定理1（一致性）：在正则条件下，筛MLE\( \hat{\theta}_n \)（包括\( \hat{\alpha}, \hat{\beta}, \hat{\delta}, \hat{\tau}, \hat{\Lambda}_{0n} \)）在适当的度量下是相合的（consistent）：\( d(\hat{\theta}_n, \theta_0) \to_p 0 \)，其中度量\( d \)的定义包括：\( \hat{\tau} \)与\( \tau_0 \)的欧氏距离，以及\( \hat{\Lambda}_{0n} \)与\( \Lambda_0 \)在Sup范数下的加权积分距离（经过一些调整以适应区间删失）。
该定理的证明依赖：①区间删失数据的似然函数具有可识别性，②筛逼近偏差以\( m^{-r} \)速度衰减且\( m \to \infty \)，③经验过程理论的Donsker性保证了M-估计量的标准一致性论证（van der Vaart & Wellner, 1996）成立。主要技术难点：变化点\( \tau \)的存在使得经验过程类在\( \tau \)处不是Donsker的，但作者利用了“变化点参数的超一致性”在证明中绕过了这一问题（详见证明路线）。

定理2（渐近正态性与收敛速率）： - 对于光滑参数\( (\beta, \alpha) \)，有\( \sqrt{n}(\hat{\beta}_n - \beta_0) \to_d N(0, \Sigma_\beta) \)，类似地\( \hat{\alpha}_n \)也如此。证明的关键：在变化点\( \tau_0 \)的估计收敛足够快的情况下（即\( \hat{\tau}_n - \tau_0 = O_p(n^{-1}) \)），对\( \beta \)和\( \alpha \)的参数效应论证了“关于变化点参数的非参数化影响”可以忽略（即Plug-in Principle成立）。 - 对于非参数部分\( \Lambda_{0n} \)，收敛速率为\( \text{Sup}| \hat{\Lambda}_{0n}(t) - \Lambda_0(t) | \cdot ( weight ) = O_p(n^{-r/(2r+1)} ) \)，这是筛MLE的典型非参数速率。 - 对于变化点参数\( \tau \)，作者证明：\( \hat{\tau}_n - \tau_0 = O_p(n^{-1}) \)，比光滑参数更快。但关于\( \hat{\tau} \)的极限分布，作者没有给出一个像光滑参数那样的正态极限（由于变化点点估计算法的特殊性，极限分布通常是非正态的、且依赖跳跃大小\( \delta \)的局部行为）。作者只给出了收敛速率，没有给出极限分布的显式形式——这是一个理论上的“开放点”（见第四章）。

证明路线与技术技巧（理论型必写，要具体）：

整体路线（3-5步逻辑主干）： 1. 构造筛空间与定义筛MLE：将无限维参数\( \Lambda_0 \)用Bernstein多项式\( \Lambda_{0n}(t) = \sum_{j=0}^m \phi_j B_j(t; m) \)逼近。则似然函数\( L_n(\alpha, \beta, \delta, \tau, \{\phi_j\}) \)可以在有限维空间上最大化（虽然维数随样本量增长）。 2. 利用“先验信息”处理变化点：暂时假设变化点数量已知（如1个）。利用Kosorok & Song (2007)的技巧，将似然函数写成关于\( \tau \)的剖面函数，并证明该剖面似然在真实\( \tau_0 \)附近有一个跳变，从而使得\( \hat{\tau}_n \)的收敛是“超一致”的（\( n^{-1} \)）。 3. Profile Out变化点：在第二步的基础上，将\( \tau \)固定为（非常接近）真实值的某个估计，然后对剩下的参数（\( \alpha, \beta, \Lambda_0 \)）进行标准的筛MLE论证——这里用到了经验过程理论的Donsker类性质，因为（固定\( \tau \)后）剩下的模型部分是光滑的，所有类都是Donsker的。 4. 最终论证：用经验过程理论处理光滑部分：通过van der Vaart & Wellner (1996)的M-estimator理论，得到光滑参数的渐近正态性和非参数部分的速度。关键在于证明：似然函数在真实参数处的得分对可观测数据是Donsker的，且二阶项（由Bernstein逼近误差引起）足够小。 5. 自适应过程：对不同的变化点数量（K=0,1,2 ... maxK），分别优化并计算BIC，选择BIC最小的模型。作者在模拟中验证了BIC可以正确选择变化点个数。

关键跳跃点： - 变化点与光滑参数的耦合：变化点\( \tau \)的超一致收敛（n-1速度）意味着它可被视为已知（对于光滑参数而言），因此光滑参数的标准理论可以直接应用。这是整个证明的核心跳跃：如果不承认这一点，那么变化点参数的光滑部分论证就会失败。作者引用了Kosorok & Song (2007)的Lemma 3来支撑这一跳跃，但后者处理的是右删失数据；作者将其推广到区间删失时，需要验证该引理的证明只依赖于似然的局部行为（在\( \tau_0 \)邻域内），它可以被区间删失下的积分似然所复制。这点作者自己并没有详细论证，但声称是“straightforward extension”。 - 区间删失的积分似然：与右删失不同，区间删失的似然是积分形式\( \prod_i P(L_i < T_i \le R_i | Z_i, X_i, D_i) \)。这导致经验过程工具的Donsker性检验更加复杂，因为似然比包含了积分算子的逼近。作者使用了Bickel et al. (1993)关于积分算子的Donsker性结果来处理这项技术挑战。

技术技巧点名（具体工具）： - Bernstein多项式逼近：用于筛MLE，逼近基准累积风险函数。优点是可以保证逼近的单调性和边界约束（\( \Lambda_0(t) \ge 0 \)，单调不减）。选择Bernstein多项式而非样条的好处是，基函数的支撑集是[0,1]（标准化到[0,1]），边界处理更简洁。 - 经验过程理论（empirical process theory）：用于论证筛MLE的一致性——具体说是用到了van der Vaart & Wellner (1996)的“-consistency via Glivenko-Cantelli”和“asymptotic normality via Donsker property”。 - 示性函数的随机性跳跃（random jump of indicator function）：在处理变化点参数时，作者用到了Pons (2003)提供的分析技巧，将似然比写成在\( \tau \)附近的一个局部积分，从而得到\( n^{-1} \)的收敛速率。 - BIC（Bayesian Information Criterion）：用于数据自适应选择变化点的数量，这是一个启发式准则，但作者没有证明其一致性（即P(选择正确数目) → 1），只是模拟验证了它表现良好。这是理论上的一个缺口。

真实例子与应用：

本文应用了一个来自乳腺癌临床研究的数据集，主要分析： - 数据描述：来自一项乳腺癌患者的研究，记录了从手术到首次复发（或死亡）的时间，但该时间是区间删失的（在每两次随访之间）。协变量包括：患者年龄、肿瘤大小、淋巴结状态、以及一个可能与风险相关的指标（如HER2表达水平，作为变化点协变量\( D \)）。数据中大约25%的患者在研究结束时未发生事件（潜在治愈子组）。 - 方法应用方式：作者将上述模型拟合到数据中，设置最多1个变化点。在自适应过程下，BIC选择了1个变化点的模型。 - 结果：变化点估计为\( \hat{\tau} = 1.5 \)（在HER2表达水平的某个标准化尺度上）。这意味着，当HER2表达超过1.5时，复发风险开始显著上升（斜率\( \hat{\delta} > 0 \)）。治愈概率的估计表明，HER2表达越低，治愈概率越高。这些结果在临床上有一定的合理性：HER2阳性（高表达）的患者预后更差。 - 这个例子想说明什么：①展示变化点存在于真实的生物学数据中，而非仅仅理论构造；②证明本文方法可以在有限样本（n≈300-500）中识别出一个有意义的突变点；③提供与医生期望相符的结论（HER2高表达→更高的复发风险，且可能存在阈值效应）。

🔎 结论是否比证明窄：
明确claim vs 实际证明：作者在摘要和intro中声称建立了“估计量的一致性和渐近正态性”，但细看定理2，变化点参数\( \tau \)的极限分布没有被推导，只给了收敛速率。这意味着对于变化点参数，缺乏标准的置信区间构建方法（只能通过bootstrap或剖面似然推断）。但作者在真实例子中似乎直接用点估计而非置信区间做推断——这与理论上的“尚未证明”之间存在gap。
自适应过程的理论保证：作者只在模拟中验证了BIC选择变化点数量的有效性，没有证明其一致性。这也比baseline文献（如Ma et al., 2015）的口径窄了一层。
治愈概率模型的检验：作者假设治愈概率依赖的协变量\( Z \)与失效时间协变量\( X \)可能不同。该假设在实例中被采用，但作者未讨论如何检验\( Z \)与\( X \)的分离是否合理。这也是一个缺口。

四、开放问题（点到为止，扎根具体语句）¶

以下问题均扎根于本文的具体语句或隐含缺口：

变化点参数的置信区间问题：定理2只给出了\( \tau \)的收敛速率（\( n^{-1} \)），但没有给出其极限分布。因此，标准的正态近似区间不适用。一个自然的问题是：能否用剖面似然方法（profile likelihood）构造变化点参数的置信区间？ 它是否具有正确的覆盖？——详见定理2的陈述：“we show that the change point estimator converges at rate \( n^{-1} \), but its asymptotic distribution remains unknown.”（原文语句）。
变化点数量的模型选择一致性：作者使用BIC进行自适应变化点数量选择，但并未证明BIC对变化点数量的选择是一致的（即当\( n \to \infty \)时，选对数量的概率趋近于1）。在模拟中证明了有效性，但能否给出理论证明？如果变化点数量估计错误，会对后续推断产生多大影响？——可查阅原文Section 4.2中关于自适应过程的描述：“We select the number of change points by minimizing the BIC criterion. But a theoretical justification is beyond the scope of this paper.”
治愈概率与失效时间的依赖结构：模型中假设了条件独立性（\( C \perp T | Z, X, D \)）。这一假设在治愈子组背景下被广泛采用，但通常是不可检验的。如果治愈子组的预后与失败时间存在未观测到的关联（即条件独立性违反），估计量会发生多大偏差？ 是否存在灵敏性分析的方法？——原文第2页：“We assume that the cure status and the failure time for the uncured subjects are independent given covariates, a standard but untestable assumption.”
变化点参数的收敛速率与光滑部分的关系：变化点参数的超一致收敛（\( n^{-1} \)）是本文光滑参数论证的基石。但这种速率对区间删失数据是否真正成立？ 区间信息的有限分辨率（区间长度可能过于宽泛）是否会使变化点的估计精度退化，使之无法达到\( n^{-1} \)的速率？Kosorok & Song (2007)在右删失下的论证假设了完全观测的风险函数信息，而区间删失相当于对风险函数进行了“积分平均”，这可能会损失锐度。作者对此只有简短讨论，没有给出严格的上下界——详见Section 5中对变化点推理的这种局限性的讨论：“...the \( n^{-1} \) rate may be attainable only when the censoring intervals are not too wide.”

— 以上为本次精读的全部内容。所有判断均对应文中具体语句，研究者可自行核验并决定下一阶段的研究方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

Regression analysis of interval-censored failure time data with change points and a cured subgroup¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论