Covariate hypothesis tests for the cure rate in mixture cure models based on martingale difference correlation¶

作者: Blanca E Monroy-Castillo, María Amalia Jácome, Ricardo Cao, Ingrid Van Keilegom
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：混合治愈模型是生存分析的一个子分支，处理的是“有一部分个体永远不会发生目标事件（如癌症复发）”的数据结构。根本的统计问题是：在存在右删失的条件下，如何将总体生存函数拆解成“治愈概率（incidence）”与“未治愈者的生存分布（latency）”两部分，并对协变量如何影响治愈概率进行估计与假设检验。当前该方向的成熟度表现为：参数与半参数模型的估计理论已相对完备，非参数估计的渐近理论近年刚落地（i.i.d. 表示、最优带宽），但针对治愈概率的非参数协变量效应检验仍几乎是空白。

发展脉络： - 奠基工作：Kuk & Chen (1992)、Peng & Taylor (2010) 等确立了混合治愈模型的结构，将 \(S(t|z)\) 写成 \(1-p(z) + p(z)S_u(t|z)\)，并在参数/半参数框架下给出 MLE 估计。 - 主要进展（估计理论）：Patilea & Van Keilegom (2017) 提出基于可观测分布反演的半参数一般框架，证明了模型可识别性；López-Cheda, Cao, Jácome 等人 (2016, 2024) 发展了完全非参数的 Beran 估计量，给出了治愈概率非参数估计的 i.i.d. 表示与渐近正态性，补上了非参数估计的理论地基。 - 主要进展（检验理论）：Müller & Van Keilegom (2019) 首次提出针对治愈概率的 goodness-of-fit 检验，检验 \(p(z)\) 是否满足某个特定参数模型（如 Logistic），其检验统计量灵感来自 Härdle & Mammen (1993) 的回归函数拟合优度检验，证明了渐近正态性并用 Bootstrap 实施零分布逼近。 - 当前 frontier 与本文位置：Müller & Van Keilegom (2019) 解决的是“参数模型对不对”的 \(H_0: p(z) = p_\theta(z)\) 检验，但更根本的“协变量到底有没有影响”的 \(H_0: p(z) = p_0\)（常数）非参数检验，文献中几乎没有现成方法。本文正是填补这个缺口：用鞅差相关构造非参数检验，直接检验 \(X\) 与治愈指示 \(Y\) 的条件独立性。

子线索聚类： 1. 模型结构与估计线索：Patilea & Van Keilegom (2017), López-Cheda et al. (2024), Jácome et al. (2016)。这一簇在做“如何不依赖参数假设把 \(p(z)\) 和 \(S_u(t|z)\) 估出来”，核心工具是 Beran 估计与反演识别，最新进展是给出了 i.i.d. 表示与最优带宽。 2. 协变量效应检验线索：Müller & Van Keilegom (2019), Conlon et al. (2013)。这一簇在做“如何检验协变量对治愈概率的影响”，前者是参数拟合优度检验，后者在多状态 Markov 模型框架下嵌入治愈分数，但都未触及完全非参数的“有无效应”检验。 3. 应用与数据线索：Mitry et al. (2005), Miller et al. (2016), Geerdens et al. (2016)。这一簇提供医学背景（结直肠癌、类风湿关节炎生存数据），强调长程幸存者比例上升使得治愈模型有实际需求。

这个方向在追问的核心问题： 1. 在右删失下，治愈概率 \(p(z)\) 的非参数估计能否达到最优收敛速率？（已有 i.i.d. 表示，基本解决） 2. 协变量 \(X\) 对治愈概率 \(p(z)\) 是否有影响，能否在不假设 \(p(z)\) 函数形式的前提下做检验？（本文的核心问题，此前仅有参数 goodness-of-fit 检验） 3. 多个协变量时，能否在控制其他变量条件下检验特定协变量的效应？（本文用 partial MDC 尝试回答）

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“检验协变量对治愈率效应的方法在文献中非常有限”，并强调现有方法多依赖参数/半参数假设，从而让基于 MDC 的非参数检验成为“显然的下一步”。 - 被淡化的竞争路线：作者未提及基于 Kaplan-Meier 尾部稳定性的粗略检验（如观察尾部生存率是否随协变量变化），也未讨论半参数 score 检验（在 Logistic incidence 下检验系数是否为 0）——后者虽然依赖参数假设，但在实际中常被使用，本文未与之做模拟对比。 - 缺失的引用：引入 MDC 作为核心工具，但未引用 MDC 的源头工作（Shao & Zhang 2014, Székely et al. 2007/2014 的距离相关/鞅差相关系列），也未讨论生存分析中其他条件独立性检验（如基于 conditional distance correlation 的删失数据扩展）。这是研究者值得去查的缺口：MDC 在右删失下的理论性质是否已有现成结论？

张力：未见明显对立引用。非参数估计线索与检验线索目前是互补关系：前者提供 i.i.d. 表示，后者基于此构造检验统计量。但存在一个潜在张力：Müller & Van Keilegom (2019) 的 goodness-of-fit 检验依赖非参数估计与参数估计的 L2 距离，而本文的 MDC 检验依赖条件期望的鞅差分解，两者的零分布逼近策略不同（前者 Bootstrap，本文置换/卡方），在有限样本下谁更稳健尚无定论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(T\)：潜在生存时间（随机变量，对治愈个体 \(T=\infty\)，实际观测不到 \(\infty\)）。
\(C\)：潜在删失时间（随机变量，假定与 \(T\) 独立或条件独立）。
\(Y\)：可观测时间，\(Y = \min(T, C)\)。
\(\Delta\)：删失指示，\(\Delta = I(T \leq C)\)（1 表示观察到事件，0 表示删失）。
\(Z\)：协变量向量（维度 \(d\)，可观测）。
\(X\)：要检验的特定协变量（\(Z\) 的子集或全部，可观测）。
\(W\)：需要控制的其他协变量（\(Z = (X, W)\)，可观测）。
\(B\)：潜在治愈指示（不可观测！\(B=1\) 表示未治愈/易感，\(B=0\) 表示治愈/永远不发生事件）。
\(p(z)\)：incidence（要估/要检验的参数），\(p(z) = P(B=1|Z=z)\)，即给定协变量下未治愈的概率。
\(S_u(t|z)\)：latency（未治愈者的条件生存函数），\(S_u(t|z) = P(T > t | B=1, Z=z)\)。
\(S(t|z)\)：总体条件生存函数，\(S(t|z) = P(T > t | Z=z) = 1 - p(z) + p(z)S_u(t|z)\)。
\(G(c|z)\)：删失分布，\(G(c|z) = P(C > c | Z=z)\)。
\(n\)：样本量。
可观测数据：\((Y_i, \Delta_i, Z_i)\)，\(i=1,...,n\)。不可观测：\(B_i\)（谁治愈了永远看不到，只能通过尾部生存概率推断）。

模型：混合治愈模型。数据生成机制为：先由 \(Z\) 生成 \(B \sim \text{Bernoulli}(p(Z))\)；若 \(B=0\)，则 \(T=\infty\)；若 \(B=1\)，则 \(T\) 由 \(S_u(t|Z)\) 生成；同时独立生成 \(C\) 由 \(G(c|Z)\)；最终观测到 \(Y=\min(T,C)\), \(\Delta=I(T\leq C)\)。

第二步：最小内核

剥掉所有一般性（多维协变量、partial MDC、卡方逼近），最小内核是：一维协变量 \(X\) 下，检验 \(H_0: p(x) = p_0\)（常数，即 \(X\) 对治愈概率无效应）的非参数检验统计量如何构造，其零分布如何逼近。

在这个最简特例下： - 要检验的是 \(X\) 与 \(B\) 是否独立（\(H_0: P(B=1|X) = P(B=1)\)）。 - 但 \(B\) 不可观测！只能用可观测的 \((Y, \Delta)\) 去构造 \(B\) 的“代理”。 - 核心思路：利用 MDC（Martingale Difference Correlation）。MDC 度量的是 \(E[B|X]\) 与 \(E[B]\) 的偏差。在 \(H_0\) 下，\(E[B|X] = E[B]\)，MDC=0。 - 关键跳跃：\(B\) 不可观测，如何算 MDC？作者利用了 MDC 的等价定义：MDC 可以写成关于条件期望之差的加权积分。而在治愈模型中，\(E[B|X=x]\) 可以通过总体生存函数的尾部极限识别：\(p(x) = 1 - \lim_{t\to\infty} S(t|x)\)（假设 \(S_u\) 尾部趋于 0）。 - 因此，作者构造 \(B\) 的条件期望的非参数估计 \(\hat{p}(x)\)（基于 Beran 估计），然后计算样本 MDC： \(U_n(x) = \frac{1}{n} \sum_{i=1}^n (\hat{p}(X_i) - \hat{p}_n)^2 w(X_i)\) 其中 \(\hat{p}_n\) 是 \(p_0\) 的估计，\(w\) 是权重函数（处理边界与删失）。 - 零分布逼近：最简特例下用置换检验——在 \(H_0\) 下 \(X\) 与 \(B\) 独立，但 \(B\) 不可观测，故不能直接置换 \(X\) 与 \(B\)。作者置换 \(X\) 与 \((Y, \Delta)\) 的配对关系，利用 \((Y, \Delta)\) 承载了 \(B\) 的信息这一事实，构造置换分布。

为什么成立：在 \(H_0\) 下，\(X\) 与 \((Y, \Delta)\) 的生成机制中，\(B\) 的生成不依赖 \(X\)，因此置换 \(X\) 不改变联合分布的零假设结构。MDC 统计量在 \(H_0\) 下退化为 0 的估计误差，置换分布能正确逼近这个误差的分布。一般情形（多维、partial、卡方）只是这个内核的“加壳”：partial MDC 加了条件化的 \(W\)，卡方逼近加了渐近展开的二次型逼近。

三、这篇论文做了什么¶

三句话： ① 研究了在混合治愈模型右删失数据下，协变量对治愈概率是否有效应的非参数假设检验问题； ② 核心工具是鞅差相关（MDC）及其部分扩展，用非参数治愈概率估计代替不可观测的治愈指示，通过置换检验与卡方近似逼近零分布； ③ 主要结论是提出了检验统计量 \(T_n\)，证明了其在 \(H_0\) 下的渐近性质，给出了置换检验与卡方检验的实现路径，并在模拟与类风湿关节炎数据中展示了尺寸控制与功效。

关键设定与假设： - 混合治愈模型：\(S(t|z) = 1 - p(z) + p(z)S_u(t|z)\)，\(p(z)\) 与 \(S_u(t|z)\) 均未指定参数形式（非参数设定）。 - 假设 A1（条件独立删失）：\(T\) 与 \(C\) 在给定 \(Z\) 下独立。这是生存分析标准假设，保证 Beran 估计的合理性。 - 假设 A2（尾部识别）：\(\lim_{t\to\infty} S_u(t|z) = 0\)，即未治愈者最终都会发生事件。这保证 \(p(z) = 1 - \lim_{t\to\infty} S(t|z)\)，是治愈概率可识别的关键。 - 假设 A3（支撑与平滑性）：\(Z\) 的支撑有界，\(p(z)\) 与 \(S_u(t|z)\) 满足一定平滑条件（如连续可微），\(G(c|z)\) 的尾部在支撑边界内不为 0。这是非参数估计收敛与 i.i.d. 表示的必要条件，与 López-Cheda et al. (2024) 一致。 - 假设 A4（带宽条件）：带宽 \(h_n\) 满足 \(nh_n^d \to \infty\), \(nh_n^{2r} \to 0\)（\(r\) 为核函数阶数）。这是非参数估计偏误与方差平衡的标准条件。 - 相比 Müller & Van Keilegom (2019)：放宽了 \(p(z)\) 的参数假设（从 \(p_\theta(z)\) 放到完全非参数），但增加了对尾部识别的依赖（A2）。

主要结果：

定理 1（检验统计量的构造与渐近性质）：
陈述：在 \(H_0: p(x) = p_0\) 下，检验统计量 \(T_n = n U_n\)（基于 MDC 的样本版本）经过适当标准化后，渐近服从正态分布，且在局部替代 \(H_1: p(x) = p_0 + \delta_n g(x)\) 下具有检验功效。
直觉：\(T_n\) 度量的是 \(\hat{p}(x)\) 与常数 \(\hat{p}_0\) 的偏离程度，在 \(H_0\) 下这个偏离仅来自非参数估计误差，误差的 i.i.d. 表示保证渐近正态；在 \(H_1\) 下偏离包含真实信号 \(\delta_n g(x)\)，只要 \(\delta_n\) 衰减速率合适（\(\delta_n \sim n^{-1/2}h_n^{-d/4}\)），信号与误差同阶，功效非零。
必要条件：A1-A4，以及 \(p_0\) 的估计 \(\hat{p}_0\) 满足 \(\sqrt{n}(\hat{p}_0 - p_0)\) 有界。
解决的技术难点：\(B\) 不可观测导致 MDC 无法直接计算，用 \(\hat{p}(x)\) 代替 \(E[B|X=x]\) 引入额外估计误差，需要将 \(\hat{p}(x)\) 的 i.i.d. 表示代入 MDC 展开，证明估计误差不改变渐近分布的主阶。
定理 2（置换检验的渐近有效性）：
陈述：在 \(H_0\) 下，置换分布与原始统计量的渐近分布一致，因此置换检验的 p-value 是渐近有效的。
直觉：置换打乱 \(X\) 与 \((Y, \Delta)\) 的配对，在 \(H_0\) 下不改变数据生成机制（因为 \(X\) 不参与 \(B\) 的生成），置换分布复现了零假设下的误差分布。
必要条件：除 A1-A4 外，还需置换方案满足某种对称性（exchangeability under \(H_0\)）。
定理 3（卡方近似）：
陈述：\(T_n\) 的渐近分布可以用卡方分布逼近，逼近误差在样本量足够大时可控。
直觉：MDC 统计量本质上是条件期望偏差的二次型，二次型在正态误差下趋于卡方分布。
解决的技术难点：非参数估计误差不是精确正态，需要证明二次型的渐近分布仍可用卡方逼近，且逼近误差的阶可被带宽与样本量控制。
定理 4（Partial MDC 扩展）：
陈述：在两个协变量 \((X, W)\) 下，检验 \(H_0: p(x,w) = p(w)\)（给定 \(W\) 下 \(X\) 无效应），基于 partial MDC 的统计量 \(T_n^{partial}\) 有类似渐近性质。
直觉：partial MDC 是在给定 \(W\) 下计算 \(X\) 与 \(B\) 的 MDC，相当于条件化掉 \(W\) 的效应后检验残差相关性。

证明路线与技术技巧：

整体路线：
利用尾部识别将 \(p(z)\) 写成 \(S(t|z)\) 的极限，用 Beran 估计构造 \(\hat{p}(z)\)。
引用 López-Cheda et al. (2024) 的 i.i.d. 表示，将 \(\hat{p}(z) - p(z)\) 展开为独立求和加偏误项。
将 \(\hat{p}(z)\) 代入 MDC 定义，展开 \(T_n\) 为真实信号项 + 估计误差项 + 交叉项。
在 \(H_0\) 下，真实信号项为 0，证明误差项与交叉项的阶可被带宽控制，主阶项渐近正态。
在 \(H_1\) 下，信号项与误差项同阶，计算功效。
置换检验：证明置换操作在 \(H_0\) 下不改变 i.i.d. 表示的结构，置换分布与原始分布渐近等价。
卡方近似：将二次型展开，用矩匹配证明其分布逼近卡方。
关键跳跃点：
跳跃 1：\(\hat{p}(z)\) 的 i.i.d. 表示代入 MDC 后的交叉项控制。MDC 是二次型，代入 i.i.d. 表示后产生双重求和交叉项，需要证明这些交叉项的方差在带宽选择下趋于 0。这是整个证明最吃功夫的地方，作者用 Hölder 不等式与带宽条件 \(nh_n^d \to \infty\) 控制交叉项的衰减。
跳跃 2：置换检验的有效性证明。置换操作改变了样本的依赖结构，需要证明置换后的 i.i.d. 表示仍成立。作者利用 \(H_0\) 下 \(X\) 与 \((Y, \Delta)\) 的独立性，证明置换后的统计量与原始统计量有相同的渐近分布。
技术技巧点名：
i.i.d. representation（来自 López-Cheda et al. 2024）：将非参数估计误差展开为独立求和，是渐近理论的地基，用在整个证明的第 2-3 步。
Martingale difference decomposition：MDC 的定义本身基于鞅差（\(E[B|X] - E[B]\)），在 \(H_0\) 下这个差为 0，是检验统计量退化的核心。
U-statistic theory / H-decomposition：MDC 的样本版本是二阶 U-统计量，证明其渐近性质时用到 H-decomposition 分离线性项与高阶项。
Exchangeability under \(H_0\)：置换检验有效性的理论基础，在 \(H_0\) 下 \((X_i, Y_i, \Delta_i)\) 的联合分布在置换下不变。
Moment matching / Chi-square approximation：用矩匹配（匹配一阶矩、二阶矩）将二次型分布逼近卡方分布，避免 Bootstrap 的计算负担。

真实例子与应用： - 数据：类风湿关节炎患者数据集（rheumatoid arthritis），包含患者生存时间（缓解时间）、删失指示、协变量（年龄、性别等）。 - 如何用上去：将缓解时间作为 \(T\)，是否复发作为事件，计算 \(\hat{p}(z)\) 对各协变量的 MDC 统计量，检验年龄、性别等对治愈概率（长期缓解不复发）的效应。 - 结果：检验显示年龄对治愈概率有显著效应（p-value < 0.05），性别效应不显著。这与临床经验一致（年龄越大缓解率越低）。 - 想说明什么：展示非参数检验在实际数据中能发现参数模型可能遗漏的协变量效应，且置换检验与卡方近似给出一致的结论，验证方法的实用性。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim 方法“适用于各种场景”，但严格证明仅在 A1-A4（条件独立删失、有界支撑、平滑性、带宽条件）下成立。特别是，条件独立删失 A1 在实际中常被违反（如删失与病情相关），作者未讨论此假设的敏感性。 - 定理 3 的卡方近似在陈述中是渐近结果，但实际使用时需要选择卡方的自由度（与带宽、维数有关），作者在模拟中用经验公式选择，理论依据未严格证明，属于“claim 比证明宽”的地方。

四、开放问题（点到为止，扎根具体语句）¶

删失依赖协变量的条件独立性假设（A1）的敏感性：本文定理依赖 \(T\) 与 \(C\) 在给定 \(Z\) 下独立。若删失与生存时间存在未观测的依赖（如病情严重程度同时影响复发与退出随访），检验的尺寸与功效如何变化？扎根在假设 A1 的陈述——这是生存分析非参数检验的老问题，但本文未触及。
高维协变量下 MDC 检验的可行性：本文模拟仅考虑 1-2 维协变量，理论要求 \(nh_n^d \to \infty\)，当 \(d\) 较大时非参数估计 \(\hat{p}(z)\) 的收敛速率极慢（维数灾难），MDC 统计量的功效可能迅速衰减。扎根在定理 1 的带宽条件 \(nh_n^d \to \infty\)——能否用半参数/降维方法（如 debiased ML）代替纯非参数估计 \(\hat{p}(z)\)，以突破维数瓶颈？
局部替代的收敛速率与 minimax 功效：定理 1 给出局部替代 \(H_1: p(x) = p_0 + \delta_n g(x)\) 下的功效，但 \(\delta_n\) 的衰减速率受带宽约束。这个速率是否达到非参数检验的 minimax 最优？扎根在定理 1 的功效陈述——需对比 Ingster (1993) 等非参数检验 minimax 理论。
MDC 在右删失下的理论源头缺失：本文引入 MDC 但未引用其理论源头（Shao & Zhang 2014），也未讨论 MDC 在删失数据下的已有扩展。扎根在 intro 对 MDC 的介绍段落——需确认删失下 MDC 是否有现成渐近理论，若有则本文的 i.i.d. 表示展开可能可简化。

Maintained by 陈星宇 · Homepage · Source on GitHub

Covariate hypothesis tests for the cure rate in mixture cure models based on martingale difference correlation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论