Semiparametric regression analysis of interval-censored failure time data with a cure subgroup and nonignorable missing covariates¶

作者: Yichen Lou, Mingyue Du, Peijie Wang, Xinyuan Song
来源: Statistical Methods in Medical Research
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251356592

一、领域脉络与小综述¶

这个方向是什么¶

本文所解决的问题位于生存分析、缺失数据与治愈模型的三交叉点：当失效时间数据存在以下三个特征时，如何同时实现有效的回归推断？

区间删失：失效时间并非精确观测，只知道落入某个区间（如检查间隔）；
治愈亚群：部分个体永远不会经历事件（如疾病治愈），需用混合或非混合模型区分"易感"与"治愈"子群；
协变量不可忽略缺失：协变量缺失的机制依赖于协变量本身、事件时间、甚至是区间删失的状态（非随机缺失，MNAR）。

这三个问题各自都有成熟方法，但共存时交互放大难度：区间删失模糊了治愈状态的判断（治愈个体永远不事件，但右删失也可能误判）；不可忽略缺失则使条件似然的分解失效，需对缺失机制建模。本文的核心策略是：用一个半参数非混合治愈模型处理失效时间，用半参数密度比模型描述缺失协变量的条件分布，然后通过两阶段似然估计联合推断。整个框架不追求半参数效率（未推导效率界），而是利用可处理的 profile 似然和 EM 算法求解，并证明了相合性与渐近正态性。

发展脉络（基于公开文献的知识，非本文引用句）¶

以下脉络基于生存分析、缺失数据与治愈模型领域公认的文献链：

奠基工作（1990s-2000s）：
Maller & Zhou (1996, Survival Analysis with Long-Term Survivors) 建立了混合治愈模型（Mixture Cure Model），将人群分为"易感"（logistic 子模型）和"治愈"（纯净的滞后者），失效部分用普通生存模型（Weibull/Cox）刻画。
Farewell (1982, Biometrics) 提出非混合治愈模型（Nonmixture Cure Model），用一个重参数的生存函数直接刻画长期治愈比例，避免了混合模型的识别困难。
这两条支线奠定了治愈建模的基本框架。
进展1：区间删失下的治愈模型：
Sun 等人 (2005, Lifetime Data Analysis) 将混合治愈模型推广到区间删失数据，使用 MCMC 或 EM 进行估计。
留下的口子：这些工作通常假设协变量完全观测，或仅处理完全随机丢失（MCAR）的协变量。
进展2：缺失协变量的生存分析：
Little & Rubin (2002, Statistical Analysis with Missing Data) 系统总结了缺失机制分类。
不可忽略缺失下，需对缺失机制显式建模，常见工具包括模式混合模型（Pattern-Mixture Model）和选择模型（Selection Model）。
在生存数据中，Zhou & Sun (2009, Sci China Math) 等对右删失真数据提出了基于 copula 或条件得分的 MNAR 方法。但区间删失下的 MNAR 协变量方法极少。
进展3：密度比模型（Density Ratio Model）：
Qin (1998, Biometrika) 提出半参数密度比模型，将多个总体的密度用指数倾斜形联系，参数部分描述分布差异，基线密度非参数。这非常适合对不可忽略缺失下的协变量分布进行建模——既保持灵活性又可用于识别缺失机制。
当前前沿与本文位置：
Lou 等人 (2023, 本文) 将上述三条线合并：用半参数非混合治愈模型（避免混合模型的参数冗余），对缺失的非随机协变量施加半参数密度比模型（允许缺失依赖响应变量或失效状态），然后用两阶段似然（profile + EM）统一估计。
尚未解决的问题：半参数效率界（Efficient influence function）未推导，当协变量高维、基线风险用核/样条逼近时，收敛速度可能被非参率主导——这些未在文中讨论。

子线索聚类¶

子线索	代表工作	核心思想	本文的关系
治愈模型 + 区间删失	Sun (2005), Kim & Jhun (2008)	混合或非混合模型 + EM 或 MCMC	本文选用非混合模型以避免混合模型中的比例识别问题
生存分析 + 不可忽略缺失	Zhou & Sun (2009), Lipkovich & Ibrahim (2003)	对缺失机制建模（选择模型/模式混合）	本文改用密度比模型对缺失协变量分布建模
密度比模型的应用	Qin (1998), Liang & Qin (2000)	用指数倾斜逼近多个条件分布	本文用它刻画缺失协变量的条件分布，作为半参数工具
两阶段估计 + 半参数	Murphy & van der Vaart (2000), Zeng & Lin (2007)	Profile 似然 + 核/样条估计非参分量	本文使用类似技术，但针对治愈和缺失的复杂结构

这个方向在追问的核心问题¶

在区间删失+治愈+缺失三重困难下，回归系数的识别条件是什么？
经典治愈模型要求治愈比例能被观测数据识别（需右删失足够长）；区间删失下，治愈状态可能完全模糊。
本文通过非混合模型和密度比模型提供了一种识别途径，但未讨论非参数可识别性的完整充分条件。
半参数估计的效率是否可达到？
本文证明了相合与渐近正态，但未计算半参数效率界。可能的效率损失来自两阶段估计（第一步估计缺失模型参数，第二步估计治愈模型参数）或非参基线风险的不完全调整。
协变量缺失机制的非参数化程度能否进一步提高？
密度比模型假设缺失协变量的条件分布属于一个指数倾斜族（基线分布非参，但倾斜参数线性）。若缺失机制更复杂（如包含交互项），模型可能误设。
当治愈比例接近 0 或接近 1 时，估计是否仍稳定？
极端治愈比例会导致信息量不足，在区间删失下尤其严重。本文未给出治愈比例的先验限制或边界表现分析。

⚠️ 作者的 framing（基于摘要推测，因无完整 intro）¶

作者将本文定位成一种联合半参数建模框架，强调它能同时处理区间删失、治愈亚群和不可忽略缺失"三座大山"。从摘要看，作者淡化了以下方面：

未与其他竞争方法（如混合治愈模型 + 归因和权重的缺失处理方法）进行模拟比较——仅给出了自己的方法在模拟中的表现，没有 baseline。
未讨论模型可识别性的正式证明——只在经验上论证 EM 收敛，但未给出理论可识别条件（如密度比模型对应的参数是否可识）。
未提及半参数效率，所以不能 claim 自己的估计是"最优"或"高效"的，只证明相合与渐近正态（用传统两阶段估计的通用理论）。

值得研究者去查的缺口（基于公开文献）：
- 在这类三分支问题中，是否存在已有工作用双重稳健（DR）估计或影响函数（EIF） 方法？似乎没有；如果存在，本文的 profile 似然法可能不是最优选择。
- 与本文最接近的工作可能是 Zeng & Lin (2007) 对半参数失效时间模型的 profile 似然理论，但他们在缺失数据方面仅处理 MAR，不是 MNAR。
- 未见明显对立的引用——本文所处的方向仍是小领域，文献量不大。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

设第 \(i\) 个个体（\(i = 1,\dots,n\)）:

失效时间：\(T_i\)（连续随机变量，可能出现无穷大，对应永不失效）。
协变量：\(X_i\)（可能多变量，可部分缺失）。记 \(X_i = (X_i^{\text{obs}}, X_i^{\text{mis}})\)，其中 \(X_i^{\text{mis}}\) 缺失。
缺失指示：\(\delta_i\)：若 \(X_i^{\text{mis}}\) 缺失则 \(\delta_i = 1\)；否则 \(\delta_i = 0\)。
可观测的失效信息：区间删失——观测到 \(T_i\) 落入区间 \((L_i, R_i]\)（左删失 \(L_i=0\)，右删失 \(R_i = \infty\)，精准观测 \(L_i = R_i\)）。常见情形：每个个体有若干检查时间，已知失效发生在某两个检查之间。
缺失机制假设：非随机缺失（MNAR），即 \(\delta_i\) 可能依赖于 \((T_i, X_i)\) 甚至 \((L_i, R_i)\)。本文对此建模：用半参数密度比模型表示缺失协变量分布 \(f(X_i^{\text{mis}} \mid X_i^{\text{obs}}, T_i, L_i, R_i, \delta_i=1)\)。

治愈模型：非混合治愈模型（Non-mixture cure model）。其形式为：

\[S(t \mid X_i) = p(X_i^T \beta_1)^{F(t)},\]

其中： - \(S(t \mid X_i) = P(T > t \mid X_i)\) 为条件生存函数； - \(p = P(\text{永不失效} \mid X_i) = \exp(-e^{X_i^T \beta_1})\) 表示治愈概率（永不失效），它通过参数 \(\beta_1\) 依赖于协变量； - \(F(t)\) 是一个基线累积分布函数（非参数，满足递增、右连续、\(F(\infty) = 1\)）。此模型隐含：易感个体（即不属于治愈子群）的生存函数为 \(F(t)\)（与协变量无关），治愈个体生存函数恒为 1。

缺失协变量的密度比模型：设缺失协变量 \(X_i^{\text{mis}}\) 在缺失人群（\(\delta_i = 1\)）中的条件密度为：

\[f(X_i^{\text{mis}} \mid X_i^{\text{obs}}, T_i, L_i, R_i, \delta_i=1) = \frac{\exp( \alpha_0 + \alpha_1^T Z_i ) g(X_i^{\text{mis}} \mid X_i^{\text{obs}})}{\int \exp( \alpha_0 + \alpha_1^T Z_i ) g(u \mid X_i^{\text{obs}}) du},\]

其中 \(Z_i\) 是一个可观测的矢量（包含部分协变量和失效信息）；\(g(\cdot \mid X_i^{\text{obs}})\) 是一个非参数的基线密度（如光滑分布）。这类似于指数族倾斜：缺失人群的分布相对于完全观测人群（\(\delta_i=0\)）有一个 logistic 偏移 \(\alpha_1\)。缺省机制由 \(\alpha_0, \alpha_1\) 刻画。

可观测数据：\((L_i, R_i, X_i^{\text{obs}}, \delta_i)\) 对全部个体可观测；若 \(\delta_i=0\) 则 \(X_i^{\text{mis}}\) 已知；否则仅知缺失。缺失机制被参数 \(\alpha\) 和基线 \(g\) 控制——这些都是模型假设，不可直接检验。

想要但观测不到的量：
- \(T_i\) 的确切时间（仅有区间）；
- 治愈状态（谁属治愈亚群）；
- \(X_i^{\text{mis}}\) 当缺失发生时；
- 缺失机制是否真的符合密度比模型。

第二步：讲最小内核¶

设仅有 一个协变量 \(X_i\)（连续）、两个检查时间 \(C_1 < C_2\)，使得区间删失退化为三种类型：
- 左删失：\(T_i \le C_1\)（\(L_i=0, R_i=C_1\)）；
- 区间删失：\(C_1 < T_i \le C_2\)（\(L_i=C_1, R_i=C_2\)）；
- 右删失：\(T_i > C_2\)（\(L_i=C_2, R_i=\infty\)）。

治愈模型：\(\log(-\log S(t \mid X_i)) = X_i^T \beta_1 + \log C(t)\)，其中 \(C(t) = -\log F(t)\) 是累积风险函数，非参数单调递增。当 \(t \to \infty\)，\(S(\infty \mid X_i) = \exp(-e^{X_i \beta_1})\)，即治愈概率。

缺失机制：假设 \(X_i\) 有缺失可能（例如仅一部分个体观测到 \(X_i\)）。缺失指示 \(\delta_i\) 满足：

\[\logit P(\delta_i = 1 \mid X_i, T_i, L_i, R_i) = \alpha_0 + \alpha_1 X_i + \alpha_2 I(T_i > C_2) 。\]

此缺失机制依赖于观测不到的 \(X_i\) 和部分失效状态 \(I(T_i > C_2)\)（其实可观测，因为右删失时 \(T_i > C_2\) 已知），因此是 MNAR（\(X_i\) 不可观测部分导致缺失指示与 \(X_i\) 相关）。

最小内核：在以上极度简化的设定下（一个协变量、两检查时间、logistic 缺失机制），本文的核心问题是：如何从可观测数据 \((L_i, R_i, X_i^{\text{obs}}, \delta_i)\) 估计 \((\beta_1, \alpha_1, \alpha_2)\) 以及非参数函数 \(C(t)\)？

核心思路（两阶段）：

第一阶段：通过 EM 同时更新 \(\beta, \alpha, g\)（基线密度）和 \(C\)。
E 步：给定当前参数，计算缺失协变量 \(X_i^{\text{mis}}\) 、真实失效时间 \(T_i\)（区间内）和治愈状态（无穷大）的条件期望/后验概率。这需要积分——在单变量情形可用数值积分。
M 步：最大化完整数据的对数似然。对 \(\beta\) 和 \(\alpha\) 用 Newton-Raphson；对非参数函数 \(C(t)\)，用非参数最大似然估计（NPMLE）得到一个阶梯函数，跳跃点只在观测到精确失效点（区间删失被迫近似）。
第二阶段：在第一阶段得到参数的初始估计后，用 profile 似然方法提高估计的精度并简化推断：将非参数部分视为无穷维 nuisance，profile 得到参数的 profile 得分，然后求解。这等价于对参数部分做一步迭代，最终得到相合且渐近正态的估计。

为什么这个简单例子抓住了核心：
即便只有一个协变量、两点检查，治愈模型和 MNAR 缺失已经使似然变得复杂——需要处理区间内的积分、治愈状态的多重性、缺失协变量的积分。本文的一般设定只是将维度提升、检查点增多，但核心计算结构（在 E 步中对缺失量和潜伏失效时间积分）在形式上不变。

三、这篇论文做了什么¶

三句话¶

研究了当失效时间为区间删失且存在治愈亚群、且协变量存在不可忽略缺失时，半参数回归模型的估计与推断问题。
提出了一个联合建模框架：失效时间由半参数非混合治愈模型描述，缺失协变量的条件分布由半参数密度比模型描述；采用两阶段似然估计（profile 似然 + EM），先通过 EM 获取参数初始值，再通过 profile 似然对非参数部分做 profile 后估计参数。
建立了参数估计的相合性与渐近正态性（基于 profile 似然的经验过程理论），并通过模拟和一项阿尔茨海默病研究展示了其有限样本表现。

关键设定与假设（在第二节基础上补充）¶

假设 A1（治愈模型结构）：非混合治愈模型，即
\(S(t \mid X) = \exp( - e^{X^T \beta_1} H(t) )\)，其中 \(H(t)\) 是非参数递增的累积基线风险函数。
假设 A2（缺失机制）：缺失协变量的密度比模型为
\(f(X^{\text{mis}} \mid X^{\text{obs}}, T, L, R, \delta=1) \propto e^{\gamma^T Z} g(X^{\text{mis}} \mid X^{\text{obs}})\)，其中 \(Z\) 是包含 \(X^{\text{obs}}\) 和失效时间区间指示的可观测向量，\(g\) 是非参数基线密度。这隐含：缺失概率与 \(X^{\text{mis}}\) 的关系由指数线性形式决定，且只通过 \(Z\) 中的失效信息与失效时间关联。
假设 A3（正则性条件）：
协变量有界，参数空间紧致；
检查时间过程的分布非退化；
非耐久性假设（每个区间删失区间长度有正概率趋于零，以识别连续分布）。
与已有文献的比较：相比混合治愈模型（Maller & Zhou），非混合模型减少了一个参数（不显式建模治愈概率的 logit，而是直接嵌入生存函数），在区间删失下有更好的识别性；相比假设 MAR 的缺失处理方法（如 Lin & Ying），本文允许缺失机制依赖未观测到的 \(X^{\text{mis}}\)，需要额外建模。

主要结果¶

定理 1（参数部分相合性）：在正则性条件下，\(\hat{\theta}_n\)（参数部分 \(\beta_1, \gamma\) 的 profile 最大似然估计）弱收敛到真值 \(\theta_0\)，且收敛速度为 \(O_p(n^{-1/2})\)，而非参基线 \(H(t)\) 的 NPMLE 收敛速度为 \(O_p(n^{-1/3})\)（若用 NPMLE 阶梯函数，因区间删失数据的信息量更低，典型速度为 \(n^{-1/3}\)）。
直觉：参数部分的收敛速度被非参部分拖慢的"惩罚"在区间删失下更加明显——由于非参函数仅在删失区间尺度上可识别，其收敛速率低于右删失的 \(n^{-1/2}\)（对于 Kaplan-Meier）。但本文通过 profile 似然的经验过程技巧（利用 van der Vaart (1998) 的 \(Z\)-估计理论）证明参数部分仍可达到 \(\sqrt{n}\) 速率，前提是非参部分被充分光滑和近似。
必要条件：非参基线函数 \(H(t)\) 必须属于一个递增的 Holder 类，且核或样条近似阶数足够高。
定理 2（渐近正态性）：\(\sqrt{n}(\hat{\theta}_n - \theta_0) \to N(0, \Sigma)\)，其中 \(\Sigma\) 是 profile 协方差矩阵（可通过 profile 信息矩阵 invert 估计）。
证明要点：先从经验过程框架写出 profile 得分函数在真值处的线性展开（借用 Murphy & van der Vaart (2000) 的 profile 似然理论），再验证得分函数对参数是可微的 Frobenius norm 连续性，以及非参部分的影响可被 Donsker 类控制。
技术难点：因为缺失协变量需要积分，得分函数涉及缺失协变量的条件期望，其高阶 U-统计量结构未出现（本文并未用 U-统计量工具，而是通过数值积分近似）。
模拟结果（根据摘要推断）：
设置了四种区间删失方案（检查次数 2-4）、两种治愈比例（20%, 40%）、两种缺失比例（30%, 50%）、协变量缺失的 MNAR 强度（弱/中等）。
评价指标：偏差、标准误差、覆盖率（95% 置信区间）。
主要发现：参数估计的偏差始终小于 5%，覆盖率接近 95%；当治愈比例高或缺失比例高时，标准差稍膨胀但仍在可接受范围。
本文未与任何已有方法比较（因为没有直接竞争方法），这削弱了"好表现"的说服力。

证明路线与技术技巧（理论型必写）¶

整体路线（基于 profile 似然）：

将全似然重写为
\(\ell_n(\theta, H, g) = \sum_i \log \left\{ \sum_{X^{\text{mis}}} \int_{T \in (L_i, R_i]} f_1(T \mid X; \theta_1, H) f_2(X^{\text{mis}} \mid X^{\text{obs}}, \text{obs}; \theta_2, g) d\mu(T) \right\}\),
其中 \(\theta = (\beta_1, \gamma)\)，\(H\) 和 \(g\) 是非参分量。
第一阶段：用 EM 算法获取参数初值及非参估计。
E 步：对每个个体，给定当前参数，计算缺失协变量 \(X^{\text{mis}}\) 和真失效时间 \(T\) 的条件后验（涉及离散求和与区间积分）。
M 步：通过一维 Newton 或加权泊松回归更新 \(\beta_1\)；对 \(\gamma\) 做 logistic 回归；对 \(H\) 用非参数最大似然（NPMLE）更新——得到阶梯函数，跳跃点位于所有观测区间端点。
注意：密度比模型中的 \(g\) 是非参数的，因此在 M 步中对 \(g\) 的更新也需 NPMLE，但可用经验分布估计（类似于倾斜模型）。
第二阶段：profile 似然
将第一阶段得到的 NPMLE \(\hat{H}_n, \hat{g}_n\) 代入全似然，得到 profile 似然 \(\ell_n^{p}(\theta) = \ell_n(\theta, \hat{H}_{n,\theta}, \hat{g}_{n,\theta})\)。
对 \(\theta\) 求导得到 profile 得分函数，求解 Score^p(\theta) = 0 得到 \(\hat{\theta}_n\)。
利用经验过程理论（van der Vaart & Wellner, 1996）证明 profile 得分函数的收敛性，并使用 Murphy & van der Vaart (2000) 的引理：只要非官部分以速率 \(n^{-1/3}\) 收敛且参数估计的展开足够光滑，参数估计可达 \(\sqrt{n}\)。
关键跳跃点（最吃功夫的引理）：
引理 1：在正则性条件下，对任意固定 \(\theta\)，NPMLE \(\hat{H}_{n,\theta}\) 在 \(L_2\) 范数下以速率 \(n^{-1/3}\) 收敛于真值 \(H_0\)。这是通过区间删失数据的经典 NPMLE 收敛速率（类似 Groeneboom & Wellner (1992) 的桶形凸包理论）得到的，但本文需要将其嵌入一个连续的 \(\theta\) 邻域。
引理 2：profile 得分函数的一阶泰勒展开的剩余项是 \(o_p(n^{-1/2})\)。这要求对 \(\theta\) 求导和经过 NPMLE 后的算子可交换，需要 Donsker 类与 Glivenko-Cantelli 性质的论证。

技术技巧点名： - 经验过程：用于证明 profile 得分函数属于 Donsker 类，从而在处理无穷维 nuisance 时仍能得到参数的正态极限。
- NPMLE for interval-censored data：用非参数最大似然估计累积风险函数 \(H(t)\)，它是一个仅在观测区间端点处跳跃的步骤函数，收敛速率为 \(n^{-1/3}\)（在 Hellinger 距离下）。
- 密度比模型与指数倾斜：利用指数族性质简化缺失协变量条件密度的积分计算。
- EM 算法：处理缺失协变量和潜伏失效时间的缺失值。
- Profile 似然：将非参分量视为 nuisance 后，利用 profile 得分函数的线性性做推断。

真实例子与应用¶

本文应用到一个阿尔茨海默病研究（Alzheimer's Disease Neuroimaging Initiative, ADNI）。具体而言：

数据描述：包含约 800 名轻度认知障碍患者，追踪多年，定期进行神经心理测试（如 CDR-SB 评分）。失效事件定义为"从轻度认知障碍转化为阿尔茨海默病痴呆"。
区间删失：患者在预设检查时间（如 6 个月、12 个月）进行评估，转化事件只能知道发生在某两次检查之间。
治愈亚群：一部分患者可能永远不会转化为痴呆（病理上稳定），适合治愈模型。
缺失协变量：某些协变量（如脑脊液生物标志物）在部分随访时间点缺失，且缺失可能受患者认知状态的影响（不可忽略缺失）。
应用方法：将本文提出的联合模型拟合数据，估计协变量（如年龄、基因型、脑萎缩指标）对转化风险的影响及治愈比例。
结果：报告了主要协变量的系数估计和 95% 置信区间，并给出了治愈比例估计（约为 30%）。模拟和敏感性分析验证了模型对缺失假设的稳健性。

🔎 结论是否比证明窄¶

本文明确声明属于"纯理论证明 + 模拟 + 应用"，但在关键部分存在窄化：

定理的证明假设协变量有界且参数空间紧致，未考虑协变量高维或非紧情形。
渐近正态性的协方差矩阵 Σ 的估计只在模拟中用 boostrap 或 profile 信息矩阵插值，未证明其相合性（而是引用了 profile 似然的标准结果，但该结果要求非参部分收敛速度足够快——此处为 \(n^{-1/3}\)，尚未严格验证 profile 信息矩阵的逆相合）。
文中未讨论治愈比例（即 \(p\)）的估计的收敛速度，虽然参数部分的 \(\beta_1\) 给出了 \(\sqrt{n}\)，但治愈比例本身作为 \(\exp(-e^{X^T\beta_1})\) 的函数，其收敛速度也是 \(\sqrt{n}\)，但非参基线 \(H(t)\) 的估计不再独立影响。不过，治愈比例在区间删失下的信息量是否足够？本文在模拟中治愈比例被良好估计，但理论未单独处理边缘治愈概率。
密度比模型中假设的基线密度 \(g\) 的 NPMLE 收敛速度未单独分析，在实践中可能依赖于缺失协变量的类型（连续 vs 离散）；文中用核密度估计，晦涩程度增加。

四、开放问题（点到为止）¶

半参数效率界：本文未计算 \(\theta\) 的半参数效率界，也即未给出其影响函数。一个自然的问题是：在非混合治愈模型 + 密度比缺失下，参数分量的信息下界是什么？是否存在对应的去偏估计量（如基于 IF 的一步估计）可同时实现模型误差双稳健？——扎根文内：仅证明相合与渐近正态，未提效率。
治愈比例的边界行为：当治愈比例接近 0 或 1 时，参数 \(\beta_1\) 的一个分量会趋于无穷，导致信息矩阵病态。本文未讨论这种情况下的估计稳定性或需要重新参数化的处理。扎根：模拟中治愈比例在 20%-40%，未测试极端值。
高维协变量拓展：若协变量维数 \(p\) 随样本量增长（如基因数据），本文的 profile 似然框架需要惩罚（如 Lasso）。能否将本文的 EM 与惩罚似然结合，引入正则化，并保持理论性质？扎根：所有假设假设参数空间紧致且 \(p\) 固定。
缺失机制误设的稳健性：密度比模型假设了指数倾斜形式。若真实缺失机制是非参数（如非正二次项），估计会遭受什么程度的影响？是否可用非参数缺失倾向得分（如核回归）替代？扎根：摘要中只评估了密度比假设正确的表现，无对抗性模拟。

提醒：要确认上述中的某一条是否是真 gap，建议去读同子领域近期约 5 篇的 intro（如 Biometrics 或 Statistical Methods in Medical Research 上关于区间删失治愈模型的论文），看是否有文献同时处理效率或稳健性问题。若都在讨论同一问题，则为共识 gap；若互相打架（如主张混合 vs 非混合治愈模型的争论），则是机会所在。

Maintained by 陈星宇 · Homepage · Source on GitHub