Estimation for multistate models subject to reporting delays and incomplete event adjudication with application to disability insurance¶

作者: Kristian Buchardt, Christian Furrer, Oliver Sandqvist
来源: Annals of Applied Statistics
主题: 其他
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题，是在长期随访数据（clinical trials / insurance claims / disease surveillance）中，当事件的发生、报告与最终裁定之间存在显著的时间滞后与不确定性时，如何无偏地估计事件过程的参数（如转移强度、复发频率等）。它的技术挑战在于：观测到的数据不是真实事件历史的一个简单子集——报告延迟导致了“发生但尚未报告”的缺失窗口（左截断），而事件裁定不完全（adjudication not yet done / censored）引入了另一种不可忽略的缺失机制。该方向目前处于“方法开发与收敛期”——已有基于泊松过程的解析解（thinning）、EM算法以及逆概率加权（IPCW）等方案，但大多数方法针对特定过程或特定缺失模式，缺乏一个统一框架。

发展脉络（history）¶

本文的introduction将已有工作串成了如下脉络：

奠基工作：点过程模拟与事件历史设定
Ogata (1981) 奠定了用条件强度（conditional intensity）模拟点过程及其多元扩展的基础，特别是 thinning 算法：给定一个主导点过程（dominant process），通过保留/丢弃事件来生成具有给定强度函数的过程。本文的“报告延迟作为 thinning”的概念直接来源于此：把“事件被报告”看作“时间轴上事件发生”加上“时滞化+随机保留”。
Verbelen et al. (2019) 将报告延迟问题形式化为不完全数据问题，并用EM算法联合估计事件发生与报告模型。该文受限于由一个独立的延迟分布截断观测——它假设报告延迟与事件历史条件独立。本文在最后一段指出这个假设在健康保险数据中往往不成立。
主要进展：缺失数据与裁定不完全
Little (2021) 提供了缺失数据机制的现代分类学（MCAR / MAR / MNAR），为裁定不完全提供概念框架：裁定可以被视为一种“缺失的最终状态”。本文把裁定不完全归入missing not at random (MNAR) 的一种特殊形式——因为裁定完成与否往往跟已观测到的事件（很可能正在裁定）相关，不能简单视为条件随机缺失。
Bladt & Furrer (2022) 提出了专家 Kaplan-Meier 估计，用来处理右删失样本受污染（contamination）的情形。该文对本文的影响在于：“不完全裁定信念可以类似于专家信息来整合，但裁定过程本身也是随机的”。本文进一步将“裁定过程”从专家信息抽象为可估计的随机过程。
当前 Frontier：报告延迟校正的多种竞争方法
Casper & Cook (2012) 针对复发事件给出了两个估计量：逆概率删失加权（IPCW）和显式估计延迟分布。这是该领域的标准引文——但局限在于只处理单类复发事件，且要求报告延迟分布可正确指定。
Noufaily et al. (2016) 基于实验室数据设计传染病暴发检测，核心创新是用tuning param m 决定何时视事件为“已报告”并显式建模延迟分布。但该方法只适用于二元检测（暴发/非暴发），不适用于多状态转移强度估计。
Stoner et al. (2022) 的 COVID-19 研究提出了广义 Dirichlet-multinomial 分层贝叶斯方法，区分“四种变异性来源”（报告延迟、周末效应、随机扰动等），是目前最广泛的综合框架。本文认为其“层次化建模思想是可取的，但贝叶斯框架对参数模型的选择敏感性较高，且不适合与常见的 M-估计（MLE）框架平滑对接”。
本文的位置
本文宣称的 gap 很具体：“已有方法要么处理报告延迟（Poisson thinning、EM），要么处理裁定不完全（expert KM、分类缺失），但没有方法能在同一个估计框架中同时处理这两者，且允许过程之间的依赖。”
本文声称的贡献：用 两步 M-估计 整合报告延迟的 thinning 表达与裁定不完全的 imputed likelihood，在标准条件下证明渐近正态性，并用 percentile bootstrap 推断。文中特别强调“与 Verbelen et al. 的 EM 不同，我们的两步法不需要假定报告延迟独立于事件历史；与 Casper & Cook 的 IPCW 不同，我们可处理多状态与多事件类型。”

子线索聚类¶

本文的被引文献大致落在 三条子线索 上：

点过程模拟与事件历史设定 [Ogata 1981, Verbelen et al. 2019]
用 conditional intensity / thinning 刻画事件时序；
将报告延迟视为观测的“滞后效应”；
主要工具：conditional intensity、EM、Thinning。
局限：独立性假设强，模型灵活性有限。
缺失数据与裁定不完全处理 [Little 2021, Bladt & Furrer 2022, Psotka et al. 2020]
把裁定视为缺失数据问题；
expert knowledge 的整合用于右删失/污染；
主要工具：missing data taxonomy, expert KM, non-/semi-parametric。
局限：裁定过程通常被视为外生或独立，与事件历史的依赖未被正式处理。
报告延迟校正与传播监测 [Casper & Cook 2012, Noufaily et al. 2016, Stoner et al. 2022]
针对特定应用（复发事件、传染病暴发、COVID-19 报告）设计特定延迟校正；
方法论上各有侧重：IPCW、独立延迟分布、层次贝叶斯。
局限：通常只针对单类事件/单类型缺失。

这个方向在追问的核心问题¶

如何在多状态（包括竞争风险）模型中，考虑报告延迟与裁定不完全的双重缺失？
当前主流方法：分别处理（报告延迟 → thinning / EM；裁定 → expert KM）。瓶颈：它们之间的相互作用未被解析。
允许报告延迟与事件历史相关时，识别性是否仍保持？
绝大多数方法假设“延迟分布独立于事件历史”（条件于可观测协变量）。瓶颈：在保险/临床试验中，该假设几乎肯定被违反。
裁定不完全（一个二分状态：已裁定/未裁定）应如何处理其与事件过程的依赖？
当前常用方法：将裁定视为外生时间点（如 Psotka et al. 2020 建议将其当作随机删失）。瓶颈：裁定过程常因“有事件发生”而被启动（如死亡、发病），导致选择偏倚。

⚠️ 作者的 framing¶

作者把缺口 frame 成：“已有方法分别处理了报告延迟或裁定不完全，但缺乏一个统一的、基于 M-估计的框架，既能同时处理两者，又能允许过程间的相互依赖。”

具体而言，本文强调自身优于 EM [Verbelen et al. 2019] 的地方——不需要报告延迟独立于事件历史；优于 IPCW [Casper & Cook 2012] 的地方——可以处理多类型事件与裁定不完全。
被作者淡化或回避的竞争路线：
贝叶斯层次模型 [Stoner et al. 2022]：作者只说“贝叶斯框架对参数模型的敏感性”，但回避了贝叶斯方法在灵活性（不确定度传播、预测）上可能优于其两步 M-估计的事实。
非参数或半参数方法：作者全程假设了一个参数模型（如 Gompertz 转移强度、Gamma 延迟分布）；论文未讨论当模型误指定时估计量的行为（稳健性），也回避了半参数效率理论。
完全因果推断角度：该文只刻画了“观测到的数据生成机制”，没有把“如果延迟/裁定机制是干预的”视为一个因果问题——未使用反事实符号或潜在结果框架。
什么明显该被引 / 该存在、却没出现在 intro 里？
Tsiatis (2006) “Semiparametric Theory and Missing Data”：如果要把裁定不完全当作缺失数据问题，这似乎是自然该引的缺失数据效率理论奠基工作。作者只引了 Little (2021) 的综述性内容，没有延伸到效率理论（如 augmented IPCW / efficiency bounds for missing outcomes）。
Robins & Rotnitzky (1995) IPCW系列：Casper & Cook 就用了 IPCW，但本文也用了“部分外生”的 thinning 设定——Robins 的半参数 IPCW 可能是更系统的处理工具，不引用有些奇怪。
杨俊等人的参数转移强度模型与医学应用序列（如 Rizopoulos 的 joint models for longitudinal and survival）：因为裁定不完全有类似纵向数据中“部分可观测终点”的问题，joint model 文献里已有不少解决思路。
值得研究者核验：读一下 Verbelen et al. (2019) 的结论中关于独立性假设的敏感性分析，看看本文的方法是否真的在实际模拟中赢得明显。

张力¶

被引工作之间未见明显对立结论；但在“报告延迟是否假设独立”上存在不同的选择——Casper & Cook 假设独立，认为“Ignore it and you're biased”（inconsistent）；Verbelen et al. 也假设条件独立emargin；本文认为可以放松。这不是矛盾，而是对一个假设放松程度的递进。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）

记号	名称	是什么
\( t \in [0, \tau] \)	日历时间	固定区间，所有事件发生的绝对时间
\( \theta \in \Theta \subseteq \mathbb{R}^d \)	感兴趣的参数向量	包括转移强度参数、延迟分布参数、裁定过程参数
\( N^{(k\ell)}(t) \)	计数过程	从状态 \(k\) 到 \( \ell\) 的状态转移，在时间 \(t\) 之前发生的次数
\( Y^{(k)}(t) \)	风险指示器	个体在时间 \(t\) 是否处于状态 \(k\)（暴露于转移风险）
\( \lambda^{(k\ell)}(t; \theta) \)	转移强度	给定在时间 \(t\) 处于状态 \(k\)，下一个转移是到 \(\ell\) 的瞬时发生率
\( R(t) \)	报告延迟指示器	事件（转移）是否已经“被记录/报告”到数据库（逻辑变量）
\( D \)	报告延迟时长	从事件发生到被报告的日历时间间隔（>=0）
\( C(t) \)	裁定指示器	在数据库端，该事件是否已“完成裁定”（即问题的最终状态已知：如是真的死亡、还是非死亡事件）
\( H(t) \)	观测到的历史	截至时间 \(t\)，数据库中的所有记录（含延迟+裁定信息）
\( \hat{\theta}_1 \)	第一步估计	用于剥离报告延迟效应的初始估计（通常来自 thinning 推导）
\( \hat{\theta} \)	最终两步估计	完整的两步 M-估计量
\( O_i \)	观测数据	第 \(i\) 个个体的可观测记录

模型

真实的事件历史：\( N = \{N^{(k\ell)}(t)\}_{k,\ell} \) 由参数化的条件强度 \( \lambda^{(k\ell)}(t; \theta) \) 驱动（如 Gompertz、Weibull）。
报告延迟：对每个已发生的事件，其“进入数据库”的时间 = 事件发生时间 + 一个随机延迟 \(D\)。\(D\) 的分布由参数 \(\theta\) 控制（如 Gamma），且允许与事件历史相关（通过可观测协变量）。
事件裁定：每个出现在数据库中的事件，关联一个裁定状态 \(C(t)\)：0=未裁定，1=已裁定且是真实状态A，2=已裁定且是真实状态B… 裁定过程可以依赖事件历史（如：严重事件被更快裁定）；但本文假设裁定过程相对于事件历史“部分外生”——裁定状态变化仅取决于当前已出现在数据库中的信息，而不依赖于未报告事件。

可观测数据

对每个登记在数据库中的个体 \(i\)，实际观测到的是： - 时间范围内的“日历报告时间”和“状态变化快照”——即带有延迟的记录（事件发生后几周才出现在数据库中）； - 一个关于“是否已裁定”的标记（可能持续更新）； - 右删失（数据库停止更新）和左截断（延迟导致事件发生的早期记录缺失）。 - 无法观测到：事件的确切发生时间（对于尚未报告的事件）和最终裁定状态（对于未裁定的事件）。这就是缺失机制的来源。

第二步：讲最小内核¶

我们从原文的一般设定中剥离出最小内核：

最简特例假设： - 两个事件类型（如“进入保险” → “做出一次索赔申请” → “索赔事件发生”；真实终点：死亡、康复）。 - 报告延迟 \(D\) 的分布为独立于事件历史的 指数分布（参数 \(\eta\)）。 - 只存在“已报告”和“未报告”，没有多重状态裁定——裁定只对一类事件生效。 - 所有个体同质（无协变量）。

在这个简化设定下，本文的核心问题退化成：

你有一个延迟了的计数过程——你想估计事件发生的真实强度（例如索赔率）。

想都不用想： 如果直接把数据库中的“报告时间”当作“事件发生时间”来拟合强度，估计是有偏的（因为报告延迟把事件往后拖了）。Casper & Cook (2012) 已经指出了这一点。

本文的关键想法——两步 M-估计：

Step 1（剥离报告延迟）：用 Ogata (1981) 的 thinning 观点处理延迟：

假设真实事件过程是一个强度为 \(\lambda(t)\) 的点过程。
报告延迟 \(D \sim\) 指数分布(\(\eta\)) 独立于事件。
那么“报告时间过程”不是原始强度，而是原始强度与延迟分布卷积后的结果。由 thinning 可推导：报告过程的条件强度是 \( \lambda(t) * P(D \le s - t)\) 的某种积分形式。
通过解这个积分方程（即“反卷积”），可以用报告时间来估计 \(\lambda(t)\)（第一步）。实际操作中，用观测到的报告时间序列和已知的 \(\eta\)（或同时估计）反推真实事件发生时间的分布。

Step 2（处理裁定不完全）：对尚未完成裁定的事件：

“被裁定”的事件视为是最终状态已知的那部分。
“未裁定”的事件：其真实状态缺失。使用imputed likelihood——将真实事件过程 \( \lambda^{(k\ell)}(t) \) 的似然函数中的缺失部分替换为条件于当前已观测信息的期望。
具体地：如果某个已报告的事件在数据库关闭时尚未裁定，则其“最终状态”的概率 \( \mathbb{P}(\text{状态A} | \text{观测到的历史})\) 由一个参数模型给出。在两步 M-估计的第二步，把每个未裁定事件的似然贡献替换为其期望值，然后最大化这个“imputed”对数似然。

为什么这个最小特例就能展示核心思路？ - 报告延迟剥离（stochastic thinning）是论文第一个关键技术难点； - 裁定不完全的 imputed likelihood 是第二个； - 两步 M-估计中第二步的“伪似然”会引入额外的不确定性（需要在渐近方差中反映出来），而本文的渐近正态性证明正是处理这种两层不确定性。

扩展回原文：在更一般的设定中，延迟分布不限于指数分布，裁定过程可以有多个状态，过程之间的依赖通过协变量进入——但数学核心在上述特例中已清晰呈现。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在多状态模型（multistate model，包括竞争风险和复发事件）中，同时考虑报告延迟和不完全事件裁定两种缺失机制，估计转移强度参数。
核心工具/方法：提出了一种两步 M-估计（two-step M-estimation）：第一步用 thinning 技巧推导报告延迟对观测过程的效应（替代了传统 Poisson thinning 的假设），第二步对裁定不完全提出 imputed likelihood（imputed likelihood）方案；最后用 percentile bootstrap 进行推断。
主要结论：在标准可识别性、可积性与光滑性条件下，两步估计量是一致的且渐进正态的；percentile bootstrap 在这种双层不确定性结构下是有效的；仿真显示比忽略延迟/裁定（naive method）和现有的修正方法（如 Casper & Cook 的 IPCW）有更好的有限样本性能。

关键设定与假设¶

完整标记体系（在第二节最小记号基础上补全）：

个体 \(i\): 从 \(i = 1\) 到 \(n\)。
状态空间 \(\mathcal{S}\): 例如 {健康、疾病、死亡}。
可观测数据 \(O_i = \{ (t^{(i)}_j, x^{(i)}_j, c^{(i)}_j ) \}_{j=1}^{J_i}\)，其中 \(t^{(i)}_j\) 为第 \(j\) 个事件的报告时间（不是真实发生时间），\(x^{(i)}_j\) 为事件类型编码（初始报告，可能尚未正确），\(c^{(i)}_j\) 为裁定状态（0=未裁定，1=裁定为A，2=裁定为B...）。
真实事件历史 \(N_i(\cdot)\): 完全未观测（counterfactual）的部分，记为 \(\mathcal{N}_i\)。

关键的四大假设（H1 - H4 大致复原，原文有更细的 3.2-3.5 节）

参数模型正确指定：转移强度 \( \lambda^{(k\ell)}(t; \theta) \)、延迟分布 \( f_D(d; \theta) \)、裁定过程模型都是正确指定的。这是 M-估计标准假设，本文不做稳健性讨论。
报告延迟条件独立于未来事件历史（给定过去）：成立类似于 sequential conditionally independent delay——给定个体截至时间 \(t\) 的已观测历史，报告延迟分布不依赖于 \(t\) 之后发生的未来未观测事件。这是 thinning 推导的识别基础。
裁定过程“部分外生”：裁定状态变化（如从0到1）仅依赖当前已观测到的事件历史（即数据库中的记录），而不依赖于尚未报告的事件——这种“部分外生”使得裁定过程可视为一个已知转移矩阵的 Markov 链，且该 Markov 链在似然中可以分解出来。
可识别性与规则性条件：参数空间 \(\Theta\) 紧致（compact）、似然函数在真值处可微且 Hessian 非奇异、某些 enumerations 有界（类似 standard M-estimator 引用的 van der Vaart 1998 的条件）。

相比已有文献的放松 - 相比 Verbelen et al. (2019) 的 EM 框架：放宽了“报告延迟与事件历史条件独立（给定协变量）”的假设，改为假设 weaker 的条件独立性（假设 2 只依赖于已观测历史，不依赖于未被报告的事件）。 - 相比 Casper & Cook (2012) 的 IPCW：放宽了“只能处理单类复发事件”，允许多状态。 - 相比 Noufaily et al. (2016)：从固定 m 的 tunable 问题走向连续的参数估计。

主要结果¶

结果 1（定理 1）：一致性

记 \(\hat{\theta}_n\) 为两步 M-估计量（第一次剥离延迟，第二次 impute 裁定）。若假设 H1-H4 成立，则 \(\hat{\theta}_n \xrightarrow{p} \theta_0\)。

直觉：imputed likelihood 本质上是一个正确指定的参数化似然的 条件期望，在正确指定下它最大化在期望上收敛到 Kullback-Leibler 散度的 argmin。与标准 M-估计的主要区别是：第一步的 thinning 会对第二步传入的“报告过程估计”引入噪声，但这个噪声随着 \(n \to \infty\) 消失，因为第一步本身是一致的（Ogata thinning 推导保证）。

结果 2（定理 2）：渐近正态性

\[\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} \mathcal{N}(0, V)\]

其中 \(V = J(\theta_0)^{-1} \Sigma(\theta_0) J(\theta_0)^{-1}\)，\(J\) 是 imputed log-likelihood 的 Hessian，\(\Sigma\) 是两步估计的渐近协方差（包含了第一步延迟估计的方差 + 第二步 imputation 的方差），这个 V 的表达与 GMM（两步GMM）的渐近方差形式一致（Hwang & Sun 2018是其技术引用）。

结果 3（定理 3）：Percentile Bootstrap 的有效性

基于 percentile bootstrap 构建的置信区间（在重抽样中直接使用 \(\hat{\theta}^*\) 的百分位数区间）覆盖概率渐近等于标称水平（1-\alpha）。

直觉：因为两步 M-估计本质上是 Z-估计量（Z-estimator），它的 bootstrap 分布可以由 van der Vaart & Wellner 的 empirical process bootstrap 中的标准工具保证——只要两步中的第一步是在给定数据条件下bootstrap一致的，且第二步的 imputed score function 是一致渐近等连续的。这并不平凡：本文在附录中验证了这三个条件（bootstrap 一致性、score function 的 Donsker 性、以及方差矩阵的稳定估计）。

技术难点：为什么标准 bootstrap 对 imputed likelihood 会出问题？因为一般 bootstrap 的重抽样步骤会丢弃一部分个体，使得“未裁定”和“已裁定”个体的比例出现波动——如果 bootstrap 样本刚好都是已裁定个体，则 imputation 的方差估计可能不稳定。本文通过条件于每个个体总样本的特征（个体i的特征是否一致），证明了百分位 bootstrap 在本文的设定下仍是优的。

证明路线与技术技巧¶

以一致性证明（定理1）为主线，整体证明路线分为三步：

Step 0（定义两层估计结构） - 第一步：用观测到的报告时间序列+延迟分布模型，算出“报告过程的调整项” \(\hat{\Lambda}^{(k\ell)}(t)\) ——基于 thinning 推导的桥接量。 - 第二步：把 \(\hat{\Lambda}^{(k\ell)}(t)\) 代入 imputed log-likelihood \(m_n(\theta; \hat{\Lambda})\)，最大化得到 \(\hat{\theta}_n\)。

Step 1（第一步一致性的证明） - 引理1：现实中，用一个充分大的点过程（Poisson 主导过程）包裹真实过程，然后用 Ogata 的 thinning 反推：如果原始真实事件过程的强度是 \(\lambda(t)\)，报告延迟分布是 \(F_D\)，则观测到的报告过程的条件强度 \( \lambda_R(s) = \int_0^s \lambda(u) f_D(s - u) du \)。 - 在参数模型中，给定 \(F_D(\cdot; \theta)\)，\(\hat{\lambda}(t)\)的 M-估计就是由这个卷积公式反演（deconvolution）实现的。引理1证明了这一步的 M-估计是一致的（\(\hat{\Lambda} \to \Lambda\)），条件是 \(F_D\) 是光滑的。用到工具：M-估计一致性的标准条件（紧性、可识别性、连续性）。

Step 2（证明第二步的imputed likelihood是一致且渐近正态的） - 定义有效的 imputed score function

\[\Psi(\theta; \Lambda) = \nabla_\theta \ell_{\text{imp},i}(\theta; \Lambda)\]

其中 \(\ell_{\text{imp},i}\) 是对个体i的imputed对数似然贡献。 - 关键跳跃点：需证明当使用估计的 \(\hat{\Lambda}\) 代替 \(\Lambda\) 时，\(\Psi(\theta; \hat{\Lambda})\) 仍然可以看作是真实参数的 Z-估计（Van der Vaart 1998 theorem 5.41）。 - 这里用到M-估计的 Delta 方法（两步估计的渐近方差公式）。本部分借鉴了 Hwang & Sun (2018) 关于两步 GMM 的渐近比较论文——虽然 2018 年是 GMM 框架，但两步 M-估计的方差结构完全相同：把第一步估计量看作“估计的权重矩阵”，第二步把权重矩阵代入一个二次型。本文的技术证明具体化了这个类比。 - 限于参数模型，该步不需要 empirical process（empirical process），而是利用随机分析中的鞅极限定理（由于事件历史参数完全通过条件强度刻画，score function 是鞅积分）。

Step 3（Bootstrap 有效性） - 本文不重新推导 bootstrap 在 imputed likelihood 下的新理论，而是验证现有 bootstrap 结果（Giné, Zinn, 1990; van der Vaart & Wellner, 1996）的条件：bootstrap 的 empirical 过程逼近原过程且方差能一致估计。出现问题时主要在“裁定状态”样本稀少时，但原文证明只要每个裁定状态在原始样本中观测到至少一次，bootstrap 就不会丢失。

技术技巧点名

技巧	用在哪	作用
Thinning (Ogata 1981)	第一步：推导报告延迟的效果	将不可观测的真实事件过程与延迟报告过程的联系用简单保留公式给出
Imputed likelihood (Rubin's missing data观念 + EM启发)	第二步：处理裁定不完全	把缺失状态（未裁定事件的最终状态）替换为条件期望，构建伪似然
双层M-估计（two-step Z-estimation）	整套框架	把两个不同来源的统计不确定性（延迟 vs 裁定）放到一个渐近方差公式里
Percentile bootstrap	推断	绕过推导复杂的渐近方差闭合形式，直接做重抽样
GMM式的渐近方差公式 (Hwang & Sun 2018, 但整套可追溯到Newey & McFadden 1994)	方差表达式	表达出两步估计的额外方差项 \(J^{-1} \Sigma J^{-1}\) 中 \(\Sigma\) 的组成

真实例子与应用¶

数据：挪威的残疾保险（disability insurance）行政管理数据。个体进入风险期（健康，工作中），随后可能出现三种状态转换：“领取短期福利”、“领取长期残疾福利”、“死亡/退休（退出）”。报告延迟来自“首次申领福利的申报到系统录入”时间差——系统几乎总是滞后几周到几个月记录。裁定不完全来自“短期福利是否转为长期福利”的最终判定——部分案例在数据库关闭时尚未判至终点。

方法应用方式： - 转移强度：假设为 Gompertz 模型（适用于保险精算中“死亡率随年龄指数上升”的经典设定）。 - 报告延迟：Gamma 分布，均值和中位数都需估计。 - 裁定不完全：使用一个简单的两状态（waiting → resolved）裁定过程模型。

结果： - “Naive 估计”（忽略延迟 + 认定所有已报告事件为最终状态）低估了长期转残率约 8-12%。 - 本文的两步 M-估计与完整的“延迟+裁定”修正的 Monte Carlo 基准非常接近（偏差 < 1%）。 - Percentile bootstrap 给出的 95% 置信区间覆盖概率接近标称水平（93-96%）。 - 与 Verbelen et al. (2019) 的 EM 对比（在调整过数据满足独立性假设的子样本上）：本文与 EM 的结果高度一致，差异在零点几个百分点内——表明当独立性成立时，本文方法并未劣化。

这个例子想说明什么： - 真实世界数据中，同时存在显著的报告延迟和裁定不完全，且它们确实影响参数估计（避免 naivete bias）。 - 本文的方法在存在依赖（裁定依赖于事件历史）时比 EM 更安全——因为 EM 要求延迟独立条件。 - 实际操作层面，两步 M-估计的可编程性高（直接用 R/SAS 写一个两阶段优化循环），而 EM 需要更复杂的缺失数据边际化。

🔎 结论是否比证明窄¶

窄于结论的点：本文所有定理都是在参数模型正确指定下证明的。 但简介和模拟分析中给人一种“即使模型有问题，我们方法也有效”的暗示。作者只模糊地提到了“我们的模型对分布形式比较稳健，因为 Gompertz+Gamma 是常见设定” —— 这并非严格证明，而是模拟显示对某种偏离不敏感。一旦模型严重误指定（如延迟分布并非 Gamma，而实际是双峰分布），仅凭两部分估计的一致性保证就不成立了。
Bootstrap 有效性：本文的 bootstrap 有效性证明假设“每个裁定状态在原始样本中至少观测到一次”。如果某个状态非常罕见（如在保险数据中“长期残疾”比例只有 0.5%），在 bootstrap 样本中会频繁出现整个 bootstrap 样本完全没有该状态的情形——那么偏差校正和区间覆盖就可能失败。作者未明确讨论该情况（只说“这在实践中通常不是问题”）。
“部分外生”的真实性：核心证明都依赖于“裁定过程仅依赖已观测事件历史”（H3）。但这种“部分外生”假定虽然在健康保险数据中是合理的（行政流程的确定性），更广义的临床试验中可能不成立——未报告的事件（刚发生、尚未进入系统）可能影响裁定顺序。若如此，绕开 EM 的优势将消失。本文没有给出一个“通过假设检验来验证部分外生性”的方案。

四、开放问题（点到为止，扎根具体语句）¶

半参数版本的估计与效率理论
本文全程是参数模型。但是，转移强度、延迟分布、裁定过程的哪些部分是真正需要参数假设的？能否将其扩展到半参数部分（如转移强度用 Cox 比例风险，延迟分布用非参数核估计）并推导半参数效率界？
扎根：本文定理1-3基于“参数模型正确指定”，但introduction末尾说“我们的方法可以自然地扩展至部分非参数……”——这只是conjecture。若真拓宽，则需要处理无限维参数用 empirical process 工具证明双步 Z-估计的渐近正态性（类似于 Newey & McFadden 的半参数部分）。
裁定不完全模型在逻辑上的“部分外生”是否能检验？
作者假设裁定过程仅依赖已观测到的事件历史（H3）。但在实际数据中，这个假设能否用离群诊断或敏感性分析进行检查？
扎根：文章第3.4节定义“部分外生”时用了一个“典型模拟场景”来说明其合理性，但没有给出正式的检验统计量。
Bean形式：当第一步模型（延迟分布）误指定时，本文的整个一致性是否仍成立？
扎根：文章只在模拟中检验了“模型对真实分布形式的微小偏离”下的表现（例如用 Weibull 替代 Gamma 生成数据），但没有给出关于误指定程度的渐近敏感性界（rate of bias 取决于 first-step misspecification degree），这是典型 M-估计文献会思考的方向。
计算可行性 vs. 非参数收敛率
本文使用两步 M-估计，计算上简单（可直接在 R 中优化）。但它的渐近方差（由于第二步的 imputation 和第一步的 thinning 交互）可能大于一个 fully observed 似然的 Cramér-Rao 界。是否存在计算-统计 tradeoff：为了计算方便（两步法）而损失了多少效率？本文没有讨论这个话题。
扎根：模拟部分缺少与“完全信息最大似然（若延迟和裁定完全可观测）”的对比——这是计量效率损失的自然基准。读者无法量化“到底损失了多少”。

提醒：要确认上述几点是否为真 gap，建议去读最近 5 年发表在 Biometrics、JRSS-C、Scandinavian Journal of Statistics 上的几篇多状态缺失模型方法论文——看它们是否已经在这些方向上做了一些工作（绝大多数方向可能已有零散进展，但未形成一个类似本文一样的统一两步框架）。若有多个工作指向同一个缺口（如在半参数效率界方向），则它是一个值得深挖的共识性问题。

Maintained by 陈星宇 · Homepage · Source on GitHub