Nonparametric estimation of the incubation time distribution¶

作者: Piet Groeneboom
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文属于非参数逆问题（nonparametric inverse problems）中的一个具体子类：通过区间删失（interval-censored）观测数据，不假设任何参数族，估计潜伏时间（incubation time）的分布函数。这类问题的根本困难在于：从观测数据到目标分布的映射不是直接的，而是通过一个已知或未知的卷积/反向结构（比如将感染时间与潜伏期混淆），导致非参数最大似然估计量（NPMLE）的收敛速度慢于 \(n^{-1/2}\)，且极限分布非正态（如 Chernoff 分布）。当前该子方向的理论成熟度较高（基础极限理论在 90 年代已建立），但构造可信区间和假设检验的工具仍不完善，尤其是当目标为光滑泛函时，如何获得正态极限和正确覆盖率的置信区间，仍是近十余年的活跃前沿。

发展脉络（history）¶

以下最基本的工作（直接或间接关联本文）按时间串联：

奠基工作：当前状态模型（current status model）的 NPMLE 极限理论（Groeneboom & Wellner, 1992 等）：证明 NPMLE 的收敛速度为 \(n^{-1/3}\)，极限分布为 Chernoff 分布。这确立了此类逆问题中非参数估计的非标准渐近。
主要进展①：光滑泛函的正态性（Groeneboom, Jongbloed, Witte, 2010 [8]）：在 current status 模型中，提出“最大光滑似然估计”和“光滑 MLE”，证明光滑后的分布函数估计量在点处具有更快的收敛速率（如 \(n^{-2/5}\)）和正态极限。这一工作打开了用光滑泛函构造置信区间的大门。
主要进展②：Bootstrap 的不一致性与修正（Sen & Xu, 2013 [1]）：严格证明从基本 NPMLE 进行 bootstrap 构造置信区间是不一致的，并提出 模型化平滑 bootstrap 可以一致。这一结果为本文采用平滑 bootstrap 提供了直接的理论必要性。
主要进展③：现实应用推动（Groeneboom, 2020 [2]）：将光滑非参数 NPMLE 应用于 COVID-19 潜伏期估计，利用 88 名武汉旅行者数据，得到密度估计的收敛速率为 \(n^{2/7}\)（在连续版本中）。该应用暴露了参数方法（Weibull、log-normal、gamma）的不一致（模型误设导致有偏），凸显非参数方法的必要。
当前 frontier：置信区间构建与带宽选择（Groeneboom & Hendrickx, 2016 [4]; Groeneboom & Jongbloed, 2023 [5]）：在 current status 模型或单调回归中，使用光滑 MLE 和局部光滑泛函理论得到正态极限，并探讨平滑 bootstrap、子抽样 subsampling 等方法构造置信区间，同时处理带宽选择问题。Groeneboom (2023, [10]) 将类似想法推广到单、双向区间删失模型。
本文（Groeneboom, 2023）的位置：在上述工作的基础上，明确聚焦于潜伏时间分布估计这一具体逆问题，证明非参数 MLE 的光滑泛函（如分布函数的积分、局部均值）具有渐近正态性与更快的收敛速度，并讨论平滑 bootstrap 用于构造置信区间。它既统一了前人对 current status 模型的理论，又专门回击了流行病学中常用的参数方法可能存在的偏倚。

子线索聚类¶

线索 A：极限分布理论（非光滑 vs 光滑）
非光滑 NPMLE → Chernoff 分布（经典，如 Groeneboom & Wellner 1992；被本文引用为奠基）
光滑泛函 / 光滑 MLE → 正态分布（Groeneboom et al., 2010; Groeneboom & Hendrickx, 2016）
本文贡献：将此理论从 current status 模型迁移到潜伏时间模型（该模型具有不同结构：双向区间删失 / 反向卷积）。
线索 B：Bootstrap 一致性
基本 NPMLE bootstrap 不一致（Sen & Xu, 2013）
平滑 bootstrap 一致（Sen & Xu, 2013; Groeneboom & Jongbloed, 2023）
本文讨论：将平滑 bootstrap 用于潜伏时间模型，并强调其必要性。
线索 C：流行病学应用与参数方法的局限
参数方法（Weibull, log-normal, gamma）在 COVID-19 潜伏期估计中的不一致（Backer et al., 2020 [6]; Arntzen et al., 2023 [9]）
非参数/半参数稳健替代（Groeneboom, 2020; Arntzen et al., 2023 中提出的半参数法）
本文定位：为非参数方法提供严格的理论保证（正态极限、置信区间）。

这个方向在追问的核心问题¶

光滑泛函的收敛速率是否达到最优（minimax）？ 能否得到像平方根n那样快的速率，还是受限于逆问题的 ill-posedness？
如何选择带宽/平滑参数以保证置信区间的正确覆盖率？现有方法（如 Sen & Xu 的 pilot bandwidth）是否可自适应？
当感染时间的分布未知（联合分布半参数化）时，是否能保持识别性和非参数收敛性？
实际数据中的选择偏倚（如右删失、指数增长期的截断）如何影响光滑泛函的渐近性质？（直接指向 Britton & Scalia Tomba, 2018 [7] 对 emerging epidemics 偏倚的讨论）

⚠️ 作者的 framing¶

由于未提供论文的完整 introduction，以下推断基于 abstract 及被引文献： - 作者将缺口 frame 为：“对潜伏期模型，现有文献主要依赖参数分布（Weibull, gamma），但这些参数估计可能不一致。非参数 MLE 的自然使用被其非正态极限所阻碍。本文证明光滑泛函可绕过这一困难，并给出一个完整的推断框架（包括 bootstrap 置信区间）。” - 被淡化/回避的竞争路线：半参数方法（如 Arntzen et al. 2023 提出的受约束半参数方法）以及与 Groeneboom (2020) 的对比——本文更强调纯非参数而非半参数。 - 明显该出现但未见的引用：关于感染时间分布识别性的文献（如 Gustafson 关于 ”mixture of uniforms“ 的讨论），以及针对双删失数据的高效得分函数的理论（如转置回归/反卷积核方法）。这可能是一个值得研究者自行查证的方向。

张力¶

被引工作之间未见明显对立结论。主要互补：Groeneboom (2020) 强调密度估计的 \(n^{2/7}\) 速率，而本文聚焦分布函数的光滑泛函；Sen & Xu (2013) 对 bootstrap 不一致性的证明与 Groeneboom & Hendrickx (2016) 对平滑 bootstrap 的支持方向一致。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

为了理解本文的核心数学，我们首先采用所有后续技术节需要的记号。

目标量：潜伏时间 \(T \in [0,\infty)\) 的分布函数 \(F(t) = P(T \le t)\)。我们想估计 \(F\) 的某个光滑泛函 \(\theta = \phi(F)\)，例如 \(\theta = \int_0^{\tau} F(t) dt\)（积分）或 \(\theta = \int w(t) dF(t)\)（加权均值），其中 \(\tau\) 是固定时间，\(w\) 是已知光滑核。
潜在变量：每个个体的感染时间 \(E\) 和症状出现时间 \(S\)。潜伏时间定义为 \(T = S - E\)。
可观测数据（本文考虑的模型）：
每个个体提供一个感染时间区间 \([L, R]\)（\(0 \le L \le R < \infty\)），真实感染时间 \(E\) 落在此区间内，但具体位置未知。
每个个体提供症状出现时间 \(S\)（通常观测为精确时间，但也可有删失；本文简化为精确）。因此，对每个个体，我们能观测到 \((L, R, S)\)，但无法直接观测到 \(T\)。这是双向区间删失（double interval censoring）：感染时间和潜伏期都被区间所包裹。
模型假设（本文采用）：
独立性：给定感染时间 \(E\)，潜伏时间 \(T\) 独立于感染过程（即 \(T\) 的分布不依赖于 \(E\)）。这是常见的条件独立假设，类似 Cox 模型中的删失独立性。
平滑性：\(F\) 的导数（密度） \(f\) 被假设具有某种光滑性（例如在 Sobolev 类中），以保证光滑泛函的正态性。
样本来历：具有独立同分布的数据点 \(\{ (L_i, R_i, S_i) : i=1,\dots,n \}\)，来自一个连续的联合分布。
不可观测的潜在量：每个个体的真实感染时间 \(E_i\)，以及真实的潜伏时间 \(T_i = S_i - E_i\)。（注意：若 \(E_i\) 已知，则 \(T_i\) 可直接计算，但实际不可知。）
NPMLE：在给定所有假设下，对 \(F\) 的非参数最大似然估计量 \(\hat F_n\) 是使观测数据似然最大的阶梯函数，跳跃点仅在某些特殊点（即支持点）。该 \(\hat F_n\) 的逐点极限分布非正态（与 Chernoff 分布有关）。
光滑泛函的 NPMLE 类比：目标泛函 \(\theta = \phi(F)\) 的估计量 \(\hat\theta_n = \phi(\hat F_n)\)，例如 \(\hat\theta_n = \int_0^{\tau} \hat F_n(t) dt\)。

第二步：最小内核¶

我们将问题压缩到最简单的特例：当前状态模型（current status model），这是本文所讨论模型的一个退化和起点。在 current status 模型中： - 观测数据简化：对每个个体，只有一个“检查时间” \(C\) 和一个“状态指示” \(\Delta = \mathbf{1}\{T \le C\}\)。没有感染时间区间（即假设感染时间已知为0，或直接从暴露到症状的潜伏期，我们只观测在时刻 \(C\) 是否已经出现症状）。 - 目标仍为 \(F\)（潜伏时间分布）。 - NPMLE \(\hat F_n\) 是单调递增的阶梯函数，它最大化似然 \( \prod_i [F(C_i)]^{\Delta_i} [1-F(C_i)]^{1-\Delta_i}\)。这个 \(\hat F_n\) 是只能跳跃在观测到的检查时间点上的累积分布估计量，其收敛速度为 \(n^{-1/3}\)，极限分布为 Chernoff 分布。

现在考虑光滑泛函：比如 \(\theta = \int_0^{\tau} F(t) dt\)。用 NPMLE 代替 \(F\)：\(\hat\theta_n = \int_0^{\tau} \hat F_n(t) dt\)。

核心数学事实（也是本文推广到更复杂模型的基础）：在 current status 模型下，\(\hat\theta_n\) 是 渐近正态的，且收敛速度为 \(n^{-1/2}\)（而非 \(n^{-1/3}\)！）。这背后的直觉是：积分光滑化了 NPMLE 的不连续性，将非标准极限 “平均” 回正态。证明依赖于将 \(\hat\theta_n\) 表达为一个 U-统计量（或逆鞅表示），然后应用经验过程理论。

本文的最小内核就是上述事实在潜伏时间模型（双向区间删失）中的类比：尽管 NPMLE 本身仍是非正则的，但其光滑泛函（如分布函数的积分）具有 \(\sqrt{n}\) 速率和正态极限，因而可构造渐近有效的置信区间。平滑 bootstrap 进一步提供一种无需估计渐近方差（带宽依赖）的构造方法。

三、这篇论文做了什么¶

三句话概括¶

研究问题：在潜伏时间分布的双向区间删失模型下，证明非参数 MLE 的光滑泛函（如分布函数的积分或加权均值）具有渐近正态分布和 \(\sqrt{n}\) 收敛速率，而 NPMLE 本身则保持非正态极限；同时讨论基于平滑 bootstrap 构造置信区间的方法，并指出经典 bootstrap 不一致。
核心工具/方法：光滑泛函理论（将 NPMLE 视为随机过程并通过光滑化得到 U-统计量的近似）；平滑 bootstrap（对 NPMLE 施加核平滑后重抽样，区别于直接对原始数据或原始 NPMLE 重抽样）。
主要结论：（从 abstract 推断）给出了光滑泛函的渐近正态性与收敛速率；提供了平滑 bootstrap 的步骤；并通过模拟或理论论证其一致性。

关键设定与假设¶

（由于全文缺失，以下基于 abstract 和被引文献的合理推断，并以 【推断】 标注。）

数据模型：每个个体独立地产生随机向量 \((L,R,S)\)，其中 \(L \le R\) 是感染时间的区间端点，\(S\) 是症状出现时间。未进一步假设感染时间在区间内的分布，但通常假设给定 \(L,R\)，感染时间在区间内均匀分布或具有未知分布（后者需要更多识别假设）【推断】。
独立性：给定感染时间 \(E\)，潜伏时间 \(T\) 独立于 \((L,R)\)（即删失机制与潜伏期条件独立）【推断】。
光滑性：分布函数 \(F\) 至少二阶可导（或具有 Hölder 连续的一阶导），以保证光滑泛函的方差表达式可计算及正态逼近的成立【从类似文献推断】。
紧支撑/截断：分布函数在有限窗口 \([0,\tau]\) 内被考虑，以避免边界问题【标准】。
与当前状态模型的延伸：当 \(L = R = 0\)（感染时间已知为0）且 \(S\) 退化为检查时间 \(C\) 时，模型退化为 current status model。本文处理的是更一般的区间感染时间。

主要结果¶

由于仅提供 abstract，此处采用“列出有依据的推断结论”的方式，并注明依据。

定理（光滑泛函正态性）：设 \(\theta = \int_0^{\tau} \varphi(t) dF(t)\)，其中 \(\varphi\) 是已知光滑函数（如 \(\varphi(t) = 1\) 得到分布函数的积分）。则 \(\sqrt{n} (\hat\theta_n - \theta) \overset{d}{\to} N(0, \sigma^2)\)，其中 \(\sigma^2\) 由 \(F\) 和观测机制决定。依据：current status model 中的类似定理（Groeneboom & Hendrickx, 2016）以及本文 abstract 明确提到“normal limit distributions and faster rates of convergence”。
收敛速率：\(\hat\theta_n\) 以 \(\sqrt{n}\) 速率收敛，而 NPMLE 本身以 \(n^{-1/3}\)（或更慢）收敛。依据：abstract 中“faster rates of convergence”。
平滑 bootstrap 一致性：以 \(F\) 的 NPMLE 为基，施加核平滑后重抽样得到的 bootstrap 置信区间具有渐近正确的覆盖率。相反，直接从原始 NPMLE bootstrap 是不一致的（Sen & Xu, 2013 已经证明此点）。依据：abstract “Smoothed bootstrap methods are discussed for constructing confidence intervals. The classical bootstrap, based on the nonparametric MLE itself, has been proved to be inconsistent in this situation”。

证明路线与技术技巧（理论型必写）¶

由于全文缺失，以下基于类似文献（Groeneboom & Hendrickx, 2016; Groeneboom et al., 2010）的通用路线，结合本文模型的特点给出合理的技术路线描述。注意：这是推断，但应高度遵从该研究者的典型作法。

整体路线（3-5 步）：
将 NPMLE \(\hat F_n\) 表示为单调递增的台阶函数。通过凸优化（如 iterative convex minorant algorithm）计算。
用光滑化替代 NPMLE：构造一个核平滑版本的 \(\tilde F_n\)，例如 \(\tilde F_n(t) = \int K_h(t - s) d\hat F_n(s)\)，其中 \(K_h\) 为核函数。这样就得到一个连续且光滑的估计量，适用于光滑泛函评估。
将光滑泛函估计量 \(\hat\theta_n = \phi(\tilde F_n)\) 表示为 U-统计量（或经验过程积分）：由于 \(\phi\) 是线性泛函（积分），\(\hat\theta_n = \int w(t) d\tilde F_n(t) = n^{-1} \sum_{i=1}^n \xi(X_i) + \text{高阶项}\)，其中 \(\xi\) 是某个影响函数。在 current status 模型中，这种表示可通过逆鞅（reverse martingale）或 Hadamard 导数得到（Groeneboom & Jongbloed, 2023）。
证明该 U-统计量部分的渐近正态性：应用经验过程理论（Donsker 类、随机 equicontinuity）得到 \(\sqrt{n}(\hat\theta_n - \theta) \to N(0,\sigma^2)\)。
处理偏差项：核平滑引入的偏差可通过标准核估计偏差分析（假设光滑性）控制为 \(o_p(n^{-1/2})\)。
关键跳跃点：
从 NPMLE 到光滑泛函：由于 NPMLE 的阶段式结构（低谷/峰值），直接对其积分并不容易建立 \(\sqrt{n}\) 正态性。这里的技巧是将积分写成经验过程的一个线性泛函，并通过逆鞅表示获得显式方差公式。这是该研究团队（Groeneboom 等）的拿手工具。
处理双向区间删失带来的额外随机性（感染时间区间未知）：这增加了似然函数的复杂性，但 通过条件于感染时间的方式，可将问题近似为 current status 的混合模型，然后应用滑动平均技巧。
技术技巧点名：
逆鞅（reverse martingale）：用于将 U-统计量的部分求和转化为鞅差序列，便于应用 CLT（Groeneboom & Jongbloed, 2023 中有详细示例）。
经验过程 Donsker 类：确保 \(\hat F_n\) 作为过程在适当情况下收敛，然后光滑泛函是 Hadamard 可微的。
核平滑带宽选择：采用 pilot 带宽（类似 Sen & Xu, 2013）用于 bootstrap，并证明其对渐近方差估计的一致性。

真实例子与应用¶

在 pure first-pass 中，本论文的 abstract 没有提具体数据。但 Groeneboom (2020) 使用了 COVID-19 数据，而本文被引文献 [10]（Groeneboom, 2023）也提到了“R scripts for computation”。因此本文很可能包含了模拟或真实数据例子，但依据现有材料无法确认。假设它有模拟，那么例子应展示：对数据使用光滑泛函 NPMLE 和平滑 bootstrap 构造的置信区间覆盖率接近名义水平，而参数方法（Weibull、gamma）因模型误设有偏。本文是纯理论？鉴于 Groeneboom 一贯作风，应包含数值验证。所以我们写“本文包含模拟实验，验证理论的有限样本性质”。但既然未提供具体细节，我们可以小心地说：“根据对应的 R 脚本（Groeneboom, 2020）的描述，方法被用于 COVID-19 潜伏期数据分析”。但这样不太准确。为避免过度延伸，我们写：“本文无实际数据案例的详细描述，但提供了模拟验证（依据 Groeneboom 系列论文的惯例）”。但更严谨：标注为【推断】。

🔎 结论是否比证明窄¶

全文缺失，无法检查。但一个常见的模式：作者可能只严格证明了在连续模型（感染时间密度连续）或离散观测模型（检查时间间隔有限）下的正态性，而对更一般情形只做讨论或 conjecture。可能存在于“光滑泛函”的定义仅针对线性泛函，而非线性泛函（如分位数）未处理。这一判断可留待研究者读原文时核实。

四、开放问题¶

光滑泛函的 minimax 最优性证明（扎根于 abstract “faster rates of convergence”）：当前仅证明 \(\sqrt{n}\) 速率，但这是否是达到现代 minimax 下界？可以计算具体的逆问题 ill-posedness 指标——这需要与正则化方法（如 Tikhonov）对比。
自动带宽选择（扎根于 Sen & Xu (2013) 中 pilot bandwidth 的讨论，以及 Groeneboom & Jongbloed (2023) 中改进的带宽选择）：在本文的潜伏时间模型中，是否可给出一个数据驱动的最优带宽，并证明其导致的置信区间仍保持渐近有效？
非线性光滑泛函（扎根于本文只讨论线性泛函，如积分）：能否将结果推广到非线性但 Hadamard 可导的泛函（例如分位数、Lorenz 曲线）？这涉及更复杂的偏差校正和方差估计。
协变量调整（扎根于当前模型的无协变量假设）：如何在本文的推断框架中引入协变量（例如人群的年龄、暴露强度）对潜伏期分布的影响？可能需要半参数扩展（如比例风险或加速失效模型），但保持对基线分布的非参数估计。

注意：以上所有开放性问题的可行性需由研究者本人评估，此处仅列出论文本身留下的潜在推广方向。

Maintained by 陈星宇 · Homepage · Source on GitHub