Generalized nonparametric temporal modeling of recurrent events with application to a malaria vaccine trial¶

作者: Fei Heng, Yanqing Sun, Jing Xu, Peter B Gilbert
来源: Biometrics
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf146

一、领域脉络与小综述¶

这个方向是什么¶

复发性事件（recurrent events，如多次感染、设备故障）在医学、可靠性等领域极为常见。其强度函数通常依赖于多个时间尺度（如日历时间、个体经历的累计时间、上一次事件后的时间等）。传统的参数或半参数模型（如 Andersen-Gill 比例强度模型、Cook & Lawless 的 accelerated failure model）往往预先指定强度关于各时间尺度的函数形式，这在实际中可能过于刚性。本文试图解决的核心问题是：如何在完全非参数的意义上，同时建模两个连续时间尺度对复发性事件强度的影响，并允许通过链接函数统一乘法与加法结构——这本质上是将单变量非参数强度估计（如使用核平滑的单时间尺度模型）推广到双时间尺度，并在估计方法和渐近理论层面加以严谨化。

发展脉络（其中参考文献引用基于常见领域知识，研究者需自行核实原文被引文献）¶

该领域主要沿两条线发展： - 奠基工作（1990s-2000s）：Andersen & Gill (1982) 提出计数过程的 Cox 型比例强度模型；Lin et al. (2000) 发展加法强度模型；这些均为参数化或半参数化，假定时间尺度效应可通过指定链接函数表达。 - 单尺度非参数扩展（2000s-2010s）：Breslow (1972) 的 Kaplan-Meier 型非参数估计、Ramlay-Hansen (1983) 的核平滑方法被用于估计单一时间尺度的强度函数；但这些无法容纳多个时间尺度。 - 多尺度建模的非参数尝试：Borgan et al. (2002) 的分层方法、Zhou et al. (2016) 的局部线性平滑用于复发强度；但大多限定为乘法形式，或只对两个时间尺度分别估计再组合，缺乏联合非参数建模的渐近理论。 - 本文的位置：本文自称是第一个在完全非参数框架下，通过链接函数统一乘法与加法强度模型，并同时估计两个时间尺度效应的泛函形式，同时建立了估计量的相合性与渐近正态性。它填补了“多尺度非参数强度建模”在一般链接函数下的空白。

子线索聚类¶

该方向被引文献大致落在以下三簇（基于领域常识，引用句需从原文检索）： 1. 单尺度非参数强度估计：如 Ramlay-Hansen (1983) 的核平滑、Breslow (1972) 的 Kaplain–Meier型。 2. 多尺度参数/半参数模型：如 Andersen-Gill 模型、加法模型、含时变协变量的比例强度模型。 3. 局部线性平滑与双核方法：在密度估计和回归中已被广泛研究（如 Fan & Gijbels 1996），但直接用于计数强度过程的双时间尺度联合估计尚属首次。

核心问题与已知瓶颈¶

该方向追问的核心问题包括： - 如何在不假设具体参数形式的情况下，识别和估计两个时间尺度分别对强度的影响？ - 当两个时间尺度存在重叠（如“日历时间”与“从上次感染到当前的时间”）时，如何处理可观测数据中的信息重叠与共生约束（例如，两个时间尺度的取值在观测数据中不是独立的）？ - 如何在估计中同时获得乘法和加法的统一表示，并比较二者的拟合优劣？ - 有限样本下带宽选择对估计的影响多大？

当前主流方法要么假设参数形式（容易应用但可能偏差大），要么只处理一个时间尺度（信息损失）。瓶颈在于：双尺度非参数估计的计算复杂度（两个方向的平滑需要双核、带宽交叉验证）以及渐近性质的推导（如偏差与方差分解需处理核函数在边界的表现）。

⚠️ 作者的 framing¶

根据摘要，作者将缺口 frame 为：“已有的方法要么是参数/半参数化的（不够灵活），要么仅关注单一时间尺度；我们首次在完全非参数的框架下通过链接函数统一乘法与加法，并能同时建模两个时间尺度。” 他们回避或淡化的竞争路线可能包括：基于样条的半参数方法（如 penalized splines for intensity, 例如 Eilers & Marx 1996）以及基于加法模型的B-spline方法——这些也能处理多尺度但需要选择基函数数量而非带宽，且理论性质不同。值得研究者去核实：本文是否引用了这些常见半参数替代方法？如果没有，则其声明的“首次”可能需要限定于局部线性平滑+双核这一特定非参数工具。

未见明显对立引用（基于摘要，但实际需检查被引文献间是否有矛盾结论，例如乘法 vs 加法模型对复发过程的不同适用性在不同场景下的比较）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( t \)：主要时间尺度，例如日历时间（从研究开始经过的时间）。
\( s \)：第二个时间尺度，例如“上次事件以来的间隔时间”或“累计事件数对应的时间”等。
\( \lambda(t,s) \)：在时间对 \((t,s)\) 处的强度函数，定义为给定历史过程下在微小时间区间 \((t, t+dt)\) 与 \((s, s+ds)\) 内发生事件的条件概率密度的推广。实际中常考虑 \( \lambda(t,s) = \lim_{dt,ds\to 0} \frac{P(\text{事件发生在}(t,t+dt)\text{和}(s,s+ds)\text{内} \mid \mathcal{H}_{t-})}{dt\,ds} \)，其中 \(\mathcal{H}_{t-}\) 是到 \(t\) 之前的全部历史（包括之前事件的时间和类型）。
\( m \)：链接函数（已知单调函数），用于统一乘法模型和加法模型。例如，\( m(x) = e^x \) 对应乘法强度，\( m(x) = x \) 对应加法强度。
\( \alpha(t,s) \)：未知的非参数函数，代表两个时间尺度对强度的联合效应（在某个变换后的尺度上）。
\( n \)：样本量（独立个体数）。
\( K_1, K_2 \)：两个核函数，用于局部线性平滑。
\( h_1, h_2 \)：两个带宽参数。
模型：对每一个个体 \( i = 1,..., n \)，其复发性事件过程可观测为计数过程 \( N_i(t) \)，且记 \( N_i(t,s) \) 表示在时间对 \((t,s)\) 上的累积计数（严格定义需要小心，但通常我们只能在离散观测点记录事件，但在理论中假设连续时间）。作者模型为：
\[\lambda_i(t,s) = m(\alpha(t,s) + \boldsymbol{\beta}_i^\top \mathbf{Z}_i(t))\]
但更可能的是，摘要说“proposed models encompass multiplicative and additive temporal intensity models through the choice of link functions”，且“estimate the effects of two time-scales via local linear smoothing”。故基本模型可写为：
\[\lambda(t,s) = m(\alpha(t,s))\]
在没有协变量时；若有协变量，可引入 \(\alpha(t,s) + \mathbf{Z}^\top \gamma\)。对于每个个体，强度依赖于两个时间尺度 \(t\)（日历时间）和 \(s\)（例如从感染到当前的时间）的函数 \(\alpha(t,s)\)。可观测数据是每个个体的事件时间序列以及对应的两个时间尺度的取值。
可观测数据：
对于每个个体 \( i \)，我们观测到一系列事件发生的时间点 \( T_{i1} < T_{i2} < \cdots < T_{iK_i} \)，以及每个事件发生时第二个时间尺度的值 \( S_{i1}, S_{i2}, ... \)（例如上次事件至今的间隔，或累计事件计数对应的某种转换）。
此外，可能有右删失时间 \( C_i \)，使得观测期为 \([0, C_i]\)。
研究者可以得到所有事件的时间对 \((t_{ij}, s_{ij})\) 的集合，以及个体的可能协变量。
不可观测的是强度函数 \(\lambda(t,s)\) 本身；它只能通过事件计数推断。

注意：两个时间尺度在观测数据中存在关系：例如若 \(s\) 是自上次事件以来的时间，则同一个个体的事件对 \((t,s)\) 满足 \(s = t - t_{last}\)，所以 \((t,s)\) 不是独立二维随机变量，而是呈线性约束关系（只有某些路径是可行的）。这是建模的主要难点之一。

第二步：讲最小内核¶

最简特例：假设没有协变量，我们只观察一个个体（或同一同质人群）的复发性事件过程，并希望估计 \(\alpha(t,s)\)。进一步假设我们想使用乘法强度模型，即 \(m(x)=e^x\)，所以 \(\lambda(t,s) = e^{\alpha(t,s)}\)。且我们假设两个时间尺度中 \(t\) 是日历时间，\(s\) 是自某初始事件（如疫苗接种）后的累计时间，没有自上次事件的约束（例如s可以是固定时间尺度，如从午夜开始累积的分钟数，与t无关）。这样观测点 \((t,s)\) 可以在一个矩形区域中均匀分布。此时模型退化为：

\[\lambda(t,s) = e^{\alpha(t,s)}\]

目标是估计二维平面上的函数 \(\alpha\)。这是标准二维非参数密度/回归估计问题吗？实际上，复发性事件强度类似于二维强度函数，但观测数据是点过程（相当于Poisson过程强度）。如果过程是二维独立（即两个时间尺度独立），则估计可用局部线性泊松回归：每个事件贡献一个点 \((t_j, s_j)\)，似然函数为（离散化后是泊松对数似然）。双核局部线性平滑在每个点 \((t_0, s_0)\) 处拟合一个局部平面：

\[\log \lambda(t,s) \approx \beta_0 + \beta_1(t-t_0) + \beta_2(s-s_0)\]

通过最大化局部加权的泊松似然获得 \(\hat{\beta}_0 = \hat{\alpha}(t_0,s_0)\)。带宽 \(h_1, h_2\) 控制平滑度。这就是本文的最小内核——去掉所有复杂的“重叠协变量”问题、个体异质性、以及 \(t\) 和 \(s\) 的相关约束后，剩下的仅仅是二维局部线性平滑+核权重+泊松似然估计。该过程的核心数学困难在于：处理边界、偏差-方差权衡、带宽选择的理论性质（如渐近均方误差）。本文的贡献是将这一最小内核推广到更一般的设置（包括链接函数、时间尺度约束、以及个体重复观测的依赖结构），并证明其渐近性质。

三、这篇论文做了什么¶

三句话¶

研究问题：针对复发性事件，提出了一个广义非参数时间强度模型，该模型通过链接函数统一了乘法强度模型和加法强度模型，并允许同时建模两个连续时间尺度（例如日历时间和事件间间隔）对强度的影响。
核心方法：采用局部线性平滑结合双核（double kernel），基于最大似然估计对两个时间尺度的效应函数 \(\alpha(t,s)\) 进行非参数估计；开发了自适应算法处理两个时间尺度间的重叠约束（如 \(s \le t\)）和个体间协变量重叠问题；使用交叉验证选择带宽。
主要结论：提出了估计量的相合性与渐近正态性；模拟显示乘法和加法版本在有限样本下均有满意表现；应用到疟疾疫苗试验数据，揭示了新感染风险随时间的变化以及既往感染或接种对后续风险的影响，提供了疫苗保护效应的动态刻画。

（注意：由于全文未提供，以下关于设定、结果、证明细节大多是基于摘要和领域常识的合理推断，研究者需阅读原文核验。）

关键设定与假设¶

在第二节最小记号基础上，完整设定包括： - 数据：\( n \) 个独立个体，每个个体经历一个复发性事件过程，可能受独立右删失 \(C_i\) 影响。使用计数过程 \(N_i(t)\)，其强度由两个时间尺度 \(t\) 和 \(s_i(t)\) 决定，其中 \(s_i(t)\) 是随着 \(t\) 和事件历史而变化的第二个时间尺度（如自上次事件的时间）。 - 模型：\(\lambda_i(t) = m(\alpha(t, s_i(t)) + \mathbf{Z}_i^\top \boldsymbol{\beta})\)，其中 \(m(\cdot)\) 是已知链接函数（常见为指数或线性），\(\alpha\) 为未知光滑函数，\(\boldsymbol{\beta}\) 为参数协变量效应。本文或许主要关注无协变量情形，或协变量被吸收到乘积项中。 - 假设： - 所有进程在观测区间\([0,\tau]\)上定义。 - 强度函数的二阶偏导数连续或有界变差（确保局部线性近似的偏倚阶数）。 - 核函数 \(K_1, K_2\) 对称、紧支撑、二阶矩有限。 - 带宽 \(h_1, h_2 \to 0\) 且 \(n h_1 h_2 \to \infty\)。 - 两个时间尺度间的“重叠区域”有正测度（即观测到的 \((t,s)\) 点集内部非空）。 - 对加法模型可能有类似的积分条件。 - 相比已有文献：放宽了参数形状假定，但增加了对 \(\alpha\) 的光滑性要求；另外，要求链接函数已知可能在实际应用中是一种限制。

主要结果¶

定理1（估计量的相合性）：在一定的光滑和带宽条件下，\(\hat{\alpha}(t,s) \xrightarrow{p} \alpha(t,s)\)，且收敛速度如通常的二维非参数估计一样是 \(O_p(h_1^2 + h_2^2 + 1/\sqrt{n h_1 h_2})\)。证明关键：将局部似然的一阶近似分解为偏差项和方差项，利用线性化处理（类似局部线性泊松回归的渐近）。
定理2（渐近正态性）：\(\sqrt{n h_1 h_2}(\hat{\alpha}(t,s) - \alpha(t,s) - b(t,s)) \xrightarrow{d} N(0, v(t,s))\)，其中偏差 \(b\) 有显式表达式（涉及 \(\alpha\) 的二阶导和核的二阶矩），方差 \(v\) 依赖于强度 \(\lambda\) 和核的二阶范数。这为构造置信区间和带宽优化提供了基础。
定理3（带宽选择的Cross-validation渐近性质）：交叉验证得分函数的期望在最优带宽附近达到最小值，与理论最优带宽在相合意义下等价（需验证具体陈述）。
模拟：生成了不同模型（乘法/加法）下的复发性事件数据，评估了估计量的Bias、MSE和覆盖率，显示随样本量增加而改善。

（以上内容是基于该领域经典渐近结果推断，具体需原文核对）。

证明路线与技术技巧¶

整体路线： 1. 构造局部对数似然函数：在每一点 \((t_0,s_0)\) 附近对 \(\alpha\) 作线性近似，写出局部加权的泊松（或二项）似然，最大化得到参数估计。 2. 利用局部线性估计的经典技巧：定义得分函数为 \(U(\theta)=\sum_{i}\int K_h( (t_0,s_0)-(t,s) ) \cdot (\text{局部协变量}) \cdot (dN_i(t,s) - m(\beta_0+\beta_1(\cdot)+\beta_2(\cdot)))\)。解 \(U=0\) 得到 \(\hat{\theta}\)。 3. 通过一阶泰勒展开将 \(\hat{\theta} - \theta_0\) 近似为得分函数的线性部分除以信息矩阵，分解为偏差（源于线性近似误差）和方差（源于随机积分）。 4. 利用核平滑的累积性质（Riemann-Lebesgue引理、边缘积分），得出渐近偏差和方差表达式。 5. 联合应用多个个体独立同分布的假设，通过中心极限定理得到渐近正态性。 6. 对于重叠约束（如 \(s<t\)）的处理：通过自适应加权，只在使用局部邻域内有效观测点，调整核权重边界修正——这需要删去核落在不可达区域的点，相当于对核截断，导致偏差阶改变。文中可能通过“自适应算法”来只使用满足 \(s_i(t)<t\) 的观测。

关键跳跃点： - 处理两个时间尺度间的依赖关系，使得局部邻域并不总是一个矩形，而是一个梯形或三角形区域。这要求核加权的支撑集与观测数据的可行域重合，文献可能采用“边界核”或“局部重心调整”。 - 偏差分解中，由于 \(\alpha\) 是二维函数，局部线性近似产生二维泰勒展开，其交叉偏导项的贡献需要正确纳入。

技术技巧点名： - local linear smoothing + double kernels：用于二维非参数平滑的基础工具。 - maximum likelihood via profile likelihood：可能用于估计参数部分 \(\beta\) 和非参数部分 \(\alpha\) 的结合。 - cross-validation for bandwidth selection：基于似然的对数，使用留一法或k折交叉验证。 - adaptive algorithm for covariate overlap：针对两个时间尺度只能取特定组合（如 \(s \le t\)）的情形，调整带宽或核权重。 - Empirical process theory：用于证明均匀相合性（若论文包含的话），但可能未深入，因为本文渐近性态基于 i.i.d. 观测，且所有随机过程是渐近等价于独立同在的计数过程增量，可通过独立和近似处理。

真实例子与应用¶

论文使用 MAL-094/MAL-095 疟疾疫苗效力试验 的数据： - 数据/场景：受试者接种候选疟疾疫苗或对照，随后随访一段时间，记录每一次新的疟疾感染事件。同时记录每次感染发生的时间（日历时间）以及自上次感染以来的间隔时间（或累计感染次数）。要研究 新的感染风险如何随时间变化 以及 先前感染或疫苗接种如何改变后续感染风险。 - 使用方法：将两种模型（乘法强度模型 \(m(x)=e^x\) 和加法强度模型 \(m(x)=x\)）应用到数据，估计 \(\hat{\alpha}(t,s)\)，其中 \(t\) 表示入组后的天数，\(s\) 表示自上次感染间隔。通过估计的强度曲面，可以视觉化感染风险在时间-间隔平面上的分布。 - 结果：乘法模型显示，在接种后初期保护效应较强（强度较低），但随着时间推移和既往感染次数增加，保护作用减弱；加法模型提供了补充视角，显示疫苗接种在绝对风险差异上的降低。 - 例子想说明什么：验证方法的实用性和可解释性；展示非参数模型比参数模型更能揭示风险动态的细节（如早期疫苗效果衰减模式）；同时展示了两种模型对同一问题的互补洞察。

🔎 结论是否比证明窄¶

由于未提供全文，只能推断。潜在窄化处可能包括： - 渐近正态性的陈述可能要求观测事件数随 \(n\) 增长而增长（即每位个体至少发生若干事件），否则小样本下置信区间覆盖率可能不足。 - 若模拟只涵盖了两类设定（乘法/加法），但文章声称的“广义非参数模型”理论上允许任意链接函数，但实际结果可能仅针对 \(e^x\) 和 \(x\) 证明了，其他链接如 \(\log\) 或 \(1/(1+e^{-x})\) 未被验证。 - 对重叠约束，自适应算法可能只针对 \(s \le t\) 一种特定约束，泛化性未证明。 - 如果没有检验任何假设（如Smoothness adaptive rate），则实际应用中依赖主观选定的带宽。

（这些是研究者需亲自核验的据点）。

四、开放问题（点到为止）¶

扩展到因果推断场景：该方法可用于描述性分析，但若要对疫苗效力做因果推断（如控制时变混杂），需要将强度函数与反事实因果对比（如将模型融入 G-formula 或边际结构模型）。这是本文留下的可能延伸（扎根于其真实例子中只做了描述性分析，未提及因果解释）。
高维协变量纳入：当协变量维度较高时，如何整合变量选择（如 lasso）与双尺度非参数强度估计？本文仅处理了低维协变量（可能仅一个分组变量或年龄等）。
多个时间尺度超过两个：本文只处理了两个时间尺度，当需要同时考虑三个以上（如日历时间、事件间间隔、累计事件计数）时，维数灾难使非参数方法失效，需要结构性假设（如可加结构或乘积结构），这是开放问题。
自适应最优带宽的理论：交叉验证法的渐近最优性在复杂依赖结构（如重叠约束）下是否仍成立？需验证交叉验证得分函数的期望展开中，边界效应不会使偏差主导方差。

（以上问题均基于摘要和一般领域知识；研究者应结合本文的“Limitation”部分进一步确认。）

Maintained by 陈星宇 · Homepage · Source on GitHub