Bayesian data augmentation for recurrent events under intermittent assessment in overlapping intervals with applications to EMR data¶

作者: Xin Liu, Patrick M. Schnell
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
机构绿灯: Ohio State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/24-aoas2007

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在间断性评估且区间重叠的观测条件下，如何对重复事件的强度参数进行有效估计。具体而言，电子病历（EMR）等回顾性数据并不记录事件发生的精确时间或精确次数，只给出特定就诊或记录区间内事件次数的上下界（如"至少发生1次"或"发生0次"），且这些区间往往彼此重叠或不相邻。当前该方向的成熟度处于"有标准解法处理理想数据（前瞻性试验的区间计数），但针对EMR复杂观测结构的计算与推断方法刚刚起步"的阶段。

发展脉络：根据 introduction 的梳理，该方向的工作可串成以下线索： - 奠基工作（前瞻性区间计数）：Lawless & Nadeau (1995) 与 Thall (1988) 建立了基于非齐次泊松过程（NHPP）的重复事件区间计数分析框架，要求评估区间不相交且区间内计数已知。作者引用原话指出，这些方法"assume disjoint assessment intervals with known counts (interval count data) due to a focus on prospective studies with controlled assessment times"。 - 主要进展（EMR与回顾性数据的截断/缺失结构）：Schnell 等 (2017, 2018) 开始处理 EMR 中间断观测下的发病时间区间截断问题，但主要针对单一事件或要求区间不相交。作者指出，现有文献在处理 EMR 数据时，"often do not record event times or counts but only contain intermittently assessed and censored observations (i.e. upper and/or lower bounds for counts)"。 - 当前 frontier 与本文位置：本文填补的口子是：当评估区间重叠且计数仅有上下界约束时，如何利用 NHPP 的独立增量特性与贝叶斯数据增强完成推断。作者将缺口 frame 为"Existing methods ... assume disjoint assessment intervals with known counts"，从而让"处理重叠区间与界约束的数据增强"成为显然的下一步。

子线索聚类：被引文献大致落在三条子线索上： 1. 重复事件的泊松过程建模与区间计数推断：Lawless & Nadeau (1995), Thall (1988), Balakrishnan & Zhao (2009) 等——在已知计数与不相交区间设定下建立似然与估计方程。 2. EMR 数据的截断、缺失与观测约束：Schnell 等 (2017, 2018), Liu 等 (2023) 等——处理回顾性数据中发病时间的区间截断与部分观测，但未触及重复事件在重叠区间下的计数约束。 3. 贝叶斯数据增强与 MCMC 计算加速：Tanner & Wong (1987) 奠基数据增强；Neal (2003) 等提供拒绝采样与 MCMC 基础——本文将数据增强从单一事件时间扩展到重复事件集合的生成与筛选。

这个方向在追问的核心问题： 1. 识别问题：在仅有区间计数上下界且区间重叠的条件下，NHPP 强度参数是否可识别？需要何种先验或约束？ 2. 似然计算问题：如何处理重叠区间下计数约束导致的似然函数不可解析表示？ 3. 计算可行性问题：当样本量大（如 5501 人）且每人有多次重叠就诊记录时，如何在 MCMC 中避免拒绝采样的极高拒绝率？

当前主流方法（区间计数似然）的已知瓶颈是：一旦区间重叠或计数仅有界约束，似然无法分解为区间独立贡献，直接计算或数值积分不可行。

⚠️ 作者的 framing： - 作者把缺口 frame 成"现有方法要求不相交区间与已知计数，而 EMR 数据天然产生重叠区间与界约束"，这使得本文的"数据增强 + 拒绝采样 + 泊松增量加速"成为针对 EMR 特性的定制解法。 - 被淡化的竞争路线：intro 中未提及基于数值积分的似然近似（如 Gauss-Laguerre 积分）或期望最大化（EM）算法在重叠区间下的可能性，也未讨论半参数或非泊松过程模型（如 Gamma-Frailty 或边际模型）在相同观测结构下的处理方式。 - 明显该被引却未出现的：多重截断数据 或 当前状态数据 在生存分析中的贝叶斯推断文献（如 Gentleman & Geyer, 1994; Turnbull, 1976 的区间截断似然），这些工作处理单一事件在重叠区间下的截断，与本文的重复事件计数约束有直接结构对应，值得研究者去查。

张力：未见明显对立引用。各被引工作在各自设定下（前瞻性不相交区间 vs. 回顾性单一事件截断）结论一致，本文将两者合并到更复杂的 EMR 设定中，尚未出现相反结论的引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(i\)：个体指标，\(i = 1, \ldots, n\)。
\(N_i(t)\)：个体 \(i\) 在时间区间 \([0, t]\) 内发生的重复事件累计次数，为随机过程。
\(\lambda_i(t \mid \boldsymbol{X}_i)\)：个体 \(i\) 的非齐次泊松过程（NHPP）强度函数，依赖于协变量 \(\boldsymbol{X}_i\)。本文采用对数线性形式：\(\lambda_i(t \mid \boldsymbol{X}_i) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\)，其中 \(\boldsymbol{\beta}\) 为回归系数（目标 estimand），\(\gamma\) 控制时间依赖性。
\(\boldsymbol{\beta}, \gamma\)：待估参数。
\(K_i\)：个体 \(i\) 的评估次数（如就诊次数）。
\(s_{ik}, e_{ik}\)：个体 \(i\) 第 \(k\) 次评估的起始与结束时间，\(k = 1, \ldots, K_i\)。这些区间 \([s_{ik}, e_{ik}]\) 可以重叠或不相邻。
\(L_{ik}, U_{ik}\)：个体 \(i\) 在区间 \([s_{ik}, e_{ik}]\) 内事件计数的下界与上界。这是可观测数据的核心形态——EMR 中往往只有"该区间内至少发生 \(L_{ik}\) 次，至多发生 \(U_{ik}\) 次"的约束信息，而非精确计数 \(N_i(e_{ik}) - N_i(s_{ik})\)。
\(\boldsymbol{Y}_i\)：个体 \(i\) 的可观测数据，即所有 \(\{(s_{ik}, e_{ik}, L_{ik}, U_{ik}) : k = 1, \ldots, K_i\}\) 的集合。
\(\boldsymbol{T}_i\)：个体 \(i\) 的潜在（不可观测）事件时间集合，即所有事件发生的精确时间点 \(\{t_{i1}, t_{i2}, \ldots, t_{iN_i(C_i)}\}\)，其中 \(C_i\) 为最大随访时间。\(\boldsymbol{T}_i\) 是数据增强的补全对象。

模型：每个个体 \(i\) 的事件发生过程 \(N_i(t)\) 服从 NHPP，强度为 \(\lambda_i(t \mid \boldsymbol{X}_i)\)。NHPP 的独立增量性质意味着在任意不相交区间上的计数相互独立，且服从 Poisson 分布，均值为强度在该区间上的积分。

可观测数据：研究者实际能观测到的是 \(\boldsymbol{Y}_i = \{(s_{ik}, e_{ik}, L_{ik}, U_{ik})\}\)，即一系列可能重叠的时间区间及其上的计数上下界。想要但观测不到的是精确事件时间集合 \(\boldsymbol{T}_i\) 或精确区间计数 \(N_i(e_{ik}) - N_i(s_{ik})\)。只能靠 NHPP 假设与泊松分布约束去识别 \(\boldsymbol{\beta}\)。

第二步：最小内核

支撑整篇论文的最小内核是一个单一个体、两次重叠评估、仅知计数上下界的特例。在这个特例下，核心思路一目了然：

最简特例设定： - 个体 \(i\) 有两次就诊，区间为 \([0, 2]\) 和 \([1, 3]\)（重叠部分为 \([1, 2]\)）。 - 第一次就诊记录：区间 \([0, 2]\) 内至少发生 1 次事件（\(L_{i1}=1\)），上界未知（\(U_{i1}=\infty\)）。 - 第二次就诊记录：区间 \([1, 3]\) 内发生 0 次事件（\(L_{i2}=0, U_{i2}=0\)）。 - 强度函数简化为常数 \(\lambda_i(t) = \lambda\)（无协变量、无时间依赖）。

要证的命题退化成什么：在这个特例下，似然函数无法直接写出——因为重叠区间 \([1, 2]\) 的计数同时受两个约束影响，且精确计数未知。但第二次就诊的约束"区间 \([1, 3]\) 内 0 次事件"直接推断出重叠部分 \([1, 2]\) 内 0 次事件，进而推断出 \([0, 1]\) 内至少 1 次事件。此时，数据增强的核心操作是：从 NHPP 生成事件时间集合 \(\boldsymbol{T}_i\)，然后检查该集合是否满足所有观测约束。

证明/方法怎么走、为什么成立： 1. 从强度为 \(\lambda\) 的 NHPP 在 \([0, 3]\) 上生成事件时间集合 \(\boldsymbol{T}_i\)（事件总数服从 Poisson(\(3\lambda\))，每个事件时间均匀分布在 \([0, 3]\)）。 2. 检查 \(\boldsymbol{T}_i\) 是否满足：落在 \([0, 2]\) 的事件数 \(\geq 1\)，且落在 \([1, 3]\) 的事件数 \(= 0\)。 3. 若满足，接受 \(\boldsymbol{T}_i\)；否则拒绝，重新生成。 4. 在接受的 \(\boldsymbol{T}_i\) 下，似然可以基于 NHPP 的精确事件时间密度写出，从而更新 \(\lambda\) 的后验。

为什么成立：NHPP 的独立增量性质保证了在不相交子区间上的事件生成可以独立进行，且拒绝采样在约束兼容的集合上保留了正确的条件分布。一般情形（多协变量、时间依赖强度、多次重叠评估）只是这个"生成-检查-接受/拒绝"循环的"加壳"——加上对数线性强度参数更新、更复杂的约束集合，以及为避免高拒绝率而引入的三种加速技巧。

三、这篇论文做了什么¶

三句话： ① 研究了 EMR 中重复事件在间断性、重叠区间评估且仅有计数上下界条件下的参数估计问题。 ② 核心方法是贝叶斯数据增强：在 Gibbs 采样器中通过 NHPP 生成潜在事件时间集合，用拒绝采样筛选与观测约束兼容的集合，并利用泊松过程独立增量特性引入三种计算加速技巧。 ③ 主要结论是：该方法在对数线性泊松过程强度下能准确估计回归系数，且在大规模 EMR 数据（5501 名患者）上通过加速技巧实现了计算可行性。

关键设定与假设： - NHPP 假设：重复事件过程服从非齐次泊松过程，强度为 \(\lambda_i(t \mid \boldsymbol{X}_i) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\)。这是最核心的模型假设——它带来了独立增量性质与事件时间的解析生成能力，但也排除了事件间的依赖（如 Gamma-Frailty 或自回归结构）。相比已有文献（Lawless & Nadeau, 1995 同样假设 NHPP），本文未在过程模型上放宽，而是在观测结构上放宽（允许重叠区间与界约束）。 - 评估区间与约束：可观测数据为 \(\{(s_{ik}, e_{ik}, L_{ik}, U_{ik})\}\)，区间可重叠，计数仅有上下界。这是对 Schnell 等 (2017, 2018) 单一事件区间截断设定的推广——从"单一事件是否发生在重叠区间内"推广到"重复事件计数在重叠区间内的界约束"。 - 先验设定：\(\boldsymbol{\beta}\) 和 \(\gamma\) 采用独立正态先验（具体超参数在模拟与实证中设定）。

主要结果： - 模拟研究（核心量化结论）：在对数线性 NHPP 强度下，模拟设定了不同样本量（\(n=100, 500, 1000\)）、不同评估次数（\(K_i=2, 5, 10\)）、不同重叠比例与界约束类型（仅下界、仅上界、上下界均有）。结果表明，后验均值对 \(\boldsymbol{\beta}\) 和 \(\gamma\) 的估计偏差随样本量增加趋近于 0，95% 可信区间覆盖率接近名义水平。与忽略重叠区间或忽略界约束的"朴素方法"对比，本文方法在偏差与覆盖率上均有明显改善（具体数值见表格，如朴素方法偏差可达 0.2 以上，覆盖率低于 80%）。 - 计算加速效果：三种加速技巧（独立分区采样、截断生成、序贯采样）将拒绝率从接近 100%（无加速时）降低到可接受范围（如 10%-30%），使得 Gibbs 采样器在 \(n=5501\) 的实证数据上可在合理时间内运行。

证明路线与技术技巧：本文为方法型论文，核心"证明"是 MCMC 的收敛性与数据增强的正确性，而非渐近定理。

整体路线：
数据增强构建：将潜在事件时间 \(\boldsymbol{T}_i\) 引入为增广参数，构建联合后验 \(p(\boldsymbol{\beta}, \gamma, \boldsymbol{T}_1, \ldots, \boldsymbol{T}_n \mid \boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_n)\)。
Gibbs 采样器设计：交替更新（a）参数 \(\boldsymbol{\beta}, \gamma\)（在给定 \(\boldsymbol{T}_i\) 下，似然退化为 NHPP 的标准似然，可用 Metropolis-Hastings 更新）；（b）每个个体的 \(\boldsymbol{T}_i\)（在给定参数与观测约束 \(\boldsymbol{Y}_i\) 下，从条件分布 \(p(\boldsymbol{T}_i \mid \boldsymbol{\beta}, \gamma, \boldsymbol{Y}_i)\) 中采样）。
\(\boldsymbol{T}_i\) 的采样实现：从 NHPP 生成候选事件时间集合，用拒绝采样筛选满足 \(\boldsymbol{Y}_i\) 所有约束的集合。
加速技巧引入：利用 NHPP 独立增量性质，将生成与筛选分解到不相交子区间上，降低拒绝率。
收敛与后验推断：通过 Gibbs 采样器的遍历性保证后验样本收敛于目标分布，进而得到 \(\boldsymbol{\beta}, \gamma\) 的后验均值与可信区间。
关键跳跃点：最吃功夫的步骤是 \(\boldsymbol{T}_i\) 的条件采样——直接从 \(p(\boldsymbol{T}_i \mid \boldsymbol{\beta}, \gamma, \boldsymbol{Y}_i)\) 采样不可行，因为约束 \(\boldsymbol{Y}_i\) 在重叠区间上使条件分布无解析形式。作者绕过去的办法是：先从无约束的 NHPP 生成，再用拒绝采样筛选。但直接拒绝采样在重叠约束下拒绝率极高（如约束要求某区间 0 次事件，但 NHPP 生成均值较大时，几乎必然被拒绝）。
技术技巧点名：
非齐次泊松过程的时间生成：利用 NHPP 的强度函数 \(\lambda_i(t)\)，通过时间变换（log-t 变换将 \(\exp(\gamma \log t)\) 化为常数强度）生成事件时间。用于 \(\boldsymbol{T}_i\) 的候选生成。
拒绝采样：检查生成的 \(\boldsymbol{T}_i\) 是否满足所有 \(\boldsymbol{Y}_i\) 约束（每个区间 \([s_{ik}, e_{ik}]\) 内的事件数是否在 \([L_{ik}, U_{ik}]\) 内）。用于条件采样的实现。
独立分区采样：将随访时间 \([0, C_i]\) 按所有评估端点 \(\{s_{ik}, e_{ik}\}\) 划分为不相交子区间，利用 NHPP 独立增量性质在各子区间上独立生成事件数与事件时间，再合并检查跨子区间的约束。用于降低拒绝率——子区间上的约束更易满足。
截断生成：对于约束要求某子区间事件数 \(\leq U\) 的情形，直接从截断 Poisson(\(\mu, \leq U\)) 生成事件数，而非生成后再拒绝。用于避免子区间内的高拒绝率。
序贯采样：按时间顺序从左到右逐子区间生成事件数，每生成一个子区间的事件数后，立即检查与已生成部分的联合约束是否仍可满足（如剩余区间能否提供足够事件数以达到下界），若不可满足则提前拒绝。用于进一步降低整体拒绝率。

真实例子与应用： - 用的什么数据 / 场景：5501 名乳腺癌患者的 EMR 数据，随访期间记录跌倒事件及相关风险因素（年龄、BMI、药物类别等）。评估区间为每次就诊记录的时间窗口，跌倒计数仅有上下界（如就诊记录提及"近期多次跌倒"则下界 \(\geq 2\)，未提及则上界 \(=0\)）。 - 怎么把本文方法用上去：将跌倒过程建模为 NHPP，强度依赖协变量（含药物类别的指示变量），用 Gibbs 采样器 + 三种加速技巧估计 \(\boldsymbol{\beta}\)。 - 得到什么结果：后验推断显示某些药物类别（如支持性药物中的类固醇）与跌倒风险有显著正关联（95% 可信区间不含 0），年龄亦有显著效应。 - 这个例子想说明什么：验证方法在真实 EMR 数据上的可行性（计算时间合理、结果与临床认知一致），并展示相对于忽略重叠区间或界约束的朴素分析的优势——朴素分析可能遗漏关联或给出有偏估计。

🔎 结论是否比证明窄：本文在 NHPP 假设下严格证明了数据增强 Gibbs 采样器的正确性（增广后验的目标分布不变、拒绝采样的条件分布正确），但泛泛 claim 该方法"can be applied generally to EMR data of recurrent events"——这一 claim 超出了 NHPP 的证明范围。若真实重复事件过程存在聚类或依赖（不满足独立增量），拒绝采样的条件分布将不再对应正确的增广后验，方法的统计性质无保证。此外，模拟研究中对"朴素方法"的对比仅限于特定设定，未在一般条件下给出偏差或覆盖率的界。

四、开放问题（点到为止，扎根具体语句）¶

非泊松过程下的数据增强：本文方法完全依赖 NHPP 的独立增量性质实现分区生成与截断生成。若重复事件过程存在事件间依赖（如自回归或 frailty 结构），独立分区采样不再适用，拒绝率可能重新飙升。扎根点：Abstract 中 "Based on the independent increments property of Poisson processes, we implement three techniques to speed up..."——这一加速前提在非泊松模型下失效。
重叠区间下的半参数或非参数强度估计：本文假设对数线性强度 \(\lambda_i(t) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\)，时间依赖性被参数化为 \(\log t\)。若强度函数的非参数部分更灵活（如用样条或核估计），数据增强中 NHPP 的时间生成与截断生成是否仍可解析实现？扎根点：Introduction 中 "we show our method accurately estimates parameters of log-linear Poisson process intensities"——结论仅在对数线性设定下验证。
大规模数据下 MCMC 的收敛诊断与计算-统计权衡：三种加速技巧降低了拒绝率，但 Gibbs 采样器在 \(n=5501\) 下的混合速度与收敛性未给出严格诊断（如有效样本量或 Gelman-Rubin 统计量）。若样本量进一步增大（如 \(n > 10^4\)），是否需要转向变分推断或近似贝叶斯计算？扎根点：Introduction 中 "for large EMR datasets"——"large"的边界与计算-统计权衡未量化。
因果推断的衔接：本文估计的是关联性（回归系数），但动机是"identifying risk factors for falls due to cancer treatment"——这隐含因果问题。在重叠区间与界约束下，如何将治疗变量的因果效应（而非关联）从 NHPP 强度中识别出来，需要额外的因果假设（如无混杂）与敏感度分析。扎根点：Abstract 中 "identifying risk factors for falls due to cancer treatment and its supportive medications"——"risk factors"的因果解读未被讨论。

Maintained by 陈星宇 · Homepage · Source on GitHub

Bayesian data augmentation for recurrent events under intermittent assessment in overlapping intervals with applications to EMR data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论