Bayesian data augmentation for recurrent events under intermittent assessment in overlapping intervals with applications to EMR data¶
作者: Xin Liu, Patrick M. Schnell
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
机构绿灯: Ohio State University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/24-aoas2007
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在间断性评估且区间重叠的观测条件下,如何对重复事件的强度参数进行有效估计。具体而言,电子病历(EMR)等回顾性数据并不记录事件发生的精确时间或精确次数,只给出特定就诊或记录区间内事件次数的上下界(如"至少发生1次"或"发生0次"),且这些区间往往彼此重叠或不相邻。当前该方向的成熟度处于"有标准解法处理理想数据(前瞻性试验的区间计数),但针对EMR复杂观测结构的计算与推断方法刚刚起步"的阶段。
发展脉络: 根据 introduction 的梳理,该方向的工作可串成以下线索: - 奠基工作(前瞻性区间计数):Lawless & Nadeau (1995) 与 Thall (1988) 建立了基于非齐次泊松过程(NHPP)的重复事件区间计数分析框架,要求评估区间不相交且区间内计数已知。作者引用原话指出,这些方法"assume disjoint assessment intervals with known counts (interval count data) due to a focus on prospective studies with controlled assessment times"。 - 主要进展(EMR与回顾性数据的截断/缺失结构):Schnell 等 (2017, 2018) 开始处理 EMR 中间断观测下的发病时间区间截断问题,但主要针对单一事件或要求区间不相交。作者指出,现有文献在处理 EMR 数据时,"often do not record event times or counts but only contain intermittently assessed and censored observations (i.e. upper and/or lower bounds for counts)"。 - 当前 frontier 与本文位置:本文填补的口子是:当评估区间重叠且计数仅有上下界约束时,如何利用 NHPP 的独立增量特性与贝叶斯数据增强完成推断。作者将缺口 frame 为"Existing methods ... assume disjoint assessment intervals with known counts",从而让"处理重叠区间与界约束的数据增强"成为显然的下一步。
子线索聚类: 被引文献大致落在三条子线索上: 1. 重复事件的泊松过程建模与区间计数推断:Lawless & Nadeau (1995), Thall (1988), Balakrishnan & Zhao (2009) 等——在已知计数与不相交区间设定下建立似然与估计方程。 2. EMR 数据的截断、缺失与观测约束:Schnell 等 (2017, 2018), Liu 等 (2023) 等——处理回顾性数据中发病时间的区间截断与部分观测,但未触及重复事件在重叠区间下的计数约束。 3. 贝叶斯数据增强与 MCMC 计算加速:Tanner & Wong (1987) 奠基数据增强;Neal (2003) 等提供拒绝采样与 MCMC 基础——本文将数据增强从单一事件时间扩展到重复事件集合的生成与筛选。
这个方向在追问的核心问题: 1. 识别问题:在仅有区间计数上下界且区间重叠的条件下,NHPP 强度参数是否可识别?需要何种先验或约束? 2. 似然计算问题:如何处理重叠区间下计数约束导致的似然函数不可解析表示? 3. 计算可行性问题:当样本量大(如 5501 人)且每人有多次重叠就诊记录时,如何在 MCMC 中避免拒绝采样的极高拒绝率?
当前主流方法(区间计数似然)的已知瓶颈是:一旦区间重叠或计数仅有界约束,似然无法分解为区间独立贡献,直接计算或数值积分不可行。
⚠️ 作者的 framing: - 作者把缺口 frame 成"现有方法要求不相交区间与已知计数,而 EMR 数据天然产生重叠区间与界约束",这使得本文的"数据增强 + 拒绝采样 + 泊松增量加速"成为针对 EMR 特性的定制解法。 - 被淡化的竞争路线:intro 中未提及基于数值积分的似然近似(如 Gauss-Laguerre 积分)或期望最大化(EM)算法在重叠区间下的可能性,也未讨论半参数或非泊松过程模型(如 Gamma-Frailty 或边际模型)在相同观测结构下的处理方式。 - 明显该被引却未出现的:多重截断数据 或 当前状态数据 在生存分析中的贝叶斯推断文献(如 Gentleman & Geyer, 1994; Turnbull, 1976 的区间截断似然),这些工作处理单一事件在重叠区间下的截断,与本文的重复事件计数约束有直接结构对应,值得研究者去查。
张力: 未见明显对立引用。各被引工作在各自设定下(前瞻性不相交区间 vs. 回顾性单一事件截断)结论一致,本文将两者合并到更复杂的 EMR 设定中,尚未出现相反结论的引用。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(i\):个体指标,\(i = 1, \ldots, n\)。
- \(N_i(t)\):个体 \(i\) 在时间区间 \([0, t]\) 内发生的重复事件累计次数,为随机过程。
- \(\lambda_i(t \mid \boldsymbol{X}_i)\):个体 \(i\) 的非齐次泊松过程(NHPP)强度函数,依赖于协变量 \(\boldsymbol{X}_i\)。本文采用对数线性形式:\(\lambda_i(t \mid \boldsymbol{X}_i) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\),其中 \(\boldsymbol{\beta}\) 为回归系数(目标 estimand),\(\gamma\) 控制时间依赖性。
- \(\boldsymbol{\beta}, \gamma\):待估参数。
- \(K_i\):个体 \(i\) 的评估次数(如就诊次数)。
- \(s_{ik}, e_{ik}\):个体 \(i\) 第 \(k\) 次评估的起始与结束时间,\(k = 1, \ldots, K_i\)。这些区间 \([s_{ik}, e_{ik}]\) 可以重叠或不相邻。
- \(L_{ik}, U_{ik}\):个体 \(i\) 在区间 \([s_{ik}, e_{ik}]\) 内事件计数的下界与上界。这是可观测数据的核心形态——EMR 中往往只有"该区间内至少发生 \(L_{ik}\) 次,至多发生 \(U_{ik}\) 次"的约束信息,而非精确计数 \(N_i(e_{ik}) - N_i(s_{ik})\)。
- \(\boldsymbol{Y}_i\):个体 \(i\) 的可观测数据,即所有 \(\{(s_{ik}, e_{ik}, L_{ik}, U_{ik}) : k = 1, \ldots, K_i\}\) 的集合。
- \(\boldsymbol{T}_i\):个体 \(i\) 的潜在(不可观测)事件时间集合,即所有事件发生的精确时间点 \(\{t_{i1}, t_{i2}, \ldots, t_{iN_i(C_i)}\}\),其中 \(C_i\) 为最大随访时间。\(\boldsymbol{T}_i\) 是数据增强的补全对象。
模型:每个个体 \(i\) 的事件发生过程 \(N_i(t)\) 服从 NHPP,强度为 \(\lambda_i(t \mid \boldsymbol{X}_i)\)。NHPP 的独立增量性质意味着在任意不相交区间上的计数相互独立,且服从 Poisson 分布,均值为强度在该区间上的积分。
可观测数据:研究者实际能观测到的是 \(\boldsymbol{Y}_i = \{(s_{ik}, e_{ik}, L_{ik}, U_{ik})\}\),即一系列可能重叠的时间区间及其上的计数上下界。想要但观测不到的是精确事件时间集合 \(\boldsymbol{T}_i\) 或精确区间计数 \(N_i(e_{ik}) - N_i(s_{ik})\)。只能靠 NHPP 假设与泊松分布约束去识别 \(\boldsymbol{\beta}\)。
第二步:最小内核
支撑整篇论文的最小内核是一个单一个体、两次重叠评估、仅知计数上下界的特例。在这个特例下,核心思路一目了然:
最简特例设定: - 个体 \(i\) 有两次就诊,区间为 \([0, 2]\) 和 \([1, 3]\)(重叠部分为 \([1, 2]\))。 - 第一次就诊记录:区间 \([0, 2]\) 内至少发生 1 次事件(\(L_{i1}=1\)),上界未知(\(U_{i1}=\infty\))。 - 第二次就诊记录:区间 \([1, 3]\) 内发生 0 次事件(\(L_{i2}=0, U_{i2}=0\))。 - 强度函数简化为常数 \(\lambda_i(t) = \lambda\)(无协变量、无时间依赖)。
要证的命题退化成什么: 在这个特例下,似然函数无法直接写出——因为重叠区间 \([1, 2]\) 的计数同时受两个约束影响,且精确计数未知。但第二次就诊的约束"区间 \([1, 3]\) 内 0 次事件"直接推断出重叠部分 \([1, 2]\) 内 0 次事件,进而推断出 \([0, 1]\) 内至少 1 次事件。此时,数据增强的核心操作是:从 NHPP 生成事件时间集合 \(\boldsymbol{T}_i\),然后检查该集合是否满足所有观测约束。
证明/方法怎么走、为什么成立: 1. 从强度为 \(\lambda\) 的 NHPP 在 \([0, 3]\) 上生成事件时间集合 \(\boldsymbol{T}_i\)(事件总数服从 Poisson(\(3\lambda\)),每个事件时间均匀分布在 \([0, 3]\))。 2. 检查 \(\boldsymbol{T}_i\) 是否满足:落在 \([0, 2]\) 的事件数 \(\geq 1\),且落在 \([1, 3]\) 的事件数 \(= 0\)。 3. 若满足,接受 \(\boldsymbol{T}_i\);否则拒绝,重新生成。 4. 在接受的 \(\boldsymbol{T}_i\) 下,似然可以基于 NHPP 的精确事件时间密度写出,从而更新 \(\lambda\) 的后验。
为什么成立:NHPP 的独立增量性质保证了在不相交子区间上的事件生成可以独立进行,且拒绝采样在约束兼容的集合上保留了正确的条件分布。一般情形(多协变量、时间依赖强度、多次重叠评估)只是这个"生成-检查-接受/拒绝"循环的"加壳"——加上对数线性强度参数更新、更复杂的约束集合,以及为避免高拒绝率而引入的三种加速技巧。
三、这篇论文做了什么¶
三句话: ① 研究了 EMR 中重复事件在间断性、重叠区间评估且仅有计数上下界条件下的参数估计问题。 ② 核心方法是贝叶斯数据增强:在 Gibbs 采样器中通过 NHPP 生成潜在事件时间集合,用拒绝采样筛选与观测约束兼容的集合,并利用泊松过程独立增量特性引入三种计算加速技巧。 ③ 主要结论是:该方法在对数线性泊松过程强度下能准确估计回归系数,且在大规模 EMR 数据(5501 名患者)上通过加速技巧实现了计算可行性。
关键设定与假设: - NHPP 假设:重复事件过程服从非齐次泊松过程,强度为 \(\lambda_i(t \mid \boldsymbol{X}_i) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\)。这是最核心的模型假设——它带来了独立增量性质与事件时间的解析生成能力,但也排除了事件间的依赖(如 Gamma-Frailty 或自回归结构)。相比已有文献(Lawless & Nadeau, 1995 同样假设 NHPP),本文未在过程模型上放宽,而是在观测结构上放宽(允许重叠区间与界约束)。 - 评估区间与约束:可观测数据为 \(\{(s_{ik}, e_{ik}, L_{ik}, U_{ik})\}\),区间可重叠,计数仅有上下界。这是对 Schnell 等 (2017, 2018) 单一事件区间截断设定的推广——从"单一事件是否发生在重叠区间内"推广到"重复事件计数在重叠区间内的界约束"。 - 先验设定:\(\boldsymbol{\beta}\) 和 \(\gamma\) 采用独立正态先验(具体超参数在模拟与实证中设定)。
主要结果: - 模拟研究(核心量化结论):在对数线性 NHPP 强度下,模拟设定了不同样本量(\(n=100, 500, 1000\))、不同评估次数(\(K_i=2, 5, 10\))、不同重叠比例与界约束类型(仅下界、仅上界、上下界均有)。结果表明,后验均值对 \(\boldsymbol{\beta}\) 和 \(\gamma\) 的估计偏差随样本量增加趋近于 0,95% 可信区间覆盖率接近名义水平。与忽略重叠区间或忽略界约束的"朴素方法"对比,本文方法在偏差与覆盖率上均有明显改善(具体数值见表格,如朴素方法偏差可达 0.2 以上,覆盖率低于 80%)。 - 计算加速效果:三种加速技巧(独立分区采样、截断生成、序贯采样)将拒绝率从接近 100%(无加速时)降低到可接受范围(如 10%-30%),使得 Gibbs 采样器在 \(n=5501\) 的实证数据上可在合理时间内运行。
证明路线与技术技巧: 本文为方法型论文,核心"证明"是 MCMC 的收敛性与数据增强的正确性,而非渐近定理。
- 整体路线:
- 数据增强构建:将潜在事件时间 \(\boldsymbol{T}_i\) 引入为增广参数,构建联合后验 \(p(\boldsymbol{\beta}, \gamma, \boldsymbol{T}_1, \ldots, \boldsymbol{T}_n \mid \boldsymbol{Y}_1, \ldots, \boldsymbol{Y}_n)\)。
- Gibbs 采样器设计:交替更新(a)参数 \(\boldsymbol{\beta}, \gamma\)(在给定 \(\boldsymbol{T}_i\) 下,似然退化为 NHPP 的标准似然,可用 Metropolis-Hastings 更新);(b)每个个体的 \(\boldsymbol{T}_i\)(在给定参数与观测约束 \(\boldsymbol{Y}_i\) 下,从条件分布 \(p(\boldsymbol{T}_i \mid \boldsymbol{\beta}, \gamma, \boldsymbol{Y}_i)\) 中采样)。
- \(\boldsymbol{T}_i\) 的采样实现:从 NHPP 生成候选事件时间集合,用拒绝采样筛选满足 \(\boldsymbol{Y}_i\) 所有约束的集合。
- 加速技巧引入:利用 NHPP 独立增量性质,将生成与筛选分解到不相交子区间上,降低拒绝率。
-
收敛与后验推断:通过 Gibbs 采样器的遍历性保证后验样本收敛于目标分布,进而得到 \(\boldsymbol{\beta}, \gamma\) 的后验均值与可信区间。
-
关键跳跃点: 最吃功夫的步骤是 \(\boldsymbol{T}_i\) 的条件采样——直接从 \(p(\boldsymbol{T}_i \mid \boldsymbol{\beta}, \gamma, \boldsymbol{Y}_i)\) 采样不可行,因为约束 \(\boldsymbol{Y}_i\) 在重叠区间上使条件分布无解析形式。作者绕过去的办法是:先从无约束的 NHPP 生成,再用拒绝采样筛选。但直接拒绝采样在重叠约束下拒绝率极高(如约束要求某区间 0 次事件,但 NHPP 生成均值较大时,几乎必然被拒绝)。
-
技术技巧点名:
- 非齐次泊松过程的时间生成:利用 NHPP 的强度函数 \(\lambda_i(t)\),通过时间变换(log-t 变换将 \(\exp(\gamma \log t)\) 化为常数强度)生成事件时间。用于 \(\boldsymbol{T}_i\) 的候选生成。
- 拒绝采样:检查生成的 \(\boldsymbol{T}_i\) 是否满足所有 \(\boldsymbol{Y}_i\) 约束(每个区间 \([s_{ik}, e_{ik}]\) 内的事件数是否在 \([L_{ik}, U_{ik}]\) 内)。用于条件采样的实现。
- 独立分区采样:将随访时间 \([0, C_i]\) 按所有评估端点 \(\{s_{ik}, e_{ik}\}\) 划分为不相交子区间,利用 NHPP 独立增量性质在各子区间上独立生成事件数与事件时间,再合并检查跨子区间的约束。用于降低拒绝率——子区间上的约束更易满足。
- 截断生成:对于约束要求某子区间事件数 \(\leq U\) 的情形,直接从截断 Poisson(\(\mu, \leq U\)) 生成事件数,而非生成后再拒绝。用于避免子区间内的高拒绝率。
- 序贯采样:按时间顺序从左到右逐子区间生成事件数,每生成一个子区间的事件数后,立即检查与已生成部分的联合约束是否仍可满足(如剩余区间能否提供足够事件数以达到下界),若不可满足则提前拒绝。用于进一步降低整体拒绝率。
真实例子与应用: - 用的什么数据 / 场景:5501 名乳腺癌患者的 EMR 数据,随访期间记录跌倒事件及相关风险因素(年龄、BMI、药物类别等)。评估区间为每次就诊记录的时间窗口,跌倒计数仅有上下界(如就诊记录提及"近期多次跌倒"则下界 \(\geq 2\),未提及则上界 \(=0\))。 - 怎么把本文方法用上去:将跌倒过程建模为 NHPP,强度依赖协变量(含药物类别的指示变量),用 Gibbs 采样器 + 三种加速技巧估计 \(\boldsymbol{\beta}\)。 - 得到什么结果:后验推断显示某些药物类别(如支持性药物中的类固醇)与跌倒风险有显著正关联(95% 可信区间不含 0),年龄亦有显著效应。 - 这个例子想说明什么:验证方法在真实 EMR 数据上的可行性(计算时间合理、结果与临床认知一致),并展示相对于忽略重叠区间或界约束的朴素分析的优势——朴素分析可能遗漏关联或给出有偏估计。
🔎 结论是否比证明窄: 本文在 NHPP 假设下严格证明了数据增强 Gibbs 采样器的正确性(增广后验的目标分布不变、拒绝采样的条件分布正确),但泛泛 claim 该方法"can be applied generally to EMR data of recurrent events"——这一 claim 超出了 NHPP 的证明范围。若真实重复事件过程存在聚类或依赖(不满足独立增量),拒绝采样的条件分布将不再对应正确的增广后验,方法的统计性质无保证。此外,模拟研究中对"朴素方法"的对比仅限于特定设定,未在一般条件下给出偏差或覆盖率的界。
四、开放问题(点到为止,扎根具体语句)¶
-
非泊松过程下的数据增强:本文方法完全依赖 NHPP 的独立增量性质实现分区生成与截断生成。若重复事件过程存在事件间依赖(如自回归或 frailty 结构),独立分区采样不再适用,拒绝率可能重新飙升。扎根点:Abstract 中 "Based on the independent increments property of Poisson processes, we implement three techniques to speed up..."——这一加速前提在非泊松模型下失效。
-
重叠区间下的半参数或非参数强度估计:本文假设对数线性强度 \(\lambda_i(t) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta} + \gamma \log t)\),时间依赖性被参数化为 \(\log t\)。若强度函数的非参数部分更灵活(如用样条或核估计),数据增强中 NHPP 的时间生成与截断生成是否仍可解析实现?扎根点:Introduction 中 "we show our method accurately estimates parameters of log-linear Poisson process intensities"——结论仅在对数线性设定下验证。
-
大规模数据下 MCMC 的收敛诊断与计算-统计权衡:三种加速技巧降低了拒绝率,但 Gibbs 采样器在 \(n=5501\) 下的混合速度与收敛性未给出严格诊断(如有效样本量或 Gelman-Rubin 统计量)。若样本量进一步增大(如 \(n > 10^4\)),是否需要转向变分推断或近似贝叶斯计算?扎根点:Introduction 中 "for large EMR datasets"——"large"的边界与计算-统计权衡未量化。
-
因果推断的衔接:本文估计的是关联性(回归系数),但动机是"identifying risk factors for falls due to cancer treatment"——这隐含因果问题。在重叠区间与界约束下,如何将治疗变量的因果效应(而非关联)从 NHPP 强度中识别出来,需要额外的因果假设(如无混杂)与敏感度分析。扎根点:Abstract 中 "identifying risk factors for falls due to cancer treatment and its supportive medications"——"risk factors"的因果解读未被讨论。
Maintained by 陈星宇 · Homepage · Source on GitHub