Wastewater surveillance using differentiable Gaussian processes¶

作者: Emily Somerset, Patrick E Brown
来源: Journal of the Royal Statistical Society Series C
主题: 流行病学
相关性: 5/10
机构绿灯: University of Toronto（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssc/qlae073

一、领域脉络与小综述¶

这个方向是什么¶

废水监测（Wastewater-based surveillance, WBS）通过分析废水中的生物标志物（如病毒RNA浓度）来追踪社区范围内传染病的时空传播动态。其根本的统计/科学问题是：如何从噪声大、缺值多、采样频率和密度不均的时空面板数据中，可靠地推断隐含的“真实病毒信号”及其变化率（导数），从而为公共卫生决策（如疫情阶段性判断、干预措施效果评估）提供实时或回顾性的量化依据。该子方向当前成熟度较低——大部分文献侧重于数据采集或流行病学解释，而系统的统计建模和不确定性量化工作仍在发展中，尤其对于导数（变化率/速度）的推断几乎空白。

发展脉络 (history)¶

根据论文引言及参考文献（Brown et al. 2020, 2022; 以及文中提及的较大范围WBS建模文献），可以将脉络串起来：

奠基工作——传统信号处理方法与简单时间序列模型：在WBS早期，实际操作中通常对原始浓度数据直接做移动平均/平滑（无专门统计模型），或使用简单的线性/分段回归来估计趋势（如Li et al., 2022; Medd-Gill, 2022）。作者指出，这类方法无法充分量化不确定性，也难以处理非均匀间隔的观测和缺失值。
- 留下口子：缺乏一个能联合建模时间趋势、空间站点相关性和测量噪声的完整概率框架。
主要进展——时空统计模型引入WBS：Brown et al. (2020, 2022) 针对安大略省的运营商级WBS数据，引入了贝叶斯分层模型（BHM），将共同的省级趋势（使用随机游走）和站点特异性偏差（使用空间相关结构）嵌入同一框架。
- 关键贡献：他们首次在WBS语境下处理了站点偏差、测量误差和缺失模式，并提供了后验不确定性量化。
- 留下的口子：这些模型使用了非可微的协方差函数（如指数核、随机游走），只能推断信号的水平，无法估计信号的导数（变化率）——而导数在判断疫情拐点/速度时至关重要。
当前 Frontier / 本文的位置：作者将前序工作（Brown et al.系列）直接扩展，核心贡献是在BHM中引入可微高斯过程（differential GP），以同时估计信号和导数。他们明确了“导数估计对模型的可微性敏感”这个新发现，并用三个真实数据集展现了框架的能力。
被引文献集群（作者原文引用判定）：
- 奠基/基准组：Li et al. (2022), Medd-Gill (2022) —— 简单移动平均；Brown et al. (2020, 2022) —— 贝叶斯分层模型（非可微），最主要的前序工作，本文直接在其上构建。
- 方法组（可微GP、状态空间、卡尔曼滤波）：Sigrist et al. (2015), Hartikainen & Särkkä (2010) —— 提出使用IWP(2)和状态空间表示法来做可微的GP；Rue et al. (2009) —— INLA近似，计算框架基础。
- 流行病学应用：Xiao et al. (2022), Ahn et al. (2023) —— 对校正用胡椒轻型花叶病毒（PMMoV）的应用。

子线索聚类¶

这些被引文献大致落在3条子线索上： 1. 贝叶斯时空建模（WBS内）：以Brown et al.为代表，在省/市级水平上构建分层模型、处理站点相关性和缺失值。核心是推断信号水平。 2. 可微高斯过程/状态空间模型：以Sigrist, Hartikainen & Särkkä为代表，从时间序列建模数学结构出发，提出利用Integrated Wiener过程 (IWP) + 状态空间表示来构造可对时间求导的GP。 3. WBS指标与校正方法：以Xiao, Ahn为代表，专注于病毒指标（如SARS-CoV-2、RSV）在废水中的检测和归一化（使用PMMoV，一种粪便污染指示物），是数据预处理层面的工作。

这个方向在追问的核心问题（2-4个）¶

如何有效融合多站点、多层次的空间-时间-测量误差信息，实现病毒信号的稳健推断？（Brown et al. 已经部分解答，但未涉及导数）
如何从噪声废水数据中，可靠地估计信号变化率（一阶导数）并量化其不确定性？（本文试图回答，是所声称的主要创新）
导数估计对模型结构（尤其是GP的先验可微性）有多敏感？（本文直接回答了这个问题，指出“敏感”）
当监测系统从回顾性切换到实时监测（sequential prediction）时，模型的性能和不确定性会如何变化？（本文有所涉及，通过留出法模拟实时场景）

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：他们将现有WBS统计模型（尤其Brown et al.）描绘成“只能估计信号水平，无法估计信号变化率”，从而将自己的工作定位为“显然的下一步”——通过替换一个可微GP（IWP(2)）来同时解锁信号水平和导数的联合估计。他们反复强调“导数是公共卫生沟通和决策的核心信息”，但之前竟未被统计建模重视。
竞争路线被淡化/回避：论文淡化了简单差分法（或局部线性回归） 估计导数的可能性——虽然可以用于粗估，但不确定性量化非常粗糙，且对缺失值/不规则采样不稳健。同时也回避了对比平滑样条（smoothing spline） 这类也能自然地提供导数估计的非参数方法。
明显该被引/存在，却没出现：似乎没有引用动态因子模型（dynamic factor model） 或时序因果发现方法（如Granger因果） 在WBS中的应用——这些方法可能对解释多站点信号的领先/滞后关系（导数变化的相对方向）有用。此外，对变分推断或ADVI等更快后验近似方法的讨论几乎没有（INLA是唯一的近似），但INLA依赖于GMRF结构，非GMRF模型时存在计算瓶颈。

张力¶

未见明显对立的引用或矛盾。文献在“信号水平是重点”方面一致，本文是第一篇正式处理导数问题的WBS统计建模工作，并未声称推翻过去，只是补上缺失的一环。没有发现不同条件下得出相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
- \( t \) ：时间（连续或不规则）。
- \( y_{ik} \) ：在第 \( i \) 个时间点、第 \( k \) 个监测站点观测到的病毒浓度对数（log-concentration）。
- \( \varepsilon_{ik} \) ：测量误差/噪声，通常假设为独立高斯噪声： \( \varepsilon_{ik} \sim N(0, \sigma^2_{obs}) \) 或各有变异性的 \( N(0, \sigma^2_{obs,k}) \)。
- \( \mu(t) \) ：在时间 \( t \) 的共同趋势（common trend）——一个平滑的潜在病毒信号，由全地区共享。它是待估的核心参数（signals）。
- \( \eta_k(t) \) ：第 \( k \) 个站点相对于共同趋势的偏差（station-specific deviation）——代表该站点特有的局部动力学或随机波动。
- 核心想法：总信号 = \( \mu(t) + \eta_k(t) \)，或更一般：\( \text{true signal}_{k}(t) = \mu(t) + \eta_k(t) \)。
模型（完整版，先用大白话）：
- 观测值 = 真实信号（含共同趋势 + 站点偏差）+ 测量噪声。
- 共同趋势 \( \mu(t) \) ：赋予一个 Gauss-Markov prior —— 具体来说，它是一个Integrated Wiener Process（IWP） 的阶数为2（即 IWP(2)）。这等价于说 \( \mu(t) \) 的二阶导数是白噪声（先验方差 \( \sigma^2_{trend} \)），从而 \( \mu(t) \) 本身在 \( C^1 \) 中（一次连续可微）。这是一种“自然三阶多项式”的先验：样本路径在每一点都满足 \( \mu''(t) \sim GP(0, \sigma^2_{trend} \cdot \delta) \)（方差控制曲率的变化速度）。
- 站点偏差 \( \eta_k(t) \) ：使用Matérn协方差函数，平滑度参数 \( \nu = 1.5 \)（可微阶数=1）。这意味着 \( \eta_k(t) \) 的一阶导数连续，二阶导数不存在（但几乎处处可定义）。Matérn(ν=1.5) 提供了一个灵活的平滑性控制，且允许站点偏差有各自的方差和长度尺度，由超参数控制。
- 误差 \( \varepsilon_{ik} \) ：独立高斯，可能异方差。
可观测数据：
- 可观测的是 \( y_{ik} \) —— 在不同时间 \( t_i \) 下、不同站点 \( k \) 测得的病毒浓度对数（log）。时间点可以是不规则的（非等间隔），且可能大量缺失（例如站点某天未采样）。
- 不可观测/潜在部分：
  - 真实病毒信号 \( \mu(t) + \eta_k(t) \) —— 这是目标，但被噪声淹没。
  - 导数 \( \frac{d}{dt}\mu(t) + \frac{d}{dt}\eta_k(t) \) —— 完全不可直接测量，完全靠模型结构（可微性）和观测数据来识别/后验推断。

第二步：讲最小内核（最简例子）¶

特例：单站点、无缺失、等间隔情形 —— 去掉所有“站点偏差”和“缺失模式”的复杂结构，只留下核心思想：如何从一个可微GP先验的模型中同时估计信号和导数？

设定：只有一个站点（因此没有 \( \eta_k(t) \) ），时间点等间隔：\( t_i = i\Delta \)， \( i=1,\dots,n \)。观测方程为：
\[y_i = \mu(t_i) + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2_{obs}) \text{ i.i.d.}\]
其中我们赋予 \( \mu(t) \) IWP(2) 先验：
\[\mu''(t) \sim \text{White Noise}(t) \quad \text{（方差 } \sigma^2_{trend} \text{）}\]
这意味着 \( \mu(t) \) 的样本路径是二次可积、一次连续可微、二次导数在L2意义下存在但非连续。
问题：在贝叶斯框架下，给定观测 \( \{y_i\} \)，后验均值 \( \hat{\mu}(t) \) 和 \( \hat{\mu}'(t) \) 是什么？
核心思路（状态空间表示 + 卡尔曼滤波/平滑）：
1. 把IWP(2)变成状态空间模型：定义状态向量 \( \mathbf{S}_i = [\mu(t_i), \ \mu'(t_i)\Delta]^T \)（可能是 \( \mu'(t_i) \) 本身，但通常用时间步长归一化）。通过IWP的增量性质，可以写出状态转移方程：
  \[\mathbf{S}_{i+1} = \mathbf{A} \mathbf{S}_i + \mathbf{W}_i, \quad \mathbf{W}_i \sim N(\mathbf{0}, \mathbf{Q})\]
  其中 \( \mathbf{A} = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} \)（对于离散步长 \( \Delta=1 \)），\( \mathbf{Q} = \begin{bmatrix} \frac{1}{3}\sigma^2_{trend} & \frac{1}{2}\sigma^2_{trend} \\ \frac{1}{2}\sigma^2_{trend} & \sigma^2_{trend} \end{bmatrix} \)（来自IWP(2)的局部积分）。关键：状态 \( \mathbf{S}_i \) 的第二个分量正是 \( \mu'(t_i) \)（的比例），所以导数被直接编码为状态变量——一旦我们估计出状态的后验，导数的后验也就得到了。
2. 观测方程：
  \[y_i = [1, \ 0] \mathbf{S}_i + \varepsilon_i\]
  只观测到信号水平（第一个分量），导数不可观测。
3. 后验推断：现在模型完全是一个线性高斯状态空间模型（LGSSM）。后验均值 \( \hat{\mathbf{S}}_i \) 可以通过卡尔曼滤波（前向） + 卡尔曼平滑（后向） 在 \( \mathcal{O}(n) \) 时间内计算。滤波给出基于当前和过去观测的状态估计，平滑则使用所有观测，得到最终的后验分布。
4. 输出：
  - 卡尔曼平滑器输出 \( \hat{\mu}(t_i) = \hat{S}_{i,1} \) 和 \( \hat{\mu}'(t_i) = \hat{S}_{i,2} / \Delta \)（如果状态定义里有Δ缩放的话）。
  - 完整的后验协方差也可以计算，因此可得到信号和导数的后验置信区间。
为什么这是“最小内核”？
- 它抓住了本文的核心数学操作：把可微GP（IWP(2)）表示成一个状态空间模型，其中导数是一个可直接推断的状态变量。
- 所有真实的复杂性（多站点、缺失值、Matérn偏差、不等间隔）只是在基本框架上加“壳”——通过将Matérn(ν=1.5)也表示为状态空间模型（阶数为2的ARIMA(2,2)等），并引入独立的站点层级，回到广义的LGSSM上做推断。
- 这个例子说明，本文的“理论创新”并不深奥：本质上是重新参数化 + 状态空间技巧，使得求导变成滑动估计线性系统的一部分。而难点在于如何将这种状态空间表示扩展到多站点/实时监测/非高斯数据，以及后验计算的可扩展性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在废水监测的贝叶斯分层建模（BHM）框架下，联合估计潜在病毒信号及其一阶导数，并保留完整的不确定性量化。
核心工具/方法：使用可微高斯过程作为信号平滑先验：共同趋势用Integrated Wiener Process（IWP(2)），站点偏差用Matérn(ν=1.5)协方差，两者均可写为状态空间模型，从而利用卡尔曼滤波/平滑进行高效后验计算。
主要结论：该框架在回顾性和实时监测场景下，均能给出信号和导数的可靠估计（如后验区间覆盖率良好）；导数估计对模型的可微性很敏感（使用非可微模型如IWP(1)或Matérn ν=0.5会显著改变导数的后验分布）。

关键设定与假设（在最小记号上补齐）¶

完整BHM形式：
- 观测层级：
  \[y_{ik} \mid \theta_{ik}, \sigma^2_{obs,k} \sim N(\theta_{ik}, \sigma^2_{obs,k}), \quad \theta_{ik} = \mu(t_i) + \eta_k(t_i)\]
  其中 \( \sigma^2_{obs,k} \) 是站点特异测量误差方差。另外，还有一个对数似然的纠正因子（log-Normal与浓度关系的细节，非核心）。
- 过程层级：
  - 共同趋势 \( \mu(t) \sim GP(0, \Sigma_{IWP(2)}) \) —— 等价于 IWP(2)，先验由超参数 \( \sigma^2_{trend} \)（控制曲率变化）和可能的长度尺度控制。
  - 站点偏差 \( \eta_k(t) \sim GP(0, \Sigma_{Matérn(\nu=1.5)}) \) —— 平滑度参数固定为 ν=1.5，保证一阶可微。协方差由站点特异方差 \( \sigma^2_{site,k} \) 和长度尺度 \( \rho_k \) 控制。
- 超参数：所有过程级方差、长度尺度、测量误差方差都被赋予无信息或弱信息先验（如Gamma）。
相比已有文献的放宽/强化：
- 放宽：相比于Brown et al. (2020, 2022) 使用的随机游走（非可微），本文的模型能够直接提供导数估计。
- 强化：相比直接用平滑样条，本文提供了完整的贝叶斯框架来处理多站点、缺失值和不确定性量化；相比直接用状态空间模型，本文允许站点偏差有自己的平滑性（Matérn ν=1.5）而非简单AR(1)。
假设：
- 协方差结构合理：IWP(2)的“二阶导数白噪声”和Matérn(ν=1.5)的平滑性假设需要符合潜在的物理过程。过度平滑可能掩盖真实的高频变化（如快速爆发），欠平滑可能对噪声过度敏感。作者在用数据验证（Cross-Validation）而非先验论证。
- 计算假设：模型的可扩展性依赖于状态空间的维度（站点数 × 状态数），在站点很多时（如1000+）计算会崩溃。作者只测试了≤20个站点的设置。

主要结果¶

理论部分（本论文更重应用，理论结果隐含在状态空间表示的推导中）：

关键“定理”/性质（作者在文内用文字说明，没有标准定理编号）：
1. IWP(2)的平滑性：其样本路径是一次连续可微的（\( C^1 \)），二次导数存在且几乎处处为零（但仅白噪声先验）。这保证了可以对其采样轨迹连续地求导。
2. Matérn(ν=1.5)的平滑性：\( C^1 \) 且一阶均方可微，提供了足够的平滑性来定义导数。
3. 状态空间表示：两种过程都可用LGSSM表示，且其状态维度很低（恒定2阶IWP(2)，2阶的ARIMA(2,2)对应Matérn ν=1.5的离散化）。

实证部分（3个真实例子）：

数据：
- 加拿大 SARS-CoV-2：5个城市站点，2021年9月-2022年4月，每周采样。用于回顾性拟合。
- 伦敦 (UK) SARS-CoV-2：0个站点（按区域聚合），2020年9月-2021年10月，每周多次采样。用于回顾性拟合。
- 加州中部 RSV：7个站点，2022年9月-2023年6月，每周采样（PMMoV归一化后）。用于回顾性+实时监测模拟。
模型适配与推断：使用马尔可夫链蒙特卡洛 (MCMC)（具体是HMC/NUTS，在Stan中实现）。因为LGSSM允许对状态进行边缘化 (Rao-Blackwellization)，所以MCMC的采样维度仅包括超参数（方差、长度尺度、测量误差），不包括状态变量本身，这使得MCMC的效率较高。
结果（数值+图形）：
- 回顾性拟合：信号（后验均值）能很好地拟合观测值，后验区间覆盖了大部分数据点。在加拿大数据中，模型分离了“由站点偏移导致的峰值”和“共同趋势的峰值”。
- 实时监测模拟（针对RSV数据）：用前n周数据训练，预测未来1-2周的信号和导数。结果显示，在监测窗口内，后验区间大多能捕获真实信号的变化，预测的导数正负与临床监测数据（RSV门诊就诊量）的变化方向一致。
- 导数对比：作者特意比较了使用可微模型（IWP(2)+Matérn ν=1.5） 与使用非可微模型（IWP(1) + Matérn ν=0.5/指数核） 的导数后验。结果明确显示：非可微模型给出的导数后验非常“杂乱”且置信区间更宽，而可微模型给出的导数后验更平滑、更可信。这个对比直接支持了开头的framing。
这个例子想说明什么：
- 验证理论：展示贝叶斯分层模型+可微GP在实际WBS数据上是可行的，且导数估计是合理的。
- 展示相对baseline优势：虽然未做严格的RMSE对比，但通过对导数的可视化，直观展示了可微模型在捕捉变化率上的优势。他们也指出，如果用过度可微的模型（如三次样条），导数可能被过平滑掉（但未展示）。

证明路线与技术技巧（方法型，侧重计算）¶

整体路线（计算视角）：
1. 模型构建：写BHM，定义过程层（IWP(2) + Matérn ν=1.5）。
2. 状态空间表示：将IWP(2)和Matérn(ν=1.5)写成状态的线性高斯转移方程和观测方程。这是整个方法的“杀手锏”，因为一旦做到，后验计算就从 \( O(n^3) \) 的普通GP降到 \( O(n) \) 的卡尔曼平滑。
3. MCMC设计：通过状态边缘化：在MCMC中，只对超参数空间进行采样，而对于每个采样得到的超参数，计算 卡尔曼平滑 给出状态（包括信号和导数）的边际后验（均值、方差）。这样MCMC的接受率几乎不受状态维度影响。
4. 后验推断与输出：对于每个MCMC样本，从状态空间模型得到信号和导数的后验分布。最终的后验分布是MCMC链的加权平均。
关键跳跃点：状态空间表示的通用性——作者需证明Matérn(ν=1.5)（在半整数平滑度）可写为LGSSM，且其状态维度为2（因为它是ARIMA(2,2)的连续时间对应，在一个固定离散网格上近似）。这个跳跃并不平凡：需将连续时间GP离散化为离散时间状态空间模型，而且求导需要小心处理。作者在此引用了Hartikainen & Särkkä (2010) 和 Sigrist et al. (2015)的偏好解法。
技术技巧点名：
- 状态空间建模：核心技巧。将GP转化为低维状态空间，使计算从 \( O(n^3) \) 降为 \( O(n) \)。
- 卡尔曼滤波/平滑：用于推断状态（信号及其导数）的后验。
- 马尔可夫链蒙特卡洛（HMC/NUTS）：用于超参数的后验采样，利用Stan实现。
- Rao-Blackwellization/状态边缘化：提高MCMC效率的关键。

🔎 结论是否比证明窄¶

是的，存在一个狭窄点： - 论文在引言和结论中广泛声称该框架能提供“可靠估计”，但该“可靠性”的验证完全基于后验区间的覆盖率在三个数据集上是好的（未见明确的模拟实验证明它能在各种模型误设下保持稳健）。例如，如果真实的共同趋势比IWP(2)更粗糙（如爆发性增长），模型可能会过度平滑，导致导数估计虚假平滑。该潜在局限性只字未提。 - 他们称“导数估计对模型可微性敏感”，但这个敏感性的程度并未量化（如敏感性分析中变化了多少RMSE）。他们只是垂范可视化，使用了一个非可微模型和一个可微模型做比较。因此，claim“敏感”是定性的、有条件，而非稳健的定量结论。

四、开放问题（扎根具体语句）¶

更高的平滑性设定：如果共同趋势不是二次可微的（例如爆发期，信号具有尖峰或断裂点），IWP(2)可能会过度平滑导数。能否使用松弛可微性（例如分级嵌套先验：IWP(1) + 跳跃过程）来适应这种非平滑的真实变化？
- 扎根：论文第3.3.2节中明确写道：“对于SARS-CoV-2，IWP(2)很好地抓住了减速期，但可能在快速激增的开始阶段平滑得更慢。” 这是一个暗示，但未被深入探索。
实时监测的效率 vs latency：对于实时决策（如提前一周预警），IWP模型的状态更新（卡尔曼滤波）必须非常快。但论文中监测实验是通过留出法模拟的，并未在实际的时间序列数据流中测试。实时监测中，IWP的更新频率和状态维度的扩展是一个未解答的计算-方法问题。
- 扎根：Section 4.3（实时监测模拟）的结尾段写道：“我们通过留出最后40%的数据来模拟实时场景…并未真正测试在线更新。” 存在明确gap。
多病原体联合建模：WBS数据往往同时监测多个病原体（如SARS-CoV-2 + RSV + 流感）。目前模型只对单个病原体建模，但多个病原体之间可能存在空间-时间相关结构（如同步循环）。如何扩展当前的IWP+Matérn框架到多变量情况（如使用多变量的随机函数-乘性结构）？
- 扎根：引言中提到了“多病原体协同监测的必要性”，但模型本身未涉及。
计算瓶颈与替代推断方法：对数百个站点规模的WBS系统，状态空间模型的行列式维度（站点数×状态维度）可能导致卡尔曼滤波/平滑的 \( O(N^3T) \) 复杂度（N = 站点数，T = 时间点）——这在当前框架下可能不现实。是否可引入变分推断或快速卡尔曼近似来突破这个瓶颈？
- 扎根：作者在5.1节“局限性”中提到：“我们尚未扩展到超过20个站点的系统…状态空间框架的可扩展性受限”。这直接指出了计算瓶颈。

提醒：要确认某个gap是不是真gap，可以去检索一下近年（2022-2024）的WBS统计分析工作（例如 Foo et al., Raimundo et al., Liu et al. 的最近工作）是否已经触及了上述1/3/4点中的任何一个。如果都没做，说明这个方向仍有大空间。

Maintained by 陈星宇 · Homepage · Source on GitHub