Bayesian learning of Covid-19 vaccine safety while incorporating adverse events ontology¶

作者: Bangyao Zhao, Yuan Zhong, Jian Kang, Lili Zhao
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1. 这个方向是什么¶

这个子方向关注的是疫苗安全性信号的自动化检测，具体而言，如何从被动监测系统（如 VAERS）收集的自发报告数据中，统计地识别出"疫苗-不良事件（AE）"之间是否存在关联，同时控制假阳性、校正报告偏倚。核心难点在于：数据是观察性、自发报告的（无对照、有偏、维度高），且不良事件之间存在本体论层次结构（如"呕吐"与"吞咽困难"同属消化系统异常），传统方法往往忽略这种结构，导致检验效能损失或假阳性膨胀。本文处于应用统计与流行病学交叉的前沿，方法学上属于"贝叶斯图模型 + 因果推断敏感性分析"的结合，成熟度中等——已有大量频率派方法，但利用本体结构的方法尚少。

2. 发展脉络¶

奠基工作（VAERS 数据处理与信号检测基础）： - Zhao et al. (2020) [文献 5]：系统梳理了 VAERS 数据库的预处理与四种常用统计量（如 PRR、ROR 等），指出由于 MedDRA 编码系统更新，同一症状可能有不同术语，需合并处理；同时讨论了多疫苗报告带来的不确定性。这是本文数据清洗与基线统计量的直接来源。 - Schuemie et al. (2014) / Shi et al. (2020) [文献 13, 14]：引入负对照方法校正观察性研究中的偏倚。Shi et al. (2020) 是一篇综述，系统阐述了负对照的因果框架、假设与验证策略。本文直接借用这一思想，用"已知无关联的疫苗-AE 对"来估计并校正报告偏倚。

主要进展（COVID-19 疫苗安全性实证发现）： - Biykem et al. (2021) / Oster et al. (2022) [文献 8, 9]：确认 mRNA 疫苗与心肌炎/心包炎的关联，尤其在年轻男性中。 - See et al. (2021) / Woo et al. (2021) [文献 10, 4]：发现强生疫苗与脑静脉窦血栓（CVST）伴血小板减少症的关联。 - Hippisley-Cox et al. (2021) [文献 11]：利用英国大数据进行自对照病例系列研究，量化了血栓/血小板减少风险。 - 这些工作为本文提供了真实世界待验证的信号（如血栓、心肌炎），但它们大多基于单事件分析或传统流行病学设计，未系统利用 AE 本体结构。

当前 frontier（图结构先验与高维回归）： - Sun & Li (2010) [文献 6]：提出Bayesian GRACE方法，将基因调控网络作为回归系数的先验结构（通过拉普拉斯矩阵惩罚相连基因系数的差异），用于高维基因数据回归。本文的核心先验结构直接继承自此工作。 - Maleki et al. (2020) / Subramanian et al. (2005) [文献 3, 7]：基因集富集分析（GSEA）的经典与综述工作，用于识别"过表达"的基因通路。本文将这一思想迁移到 AE 组别的富集分析。

本文的位置：本文是首次将 AE 本体论结构、负对照偏倚校正、贝叶斯图模型三者整合用于 VAERS 数据分析的工作。它填补了"忽略 AE 之间依赖关系"这一方法学缺口，并将 Sun & Li (2010) 的图约束回归从基因组学迁移到疫苗安全性监测。

3. 子线索聚类¶

这些被引文献大致落在三条子线索上： 1. 安全性信号检测方法：Zhao et al. (2020) 定义基线统计量；Schuemie et al. (2014) / Shi et al. (2020) 引入负对照校正偏倚。这条线关注"如何从观察性数据中更准地识别信号"。 2. 图结构先验与高维回归：Sun & Li (2010) 提供了将网络结构纳入贝叶斯回归的技术框架；Chung (1997) / Hinge (2019) 提供了谱图理论基础。这条线关注"如何利用变量间的已知结构提升估计效率"。 3. COVID-19 疫苗安全性实证发现：Edelman et al. (2022), Oster et al. (2022), See et al. (2021) 等提供了具体的疫苗-AE 关联案例（血栓、心肌炎等）。这条线是本文方法的应用场景与验证基准。

4. 这个方向在追问的核心问题¶

如何利用 AE 之间的本体论关系提升信号检测的统计效能？ 现有方法（如 PRR、ROR）将每个 AE 视为独立检验，忽略了"呕吐"与"恶心"可能共享同一病理机制的信息，导致多重检验负担重、效能低。
如何校正 VAERS 数据的报告偏倚？ 自发报告数据受公众关注度、媒体报道等影响，存在严重的报告偏倚。负对照方法能否在贝叶斯框架下有效校正这种偏倚？
如何在高维 AE 设置下同时进行"单个信号检测"与"组别富集分析"？ 既要识别具体风险事件，又要找出系统性风险模块（如整个消化系统异常）。

5. ⚠️ 作者的 framing¶

作者把缺口 frame 成："现有方法忽略了 AE 本体论结构，导致假阳性增高、真实信号被淹没"。这让本文的"图辅助先验"成为显然的解决方案。
被淡化的竞争路线：
- 多重检验校正（如 Benjamini-Hochberg）：作者未深入讨论传统 FDR 控制方法在利用相关性结构方面的改进（如依赖性 FDR 方法），而是直接转向贝叶斯先验路径。
- 频率派的图模型方法（如 Graphical Lasso 或网络惩罚回归）：作者未对比频率派图方法，直接选择了贝叶斯框架。
缺失的引用：因果推断领域的多任务学习或分层模型用于安全性监测的工作较少被引；此外，Proximal Causal Inference（利用负对照进行非参数识别）的最新进展未在方法部分深入讨论，仅引用了 Shi et al. (2020) 的综述，未触及更前沿的非参数识别理论。

6. 张力¶

未见明显对立引用。被引文献在各自子领域内结论一致，主要张力在于方法学路径的选择：频率派多重检验 vs. 贝叶斯图模型。作者选择了后者，但未提供与前者在假阳性控制上的直接模拟对比（仅对比了忽略图结构的方法）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号： - \(i = 1, \dots, n\)：报告样本索引。 - \(j = 1, \dots, p\)：不良事件（AE）索引，\(p \approx 800\)。 - \(Y_{ij} \in \{0, 1\}\)：第 \(i\) 份报告中是否出现第 \(j\) 种 AE（可观测）。 - \(V_i \in \{0, 1\}\)：第 \(i\) 份报告是否涉及目标疫苗（如 COVID-19 疫苗，可观测）。 - \(\beta_j\)：目标参数，表示第 \(j\) 种 AE 与目标疫苗的关联强度（对数几率比，不可观测，需估计）。 - \(G = (V, E)\)：AE 依赖网络图，节点 \(V\) 为 AE，边 \(E\) 由本体论定义（如 MedDRA 层次结构，已知/先验给定）。 - \(L\)：图 \(G\) 的拉普拉斯矩阵，用于编码 AE 之间的依赖关系。

模型（数据生成机制）：采用贝叶斯分层模型： 1. 似然：给定报告 \(i\)，AE \(j\) 的发生概率服从 Logistic 模型：

\[P(Y_{ij} = 1 \mid V_i, \beta_j) = \text{logit}^{-1}(\alpha_j + \beta_j V_i)\]

其中 \(\alpha_j\) 是 AE \(j\) 的背景发生率（截距），\(\beta_j\) 是疫苗效应。 2. 先验（核心创新）： - 对 \(\beta = (\beta_1, \dots, \beta_p)\) 施加图约束先验：

\[\beta \sim N(0, \tau^2 (L + \epsilon I)^{-1})\]

这里 \(L\) 是拉普拉斯矩阵。直觉是：如果 AE \(j\) 和 \(k\) 在本体图中相连（属于同一系统），则它们的风险信号 \(\beta_j\) 和 \(\beta_k\) 应当相似。先验协方差矩阵 \((L + \epsilon I)^{-1}\) 保证了相连节点的系数有正相关性。 - 对 \(\alpha_j\) 施加独立先验。 3. 负对照校正：引入负对照事件集合 \(NC\)（已知与目标疫苗无因果关联的 AE）。假设报告偏倚对所有 AE 的影响相似，则负对照事件的估计信号 \(\hat{\beta}_{NC}\) 应接近 0。若 \(\hat{\beta}_{NC}\) 显著偏离 0，则将其作为偏倚估计，从目标 AE 的信号中扣除。

可观测数据：研究者能观测到的是报告矩阵 \(\{Y_{ij}, V_i\}_{i=1}^n\)，以及外部给定的 AE 本体图结构 \(G\)。不可观测的是真实的因果效应 \(\beta_j\) 和报告偏倚机制。

第二步：最小内核¶

最简特例（单个 AE，无图结构，无负对照）：假设只有一种 AE（\(p=1\)），且忽略图结构。此时模型退化为标准的两样本比例比较问题： - 数据：\(n_1\) 份目标疫苗报告，其中 \(y_1\) 份出现 AE；\(n_0\) 份对照疫苗报告，其中 \(y_0\) 份出现 AE。 - 目标：估计 \(\beta = \log \frac{p_1/(1-p_1)}{p_0/(1-p_0)}\)。 - 本文方法退化为：计算 OR 的后验分布。若后验区间不含 0，则判定为信号。

加入图结构的最小内核（两个相连的 AE）：设 \(p=2\)，AE1（呕吐）与 AE2（恶心）在图中相连。 - 传统方法：独立估计 \(\beta_1, \beta_2\)。若数据噪声大，可能一个显著一个不显著，结论矛盾。 - 本文方法：先验设定 \((\beta_1, \beta_2) \sim N(0, \Sigma)\)，其中 \(\Sigma_{12} > 0\)（鼓励相似）。 - 核心数学问题：如何利用 AE 间的相关性进行信息借力？ - 若观测到 \(\hat{\beta}_1\) 很大但 \(\hat{\beta}_2\) 很小，传统方法会判定 AE1 为信号。 - 在图先验下，后验估计 \(\beta_1^{\text{post}}\) 会被 \(\beta_2\) 拉向 0（收缩），从而降低假阳性。 - 证明/计算路线：后验分布仍为正态，均值是观测值与先验均值的加权平均，权重由图结构决定。本文通过 Gibbs 采样计算这一后验。

加入负对照的最小内核：设有一个负对照 AE（NC），已知 \(\beta_{NC}^{\text{true}} = 0\)。 - 观测到 \(\hat{\beta}_{NC} \neq 0\)，这完全由报告偏倚导致。 - 本文策略：用 \(\hat{\beta}_{NC}\) 估计偏倚大小，然后校正目标 AE 的信号：\(\beta_j^{\text{corrected}} \approx \hat{\beta}_j - \hat{\beta}_{NC}\)。 - 关键假设：偏倚在不同 AE 间是可交换的。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何在疫苗安全性监测中，利用不良事件（AE）的本体论结构提升信号检测的准确性与可解释性。
核心工具：提出 BGrass（Bayesian Graph-assisted signal selection） 模型，结合拉普拉斯先验、负对照校正与富集分析。
主要结论：模拟显示 BGrass 在 ROC 曲线下面积（AUC）上优于忽略图结构的基准方法；真实数据分析发现 COVID-19 疫苗（尤其是强生）相比流感疫苗有更高的血栓报告风险，且负对照校正有效降低了假阳性。

关键设定与假设¶

Logistic 回归设定：\(P(Y_{ij}=1) = \text{logit}^{-1}(\alpha_j + \beta_j V_i)\)。假设 AE 发生概率仅依赖于疫苗状态 \(V_i\) 和 AE 自身的截距 \(\alpha_j\)。未考虑报告间的个体协变量（如年龄、性别），这是 VAERS 数据的常见限制。
图结构先验：\(\beta \sim N(0, \tau^2 (L + \epsilon I)^{-1})\)。
- 统计含义：这是一个马尔可夫随机场（MRF）先验。拉普拉斯矩阵 \(L\) 的惩罚项 \(\beta^T L \beta = \sum_{(j,k) \in E} (\beta_j - \beta_k)^2\)，即鼓励相连节点的系数相近。
- 相比已有文献：Sun & Li (2010) 用于基因数据，本文将其迁移至 AE 本体结构，并处理了 \(L\) 不可逆的问题（加 \(\epsilon I\)）。
负对照假设：
- 存在一组负对照 AE，满足：（1）与目标疫苗无因果关联； （2）受相同的报告偏倚影响。
- 这是因果推断中负对照暴露/结局假设的直接应用（Shi et al., 2020）。本文假设偏倚是加性的，通过后验均值校正。

主要结果¶

理论结果：本文主要是方法与应用型论文，未提供严格的频率派理论保证（如一致性、渐近正态性）。结果集中在： 1. 后验收缩性质：证明了在图先验下，相连 AE 的系数估计会相互借力，方差降低。 2. 等价模型表示：为了计算后验，作者构造了一个数据增广模型，使得条件分布变为标准形式，从而可用 Gibbs 采样。

模拟结果： - 设置：\(p=100\) 个 AE，预设部分为真实信号，部分为噪声。图结构随机生成或基于真实本体。 - 指标：AUC、FPR（假阳性率）、TPR（真阳性率）。 - 结论： - BGrass 的 AUC 显著高于独立估计方法。 - 负对照校正能有效将假阳性率控制在名义水平附近（未校正方法 FPR 超标）。

真实数据应用（VAERS）： - 数据：约 100 万份报告（2016-2021），覆盖 COVID-19 与流感疫苗。 - 发现： 1. 血栓信号：COVID-19 疫苗组的血栓相关 AE（深静脉血栓、肺栓塞）信号显著高于流感疫苗组。 2. 疫苗类型差异：强生疫苗的血栓信号强于 mRNA 疫苗，与文献 [10, 11] 一致。 3. 富集分析：识别出"血液与淋巴系统异常"这一组别是主要的风险模块。 4. 负对照校正效果：校正后，部分原本显著的信号消失（判定为假阳性），验证了方法的必要性。

证明路线与技术技巧¶

整体路线： 1. 模型构建：写出联合似然与先验。 2. 计算难点：后验分布 \(p(\beta \mid Y)\) 没有解析形式，且涉及高维积分。 3. 技巧 1：等价模型表示： - 引入辅助变量 \(z\)，将图结构先验转化为条件分布的乘积。 - 具体地，利用 \(N(0, (L+\epsilon I)^{-1})\) 与条件自回归（CAR）模型的等价性，将联合分布分解为 \(p(\beta_j \mid \beta_{-j})\) 的形式。 4. 技巧 2：Polya-Gamma 数据增广： - Logistic 似然没有共轭先验。引入 Polya-Gamma 潜变量 \(\omega\)，使得：

\[P(Y=1 \mid \beta) \propto \exp(\beta/2) \int_0^\infty \exp(-\omega \beta^2/2) p(\omega) d\omega\]

- 条件于 \(\omega\)，\(\beta\) 的后验变为正态分布，从而可以 Gibbs 采样。 5. 技巧 3：负对照校正： - 在 Gibbs 采样中，同时采样目标 AE 与负对照 AE 的系数。 - 利用负对照系数的后验均值 \(\bar{\beta}_{NC}\) 构造校正项：\(\beta_j^{\text{corrected}} = \beta_j - \bar{\beta}_{NC}\)（这是一个后处理步骤，而非在模型内部约束 \(\beta_{NC}=0\)）。

技术细节： - 拉普拉斯矩阵处理：\(L\) 是半正定的，不可逆。作者加 \(\epsilon I\) 使其正定。这是一个常用技巧，但 \(\epsilon\) 的选择会影响收缩强度。 - 计算效率：Gibbs 采样需要遍历所有 AE 和所有报告，复杂度 \(O(n p)\)。对于 \(n \approx 10^6, p \approx 800\)，计算量巨大。作者利用了稀疏矩阵运算（\(L\) 是稀疏的）加速。

真实例子与应用¶

数据：VAERS 数据库，时间跨度 2016-2021，包含约 100 万份报告。
应用方式：
1. 数据清洗：合并 MedDRA 编码，构建 AE 本体图。
2. 选择负对照：基于医学知识选择一组已知与疫苗无关的 AE（如"外伤"、"骨折"）。
3. 运行 BGrass 模型，得到每个 AE 的后验分布。
4. 进行富集分析：检验 AE 组别（如"消化系统"）是否整体信号增强。
结果解读：
- 发现强生疫苗的血栓信号，与 FDA 警告一致，验证了方法的有效性。
- 发现 mRNA 疫苗的心肌炎信号，与文献 [8, 9] 一致。
- 展示了负对照的必要性：未校正时，许多无关 AE 显示出虚假信号；校正后这些信号消失。

🔎 结论是否比证明窄¶

负对照校正的理论保证缺失：作者在方法部分假设负对照可以校正偏倚，但未提供严格的识别条件或渐近性质证明。这更多是一个启发式策略，而非严格的因果推断定理（如 Proximal CI 中的非参数识别）。
模型假设的局限：Logistic 回归假设线性、无交互作用。作者未讨论这些假设违反对结果的影响。
计算收敛性：Gibbs 采样在高维情形下的收敛诊断未详细展示。

四、开放问题¶

负对照的非参数识别：本文的负对照校正是基于线性偏倚假设的启发式方法。能否引入更严格的因果推断框架（如 Proximal Causal Inference），在更弱的假设下实现非参数识别？这需要结合 Shi et al. (2020) 提到的 double-negative control 设计。（扎根于第三节"负对照校正"部分的理论缺失）
图结构的不确定性：本文假设 AE 本体图 \(G\) 是已知的（基于 MedDRA）。若图结构本身有误或缺失，如何同时学习图结构与信号？这涉及贝叶斯图学习。（扎根于第二节"图结构先验"假设）
个体协变量的纳入：当前模型未纳入年龄、性别等协变量。如何在贝叶斯图模型框架下高效地纳入协变量调整，以控制混杂？（扎根于第三节"Logistic 回归设定"的简化）
计算效率的突破：对于更大规模的数据（如全量 VAERS 或 EHR 数据），Gibbs 采样可能太慢。能否利用变分推断（VI）或 Laplace 近似加速？（扎根于第三节"计算效率"部分）

Maintained by 陈星宇 · Homepage · Source on GitHub