Joint disease mapping for bivariate count data with residual correlation due to unknown number of common cases¶

作者: Edouard Chatignoux, Zoé Uhry, Laurent Remontet, Isabelle Albert
来源: Biometrics
主题: 流行病学
相关性: 2/10
机构绿灯: Université Paris-Saclay（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf119

一、领域脉络与小综述¶

这个方向是什么：空间疾病联合制图旨在利用区域级计数数据（如不同疾病在多个地理单元的发病数），同时估计多种疾病共享的与各自特异的空间风险变异，并量化它们之间的相关性。当前该方向在贝叶斯空间统计与流行病学中已高度成熟，常规工具为基于隐变量的共享成分模型与马尔可夫随机场。

发展脉络： - 奠基工作：Knorr-Held & Best (2001) 提出共享成分模型（SCM），将双变量区域计数分解为共享与特异空间隐变量，假设两疾病计数间的相关性完全被共享隐变量捕获。这一框架成为后续联合制图的主流范式。 - 主要进展：在 SCM 框架内，后续工作主要围绕扩展应用场景与推断算法展开。例如，从双变量推广至多变量联合制图，或引入 INLA (Integrated Nested Laplace Approximation) 替代 MCMC 以加速贝叶斯推断。 - 当前 frontier 与本文位置：作者指出，经典 SCM 隐含了一个强假设：两疾病在个体层面无共患病例，或共患病例数已知并被事先剔除。当存在未知数量的共患病例时，区域计数间会产生正的残差相关性，SCM 会将此残差相关性误归因于共享隐变量的协方差，导致推断偏倚。本文提出 BP-SCM，引入双变量 Poisson 分解来显式建模未知共患计数，填补了这一设定缺口。

子线索聚类： 1. 隐变量联合建模（SCM 路线）：以 Knorr-Held & Best (2001) 为代表，用 Gaussian Markov Random Field (GMRF) 建模共享与特异空间结构，相关性由隐变量协方差驱动。瓶颈在于：隐变量需承担所有相关性，一旦有非隐变量来源的相关性（如共患病例），模型即产生偏倚。 2. 双变量/多变量计数分布路线：利用双变量 Poisson (BP) 或多元 Poisson 分布直接建模计数间的相关性（如 Holgate 1964，Campbell 1934）。BP 分布通过将两计数分解为共患计数与特异计数，在观测层面直接引入正相关性。瓶颈在于：传统 BP 分布通常假设相关性参数为常数，无法捕捉空间异质性的相关结构。 3. 贝叶斯空间推断算法路线：从早期 MCMC 到 Rue et al. (2009) 的 INLA，旨在为 GMRF 模型提供快速近似推断。本文因模型结构超出 INLA 的适用范围，退回使用 Hamiltonian Monte Carlo (HMC)。

这个方向在追问的核心问题： 1. 如何在区域级计数数据中，将相关性正确归因于空间结构共享 vs. 个体层面共患？ 2. 当共患病例数不可观测时，如何实现共享空间风险、特异空间风险与共患计数率的联合识别？ 3. 如何在贝叶斯框架下对包含多重非标准隐变量（三个 GMRF + 共患计数）的模型进行高效、无偏的推断？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“经典 SCM 遗漏了共患病例导致的残差相关性”，从而使得引入 BP 分布成为“显然的下一步”。 - 被淡化或回避的路线：作者未讨论在 SCM 中直接引入额外协方差项（如给两 Poisson 计数加一个共享的随机效应）来吸收残差相关性的竞争路线，也未对比负相关情形（BP 分布只能建模正相关，若两疾病存在负相关竞争，BP-SCM 即失效）。 - 缺失的引用：在因果推断与测量误差文献中，处理不可观测共患（即个体级重叠）导致的关联偏倚有成熟理论（如 proxy variable / latent class model），intro 中未见此类跨领域引用。这值得研究者去查证：空间统计文献是否已吸收因果推断的识别理论？

张力：未见明显对立引用。经典 SCM 文献与 BP 分布文献长期平行发展，前者处理空间结构，后者处理个体共患，本文首次将两者缝合，但缝合处（GMRF 假设加在 BP 分解的三个隐计数上）的识别条件是否充分，未见前人争论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(i\)：区域索引，\(i = 1, \dots, n\)。
\(Y_{1i}, Y_{2i}\)：可观测随机变量，分别为区域 \(i\) 中疾病 1 与疾病 2 的发病计数。
\(e_{1i}, e_{2i}\)：已知量，区域 \(i\) 中疾病 1 与疾病 2 的期望基数（通常由人口数与全国参考发病率计算得出）。
\(Z_i\)：不可观测潜在随机变量，区域 \(i\) 中的共患计数（同时患两种疾病的病例数）。
\(X_{1i}, X_{2i}\)：不可观测潜在随机变量，区域 \(i\) 中仅患疾病 1、仅患疾病 2 的特异计数。有可观测约束 \(Y_{1i} = X_{1i} + Z_i\), \(Y_{2i} = X_{2i} + Z_i\)。
\(\theta_{1i}, \theta_{2i}, \theta_{ci}\)：不可观测潜在参数（风险率），分别为区域 \(i\) 中疾病 1 特异、疾病 2 特异、共患的相对风险。
\(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\)：不可观测潜在随机向量（长度为 \(n\)），分别为疾病 1 特异、疾病 2 特异、共患的空间结构隐变量，服从 GMRF。
模型（数据生成机制）：
隐变量层：\(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 各自服从均值为 0、精度矩阵由空间邻接结构决定的 GMRF，三者相互独立。
参数层：\(\theta_{1i} = \exp(U_{1i})\), \(\theta_{2i} = \exp(U_{2i})\), \(\theta_{ci} = \exp(U_{ci})\)。
计数层：\(X_{1i} \sim \text{Poisson}(e_{1i} \theta_{1i})\), \(X_{2i} \sim \text{Poisson}(e_{2i} \theta_{2i})\), \(Z_i \sim \text{Poisson}(\sqrt{e_{1i} e_{2i}} \theta_{ci})\)，且三者独立。
观测层：\(Y_{1i} = X_{1i} + Z_i\), \(Y_{2i} = X_{2i} + Z_i\)。
可观测数据：研究者实际能观测到的是 \(\{(Y_{1i}, Y_{2i}, e_{1i}, e_{2i})\}_{i=1}^n\)。想要但观测不到的是 \(\{(Z_i, X_{1i}, X_{2i}, \theta_{1i}, \theta_{2i}, \theta_{ci})\}_{i=1}^n\)，只能靠分布假设与独立性假设去识别。

第二步：最小内核

剥掉所有空间结构（假设只有单个区域 \(i\)，GMRF 退化为独立正态先验），核心数学困难在于：如何从两个可观测 Poisson 计数的和，识别出三个不可观测 Poisson 计数及其参数？

最简特例（单区域，无空间结构）： - 观测：\(Y_1 = X_1 + Z\), \(Y_2 = X_2 + Z\)。 - 分布：\(X_1 \sim \text{Poisson}(\lambda_1)\), \(X_2 \sim \text{Poisson}(\lambda_2)\), \(Z \sim \text{Poisson}(\lambda_c)\)，三者独立。 - 此时 \((Y_1, Y_2)\) 服从双变量 Poisson 分布，\(\text{Cov}(Y_1, Y_2) = \text{Var}(Z) = \lambda_c\)。 - 经典 SCM 的误归因：经典 SCM 假设 \(Y_1 \sim \text{Poisson}(e_1 \exp(U_1 + U_c))\), \(Y_2 \sim \text{Poisson}(e_2 \exp(U_2 + U_c))\)，其中 \(U_1, U_2, U_c\) 为正态隐变量。SCM 产生的相关性来源于 \(U_c\) 在两个均值中的共享，其协方差为 \(\text{Var}(\exp(U_c))\)。当存在真实的共患 \(Z\) 时，\(Y_1, Y_2\) 间的协方差为 \(\lambda_c\)，SCM 会强迫 \(\text{Var}(\exp(U_c))\) 去拟合 \(\lambda_c\)，导致 \(U_c\) 的方差被高估，进而扭曲 \(\exp(U_c)\) 的均值与 \(U_1, U_2\) 的推断。 - BP-SCM 的破局：直接将 \(Z\) 从观测中剥离，对 \(Z\) 单独建模参数 \(\lambda_c\)。由于 \(X_1, X_2, Z\) 独立，一旦给定 \(\lambda_1, \lambda_2, \lambda_c\)，\((Y_1, Y_2)\) 的联合分布完全确定，相关性被正确归因于 \(\lambda_c\)，而非隐变量的协方差。 - 识别的关键：在单区域情形下，仅凭 \((Y_1, Y_2)\) 的边际分布无法同时识别 \((\lambda_1, \lambda_2, \lambda_c)\)——因为 \(E[Y_1] = \lambda_1 + \lambda_c\), \(E[Y_2] = \lambda_2 + \lambda_c\), \(\text{Cov}(Y_1, Y_2) = \lambda_c\)，三个方程解三个未知数，看似可识别。但这是在无穷样本下才成立的矩识别；在有限样本或引入空间先验时，识别依赖于先验对 \(\lambda_c\) 的收缩。本文的数学内核即在于：利用空间先验的跨区域借用信息，为共患参数 \(\theta_{ci}\) 提供识别锚点，从而修正 SCM 的偏倚。

三、这篇论文做了什么¶

三句话： ①研究了空间双变量计数数据中，因未知共患病例导致经典 Poisson 共享成分模型（P-SCM）推断偏倚的问题。 ②核心方法是基于双变量 Poisson 分布的 BP-SCM，将观测计数分解为共患与特异计数，并对三者分别赋予独立的 Gaussian Markov Random Field 空间先验。 ③主要结论是：BP-SCM 修正了 P-SCM 对共享空间变异的过度估计，恢复了特异风险的正确推断，并在预测性能上优于 P-SCM。

关键设定与假设：在第二节最小记号的基础上补全： - 空间结构假设：\(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 服从各自独立的 GMRF，精度矩阵由区域邻接图决定（条件自回归 CAR 先验）。这一假设相比经典 SCM 强化了独立性——SCM 中共享隐变量与特异隐变量通常允许存在未结构化的协方差，而 BP-SCM 中三者完全独立，相关性完全由 \(Z_i\) 的数据生成机制承担。 - 共患参数的尺度假设：\(Z_i \sim \text{Poisson}(\sqrt{e_{1i} e_{2i}} \theta_{ci})\)。这里使用 \(\sqrt{e_{1i} e_{2i}}\) 而非 \(e_{1i}\) 或 \(e_{2i}\)，是为了保证 \(\theta_{ci}\) 在量纲上与 \(\theta_{1i}, \theta_{2i}\) 一致（相对风险），且当 \(\theta_{ci}=1\) 时，共患数的期望恰为两基数几何平均，这是一个无信息的参考点。 - 独立性假设：\(X_{1i}, X_{2i}, Z_i\) 在给定参数下相互独立。这是 BP 分布的标准构造假设，也是模型可识别的核心驱动力。若此假设失效（如特异病例与共患病例存在竞争导致负相关），BP-SCM 将不适用。

主要结果：本文为方法型论文，核心结果体现在模拟实验与真实数据分析的量化对比上： 1. 偏倚修正：模拟显示，当真实共患率 \(\theta_c > 1\) 时，P-SCM 对共享空间变异（\(\exp(U_c)\) 的方差）的估计存在正偏倚，对特异空间变异的估计存在负偏倚；BP-SCM 在同等样本量下将偏倚降至接近零。 2. 预测性能：在真实数据（法国两个癌症类型的区域发病率）中，BP-SCM 在留出区域预测的 MAE 与 DIC 上均优于 P-SCM，且能输出 P-SCM 无法提供的共患计数空间分布估计。 3. 理论直觉：P-SCM 将 \(\text{Cov}(Y_1, Y_2)\) 中由 \(Z\) 产生的部分强行用 \(\text{Var}(\exp(U_c))\) 吸收，导致 \(U_c\) 的后验方差膨胀；BP-SCM 将这部分方差释放给 \(Z_i\) 的参数 \(\theta_{ci}\)，使得 \(U_c\) 仅需捕捉纯粹的空间共享风险。

证明路线与技术技巧：本文无传统定理证明，其技术难点在于贝叶斯模型的构建与推断实现： - 整体路线：从数据生成机制出发，写出 \((Y_{1i}, Y_{2i})\) 的联合似然（由 \(X_{1i}, X_{2i}, Z_i\) 的独立 Poisson 似然通过 \(Y_{1i}=X_{1i}+Z_i\) 变换得到）→ 为 \(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 指定独立 CAR 先验 → 在 HMC 框架下对后验进行采样。 - 关键跳跃点：似然函数的构造。由于 \(Z_i\) 不可观测，\((Y_{1i}, Y_{2i})\) 的联合似然必须通过卷积计算：\(P(Y_{1i}, Y_{2i}) = \sum_{z=0}^{\min(Y_{1i}, Y_{2i})} P(X_{1i}=Y_{1i}-z) P(X_{2i}=Y_{2i}-z) P(Z_i=z)\)。这个求和的计算成本为 \(O(\min(Y_{1i}, Y_{2i}))\)，在计数较大时成为瓶颈。 - 技术技巧点名： - Hamiltonian Monte Carlo (HMC)：由于模型包含三个 GMRF 隐变量与大量卷积似然，INLA 的高斯近似失效，作者转用 HMC（通过 Stan 实现）进行全贝叶斯采样，利用梯度信息穿越高维参数空间。 - Poisson 卷积求和：用于计算不可观测共患计数下的双变量边际似然，是模型识别与推断的数值核心。 - CAR 先验的精度矩阵参数化：用于控制空间相关性强度，避免过度平滑。

真实例子与应用： - 数据场景：法国 94 个县（départements）的两种癌症（男性食管癌与男性肺癌）的发病计数与人口基数。选择这两种癌症是因为它们共享主要风险因素（吸烟与饮酒），预期存在大量共患病例。 - 如何用上去：将各县计数代入 BP-SCM 与 P-SCM，估计共享与特异空间风险及共患计数。 - 得到什么结果：BP-SCM 估计的共患相对风险 \(\theta_c\) 在空间上有明显变异（某些县 \(\theta_c\) 显著高于 1），而 P-SCM 无法提供此信息；BP-SCM 对特异风险的估计更平滑，避免了 P-SCM 因过度归因共享成分而导致的特异风险扭曲。 - 想说明什么：验证 BP-SCM 在真实数据中能修正 P-SCM 的偏倚，并展示 BP-SCM 在提取共患空间信息上的独有能力。

🔎 结论是否比证明窄：本文的“识别”结论（BP-SCM 修正了 P-SCM 的偏倚）主要依赖模拟与单个真实数据集的实证支撑，缺乏严格的频率学派识别理论证明。具体而言，作者在文中 claim “BP-SCM provides rich epidemiological information, such as the mean levels of the unknown counts of common and distinct cases”，但在贝叶斯框架下，不可观测 \(Z_i\) 的后验均值收敛到真实值，需要后验一致性条件（如参数空间紧致性、似然正确指定），这些条件本文未显式验证。偏倚修正的结论在模拟设定下成立，但在一般空间结构或高维设定下是否严格成立，属于泛泛 claim。

四、开放问题（点到为止）¶

频率学派识别条件：在仅有 \(\{(Y_{1i}, Y_{2i}, e_{1i}, e_{2i})\}_{i=1}^n\) 可观测时，BP-SCM 中三个 GMRF 隐变量 \(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 及共患参数 \(\theta_c\) 的非参数/半参数识别条件是什么？扎根点：作者 claim BP-SCM 能估计“mean levels of the unknown counts”，但未给出识别的必要条件（如空间邻接图的连通性、基数的变异度）。
负相关建模：当两疾病存在负的残差相关性（如竞争风险）时，BP 分布无法捕捉，BP-SCM 的推广形式是什么？扎根点：作者在 intro 中明确指出 BP 分布只能建模正相关，但未讨论负相关情形的解决方案。
大计数下的计算瓶颈：卷积似然 \(\sum_{z=0}^{\min(Y_{1i}, Y_{2i})}\) 在 \(\min(Y_{1i}, Y_{2i})\) 很大时计算成本极高，是否有近似或解析替代？扎根点：作者在方法节提到使用精确求和，但未讨论高计数区域的计算优化。
与因果推断 latent variable identification 的统一：P-SCM 的偏倚本质上是将不可观测共患（个体级重叠）的效应误归因于隐变量协方差，这与因果推断中 unmeasured confounder 导致的偏倚在结构上同构。能否用 proximal causal inference 或 sensitivity analysis 的框架，对 P-SCM 的偏倚给出定量的敏感性界？扎根点：intro 中未引用任何因果推断文献，但作者对“residual correlation wrongly attributed”的描述与因果推断的 omitted variable bias 逻辑一致。要确认此 gap 是否真实，需查空间统计近期 5 篇 intro 是否指向因果识别理论。

Maintained by 陈星宇 · Homepage · Source on GitHub

Joint disease mapping for bivariate count data with residual correlation due to unknown number of common cases¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论