跳转至

Joint disease mapping for bivariate count data with residual correlation due to unknown number of common cases

作者: Edouard Chatignoux, Zoé Uhry, Laurent Remontet, Isabelle Albert
来源: Biometrics
主题: 流行病学
相关性: 2/10
机构绿灯: Université Paris-Saclay(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf119


一、领域脉络与小综述

这个方向是什么:空间疾病联合制图旨在利用区域级计数数据(如不同疾病在多个地理单元的发病数),同时估计多种疾病共享的与各自特异的空间风险变异,并量化它们之间的相关性。当前该方向在贝叶斯空间统计与流行病学中已高度成熟,常规工具为基于隐变量的共享成分模型与马尔可夫随机场。

发展脉络: - 奠基工作:Knorr-Held & Best (2001) 提出共享成分模型(SCM),将双变量区域计数分解为共享与特异空间隐变量,假设两疾病计数间的相关性完全被共享隐变量捕获。这一框架成为后续联合制图的主流范式。 - 主要进展:在 SCM 框架内,后续工作主要围绕扩展应用场景与推断算法展开。例如,从双变量推广至多变量联合制图,或引入 INLA (Integrated Nested Laplace Approximation) 替代 MCMC 以加速贝叶斯推断。 - 当前 frontier 与本文位置:作者指出,经典 SCM 隐含了一个强假设:两疾病在个体层面无共患病例,或共患病例数已知并被事先剔除。当存在未知数量的共患病例时,区域计数间会产生正的残差相关性,SCM 会将此残差相关性误归因于共享隐变量的协方差,导致推断偏倚。本文提出 BP-SCM,引入双变量 Poisson 分解来显式建模未知共患计数,填补了这一设定缺口。

子线索聚类: 1. 隐变量联合建模(SCM 路线):以 Knorr-Held & Best (2001) 为代表,用 Gaussian Markov Random Field (GMRF) 建模共享与特异空间结构,相关性由隐变量协方差驱动。瓶颈在于:隐变量需承担所有相关性,一旦有非隐变量来源的相关性(如共患病例),模型即产生偏倚。 2. 双变量/多变量计数分布路线:利用双变量 Poisson (BP) 或多元 Poisson 分布直接建模计数间的相关性(如 Holgate 1964,Campbell 1934)。BP 分布通过将两计数分解为共患计数与特异计数,在观测层面直接引入正相关性。瓶颈在于:传统 BP 分布通常假设相关性参数为常数,无法捕捉空间异质性的相关结构。 3. 贝叶斯空间推断算法路线:从早期 MCMC 到 Rue et al. (2009) 的 INLA,旨在为 GMRF 模型提供快速近似推断。本文因模型结构超出 INLA 的适用范围,退回使用 Hamiltonian Monte Carlo (HMC)。

这个方向在追问的核心问题: 1. 如何在区域级计数数据中,将相关性正确归因于空间结构共享 vs. 个体层面共患? 2. 当共患病例数不可观测时,如何实现共享空间风险、特异空间风险与共患计数率的联合识别? 3. 如何在贝叶斯框架下对包含多重非标准隐变量(三个 GMRF + 共患计数)的模型进行高效、无偏的推断?

⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“经典 SCM 遗漏了共患病例导致的残差相关性”,从而使得引入 BP 分布成为“显然的下一步”。 - 被淡化或回避的路线:作者未讨论在 SCM 中直接引入额外协方差项(如给两 Poisson 计数加一个共享的随机效应)来吸收残差相关性的竞争路线,也未对比负相关情形(BP 分布只能建模正相关,若两疾病存在负相关竞争,BP-SCM 即失效)。 - 缺失的引用:在因果推断与测量误差文献中,处理不可观测共患(即个体级重叠)导致的关联偏倚有成熟理论(如 proxy variable / latent class model),intro 中未见此类跨领域引用。这值得研究者去查证:空间统计文献是否已吸收因果推断的识别理论?

张力:未见明显对立引用。经典 SCM 文献与 BP 分布文献长期平行发展,前者处理空间结构,后者处理个体共患,本文首次将两者缝合,但缝合处(GMRF 假设加在 BP 分解的三个隐计数上)的识别条件是否充分,未见前人争论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(i\):区域索引,\(i = 1, \dots, n\)
  • \(Y_{1i}, Y_{2i}\):可观测随机变量,分别为区域 \(i\) 中疾病 1 与疾病 2 的发病计数。
  • \(e_{1i}, e_{2i}\):已知量,区域 \(i\) 中疾病 1 与疾病 2 的期望基数(通常由人口数与全国参考发病率计算得出)。
  • \(Z_i\):不可观测潜在随机变量,区域 \(i\) 中的共患计数(同时患两种疾病的病例数)。
  • \(X_{1i}, X_{2i}\):不可观测潜在随机变量,区域 \(i\) 中仅患疾病 1、仅患疾病 2 的特异计数。有可观测约束 \(Y_{1i} = X_{1i} + Z_i\), \(Y_{2i} = X_{2i} + Z_i\)
  • \(\theta_{1i}, \theta_{2i}, \theta_{ci}\):不可观测潜在参数(风险率),分别为区域 \(i\) 中疾病 1 特异、疾病 2 特异、共患的相对风险。
  • \(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\):不可观测潜在随机向量(长度为 \(n\)),分别为疾病 1 特异、疾病 2 特异、共患的空间结构隐变量,服从 GMRF。
  • 模型(数据生成机制)
  • 隐变量层:\(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 各自服从均值为 0、精度矩阵由空间邻接结构决定的 GMRF,三者相互独立。
  • 参数层:\(\theta_{1i} = \exp(U_{1i})\), \(\theta_{2i} = \exp(U_{2i})\), \(\theta_{ci} = \exp(U_{ci})\)
  • 计数层:\(X_{1i} \sim \text{Poisson}(e_{1i} \theta_{1i})\), \(X_{2i} \sim \text{Poisson}(e_{2i} \theta_{2i})\), \(Z_i \sim \text{Poisson}(\sqrt{e_{1i} e_{2i}} \theta_{ci})\),且三者独立。
  • 观测层:\(Y_{1i} = X_{1i} + Z_i\), \(Y_{2i} = X_{2i} + Z_i\)
  • 可观测数据:研究者实际能观测到的是 \(\{(Y_{1i}, Y_{2i}, e_{1i}, e_{2i})\}_{i=1}^n\)。想要但观测不到的是 \(\{(Z_i, X_{1i}, X_{2i}, \theta_{1i}, \theta_{2i}, \theta_{ci})\}_{i=1}^n\),只能靠分布假设与独立性假设去识别。

第二步:最小内核

剥掉所有空间结构(假设只有单个区域 \(i\),GMRF 退化为独立正态先验),核心数学困难在于:如何从两个可观测 Poisson 计数的和,识别出三个不可观测 Poisson 计数及其参数?

最简特例(单区域,无空间结构): - 观测:\(Y_1 = X_1 + Z\), \(Y_2 = X_2 + Z\)。 - 分布:\(X_1 \sim \text{Poisson}(\lambda_1)\), \(X_2 \sim \text{Poisson}(\lambda_2)\), \(Z \sim \text{Poisson}(\lambda_c)\),三者独立。 - 此时 \((Y_1, Y_2)\) 服从双变量 Poisson 分布,\(\text{Cov}(Y_1, Y_2) = \text{Var}(Z) = \lambda_c\)。 - 经典 SCM 的误归因:经典 SCM 假设 \(Y_1 \sim \text{Poisson}(e_1 \exp(U_1 + U_c))\), \(Y_2 \sim \text{Poisson}(e_2 \exp(U_2 + U_c))\),其中 \(U_1, U_2, U_c\) 为正态隐变量。SCM 产生的相关性来源于 \(U_c\) 在两个均值中的共享,其协方差为 \(\text{Var}(\exp(U_c))\)。当存在真实的共患 \(Z\) 时,\(Y_1, Y_2\) 间的协方差为 \(\lambda_c\),SCM 会强迫 \(\text{Var}(\exp(U_c))\) 去拟合 \(\lambda_c\),导致 \(U_c\) 的方差被高估,进而扭曲 \(\exp(U_c)\) 的均值与 \(U_1, U_2\) 的推断。 - BP-SCM 的破局:直接将 \(Z\) 从观测中剥离,对 \(Z\) 单独建模参数 \(\lambda_c\)。由于 \(X_1, X_2, Z\) 独立,一旦给定 \(\lambda_1, \lambda_2, \lambda_c\)\((Y_1, Y_2)\) 的联合分布完全确定,相关性被正确归因于 \(\lambda_c\),而非隐变量的协方差。 - 识别的关键:在单区域情形下,仅凭 \((Y_1, Y_2)\) 的边际分布无法同时识别 \((\lambda_1, \lambda_2, \lambda_c)\)——因为 \(E[Y_1] = \lambda_1 + \lambda_c\), \(E[Y_2] = \lambda_2 + \lambda_c\), \(\text{Cov}(Y_1, Y_2) = \lambda_c\),三个方程解三个未知数,看似可识别。但这是在无穷样本下才成立的矩识别;在有限样本或引入空间先验时,识别依赖于先验对 \(\lambda_c\) 的收缩。本文的数学内核即在于:利用空间先验的跨区域借用信息,为共患参数 \(\theta_{ci}\) 提供识别锚点,从而修正 SCM 的偏倚。


三、这篇论文做了什么

三句话: ①研究了空间双变量计数数据中,因未知共患病例导致经典 Poisson 共享成分模型(P-SCM)推断偏倚的问题。 ②核心方法是基于双变量 Poisson 分布的 BP-SCM,将观测计数分解为共患与特异计数,并对三者分别赋予独立的 Gaussian Markov Random Field 空间先验。 ③主要结论是:BP-SCM 修正了 P-SCM 对共享空间变异的过度估计,恢复了特异风险的正确推断,并在预测性能上优于 P-SCM。

关键设定与假设: 在第二节最小记号的基础上补全: - 空间结构假设\(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 服从各自独立的 GMRF,精度矩阵由区域邻接图决定(条件自回归 CAR 先验)。这一假设相比经典 SCM 强化了独立性——SCM 中共享隐变量与特异隐变量通常允许存在未结构化的协方差,而 BP-SCM 中三者完全独立,相关性完全由 \(Z_i\) 的数据生成机制承担。 - 共患参数的尺度假设\(Z_i \sim \text{Poisson}(\sqrt{e_{1i} e_{2i}} \theta_{ci})\)。这里使用 \(\sqrt{e_{1i} e_{2i}}\) 而非 \(e_{1i}\)\(e_{2i}\),是为了保证 \(\theta_{ci}\) 在量纲上与 \(\theta_{1i}, \theta_{2i}\) 一致(相对风险),且当 \(\theta_{ci}=1\) 时,共患数的期望恰为两基数几何平均,这是一个无信息的参考点。 - 独立性假设\(X_{1i}, X_{2i}, Z_i\) 在给定参数下相互独立。这是 BP 分布的标准构造假设,也是模型可识别的核心驱动力。若此假设失效(如特异病例与共患病例存在竞争导致负相关),BP-SCM 将不适用。

主要结果: 本文为方法型论文,核心结果体现在模拟实验与真实数据分析的量化对比上: 1. 偏倚修正:模拟显示,当真实共患率 \(\theta_c > 1\) 时,P-SCM 对共享空间变异(\(\exp(U_c)\) 的方差)的估计存在正偏倚,对特异空间变异的估计存在负偏倚;BP-SCM 在同等样本量下将偏倚降至接近零。 2. 预测性能:在真实数据(法国两个癌症类型的区域发病率)中,BP-SCM 在留出区域预测的 MAE 与 DIC 上均优于 P-SCM,且能输出 P-SCM 无法提供的共患计数空间分布估计。 3. 理论直觉:P-SCM 将 \(\text{Cov}(Y_1, Y_2)\) 中由 \(Z\) 产生的部分强行用 \(\text{Var}(\exp(U_c))\) 吸收,导致 \(U_c\) 的后验方差膨胀;BP-SCM 将这部分方差释放给 \(Z_i\) 的参数 \(\theta_{ci}\),使得 \(U_c\) 仅需捕捉纯粹的空间共享风险。

证明路线与技术技巧: 本文无传统定理证明,其技术难点在于贝叶斯模型的构建与推断实现: - 整体路线:从数据生成机制出发,写出 \((Y_{1i}, Y_{2i})\) 的联合似然(由 \(X_{1i}, X_{2i}, Z_i\) 的独立 Poisson 似然通过 \(Y_{1i}=X_{1i}+Z_i\) 变换得到)→ 为 \(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 指定独立 CAR 先验 → 在 HMC 框架下对后验进行采样。 - 关键跳跃点:似然函数的构造。由于 \(Z_i\) 不可观测,\((Y_{1i}, Y_{2i})\) 的联合似然必须通过卷积计算:\(P(Y_{1i}, Y_{2i}) = \sum_{z=0}^{\min(Y_{1i}, Y_{2i})} P(X_{1i}=Y_{1i}-z) P(X_{2i}=Y_{2i}-z) P(Z_i=z)\)。这个求和的计算成本为 \(O(\min(Y_{1i}, Y_{2i}))\),在计数较大时成为瓶颈。 - 技术技巧点名: - Hamiltonian Monte Carlo (HMC):由于模型包含三个 GMRF 隐变量与大量卷积似然,INLA 的高斯近似失效,作者转用 HMC(通过 Stan 实现)进行全贝叶斯采样,利用梯度信息穿越高维参数空间。 - Poisson 卷积求和:用于计算不可观测共患计数下的双变量边际似然,是模型识别与推断的数值核心。 - CAR 先验的精度矩阵参数化:用于控制空间相关性强度,避免过度平滑。

真实例子与应用: - 数据场景:法国 94 个县(départements)的两种癌症(男性食管癌与男性肺癌)的发病计数与人口基数。选择这两种癌症是因为它们共享主要风险因素(吸烟与饮酒),预期存在大量共患病例。 - 如何用上去:将各县计数代入 BP-SCM 与 P-SCM,估计共享与特异空间风险及共患计数。 - 得到什么结果:BP-SCM 估计的共患相对风险 \(\theta_c\) 在空间上有明显变异(某些县 \(\theta_c\) 显著高于 1),而 P-SCM 无法提供此信息;BP-SCM 对特异风险的估计更平滑,避免了 P-SCM 因过度归因共享成分而导致的特异风险扭曲。 - 想说明什么:验证 BP-SCM 在真实数据中能修正 P-SCM 的偏倚,并展示 BP-SCM 在提取共患空间信息上的独有能力。

🔎 结论是否比证明窄: 本文的“识别”结论(BP-SCM 修正了 P-SCM 的偏倚)主要依赖模拟与单个真实数据集的实证支撑,缺乏严格的频率学派识别理论证明。具体而言,作者在文中 claim “BP-SCM provides rich epidemiological information, such as the mean levels of the unknown counts of common and distinct cases”,但在贝叶斯框架下,不可观测 \(Z_i\) 的后验均值收敛到真实值,需要后验一致性条件(如参数空间紧致性、似然正确指定),这些条件本文未显式验证。偏倚修正的结论在模拟设定下成立,但在一般空间结构或高维设定下是否严格成立,属于泛泛 claim。


四、开放问题(点到为止)

  1. 频率学派识别条件:在仅有 \(\{(Y_{1i}, Y_{2i}, e_{1i}, e_{2i})\}_{i=1}^n\) 可观测时,BP-SCM 中三个 GMRF 隐变量 \(\mathbf{U}_1, \mathbf{U}_2, \mathbf{U}_c\) 及共患参数 \(\theta_c\) 的非参数/半参数识别条件是什么?扎根点:作者 claim BP-SCM 能估计“mean levels of the unknown counts”,但未给出识别的必要条件(如空间邻接图的连通性、基数的变异度)。
  2. 负相关建模:当两疾病存在负的残差相关性(如竞争风险)时,BP 分布无法捕捉,BP-SCM 的推广形式是什么?扎根点:作者在 intro 中明确指出 BP 分布只能建模正相关,但未讨论负相关情形的解决方案。
  3. 大计数下的计算瓶颈:卷积似然 \(\sum_{z=0}^{\min(Y_{1i}, Y_{2i})}\)\(\min(Y_{1i}, Y_{2i})\) 很大时计算成本极高,是否有近似或解析替代?扎根点:作者在方法节提到使用精确求和,但未讨论高计数区域的计算优化。
  4. 与因果推断 latent variable identification 的统一:P-SCM 的偏倚本质上是将不可观测共患(个体级重叠)的效应误归因于隐变量协方差,这与因果推断中 unmeasured confounder 导致的偏倚在结构上同构。能否用 proximal causal inference 或 sensitivity analysis 的框架,对 P-SCM 的偏倚给出定量的敏感性界?扎根点:intro 中未引用任何因果推断文献,但作者对“residual correlation wrongly attributed”的描述与因果推断的 omitted variable bias 逻辑一致。要确认此 gap 是否真实,需查空间统计近期 5 篇 intro 是否指向因果识别理论。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论