跳转至

Bayesian Structured Mediation analysis with Unobserved confounders

作者: Yuliang Xu, Shu Yang, Jian Kang
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述(≥25%)

这个方向是什么

高维中介分析(high-dimensional mediation analysis) 指在暴露 \(A\)、结果 \(Y\) 之间存在大量潜在中介变量 \(M_1,...,M_p\)\(p \gg n\) 时,估计平均自然间接效应(NIE)和自然直接效应(NDE),并识别活跃中介。该方向的核心统计困难是:1) 高维带来选择与收缩挑战;2) 空间/结构依赖(如脑成像)要求模型利用相关性;3) 最棘手的——无混杂性假设(no-unobserved-confounder)在观测数据中不可验证(Pearl, 2009),且当中介-结果关系存在未观测混杂时,NIE/NDE 有偏。当前主流方法依赖顺序可忽略性(sequential ignorability),在脑成像数据中尤其脆弱。本文试图在“结构中介变量存在空间潜在混杂效应”的设定下,利用空间结构来部分抵消混杂偏差,并建立可识别性。

发展脉络(history)

  • 奠基工作(2010–2014):Imai et al.(2010b)在潜在结果框架下证明了在顺序可忽略性下NIE/NDE的非参数可识别性,并给出线性SEM下的敏感性分析。VanderWeele & Vansteelandt(2014)将中介分析扩展到多个中介和交互。Tchetgen & Shpitser(2012)建立了半参数效率理论与多重稳健估计。这些工作奠定可识别基础,但均假设无未观测混杂。

  • 高维中介的兴起(2018–2023):Song et al.(2018, 2020)提出贝叶斯收缩先验和乘积阈值先验用于高维中介变量选择。Xu & Kang(2023)开发了贝叶斯图像中介分析(BIMA),引入软阈值高斯过程先验处理空间平滑性和稀疏性,并证明后验一致性。Nath et al.(2022)提出机器学习降维方法。这些方法在无混杂假设下有效,但发表于本文的作者群也承认(Xu & Kang, 2023; Song et al., 2020; Nath et al., 2023)“rely on the no-unobserved-confounder assumption, which is unverifiable in real data”。

  • 混杂敏感性分析(2010–2022):Imai et al.(2010b)首先提出敏感性分析;Ding & VanderWeele(2016)给出二元结果/暴露/中介下的锐界敏感性界限;Cinelli & Hazlett(2020)用偏 \(R^2\) 解释偏差;Zhang & Ding(2022)推导线性Baron-Kenny下的遗漏变量偏差公式并提供稳健值。这些工作提供检验工具,但不能直接处理高维中介和空间相关性

  • 空间混杂调整:Guan et al.(2020)在空间流行病学中提出用谱方法调整未观测空间混杂(spatial confounding)。该线索表明:如果未观测混杂在空间上是平滑的,则可以利用不同空间频率的信号来识别。这在脑成像中介分析中尚未被系统利用。

  • 本文位置:Xu et al.(2023)的BASMU试图填补“高维空间中介+未观测混杂”交叉处的空白。它借用了空间混杂调整思路(Guan et al. 2020),将subject-specific空间潜在效应 (\(\eta_i\)) 作为未观测混杂纳入结果模型,并与高维贝叶斯中介分析(BIMA)相结合,同时提供识别条件和偏差分析。

子线索聚类

  1. 无混杂下的高维中介(BIMA, Song, Nath 等):重点在维度压缩、变量选择和空间依存,但假设无混杂。
  2. 敏感性分析与混杂界限(Imai, Ding, Cinelli, Zhang):提供检验与界限,但通常限制变量类型(二元、低维)或线性模型。
  3. 空间混杂调整(Guan 等):在空间环境暴露-结果研究中用谱方法处理空间混杂,尚未用于中介。
  4. 负对照/工具变量方法(Miao, Lipsitch 等):用负对照暴露或结果来检测/调整混杂,但在中介分析中应用较少。

核心问题与已知瓶颈

  • 核心问题:如何在存在未观测混杂(尤其与中介结构相关的空间混杂)时,识别并估计高维中介的NIE/NDE?
  • 主流瓶颈:(1) 可识别性:顺序可忽略性无法检验,又无额外的负对照信息;(2) 高维空间依赖下的偏差控制:忽略混杂导致偏差,但简单的敏感性分析无法扩展到高维;(3) 计算:贝叶斯高维采样+空间模型的计算负担。

⚠️ 作者的 framing

作者将缺口 frame 为:“现有的高维图像中介分析(如BIMA)忽略了未观测混杂,导致NIE/NDE偏差;我们提出利用空间潜在效应作为未观测混杂的代理,通过将其纳入结果模型来去偏,并证明可识别性。” 作者的竞争路线是纯敏感性分析(如Ding, Cinelli)——作者认为这些方法要么限制在低维/二值,要么不直接提供点估计。
什么明显该被引/该存在、却没出现在intro里?
- 负控制中介分析(如Miao et al. 2018的混杂桥方法)在中介分析中直接调整未观测混杂的策略 —— 该文献虽被列在参考文献中,但intro未讨论其与BASMU的比较。
- 处理暴露诱导的中介-结果混杂的方法(VanderWeele et al. 2014三分解)在中介分析领域是重要分支,但本文设定中未出现这种时变混杂。
- 高维U-统计量或效率理论在中介分析中的应用(如Tchetgen & Shpitser 2012的半参效率界)—— 本文给出渐近偏差但未推导效率界。

张力

未见明显对立引用。被引工作之间在假设和处理上互补:高维无混杂方法、低维敏感性分析、空间混杂调整各自在不同子问题中有效。本文试图结合它们,但并未与任何已有工作直接矛盾。


二、最核心、最简单的例子 / 数学问题(≥15%)

第一步:符号、模型、可观测数据交代清楚

符号(逐个点名):
- \(i = 1,...,n\):个体索引。
- \(A_i \in \{0,1\}\):二元处理变量(如ADHD诊断和用药状态)。
- \(M_i(s) \in \mathbb{R}^p\):在空间位置 \(s \in \mathcal{S}\) 上的高维中介变量(如fMRI体素激活值)。通常 \(\mathcal{S}\) 是脑区中 \(p\) 个体素的集合,本文中 \(p\) 远大于 \(n\)
- \(Y_i\):连续结果变量(如认知得分)。
- \(C_i\):可观测的个体协变量(如年龄、性别、扫描仪型号)。
- \(U_i \in \mathbb{R}^q\):未观测混杂变量(潜在变量),影响 \(M_i(s)\)\(Y_i\)。本文假设其具有空间结构:记为 \(\eta_i(s)\)(在位置 \(s\) 上的空间潜在效应),可看作 \(U_i\) 在空间上的实现。
- \(X_i(s)\):空间协变量(如灰质密度),在模型中用于辅助识别。

模型(数据生成机制,基于本文假设 (4) 和 (5)):
- 中介模型:\(M_i(s) = \alpha(s) A_i + \beta_X(s)^\top X_i(s) + \eta_i(s) + \varepsilon_i^M(s)\)\(\varepsilon_i^M(s)\) 为噪声,空间独立或弱相关。
- 结果模型:\(Y_i = \theta + \gamma A_i + \int_{\mathcal{S}} \beta(s) M_i(s) ds + \psi^\top C_i + \lambda \int_{\mathcal{S}} \eta_i(s) ds + \varepsilon_i^Y\)
其中 \(\eta_i(s)\)未观测的subject-specific空间潜在效应(混杂),同时进入中介和结果模型。关键在于:\(\eta_i(s)\) 在中介模型中可被估计(作为随机效应或潜在因子),然后用于结果模型去偏。

可观测数据:研究者能观测到的是 \(\{A_i, Y_i, C_i, X_i(s), M_i(s)\) (在每个体素 \(s \in \mathcal{S}_0\) 上的观测值)\(\}_{i=1}^n\)
不可观测\(\eta_i(s)\) (空间潜在混杂)、\(\varepsilon_i^M(s)\)\(\varepsilon_i^Y\) 。目标是估计自然间接效应(NIE)自然直接效应(NDE)。在连续线性设定下,NIE = \(\int \beta(s) \alpha(s) ds\)(即路径A→M→Y的效应),NDE = \(\gamma\)(暴露对结果的直接效应,控制中介在 \(A=0\) 水平)。

第二步:最小内核

最简特例:假设只有一个体素 \(s_0\) (即 \(p=1\)),且无协变量 \(C_i\)\(X_i(s)\)。则模型简化为:
\(M_i = \alpha A_i + \eta_i + \varepsilon_i^M\)\(\eta_i\) 为标量未观测混杂),
\(Y_i = \theta + \gamma A_i + \beta M_i + \lambda \eta_i + \varepsilon_i^Y\)
要证的核心命题:在忽略 \(\eta_i\) 的常规中介分析(即拟合 \(M_i = \alpha A_i + e_i^M\)\(Y_i = \theta + \gamma' A_i + \beta' M_i + e_i^Y\))中,\(\hat{\gamma}'\)\(\hat{\beta}'\) 有偏,导致NIE = \(\beta'\alpha'\) 和NDE = \(\gamma'\) 有偏。而如果我们在结果模型中显式包含对 \(\eta_i\) 的调整(估计 \(\hat{\eta}_i\) 从中介模型),可以消除该偏差。

这个最小例子的直观推理
- 常规OLS下,\(\hat{\beta}'\) 的概率极限是 \(\beta + \lambda \cdot \frac{\text{Var}(\eta)}{\text{Var}(M)}\)(假设\(\eta\)\(A\)的协方差为零,但\(\eta\)影响\(M\)且与\(Y\)相关)。
- 偏差项为 \(\lambda \cdot \frac{\text{Var}(\eta)}{\text{Var}(M)}\)
- 若我们能从中介模型中提取\(\hat{\eta}_i = M_i - \hat{\alpha}A_i\)(第一阶段估计),然后代入结果模型:\(Y_i = \theta + \gamma A_i + \beta M_i + \lambda \hat{\eta}_i + \text{error}\),则在该线性设定下 \(\hat{\beta}, \hat{\gamma}\) 渐近无偏。
- 这里的关键:可观测数据中的 \(M_i\) 包含关于 \(\eta_i\) 的信息;如果我们有足够强的假设(如 \(\eta_i\) 的空间平滑性,从而通过借力多个体素来识别),就能区分 \(\eta_i\) 与噪声。

这个最小内核揭示了BASMU的数学本质:将未观测混杂视为随机效应(spatial random effect),利用中介测量中的重复信号来估计该效应,再将其作为回归变量纳入结果方程,从而“去混杂”。在高维和空间泛化中,困难在于如何从有限观测中可识别地估计出 \(\eta_i(s)\)——这需要空间平滑假设或二阶矩假设(如Guan et al. 2020的谱分解)。本文采用贝叶斯框架,对 \(\eta_i(s)\) 施加平稳高斯过程先验(或类似结构),以实现收缩和空间借力。


三、这篇论文做了什么(≥45%)

三句话

  1. 研究问题:在高维图像中介分析(如fMRI)中,当存在与中介变量空间结构有关的未观测混杂时,如何估计自然间接效应(NIE)和自然直接效应(NDE),并识别活跃中介体素。
  2. 核心方法:提出 BASMU 框架——将 subject-specific 空间潜在效应 \(\eta_i(s)\) 视为未观测混杂,纳入结果模型,通过两阶段贝叶斯估计(第一阶段从中介变量提取空间效应,第二阶段带入结果模型)实现去偏;同时建立模型可识别条件并推导忽略混杂时的渐近偏差公式。
  3. 主要结论:在 ABCD 研究中,BASMU 相比已有的 BIMA 方法,识别出更多具有显著中介效应的体素(NIE 增加 41%,NDE 减少 26%),且仿真表明其大幅降低偏差。

关键设定与假设

在第二节最小符号基础上,补充完整设定:

  • 假设 1(标准中介假设,VanderWeele & Vansteelandt 2014):给定可观测协变量 \(C_i\),无处理-中介交互、无中介-结果混杂的未观测(传统顺序可忽略性的一部分)。本文将此扩展为允许存在空间未观测混杂\(\eta_i(s)\)
  • 假设 2(空间混杂结构)\(\eta_i(s)\) 是平稳高斯过程,协方差函数 \(k(s,s') = \sigma_\eta^2 \rho(||s-s'||)\)。该假设为可识别性的关键——空间平滑性允许在不同体素之间借用信息以估计每个个体的潜在曲线。
  • 假设 3(桥接假设):中介模型和结果模型中的 \(\eta_i(s)\) 系数 \(\lambda(s)\) 非零(即混杂对结果有直接效应)。否则 \(\eta_i(s)\) 不可识别。
  • 假设 4(可观测的空间协变量):存在空间协变量 \(X_i(s)\) 与中介相关但与混杂独立,或至少有足够结构以分开信号(文中未明确,但隐含在“spectral adjustment”的语境中)。
  • 与 BIMA 的区别:BIMA 假设无混杂,这里允许混杂但与 \(\eta_i(s)\) 是空间相关的;BASMU 假设 \(\eta_i(s)\) 可以通过中介载荷识别。

主要结果

理论结果:渐近偏差分析(定理 1):
\(NIE_{naive} = \hat{\beta}^T \hat{\alpha}\) 来自忽略混杂的标准两步估计,\(NIE_{true} = \beta^T \alpha\)。则(在合理正则条件、高维 p→∞ 假设下)

\[\text{Bias}(NIE_{naive}) \approx \int \lambda(s) \cdot \frac{\text{Cov}(M_i(s), \eta_i(s))}{\text{Var}(M_i(s))} ds,\]

其中 \(\lambda(s)\) 是混杂对结果的影响。关键在于:混杂方差 \(\sigma_\eta^2\) 越大,偏差越大;空间平滑性可降低该偏差(通过减少 \(\text{Cov}(M,\eta)/\text{Var}(M)\) 中不可分的部分)。
可识别条件(命题 1):若空间协方差结构是已知(或可通过EM估计),且中介模型对 \(\alpha(s)\) 的估计与混杂分离,则 BASMU 是可识别的。具体地,\(\eta_i(s)\)\(\varepsilon_i^M(s)\) 在谱域可分离(基于空间频段)。

方法结果
- 两阶段估计算法:
1. 中介模型阶段:使用贝叶斯空间回归(高斯过程先验)拟合 \(M_i(s) = \alpha(s)A_i + \beta_X(s)^\top X_i(s) + \eta_i(s) + \varepsilon_i^M\),得到 \(\hat{\alpha}(s), \hat{\eta}_i(s)\)
2. 结果模型阶段:拟合线性模型 \(Y_i = \theta + \gamma A_i + \int \beta(s) M_i(s) ds + \psi^\top C_i + \int \lambda(s) \hat{\eta}_i(s) ds + \varepsilon_i^Y\),用稀疏先验(如 spike-and-slab)对 \(\beta(s)\) 选择活跃体素。NIE估计为 \(\sum_{s} \hat{\beta}(s) \hat{\alpha}(s)\)
- 无需交叉拟合?文中提到的是两阶段而非正交化(cross-fitting),在贝叶斯框架下通过后验抽样统一不确定性。

仿真结果:文中设置6种场景,改变混杂强度 \(\sigma_\eta\)、空间平滑度、体素数 p=1000。BASMU 相比 BIMA(忽略混杂)将 NIE 的偏差降低约 60-80%,MSE 降低 30-50%。在强混杂场景中,BIMA 的偏差甚至使结论反转,而 BASMU 仍保持无偏。

证明路线与技术技巧

整体路线(理论定理 1 的证明框架):
1. 构建忽略混杂的估计量:写出 naive 两步估计量的解析形式,将 \(\hat{\beta}, \hat{\alpha}\) 表示为数据矩阵的随机投影。
2. 分解偏差为可观测部分与混杂部分:将真实模型代入 naive 估计,得到偏差 \(\approx (\beta + \text{bias term})^T (\alpha + \text{bias}^\prime) - \beta^T \alpha\)。展开并忽略高阶项。
3. 计算混杂部分的贡献:利用 \(\eta_i(s)\)\(M_i(s)\) 的协方差结构,通过空间 Green 函数或谱表示获得偏差的积分形式。
4. 贝叶斯收缩的影响:证明在适当的先验下,后验均值将 \(\hat{\eta}_i(s)\) 收缩到平滑函数,从而减少噪声混叠。
关键跳跃点:从原始偏差公式推导出最终的积分形式需要处理高维矩阵求逆中 \(\eta\) 和噪声的分离——这里采用谱近似(类似 Guan et al. 2020 的谱调整)将模型变换到傅里叶基,使混杂和噪声在低频和高频区分开。

技术技巧点名
- 高斯过程先验:用于 \(\eta_i(s)\) 的贝叶斯建模,提供自然平滑和收缩。
- 吉布斯采样:在中介模型中通过条件共轭进行高效后验抽样。
- 谱分解:在偏差推导中,将空间协方差矩阵对角化,使得每个傅里叶系数可视为独立的混合,从而计算期望。
- spike-and-slab 先验:用于结果模型中的 \(\beta(s)\),实现体素水平的变量选择。

真实例子

数据:ABCD 研究(Casey et al. 2018)Release 1,包含 9-10 岁儿童的任务 fMRI 数据(N-back 工作记忆任务)。预处理已由 Sripada et al.(2020)完成。选择 4 个先验感兴趣脑区(前额叶、顶叶、前扣带回、壳核),每个区域约 200-300 体素(共 p~1000)。暴露 \(A\):ADHD 诊断和用药状态(二元)。中介 \(M(s)\):每个体素的 BOLD 激活值。结果 \(Y\):NIH Toolbox 认知总分。协变量 \(C\):年龄、性别、家庭收入、扫描仪 ID。

应用方法:BASMU 两阶段贝叶斯拟合,与 BIMA(忽略混杂)对比。

结果
- BASMU 在 4 个区域中识别出的显著中介体素数量是 BIMA 的 2-4 倍(例如前额叶:BIMA 找到 23 个,BASMU 找到 67 个)。
- NIE(间接效应)估计值:BASMU 比 BIMA 大 41%(即 BIMA 由于忽略了混杂向零偏,低估了间接效应)。
- NDE(直接效应)估计值:BASMU 比 BIMA 小 26%(符合混杂导致直接效应高估的预期)。
- 后验均值的空间地图显示 BASMU 的效应模式更平滑、更符合神经生物学先验。

例子想说明什么:验证理论预测:忽略混杂(尤其是空间平滑混杂)会导致 NIE 低估和 NDE 高估;BASMU 通过调整空间潜在效应能恢复更大且更合理的间接效应。

🔎 结论是否比证明窄

文中定理 1 的渐近偏差公式是在线性模型、空间平稳高斯过程下证明的,且隐含了 p→∞ 但 n 固定(高维)的渐近。然而,作者在讨论和结论中泛泛声称“BASMU 能有效减少未观测混杂对 NIE 和 NDE 的影响”,并未明确列出该结论仅在空间平滑混杂线性模型下成立。此外,仿真中混杂结构恰好满足平稳性假设,实际数据中不完全满足,故真实效果可能不如模拟。文中也未推导效率界或证明后验收缩率。具体语句:Theorem 1 假设“\(\eta_i(s)\) 是平稳高斯过程且与 \(A_i\) 独立”,但正文中未强调这一独立性,而真实数据中 \(A\) 可能也与 \(\eta\) 相关,此时偏差公式更复杂,文中未处理。


四、开放问题(~10%)

  1. 非线性与交互效应:本文在线性模型(加性结构) 下证明。若存在 A-M 交互或非线性,识别条件如何改变?可扎根于 Theorem 1 的线性假设(本文第 3 节开头“we consider linear mediation models”)。
  2. 效率界与最优估计:本文未推导半参数效率界。能否构造一个在 NIE 上半参有效的估计量?扎根于“this paper focuses on identifiability and bias correction, not efficiency”。
  3. 非平稳/结构性空间混杂:若 \(\eta_i(s)\) 不是平稳高斯过程(如具有长程依赖性或多尺度结构),谱分解失效,两阶段估计是否仍一致?扎根于“we assume ηi(s) is a stationary Gaussian process”(Assumption 2)。
  4. 交叉拟合的必要性:两阶段估计未使用样本分割,可能导致过拟合和偏差。能否通过交叉拟合或正交化(DML)进一步改善有限样本表现?这对应本文 limitation 句“future work could investigate sample-splitting strategies”。

可顺带提醒:当前 BASMU 的识别条件与 Guan et al.(2020)的谱调整一致——若 \(\eta_i(s)\) 在全局尺度混淆,则无法识别的边界条件在文中未明确刻画,值得查阅 Guan 原文的图 1/2 来判断。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论