Causal health impacts of power plant emission controls under modeled and uncertain physical process interference¶

讲者: Corwin Zigler
讨论人: Fredrik Sävje
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-11
主题: 因果推断
视频: https://youtu.be/Lj-oRwvspsY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：因果推断中的干扰 (interference) / 溢出效应 (spillover)，具体聚焦于一种特殊的结构——二分图 (bipartite) 干扰。在这个结构中，干预单元（如电厂）和结果单元（如居民的邮编区）是两类不同的实体，这与更常见的“社交网络干扰”（单元既是处理者又是被处理者）有根本区别。
奠基与主流路线：
干扰的因果推断基础可追溯到关于暴露映射 (exposure mapping) 的工作——通过一个已知的、低维的函数 \(g(\cdot)\)（例如“邻居中接受处理的个数”）将复杂的处理向量压缩，从而定义可比的处理水平。经典工作有Forastiere et al. (约 2016, 2020) 以及更早的Hong & Raudenbush (2006) 等。
二分图干扰的正式框架由Zigler & Papadogeorgou (2021) 提出（见幻灯片 [13]–[16]），他们明确了在静电厂-医疗结局这种场景下，SUTVA 不再成立；每个结果单元有 \(2^J\) 个潜在结果（\(J\) 个电厂数）。
绝大多数文献都假定干扰结构（即谁跟谁有联系、联系有多强）是已知且固定的——要么来源于自我报告的社交网络，要么来源于某个确定性物理模型。不确定性几乎未被纳入。
当前 frontier / 报告的站位：这篇报告对应的工作（Wikle & Zigler, 2023/2024 系列）站在“走出已知/固定干扰结构”的前沿。它提出：当干扰由物理/化学过程（大气污染传输）支配时，这个结构本身是可以从辅助数据中概率地建模的，而不应被视为已知。报告的核心贡献是：(1) 用一个可解析求解的随机偏微分方程 (SPDE) 来刻画大气中 \(SO_2 \rightarrow SO_4^{2-}\) 的传输与转化，从而获得一个关于干扰矩阵的后验分布（而非点估计）；(2) 将这个不确定性通过模块化贝叶斯（两阶段 MCMC）传播进最终的因果效应估计（直接效应和间接效应/上风效应）。
关键引文（从幻灯片与转写中提取）：
Zigler & Papadogeorgou (2021) “Bipartite Causal Inference with Interference”（二分图框架）
Forastiere et al. (2021/2022) “Exposure mapping for interference”（暴露映射方法）
Wikle, Hanks, & Zigler (2022) “Spatial mechanistic models for air pollution transport”（SPDE 的统计学实现）
Wikle & Zigler (2024) “Bayesian causal inference with uncertain physical process interference”（本报告的核心论文）
Heneman et al. (2023, Science) “Mortality risk from US coal electricity generation”（应用背景与科学重要性）

二、最小内核 / 一个最简例子¶

符号与数据¶

干预单元：\(j = 1, \dots, J\) 座电厂。每个电厂的处置变量 \(A_j \in \{0,1\}\)，\(A_j = 1\) 表示安装了脱硫设备（scrubber）。
结果单元：\(i = 1, \dots, n\) 个邮编区。结果 \(Y_i\) 是邮编区 \(i\) 的某健康指标（儿童哮喘急诊率 / 死亡率）。
核心量：二分图的加权邻接矩阵 \(\mathbf{T} \in \mathbb{R}^{J \times n}\)，其元素 \(t_{ji} =\) “电厂 \(j\) 对邮编区 \(i\) 的潜在影响”，由物理过程决定。关键：\(\mathbf{T}\) 是未知的、不确定的。
辅助数据：电厂排放量 \(\mathbf{R}\)、遥感硫酸盐浓度面 (\(SO_4^{2-}\))、年度平均风场。
暴露映射：\(Z_i = A_{J^*(i)}\)（距离 \(i\) 最近的电厂的处置），\(G_i = g(\mathbf{A}_{-J^*(i)}; \mathbf{T})\)，其中 \(g\) 是一个加权平均——\(G_i = \frac{\sum_{j \neq J^*(i)} t_{ji} A_j}{\sum_{j \neq J^*(i)} t_{ji}}\)（字母可能有误，待查原文），即所有其他电厂按影响力加权的平均处置水平。
因果估计量：直接效应 \(DE = E[Y_i(Z=1,G) - Y_i(Z=0,G)]\)；间接效应 \(IE = E[Y_i(Z,G) - Y_i(Z,G=0)]\)（固定最近电厂的处置，改变上风电厂的处置密度）。

最简特例（抛掉空间细节，只讲逻辑）¶

假设只有两个电厂 \(j=1,2\) 和一个邮编区 \(i=1\)。处理向量 \(\mathbf{A} = (A_1, A_2)\)。若 \(A_1=1\) 且 \(A_2=1\)，邮编区的潜在结果 \(Y_1(1,1)\) 会受两者共同影响。传统方法需要直接估计 \(2^2 = 4\) 种组合，要么事先指定一个“谁更重要”的已知权重（例如简单地理距离）。

报告的方法不做这种指定。它用一个 SPDE 模型，输入风场数据 + 硫酸盐遥感 + 电厂排放量，反推出“电厂1 对邮编区的影响”\(t_{11}\) 和“电厂2 对邮编区的影响”\(t_{21}\) 的后验分布。这会生成大量后验样本：比如第一个样本 \(\{t_{11}^{(1)}=0.7, t_{21}^{(1)}=0.3\}\)，第二个样本 \(\{t_{11}^{(2)}=0.5, t_{21}^{(2)}=0.5\}\)，等等。

在每个后验样本下，计算一个标量暴露 \(G^{(s)} = (t_{11}^{(s)} A_1 + t_{21}^{(s)} A_2) / (t_{11}^{(s)}+t_{21}^{(s)})\) 来替代完整向量 \(\mathbf{A}\)。然后，对于每一个这样的伪暴露 \(G^{(s)}\)，用 BART（贝叶斯非参数回归树）拟合 \(E[Y | Z, G^{(s)}, X]\)（\(X\) 为协变量），并计算直接效应和间接效应。最后，对所有后验样本的计算结果做平均（并分析方差分解，见报告 [43]–[44]），从而自然地将干扰结构的不确定性传递为因果估计的区间宽度。

三、报告主体：讲者讲了什么¶

[0:04–0:08] 背景与规模 - 介绍电厂排放是大气污染的主要来源之一，美国空气污染法规是所有联邦法规中成本最高、收益最大的。引用了 OMB 表格（幻灯片 [4]）来强调规模。 - 区分“传统流行病学问题（估计暴露-反应函数）”与“源导向监管问题（估计针对特定源的干预的效果）”。本报告聚焦后者。

[0:08–0:12] 科学故事：\(SO_2 \rightarrow SO_4^{2-}\)（硫酸盐）→ PM2.5 → 健康危害 - 展示污染物从烟囱到形成二次PM2.5的物理过程，强调硫化物特别有害（引用 Henneman et al. 2023, Science，指出煤电PM2.5的死亡风险是普通PM2.5的2.1倍）。 - 动画（[0:07:30–0:08:05]）：一个电厂（红色点）的排放“流向”整个东海岸，暗示每一座电厂都能影响到很大空间范围的健康。

[0:10–0:13] 二分图因果推断框架 - 从标准 SUTVA 一步步推进到“整个处理向量”和“通过暴露映射降维”。三个公式（幻灯片 [14]–[17]）： - 标准：\(Y_i(A_i=1)\) vs. \(Y_i(A_i=0)\)（1维）； - 二分图 naive：\(Y_i(A_j=1)\) vs. \(Y_i(A_j=0)\)（但哪个j对应哪个i？）； - 全向量：\(Y_i(A_1,\dots,A_J)\)（维数爆炸）； - 最终形式：\(Y_i( g(A_1,\dots,A_J; T) )\)，通过干扰映射 \(T\) 和函数 \(g\) 降维到可处理的标量。 - 定义“源-受体矩阵”（source-receptor matrix, 幻灯片 [18]），它是加权二分图邻接矩阵，\(t_{ji}\) 是电厂 \(j\) 对邮编区 \(i\) 的“潜在影响”。

[0:13–0:16] 与社交网络干扰的关键区别 - 讲者强调（[0:14:40–0:16:05]）：社交网络中的干扰网络是“固定的、已知的、作为数据的一部分被采集的”；而大气污染干扰是“物理过程产生的、未知的、不确定的，甚至是随机性的”。因此不能把它当做已知量。

[0:17–0:28] 核心创新：用 SPDE 统计模型估计干扰结构 - 两种方法对比： - 工程方法（HyADS模型，[0:17:43–0:18:15]）：确定性的简化大气扩散模型，速度快但不提供不确定性度量。已被用于一系列前序论文（如 Zigler et al. 2025, Biostatistics）。 - 统计方法（本报告核心）：用随机偏微分方程 (SPDE) 模拟 \(SO_2\) 和 \(SO_4^{2-}\) 的耦合传输和转化（四个关键物理过程：排放→平流扩散→反应生成→沉积），并用 MCMC 进行贝叶斯推断（[0:21:00–0:24:00]）。 - 一个重要设计细节是只有年度汇总观测（年度硫酸盐面、年度风场），却要反演季节性的动力学。这要求 SPDE 能够在一定时间尺度上平均，这是 Wikle, Hanks, & Zigler (2022) 一文的重点。 - 技术路线（[0:23:40–0:24:25]）：离散空间近似后，该过程可表达为Ornstein-Uhlenbeck 过程，从而得到高斯似然——均值函数及协方差函数均由 SPDE 的参数 \(\theta\) 控制。因此，\(\theta\) 的推断可给出硫酸盐浓度面的后验预测，进而给出干扰矩阵的整个后验分布。

[0:29–0:35] 因果估计量定义 - 采用 Forastiere 等人的 bivariate treatment 框架： - \(Z_i\) 是距离 \(i\) 最近的电厂 (\(J^*(i)\)) 的处理状态（地理最近，不一定是大气最近——这一矛盾被讨论者 Fredrik Sävje 特别指出）。 - \(G_i\) 是对“所有其他电厂”的加权平均处理，权重由干扰矩阵决定。 - 关键假设：\(Y_i(\mathbf{A}) = Y_i(\mathbf{A}')\) 当且仅当 \((Z_i, G_i)\) 相同。这个“所有干扰都通过 \((Z,G)\) 流入”的假设非常强，其合理性完全取决于暴露映射 \(g\) 是否被正确指定。讲者坦承（[0:33:36–0:34:50]）：正是对这一假设的担忧，驱动了将不确定性纳入 \(g\) 的动机。

[0:35–0:40] 两阶段模块化贝叶斯估计 - 阶段一（干扰模型）：MCMC 拟合 SPDE → 得到 \(\theta\) 的后验样本 → 每个 \(\theta^{(s)}\) 对应一个干扰矩阵 \(\mathbf{T}^{(s)}\) 和一个上风暴露 \(G_i^{(s)}\)。 - 阶段二（结果模型）：对每一个扰动后的 \(G_i^{(s)}\)，用 log-linear BART（贝叶斯加性回归树）拟合 \(E[Y_i | Z_i, G_i^{(s)}, \text{covariates}]\)。 - 模块化的含义：阶段二的似然不回传至阶段一。也就是说，健康数据不用于改变我们对干扰过程的认知。这是个有意识的建模选择（[0:39:14–0:39:22]），以避免健康结果“污染”物理过程推断。

[0:39–0:45] 实证发现 - 数据来源：Texas Healthcare Information Collection（儿童哮喘急诊）、Medicare（老年人死亡率）、约100个电厂、~2000个邮编区。 - 执行四种分析对比： 1. 简单泊松回归 + 固定干扰（\(\mathbf{T}_{\hat{\theta}}\)）； 2. 简单泊松回归 + 不确定干扰（对多组后验干扰求平均）； 3. log-linear BART + 固定干扰； 4. log-linear BART + 不确定干扰。 - 主要发现（幻灯片 [41]–[44]）： - 不确定干扰的区间总是更宽，反映了对干扰未知性的“诚实”处理。 - 对死亡率结果，不确定干扰对总变异率的贡献（右列紫色数字）取决于结果模型是否灵活（BART vs. 泊松），这很有意思（[0:43:34–0:44:30]）。 - 对哮喘结果（[0:44:35–0:45:20]）：如果忽略干扰不确定性，BART 在某种上风暴露水平下得到“显著”的间接效果；但引入不确定性后，效果不再显著。这是一个具体的例子，说明忽略干扰不确定性可能产生误导性推断。

[0:45–0:47] 结束与致谢 - 核心论文：Wikle, N., & Zigler, C. M. (2024). “Bayesian causal inference with uncertain physical process interference.” arXiv. - 致谢合作者：Nathan Wikle（主要作者，现 UIowa），Ephraim Hanks 等。

[0:47–1:01] 讨论与 QA（由 Fredrik Sävje 主持） - Fredrik 的评论摘要： - 高度赞扬该工作“迎头应战”干扰结构未知这一最困难问题（[0:48:00–0:49:00]）。 - 提出两个关键批评： 1. 二分图编码是否丢弃了太多信息？SPDE 模型比加权邻接矩阵丰富得多（包含浓度梯度、非线性等），将其简约成一个简单的内积 \(G = \sum_j t_{ji} A_j\) 可能浪费了信息。为何不直接在中介框架中使用 SPDE？（[0:50:40–0:51:25]） 2. “最近电厂（geographically closest）”的选择与物理过程相矛盾：报告在定义 \(Z_i\) 时用地理距离，但报告自身反复强调大气传输让遥远的电厂也可能影响很大。为什么不使用大气联系本身（如 \(t_{ji}\) 大小）来选择关键电厂？（[0:51:50–0:52:50]） - 同时提出更自然的估计量：如“所有电厂都安装 vs. 都不安装”的效果，或“将10%最污染的电厂改造”的效果。 - Zigler 的回应（[0:57:00–1:01:00]）： - 对第一个问题，他指出若直接用下游浓度做中介，处理→中介的路径本质上是一个“处理后的协变量”（post-treatment variable），不能简单调整，需要完整的因果中介分析，增加了额外复杂性。选择用“潜在影响”权重是为了构造一个干预前的、可类比“邻居”的量。 - 对第二个问题，他承认这是一个简化做法，并指出更自然的选择（如 \(t_{ji}\) 最高的电厂）在目前框架中可行，但会在分析结果中带来更大的不确定性，这本身也是后续工作的一部分。

四、对应论文与开放问题¶

对应论文¶

这场报告对应的工作集中在以下论文（部分为可信收集，部分需查原文核实）：

Wikle, N. & Zigler, C. M. (2024). "Bayesian causal inference with uncertain physical process interference." （幻灯片末列为大号字，即报告的论文；arXiv ID 未在转写中提及，待查）
Wikle, N., Hanks, E. & Zigler, C. M. (2022). 提供 SPDE → 高斯似然 → MCMC 的技术基础；（标题从幻灯片第26张旁的文字推测，待核实）
Zigler, C. M., Liu, V., Forastiere, L. & Mealli, F. (2025). “Bipartite interference and air pollution transport: estimating health effects of power plant interventions.” Biostatistics, 26(1).（幻灯片末提及；这是用确定性 HyADS 模型的前期工作）
Henneman, L. et al. (2023). "Mortality risk from United States coal electricity generation." Science, 382(6673): 941–946.（科学背景）；
Zigler & Papadogeorgou (2021). 二分图因果推断的原始框架论文（标题待查）

报告留下的开放问题（每一条均扎根于转写中的具体点）¶

“关键关联电厂”的合理定义：当前使用地理最近（[0:30:00]），但讨论者 Fredrik 及讲者自己（[0:57:00–0:58:00]）都指出，风场与大气传输可以使得远处电厂比近处有更大影响。能否开发一个完全基于大气模型定义“关键关联电厂”的自适应方案？ 这一改动的结果可能会改变估计量的解释。
中介分析思路：Fredrik 提出用 SPDE 直接估计电厂排放→局部硫酸盐浓度→健康的中介路径（[0:50:40–0:51:25]），而 Zigler 指出这会引入“处理后的协变量”问题（[0:59:00–0:59:50]）。一个中介分析（如自然直接/间接效应）相对于当前的干扰框架，能否更合理地剥离出不同电厂的份额？ 这要求引入中介假设（无中介-结局混杂等）和对时间动态的更仔细建模。
时间动态：当前框架仅使用单年（2016）的数据。Zigler 在 QA 中承认（[1:00:20–1:00:35]），风场和排放都随时间变化，将模型扩展到多年面板，并让干扰网络随时间演化，是一个自然但计算复杂的扩展。
能否避免降维到二元暴露：目前估的是“最近电厂安装”在“固定上风暴露水平”下的效果，粒度很粗。Fredrik 提议估计更广义的政策效果（如“将10%的电厂安装scrubber”）。如何在不同概括水平（aggregation level）上定义全样本的因果估计量，并给出有效的不确定性量化？ 这个问题直接连接着因果推断从“单位水平”到“政策水平”的长期讨论。
模块化贝叶斯的合理性：Zigler 在 [0:39:14–0:39:22] 强调“健康数据不返回修饰污染模型”是有意识的选择。但在某些场景下，允许健康数据提供关于干扰结构的信息可能提高效率。模块化对因果估计的可识别性/一致性有何影响？ 这是当前 Bayesian causal inference with interference 中关于 cut feedback 的活跃问题。

Maintained by 陈星宇 · Homepage · Source on GitHub