Bipartite inference and air pollution transport: estimating health effects of power plant interventions¶

讲者: Corwin Zigler
讨论人: Forrest Crawford
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-05-11
主题: 因果推断
视频: https://youtu.be/PiiWu-YtIXs · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2012.04831 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

本报告属于因果推断中带有干扰项（interference）的效应估计这一子方向，但它在两个维度上扩展了主流文献：

二部图（bipartite）结构：传统干扰项文献（如疫苗 / 社会网络）中，处理单元与结果单元是同一套对象（一个个体既接受处理也产出结果），干扰通过结果依赖（如感染 / 友谊）传递。Zigler 的场景则是两种截然不同的单元：处理单元（发电厂，约 500 个）和结果单元（邮政编码区，约 2.5 万个）。处理（安装洗涤器）发生在发电厂，结果（住院率）在邮编区观测，干扰通过大气污染物的物理化学传输过程而非结果依赖而起作用。
干扰结构的来源：传统文献中，干扰网络（如朋友关系）通常通过调查收集数据得到（如"你和谁是朋友"）。此处干扰网络（电厂的排放物飘到哪个邮编区）无法直接观测，必须用大气传输模型来估算。Zigler 的工作因此分为两条路径：
工程优先（engineering-first）：直接使用确定性、简化的大气模型（如 HyADS，[0:19:55–0:21:00]、幻灯片 13-15）构建加权邻接矩阵，再将其作为已知输入进行因果推断。这是报告主要内容。
统计优先（statistics-first）：用时空统计模型（Wikle & Hanks，Penn State）或机器学习（CNN）从数据中学习干扰结构，然后把不确定性传播到因果估计中[0:18:58–0:19:42]。这部分仍在推进中，报告未深入。

该方向的奠基工作包括：
- Arnold & Samii (2017) 提出“暴露映射（exposure mapping）”作为处理高维干扰项的一般框架，单页曝光映射将全向量处理压缩为低维函数。
- Hudgens & Halloran (2008) 定义部分干扰（partial interference）与分层处理效应。
- Forastiere, Mealli & VanderWeele (2016, JASA) 和 Forastiere et al. (2020) 为二部图干扰下的联合倾向性评分（joint propensity score）方法提供了方法论基础，Zigler 的工作直接建立于此。

当前 frontier 包括：如何将大气模型的传播不确定性纳入因果推断（而非仅用点估计）；如何处理处理随时间变化（在时间维度暴露映射的变化、处理的联合分配随时间的内生性问题）；以及如何将效应归因于单个电厂而非“关键电厂”。报告末尾的讨论 [0:58:50–1:00:15] 与 Forrest Crawford 的提问突出了这些 open problems。

二、最小内核 / 一个最简例子¶

符号与设置：

处理单元：发电厂 \( j = 1, \dots, J \)（如 \( J = 2 \)）。\( S_j \in \{0,1\} \) 表示电厂 \( j \) 是否安装洗涤器（0=未安装，1=安装）。
结果单元：邮政编码区 \( i = 1, \dots, N \)（如 \( N = 1 \) 个邮编区）。\( Y_i \) 是观测到的相应住院率。
潜在结果：在干扰下，邮编区 \( i \) 的潜在结果 \( Y_i(\mathbf{S}) \) 取决于全部 \( J \) 个电厂的处理状态 \(\mathbf{S} = (S_1, \dots, S_J)\)。若无额外假设，有 \( 2^J \) 个潜在结果，无法识别。
干扰矩阵：\( \mathbf{T} = [t_{ji}] \) 为 \( J \times N \) 的加权二部邻接矩阵。\( t_{ji} \) 根据简化大气模型（HyADS）计算，衡量电厂 \( j \) 对邮编区 \( i \) 的污染影响强度（如一年中排放颗粒流经受次数）。键盘重新调整后，通常归一化以满足 \( \sum_{j} t_{ji} = 1 \)。

最简特例 (\( J=2, N=1\))：

我们有电厂 1 和电厂 2，邮编区 A。干扰矩阵 \( t_{11}, t_{21} \)，且 \( t_{11}+t_{21}=1 \)。
- 关键电厂：取 \( j^*(i) = \arg\max_j t_{ji} \)，假设电厂 1 的 \( t_{11} > t_{21} \)，则电厂 1 为关键电厂。定义：

\[Z_i = S_{1} \quad (\text{关键电厂的处理}).\]

- 逆风处理：\( G_i = t_{21} S_2 \) （即除关键电厂外其他电厂的加权平均处理）。 - 逆风干扰假设（Upwind Interference Assumption）：

\[Y_i(\mathbf{S}) = Y_i(Z_i, G_i) \quad \text{当且仅当} Z_i \text{ 和 } G_i \text{ 与} \mathbf{S} \text{一致}.\]

也就是说，潜在结果仅通过 \( Z_i \) 和 \( G_i \) 依赖全局处理向量。这是一个单页暴露映射（scalar exposure mapping），将潜在结果空间从 \( 2^J \) 降至 \( 2 \times \)（\( G_i \) 的可能取值数）。

为什么压缩有效？ 在这个例子中，电厂 1 对邮编区 A 的直接影响最大，而电厂 2 的贡献通过加权求和 \( G_i \) 进入。两个不同的全局向量（如 \( (S_1=1, S_2=0) \) 与 \( (S_1=1, S_2=1) \)）若导致相同的 \( (Z_i=1, G_i=0) \) 与 \( (Z_i=1, G_i=t_{21}) \)，则被认为有相同潜在结果。

定义因果效应（举例）： 1. 直接效应：对固定的逆风处理水平 \( g \)，

\[\tau(g) = \mathbb{E}[Y_i(1,g) - Y_i(0,g)],\]

例如在 \( g=0 \) 时，关键电厂安装洗涤器 vs. 不安装的因果效应。 2. 间接（逆风）效应：对固定的关键电厂状态 \( z \)，

\[\delta(g) = \mathbb{E}[Y_i(z,g) - Y_i(z,0)],\]

例如在关键电厂未安装时，逆风处理从 0 增加到 \( g \) 的效果。

识别条件（需检查转写对应论文求证准确表述，此处为背景知识推断）：
在以下假设下，这些效应可由观测数据识别：
1. 无干扰替换假设（No-interference substitution）：由暴露映射 \( (Z_i, G_i) \) 决定。
2. 条件不可忽略性（Ignorability）：给定足够丰富的一组协变量 \( X_i \)（包括电厂特征、邮编区人口统计、天气等），\( (Z_i, G_i) \) 相对于潜在结果在处理上是独立的。
3. 重叠（Overlap）：对每个 \( (Z_i, G_i) \) 组合，有正概率观测到。

三、报告主体：讲者讲了什么¶

问题与背景 [0:00–0:06:00]
- 核心问题：安装洗涤器（scrubber）能否降低缺血性心脏病（IHD）住院率？
- 数据：2005年美国472个燃煤电厂（处理单元），约 2.1 万个邮编区的 Medicare 住院数据（结果单元）。
- 特有挑战：污染物的二次 PM2.5 形成（SO₂→PM2.5 的长程传输）导致干扰：一个邮编区的空气质量受沿风向上游所有电厂排放影响。

二部图因果框架的构建 [0:06:00–0:14:00]
- 幻灯片7 展示了完整的网络结构，强调干扰来源于“复杂暴露依赖”而非“结果依赖”（如朋友圈感染），Zigler 将其称为地理/物理干扰，区别于传统的拓扑干扰。
- 暴露映射的具体化：

\[G_i = \frac{\sum_{j \neq j^*(i)} t_{ji} S_j}{\sum_{j \neq j^*(i)} t_{ji}} \quad (\text{加权平均处理率, rescaled})\]

形式上接近一个归一化的加权平均（slides 明确写出 "hyads-weighted rate of scrubbers installed upwind"），但权重 \( t_{ji} \) 是否需要归一化以及具体数值含义，在转写中不够清晰，需核对论文原文（arXiv 2012.04831）确认。（转写中 [0:28:52–0:29:13] 提到 "rescaled weighted average"。）

干扰网络的建模：工程优先 vs. 统计优先 [0:14:00–0:23:14]
- Zigler 在此处讨论了关键的选择：Interference 结构必须“建模”而非“收集”，这是该问题与社交网络文献的最大区别。
- 工程优先：使用HyADS 模型（一种简化复杂度的大气模型，Henneman et al., Atmospheric Environment, 2019）模拟“100个空气包”从烟囱出发，由历史天气数据驱动在大气中传播，然后与邮编区人口的空间位置对齐，得到“过境次数”作为权重 \( t_{ji} \)。这是一个确定性模型——不提供任何关于 \( t_{ji} \) 精度的统计度量 [0:22:32–0:23:14]（这一局限在 Q&A 中被 Richard Berk 指出）。
- 统计优先（正在进行中）：
- 途径一：用时空动态统计模型（Wikle & Hanks, Penn State），旨在学习“排放→污染浓度”的统计关系。
- 途径二：用定制的卷积神经网络（UT Austin 学生项目）直接预测干扰权重。
两种都试图将物理知识融入统计模型，但都尚未集成到最终的因果估计中。

关键电厂与逆风处理定义 [0:23:22–0:31:00]
- 关键电厂 \( j^*(i) \)：对每个邮编区 \( i \)，定义为其邻接矩阵 \( t_{ji} \) 中值最大的那个电厂（即“最影响该邮编区的电厂”）。
- Zigler 的论据：并非所有电厂在任何邮编区都是“关键”的，甚至有些电厂可能不做任何邮编区的关键电厂——但它们的处理仍可通过 \( G_i \) 影响结果 [0:31:12–0:33:00]。这个特征（某些处理单元不在任何 \( Z_i \) 中出现但仍在 \( G_i \) 中出现）是该设置与标准二部图（如 Forastiere et al.）的微妙区别。

估计方法：联合倾向性评分 [0:35:14–0:41:10]
- 遵循 Forastiere et al. 的方法，估计联合倾向性评分（Joint Propensity Score, JPS）。在幻灯片24-26中有明确表述：
1. 预测 \( \text{P}(Z_i=1 | X_i) \)（关键电厂倾向性评分）；
2. 在该评分形成的 K 个层内，预测 \( \text{P}(G_i \le g | Z_i, X_i) \)（逆风处理的条件倾向性评分）；
3. 在加权回归中使用这些倾向性评分来估计潜在结果的剂量-反应函数。
- 无混淆性（Ignorability）假设：需要控制包括邮编区人口统计、天气、电厂特征（规模、运行程度、是否参与监管计划）等在内的大量协变量 [0:38:25–0:39:18]。
- 标准误：目前使用由 Forastiere et al. 发展的“自我中心自助法（egocentric bootstrap）”，但 Zigler 承认该法对当前抽样机制并非完全准确 [0:40:42–0:41:00]。

主要结果 [0:41:00–0:44:08]
- 图（幻灯片57-58）显示了剂量-反应曲线：
- 关键电厂有洗涤器（红色曲线）始终低于关键电厂无洗涤器（蓝色曲线）→ 直接效应显著。
- 两条曲线均随逆风处理水平 \( g \) 增加而下降 → 间接（逆风）效应显著。
- 数值估计（转写 [0:43:36–0:44:08]）：
- 直接效应：关键电厂安装洗涤器使 IHD 住院率下降 约 8/万人年。
- 间接效应：逆风处理从 0 增加到当前水平，使住院率下降 约 15–30/万人年（具体数值取决于关键电厂状态）。
- （注：这些点估计主要来自转写口述，关键数字需在论文中核实。）

讨论者的批评与开放问题 [0:44:10–1:07:43]
- Forrest Crawford 的评论 [0:49:00–0:55:26]：
- 强调暴露映射的“来源”是关键的科学输入——它来自大气科学领域知识，而非统计模型；
- 提出的悬问：
1. 权重 \( t_{ji} \) 是否应归一化到和为一？暴露映射是表示绝对暴露水平还是处理的其他单元的相对影响？
2. 如何处理暴露映射本身的不确定性？是否可以将确定性 HyADS 映射视为一个随机映射的期望？
3. 为什么将单个电厂提升为“关键”并几乎从模型中移除其他电厂？是否存在更好的（对称的）定义框架？
- Eric Chen 的 Q&A（[1:01:00–1:07:43]）：
- 倾向性评分模型兼容性问题（Eric 担心各邮编区的条件模型无法联合当作一个真正的多元分布）；
- Fabrizia Mealli 回应称只需要作为平衡得分（balancing score）的一致估计，无需完整联合分布；Eric 则反驳说理论计算上兼容性可能带来实质性偏差；Zigler 承认该点是估计流程的一个“真正压力点”。

四、对应论文与开放问题¶

对应论文： 1. 主要论文：Zigler, Liu, Mealli, Forastiere (2020-ish). Bipartite Interference and Air Pollution Transport: Estimating Health Effects of Power Plant Interventions. arXiv:2012.04831.
2. 大气模型：Henneman et al. (2019). Atmospheric Environment.（HyADS 模型的详述与验证）——转写未记全标题，需查证原文联系引用。
3. 方法论基础：Forastiere, Mealli, & VanderWeele (2016, JASA) 与 Forastiere et al. (2020) 的倾向性评分分层方法。
4. 相关后续：Zigler 团队关于“关键电厂处理效应”的另一篇工作（转写提到“a different paper”，但未提供标题）。

报告留下的开放问题（每条附转写对应时间点）： 1. 大气模型不确定性的传播（[0:22:32–0:23:14]、[0:55:00–0:56:00]）：HyADS 作为一个确定性模型，其估计的 \( t_{ji} \) 本质上没有统计不确定性。如何处理这个误差，以及如何将其无偏地纳入因果效应标准误？
2. 倾向性评分模型的兼容性（[1:01:00–1:07:43]）：在二部图设置下，对各邮编区独立建模的倾向性评分是否隐含了全局联合分布的不一致？如果模型不兼容，是否会导致估计有偏？
3. 时间维度与纵向因果效应（[0:20:55–0:21:40]、[0:58:50–1:00:15]）：当前分析是横截面的一年数据。如何处理随时间变化的干扰结构（季节性与风向变化）与处理的内生性（如电厂在之前低住院率区域自愿安装洗涤器）？
4. 对关键电厂给予特殊地位的统计合理性（[0:59:34–1:00:15]、Forrest's question）：是否可以定义一个对称的全对效应（所有的单位都对结果有等同贡献），而不是先选择一个“关键”电厂？这种选定的截断是否引入选择偏差？
5. 暴露映射的敏感度分析（Forrest's suggestion）：是否可以构造针对暴露映射形式的敏感度分析，评估因果结论对干扰结构假设的依赖强度？

Maintained by 陈星宇 · Homepage · Source on GitHub