Causal Rule Ensemble: Interpretable Inference of Heterogeneous Treatment Effects¶

讲者: Falco Bargagli Stoffi ; Eli Ben-Michael
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-23
主题: 因果推断
视频: https://www.youtube.com/watch?v=njXNWjXKuTY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

本场报告由两个独立但主题互补的报告组成：（1）Falco Bargagli Stoffi 讲的 Causal Rule Ensemble (CRE)，以及（2）Eli Ben-Michael 讲的 Partially Pooled Synthetic Control for Staggered Adoption。它们都集中在一个子方向上：在面板数据或观测研究中，对异质性处理效应 (HTE) 或平均处理效应 (ATT) 进行推断，同时平衡精度与可解释性——特别是当数据存在"交错采纳"（staggered adoption）结构或需要发现"哪些子群体会受到最大影响"时。

报告（1）：Causal Rule Ensemble（CRE）¶

核心追问：如何既做到高精度（像随机森林、因果森林那样的预测能力），又保持高可解释性（像单棵决策树、线性回归那样，结果可以被人类直接理解为一个"如果-那么"规则）？这在因果推断的 HTE 估计问题中尤其棘手，因为暗含着"从一个高维的、非线性的黑箱模型中，提取出稳定的、被人类理解的子群体异质性"。
奠基与主流路线：
- 高精度但低可解释：Causal Forests (Wager & Athey, 2018), Bayesian Causal Forest (Hahn et al., 2020), Generalized Random Forests (Athey et al., 2019)。这些方法在预测 CATE 上精度高，但输出是连续函数，很难被政策制定者直接解读为"哪些具体特征的人最脆弱"。
- 高可解释但低精度：Honest Causal Trees (Athey & Imbens, 2016)，de novo discovery 方法（Lee et al., 2018）。单棵树或规则集虽然可解释，但可能不稳定、overfitting，且在估计精度上不如集成方法。
- 试图跨越"精度-可解释性"鸿沟：规则集成（Rule ensembles）是 Friedman & Popescu (2008) 在预测领域提出的旧概念。CRE 把它引入因果推断：先用一个高精度黑箱模型（如 BCF）产生 CATE 预测，然后把这个预测当作新的目标变量，用决策树集成（RF + GB）来"重新挖掘"出简洁的决策规则。
这场报告的站姿：CRE 是 "post-hoc interpretability" 在因果推断中的一个应用。它不修改内部的 CATE 估计流程，而是在估计完成后，用机器学习对 CATE 做一个"二次建模"，从中提取可读的规则。其关键创新在于：
1. 使用稳定性选择（Meinshausen & Bühlmann, 2010）来筛选出可靠的规则，避免虚假发现。
2. 用样本分割（honest approach） 将发现（discovery）和推断（inference）分开，以进行有效的统计推断（给出置信区间）。
3. 对每个发现的规则进行敏感性分析（基于 Zhao et al., 2019）。

报告（2）：Partially Pooled Synthetic Control for Staggered Adoption¶

核心追问：在合成控制法（SCM）处理单个 treated unit（如一个州）时，如何找到好的加权控制组。但当有多个 treated units、且它们在不同时间点开始接受处理（交错采纳，staggered adoption）时，如何聚合这些个体级的 SCM 估计来获得一个有意义的平均处理效应（ATT）？传统做法（给每个 treated unit 单独做 SCM）会导致平均后的"伪合成控制"在前期出现显著的非零偏差。
奠基与主流路线：
- 经典 SCM (Abadie & Gardeazabal, 2003; Abadie, Diamond, & Hainmueller, 2010, 2015): 为单个 treated unit 寻找非负、和为1的权重，使得合成控制在预处理期拟合良好。当有多个 treated units 时，标准做法是各自独立做，然后取平均。
- 交错采纳下的挑战：Goodman-Bacon (2021) 以及 Sun & Abraham (2021) 指出，在交错采纳下，简单地对多个 treated units 做事件时间（event-time）平均可能会引入偏差，因为不同单元的"事件时间"对应的是不同的实际日历时间，其潜在混杂趋势不同。
- 现有改进：Arkhangelsky et al. (2021) 的合成双重差分（SDID）同时优化单元权重和时间权重，但并非专门针对交错采纳下的"平均拟合"问题；另一些文献（如 Callaway & Sant'Anna, 2021）则从平行趋势假设出发，使用基于组的 DID 估计。
这场报告的站姿：报告提出了一个概念上的洞察：在交错采纳下，ATT 的估计误差可以分解为"个体拟合误差"和"平均拟合误差"。现有的 "separate SCM" 优化前者、"pooled SCM" 优化后者。因此，一个合理的做法是用超参数在这两个目标之间取折衷，形成一个"平衡可能性前沿" (balanced possibility frontier)。这本质上是一个二维优化问题，可以通过向目标函数中加入一个权重项（nu）来解决：nu * (个体拟合误差) + (1-nu) * (平均拟合误差)。同时，为了提高个体级拟合，还引入了截距项（intercept shift）——即可以先对每个单元在自身前期均值处去均值，再对残差做合成控制。这样做等价于一个加权双重差分（weighted DiD），使得方法更稳健。

二、最小内核 / 一个最简例子¶

（1）Causal Rule Ensemble 的最小内核¶

符号与可观测数据：
- Zj ∈ {0,1}：二元处理（例如，一个地区PM2.5是否超过12μg/m³）。
- Yj：观测到的结果（如5年死亡率）。
- Xj = (Xj1, Xj2, ..., XjP)：P维协变量（如年龄、性别、收入、当地教育水平、BMI等）。
- e(Xj) = P(Zj=1 | Xj)：倾向得分。
- 潜在结果: Yj(1), Yj(0)。核心可识别假设：无混淆、SUTVA、共同支撑。
Estimand: τ(x) = E[Y_j(1) - Y_j(0) | X_j = x]（CATE）。
最简例子（d=2，两个协变量）：
- 假设 Xj1 ∈ {0,1} (性别: 1=女性), Xj2 ∈ {0,1} (老年: 1=>65岁)。
- 真实 CATE 为：
  - τ(0,0) = 2 (年轻男性)
  - τ(1,0) = 0 (年轻女性)
  - τ(0,1) = 5 (老年男性)
  - τ(1,1) = 1 (老年女性)
- CRE 的做法：
  1. 发现阶段（Discovery）：用数据子集训练一个 BCF 模型，得到每个样本的 τ̂(x) 估计。然后，用 RF 和 GB 将 τ̂(x) 作为新标签，对 X 进行回归。这两组集成方法会生成大量树，每棵树的每个非根节点对应一个"规则"（如 (Xj1=0 & Xj2=1)）。
  2. 规则选择：把所有生成的规则（比如有100个）作为特征，对 τ̂(x) 做 LASSO 回归+稳定性选择。很可能只有少数规则（如 Xj1=0，Xj2=1，Xj1=0 & Xj2=1）被选中。
  3. 推断阶段（Inference）：用保留的另一半数据，只使用选出的规则（例如 r1 = I{Xj1=0}, r2 = I{Xj2=1}, r3 = I{Xj1=0 & Xj2=1}），回归 τ̂(x) ≈ β0 + β1*r1 + β2*r2 + β3*r3。
  4. 解读：β0 给出参考组的 CATE，β1, β2, β3 给出相对于该组的变化。即使原始 BCF 是黑箱，最终的线性规则解释是清晰的。

（2）Partially Pooled Synthetic Control 的最小内核¶

符号：
- N 个单元，J 个被处理（treated）。平衡面板，T 个时期。
- 处理时间 Tj: 单元 j 开始接受处理的时间。Tj = ∞ 表示从未被处理（control）。
- Y_jt: 单元 j 在时间 t 的结果（如对数化的人均教育支出）。
- 事件时间 k: 单元被处理后第 k 期（k = 0,1,...）；预处理期 k < 0。
- 我们的 estimand: 时间-事件（event-time）平均处理效应 ATT(k) = E[ Y_j(Tj + k | treated) - Y_j(Tj + k | never treated)]。它是在事件时间上的平均，而非日历时间。
最简例子：
- 假设有3个州：加州（ CA ）在 t=5 时被处理；俄亥俄（ OH ）在 t=10 时被处理；控制组（ IL, IN, TX...）。我们想估计 k=1,2,... 时的 ATT。
- Separate SCM：为 CA 分别找权重，拟合其在 t<5 时的结局；为 OH 分别找权重，拟合其在 t<10 时的结局。然后取平均。问题：CA 的预处理拟合很好，OH 的预处理拟合很好，但它们平均后的预处理拟合（即 k=-5 时的平均差）可能不为零，因为在 k=-5 时刻，CA 的 t=0 和 OH 的 t=5 对应不同的日历时间。
- Pooled SCM：将 CA 和 OH 当作一个整体，寻找一组权重使平均绝对差在平均事件时间上最小。这相当于要求：对每对 (j, k in [pre-period])，Y_j(Tj+k) - 加权后的控制组平均 的平均为零。这可以完全消除平均偏差，但它可能对 CA 或 OH 本身是糟糕的拟合。
- Partially Pooled SCM：在目标函数中加入一个截距项，允许每个单元有水平偏移：
```
min_{权重, 截距} ν * (sum over j, pre-period k (个体J的残差平方和)) + (1-ν) * (sum over k (平均残差平方和))
```
  当 ν=1 时是 Separate；ν=0 时是 Pooled。通过选择 ν，可以像"平衡可能性前沿图"所示的那样，在二者之间权衡。加上截距后，它等价于一个加权 DiD。

三、报告主体：讲者讲了什么¶

第一部分：Falco Bargagli Stoffi - Causal Rule Ensemble [0:01:27 - 0:28:46]¶

[0:01:27 - 0:02:53] 动机：空气污染对健康有负面影响（引用大量文献），但亚组异质性很少被详细研究。目的是用数据驱动的方法发现最脆弱的子群，而不是预先指定。
[0:03:23 - 0:04:57] 方法论动机：指出精度与可解释性间的经典折衷。将 CRE 定位为一种高精度 + 高可解释性的集成方法，且与用于估计 CATE 的底层方法无关（即可以是 BCF、Causal Forest 等）。
[0:05:01 - 0:06:40] 设定与假设：标准 Rubin Causal Model（二元处理，无混淆，SUTVA，重叠假设）。
[0:06:44 - 0:07:20] Estimand: CATE τ(x)。
[0:07:33 - 0:08:40] 为什么用规则？：根据 Miller 和 Kim 的研究，决策规则（if-then 语句）是高度可解释的。图示展示了单棵树的规则生成。
[0:08:42 - 0:10:42] 方法论总览（Honest Approach）：
- 将数据分为发现样本（\(I_{dis}\)）和推断样本（\(I_{inf}\)）。
- 发现阶段：
  1. 用 BCF（或其他方法）估计 τ̂^dis(x)。
  2. 用 RF 和 GB 将 τ̂^dis(x) 对 X 回归，提取所有树的决策规则。
  3. 使用 LASSO + 稳定性选择筛选最重要的规则。
- 推断阶段：
  1. 用推断样本，将 τ̂^inf(x)（或一个新估计）对选出的规则做线性回归。
  2. 对每个规则的系数进行推断（置信区间）。
  3. 进行敏感性分析。
[0:10:43 - 0:12:29] 发现阶段细节：
- 规则生成：用 BCF 得到 ITE 估计，然后用 RF 和 GB 拟合这些估计。"为什么用两种集成？为了最大化潜在规则发现的广度。"
- 规则选择：将生成的规则作为特征做 LASSO 回归。图示展示：5棵树产生13个候选规则，稳定选择后选出红色规则（最重要的 2-3 个）。
[0:12:30 - 0:14:40] 推断阶段细节：
- 定义 τ^* 为推断样本上新的个体效应估计，X̃ 为只有选中规则的特征矩阵。
- 建模 τ^* = X̃ β + ν，其中 ν 是噪声。
- 使用 OLS 估计 β。由于 ν 是异方差的（包含了 τ^* 的估计误差），使用 White 或 Efron 的异方差一致标准误。
- 声称：β̂ 是 β 的一致估计且渐近正态（证明见论文）。敏感性分析基于 Zhao et al. (2019)。
[0:14:59 - 0:17:43] 模拟设置：
- 10 个二元协变量，处理分配与其中 3 个有关（X3, X4, X5，也是 confounders）。
- 对比两种场景：效果修饰因子（effect modifier）与 confounder 无重叠与有重叠。设置 2 个和 4 个真实规则。
- 效果量 h 从 0 到 4，样本量 1000 和 2000。
[0:17:44 - 0:19:52] 模拟结果：发现能力：
- 无重叠场景：CRE 能几乎完美地发现所有真实规则（无论 2 个还是 4 个规则），其表现优于 Honest Causal Tree（Lee et al., 2018）。见幻灯片 Fig. 12-13 的红色 vs 蓝色曲线。
- 有重叠场景（confounders 同时也是 effect modifiers）：CRE 的性能仍然很好，但 Honest Causal Tree 的性能显著恶化。CRE 能成功区分 confounders 和 effect modifiers——这是模拟的一个核心发现。
[0:19:53 - 0:21:06] 模拟结果：估计精度：
- 对比不同样本分割比例的 CRE 与单独使用 BCF 的 RMSE。
- 最佳分割：发现样本 25%，推断样本 75%（与 Lee et al. 一致）。在该设置下 CRE 的 RMSE 与 BCF 相当（甚至略优，见幻灯片 Fig. 17）。
[0:21:08 - 0:23:08] 应用：Medicare 数据：
- 160 万新英格兰地区老人，2000-2006。
- 处理：2 年平均 PM2.5 > 12 μg/m³（全国标准）。
- 结果：5 年死亡率。
- 控制变量：4 个个体层面（年龄、性别、医保资格、种族）+ 10 个县级层面。
- 匹配后分析样本约 22 万人。
[0:23:09 - 0:26:25] 应用结果与敏感性分析：
- 发现的规则：
  - Intercept (参考组): 85 岁以上白人 + 81-85 岁白人+低收入（Medicaid 资格）。死亡率增加 7 个百分点（显著）。
  - r2: 85 岁以上非白人 + 81-85 岁非白人+低收入。死亡率增加 6.2%（显著）。
  - r3, r4: 其他子群，效应不显著（与 Intercept 有显著差异，但本身效应不显著或不一致）。
- 敏感性分析（Zhao et al., 2019）：参数 Λ（未测混杂使倾向得分偏移的比率）。当 Λ = 1.04 时（即未测混杂能产生 4% 的偏移），规则 r2 的置信区间跨越 0；但 Intercept 的效应直到 Λ = 1.05 仍稳健。结论：白人老年低收入群体对空气污染最脆弱且结果最稳健。
[0:26:31 - 0:28:46] 结论与未来方向：
- 贡献：一种可解释的、高精度 HTE 发现与推断方法。
- 关键特征：方法论无关（agnostic）、能区分 confounders 和 effect modifiers。
- 未来方向：完全贝叶斯的规则发现（潜在用 BART 实现）。
- 论文：arXiv:2009.09036。

第二部分：Eli Ben-Michael - Partially Pooled Synthetic Control for Staggered Adoption [0:32:40 - 0:57:50]¶

[0:32:40 - 0:33:39] 动机：教师工会化对教育支出的影响。1960-87 年，34 个州通过强制集体谈判法；文献结论从"12% 增长"到"没影响"——旧方法可能不可靠。
[0:33:50 - 0:35:00] 设定：交错采纳（staggered adoption），即多个单元在不同时间点成为 treated。常用方法 DID（平行趋势假设）常常不可信。SCM 是另一个选择。
[0:35:01 - 0:37:35] SCM 的基本流程（以 Ohio 为例）：
- 将事件时间对齐。找一组控制组，加权后使合成控制与 Ohio 在先处理期的轨迹匹配。
- 得到"gap plot"：预处理期差异应接近 0。
[0:37:36 - 0:40:35] 问题：Separate SCM + 求平均：
- 对每个 treated state 分别做 SCM，然后平均。
- 问题（图 5-6 展示）：平均后的 gap plot 在预处理期优势正偏差（positive）。这表示平均掉了的"合成控制"并没有很好地平衡平均预处理结果。
[0:40:36 - 0:45:37] 一个自然想法：Pooled SCM：
- 将目标函数改为：最小化平均 gap（(1/J) * sum_j (Y_j(Tj+k) - weighted avg. of never-treated) 在预处理期的平方和）。
- 结果（图 7-8）：平均 gap 在预处理期完美为 0。但个体级 fits 变得非常糟糕（如 Ohio 的 gap 非常大）。
- 关键洞察：存在 trade-off——个体级拟合 vs. 平均级拟合。
[0:45:38 - 0:50:58] 部分合并（Partially Pooled SCM）：
- 目标函数（幻灯片 Fig. 12）： min_{w} ν * (个体级预拟合误差 SSE) + (1-ν) * (平均级预拟合误差 SSE)
- 这定义了一个"平衡可能性前沿"（balanced possibility frontier）。
- 模拟表明：即使放很小权重（ν 接近 1）在个体级拟合上，也能以极小的平均拟合损失为代价，大幅改善个体级拟合（图 11, 13-14）。
- 选择超参数 ν 的方法：论文提出一个基于三角形不等式的启发式方法。
[0:51:00 - 0:55:50] 加入截距项（Intercept Shift）：
- 为了修正水平差异，允许每个个体组合成控制有自己的常数项偏移 α_j。
- 实际操作：先对每个单元，减去其预处理期的平均值（去均值），然后再做 SCM。
- 结果：等价于一个加权差分差分（Weighted DiD） 估计量。
- 展示平衡可能性前沿的更新版本（图 15）：加入截距后，整体前沿向右下方移动，平衡效果在两者上都提高了。个体级 fits（如 New York 和 Alaska）也大大改善。
- 对教师工会数据的应用发现：效应估计结果很微弱（与近期文献一致，而不是 12% 的巨大效应）。
[0:55:51 - 0:57:50] 结论与扩展：
- 本报告的核心思想是通过优化问题的小改动，同时在个体和平均两个层次上实现良好拟合。
- 论文中还讨论了：通过拉格朗日对偶性理解 partial pooling 的实质是收缩（shrinkage）；如何整合辅助协变量；jackknife 标准误推断。
- 未来方向：非平衡面板、敏感性分析。R 包已发布。

四、对应论文与开放问题¶

（a）对应论文¶

Causal Rule Ensemble:
- Bargagli Stoffi, F. J., Lee, K., & Dominici, F. (2020). Causal Rule Ensemble: Interpretable Inference of Heterogeneous Treatment Effects. arXiv:2009.09036.
- 讲者明确说明该论文于报告当天（2020-09-22）发布于 arXiv。
Partially Pooled Synthetic Control:
- Ben-Michael, E., Feller, A., & Rothstein, J. (2021). Synthetic Controls With Staggered Adoption. (arXiv:1912.03290 or 2006.12862; 搜索结果可能有多个版本，建议以最新 arXiv 为准)
- 讲者在 Q&A 中提到论文已在 arXiv 上。

（b）开放问题¶

CRE：
- 全贝叶斯规则发现：讲者明确提到"未来研究：完全贝叶斯规则的发现，或许用 BART"。如何处理规则发现的不确定性（而不仅仅是规则推断阶段）？[0:28:30]
- 规则稳定性与高维协变量：在 P >> N 情况下 LASSO+稳定性选择是否仍能有效发现规则？规则集可能变得非常大，如何进一步精简化？[无直接提及，但属于该方法的一般性局限]
- 敏感性分析的扩展：目前基于 Zhao et al. (2019) 的敏感性分析针对的是 IPW 型的估计。如何将这种敏感的框架自然融入 CRE 的两阶段（发现+推断）框架，特别是当规则是通过黑箱模型发现时？[0:26:00]
- 与 "interpretable machine learning" 的结合：如何将 SHAP、LIME 等局部解释方法与 CRE 的全局规则集结合，以获得更丰富的解释？[无直接提及，属于领域前沿]
Partially Pooled SCM：
- 超参数 ν 的选择：虽然有三角形不等式启发式，但仍不是完全数据驱动的（如交叉验证）。能否通过基于『因子模型』的推理方法来自动选择 ν？[0:51:13]
- 推断（标准误）：展示了 jackknife 标准误，但汇报中也提到在探索加权的 bootstrap 方法。哪种更可靠、更鲁棒？[0:56:52]
- 非平衡面板：讲者明确提到"重要的是扩展为不平衡面板"。[0:57:05]
- 敏感性分析：讲者自己点出"对于 SC 这样的方法，敏感性分析也是极重要的"（在 CRE 部分中也被强调）。如何对 '部分合并' 权重进行系统的敏感性分析？[0:57:12]
- 与其他方法的整合：讲者在 Q&A 中提到，这只是一个 "base module"，可以与 SDID、bias correction、G-computation 等方法整合。如何具体整合才能同时控制个体与平均偏差？[0:59:04]

Maintained by 陈星宇 · Homepage · Source on GitHub