Causal Rule Ensemble: Interpretable Inference of Heterogeneous Treatment Effects¶
讲者: Falco Bargagli Stoffi ; Eli Ben-Michael
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-23
主题: 因果推断
视频: https://www.youtube.com/watch?v=njXNWjXKuTY · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
本场报告由两个独立但主题互补的报告组成:(1)Falco Bargagli Stoffi 讲的 Causal Rule Ensemble (CRE),以及(2)Eli Ben-Michael 讲的 Partially Pooled Synthetic Control for Staggered Adoption。它们都集中在一个子方向上:在面板数据或观测研究中,对异质性处理效应 (HTE) 或平均处理效应 (ATT) 进行推断,同时平衡精度与可解释性——特别是当数据存在"交错采纳"(staggered adoption)结构或需要发现"哪些子群体会受到最大影响"时。
报告(1):Causal Rule Ensemble(CRE)¶
- 核心追问:如何既做到高精度(像随机森林、因果森林那样的预测能力),又保持高可解释性(像单棵决策树、线性回归那样,结果可以被人类直接理解为一个"如果-那么"规则)?这在因果推断的 HTE 估计问题中尤其棘手,因为暗含着"从一个高维的、非线性的黑箱模型中,提取出稳定的、被人类理解的子群体异质性"。
- 奠基与主流路线:
- 高精度但低可解释:Causal Forests (Wager & Athey, 2018), Bayesian Causal Forest (Hahn et al., 2020), Generalized Random Forests (Athey et al., 2019)。这些方法在预测 CATE 上精度高,但输出是连续函数,很难被政策制定者直接解读为"哪些具体特征的人最脆弱"。
- 高可解释但低精度:Honest Causal Trees (Athey & Imbens, 2016),de novo discovery 方法(Lee et al., 2018)。单棵树或规则集虽然可解释,但可能不稳定、overfitting,且在估计精度上不如集成方法。
- 试图跨越"精度-可解释性"鸿沟:规则集成(Rule ensembles)是 Friedman & Popescu (2008) 在预测领域提出的旧概念。CRE 把它引入因果推断:先用一个高精度黑箱模型(如 BCF)产生 CATE 预测,然后把这个预测当作新的目标变量,用决策树集成(RF + GB)来"重新挖掘"出简洁的决策规则。
- 这场报告的站姿:CRE 是 "post-hoc interpretability" 在因果推断中的一个应用。它不修改内部的 CATE 估计流程,而是在估计完成后,用机器学习对 CATE 做一个"二次建模",从中提取可读的规则。其关键创新在于:
- 使用稳定性选择(Meinshausen & Bühlmann, 2010)来筛选出可靠的规则,避免虚假发现。
- 用样本分割(honest approach) 将发现(discovery)和推断(inference)分开,以进行有效的统计推断(给出置信区间)。
- 对每个发现的规则进行敏感性分析(基于 Zhao et al., 2019)。
报告(2):Partially Pooled Synthetic Control for Staggered Adoption¶
- 核心追问:在合成控制法(SCM)处理单个 treated unit(如一个州)时,如何找到好的加权控制组。但当有多个 treated units、且它们在不同时间点开始接受处理(交错采纳,staggered adoption)时,如何聚合这些个体级的 SCM 估计来获得一个有意义的平均处理效应(ATT)?传统做法(给每个 treated unit 单独做 SCM)会导致平均后的"伪合成控制"在前期出现显著的非零偏差。
- 奠基与主流路线:
- 经典 SCM (Abadie & Gardeazabal, 2003; Abadie, Diamond, & Hainmueller, 2010, 2015): 为单个 treated unit 寻找非负、和为1的权重,使得合成控制在预处理期拟合良好。当有多个 treated units 时,标准做法是各自独立做,然后取平均。
- 交错采纳下的挑战:Goodman-Bacon (2021) 以及 Sun & Abraham (2021) 指出,在交错采纳下,简单地对多个 treated units 做事件时间(event-time)平均可能会引入偏差,因为不同单元的"事件时间"对应的是不同的实际日历时间,其潜在混杂趋势不同。
- 现有改进:Arkhangelsky et al. (2021) 的合成双重差分(SDID)同时优化单元权重和时间权重,但并非专门针对交错采纳下的"平均拟合"问题;另一些文献(如 Callaway & Sant'Anna, 2021)则从平行趋势假设出发,使用基于组的 DID 估计。
- 这场报告的站姿:报告提出了一个概念上的洞察:在交错采纳下,ATT 的估计误差可以分解为"个体拟合误差"和"平均拟合误差"。现有的 "separate SCM" 优化前者、"pooled SCM" 优化后者。因此,一个合理的做法是用超参数在这两个目标之间取折衷,形成一个"平衡可能性前沿" (balanced possibility frontier)。这本质上是一个二维优化问题,可以通过向目标函数中加入一个权重项(
nu)来解决:nu * (个体拟合误差) + (1-nu) * (平均拟合误差)。同时,为了提高个体级拟合,还引入了截距项(intercept shift)——即可以先对每个单元在自身前期均值处去均值,再对残差做合成控制。这样做等价于一个加权双重差分(weighted DiD),使得方法更稳健。
二、最小内核 / 一个最简例子¶
(1)Causal Rule Ensemble 的最小内核¶
- 符号与可观测数据:
Zj ∈ {0,1}:二元处理(例如,一个地区PM2.5是否超过12μg/m³)。Yj:观测到的结果(如5年死亡率)。Xj = (Xj1, Xj2, ..., XjP):P维协变量(如年龄、性别、收入、当地教育水平、BMI等)。e(Xj) = P(Zj=1 | Xj):倾向得分。- 潜在结果:
Yj(1), Yj(0)。核心可识别假设:无混淆、SUTVA、共同支撑。
- Estimand:
τ(x) = E[Y_j(1) - Y_j(0) | X_j = x](CATE)。 - 最简例子(d=2,两个协变量):
- 假设
Xj1 ∈ {0,1}(性别: 1=女性),Xj2 ∈ {0,1}(老年: 1=>65岁)。 - 真实 CATE 为:
τ(0,0) = 2(年轻男性)τ(1,0) = 0(年轻女性)τ(0,1) = 5(老年男性)τ(1,1) = 1(老年女性)
- CRE 的做法:
- 发现阶段(Discovery):用数据子集训练一个 BCF 模型,得到每个样本的
τ̂(x)估计。然后,用 RF 和 GB 将τ̂(x)作为新标签,对X进行回归。这两组集成方法会生成大量树,每棵树的每个非根节点对应一个"规则"(如(Xj1=0 & Xj2=1))。 - 规则选择:把所有生成的规则(比如有100个)作为特征,对
τ̂(x)做 LASSO 回归+稳定性选择。很可能只有少数规则(如Xj1=0,Xj2=1,Xj1=0 & Xj2=1)被选中。 - 推断阶段(Inference):用保留的另一半数据,只使用选出的规则(例如
r1 = I{Xj1=0},r2 = I{Xj2=1},r3 = I{Xj1=0 & Xj2=1}),回归τ̂(x) ≈ β0 + β1*r1 + β2*r2 + β3*r3。 - 解读:
β0给出参考组的 CATE,β1, β2, β3给出相对于该组的变化。即使原始 BCF 是黑箱,最终的线性规则解释是清晰的。
- 发现阶段(Discovery):用数据子集训练一个 BCF 模型,得到每个样本的
- 假设
(2)Partially Pooled Synthetic Control 的最小内核¶
- 符号:
- N 个单元,J 个被处理(treated)。平衡面板,T 个时期。
- 处理时间
Tj: 单元 j 开始接受处理的时间。Tj = ∞表示从未被处理(control)。 Y_jt: 单元 j 在时间 t 的结果(如对数化的人均教育支出)。- 事件时间
k: 单元被处理后第 k 期(k = 0,1,...);预处理期 k < 0。 - 我们的 estimand: 时间-事件(event-time)平均处理效应
ATT(k) = E[ Y_j(Tj + k | treated) - Y_j(Tj + k | never treated)]。它是在事件时间上的平均,而非日历时间。
- 最简例子:
- 假设有3个州:加州( CA )在 t=5 时被处理;俄亥俄( OH )在 t=10 时被处理;控制组( IL, IN, TX...)。我们想估计 k=1,2,... 时的 ATT。
- Separate SCM:为 CA 分别找权重,拟合其在 t<5 时的结局;为 OH 分别找权重,拟合其在 t<10 时的结局。然后取平均。问题:CA 的预处理拟合很好,OH 的预处理拟合很好,但它们平均后的预处理拟合(即
k=-5时的平均差)可能不为零,因为在k=-5时刻,CA 的 t=0 和 OH 的 t=5 对应不同的日历时间。 - Pooled SCM:将 CA 和 OH 当作一个整体,寻找一组权重使平均绝对差在平均事件时间上最小。这相当于要求:对每对 (j, k in [pre-period]),
Y_j(Tj+k) - 加权后的控制组平均的平均为零。这可以完全消除平均偏差,但它可能对 CA 或 OH 本身是糟糕的拟合。 - Partially Pooled SCM:在目标函数中加入一个截距项,允许每个单元有水平偏移:
当 ν=1 时是 Separate;ν=0 时是 Pooled。通过选择 ν,可以像"平衡可能性前沿图"所示的那样,在二者之间权衡。加上截距后,它等价于一个加权 DiD。
min_{权重, 截距} ν * (sum over j, pre-period k (个体J的残差平方和)) + (1-ν) * (sum over k (平均残差平方和))
三、报告主体:讲者讲了什么¶
第一部分:Falco Bargagli Stoffi - Causal Rule Ensemble [0:01:27 - 0:28:46]¶
- [0:01:27 - 0:02:53] 动机:空气污染对健康有负面影响(引用大量文献),但亚组异质性很少被详细研究。目的是用数据驱动的方法发现最脆弱的子群,而不是预先指定。
- [0:03:23 - 0:04:57] 方法论动机:指出精度与可解释性间的经典折衷。将 CRE 定位为一种高精度 + 高可解释性的集成方法,且与用于估计 CATE 的底层方法无关(即可以是 BCF、Causal Forest 等)。
- [0:05:01 - 0:06:40] 设定与假设:标准 Rubin Causal Model(二元处理,无混淆,SUTVA,重叠假设)。
- [0:06:44 - 0:07:20] Estimand: CATE
τ(x)。 - [0:07:33 - 0:08:40] 为什么用规则?:根据 Miller 和 Kim 的研究,决策规则(if-then 语句)是高度可解释的。图示展示了单棵树的规则生成。
- [0:08:42 - 0:10:42] 方法论总览(Honest Approach):
- 将数据分为发现样本(\(I_{dis}\))和推断样本(\(I_{inf}\))。
- 发现阶段:
- 用 BCF(或其他方法)估计
τ̂^dis(x)。 - 用 RF 和 GB 将
τ̂^dis(x)对 X 回归,提取所有树的决策规则。 - 使用 LASSO + 稳定性选择筛选最重要的规则。
- 用 BCF(或其他方法)估计
- 推断阶段:
- 用推断样本,将
τ̂^inf(x)(或一个新估计)对选出的规则做线性回归。 - 对每个规则的系数进行推断(置信区间)。
- 进行敏感性分析。
- 用推断样本,将
- [0:10:43 - 0:12:29] 发现阶段细节:
- 规则生成:用 BCF 得到 ITE 估计,然后用 RF 和 GB 拟合这些估计。"为什么用两种集成?为了最大化潜在规则发现的广度。"
- 规则选择:将生成的规则作为特征做 LASSO 回归。图示展示:5棵树产生13个候选规则,稳定选择后选出红色规则(最重要的 2-3 个)。
- [0:12:30 - 0:14:40] 推断阶段细节:
- 定义
τ^*为推断样本上新的个体效应估计,X̃为只有选中规则的特征矩阵。 - 建模
τ^* = X̃ β + ν,其中ν是噪声。 - 使用 OLS 估计 β。由于
ν是异方差的(包含了τ^*的估计误差),使用 White 或 Efron 的异方差一致标准误。 - 声称:β̂ 是 β 的一致估计且渐近正态(证明见论文)。敏感性分析基于 Zhao et al. (2019)。
- 定义
- [0:14:59 - 0:17:43] 模拟设置:
- 10 个二元协变量,处理分配与其中 3 个有关(X3, X4, X5,也是 confounders)。
- 对比两种场景:效果修饰因子(effect modifier)与 confounder 无重叠与有重叠。设置 2 个和 4 个真实规则。
- 效果量 h 从 0 到 4,样本量 1000 和 2000。
- [0:17:44 - 0:19:52] 模拟结果:发现能力:
- 无重叠场景:CRE 能几乎完美地发现所有真实规则(无论 2 个还是 4 个规则),其表现优于 Honest Causal Tree(Lee et al., 2018)。见幻灯片 Fig. 12-13 的红色 vs 蓝色曲线。
- 有重叠场景(confounders 同时也是 effect modifiers):CRE 的性能仍然很好,但 Honest Causal Tree 的性能显著恶化。CRE 能成功区分 confounders 和 effect modifiers——这是模拟的一个核心发现。
- [0:19:53 - 0:21:06] 模拟结果:估计精度:
- 对比不同样本分割比例的 CRE 与单独使用 BCF 的 RMSE。
- 最佳分割:发现样本 25%,推断样本 75%(与 Lee et al. 一致)。在该设置下 CRE 的 RMSE 与 BCF 相当(甚至略优,见幻灯片 Fig. 17)。
- [0:21:08 - 0:23:08] 应用:Medicare 数据:
- 160 万新英格兰地区老人,2000-2006。
- 处理:2 年平均 PM2.5 > 12 μg/m³(全国标准)。
- 结果:5 年死亡率。
- 控制变量:4 个个体层面(年龄、性别、医保资格、种族)+ 10 个县级层面。
- 匹配后分析样本约 22 万人。
- [0:23:09 - 0:26:25] 应用结果与敏感性分析:
- 发现的规则:
Intercept(参考组): 85 岁以上白人 + 81-85 岁白人+低收入(Medicaid 资格)。死亡率增加 7 个百分点(显著)。r2: 85 岁以上非白人 + 81-85 岁非白人+低收入。死亡率增加 6.2%(显著)。r3, r4: 其他子群,效应不显著(与 Intercept 有显著差异,但本身效应不显著或不一致)。
- 敏感性分析(Zhao et al., 2019):参数
Λ(未测混杂使倾向得分偏移的比率)。当Λ = 1.04时(即未测混杂能产生 4% 的偏移),规则r2的置信区间跨越 0;但Intercept的效应直到Λ = 1.05仍稳健。结论:白人老年低收入群体对空气污染最脆弱且结果最稳健。
- 发现的规则:
- [0:26:31 - 0:28:46] 结论与未来方向:
- 贡献:一种可解释的、高精度 HTE 发现与推断方法。
- 关键特征:方法论无关(agnostic)、能区分 confounders 和 effect modifiers。
- 未来方向:完全贝叶斯的规则发现(潜在用 BART 实现)。
- 论文:arXiv:2009.09036。
第二部分:Eli Ben-Michael - Partially Pooled Synthetic Control for Staggered Adoption [0:32:40 - 0:57:50]¶
- [0:32:40 - 0:33:39] 动机:教师工会化对教育支出的影响。1960-87 年,34 个州通过强制集体谈判法;文献结论从"12% 增长"到"没影响"——旧方法可能不可靠。
- [0:33:50 - 0:35:00] 设定:交错采纳(staggered adoption),即多个单元在不同时间点成为 treated。常用方法 DID(平行趋势假设)常常不可信。SCM 是另一个选择。
- [0:35:01 - 0:37:35] SCM 的基本流程(以 Ohio 为例):
- 将事件时间对齐。找一组控制组,加权后使合成控制与 Ohio 在先处理期的轨迹匹配。
- 得到"gap plot":预处理期差异应接近 0。
- [0:37:36 - 0:40:35] 问题:Separate SCM + 求平均:
- 对每个 treated state 分别做 SCM,然后平均。
- 问题(图 5-6 展示):平均后的 gap plot 在预处理期优势正偏差(positive)。这表示平均掉了的"合成控制"并没有很好地平衡平均预处理结果。
- [0:40:36 - 0:45:37] 一个自然想法:Pooled SCM:
- 将目标函数改为:最小化平均 gap(
(1/J) * sum_j (Y_j(Tj+k) - weighted avg. of never-treated)在预处理期的平方和)。 - 结果(图 7-8):平均 gap 在预处理期完美为 0。但个体级 fits 变得非常糟糕(如 Ohio 的 gap 非常大)。
- 关键洞察:存在 trade-off——个体级拟合 vs. 平均级拟合。
- 将目标函数改为:最小化平均 gap(
- [0:45:38 - 0:50:58] 部分合并(Partially Pooled SCM):
- 目标函数(幻灯片 Fig. 12):
min_{w} ν * (个体级预拟合误差 SSE) + (1-ν) * (平均级预拟合误差 SSE) - 这定义了一个"平衡可能性前沿"(balanced possibility frontier)。
- 模拟表明:即使放很小权重(ν 接近 1)在个体级拟合上,也能以极小的平均拟合损失为代价,大幅改善个体级拟合(图 11, 13-14)。
- 选择超参数
ν的方法:论文提出一个基于三角形不等式的启发式方法。
- 目标函数(幻灯片 Fig. 12):
- [0:51:00 - 0:55:50] 加入截距项(Intercept Shift):
- 为了修正水平差异,允许每个个体组合成控制有自己的常数项偏移
α_j。 - 实际操作:先对每个单元,减去其预处理期的平均值(去均值),然后再做 SCM。
- 结果:等价于一个加权差分差分(Weighted DiD) 估计量。
- 展示平衡可能性前沿的更新版本(图 15):加入截距后,整体前沿向右下方移动,平衡效果在两者上都提高了。个体级 fits(如 New York 和 Alaska)也大大改善。
- 对教师工会数据的应用发现:效应估计结果很微弱(与近期文献一致,而不是 12% 的巨大效应)。
- 为了修正水平差异,允许每个个体组合成控制有自己的常数项偏移
- [0:55:51 - 0:57:50] 结论与扩展:
- 本报告的核心思想是通过优化问题的小改动,同时在个体和平均两个层次上实现良好拟合。
- 论文中还讨论了:通过拉格朗日对偶性理解 partial pooling 的实质是收缩(shrinkage);如何整合辅助协变量;jackknife 标准误推断。
- 未来方向:非平衡面板、敏感性分析。R 包已发布。
四、对应论文与开放问题¶
(a)对应论文¶
- Causal Rule Ensemble:
- Bargagli Stoffi, F. J., Lee, K., & Dominici, F. (2020). Causal Rule Ensemble: Interpretable Inference of Heterogeneous Treatment Effects. arXiv:2009.09036.
- 讲者明确说明该论文于报告当天(2020-09-22)发布于 arXiv。
- Partially Pooled Synthetic Control:
- Ben-Michael, E., Feller, A., & Rothstein, J. (2021). Synthetic Controls With Staggered Adoption. (arXiv:1912.03290 or 2006.12862; 搜索结果可能有多个版本,建议以最新 arXiv 为准)
- 讲者在 Q&A 中提到论文已在 arXiv 上。
(b)开放问题¶
- CRE:
- 全贝叶斯规则发现:讲者明确提到"未来研究:完全贝叶斯规则的发现,或许用 BART"。如何处理规则发现的不确定性(而不仅仅是规则推断阶段)?[0:28:30]
- 规则稳定性与高维协变量:在
P >> N情况下 LASSO+稳定性选择是否仍能有效发现规则?规则集可能变得非常大,如何进一步精简化?[无直接提及,但属于该方法的一般性局限] - 敏感性分析的扩展:目前基于 Zhao et al. (2019) 的敏感性分析针对的是 IPW 型的估计。如何将这种敏感的框架自然融入 CRE 的两阶段(发现+推断)框架,特别是当规则是通过黑箱模型发现时?[0:26:00]
- 与 "interpretable machine learning" 的结合:如何将 SHAP、LIME 等局部解释方法与 CRE 的全局规则集结合,以获得更丰富的解释?[无直接提及,属于领域前沿]
- Partially Pooled SCM:
- 超参数
ν的选择:虽然有三角形不等式启发式,但仍不是完全数据驱动的(如交叉验证)。能否通过基于『因子模型』的推理方法来自动选择ν?[0:51:13] - 推断(标准误):展示了 jackknife 标准误,但汇报中也提到在探索加权的 bootstrap 方法。哪种更可靠、更鲁棒?[0:56:52]
- 非平衡面板:讲者明确提到"重要的是扩展为不平衡面板"。[0:57:05]
- 敏感性分析:讲者自己点出"对于 SC 这样的方法,敏感性分析也是极重要的"(在 CRE 部分中也被强调)。如何对 '部分合并' 权重进行系统的敏感性分析?[0:57:12]
- 与其他方法的整合:讲者在 Q&A 中提到,这只是一个 "base module",可以与 SDID、bias correction、G-computation 等方法整合。如何具体整合才能同时控制个体与平均偏差?[0:59:04]
- 超参数
Maintained by 陈星宇 · Homepage · Source on GitHub