A Unifying Weighting Perspective on Causal Machine Learning: Kernel Methods, Gaussian Processes, and Bayesian Tree Models¶
讲者: Jared S. Murray
讨论人: Rahul Singh
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-11-19
主题: 因果推断
视频: https://youtu.be/raHavd2FtbY
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
核心追问:在非参数 / 半参数因果推断中,当我们用机器学习(核方法、高斯过程、贝叶斯树模型)来估计平均处理效应(ATE)或条件平均处理效应(CATE)时,最终的估计量其实等价于一个加权平均——每个样本被分配了一个“模型隐含的权重”。这些权重到底在做什么(平衡混淆?传播到目标总体?),不同方法(kernel ridge, BART, BCF, Gaussian process)的权重是否有共同的数学结构,能否利用这个视角来设计更好的方法、诊断模型失效?
该方向的奠基与主流路线
- 传统权重方法:逆概率加权(IPW)、重叠权重(Li, Morgan, & Zaslavsky 2018)、熵平衡(Hainmueller 2012)等直接构造权重的思路,核心是使处理组与对照组的协变量分布平衡。
- 基于结果模型的方法:R-learner (Nie & Wager 2021)、Double Machine Learning (DML, Chernozhukov et al. 2018)——它们虽是半参数 / 正交化方法,但本质也是在数据上产生一个“隐式权重”。
- 贝叶斯非参数因果模型:BART (Chipman, George, & McCulloch 2010)、BCF (Hahn, Murray, & Carvalho 2020)——在实证比较中表现极好,但通常被认为与上述“半参数因果ML”文献是两条独立线索,缺乏统一理解。
- Reisz 表示 / 表示函数方法:一批近五年工作(Chernozhukov et al. 2021, Singh 2021, 等)指出很多因果估计量可以写成一个“Reisz representer”与结果变量的内积,而该 representer 可通过核回归或平衡权重直接估计。
本报告的站位:
- 它统一了“结果模型”与“权重方法”——通过把任意结果模型(kernel ridge, GP, BART/BCF)的估计量改写为显式的权重 \(\hat{\alpha}(x,z)\),揭示出权重天然分解成“离混淆 (de-confounding)”和“传输 (transport/target)”两部分。
- 它特别紧扣 Robinson 参数化(即“回归残差”:\(Y - m(X)\) 对 \(Z - e(X)\) 回归),指出若在结果模型中采用此参数化(称为 R kernel),则隐含的权重会自动消除混淆偏倚(离混淆项几乎为零),而剩下的“目标偏倚”可被单独控制。
- 它将贝叶斯树模型(BART/BCF)纳入同一框架:它们的后验均值可以写成核方法(基函数为决策树的指示函数)的岭回归,因此也具备相同的加权表示,可以提取出权重并做标准诊断(协变量平衡、权重分布、外推程度等)。
该领域的已知关键工作(基于转写与领域常识):
- Robinson (1988) —— 部分线性模型的根,Robinson 参数化。
- Chipman et al. (2010) —— BART。
- Nie & Wager (2021) —— R-learner。
- Chernozhukov et al. (2018, 2021) —— DML 与 Reisz representer。
- Hahn et al. (2020) —— BCF。
- Singh (2021) —— 用 Reisz loss 直接估计加权 representer。
本报告的主要结果型贡献[推测,待论文确认]:
- 对任意处于某个 RKHS 的结果模型(包括树基),它的加权表示可以分解为两项:一项是IPW-like 项,其期望为零(忠实反映真实Reisz representer的 M 部分为零);另一项是密度比项,其偏差与“目标总体 vs. 重叠总体”的密度比之光滑性有关。
- R kernel 自动实现了 Neyman 正交性(在核岭回归中)。
- 从任何贝叶斯因果森林(BCF / BART)的后验中可提取出条件后验权重,从而对真实应用做权重诊断(平衡检查、权重分布)。
本节总结:这是一个方法学+诊断框架的报告。不含新的大规模模拟或渐近理论,核心是概念统一 + 为新阶段的方法设计提供洞察。
二、最小内核 / 一个最简例子¶
符号约定(全部依报告定义):
| 符号 | 含义 | 类型 |
|---|---|---|
| \(Y\) | 观测结果 | 随机变量 |
| \(Z \in \{0,1\}\) | 二元处理 | 随机变量 |
| \(X\) | 协变量向量 | 随机变量 |
| \(f(x,z) = \mathbb{E}[Y \mid X=x, Z=z]\) | 结果函数(outcome function) | 待估的无限维参数 |
| \(e(x) = \mathbb{P}(Z=1 \mid X=x)\) | 倾向得分 | 未知函数 |
| \(m(x) = \mathbb{E}[Y \mid X=x]\) | 结果的合适边际(或“main effect”) | 辅助函数 |
| \(\tau(x) = f(x,1)-f(x,0)\) | CATE | 目标参数 |
| \(P\) | 从其中我们有 i.i.d. 样本的源分布 | 已知 |
| \(Q\) | 我们想估计ATE的目标总体分布 | 通常与 P 不同 |
| \(\mathrm{ATE_Q}\) 或 \(\tau_Q\) | 目标总体ATE:\(\mathbb{E}_Q[\tau(X)]\) | 标量估量 |
| \(\alpha_Q(x,z)\) | Reisz representer | 在 \(L^2(P)\) 中满足 \(\mathbb{E}_P[\alpha_Q(X,Z)\,f(X,Z)] = \mathbb{E}_Q[\tau(X)]\) 的唯一函数 |
一个最简特例(把问题压到最小但保持核心)
- 忽略目标转移:取 \(Q=P\)(ATE 在源总体中)。则
\[\tau_P = \mathbb{E}[\tau(X)] = \mathbb{E}\big[ f(X,1)-f(X,0)\big].\] - 假设一个简单的线性模型:\(f(x,z) = \beta_0 + \beta_1 x + z\,(\gamma_0+\gamma_1 x)\),即假设回归完全线性、CATE 是 \(\gamma_0+\gamma_1 x\) 的线性函数。数据:\((Y_i, Z_i, X_i)\),\(X_i\) 一个标量。
关键思想:
1. 如果我们直接用 OLS 拟合这个线性模型,然后计算 \(\hat{\tau}_P = \frac{1}{n}\sum_i [\,\hat{f}(X_i,1) - \hat{f}(X_i,0)\,]\),这个估计量可以重写为
-
即使我们改用核岭回归(无限维 Hilbert 空间),同样的“隐式权重”结构仍然存在。
-
Robinson 参数化:把模型重写为
\[Y_i = m(X_i) + \tau(X_i)(Z_i - e(X_i)) + \varepsilon_i.\]在真值下,对任何函数 \(m\),交叉项 \(\mathbb{E}[m(X)(Z-e(X))] = 0\)(自举自倾向得分的性质)。因此,若我们在核岭回归中显式地使用这一参数化(R kernel),那么权重会自然分成两个正交部分: - 混淆癌(confounding imbalance):来自 \(m\) 的部分——因为真值下对应的权重期望为 0,所以任何对该部分的收缩都朝向真值,混淆偏差被自动缩小。
- 目标偏差(target imbalance):来自 \(\tau\) 的部分——它正则化了“对 \(\tau\) 的密度比估计”,偏差大小取决于目标分布 Q 是否偏离 \(P\) 中“重叠总体”(\(e(X)(1-e(X))\) 大的区域)。
核心洞察(一句话):采用 Robinson 参数化的结果模型,其隐式权重是“IPW项×密度比项”的组合,而 IPW 项因正交性自动纠正了混淆偏差,剩下只需要担心向目标总体泛化的偏差——后者可以用标准密度比估计技术处理。
三、报告主体:讲者讲了什么¶
本部分按报告的叙述顺序复原思路,每条加注时间点 [H:MM](与实际视频对应)。
[0:00–0:10] 开场、动机
- 因果 ML 方法大量涌现(DML, AIPW, R-learner),但多数是黑箱;透明性对决策至关重要。
- 贝叶斯方法(BART/BCF)在实证中表现出色,但缺乏“半参数因果ML”式的统一理解。
- 本工作:通过隐含的权重表示(implicit weighting representation)搭建桥梁。
[0:10–0:20] 基础:Reisz representer、加权与双鲁棒
- 设定:\(f(x,z)\) 是结果函数;estimand \(\tau_Q = \mathbb{E}_Q[f(X,1)-f(X,0)]\)。
- 若 \(Q \ll P\),则存在唯一的Reisz representer \(\alpha_Q(x,z)\) 使得
- 项1(离混淆):\(\frac{Z-e(X)}{e(X)(1-e(X))}\) —— 正是符号化的 IPW。
- 项2(密度比):\(dQ/dP\) 乘一些重叠调整。
- 因此 Reisz representer 天然具备两个平衡性质: (i) 对任何函数 \(h(X)\),平衡处理组 vs 控制组(混淆平衡); (ii) 平衡源总体 P 与目标总体 Q(目标平衡)。
[0:20–0:30] 核岭回归(KRR)的加权表示
- 建模:\(f\) 位于 RKHS \(\mathcal{H}\),通过 KRR 估计 \(\hat{f}\),然后构造
[0:30–0:40] 核心贡献:R 参数化(Robinson 参数化)
- 把结果模型重写为
- 若结果模型(KRR 或树模型)采用这种R kernel形式,则估计的 Reisz representer \(\hat{\alpha}\) 也会自动拥有 \(m=0\) 的表示:
- 关键后果:
1. 混淆偏差自动极小:因为 \(m\) 的真值为 0,正则化将收缩 \(m\) 到 0,不会产生混淆偏差。
2. 目标偏差单独成项:剩下的偏差只取决于对密度比(从重叠总体到目标总体 Q)的估计;它的偏倚由密度比函数在 \(\mathcal{H}_\tau\) 中的光滑性决定。
- 这一推导直接对齐了Neyman 正交性:R 参数化本质上就是在核岭回归中实现了正交化。
[0:40–0:50] 对贝叶斯树模型(BART / BCF)的应用
- 高斯过程回归(GPR)的后验均值等于核脊回归(在某个特定正则化上)。BART(贝叶斯加性回归树)也可被看作一种基函数即决策树指示函数的 GPR,因此也有显式的加权表示。
- 具体而言:Bayesian Causal Forest (BCF) 的后验均值,经由 R 参数化后提取的权重,可以像诊断传统权重一样做协变量平衡检查、权重分布图、目标平衡诊断(特别是对于子组 ATE)。
- 讲者展示了真实数据分析的权重直方图:AT 的权重大部分为正且居中,但子组 AT 的权重有大量负值、方差大,说明外推性差——而这一点在提取权重之前是完全不可见的。
- 还展示了使用 R 参数化后的 BCF 模型时,它能自动平衡高阶多项式交互(高维基函数)——讲者称之为“有惊喜”。
[0:50–1:00] 讨论与开放问题
- 讨论者 Rahul Singh 提出两个亮点:
1. 权重为比较不同结果模型(不同的核、不同的树先验)提供了共同的语言:可以看同一个样本在不同方法下得到多大的权重。
2. R kernel 本质上就是“聪明协变量 (clever covariate)”,与半参数理论中的 orthogonal moment 条件对应,问还有哪些其他性质可以通过更精巧的核设计来实现。
- 讲者回应:未来方向包括连续处理(多值/连续 Exposure)、CATE 的目标偏倚到底是什么、Neyman 正交性与 Reisz representer 的进一步连接。
四、对应论文与开放问题¶
(a) 对应的工作¶
- 论文(预印本):转写中讲者多次称之为“work in progress”、“rough draft”,合作者是 Abby Feller(Austin),没有给出 arXiv 号或正式标题。根据报告的标题和内容,
预计论文标题大致如下(待核实):“A Unifying Weighting Perspective on Causal Machine Learning: Kernel Methods, Gaussian Processes, and Bayesian Tree Models”
合作者:Jared S. Murray, Abby Feller (可能还有其他人,转写中未提及)。
状态:预印本未公开(截至2024-11-19),建议查找 Murray 或 Feller 的个人页面。
- 紧密关联工作(讲者直接提及):
- Singh (2021) on Reisz loss estimation for weighting representers.
- Hahn, Murray & Carvalho (2020) on BCF.
- Nie & Wager (2021) on R-learner.
- 另外讨论者提及 Veronica Ročková 和 Tony L. (全称未听清,猜测是 Tony L. 或其他人)关于 BART 渐近性的工作。
(b) 转写中明确提及的开放问题(只罗列,不做判断)¶
-
[0:50–0:52] — 对连续处理的拓展
能否把整套加权表示和偏倚分解推广到连续处理(continuous treatment / dose-response)?讲者自问:“Can we do similar things with a marginal dose-response curve, write down the Reisz representer, take it apart?” -
[0:50–0:52] — CATE 语境下“目标偏倚”的含义
对条件平均处理效应 \(\tau(x)\),加权表示依然成立,但“目标偏倚”要如何定义?讲者说:“What does target bias even mean for CATE?” -
[0:52–0:55] — 与 orthogonal moment 的更深联系
讨论者 Rahul Singh 提问:能否设计更精巧的 kernel 来实现更多期望的性质(多于当前的混淆→零、目标偏倚可控)?讲者持开放态度,但未给出明确方向。 -
[0:55–1:00] — 渐近理论(特别是针对 R kernel 的 sharp 结果)
一位参会者问是否有渐近性质的结果。讲者回答“not in my paper”,指出 Rahul Singh 的工作提供了泛型结果,但专用于 R kernel 可能可以 sharpen(讲者直觉是“yes”)。 -
[0:55–0:56] — 贝叶斯树模型后验权重的有效性前提
讲者提到,从 BART/BCF 提取的条件后验权重在前提上对应核脊回归,但树结构的先验会改变基选择,使得“在树空间中的隐式加权表示”是否直接满足均方预测性质需进一步理论。
注:“字幕可能有误”迹象:在 [0:10–0:20] 讲者连续写了 “Reisz representer” 和 “Riemannian”,但幻灯片明确是 “Riesz”。另外 “BART” 正确,“BCF” 正确,“R kernel” 正确,但个别数学符号(如 \(e(x)(1-e(x))\) 的倒数)可能存在比率误差,需对照幻灯片核实。
Maintained by 陈星宇 · Homepage · Source on GitHub