A Unifying Weighting Perspective on Causal Machine Learning: Kernel Methods, Gaussian Processes, and Bayesian Tree Models¶

讲者: Jared S. Murray
讨论人: Rahul Singh
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-11-19
主题: 因果推断
视频: https://youtu.be/raHavd2FtbY

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

核心追问：在非参数 / 半参数因果推断中，当我们用机器学习（核方法、高斯过程、贝叶斯树模型）来估计平均处理效应（ATE）或条件平均处理效应（CATE）时，最终的估计量其实等价于一个加权平均——每个样本被分配了一个“模型隐含的权重”。这些权重到底在做什么（平衡混淆？传播到目标总体？），不同方法（kernel ridge, BART, BCF, Gaussian process）的权重是否有共同的数学结构，能否利用这个视角来设计更好的方法、诊断模型失效？

该方向的奠基与主流路线
- 传统权重方法：逆概率加权（IPW）、重叠权重（Li, Morgan, & Zaslavsky 2018）、熵平衡（Hainmueller 2012）等直接构造权重的思路，核心是使处理组与对照组的协变量分布平衡。
- 基于结果模型的方法：R-learner (Nie & Wager 2021)、Double Machine Learning (DML, Chernozhukov et al. 2018)——它们虽是半参数 / 正交化方法，但本质也是在数据上产生一个“隐式权重”。
- 贝叶斯非参数因果模型：BART (Chipman, George, & McCulloch 2010)、BCF (Hahn, Murray, & Carvalho 2020)——在实证比较中表现极好，但通常被认为与上述“半参数因果ML”文献是两条独立线索，缺乏统一理解。
- Reisz 表示 / 表示函数方法：一批近五年工作（Chernozhukov et al. 2021, Singh 2021, 等）指出很多因果估计量可以写成一个“Reisz representer”与结果变量的内积，而该 representer 可通过核回归或平衡权重直接估计。

本报告的站位：
- 它统一了“结果模型”与“权重方法”——通过把任意结果模型（kernel ridge, GP, BART/BCF）的估计量改写为显式的权重 \(\hat{\alpha}(x,z)\)，揭示出权重天然分解成“离混淆 (de-confounding)”和“传输 (transport/target)”两部分。
- 它特别紧扣 Robinson 参数化（即“回归残差”：\(Y - m(X)\) 对 \(Z - e(X)\) 回归），指出若在结果模型中采用此参数化（称为 R kernel），则隐含的权重会自动消除混淆偏倚（离混淆项几乎为零），而剩下的“目标偏倚”可被单独控制。
- 它将贝叶斯树模型（BART/BCF）纳入同一框架：它们的后验均值可以写成核方法（基函数为决策树的指示函数）的岭回归，因此也具备相同的加权表示，可以提取出权重并做标准诊断（协变量平衡、权重分布、外推程度等）。

该领域的已知关键工作（基于转写与领域常识）：
- Robinson (1988) —— 部分线性模型的根，Robinson 参数化。
- Chipman et al. (2010) —— BART。
- Nie & Wager (2021) —— R-learner。
- Chernozhukov et al. (2018, 2021) —— DML 与 Reisz representer。
- Hahn et al. (2020) —— BCF。
- Singh (2021) —— 用 Reisz loss 直接估计加权 representer。

本报告的主要结果型贡献[推测，待论文确认]：
- 对任意处于某个 RKHS 的结果模型（包括树基），它的加权表示可以分解为两项：一项是IPW-like 项，其期望为零（忠实反映真实Reisz representer的 M 部分为零）；另一项是密度比项，其偏差与“目标总体 vs. 重叠总体”的密度比之光滑性有关。
- R kernel 自动实现了 Neyman 正交性（在核岭回归中）。
- 从任何贝叶斯因果森林（BCF / BART）的后验中可提取出条件后验权重，从而对真实应用做权重诊断（平衡检查、权重分布）。

本节总结：这是一个方法学+诊断框架的报告。不含新的大规模模拟或渐近理论，核心是概念统一 + 为新阶段的方法设计提供洞察。

二、最小内核 / 一个最简例子¶

符号约定（全部依报告定义）：

符号	含义	类型
\(Y\)	观测结果	随机变量
\(Z \in \{0,1\}\)	二元处理	随机变量
\(X\)	协变量向量	随机变量
\(f(x,z) = \mathbb{E}[Y \mid X=x, Z=z]\)	结果函数（outcome function）	待估的无限维参数
\(e(x) = \mathbb{P}(Z=1 \mid X=x)\)	倾向得分	未知函数
\(m(x) = \mathbb{E}[Y \mid X=x]\)	结果的合适边际（或“main effect”）	辅助函数
\(\tau(x) = f(x,1)-f(x,0)\)	CATE	目标参数
\(P\)	从其中我们有 i.i.d. 样本的源分布	已知
\(Q\)	我们想估计ATE的目标总体分布	通常与 P 不同
\(\mathrm{ATE_Q}\) 或 \(\tau_Q\)	目标总体ATE：\(\mathbb{E}_Q[\tau(X)]\)	标量估量
\(\alpha_Q(x,z)\)	Reisz representer	在 \(L^2(P)\) 中满足 \(\mathbb{E}_P[\alpha_Q(X,Z)\,f(X,Z)] = \mathbb{E}_Q[\tau(X)]\) 的唯一函数

一个最简特例（把问题压到最小但保持核心）

忽略目标转移：取 \(Q=P\)（ATE 在源总体中）。则

\[\tau_P = \mathbb{E}[\tau(X)] = \mathbb{E}\big[ f(X,1)-f(X,0)\big].\]
假设一个简单的线性模型：\(f(x,z) = \beta_0 + \beta_1 x + z\,(\gamma_0+\gamma_1 x)\)，即假设回归完全线性、CATE 是 \(\gamma_0+\gamma_1 x\) 的线性函数。数据：\((Y_i, Z_i, X_i)\)，\(X_i\) 一个标量。

关键思想：
1. 如果我们直接用 OLS 拟合这个线性模型，然后计算 \(\hat{\tau}_P = \frac{1}{n}\sum_i [\,\hat{f}(X_i,1) - \hat{f}(X_i,0)\,]\)，这个估计量可以重写为

\[\hat{\tau}_P = \frac{1}{n}\sum_i \hat{\alpha}_i Y_i,\]

其中 \(\hat{\alpha}_i\) 是某些依赖于 \(X\) 和 \(Z\) 且是 \(Y\) 的线性函数的权重。具体地，因为 OLS 预测值是 \(Y\) 的线性组合（hat matrix），取残差对比后权重就是 “hat matrix” 的某两行的差。

即使我们改用核岭回归（无限维 Hilbert 空间），同样的“隐式权重”结构仍然存在。
Robinson 参数化：把模型重写为

\[Y_i = m(X_i) + \tau(X_i)(Z_i - e(X_i)) + \varepsilon_i.\]
在真值下，对任何函数 \(m\)，交叉项 \(\mathbb{E}[m(X)(Z-e(X))] = 0\)（自举自倾向得分的性质）。因此，若我们在核岭回归中显式地使用这一参数化（R kernel），那么权重会自然分成两个正交部分：
混淆癌（confounding imbalance）：来自 \(m\) 的部分——因为真值下对应的权重期望为 0，所以任何对该部分的收缩都朝向真值，混淆偏差被自动缩小。
目标偏差（target imbalance）：来自 \(\tau\) 的部分——它正则化了“对 \(\tau\) 的密度比估计”，偏差大小取决于目标分布 Q 是否偏离 \(P\) 中“重叠总体”（\(e(X)(1-e(X))\) 大的区域）。

核心洞察（一句话）：采用 Robinson 参数化的结果模型，其隐式权重是“IPW项×密度比项”的组合，而 IPW 项因正交性自动纠正了混淆偏差，剩下只需要担心向目标总体泛化的偏差——后者可以用标准密度比估计技术处理。

三、报告主体：讲者讲了什么¶

本部分按报告的叙述顺序复原思路，每条加注时间点 [H:MM]（与实际视频对应）。

[0:00–0:10] 开场、动机
- 因果 ML 方法大量涌现（DML, AIPW, R-learner），但多数是黑箱；透明性对决策至关重要。
- 贝叶斯方法（BART/BCF）在实证中表现出色，但缺乏“半参数因果ML”式的统一理解。
- 本工作：通过隐含的权重表示（implicit weighting representation）搭建桥梁。

[0:10–0:20] 基础：Reisz representer、加权与双鲁棒
- 设定：\(f(x,z)\) 是结果函数；estimand \(\tau_Q = \mathbb{E}_Q[f(X,1)-f(X,0)]\)。
- 若 \(Q \ll P\)，则存在唯一的Reisz representer \(\alpha_Q(x,z)\) 使得

\[\tau_Q = \mathbb{E}_P[\alpha_Q(X,Z)\,Y].\]

- 讲者指出 Reisz representer 可以分解为两项的乘积：
- 项1（离混淆）：\(\frac{Z-e(X)}{e(X)(1-e(X))}\) —— 正是符号化的 IPW。
- 项2（密度比）：\(dQ/dP\) 乘一些重叠调整。
- 因此 Reisz representer 天然具备两个平衡性质： (i) 对任何函数 \(h(X)\)，平衡处理组 vs 控制组（混淆平衡）； (ii) 平衡源总体 P 与目标总体 Q（目标平衡）。

[0:20–0:30] 核岭回归（KRR）的加权表示
- 建模：\(f\) 位于 RKHS \(\mathcal{H}\)，通过 KRR 估计 \(\hat{f}\)，然后构造

\[\hat{\tau}_Q = \frac{1}{n}\sum_i\big[ \hat{f}(X_i,1) - \hat{f}(X_i,0)\big].\]

- 因为 KRR 预测是 \(Y\) 的线性组合（hat matrix），\(\hat{\tau}_Q\) 也是 \(Y\) 的线性组合：

\[\hat{\tau}_Q = \frac{1}{n}\sum_i \hat{\alpha}_i Y_i.\]

- \(\hat{\alpha}_i\) 有闭式解，具体形式取决于 covariance 矩阵（见 slides）。讲者没用纸面推导，但指出此“模型隐含的加权估计量”的概念在简单回归中早已被认知，他现在将其系统拓展。

[0:30–0:40] 核心贡献：R 参数化（Robinson 参数化）
- 把结果模型重写为

\[Y = m(X) + \tau(X)(Z - e(X)) + \varepsilon.\]

这不损失一般性（只是重新参数化）。
- 若结果模型（KRR 或树模型）采用这种R kernel形式，则估计的 Reisz representer \(\hat{\alpha}\) 也会自动拥有 \(m=0\) 的表示：

\[\hat{\alpha}(x,z) \approx \frac{z-e(x)}{e(x)(1-e(x))} \cdot \text{(密度比项)}.\]

为什么？因为协方差矩阵在 R 参数化下变为块对角——交叉项 \(\text{Cov}[m, (Z-e)\tau]=0\)（由倾向得分的性质）。
- 关键后果：
1. 混淆偏差自动极小：因为 \(m\) 的真值为 0，正则化将收缩 \(m\) 到 0，不会产生混淆偏差。
2. 目标偏差单独成项：剩下的偏差只取决于对密度比（从重叠总体到目标总体 Q）的估计；它的偏倚由密度比函数在 \(\mathcal{H}_\tau\) 中的光滑性决定。
- 这一推导直接对齐了Neyman 正交性：R 参数化本质上就是在核岭回归中实现了正交化。

[0:40–0:50] 对贝叶斯树模型（BART / BCF）的应用
- 高斯过程回归（GPR）的后验均值等于核脊回归（在某个特定正则化上）。BART（贝叶斯加性回归树）也可被看作一种基函数即决策树指示函数的 GPR，因此也有显式的加权表示。
- 具体而言：Bayesian Causal Forest (BCF) 的后验均值，经由 R 参数化后提取的权重，可以像诊断传统权重一样做协变量平衡检查、权重分布图、目标平衡诊断（特别是对于子组 ATE）。
- 讲者展示了真实数据分析的权重直方图：AT 的权重大部分为正且居中，但子组 AT 的权重有大量负值、方差大，说明外推性差——而这一点在提取权重之前是完全不可见的。
- 还展示了使用 R 参数化后的 BCF 模型时，它能自动平衡高阶多项式交互（高维基函数）——讲者称之为“有惊喜”。

[0:50–1:00] 讨论与开放问题
- 讨论者 Rahul Singh 提出两个亮点：
1. 权重为比较不同结果模型（不同的核、不同的树先验）提供了共同的语言：可以看同一个样本在不同方法下得到多大的权重。
2. R kernel 本质上就是“聪明协变量 (clever covariate)”，与半参数理论中的 orthogonal moment 条件对应，问还有哪些其他性质可以通过更精巧的核设计来实现。
- 讲者回应：未来方向包括连续处理（多值/连续 Exposure）、CATE 的目标偏倚到底是什么、Neyman 正交性与 Reisz representer 的进一步连接。

四、对应论文与开放问题¶

(a) 对应的工作¶

论文（预印本）：转写中讲者多次称之为“work in progress”、“rough draft”，合作者是 Abby Feller（Austin），没有给出 arXiv 号或正式标题。根据报告的标题和内容，
预计论文标题大致如下（待核实）：

“A Unifying Weighting Perspective on Causal Machine Learning: Kernel Methods, Gaussian Processes, and Bayesian Tree Models”

合作者：Jared S. Murray, Abby Feller (可能还有其他人，转写中未提及)。
状态：预印本未公开（截至2024-11-19），建议查找 Murray 或 Feller 的个人页面。

紧密关联工作（讲者直接提及）：
Singh (2021) on Reisz loss estimation for weighting representers.
Hahn, Murray & Carvalho (2020) on BCF.
Nie & Wager (2021) on R-learner.
另外讨论者提及 Veronica Ročková 和 Tony L. （全称未听清，猜测是 Tony L. 或其他人）关于 BART 渐近性的工作。

(b) 转写中明确提及的开放问题（只罗列，不做判断）¶

[0:50–0:52] — 对连续处理的拓展
能否把整套加权表示和偏倚分解推广到连续处理（continuous treatment / dose-response）？讲者自问：“Can we do similar things with a marginal dose-response curve, write down the Reisz representer, take it apart?”
[0:50–0:52] — CATE 语境下“目标偏倚”的含义
对条件平均处理效应 \(\tau(x)\)，加权表示依然成立，但“目标偏倚”要如何定义？讲者说：“What does target bias even mean for CATE?”
[0:52–0:55] — 与 orthogonal moment 的更深联系
讨论者 Rahul Singh 提问：能否设计更精巧的 kernel 来实现更多期望的性质（多于当前的混淆→零、目标偏倚可控）？讲者持开放态度，但未给出明确方向。
[0:55–1:00] — 渐近理论（特别是针对 R kernel 的 sharp 结果）
一位参会者问是否有渐近性质的结果。讲者回答“not in my paper”，指出 Rahul Singh 的工作提供了泛型结果，但专用于 R kernel 可能可以 sharpen（讲者直觉是“yes”）。
[0:55–0:56] — 贝叶斯树模型后验权重的有效性前提
讲者提到，从 BART/BCF 提取的条件后验权重在前提上对应核脊回归，但树结构的先验会改变基选择，使得“在树空间中的隐式加权表示”是否直接满足均方预测性质需进一步理论。

注：“字幕可能有误”迹象：在 [0:10–0:20] 讲者连续写了 “Reisz representer” 和 “Riemannian”，但幻灯片明确是 “Riesz”。另外 “BART” 正确，“BCF” 正确，“R kernel” 正确，但个别数学符号（如 \(e(x)(1-e(x))\) 的倒数）可能存在比率误差，需对照幻灯片核实。

Maintained by 陈星宇 · Homepage · Source on GitHub