Causal Graphical Models for Handling Missing Data¶

讲者: Karthika Mohan ; David Hirshberg
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-02
主题: 因果推断
视频: https://www.youtube.com/watch?v=A_1lknAaXhY · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于 因果推断中处理效应估计的「平衡」（balancing）方法论 这一子方向。该方向的核心追问是：当只有观测数据（非随机化），如何通过为样本单元赋予权重，使得加权后的处理组和控制组在协变量分布上「看似随机化」，从而无偏估计因果效应？

奠基与主流路线：传统上这一领域有两股主要思想。其一是 倾向性评分加权（IPW / IPTW）（Rosenbaum and Rubin, 1983），通过估计个体接受处理的概率（倾向性评分），以其倒数作为权重来「重现」随机化。其二是 层化/后分层（post-stratification），将协变量离散化，在每个层内处理效率。后来发展的增强IPW（AIPW）（Robins, Rotnitzky, and Zhao, 1995）结合了两种思想，提供了双重稳健性：只要倾向性评分模型或结果回归模型之一正确，估计便是一致的。进入2010年代，以 Zubizarreta (2015) 为代表的 直接平衡方法（stable balancing weights） 提出了一个更直接的范式：不再先估计倾向性评分再取倒数，而是直接优化一个条件——使处理组与全样本的协变量矩（如均值、二阶矩）平衡。
当前frontier：社区逐渐意识到，「平衡」与「半参数效率」之间的边界在模糊化。Chernozhukov, Escanciano, Ichimura, and Newey (2016) 的「局部稳健半参数估计」和 Chernozhukov, Newey, Robins, and Singh (2018) 的「正则化Riesz表示子」工作，将半参数效率理论中的影响函数/Neyman正交性与平衡思想统一到了一个框架下。报告人Hirshberg也正是沿着这条线，试图用 「最小化最大（Minimax）均方误差」 的视角来统一这些方法，并为它们提供条件于设计（design-conditional）的逼近最优性。
这场报告的站位：Hirshberg 站在上述交汇点上。他不仅展示了一个平衡工作流（直接最小化某种模型下的最坏情况不平衡 + 权重范数的惩罚），而且更深入地探讨了这个工作流背后的哲学：三个流传甚广的原则（直接平衡样本、平衡正确的模型、估计 IP 权重而非其倒数）是否都必要？尤其当样本分割（cross-fitting）引入时，「直接平衡样本」与「样本分割」存在张力——这正是报告末尾留下的一个未解问题。报告人没有宣称「平衡优于半参数」或反之，而是指出这些性质之间可能有更深层的兼容性尚未被证明。

关键工作（可查论文，我列出有把握的，听不准的标注不确定性）： - Rosenbaum and Rubin (1983)：倾向性评分奠基。 - Robins, Rotnitzky, and Zhao (1995)：AIPW。 - Robins, Sued, Lei-Gomez, and Rotnitzky (2007)：关于Kang and Schafer (2007)例子的评论。 - Zubizarreta (2015)：稳定平衡权重。 - Chernozhukov et al. (2016)：局部稳健半参数估计。 - Hirshberg and Wager (2017)：Augmented Minimax Linear Estimation（报告人的基础论文）。 - Chernozhukov et al. (2018)：双重/去偏机器学习与正则化Riesz表示子。 - Hirshberg, Maleki, and Zubizarreta (2019)：Minimax Linear Estimation of the Retargeted Mean（处理连续协变量的平衡）。

二、最小内核 / 一个最简例子¶

1. 符号与模型

观测数据：iid 样本 (X_i, W_i, Y_i)，其中：
- X = 协变量（可连续或离散）。
- W = 处理变量（此处为二值，0 或 1）。
- Y = 结果。
潜在结果：Y_i(w)（通常假设无混淆性：(Y(0), Y(1)) ⟂ W | X）。
结构性参数（Estimand）：处理特定均值 ψ = E[Y(1)]。报告人用回归函数 m(x, w) = E[Y | X=x, W=w] 将其表达为 ψ = E[m(X, 1)] ——这是估计目标。注意 ψ 是一个实数（参数），m(X, 1) 是一个随机变量（其期望为 ψ）。

2. 最简例子：一个离散协变量（两个水平）

假设： - 协变量 X 只有两个值：x=0 或 x=1（比如性别）。 - 处理 W 是二值（0 / 1）。 - 观测样本：在 x=0 层内，有 40 人（10人处理，30人对照）；在 x=1 层内，有 60 人（50人处理，10人对照）。总 n=100。 - 目标是 ψ = E[Y(1)] = 0.4 * E[Y(1)|X=0] + 0.6 * E[Y(1)|X=1]。

问题：我们只观测到每个人的 Y = Y(W)（即他们在实际接受的处理下的结果）。比如在 x=0 的处理组中看到的结果是 Y(1) 的实现，而控制组看到的是 Y(0)。

核心思想（讲者的框架如何起作用）： 如果我们想估计 ψ，我们需要从同步援护的数据中重构 E[m(X,1)]。记 m(X,1) = f(X)（只与 X 有关，因为处理固定为1）。讲者所谓 「平衡」 就是找到权重 γ(X,W)，使得对于任意函数 f，加权后的自然臂值 <γ, f(X,W)> 近似等于纯处理臂平均值 E[f(X,1)]。在这个离散协变量的例子中，若模型 M 完全一般（允许任意函数 f），则最大不平衡 I_M(γ) 只能有限当且仅当被平衡的是经验协变量分布：即处理组单元的权重必须被调整到使得它们的 X=0 比例与全样本（X=0 比例为 0.4）完全相同。具体地，x=0 中的每个处理组单元权重应乘以 (总样本中 x=0 的概率) / (处理组中 x=0 的概率) = 0.4 / 0.1 = 4，这样加权后，处理组单元在 x=0 的比重上升到 410 = 40，正好匹配总样本的40人。这正好是后分层权重*。

重点：在连续协变量情况下，无法做这种「完全匹配」，此时「模型 M」就起了作用——它假定 f 是平滑的（如有界导数），从而使近似平衡成为可能（用少量矩条件控制最大不平衡）。

三、报告主体：讲者讲了什么¶

[00:00:03–00:03:17] 开场：介绍问题。观察 iid 单位，协变量 X，处理 W，结果 Y。在无混淆下，处理特定均值是 E[m(X,1)]。定义 m(x,w)=E[Y|X=x, W=w]。注：技术中断后，时间点 [00:02:18–00:03:17] 重新开始。

[0:03:36–0:04:36] 两种基础方法： 1. 插补：估计 \hat{m}，然后 \hat{ψ}_{imp} = (1/n) ∑ \hat{m}(X_i, 1)。 2. 加权：寻找权重 \hat{γ} 使 (1/n)∑ \hat{γ}(X_i,W_i) m(X_i,W_i) ≈ (1/n)∑ m(X_i,1)。IPW 权重 γ_ψ(X,W)=1(W=1)/P(W=1|X) 就是解。

[0:04:36–0:06:35] AIPW：结合两者。 - 公式：\hat{ψ}_{aipw} = (1/n)∑ \hat{m}(X_i,1) - (1/n)∑ \hat{γ}(X_i, W_i)(\hat{m}(X_i,W_i) - Y_i)。 - 直觉：从插补估计出发，减去它的「加权估计的误差」，该误差用回归残差 (\hat{m}(X,W)-Y) 的加权平均来估计。 - 核心技术技巧：误差分解——误差由「不平衡（imbalance）」项和一个均值为零的项组成。不平衡 = (1/n)∑ δ_m(X_i,1) - (1/n)∑ \hat{γ}(X_i,W_i) δ_m(X_i,W_i)，其中 δ_m = \hat{m} - m。

[0:06:40–0:08:36] 不稳定性的原因： - IPW 的变异性通常被归咎于 Kang and Schafer (2007) 的例子。但讲者引用 Robins et al. (2007) 的评论指出：那个例子中治疗在某些子群中几乎不可估计，插补奇迹般地工作，但若微小改动设计，所有方法都会失败。 - 真正问题：常规 IPW 工作流 的第二步——取倒数（inversion） 会剧烈放大倾向性评分估计的误差。公式：1/\hat{p} - 1/p = (p - \hat{p}) / (\hat{p} p)，当 p 很小时分母很小，误差可无穷大。

[0:08:44–0:11:28] 替代方案：平衡工作流。 - 将 AIPW 误差分解的「不平衡」项提升为核心关注点。假设 δ_m 属于某个 M（模型），则定义最大不平衡 I_M(γ) = sup_{f in M} | (1/n)∑ f(X_i,1) - (1/n)∑ γ(X_i,W_i) f(X_i,W_i) |。 - 选择权重通过最小化最大均方误差：\hat{γ} = arg min_{γ} [ I_M^2(γ) + (σ^2 / n) ‖γ‖^2_{L2(P_n)} ]，式中 σ^2 是条件方差的界。 - 这些权重是直接估计 IP 权重——没有取倒数步骤。

[0:12:00–0:13:46] 模型 M 的必需性： - 离散协变量：若 M 是全体函数，则 I_M(γ) = ∞ 除非权重使处理组的经验协变量分布与总样本完全匹配。这就是后分层。 - 连续协变量：无法完美匹配。必须限制模型的连续性，例如假定函数有几阶有界导数、bounded variation等。这种限制是所有非参数估计都需要的（从样本学习一个光滑函数），并非平衡的特有要求。

[0:13:57–0:17:30] 渐近效率： - 条件：γ_ψ 平方可积（重叠条件），\hat{m} 是均方一致的，δ_m 属于 αM（其中 α=O_p(1)）。 - 在此条件下，估计量渐近有效，\hat{ψ} ± 1.96 se(\hat{ψ}) 之类的置信区间有正确覆盖和最小长度。 - 自适应（[0:15:59–0:17:10]）：估计器对未专门建模的 δ_m 属性（如均方误差衰减速度、傅里叶系数平滑程度、RKHS中的性质）是自适应的。因此 M 不必完美。σ 的设定也不敏感，通常设为1即可。

[0:17:30–0:21:50] 扩展：从 ATE 到任意线性泛函。 - 一般当 estimand ψ(m) = E[h(X,W,m)]，其中 h 关于 m 线性。替换「处理臂值」为 h，整个框架通用。 - Riesz表示子：γ_ψ 的泛化版本，它满足 E[h(X,W,f)] = E[γ_ψ(X,W) f(X,W)] 对所有平方可积的 f。Riesz表示定理保证其存在性（只要 ψ 是均方连续的）。 - 不连续泛函（如条件 ATE 在某点）：可通过核平滑近似为连续泛函，再用平衡框架估计。

[0:21:57–0:28:02] 深层讨论：平衡的三大原则及其张力： - 原则1：直接平衡样本（解样本矩条件，而非先估计总体 IP 权重再平衡）。 - 原则2：平衡正确的模型（不是任意方便的函数基，而是能实际描述 δ_m 的 M）。 - 原则3：估计 IP 权重（而非它的倒数）。 - 一个开放问题：如果我们采用样本分割（在 n/2 的子样本上估计 \hat{γ_ψ}，再在另一半上评估权重），则原则1被打破了——直接平衡让位给了「估计函数然后 evaluate」。这催生了张力：样本分割 + 直接平衡是矛盾的。我们不清楚何时该选择哪个。 - 终极挑战（[0:26:35–0:27:48]）：平衡方法的设计条件近最优性与半参数方法的双重稳健性——这两种看似不同的性质，是否真的不相容？还是只是因为我们尚未找到统一理论与证明？这是「我们所有人的工作」。

[0:27:58–0:30:40] Q&A（与提问者Karthika Mohan）： - 问题：关于敏感性分析（sensitivity analysis）。讲者回应：在平衡框架下，敏感性分析可以将γ模型的错误或M的错配作为不确定性参数，嵌入到最小最大（minimax）框架中，但这尚待探索。

四、对应论文与开放问题¶

对应论文（均可在arXiv找到，我有把握的标题与作者如下）：

Hirshberg, D. A., and Wager, S. (2017). Augmented Minimax Linear Estimation. arXiv:1712.00038. —— 本报告的基础方法论文（Hirshberg在该slides中为自己署名，但ASR音译为"H"）。报告标题特别注明「with Stefan Wager」。注意：arXiv时间戳可能是 "2017" 或稍后。
Hirshberg, D. A., Maleki, A., and Zubizarreta, J. (2019). Minimax Linear Estimation of the Retargeted Mean. arXiv:1901.10296. —— 解决连续协变量平衡、参数敏感性的论文。
Chernozhukov et al. (2018) —— 报告中提到的正则化Riesz表示子论文。
Chernozhukov et al. (2016) —— 局部稳健半参数估计。

开放问题（每条基于转写中的具体依据）：

样本分割 vs. 直接平衡的最优选择（[0:25:22–0:25:28] 讲者亲自提出）：“we don't really know when to prefer one over the other”——即不知道在什么条件下，使用样本分割（cross-fitting）估计IP权重（从而放弃直接平衡样本）会比直接平衡样本更优。研究者可尝试通过渐近方差、有限样本性能或最坏情况（worst-case）分析来刻画这一抉择。
设计条件近最优性与双重稳健性是否兼容（[0:26:35–0:27:04]）：“There’s work to be done in understanding exactly how these properties arise, and whether they are compatible or we must make a choice.” 这是本报告最深刻的未解问题——在平衡方法与半参数效率框架之间架起分析桥梁，证明（或反驳）设计条件最优性可以蕴含双重稳健性，或者反之。
参数自动调优（[0:17:57–0:18:14] 讲者提到）：在估计器中有三个调优参数（σ，\hat{m}，M）。虽然σ和M不敏感无需精确调优，但尚未有系统理论告诉我们如何最优地从数据中自动选择这些参数（尤其是M的复杂度参数，如RKHS正则化强度）。这一挑战其实横跨整个半参数领域。
敏感性分析的整合（Q&A [0:28:07–0:30:40] 提问后续）：讲者说“I haven't really seen much on trying to use balance as a sort of sensitivity notion”。一个直接的想法是：将模型的误定（δ_m ∉ αM）或IP权重的偏差（γ ≠ γ_ψ）参数化后，能否在最小最大框架内给出偏误的刻画或偏误的敏感性区间？这涉及到将平衡框架与Rosenbaum式的敏感性分析结合（比如对P(W=1|X)的扰动）。
不连续泛函的平衡估计：虽然讲者提出了通过核平滑来近似，但如何最优地选择平滑带宽，以及如何保证在这种「近似之后的平衡估计」的渐近性质（偏差-方差权衡），尚未在平衡框架下得到理论化处理（[0:21:27–0:21:53]）。

Maintained by 陈星宇 · Homepage · Source on GitHub