Causal Graphical Models for Handling Missing Data¶
讲者: Karthika Mohan ; David Hirshberg
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-02
主题: 因果推断
视频: https://www.youtube.com/watch?v=A_1lknAaXhY · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于 因果推断中处理效应估计的「平衡」(balancing)方法论 这一子方向。该方向的核心追问是:当只有观测数据(非随机化),如何通过为样本单元赋予权重,使得加权后的处理组和控制组在协变量分布上「看似随机化」,从而无偏估计因果效应?
-
奠基与主流路线:传统上这一领域有两股主要思想。其一是 倾向性评分加权(IPW / IPTW)(Rosenbaum and Rubin, 1983),通过估计个体接受处理的概率(倾向性评分),以其倒数作为权重来「重现」随机化。其二是 层化/后分层(post-stratification),将协变量离散化,在每个层内处理效率。后来发展的增强IPW(AIPW)(Robins, Rotnitzky, and Zhao, 1995)结合了两种思想,提供了双重稳健性:只要倾向性评分模型或结果回归模型之一正确,估计便是一致的。进入2010年代,以
Zubizarreta (2015)为代表的 直接平衡方法(stable balancing weights) 提出了一个更直接的范式:不再先估计倾向性评分再取倒数,而是直接优化一个条件——使处理组与全样本的协变量矩(如均值、二阶矩)平衡。 -
当前frontier:社区逐渐意识到,「平衡」与「半参数效率」之间的边界在模糊化。
Chernozhukov, Escanciano, Ichimura, and Newey (2016)的「局部稳健半参数估计」和Chernozhukov, Newey, Robins, and Singh (2018)的「正则化Riesz表示子」工作,将半参数效率理论中的影响函数/Neyman正交性与平衡思想统一到了一个框架下。报告人Hirshberg也正是沿着这条线,试图用 「最小化最大(Minimax)均方误差」 的视角来统一这些方法,并为它们提供条件于设计(design-conditional)的逼近最优性。 -
这场报告的站位:Hirshberg 站在上述交汇点上。他不仅展示了一个平衡工作流(直接最小化某种模型下的最坏情况不平衡 + 权重范数的惩罚),而且更深入地探讨了这个工作流背后的哲学:三个流传甚广的原则(直接平衡样本、平衡正确的模型、估计 IP 权重而非其倒数)是否都必要?尤其当样本分割(cross-fitting)引入时,「直接平衡样本」与「样本分割」存在张力——这正是报告末尾留下的一个未解问题。报告人没有宣称「平衡优于半参数」或反之,而是指出这些性质之间可能有更深层的兼容性尚未被证明。
关键工作(可查论文,我列出有把握的,听不准的标注不确定性):
- Rosenbaum and Rubin (1983):倾向性评分奠基。
- Robins, Rotnitzky, and Zhao (1995):AIPW。
- Robins, Sued, Lei-Gomez, and Rotnitzky (2007):关于Kang and Schafer (2007)例子的评论。
- Zubizarreta (2015):稳定平衡权重。
- Chernozhukov et al. (2016):局部稳健半参数估计。
- Hirshberg and Wager (2017):Augmented Minimax Linear Estimation(报告人的基础论文)。
- Chernozhukov et al. (2018):双重/去偏机器学习与正则化Riesz表示子。
- Hirshberg, Maleki, and Zubizarreta (2019):Minimax Linear Estimation of the Retargeted Mean(处理连续协变量的平衡)。
二、最小内核 / 一个最简例子¶
1. 符号与模型
- 观测数据:iid 样本
(X_i, W_i, Y_i),其中:X= 协变量(可连续或离散)。W= 处理变量(此处为二值,0 或 1)。Y= 结果。
- 潜在结果:
Y_i(w)(通常假设无混淆性:(Y(0), Y(1)) ⟂ W | X)。 - 结构性参数(Estimand):处理特定均值
ψ = E[Y(1)]。报告人用回归函数m(x, w) = E[Y | X=x, W=w]将其表达为ψ = E[m(X, 1)]——这是估计目标。注意ψ是一个实数(参数),m(X, 1)是一个随机变量(其期望为ψ)。
2. 最简例子:一个离散协变量(两个水平)
假设:
- 协变量 X 只有两个值:x=0 或 x=1(比如性别)。
- 处理 W 是二值(0 / 1)。
- 观测样本:在 x=0 层内,有 40 人(10人处理,30人对照);在 x=1 层内,有 60 人(50人处理,10人对照)。总 n=100。
- 目标是 ψ = E[Y(1)] = 0.4 * E[Y(1)|X=0] + 0.6 * E[Y(1)|X=1]。
问题:我们只观测到每个人的 Y = Y(W)(即他们在实际接受的处理下的结果)。比如在 x=0 的处理组中看到的结果是 Y(1) 的实现,而控制组看到的是 Y(0)。
核心思想(讲者的框架如何起作用):
如果我们想估计 ψ,我们需要从同步援护的数据中重构 E[m(X,1)]。记 m(X,1) = f(X)(只与 X 有关,因为处理固定为1)。讲者所谓 「平衡」 就是找到权重 γ(X,W),使得对于任意函数 f,加权后的自然臂值 <γ, f(X,W)> 近似等于纯处理臂平均值 E[f(X,1)]。在这个离散协变量的例子中,若模型 M 完全一般(允许任意函数 f),则最大不平衡 I_M(γ) 只能有限当且仅当被平衡的是经验协变量分布:即处理组单元的权重必须被调整到使得它们的 X=0 比例与全样本(X=0 比例为 0.4)完全相同。具体地,x=0 中的每个处理组单元权重应乘以 (总样本中 x=0 的概率) / (处理组中 x=0 的概率) = 0.4 / 0.1 = 4,这样加权后,处理组单元在 x=0 的比重上升到 410 = 40,正好匹配总样本的40人。这正好是后分层权重*。
重点:在连续协变量情况下,无法做这种「完全匹配」,此时「模型 M」就起了作用——它假定 f 是平滑的(如有界导数),从而使近似平衡成为可能(用少量矩条件控制最大不平衡)。
三、报告主体:讲者讲了什么¶
[00:00:03–00:03:17] 开场:介绍问题。观察 iid 单位,协变量 X,处理 W,结果 Y。在无混淆下,处理特定均值是 E[m(X,1)]。定义 m(x,w)=E[Y|X=x, W=w]。注:技术中断后,时间点 [00:02:18–00:03:17] 重新开始。
[0:03:36–0:04:36] 两种基础方法:
1. 插补:估计 \hat{m},然后 \hat{ψ}_{imp} = (1/n) ∑ \hat{m}(X_i, 1)。
2. 加权:寻找权重 \hat{γ} 使 (1/n)∑ \hat{γ}(X_i,W_i) m(X_i,W_i) ≈ (1/n)∑ m(X_i,1)。IPW 权重 γ_ψ(X,W)=1(W=1)/P(W=1|X) 就是解。
[0:04:36–0:06:35] AIPW:结合两者。
- 公式:\hat{ψ}_{aipw} = (1/n)∑ \hat{m}(X_i,1) - (1/n)∑ \hat{γ}(X_i, W_i)(\hat{m}(X_i,W_i) - Y_i)。
- 直觉:从插补估计出发,减去它的「加权估计的误差」,该误差用回归残差 (\hat{m}(X,W)-Y) 的加权平均来估计。
- 核心技术技巧:误差分解——误差由「不平衡(imbalance)」项和一个均值为零的项组成。不平衡 = (1/n)∑ δ_m(X_i,1) - (1/n)∑ \hat{γ}(X_i,W_i) δ_m(X_i,W_i),其中 δ_m = \hat{m} - m。
[0:06:40–0:08:36] 不稳定性的原因:
- IPW 的变异性通常被归咎于 Kang and Schafer (2007) 的例子。但讲者引用 Robins et al. (2007) 的评论指出:那个例子中治疗在某些子群中几乎不可估计,插补奇迹般地工作,但若微小改动设计,所有方法都会失败。
- 真正问题:常规 IPW 工作流 的第二步——取倒数(inversion) 会剧烈放大倾向性评分估计的误差。公式:1/\hat{p} - 1/p = (p - \hat{p}) / (\hat{p} p),当 p 很小时分母很小,误差可无穷大。
[0:08:44–0:11:28] 替代方案:平衡工作流。
- 将 AIPW 误差分解的「不平衡」项提升为核心关注点。假设 δ_m 属于某个 M(模型),则定义最大不平衡 I_M(γ) = sup_{f in M} | (1/n)∑ f(X_i,1) - (1/n)∑ γ(X_i,W_i) f(X_i,W_i) |。
- 选择权重通过最小化最大均方误差:\hat{γ} = arg min_{γ} [ I_M^2(γ) + (σ^2 / n) ‖γ‖^2_{L2(P_n)} ],式中 σ^2 是条件方差的界。
- 这些权重是直接估计 IP 权重——没有取倒数步骤。
[0:12:00–0:13:46] 模型 M 的必需性:
- 离散协变量:若 M 是全体函数,则 I_M(γ) = ∞ 除非权重使处理组的经验协变量分布与总样本完全匹配。这就是后分层。
- 连续协变量:无法完美匹配。必须限制模型的连续性,例如假定函数有几阶有界导数、bounded variation等。这种限制是所有非参数估计都需要的(从样本学习一个光滑函数),并非平衡的特有要求。
[0:13:57–0:17:30] 渐近效率:
- 条件:γ_ψ 平方可积(重叠条件),\hat{m} 是均方一致的,δ_m 属于 αM(其中 α=O_p(1))。
- 在此条件下,估计量渐近有效,\hat{ψ} ± 1.96 se(\hat{ψ}) 之类的置信区间有正确覆盖和最小长度。
- 自适应([0:15:59–0:17:10]):估计器对未专门建模的 δ_m 属性(如均方误差衰减速度、傅里叶系数平滑程度、RKHS中的性质)是自适应的。因此 M 不必完美。σ 的设定也不敏感,通常设为1即可。
[0:17:30–0:21:50] 扩展:从 ATE 到任意线性泛函。
- 一般当 estimand ψ(m) = E[h(X,W,m)],其中 h 关于 m 线性。替换「处理臂值」为 h,整个框架通用。
- Riesz表示子:γ_ψ 的泛化版本,它满足 E[h(X,W,f)] = E[γ_ψ(X,W) f(X,W)] 对所有平方可积的 f。Riesz表示定理保证其存在性(只要 ψ 是均方连续的)。
- 不连续泛函(如条件 ATE 在某点):可通过核平滑近似为连续泛函,再用平衡框架估计。
[0:21:57–0:28:02] 深层讨论:平衡的三大原则及其张力:
- 原则1:直接平衡样本(解样本矩条件,而非先估计总体 IP 权重再平衡)。
- 原则2:平衡正确的模型(不是任意方便的函数基,而是能实际描述 δ_m 的 M)。
- 原则3:估计 IP 权重(而非它的倒数)。
- 一个开放问题:如果我们采用样本分割(在 n/2 的子样本上估计 \hat{γ_ψ},再在另一半上评估权重),则原则1被打破了——直接平衡让位给了「估计函数然后 evaluate」。这催生了张力:样本分割 + 直接平衡是矛盾的。我们不清楚何时该选择哪个。
- 终极挑战([0:26:35–0:27:48]):平衡方法的设计条件近最优性与半参数方法的双重稳健性——这两种看似不同的性质,是否真的不相容?还是只是因为我们尚未找到统一理论与证明?这是「我们所有人的工作」。
[0:27:58–0:30:40] Q&A(与提问者Karthika Mohan):
- 问题:关于敏感性分析(sensitivity analysis)。讲者回应:在平衡框架下,敏感性分析可以将γ模型的错误或M的错配作为不确定性参数,嵌入到最小最大(minimax)框架中,但这尚待探索。
四、对应论文与开放问题¶
对应论文(均可在arXiv找到,我有把握的标题与作者如下):
- Hirshberg, D. A., and Wager, S. (2017). Augmented Minimax Linear Estimation. arXiv:1712.00038. —— 本报告的基础方法论文(Hirshberg在该slides中为自己署名,但ASR音译为"H")。报告标题特别注明「with Stefan Wager」。注意:arXiv时间戳可能是 "2017" 或稍后。
- Hirshberg, D. A., Maleki, A., and Zubizarreta, J. (2019). Minimax Linear Estimation of the Retargeted Mean. arXiv:1901.10296. —— 解决连续协变量平衡、参数敏感性的论文。
- Chernozhukov et al. (2018) —— 报告中提到的正则化Riesz表示子论文。
- Chernozhukov et al. (2016) —— 局部稳健半参数估计。
开放问题(每条基于转写中的具体依据):
-
样本分割 vs. 直接平衡的最优选择([0:25:22–0:25:28] 讲者亲自提出):“we don't really know when to prefer one over the other”——即不知道在什么条件下,使用样本分割(cross-fitting)估计IP权重(从而放弃直接平衡样本)会比直接平衡样本更优。研究者可尝试通过渐近方差、有限样本性能或最坏情况(worst-case)分析来刻画这一抉择。
-
设计条件近最优性与双重稳健性是否兼容([0:26:35–0:27:04]):“There’s work to be done in understanding exactly how these properties arise, and whether they are compatible or we must make a choice.” 这是本报告最深刻的未解问题——在平衡方法与半参数效率框架之间架起分析桥梁,证明(或反驳)设计条件最优性可以蕴含双重稳健性,或者反之。
-
参数自动调优([0:17:57–0:18:14] 讲者提到):在估计器中有三个调优参数(
σ,\hat{m},M)。虽然σ和M不敏感无需精确调优,但尚未有系统理论告诉我们如何最优地从数据中自动选择这些参数(尤其是M的复杂度参数,如RKHS正则化强度)。这一挑战其实横跨整个半参数领域。 -
敏感性分析的整合(Q&A [0:28:07–0:30:40] 提问后续):讲者说“I haven't really seen much on trying to use balance as a sort of sensitivity notion”。一个直接的想法是:将模型的误定(
δ_m ∉ αM)或IP权重的偏差(γ ≠ γ_ψ)参数化后,能否在最小最大框架内给出偏误的刻画或偏误的敏感性区间?这涉及到将平衡框架与Rosenbaum式的敏感性分析结合(比如对P(W=1|X)的扰动)。 -
不连续泛函的平衡估计:虽然讲者提出了通过核平滑来近似,但如何最优地选择平滑带宽,以及如何保证在这种「近似之后的平衡估计」的渐近性质(偏差-方差权衡),尚未在平衡框架下得到理论化处理([0:21:27–0:21:53])。
Maintained by 陈星宇 · Homepage · Source on GitHub