Finite-Sample Optimal Estimation and Inference on Average Treatment Effects Under Unconfoundedness¶
讲者: Michal Kolesár
讨论人: Luke Miratrix
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-07-14
主题: 因果推断
视频: https://www.youtube.com/watch?v=KhEWdQ8Mtmo · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告(以及对应的论文,Armstrong & Kolesár, 2020)处理的是因果推断中一个最经典的问题:在无混杂性(unconfoundedness) 假设下,估计一个二元处理(D ∈ {0,1})的平均处理效应(ATE,或条件平均处理效应 CATE)。
这个子方向的历史与主要路线: - 奠基性工作:Rosenbaum & Rubin (1983) 提出了倾向得分,开启了基于“处理分配可忽略性”的因果推断。 - 主流路线(半参数效率理论):在无混杂性+重叠(overlap)假设下,研究者可以构造达到半参数效率界的估计量(如 Hahn, 1998; Hirano, Imbens & Ridder, 2003)。这些估计量是 √n 一致、渐进正态且渐进无偏的。基于它们的置信区间使用标准正态临界值(如 1.96)。 - 已知的局限性:这条主流路线有多个众所周知的痛点: 1. 有限样本偏差:正则化(如匹配、核估计)引入的偏差在渐近上“消失”,但在有限样本里是真实存在的。Robins & Ritov (1997) 很早就尖锐指出了这种“渐近外衣”的虚伪性。 2. 对光滑度要求过高:要获得 √n 收敛,通常需要假设条件均值函数的光滑度至少是协变量维数 p 的一半(即有界 p/2 阶导数)。当 p 较大时,这个假设极强且难以验证(见报告幻灯片第4页底部及 [0:11:00] 处的讨论)。 3. 对重叠的脆弱性:若重叠条件不满足(propensity score 接近 0 或 1),半参数效率界会趋于无穷大,标准 √n 渐近理论失效(Khan & Tamer, 2010)。
这场报告的站位与核心转变: - 它不采用标准的“从无限(渐近)到有限(样本)”的视角,而是反过来,要求研究者明确指定条件均值函数 f(x,d) 所在的光滑度函数类 F(例如 Lipschitz 类)。这类似于 Donoho (1994) 在非参数统计中提出的“模范(模范)”(Module) 框架。 - 通过同时固定处理指标 D 和协变量 X(即条件于设计中),报告将 ATE 估计问题转化为一个固定设计(fixed-design)非参数回归中的线性泛函估计问题。这允许进行精确的有限样本偏差计算,而偏差只依赖于 X 和 D 的结构以及光滑度假设。 - 工作线的主导思想是:放弃假设“偏差会消失”,转而使用“偏差上限 + 更大临界值”来构建明确考虑偏差的置信区间。最优估计量来源于对权重向量 k 的凸优化(最小化均方误差或置信区间长度),而不是通过分析半参数效率分数。
关键相关文章的标注(基于幻灯片和领域常识): - Donoho (1994):提出了“统计函数分析”框架,该报告的核心技术(最优线性估计、最小最大区间)直接源自此文。 - Armstrong & Kolesár (2018b):该报告作者之前的文章,为一般的最优线性估计和偏误校正置信区间提供了理论工具。报告中提到这些“sharp efficiency bounds”是他们自己工作的应用。 - Kallus (2020):幻灯片中提到这是一项独立且同步的工作,也计算了最优线性权重,但使用了不同的优化公式。 - Imbens & Wager (2019):幻灯片中提到了用此类方法处理小 p(特别是回归不连续设计)的相关工作。
二、最小内核 / 一个最简例子¶
符号设定:
- 观测数据:对于单位 i = 1,…,n,我们有协变量 x_i(标量或向量)、处理指标 d_i ∈ {0,1}、观测结果 y_i。
- 不可观测量:
- 潜在结果 Y_i(1), Y_i(0)。
- 条件均值函数 f(x,d) = E[Y_i(d) | X_i = x]。在无混杂假设下,f(x,d) = E[Y | X = x, D = d]。
- 随机误差 u_i,假设独立且对于给定 X、D,期望为 0。
- 目标参数:条件平均处理效应 (CATE) τ = (1/n) Σ_{i=1}^n [f(x_i, 1) - f(x_i, 0)]。
- 光滑度约束:假设函数 f 属于一个已知的凸对称函数类 F。最简例子是 Lipschitz 类:|f(x,d) - f(x',d)| ≤ C * |x - x'|,对所有 d ∈ {0,1} 及 x, x' 成立。C 是 Lipschitz 常数,也是关键的光滑度超参数。
最简例子:d=1 (一个协变量,可设为占比 [0,1]),n=2 个单位。 - 单位 1:x_1 = 0, d_1 = 1 (处理), y_1 = 10。 - 单位 2:x_2 = 1, d_2 = 0 (对照), y_2 = 0。
问题:在没有完美匹配的情况下,如何最优地估计 τ = f(0,1) - f(0,0)?注意,我们只有一个处理组观测值(x=0处的f)和一个对照组观测值(x=1处的f)。估计 τ 的挑战在于需要“猜测” f(0,0)。
报告的方法:
1. 线性估计量: τ̂_k = k_1 * y_1 + k_2 * y_2。
- 由于只有两个单位,k_1, k_2 是标量权重。
2. 偏差计算:E[τ̂_k] = k_1 * f(0,1) + k_2 * f(1,0)。
- 偏差 = E[τ̂_k] - τ = (k_1 - 1) * f(0,1) + (k_2 + 1) * f(0,0)。
- 关键:偏差是 f(0,1) 和 f(0,0) 的线性函数。由于 f ∈ F,我们能计算最坏情况偏差:bias_max(k) = sup_{f∈F} E[τ̂_k - τ]。
- 在 Lipschitz 约束下,最坏情况偏差是通过“在可容忍范围内最大限度地扭曲 f”来实现的。例如,要使偏差为正且最大,会让 f(0,1) 尽可能地大(给定约束条件)而 f(0,0) 尽可能地小。
3. 方差计算:Var(τ̂_k) = k_1^2 * σ^2(x_1, d_1) + k_2^2 * σ^2(x_2, d_2)。在理想情况下,此方差是已知的。
4. 最优权重:报告寻求最小化最坏情况根均方误差 (RMSE) 或最小化最坏情况置信区间长度 的权重 k。
- 这是一个包含 2 个变量 (k_1, k_2) 的凸优化问题。它的解 k 会受到 Lipschitz 常数 C 和方差 σ^2 的影响。
- 如果 C 很大(即函数可能很凹凸,大偏差非常“昂贵”),最优解会把 k 强制到能最小化最大偏差的地方。在这个简单例子中,最优策略会是1-近邻(1-NN)匹配:用单位 2 的结果(y_2)作为单位 1 的反事实(f(0,0))的最佳估计。即 τ̂_k = y_1 - y_2,对应 k_1 = 1, k_2 = -1。
- 如果 C 很小(函数很平坦),那么我们可以承受用单位 2 的 y_2 来推断更远观测,此时最优权重会更接近简单的差分均值(即 k_1 = 1/2, k_2 = -1/2,或调整后更复杂的权重)。
5. 置信区间:不是用 1.96 倍标准误,而是使用更大的临界值 q(α, b)*,其中 b = bias_max(k*) / se(τ̂_k*)。这个临界值考虑了偏差与方差的比例。当偏差占比大(b 大)时,临界值远超 1.96,使得区间加宽。
三、报告主体:讲者讲了什么¶
[0:00:00 - 0:09:00] 引言与动机 - 概括了标准 ATE 估计方法(基于倾向得分匹配、kernel、series),指出了其三个主要问题:忽略有限样本偏差、对光滑度要求过高、无法在低重叠或弱光滑度下良好工作。将这一套方法称为“标准渐近方法”。
[0:09:00 - 0:10:00] 报告的核心思路 - 提出了一种完全不同的、基于明确指定条件均值函数光滑度(例如 Lipschitz 或更高阶导数界)的方法。 - 强调这是通过条件于设计中(将 X 和 D 视为固定)来实现的,这使得精确的有限样本偏差计算成为可能。 - 声称通过进行最优的偏差-方差权衡,可以得到唯一的最优估计量。
[0:10:00 - 0:11:00] 线性估计量与偏差校正置信区间
- 介绍了线性估计量 τ̂_k = Σ k(x_i,d_i) y_i(这种形式涵盖了匹配、kernel 等方法)。
- 给出了计算一个线性估计量的最坏情况偏差 bias_max 的公式(公式7,幻灯片)。
- 提出了用于构造一维和二维偏差校正置信区间的“偏误校正公式”(公式8和更优的t统计量方法)。
- 核心思想:用临界值取代 1.96,临界值取决于偏差标准差比 b = bias_max / se。当 b 大时,临界值大于标准值,有时甚至接近单侧临界值,因为偏差并不能同时很大且在相反方向。讲者指出,在 NSW 实例中,这个临界值(对应最优估计量)达到了 3 或 4。
[0:11:00 - 0:12:00] 理论结果与经验启示 - 讲了最小光滑度必要条件:对于 √n 推论的可行性,需要假设条件均值函数的p/2阶导数有界(例如 p=4 个协变量 → 需要2阶导数有界;p=10 → 需要5阶导数有界)。这在实践中非常严苛。 - 该论文的方法则能容忍不规则估计(即不满足此条件的)情景。 - 指出即使对于给定的线性估计量(例如固定权重的匹配),其偏差校正区间理论上有效;但最优线性估计量能保证Lindberg条件(权重不太大),从而确保CLT在弱重叠下依然成立。与之对比,匹配(特别是1-NN)在弱重叠下的权重可变得非常大(例如一个单位被匹配多次)。
[0:12:00 - 0:15:00] 模型设定与参数空间
- 正式定义了条件于 X 和 D 的模型:Y_i = f(X_i, D_i) + u_i,其中 u_i 独立且均值为 0。
- 目标参数:CATE = (1/n) Σ_i[ f(x_i,1) - f(x_i,0) ]。
- 假设凸对称的参数空间 F: 比如 Lipschitz 类 F = {f: |f(x,d) - f(x',d)| ≤ C∥x-x'∥_X}。
- 使用正态误差与已知方差 σ^2(x,d) 来获得精确的有限样本结果,但指出这些假设实际中可放宽并渐近校正。
[0:15:00 - 0:18:00] 最优估计量与置信区间的构造 - 优化目标:在给定方差上界 V 的前提下,最小化最坏情况偏差,从而描绘出偏差-方差前沿(bias-variance frontier)。 - 关键技巧:展示了通过拉格朗日乘子法,该问题可简化为一个凸二次规划(在 Lipschitz 情形下)或线性规划(一般凸对称 F)。 - 解的结构:该问题等价于 Lasso / 最小角回归 (LARS)。随着光滑度参数 C 和/或拉格朗日参数 δ 的变化,最优权重 k 的路径是分段线性*的,可以通过一个类似 LARS 的算法高效计算。
[0:18:00 - 0:22:00] Lipschitz 情形下的最优估计:匹配的“出现” - 在 Lipschitz 限制下,最优权重的具体形式对应于:对于处理组单位 i,用最近邻的对照组观测的线性组合来估计其反事实。权重由拉格朗日乘子给出。 - 关键结果:如果 Lipschitz 常数 C 足够大(即函数可允许的“摆动”变大,因此潜在偏差非常显著),那么最优解会完全集中于对应的最近邻(即该对照组单位上为1,其余为0)。这意味着匹配估计量(1-NN)在某种意义上是有限样本最优的,只要匹配距离度量与定义 Lipschitz 类的度量一致。 - 更一般情况:回答了听众[0:35:17]的问题:“多大的 Lipschitz 常数能使匹配最优?”讲者给出在 NSW 应用中的例子:C=1 时最优估计量(相对于匹配解)的效率约90%;C=2.5 时效率升至约95%。
[0:22:00 - 0:25:00] 实用化事项与诊断
- 处理方差未知:建议先用已知的(例如正态同方差)进行估计以得到最优权重 k*,然后用异方差稳健标准误来计算最终的置信区间。
- CLT 诊断:由于最优解自动保证权重小(满足 Lindberg 条件),因此渐近正态性有保证。反例:在 NSW 数据中,匹配估计量的最大 Lindberg 权重约为0.2(表示其对单个观测的依赖度较高),而最优估计量的对应值约为0.06。讲者指出,若残差不服从正态,这种权重大的估计量的CLT 近似可能很差。
- 扩展到 PATE: 讲解了如何将方法从 CATE 扩展到 Population ATE:即舍弃“条件于设计下的偏差不能同时有正负”这一优势,而使用边际方差和更保守的置信区间构造。
[0:25:00 - 0:30:00] 应用:National Supported Work (NSW)
- 数据集:LaLonde (1986) / Dehejia & Wahba (1999). 处理组 = 185 名接受培训的男性,对照组 = PSID 样本。目标是估计处理组平均因果效应 (ATT)。
- 协变量:年龄、教育、种族、婚姻状况、失业时段、过去收入和就业指示。通过对 Lipschitz 范数的坐标进行加权来表达对不同协变量平滑度的先验信念。
- 报告结果:显示了巨大的偏差校正项:在最坏情况偏差与该标准误的比率 b 始终大于 1,大部分在 1.5 附近。置信区间的一半宽度来自偏差,一半来自抽样方差。
- 敏感性分析:针对 Lipschitz 常数 C 的范围(从小 C 到合理值)进行了敏感性分析。当 C 过小时(等价于非常强的光滑度),估计值变得不稳定甚至为负(由于忽略了大的协变量差异)。对于合理 C, 估计和区间都相当稳定。
四、对应论文与开放问题¶
(a) 对应论文 - 主讲论文:Armstrong, T. B., & Kolesár, M. (2020). Finite-Sample Optimal Estimation and Inference on Average Treatment Effects Under Unconfoundedness. (arXiv, 最终版修改时间未知) - 幻灯片标题与作者相符,合作关系为 Armstrong & Kolesár。报告是围绕这篇论文的完整内容展开的。 - 相关读物的其他引用: - Armstrong, T. B., & Kolesár, M. (2018b). Optimal inference in a class of nonparametric models. (报告中提到的他们的一般框架来源) - Kallus, N. (2020). Optimal balancing weights for finite-population inference. (幻灯片提到同步的独立工作)
(b) 开放问题 (严格基于报告的转写,并标注时间点)
- 光滑度常数 C 的自动选择:如何有效且诚实地利用数据来预先选择 Lipschitz 常数 C?报告指出[0:58:00 - 0:59:00],进行此选择的“诚实”置信区间极其保守(类似于模型选择后的推理问题)。可以通过加强假设(如更高阶的光滑度)来绕过这个问题吗?
- 扩展到更复杂的设定:报告的方法论能否扩展到动态处理(longitudinal treatments) 或多元(multivariate / vector-valued)处理?核心挑战在于设计空间和偏差-方差前沿的计算复杂性会急剧增加,尤其是在自变量 p 变大时[0:41:00 - 0:42:00](讨论者 Luke 提到了维度诅咒:|x| 范数随 √p 增长,使得 Lipschitz 界十分严苛)。在高维场景下(p ≫ n),能否将稀疏性假设纳入 F 来放宽这个问题,成为一个需要探索的点。
- 偏差-方差前沿作为诊断工具:报告提到[0:56:00] 可以将最优估计量的偏差-方差前沿输出为一种诊断工具(例如总的区间宽度中有多少源于偏差)。如果能将此工具标准化并提供给应用研究者,它会是多少资深的实践指导?而这或许需要更简洁的表示,便于非技术用户理解。
- CATE 与 Set-Identifiability:在极度缺乏重叠或光滑度非常弱的情况下,CATE 可能无法被点识别(即 set-identifiable)。报告的方法(通过最大偏差和更大临界值)为这个场景提供了一个自动处理机制。产生的问题是:这种保守的(因为最大化偏差往往会扩大区间)处理方式是否能直接反映出识别集(identified set)的真实并精确的范围?如果能,它在理论和计算上是否最优?
Maintained by 陈星宇 · Homepage · Source on GitHub