Using Experiments to Correct for Selection in Observational Studies¶
讲者: Guido Imbens
讨论人: Nathan Kallus
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-06-15
主题: 因果推断
视频: https://youtu.be/5qs2UV_u2vw · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于结合实验数据与观察数据估计因果效应这一子方向。核心问题是:当仅用观察数据估计因果效应时,因未观测混杂而不可信(内部效度低),而此时恰好存在一个实验数据集,但它没有记录我们真正关心的长期结局(如八年级成绩、劳动力市场结果),它只记录了短期/替代结局(如三年级成绩)。如何系统性地利用实验数据来“校正”观察数据的偏差,从而对长期结局得到可信的因果估计?
该子方向有几个不同的分支和奠基工作: - 替代指标法 (Surrogacy / Surrogate Index):Athey, Chetty, Imbens & Kang (2019) 尝试用多个短期代理变量来估计长期效应,但需要“代理条件独立性”(treatment only affects the primary outcome through the surrogate),该假设在存在未观测混杂(如智力)时很脆弱。这场报告的一个关键贡献就是完全放弃了代理条件独立性。 - 实验数据作为“锚点”校正观察偏差:Kallus, Puli & Shalit (2018) 提出“通过实验锚定去除隐藏混杂”,其数据缺失模式与本报告类似但假设不同。Kallus & Mao (2020) 则假设无混杂性在整个合并样本中成立(而不是条件外部有效性)。本报告的框架与之不同。 - 结合观察与实验数据的部分识别:例如,Rosenman et al. (2018, 2020) 使用收缩估计量结合两类数据;更早的文献如 Fraker & Maynard (Trimmed means) 以及 Hotz et al. (社会实验) 通常采用简单的“差异中差异”思路。本报告给出了一个点识别且基于分布对齐的通用方法。
本场报告站在的位置是:在观察数据存在未观测混杂、实验数据只记录短期结果(但分配是随机的)的特定缺失数据模式下,通过“潜在无混杂”这一核心假设(即:同时影响短期和长期结果的未观测混杂因素是相同的),实现了对长期效应的点识别。它给出了清晰的可识别性条件,三种等价的估计策略,以及在一个经典教育数据集(Project STAR + 纽约观察数据)上的成功验证(调整后的八年级效应估计值0.057,非常接近实验真实值0.085)。这些工作对应论文 Athey, Chetty & Imbens (2020, arXiv:2006.09676)。
二、最小内核 / 一个最简例子¶
符号与设定¶
- 样本:有两个独立样本。
PS(Project STAR): 实验样本,N_{PS}个学生。NY(New York): 观察样本,N_{NY}个学生。
- 可观测变量:
G_i ∈ {PS, NY}: 来源样本指示。W_i ∈ {0, 1}: 处理指示(小班/常规班)。Y_i^8: 主结局(八年级考试成绩),仅在 NY 样本中观测。Y_i^3: 次结局(三年级考试成绩),在两个样本中都观测。
- 潜在结果(潜在不可观测量):
Y_i^8(w): 若处理取值为w时的八年级成绩。Y_i^3(w): 若处理取值为w时的三年级成绩。
- 目标参量:
τ = E[Y_i^8(1) - Y_i^8(0) | G_i = NY],即纽约学生群体中,小班 vs 普通班对八年级成绩的平均因果效应。
一个最简例子(d=1, 单一替代结局)¶
假设所有来自NY和PS的个体,其潜在结果 Y_i^3(1), Y_i^3(0) 的分布完全相同(条件外部有效性,CVE:G ⊥⊥ Y(0), Y(1))。在PS样本中,处理是随机分配的(W ⊥⊥ Y^3(w))。
现在,假设存在一个未观测混杂 U,它同时影响 W(在NY中)和 Y^8(w)。核心假设——潜在无混杂——说的是:一旦我们知道了该个体在“控制”条件下的三年级成绩 Y^3(0),处理分配就与八年级的潜在结果无关。
W ⊥⊥ Y^8(w) | Y^3(w), G = NY
Y^3(0)(一个潜在的、未受处理影响的成绩),他们被安排进小班或大班的概率相同。
为什么实验数据在这里是关键?
我们想估计 E[Y^8(1) - Y^8(0) | G=NY]。根据潜在无混杂,这等价于:
E[ E[Y^8 | W=1, Y^3(1)=y, G=NY] - E[Y^8 | W=0, Y^3(0)=y, G=NY] ]
但这里 Y^3(1) 和 Y^3(0) 分别是“处理组”和“控制组”的潜在结果,我们无法同时观测到它们。例如,要估计 E[Y^8 | W=0, Y^3(0), G=NY],我们只能看到那些实际是控制组 (W=0) 的个体的 Y^8 和 Y^3。但我们无法直接边缘化 Y^3(0) 的分布,因为我们不知道整个NY群体中 Y^3(0) 的分布(我们只能看到那些被分配到控制组的个体的 Y^3(0))。
解决思路:我们可以从PS样本中直接估计 Y^3(0) 的分布,因为PS中处理是随机的:Y^3(0) | G=PS 的分布就是观测到的控制组 Y^3 | W=0, G=PS 的分布。然后,我们把这个分布当作NY群体中 Y^3(0) 的边缘分布(由CVE保证)。这样,我们就可以先在NY数据中估计 E[Y^8 | W=0, Y^3(0), G=NY],然后利用从PS学到的 Y^3(0) 的分布对其进行积分,从而得到 E[Y^8(0)]。同理可处理 E[Y^8(1)]。
直觉:报告中的 “control function” η_i = F_{Y^3|W,G}(Y_i^3 | W_i, PS) 正是实现了这个分布对齐。它将个体i在NY中的三年级成绩,映射到它在PS样本中对应处理组的成绩分布中的分位数。如果观察数据是无混杂的,η_i 在NY中也应均匀分布。任何偏离均匀分布的部分,就量化了由未观测混杂造成的选择偏差。然后,我们只需要对NY样本,根据 η_i 来调整(例如,分层、匹配、回归),就相当于实现了对潜在混杂的控制。
三、报告主体:讲者讲了什么¶
0) [0:00-0:02] 介绍与背景: Guido Imbens 介绍这是与 Susan Athey 和 Raj Chetty 的合作工作。主旨是系统地结合实验(有小样本、随机分配但只记录短期结果)和观察(有大样本、但存在严重的未观测选择偏差)两类数据,以回答单用哪一类数据都无法回答的问题。他强调这不是唯一的设定,有不同的数据组合场景。
1) [0:02-0:04] 问题设定与直觉: 具体例子是教育领域:处理是“小班教学 vs 常规班”。观察数据(纽约市)显示小班教学与第三和八年级成绩都呈负相关(-0.138 和 -0.118),这看起来有悖常理,提示存在严重选择偏差(如差学校被分配更多小班)。实验数据(Project STAR)显示,随机分配的小班在三年级有显著的正效应(0.201)。问题是:我们想知道合肥小班对八年级成绩的效应,但实验并未跟踪到八年级。如何利用实验数据来校正观察数据对八年级的偏差?
2) [0:12-0:16] 核心假设与动机: 讲者明确,他们解释两个三年级效应之差(实验 0.201 vs 观察 -0.138)的方式是:不是认为纽约和Project STAR的因果效应不同,而是认为纽约存在未观测混杂(而非差异的人群特性)。这是“条件外部有效性”的假设:控制了可观测协变量后,两个样本中的潜在结果分布相同。这个假设虽强但必要,以此将偏差来源归因为混杂。
3) [0:16-0:31] 问题形式化与核心创新: 讲者正式界定了观测方案(见上面的符号表)。他列出一系列假设:
- 假设1(外部有效性,定义性): NY样本是从目标总体中的随机样本。
- 假设2(实验内部效度): PS样本中随机分配(W ⊥⊥ Y(w) | G=PS)。
- 假设3(条件外部有效性): G ⊥⊥ Y^8(0), Y^8(1), Y^3(0), Y^3(1) | X(这里X是协变量,为简洁起见常省略)。即,两个样本的潜在结果分布是相同的(给定X)。
- 假设4(我们不需要): 我们不想假设观察样本中无混杂(W ⊥⊥ Y | X, G=NY),因为那会直接识别问题,而实验数据就变得多余了。
- 假设5(核心创新:潜在无混杂): W ⊥⊥ Y^8(w) | Y^3(w), G=NY。即,一旦控制了三年级成绩(在特定处理水平下的潜在值),处理分配就与八年级潜在结果无关。这抓住了“同时影响短期和长期结果的未观测混杂因素是同一个”这一直觉。
讲者指出,假设5自身无法直接使用,因为要对其条件变量 Y^3(w) 的边缘分布进行积分,就需要知道整个NY群体中该变量的分布,但我们只能观测到分配了该处理的人的值。
4) [0:31-0:39] 识别性定理与三种估计策略:
-
定理1: 在假设1-3和5下,目标参量
τ = E[Y^8(1) - Y^8(0) | G=NY]是点可识别的。 -
策略1 (控制函数法 / Control Function Approach): (这是最核心的估计方法,讲者花了较大篇幅)
- 在PS样本中(按处理组
w分别)估计三年级成绩的累积分布函数:F_{Y^3|W,G}(y | w, PS)。 - 对NY样本中的每个个体,计算控制函数:
η_i = F_{Y^3|W,G}(Y_i^3 | W_i, PS)。 - 这个
η_i在PS样本中应服从均匀分布。在NY样本中,如果处理是支持组合的(无混杂),η_i也应均匀分布。任何偏离都捕捉了NY中的选择偏差。 - 潜在无混杂假设意味着,一旦条件于
η_i,处理分配就与Y^8无关。因此,可将η_i视为一个充分降维的控制变量。 - 接下来就回到了标准的“基于无混杂性”的因果推断问题:
E[Y^8(1) - Y^8(0) | G=NY] = E[ E[Y^8 | W=1, η, G=NY] - E[Y^8 | W=0, η, G=NY] ],之后可用倾向得分加权、回归调整或双重稳健方法估计。
- 在PS样本中(按处理组
-
策略2 (插补法 / Imputation Approach): 在NY数据中建立
Y^8对(Y^3, W)的回归模型,然后用该模型为PS样本中的个体插补缺失的Y^8,最后在PS样本中直接比较插补后的处理组和控制组均值。 -
策略3 (加权法 / Weighting Approach): 对NY样本中的处理组和控制组分别构造权重,使得加权后的NY样本中,三年级成绩(按处理水平)的分布与PS样本中相应处理组的分布完全匹配。然后,将这些权重应用到NY样本的八年级成绩上,计算处理效应。
讲者强调,这三种策略在大样本下是渐近等价的。
5) [0:39-0:49] 实证结果展示: - 主要结果表:未调整的NY观察效应(-0.118)调整为0.057。 - 验证:Project STAR 实际上跟踪到了八年级,其真实实验效应为0.085(标准误0.030)。调整后的估计(0.057)非常接近,且符号正确,说明该方法在该验证性环境中工作良好。 - 扩展图:展示了三年级到八年级每一年级的效应。蓝色的实验估计、橙色的新观测估计(全部为负)、紫色的校正后观测估计,后者几乎完美地追踪了真实的实验估计。这提供了强有力的证据,表明该方法能有效校正全线结果上的选择偏差。
6) [0:49-1:00] 讨论与问答:
-
Nathan Kallus 的讨论:他首先将本工作放在更广阔的数据结合问题背景下:
- 识别问题(相同缺失模式,不同假设):
- Athey et al. (2021) 的“替代指标方法” vs 本报告的“潜在无混杂”。
- Kallus & Mao (2020) 假设整个合并样本的无混杂性。
- 一个更早的变形(Kallus, Puli, & Shalit, 2018)是通过“实验锚定”识别处理效应。
- 效率提升(相同缺失模式,但出发点是识别已存在,目的是减小方差):
- Kallus & Mao (2020) 与 Kallus 在本讨论中提到的未发表工作,探讨了当“标记”(有长期数据)的小型随机实验存在时,如何利用“未标记”(无长期数据)的大型数据来提高效率。这与本报告的识别问题有本质区别。
- 部分识别:
- 引用 Fan et al. (2014, Econometrica) 和 Kallus 等人的公平性边界工作,说明当强识别假设不现实时,如何利用辅助数据收紧部分识别界限。
- 一个重要贡献:Kallus 提到他推导了该问题的有效影响函数,这使得可以用双重/去偏机器学习方法进行半参数有效估计,并获得易得的、考虑所有不确定性的置信区间(而原论文可能因
η的估计在第一步,导致标准误的构造不直接)。
- 识别问题(相同缺失模式,不同假设):
-
问答环节 (由讨论引出):
- 一个重要问题:“这些假设是否有可检验的推论?”
- Imbens 回答:没有。该设定没有可检验的推论。这意味着你不能通过数据本身来验证或反驳这套假设。这是采用这个框架时必须付出的代价。他暗示,如果假设不成立,可能需要转向部分识别。
- 一个重要问题:“这些假设是否有可检验的推论?”
四、对应论文与开放问题¶
(a) 对应论文: - 主要论文:Athey, S., Chetty, R., & Imbens, G. (2020). Combining Experimental and Observational Data to Estimate Treatment Effects on Long Term Outcomes. arXiv preprint arXiv:2006.09676. (改论文是这报告的核心依据) - 相关论文: - Athey, S., Chetty, R., Imbens, G. W., & Kang, H. (2019). The surrogate index: Combining short-term proxies to estimate long-term treatment effects more rapidly and precisely. NBER working paper. (代理指标的背景工作,数据模式不同:实验有长期结局但观察无处理) - Kallus, N., & Mao, X. (2020). On the role of surrogates in the efficient estimation of treatment effects with limited outcome data. arXiv preprint arXiv:2003.12408. (Kallus 讨论中提到的与之不同框架的论文)
(b) 开放问题:
1. 效率理论与可靠推断 (来自讨论中Nathan Kallus的评论 [0:49-0:52]):在估计 η_i(第一步)和估计 τ(第二步)时,如何构造一个一次性、半参数有效且对 η 的估计不敏感的估计量和置信区间?讲者承认他们没有做。这对于实际应用至关重要。
2. 敏感度分析 (Imbens回答无可检验推论时暗示 [1:00]):既然假设不可检验,那么当“潜在无混杂”或“条件外部有效性”被适度违反时,τ̂ 会受到多大影响?能否构造一个敏感度分析框架,量化关键假设的违反程度对最终估计的影响?
3. 处理多重/高维替代结局 (报告中只讨论了单维 Y^3,但讲者在前言提到“多重次级结局是个挑战” [0:17]):当有多个短期结果如三、四、五年级成绩时,如何扩展该框架?控制函数法天然适用于高维吗?或者需要降维技术?
4. 软件实现的问题:对于研究者陈星宇的统计学-计算权衡和U统计量兴趣,可以问:当对高维替代结局进行匹配或加权以对齐分布时,是否存在计算-统计的权衡?例如,强行让 η 在观察样本中均匀分布是否会导致高方差?如何设计一个高效的、能处理大 N_{NY} 且避免维度诅咒的算法?这属于软件的数值实现和估计量的计算复杂性问题。
Maintained by 陈星宇 · Homepage · Source on GitHub