Using Experiments to Correct for Selection in Observational Studies¶

讲者: Guido Imbens
讨论人: Nathan Kallus
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-06-15
主题: 因果推断
视频: https://youtu.be/5qs2UV_u2vw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于结合实验数据与观察数据估计因果效应这一子方向。核心问题是：当仅用观察数据估计因果效应时，因未观测混杂而不可信（内部效度低），而此时恰好存在一个实验数据集，但它没有记录我们真正关心的长期结局（如八年级成绩、劳动力市场结果），它只记录了短期/替代结局（如三年级成绩）。如何系统性地利用实验数据来“校正”观察数据的偏差，从而对长期结局得到可信的因果估计？

该子方向有几个不同的分支和奠基工作： - 替代指标法 (Surrogacy / Surrogate Index)：Athey, Chetty, Imbens & Kang (2019) 尝试用多个短期代理变量来估计长期效应，但需要“代理条件独立性”（treatment only affects the primary outcome through the surrogate），该假设在存在未观测混杂（如智力）时很脆弱。这场报告的一个关键贡献就是完全放弃了代理条件独立性。 - 实验数据作为“锚点”校正观察偏差：Kallus, Puli & Shalit (2018) 提出“通过实验锚定去除隐藏混杂”，其数据缺失模式与本报告类似但假设不同。Kallus & Mao (2020) 则假设无混杂性在整个合并样本中成立（而不是条件外部有效性）。本报告的框架与之不同。 - 结合观察与实验数据的部分识别：例如，Rosenman et al. (2018, 2020) 使用收缩估计量结合两类数据；更早的文献如 Fraker & Maynard (Trimmed means) 以及 Hotz et al. (社会实验) 通常采用简单的“差异中差异”思路。本报告给出了一个点识别且基于分布对齐的通用方法。

本场报告站在的位置是：在观察数据存在未观测混杂、实验数据只记录短期结果（但分配是随机的）的特定缺失数据模式下，通过“潜在无混杂”这一核心假设（即：同时影响短期和长期结果的未观测混杂因素是相同的），实现了对长期效应的点识别。它给出了清晰的可识别性条件，三种等价的估计策略，以及在一个经典教育数据集（Project STAR + 纽约观察数据）上的成功验证（调整后的八年级效应估计值0.057，非常接近实验真实值0.085）。这些工作对应论文 Athey, Chetty & Imbens (2020, arXiv:2006.09676)。

二、最小内核 / 一个最简例子¶

符号与设定¶

样本：有两个独立样本。
- PS (Project STAR): 实验样本，N_{PS} 个学生。
- NY (New York): 观察样本，N_{NY} 个学生。
可观测变量：
- G_i ∈ {PS, NY}: 来源样本指示。
- W_i ∈ {0, 1}: 处理指示（小班/常规班）。
- Y_i^8: 主结局（八年级考试成绩），仅在 NY 样本中观测。
- Y_i^3: 次结局（三年级考试成绩），在两个样本中都观测。
潜在结果（潜在不可观测量）：
- Y_i^8(w): 若处理取值为 w 时的八年级成绩。
- Y_i^3(w): 若处理取值为 w 时的三年级成绩。
目标参量：τ = E[Y_i^8(1) - Y_i^8(0) | G_i = NY]，即纽约学生群体中，小班 vs 普通班对八年级成绩的平均因果效应。

一个最简例子（d=1, 单一替代结局）¶

假设所有来自NY和PS的个体，其潜在结果 Y_i^3(1), Y_i^3(0) 的分布完全相同（条件外部有效性，CVE：G ⊥⊥ Y(0), Y(1)）。在PS样本中，处理是随机分配的（W ⊥⊥ Y^3(w)）。

现在，假设存在一个未观测混杂 U，它同时影响 W（在NY中）和 Y^8(w)。核心假设——潜在无混杂——说的是：一旦我们知道了该个体在“控制”条件下的三年级成绩 Y^3(0)，处理分配就与八年级的潜在结果无关。

W ⊥⊥ Y^8(w) | Y^3(w), G = NY

这意味着，如果在NY中，两个个体有相同的 Y^3(0)（一个潜在的、未受处理影响的成绩），他们被安排进小班或大班的概率相同。

为什么实验数据在这里是关键？ 我们想估计 E[Y^8(1) - Y^8(0) | G=NY]。根据潜在无混杂，这等价于： E[ E[Y^8 | W=1, Y^3(1)=y, G=NY] - E[Y^8 | W=0, Y^3(0)=y, G=NY] ] 但这里 Y^3(1) 和 Y^3(0) 分别是“处理组”和“控制组”的潜在结果，我们无法同时观测到它们。例如，要估计 E[Y^8 | W=0, Y^3(0), G=NY]，我们只能看到那些实际是控制组 (W=0) 的个体的 Y^8 和 Y^3。但我们无法直接边缘化 Y^3(0) 的分布，因为我们不知道整个NY群体中 Y^3(0) 的分布（我们只能看到那些被分配到控制组的个体的 Y^3(0)）。

解决思路：我们可以从PS样本中直接估计 Y^3(0) 的分布，因为PS中处理是随机的：Y^3(0) | G=PS 的分布就是观测到的控制组 Y^3 | W=0, G=PS 的分布。然后，我们把这个分布当作NY群体中 Y^3(0) 的边缘分布（由CVE保证）。这样，我们就可以先在NY数据中估计 E[Y^8 | W=0, Y^3(0), G=NY]，然后利用从PS学到的 Y^3(0) 的分布对其进行积分，从而得到 E[Y^8(0)]。同理可处理 E[Y^8(1)]。

直觉：报告中的 “control function” η_i = F_{Y^3|W,G}(Y_i^3 | W_i, PS) 正是实现了这个分布对齐。它将个体i在NY中的三年级成绩，映射到它在PS样本中对应处理组的成绩分布中的分位数。如果观察数据是无混杂的，η_i 在NY中也应均匀分布。任何偏离均匀分布的部分，就量化了由未观测混杂造成的选择偏差。然后，我们只需要对NY样本，根据 η_i 来调整（例如，分层、匹配、回归），就相当于实现了对潜在混杂的控制。

三、报告主体：讲者讲了什么¶

0) [0:00-0:02] 介绍与背景： Guido Imbens 介绍这是与 Susan Athey 和 Raj Chetty 的合作工作。主旨是系统地结合实验（有小样本、随机分配但只记录短期结果）和观察（有大样本、但存在严重的未观测选择偏差）两类数据，以回答单用哪一类数据都无法回答的问题。他强调这不是唯一的设定，有不同的数据组合场景。

1) [0:02-0:04] 问题设定与直觉： 具体例子是教育领域：处理是“小班教学 vs 常规班”。观察数据（纽约市）显示小班教学与第三和八年级成绩都呈负相关（-0.138 和 -0.118），这看起来有悖常理，提示存在严重选择偏差（如差学校被分配更多小班）。实验数据（Project STAR）显示，随机分配的小班在三年级有显著的正效应（0.201）。问题是：我们想知道合肥小班对八年级成绩的效应，但实验并未跟踪到八年级。如何利用实验数据来校正观察数据对八年级的偏差？

2) [0:12-0:16] 核心假设与动机： 讲者明确，他们解释两个三年级效应之差（实验 0.201 vs 观察 -0.138）的方式是：不是认为纽约和Project STAR的因果效应不同，而是认为纽约存在未观测混杂（而非差异的人群特性）。这是“条件外部有效性”的假设：控制了可观测协变量后，两个样本中的潜在结果分布相同。这个假设虽强但必要，以此将偏差来源归因为混杂。

3) [0:16-0:31] 问题形式化与核心创新： 讲者正式界定了观测方案（见上面的符号表）。他列出一系列假设： - 假设1（外部有效性，定义性）: NY样本是从目标总体中的随机样本。 - 假设2（实验内部效度）: PS样本中随机分配（W ⊥⊥ Y(w) | G=PS）。 - 假设3（条件外部有效性）: G ⊥⊥ Y^8(0), Y^8(1), Y^3(0), Y^3(1) | X（这里X是协变量，为简洁起见常省略）。即，两个样本的潜在结果分布是相同的（给定X）。 - 假设4（我们不需要）： 我们不想假设观察样本中无混杂（W ⊥⊥ Y | X, G=NY），因为那会直接识别问题，而实验数据就变得多余了。 - 假设5（核心创新：潜在无混杂）: W ⊥⊥ Y^8(w) | Y^3(w), G=NY。即，一旦控制了三年级成绩（在特定处理水平下的潜在值），处理分配就与八年级潜在结果无关。这抓住了“同时影响短期和长期结果的未观测混杂因素是同一个”这一直觉。

讲者指出，假设5自身无法直接使用，因为要对其条件变量 Y^3(w) 的边缘分布进行积分，就需要知道整个NY群体中该变量的分布，但我们只能观测到分配了该处理的人的值。

4) [0:31-0:39] 识别性定理与三种估计策略：

定理1: 在假设1-3和5下，目标参量 τ = E[Y^8(1) - Y^8(0) | G=NY] 是点可识别的。
策略1 (控制函数法 / Control Function Approach): (这是最核心的估计方法，讲者花了较大篇幅)
1. 在PS样本中（按处理组 w 分别）估计三年级成绩的累积分布函数：F_{Y^3|W,G}(y | w, PS)。
2. 对NY样本中的每个个体，计算控制函数：η_i = F_{Y^3|W,G}(Y_i^3 | W_i, PS)。
3. 这个 η_i 在PS样本中应服从均匀分布。在NY样本中，如果处理是支持组合的（无混杂），η_i 也应均匀分布。任何偏离都捕捉了NY中的选择偏差。
4. 潜在无混杂假设意味着，一旦条件于 η_i，处理分配就与 Y^8 无关。因此，可将 η_i 视为一个充分降维的控制变量。
5. 接下来就回到了标准的“基于无混杂性”的因果推断问题：E[Y^8(1) - Y^8(0) | G=NY] = E[ E[Y^8 | W=1, η, G=NY] - E[Y^8 | W=0, η, G=NY] ]，之后可用倾向得分加权、回归调整或双重稳健方法估计。
策略2 (插补法 / Imputation Approach): 在NY数据中建立 Y^8 对 (Y^3, W) 的回归模型，然后用该模型为PS样本中的个体插补缺失的 Y^8，最后在PS样本中直接比较插补后的处理组和控制组均值。
策略3 (加权法 / Weighting Approach): 对NY样本中的处理组和控制组分别构造权重，使得加权后的NY样本中，三年级成绩（按处理水平）的分布与PS样本中相应处理组的分布完全匹配。然后，将这些权重应用到NY样本的八年级成绩上，计算处理效应。

讲者强调，这三种策略在大样本下是渐近等价的。

5) [0:39-0:49] 实证结果展示： - 主要结果表：未调整的NY观察效应（-0.118）调整为0.057。 - 验证：Project STAR 实际上跟踪到了八年级，其真实实验效应为0.085（标准误0.030）。调整后的估计（0.057）非常接近，且符号正确，说明该方法在该验证性环境中工作良好。 - 扩展图：展示了三年级到八年级每一年级的效应。蓝色的实验估计、橙色的新观测估计（全部为负）、紫色的校正后观测估计，后者几乎完美地追踪了真实的实验估计。这提供了强有力的证据，表明该方法能有效校正全线结果上的选择偏差。

6) [0:49-1:00] 讨论与问答：

Nathan Kallus 的讨论：他首先将本工作放在更广阔的数据结合问题背景下：
- 识别问题（相同缺失模式，不同假设）：
  - Athey et al. (2021) 的“替代指标方法” vs 本报告的“潜在无混杂”。
  - Kallus & Mao (2020) 假设整个合并样本的无混杂性。
  - 一个更早的变形（Kallus, Puli, & Shalit, 2018）是通过“实验锚定”识别处理效应。
- 效率提升（相同缺失模式，但出发点是识别已存在，目的是减小方差）：
  - Kallus & Mao (2020) 与 Kallus 在本讨论中提到的未发表工作，探讨了当“标记”（有长期数据）的小型随机实验存在时，如何利用“未标记”（无长期数据）的大型数据来提高效率。这与本报告的识别问题有本质区别。
- 部分识别：
  - 引用 Fan et al. (2014, Econometrica) 和 Kallus 等人的公平性边界工作，说明当强识别假设不现实时，如何利用辅助数据收紧部分识别界限。
- 一个重要贡献：Kallus 提到他推导了该问题的有效影响函数，这使得可以用双重/去偏机器学习方法进行半参数有效估计，并获得易得的、考虑所有不确定性的置信区间（而原论文可能因 η 的估计在第一步，导致标准误的构造不直接）。
问答环节 (由讨论引出)：
- 一个重要问题：“这些假设是否有可检验的推论？”
  - Imbens 回答：没有。该设定没有可检验的推论。这意味着你不能通过数据本身来验证或反驳这套假设。这是采用这个框架时必须付出的代价。他暗示，如果假设不成立，可能需要转向部分识别。

四、对应论文与开放问题¶

(a) 对应论文： - 主要论文：Athey, S., Chetty, R., & Imbens, G. (2020). Combining Experimental and Observational Data to Estimate Treatment Effects on Long Term Outcomes. arXiv preprint arXiv:2006.09676. (改论文是这报告的核心依据) - 相关论文： - Athey, S., Chetty, R., Imbens, G. W., & Kang, H. (2019). The surrogate index: Combining short-term proxies to estimate long-term treatment effects more rapidly and precisely. NBER working paper. (代理指标的背景工作，数据模式不同：实验有长期结局但观察无处理) - Kallus, N., & Mao, X. (2020). On the role of surrogates in the efficient estimation of treatment effects with limited outcome data. arXiv preprint arXiv:2003.12408. (Kallus 讨论中提到的与之不同框架的论文)

(b) 开放问题： 1. 效率理论与可靠推断 (来自讨论中Nathan Kallus的评论 [0:49-0:52])：在估计 η_i（第一步）和估计 τ（第二步）时，如何构造一个一次性、半参数有效且对 η 的估计不敏感的估计量和置信区间？讲者承认他们没有做。这对于实际应用至关重要。 2. 敏感度分析 (Imbens回答无可检验推论时暗示 [1:00])：既然假设不可检验，那么当“潜在无混杂”或“条件外部有效性”被适度违反时，τ̂ 会受到多大影响？能否构造一个敏感度分析框架，量化关键假设的违反程度对最终估计的影响？ 3. 处理多重/高维替代结局 (报告中只讨论了单维 Y^3，但讲者在前言提到“多重次级结局是个挑战” [0:17])：当有多个短期结果如三、四、五年级成绩时，如何扩展该框架？控制函数法天然适用于高维吗？或者需要降维技术？ 4. 软件实现的问题：对于研究者陈星宇的统计学-计算权衡和U统计量兴趣，可以问：当对高维替代结局进行匹配或加权以对齐分布时，是否存在计算-统计的权衡？例如，强行让 η 在观察样本中均匀分布是否会导致高方差？如何设计一个高效的、能处理大 N_{NY} 且避免维度诅咒的算法？这属于软件的数值实现和估计量的计算复杂性问题。

Maintained by 陈星宇 · Homepage · Source on GitHub