Program Evaluation with Remotely Sensed Outcomes¶

讲者: Davide Viviano
讨论人: Hyunseung Kang
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-21
主题: 因果推断
视频: https://youtu.be/PUod1h8OywA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2411.10959 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

子方向：用不完美的代理变量（遥感变量）进行程序评估——数据融合 × 测量误差 × 因果推断。

这个子方向追问的是：当实验（RCT）中研究者无法观测到关心的经济结果（如消费、森林覆盖），而只能低成本获得一个高维、有噪音的代理变量（如卫星图像、手机信令数据）时，能否以及如何合理地估计因果效应？核心困境是：代理变量是结果的后置变量（post-outcome），即 Y → R，而不是传统代理变量设定中的前置/同时引入。研究者手中往往有两套数据：一套是观测性研究（同时观测 Y 和 R），另一套是实验（只观测 D 和 R）。

奠基与主流路线： - 数据融合的经典路线：Cross & Manski (2002), Molinari & Peski (2006), D'Haultfoeuille, Gaillac & Maurel (2024), Bareinboim & Pearl (2016) 等研究 "long and short regression" 问题，即在主研究中某些协变量缺失，需从辅助数据集中借信息。但多数是协变量缺失，而非结果缺失。 - 代理（surrogate）文献路线：Athey et al. (2024), Kallus & Mao (2022), Imbens et al. (2024), Ghassami et al. (2022) 研究如何用短期替代终点推断长期效应（D → S → Y，S 是介于 D 和 Y 之间的中介）。该路线中代理变量是前因（pre-outcome），而非后果（post-outcome）。 - 测量误差与ML插补路线：经典ME文献 (Hu, 2008; Molinari, 2008; Schennach, 2020) 假设测量误差结构已知或存在重复测量；ML 插补工作 (如 Egami et al., 2024; Zhang et al., 2023) 关注缺失协变量或结果被部分观测，但研究者在主研究中通常至少能观测到部分结果。 - 生成模型路线：Gentzkow, Shapiro & Taddy (2019) 等要求正确指定 R 与 Y 之间的生成机制。

当前 frontier： 这个子方向的前沿正在探索如何利用高维、廉价但噪音的「后置」代理变量，在不对 R 的生成机制做参数假设的前提下，实现 n^{-1/2} 一致的推断。本报告就是在这一前沿上的一个推进，它把问题重新框架为一个条件矩约束下的 IV 问题，提出一个仅依赖可观测数据的非参数识别公式，并通过构造「最优表示」的方法实现半参数效率，且不限制处理 R 的 ML 算法。

报告所站的位置： 站在一个交叉点上——数据融合（实验+观测）与测量误差/代理变量的交叉。其独特之处在于： 1. 结果 Y 在实验中完全缺失（而不是部分缺失或协变量缺失）； 2. R 是 Y 的后果（Y → R），因此简单的回归预测（Y ~ R）会带来衰减偏误； 3. 不要求指定 R|Y 的生成模型； 4. 提出可检验的模型假设（稳定性）。

注意：此方向与更加成熟的高维统计性质（minimax rate、随机矩阵）和理论计算机视角（计算复杂度）并未直接对话，也没有使用 high-order U-statistics、einsum/tensor network 等工具。重心在识别 + 半参数推断本身。

二、最小内核 / 一个最简例子¶

符号与模型： - D ∈ {0, 1}：二元处理。 - Y(1), Y(0)：潜在结果。观测结果 Y = D Y(1) + (1-D) Y(0)。 - S ∈ {e, o}：样本来源，e 实验，o 观测研究。 - R ∈ ℝ^p（常为高维）：遥感变量（如夜光、卫星图像）。 - 实验假设完全随机化：D ⟂ {Y(1), Y(0)} | S=e。 - 关键假设：稳定性：R | Y, S=e 的分布与 R | Y, S=o 的分布相同（条件交换性/可运输性）。

可观测数据： (D_i, R_i, S_i, Y_i * 1{S_i=o}) 独立同分布，i=1,...,n。Y 只在观测研究中被观测到。目标参数：θ = E[Y(1) - Y(0) | S=e]（实验中的 ATE）。

最简例子（d=1, 线性高斯, 无直接效应）： - 数据生成过程： - 实验中：Y = θ · D + ε（ε 均值为0，与 D 独立）。 - 观测研究中：只有对照组（D=0，或 D 被忽略）。 - 共同模型：R = β · Y + ν，其中 ν 是均值为0的独立噪声。稳定性成立。 - 行不通的方法（直接预测）：从观测研究中学习 E[Y|R] = γ·R（通过线性回归，γ = Cov(Y,R)/Var(R) = β Var(Y) / (β² Var(Y) + Var(ν))）。然后，在实验中用 E[Y|R] 代替 Y：E[E[Y|R] | D=1, S=e] - E[E[Y|R] | D=0, S=e] = γ·(E[R|D=1, S=e] - E[R|D=0, S=e])。代入 R = βY + ν，得 θ̂_pseudo = ρ² · θ，其中 ρ² = Corr(Y,R)²。这就是经典的衰减偏误（attenuation bias）。当 R 与 Y 无关时（ρ²=0），θ̂_pseudo → 0，而非应有的「无法识别」。

可行的识别思路（比率形式）：报告的核心识别结果（对二元 Y）可以写成如下形式（时间 [0:30:11] 至 [0:31:09]）：对任意的函数 h(R)（如平均夜光强度），有：
```
θ = E[ (D - π) · h(R) | S=e ] / E[ (Y - μ) · h(R) | S=o ]
```
其中 π = P(D=1|S=e)（处理的倾向性），μ = E[Y|S=o]（观测研究中 Y 的无条件均值）。解释：分子是在实验中处理 D 与 h(R) 的协方差（反映 D 与 R 的关联）；分母是在观测研究中，Y 与 h(R) 的协方差（反映 Y 与 R 的关联）。通过把处理引起 R 的变化「除以」结果引起 R 的变化，得到一个完整的 θ，消除了衰减偏误。

三、报告主体：讲者讲了什么¶

[0:00:11 - 0:02:58] 问题动机与背景 - 讲者从实验普及但结果难获取切入，引出遥感变量（夜光、卫星图像、手机数据）作为廉价且易获取的替代。 - 举例：世界银行的夜光数据平台；环境经济学中的Cash-for-Carbon项目（使用卫星图像监督森林覆盖）；现金转移项目。也提到失败案例（COVID救助项目使用手机信令数据未能恢复真实效应）。

[0:05:55 - 0:08:52] 论文核心思路 - 核心设定：观测研究有 (Y, R)，实验有 (D, R)，Y 在实验中完全缺失。 - R 是 post-outcome (Y → R)：现金转移影响消费，消费影响夜光。 - 关键变化：不指定 R|Y 的生成机制，不要求 R 的结构方程。

[0:09:55 - 0:11:29] 与现有文献的定位 - 明确区分于「长/短回归」数据融合（协变量缺失）、代理变量方法（短期 → 长期、预-outcome）、以及测量误差文献（结果在实验中部分观测）。

[0:11:30 - 0:17:00] 设定与假设（正式化） - 实验：D 随机化，有重叠。观测研究：Y 的支撑在实验与观测研究中通用。 - 关键假设：稳定性——R | Y, S=e 与 R | Y, S=o 相同；若观测研究中无受处理单位（D=1），则需要「无直接效应」D → R | Y。 - 可检验：这些条件联合时可被检验（后续通过不同 h(R) 估计的 θ 应相同）。

[0:18:06 - 0:23:26] 第一个观察：直接预测是有偏的 - 展示了一个简单线性模型 Y = θD + ε，R = βY + ν，那么 E[E[Y|R] | D=1] - E[E[Y|R] | D=0] = ρ²θ，其中 ρ² = Corr(Y,R)²。当 R 与 Y 无关时，估值为0而非不可识别。 - 将此称为「逆回归（inverse regression）」的偏误，提醒实践者。

E[ 1{D=1, S=e} - 1{D=0, S=e} - θ · (1{Y=1} - 1{Y=0})  |  R ]  = 0

[0:30:11 - 0:32:05] 识别结果：比率形式 + 可检验性 - 从条件矩可得：对任意 h(R)（如平均夜光），θ = Cov(D, h(R) | S=e) / Cov(Y, h(R) | S=o)（正交化后的比率）。 - 由于 θ 不应依赖于 h(R) 的选择，如果对不同的 h(R) 得到显著不同的 θ̂，则说明模型假设（稳定性/无直接效应）可能不成立 -> 可检验性。

[0:32:21 - 0:35:14] 最优表示 (Optimal H) - 讲者把问题类比为 IV 回归，其中 (1{Y=1} - 1{Y=0}) 是内生的，h(R) 是工具变量。 - 最优 h(R)（最小方差） 是 E[(1{Y=1} - 1{Y=0}) | R] / Var(ϵ | R)，其中 ϵ 是 (1{Y=1} - 1{Y=0}) 对 h(R) 回归的残差。 - 实际操作：用观测研究学习 P(Y=1|R)；用实验学习 P(D=1|S=e, R)（但 R 和 D 在实验中独立，只需 P(D=1|S=e) = π）；组合得到最优表示 Ĥ(R)。

[0:35:52 - 0:36:49] 实践流程与警告 - 第一步：确认 Y 为二元或离散。 - 第二步：在观测数据中训练 ML 模型预测 P(Y|R)。 - 警告1：弱识别——若 Ĥ(R) 与 Y 几乎无关，方差将趋于无穷。 - 警告2：稳定性检验——改变 h(R) 的构造方式，结果应该稳定。 - 警告3：直接效应——若认为存在 D → R | Y，则必须观测到一部分受处理的 Y。

[0:36:51 - 0:41:21] Q&A：关于混淆、直接效应、R 的形式 - 问：如果 Y 和 R 之间存在双向因果（如植被影响消费，消费影响植被）？答：此时 DAG 有环，无法解决，但实践中可借助面板数据的时间维度阐明方向。 - 问：R 可以是非原始像素而是 ML 模型的输出吗（如森林/牧场分类标签）？答：可以。识别对所有 R 都成立；只要这个总结对 Y 有预测力即可。 - 问：关于未被测量的 Y 与 R 之间的混淆？答：报告框架中明确排除了这种混淆（稳定性假设下）。

[0:41:22 - 0:47:10] 实证应用：SmartCards 实验 - 背景：印度 SmartCards 实验（Muralidharan et al., 2023），随机化到 mandals（类似县）。 - 用 village-level 卫星图像 + 4,000 维描述子。 - Y 为二元：村均消费是否低于第一四分位数（以及其他贫困指标）。 - 设计：用一半实验中的结果数据 + 所有卫星图像，与使用全部结果数据作比较。 - 结果：尽管只用了一半的结果样本，通过结合卫星图像，点估计与全样本回归一致，且置信区间更窄（因为卫星图像增加了额外的信息）。

[0:46:14 - 0:47:05] 总结与扩展 - 关于 Y 连续/多值：识别需要更强的秩条件（R 与不同 Y 值变化的协变方式）。 - 关于直接效应与部分观测结果：允许更一般的框架（如部分实验单位观测到 Y）。 - 开放问题：溢出效应、高维结果的推断、测量噪声的进一步处理。

四、对应论文与开放问题¶

(a) 对应论文 - arXiv: 2411.10959 (确认) - 题目：Program Evaluation with Remotely Sensed Outcomes - 作者：Ashesh Rambachan (MIT), Rahul Singh (Harvard), Davide Viviano (Harvard)

(b) 开放问题（扎根于转写与讨论者环节） 1. 允许未测量的 Y-R 混淆：讨论者 Hyunseung Kang 明确提问是否允许 Y 与 R 之间的 unmeasured confounder（时间 [0:55:29]）。讲者回应称“we rule that out”（[0:58:56]）。将此设定推广到允许 confounders 是个开放问题。 2. 多值或连续 Y 的充分识别条件：讲者在末尾提到当 Y 不是二元时，识别需要更强的“rank restriction”，但没有展开（[0:46:13]）。如何为一般 Y 给出可行的秩条件和有效的推断是一个开放问题。 3. 高维 R 中的变量选择与效率：讲者的最优表示用 ML 学习 E[Y|R] 和 Var(ϵ|R)。当 R 的维数远大于样本量时，如何保证这些 ML 估计的收敛速度不破坏 n^{-1/2} 推断？（报告中提到可以用任意 ML，但仅依赖于“足够好的相关性”而非具体的收敛条件——一个严格的率条件仍为开放问题。） 4. 处理复数结果（面板/多期）：讲者提到可用面板来缓解循环因果问题（[0:38:17]），但未提供面板设置下的识别公式和推断方法。如何将框架扩展到面板数据（带 time fixed effects）并在存在滞后期效应（lagged effect of Y on R）时保持可识别，是自然的扩展方向（时间 [0:38:17] 附近提及）。 5. 使用交叉拟合（cross-fitting）以突破 Donsker 条件：报告中的估计用的是 plug-in，但未提及 sample splitting / cross-fitting——这是处理 ML 估计时实现 n^{-1/2} 推断的标准技术。讨论或论文可能的扩展是引入 cross-fitting 语句以降低对 ML 算法复杂度的要求（时间 [0:35:01] 讲者提到“you can just do that”，但未涉及 cross-fitting）。

Maintained by 陈星宇 · Homepage · Source on GitHub