跳转至

Program Evaluation with Remotely Sensed Outcomes

讲者: Davide Viviano
讨论人: Hyunseung Kang
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-21
主题: 因果推断
视频: https://youtu.be/PUod1h8OywA · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2411.10959 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

子方向:用不完美的代理变量(遥感变量)进行程序评估——数据融合 × 测量误差 × 因果推断。

这个子方向追问的是:当实验(RCT)中研究者无法观测到关心的经济结果(如消费、森林覆盖),而只能低成本获得一个高维、有噪音的代理变量(如卫星图像、手机信令数据)时,能否以及如何合理地估计因果效应?核心困境是:代理变量是结果的后置变量(post-outcome),即 Y → R,而不是传统代理变量设定中的前置/同时引入。研究者手中往往有两套数据:一套是观测性研究(同时观测 YR),另一套是实验(只观测 DR)。

奠基与主流路线: - 数据融合的经典路线:Cross & Manski (2002), Molinari & Peski (2006), D'Haultfoeuille, Gaillac & Maurel (2024), Bareinboim & Pearl (2016) 等研究 "long and short regression" 问题,即在主研究中某些协变量缺失,需从辅助数据集中借信息。但多数是协变量缺失,而非结果缺失。 - 代理(surrogate)文献路线:Athey et al. (2024), Kallus & Mao (2022), Imbens et al. (2024), Ghassami et al. (2022) 研究如何用短期替代终点推断长期效应(D → S → YS 是介于 DY 之间的中介)。该路线中代理变量是前因(pre-outcome),而非后果(post-outcome)。 - 测量误差与ML插补路线:经典ME文献 (Hu, 2008; Molinari, 2008; Schennach, 2020) 假设测量误差结构已知或存在重复测量;ML 插补工作 (如 Egami et al., 2024; Zhang et al., 2023) 关注缺失协变量或结果被部分观测,但研究者在主研究中通常至少能观测到部分结果。 - 生成模型路线:Gentzkow, Shapiro & Taddy (2019) 等要求正确指定 R 与 Y 之间的生成机制。

当前 frontier: 这个子方向的前沿正在探索如何利用高维、廉价但噪音的「后置」代理变量,在不对 R 的生成机制做参数假设的前提下,实现 n^{-1/2} 一致的推断。本报告就是在这一前沿上的一个推进,它把问题重新框架为一个条件矩约束下的 IV 问题,提出一个仅依赖可观测数据的非参数识别公式,并通过构造「最优表示」的方法实现半参数效率,且不限制处理 R 的 ML 算法。

报告所站的位置: 站在一个交叉点上——数据融合(实验+观测)与测量误差/代理变量的交叉。其独特之处在于: 1. 结果 Y 在实验中完全缺失(而不是部分缺失或协变量缺失); 2. R 是 Y 的后果Y → R),因此简单的回归预测(Y ~ R)会带来衰减偏误; 3. 不要求指定 R|Y 的生成模型; 4. 提出可检验的模型假设(稳定性)。

注意:此方向与更加成熟的高维统计性质(minimax rate、随机矩阵)和理论计算机视角(计算复杂度)并未直接对话,也没有使用 high-order U-statistics、einsum/tensor network 等工具。重心在识别 + 半参数推断本身。

二、最小内核 / 一个最简例子

符号与模型: - D ∈ {0, 1}:二元处理。 - Y(1), Y(0):潜在结果。观测结果 Y = D Y(1) + (1-D) Y(0)。 - S ∈ {e, o}:样本来源,e 实验,o 观测研究。 - R ∈ ℝ^p(常为高维):遥感变量(如夜光、卫星图像)。 - 实验假设完全随机化:D ⟂ {Y(1), Y(0)} | S=e。 - 关键假设:稳定性R | Y, S=e 的分布与 R | Y, S=o 的分布相同(条件交换性/可运输性)。

可观测数据: (D_i, R_i, S_i, Y_i * 1{S_i=o}) 独立同分布,i=1,...,nY 只在观测研究中被观测到。目标参数:θ = E[Y(1) - Y(0) | S=e](实验中的 ATE)。

最简例子(d=1, 线性高斯, 无直接效应): - 数据生成过程: - 实验中:Y = θ · D + εε 均值为0,与 D 独立)。 - 观测研究中:只有对照组(D=0,或 D 被忽略)。 - 共同模型:R = β · Y + ν,其中 ν 是均值为0的独立噪声。稳定性成立。 - 行不通的方法(直接预测):从观测研究中学习 E[Y|R] = γ·R(通过线性回归,γ = Cov(Y,R)/Var(R) = β Var(Y) / (β² Var(Y) + Var(ν)))。然后,在实验中用 E[Y|R] 代替 YE[E[Y|R] | D=1, S=e] - E[E[Y|R] | D=0, S=e] = γ·(E[R|D=1, S=e] - E[R|D=0, S=e])。代入 R = βY + ν,得 θ̂_pseudo = ρ² · θ,其中 ρ² = Corr(Y,R)²。这就是经典的衰减偏误(attenuation bias)。当 RY 无关时(ρ²=0),θ̂_pseudo → 0,而非应有的「无法识别」。

  • 可行的识别思路(比率形式): 报告的核心识别结果(对二元 Y)可以写成如下形式(时间 [0:30:11][0:31:09]): 对任意的函数 h(R)(如平均夜光强度),有:
    θ = E[ (D - π) · h(R) | S=e ] / E[ (Y - μ) · h(R) | S=o ]
    
    其中 π = P(D=1|S=e)(处理的倾向性),μ = E[Y|S=o](观测研究中 Y 的无条件均值)。 解释:分子是在实验中处理 Dh(R) 的协方差(反映 DR 的关联);分母是在观测研究中,Yh(R) 的协方差(反映 YR 的关联)。通过把处理引起 R 的变化「除以」结果引起 R 的变化,得到一个完整的 θ,消除了衰减偏误。

三、报告主体:讲者讲了什么

[0:00:11 - 0:02:58] 问题动机与背景 - 讲者从实验普及但结果难获取切入,引出遥感变量(夜光、卫星图像、手机数据)作为廉价且易获取的替代。 - 举例:世界银行的夜光数据平台;环境经济学中的Cash-for-Carbon项目(使用卫星图像监督森林覆盖);现金转移项目。也提到失败案例(COVID救助项目使用手机信令数据未能恢复真实效应)。

[0:05:55 - 0:08:52] 论文核心思路 - 核心设定:观测研究有 (Y, R),实验有 (D, R)Y 在实验中完全缺失。 - R 是 post-outcome (Y → R):现金转移影响消费,消费影响夜光。 - 关键变化:不指定 R|Y 的生成机制,不要求 R 的结构方程。

[0:09:55 - 0:11:29] 与现有文献的定位 - 明确区分于「长/短回归」数据融合(协变量缺失)、代理变量方法(短期 → 长期、预-outcome)、以及测量误差文献(结果在实验中部分观测)。

[0:11:30 - 0:17:00] 设定与假设(正式化) - 实验:D 随机化有重叠。观测研究:Y 的支撑在实验与观测研究中通用。 - 关键假设:稳定性——R | Y, S=eR | Y, S=o 相同;若观测研究中无受处理单位(D=1),则需要「无直接效应」D → R | Y。 - 可检验:这些条件联合时可被检验(后续通过不同 h(R) 估计的 θ 应相同)。

[0:18:06 - 0:23:26] 第一个观察:直接预测是有偏的 - 展示了一个简单线性模型 Y = θD + εR = βY + ν,那么 E[E[Y|R] | D=1] - E[E[Y|R] | D=0] = ρ²θ,其中 ρ² = Corr(Y,R)²。当 R 与 Y 无关时,估值为0而非不可识别。 - 将此称为「逆回归(inverse regression)」的偏误,提醒实践者。

[0:23:45 - 0:28:52] 识别策略(二元 Y) - 对二元 Y 简化:利用实验中的条件分布 P(R | D, S=e),结合稳定性假设用观测研究中的 P(R | Y, S=o) 替换。 - 取处理组与对照组的差值,得到:E[R | D=1, S=e] - E[R | D=0, S=e] = θ · (E[R | Y=1, S=o] - E[R | Y=0, S=o])。 - 使用 Bayes 规则,将条件概率转化为关于 DS 的指标函数,最终推导出一个不依赖于 R 联合分布的条件矩等式(时间 [0:27:00] 附近):

E[ 1{D=1, S=e} - 1{D=0, S=e} - θ · (1{Y=1} - 1{Y=0})  |  R ]  = 0

[0:30:11 - 0:32:05] 识别结果:比率形式 + 可检验性 - 从条件矩可得:对任意 h(R)(如平均夜光),θ = Cov(D, h(R) | S=e) / Cov(Y, h(R) | S=o)正交化后的比率)。 - 由于 θ 不应依赖于 h(R) 的选择,如果对不同的 h(R) 得到显著不同的 θ̂,则说明模型假设(稳定性/无直接效应)可能不成立 -> 可检验性

[0:32:21 - 0:35:14] 最优表示 (Optimal H) - 讲者把问题类比为 IV 回归,其中 (1{Y=1} - 1{Y=0}) 是内生的,h(R) 是工具变量。 - 最优 h(R)(最小方差)E[(1{Y=1} - 1{Y=0}) | R] / Var(ϵ | R),其中 ϵ(1{Y=1} - 1{Y=0})h(R) 回归的残差。 - 实际操作:用观测研究学习 P(Y=1|R);用实验学习 P(D=1|S=e, R)(但 RD 在实验中独立,只需 P(D=1|S=e) = π);组合得到最优表示 Ĥ(R)

[0:35:52 - 0:36:49] 实践流程与警告 - 第一步:确认 Y 为二元或离散。 - 第二步:在观测数据中训练 ML 模型预测 P(Y|R)。 - 警告1:弱识别——若 Ĥ(R) 与 Y 几乎无关,方差将趋于无穷。 - 警告2:稳定性检验——改变 h(R) 的构造方式,结果应该稳定。 - 警告3:直接效应——若认为存在 D → R | Y,则必须观测到一部分受处理的 Y

[0:36:51 - 0:41:21] Q&A:关于混淆、直接效应、R 的形式 - :如果 Y 和 R 之间存在双向因果(如植被影响消费,消费影响植被)?:此时 DAG 有环,无法解决,但实践中可借助面板数据的时间维度阐明方向。 - :R 可以是非原始像素而是 ML 模型的输出吗(如森林/牧场分类标签)?:可以。识别对所有 R 都成立;只要这个总结对 Y 有预测力即可。 - :关于未被测量的 Y 与 R 之间的混淆?:报告框架中明确排除了这种混淆(稳定性假设下)。

[0:41:22 - 0:47:10] 实证应用:SmartCards 实验 - 背景:印度 SmartCards 实验(Muralidharan et al., 2023),随机化到 mandals(类似县)。 - 用 village-level 卫星图像 + 4,000 维描述子。 - Y 为二元:村均消费是否低于第一四分位数(以及其他贫困指标)。 - 设计:用一半实验中的结果数据 + 所有卫星图像,与使用全部结果数据作比较。 - 结果:尽管只用了一半的结果样本,通过结合卫星图像,点估计与全样本回归一致,且置信区间更窄(因为卫星图像增加了额外的信息)。

[0:46:14 - 0:47:05] 总结与扩展 - 关于 Y 连续/多值:识别需要更强的秩条件(R 与不同 Y 值变化的协变方式)。 - 关于直接效应与部分观测结果:允许更一般的框架(如部分实验单位观测到 Y)。 - 开放问题:溢出效应、高维结果的推断、测量噪声的进一步处理。

四、对应论文与开放问题

(a) 对应论文 - arXiv: 2411.10959 (确认) - 题目:Program Evaluation with Remotely Sensed Outcomes - 作者:Ashesh Rambachan (MIT), Rahul Singh (Harvard), Davide Viviano (Harvard)

(b) 开放问题(扎根于转写 与 讨论者环节) 1. 允许未测量的 Y-R 混淆:讨论者 Hyunseung Kang 明确提问是否允许 YR 之间的 unmeasured confounder(时间 [0:55:29])。讲者回应称“we rule that out”([0:58:56])。将此设定推广到允许 confounders 是个开放问题。 2. 多值或连续 Y 的充分识别条件:讲者在末尾提到当 Y 不是二元时,识别需要更强的“rank restriction”,但没有展开([0:46:13])。如何为一般 Y 给出可行的秩条件和有效的推断是一个开放问题。 3. 高维 R 中的变量选择与效率:讲者的最优表示用 ML 学习 E[Y|R]Var(ϵ|R)。当 R 的维数远大于样本量时,如何保证这些 ML 估计的收敛速度不破坏 n^{-1/2} 推断?(报告中提到可以用任意 ML,但仅依赖于“足够好的相关性”而非具体的收敛条件——一个严格的率条件仍为开放问题。) 4. 处理复数结果(面板/多期):讲者提到可用面板来缓解循环因果问题([0:38:17]),但未提供面板设置下的识别公式和推断方法。如何将框架扩展到面板数据(带 time fixed effects)并在存在滞后期效应(lagged effect of Y on R)时保持可识别,是自然的扩展方向(时间 [0:38:17] 附近提及)。 5. 使用交叉拟合(cross-fitting)以突破 Donsker 条件:报告中的估计用的是 plug-in,但未提及 sample splitting / cross-fitting——这是处理 ML 估计时实现 n^{-1/2} 推断的标准技术。讨论或论文可能的扩展是引入 cross-fitting 语句以降低对 ML 算法复杂度的要求(时间 [0:35:01] 讲者提到“you can just do that”,但未涉及 cross-fitting)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论