Policy Learning with Unobserved Heterogeneityrecommendations increases welfare by 6%, and halves the probability of generating welfare losses.¶
讲者: Young Researchers' Seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-03-24
主题: 因果推断
视频: https://youtu.be/fzowqjMUj1s · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告位于 政策学习(Policy Learning) 的子方向——在异质处理效应中使用未观测或噪声代理变量 对最优分配规则的影响。该子方向追问的核心问题是:当处理效应沿着一个未被观测到的潜在因子(如商业头脑、能力) 变化,而研究者只能获得该因子的带误差的测量或估计 时,将这一噪声代理纳入分配决策能否改善社会福利?若可以,需要什么条件?如何最优地设计数据收集来平衡代理精度与政策估计精度?
奠基与主流路线: - 标准的政策学习文献(e.g., Athey & Imbens 2016 PNAS; Kitagawa & Tetenov 2018 Econometrica; Zhou et al. 2018 JRSS-B; Athey & Wager 2021 JASA)假设所有与政策相关的变量都被完美观测,最优策略是依据可观测协变量(如受教育水平)学习一个分配规则。 - 这些方法通过 IPW(逆概率加权) 或AIPW(增强逆概率加权) 估计期望福利,并在 VC 维有界、margin 条件等假设下获得遗憾(regret)界。 - 该报告的直接前身是将噪声代理纳入的少数尝试:例如利用机器学习预测的潜变量作为输入学习策略(如 Athey & Wager 2021 中的 heterogeneous treatment effects),但没有正式刻画噪声精度与政策性能之间的 trade-off,也没有提供理论保证。
当前 frontier 与报告的站位: - 最新的工作(如 Viviano & Bradic 2024 JASA 关于公平约束下的动态政策学习,或Imai & Li 2023 JRSS-B 关于高维协变量选择下的政策学习)仍假设所有用到的变量被完美观测。 - 本报告首次正式引入“带噪声的未观测因子”到政策学习框架中,并刻画了近似误差(加入额外决策维度的收益)与估计误差(代理的均方根误差)之间的精确 trade-off。它还建立了minimax最优遗憾界,并在第二部分从理论层面研究了数据收集的预算分配问题——在提高代理精度(如增加外部样本)与扩大实验样本量(提高政策估计精度)之间分配有限资源。
可查找的引用(基于转写,不确定性高): - 讲者自称 "Jakamo"(可能是 Giacomo?),来自 University of Bologna。报告标题 "Policy Learning with Unobserved Heterogeneity",但未给出论文投稿或 arXiv 信息。演讲中提及的数据来自 Asim Regal 和 Ro(拼写可能错误)2022年 AER 论文(可能是 "Cash Transfers for Micro-Entrepreneurs")。讲者自己的论文可能尚未公开或在审。 - 转写中未列出参考文献,只能根据领域常识确认上述比较项。
二、最小内核 / 一个最简例子¶
符号与模型:
- 可观测数据:
\( (Y_i, Z_i, X_i, \hat{A}_i) \),其中
\( Y_i \) = 结果(如利润),连续且有界(|Y| ≤ M)
\( Z_i \in \{0,1\} \) = 二元处理(如是否获得现金转移)
\( X_i \in \mathcal{X} \) = 可观测协变量(如教育水平)
\( \hat{A}_i \) = 未观测因子 \(A_i\) 的一个带噪声代理或估计(如社区评级的企业家商业头脑评分) - 潜在结果:\( Y_i(1), Y_i(0) \),观测结果为 \( Y_i = Z_i Y_i(1) + (1-Z_i)Y_i(0) \)。
- 潜在因子 \(A_i\) 与 \(X_i, Y_i(1), Y_i(0)\) 联合分布未知,且 不要求可忽略性——\(A_i\) 本身是未观测的,但通过代理 \(\hat{A}_i\) 与数据关联。
- 分配机制:来自分层随机实验(如按 \(X_i\) 分层的RCT),已知倾向得分为 \(p(X_i)\),且满足 无混淆性 条件:\( Z_i \perp\!\!\!\perp (Y_i(1), Y_i(0), A_i) \mid X_i \)。(这由实验设计保证,但 \(A_i\) 的缺失并不破坏该性质,因为随机化仅基于 \(X\)。)
政策规则: - 协变量基础规则:\(\pi_X : \mathcal{X} \to \{0,1\}\),只依赖于观测 \(X\)。 - 增强规则:\(\pi_{X,\hat{A}} : \mathcal{X} \times \mathbb{R} \to \{0,1\}\),也使用代理 \(\hat{A}\)。 - 可行增强规则:使用 \(\hat{A}\) 而非真实 \(A\)。 - 报告重点考虑参数化政策类:例如 \(\pi_{\theta}(z) = 1\{ s_\theta(z) > 0 \}\),其中 \(z\) 是政策相关变量(\(X\) 或 \((X,\hat{A})\)),\(s_\theta\) 是光滑分数函数。常见特例:矩形规则(如“若 \(x\) 超过阈值且 \(\hat{a}\) 超过阈值则赋处理”)。
最简特例(\(K=1\) 个代理,\(d=1\) 协变量): - 假设单一协变量 \(X_i \in \mathbb{R}\)(教育年数),代理模型:\(\hat{A}_i = A_i + \epsilon_i\),\(\epsilon_i \perp A_i \mid X_i\),\(\text{Var}(\epsilon_i) = \sigma^2\)。 - 真实处理效应 \(\tau(X_i, A_i) = \mathbb{E}[Y_i(1)-Y_i(0) \mid X_i, A_i]\)。 - 政策目标:找到一个规则 \(\pi\) 最大化 \(\mathbb{E}[Y(\pi(Z))]\)。 - 直觉:若 \(\tau\) 对 \(A\) 有强依赖性(例如只有商业头脑高于中位数的人获益),但 \(A\) 不可观测,则仅用 \(X\) 的规则会遗漏关键信息。使用噪声代理 \(\hat{A}\) 引入新维度,但会因为测量误差而错误分类个体(将高 \(A\) 但低 \(\hat{A}\) 的人排除,或将低 \(A\) 但高 \(\hat{A}\) 的人误纳入)。报告的核心结果给出了一个判决条件:当由 \(A\) 解释的处理效应方差足够大,超过噪声项 \(\epsilon\) 的缩放效应时,使用代理才能带来 minimax 改善。
与该特例对应的关键公式(转写复原,具体数字待核实):
- 协变量基础规则的遗憾界(与 Oracle 比较):
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_X}] \lesssim \underbrace{C_1 \sqrt{\frac{VC}{n}}}_{\text{统计误差}} + \underbrace{\mathbb{E}[ \text{Var}(\tau(X,A) \mid X) ]}_{\text{因遗漏 }A\text{ 造成的不可减少的遗憾}}\)
第一项为经典贪婪遗憾(Kitagawa & Tetenov 2018),第二项为条件于 \(X\) 的处理效应方差——即 \(A\) 所能解释的部分。
- 增强规则的遗憾界:
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_{X,\hat{A}}}] \lesssim C_1 \sqrt{\frac{VC}{n}} + C_2 \cdot M \cdot \underbrace{\mathbb{P}\left(\text{sign mismatch between } A \text{ and } \hat{A} \mid X\right)}_{\text{由测量误差导致的错误分类概率}}\)
其中 \(M\) 是结果上界。该错误分类概率由 root mean square error (RMSE) of \(\hat{A}\) 控制(在正态误差下 \(\propto \sigma\))。
- 判决条件:若 \(\mathbb{E}[\text{Var}(\tau \mid X)] > c \cdot M \cdot \text{RMSE}(\hat{A}) + O(n^{-1/2})\) 则使用代理 minimax 更优。这给出了何时“值得”引入噪声代理的定量条件。
三、报告主体:讲者讲了什么¶
[0:00:06–0:04:05] 动机与问题陈述 - 动机:NGO提供现金转移给小微企业主,但效果因人而异——有证据表明部分企业家收到钱后反而利润下降。政策学习的目标是在大规模实施前,仅对预期受益者分配干预。 - 现有政策学习假定所有政策相关维度都被完美观测。但在现实中,关键异质性维度(如商业头脑)未观测,只能通过代理(如社区排名、基于面板数据的固定效应估计)获取,且必有误差。 - 问题:带误差的代理能否改善政策推荐?何时改善?
[0:04:05–0:07:40] 举例说明未观测异质性的后果 - 例子:若仅按教育水平分配现金:教育高 → 受益,教育低 → 受损。但加入未观测的商业头脑后,可能出现教育高但头脑低的人受损,教育低但头脑高的人受益。完美分配需同时考虑教育水平和商业头脑,但后者不可直接观测。 - 两个困难:① 数据仅为随机样本,不完全观察因果律(经典统计问题);② 第二困难:代理提供的信息带有测量误差。报告聚焦第二个困难。
[0:07:40–0:10:58] 全文三大贡献概览 - 第一部分:理论刻画近似-估计误差权衡,推导 minmax 最优遗憾界。 - 第二部分:政策制定者面临的资源分配问题——在提高代理精度(如增加测量次数、增大估计代理的外部样本量)与扩大政策实验样本量之间权衡。 - 第三部分(演讲仅简要触及):利用 AER 2022 论文数据(Asim Regal 和 Ro,转写拼写可能有误)验证——使用估计的商业头脑代理(社区排名)进行政策学习,可使平均利润提高 8%,并将产生福利损失的概率减半(对应标题)。
[0:11:00–0:16:00] 正式设定:潜在结果、政策类、目标函数 - 数据:\( (Y_i, Z_i, X_i, \hat{A}_i) \),\( Z_i \) 在给定 \(X_i\) 下随机化(倾向已知)。 - 政策类:参数化分数规则 \(\pi_\theta(z) = 1\{s_\theta(z) > 0\}\),VC维有界。 - 目标:最大化期望福利 \(W(\pi) = \mathbb{E}[Y_i(\pi(Z_i))]\)。学习算法:Empirical Welfare Maximization (EWM),用 IPW 估计每个规则的福利,在给定类内最大化。 - 评估基准:Oracle——完全知道因果律且完美观测 \(A\) 的政策。 - 评价指标:遗憾 = Oracle 的福利 - 学习到的政策的福利。
[0:16:00–0:19:00] 假设 - A1–A3(DGP):结果有界 |Y|≤M;无混淆 + 已知倾向分数;严格重叠。 - A4(代理):\(\hat{A}_i = A_i + \epsilon_i\),\(\epsilon_i \perp A_i \mid X_i\)(测量误差模型);方差可随 \(X_i\) 变化,允许任意偏差(只要 RMSE 有定义)。演讲还提到论文中同时处理了 \(\hat{A}\) 来自独立样本的估计(非测量值)的情况。 - A5–A7(政策类):VC维有限 + margin 条件(分数密度在0附近不聚集)+ 分数函数 Lipschitz。
[0:19:00–0:21:50] 主要理论结果:遗憾界
- 定理1(协变量基础规则):
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_X}] \lesssim \underbrace{\sqrt{\frac{\text{VC}(F_X)}{n}}}_{\text{统计误差}} + \underbrace{\sqrt{\text{Var}_{\Pi}(\tau(X,A) \mid X)}}_{\text{因遗漏 }A\text{ 造成的不可减少遗憾}}\)
其中 \(\text{Var}_{\Pi}\) 表示在均匀分布下条件方差(或处理效应方差)。
- 定理2(增强规则):
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_{X,\hat{A}}}] \lesssim \sqrt{\frac{\text{VC}(F_{X,\hat{A}})}{n}} + C\cdot M\cdot \text{RMSE}(\hat{A})\)
第二项来自错误分类概率。
- 两个界都是 minmax 尖锐(sharp up to constants)。基于它们可以得到一个关于“何时使用代理”的决策准则:当前项主导时(即 \(\text{Var}(\tau \mid X)\) 足够大相对于 \(\text{RMSE}(\hat{A})\)),增强规则 minimax 更优。
[0:21:50–0:23:10] 遗憾界的不等式比较 - 转写中提到,当 \(\text{Var}(\tau \mid X)\) 足够大而 \(\text{RMSE}(\hat{A})\) 足够小,协变量基础的下界 > 增强规则的上界,因此采用代理是 minimax 最优的。
[0:23:10–0:26:00] 第二部分:最优数据收集设计(简要) - 引入信息指数 \(t\) 刻画代理精度:\(\text{RMSE}(\hat{A}(t))\)(例如 \(t\) 可为外部样本量、面板长度或重复测量数)。 - 总预算 \(B\) 分为代理用力 \(C_t(t)\) 和实验样本量 \(C_n(n)\)。问题:选择 \((t,n)\) 极小化 sup-regret。 - 将 regret 界代入目标,如果进一步假设 RMSE 的衰减率(如 \(O(t^{-1/2})\))和成本函数形式,可得到闭式解。
[0:26:00–0:28:00] 实证应用(仅概要) - 数据:印度小微企业主的 RCT(AER 2022),处理为现金转移,结果为利润。代理:社区对企业家的评级(估计商业头脑)。 - 比较四种政策: 1. 不干预(status quo) 2. 随机分配 3. 基于协变量(年龄、教育)的规则 4. 增强规则(再加入社区评级) - 结果:增强规则的福利累计分布占优其他所有规则,且将低于 status quo 的概率从约 10% 降至 5%(“福利损失概率减半”)。 - 第二个实证练习(未详述):基于作者数据作为 pilot,估算最优分配(如将预算花在更多测量还是更大实验)。
[0:28:00–0:29:40] Q&A - 问题:是否允许 \(A\) 的估计本身由机器学习得到?讲者回答:论文将 \(\hat{A}\) 视为给定,理论适用于任何已知 RMSE 的估计量。将 \(A\) 的估计与政策学习整合为未来工作。
四、对应论文与开放问题¶
(a) 对应论文
- 基于转写与标题,报告对应论文为 "Policy Learning with Unobserved Heterogeneity"。
- 作者:讲者本人(转写中名字为 “Jakamo”,可能为 Giacomo De Luca 或其他,待查)。合作者未提及。
- 数据来源:AER 2022 论文(Asim Regal 与 Ro,转写拼写不准确),但该论文为应用文,非方法论文。
- 演讲未提供 arXiv 号或期刊。建议搜索关键词 "Policy Learning with Unobserved Heterogeneity" 或联系讲者(University of Bologna)。
- 幻灯片文字抽取与演讲主题完全不符(幻灯片来自 William Bekerman 的第二场 talk),此处已严重不一致。请务必对照视频确认讲者姓名及论文标题。
(b) 开放问题(每条扎根转写)
1. 如何将 \(A\) 的估计与政策学习联合优化?
[0:28:30–0:29:00] Q&A 中,研究者和讲者讨论了是否可以将 \(A\) 的估计视为内生于决策过程,目前论文作为给定。这意味着:允许研究者同时选择 \(\hat{A}\) 的构造方法(如选择哪些变量、模型、样本外结构)与政策规则,可能获得更好的整体性能。这是一个自然的延伸,但需要处理两阶段不确定性(First-stage 估计误差传播到 Second-stage 的政策学习)。
-
当代理来自机器学习(如深度学习)且其 RMSE 理论上不可量化时如何应用理论?
[0:29:10–0:29:30] 讲者承认这种情形下很难给出 RMSE 的理论保证。不过从实践角度,可以用交叉验证等经验 RMSE 近似,但理论 optimality 保证可能丢失。 -
动态、多期政策中合成代理的 trade-off 会如何变化?
报告中只考虑单期截面分配。实际许多现金转移是持续多轮的,异质性可能随时间演化,且代理本身可每期更新。这涉及 Markov 决策过程的 policy learning 与双采样 trade-off,远超目前框架。 -
在非实验(观察性)设置中,如何放松无混淆性假设?
当前假设基于 RCT,若使用观察数据则需要倾向分估计。\(A\) 为未观测,若其同时影响选择,则无混淆性可能被违背。如何在高维 IV 或 Proxy IV 框架下扩展本报告的结果?转写未讨论。 -
遗憾界的尖锐常数的具体形式是否依赖于参数化类的假设?
报告采用 VC 维有界 + margin + Lipschitz 的条件。若政策类为更复杂的类(如深度网络),可能需要不同的复杂度度量(Rademacher 复杂度、entropy 等),minmax 界的推导需要重新审视。 -
预算分配问题中信息指数 \(t\) 与样本量 \(n\) 的成本函数形式未知时如何做?
报告在第二部分假设了具体的 RMSE 衰减率和成本函数形式才得到闭式解。实际中成本结构未知,需发展适应性的数据收集策略(如多阶段适应)。
Maintained by 陈星宇 · Homepage · Source on GitHub