Policy Learning with Unobserved Heterogeneityrecommendations increases welfare by 6%, and halves the probability of generating welfare losses.¶

讲者: Young Researchers' Seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-03-24
主题: 因果推断
视频: https://youtu.be/fzowqjMUj1s · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告位于 政策学习（Policy Learning） 的子方向——在异质处理效应中使用未观测或噪声代理变量 对最优分配规则的影响。该子方向追问的核心问题是：当处理效应沿着一个未被观测到的潜在因子（如商业头脑、能力） 变化，而研究者只能获得该因子的带误差的测量或估计 时，将这一噪声代理纳入分配决策能否改善社会福利？若可以，需要什么条件？如何最优地设计数据收集来平衡代理精度与政策估计精度？

奠基与主流路线： - 标准的政策学习文献（e.g., Athey & Imbens 2016 PNAS; Kitagawa & Tetenov 2018 Econometrica; Zhou et al. 2018 JRSS-B; Athey & Wager 2021 JASA）假设所有与政策相关的变量都被完美观测，最优策略是依据可观测协变量（如受教育水平）学习一个分配规则。 - 这些方法通过 IPW（逆概率加权） 或AIPW（增强逆概率加权） 估计期望福利，并在 VC 维有界、margin 条件等假设下获得遗憾（regret）界。 - 该报告的直接前身是将噪声代理纳入的少数尝试：例如利用机器学习预测的潜变量作为输入学习策略（如 Athey & Wager 2021 中的 heterogeneous treatment effects），但没有正式刻画噪声精度与政策性能之间的 trade-off，也没有提供理论保证。

当前 frontier 与报告的站位： - 最新的工作（如 Viviano & Bradic 2024 JASA 关于公平约束下的动态政策学习，或Imai & Li 2023 JRSS-B 关于高维协变量选择下的政策学习）仍假设所有用到的变量被完美观测。 - 本报告首次正式引入“带噪声的未观测因子”到政策学习框架中，并刻画了近似误差（加入额外决策维度的收益）与估计误差（代理的均方根误差）之间的精确 trade-off。它还建立了minimax最优遗憾界，并在第二部分从理论层面研究了数据收集的预算分配问题——在提高代理精度（如增加外部样本）与扩大实验样本量（提高政策估计精度）之间分配有限资源。

可查找的引用（基于转写，不确定性高）： - 讲者自称 "Jakamo"（可能是 Giacomo?），来自 University of Bologna。报告标题 "Policy Learning with Unobserved Heterogeneity"，但未给出论文投稿或 arXiv 信息。演讲中提及的数据来自 Asim Regal 和 Ro（拼写可能错误）2022年 AER 论文（可能是 "Cash Transfers for Micro-Entrepreneurs"）。讲者自己的论文可能尚未公开或在审。 - 转写中未列出参考文献，只能根据领域常识确认上述比较项。

二、最小内核 / 一个最简例子¶

符号与模型：

可观测数据：
\( (Y_i, Z_i, X_i, \hat{A}_i) \)，其中
\( Y_i \) = 结果（如利润），连续且有界（|Y| ≤ M）
\( Z_i \in \{0,1\} \) = 二元处理（如是否获得现金转移）
\( X_i \in \mathcal{X} \) = 可观测协变量（如教育水平）
\( \hat{A}_i \) = 未观测因子 \(A_i\) 的一个带噪声代理或估计（如社区评级的企业家商业头脑评分）
潜在结果：\( Y_i(1), Y_i(0) \)，观测结果为 \( Y_i = Z_i Y_i(1) + (1-Z_i)Y_i(0) \)。
潜在因子 \(A_i\) 与 \(X_i, Y_i(1), Y_i(0)\) 联合分布未知，且 不要求可忽略性——\(A_i\) 本身是未观测的，但通过代理 \(\hat{A}_i\) 与数据关联。
分配机制：来自分层随机实验（如按 \(X_i\) 分层的RCT），已知倾向得分为 \(p(X_i)\)，且满足 无混淆性 条件：\( Z_i \perp\!\!\!\perp (Y_i(1), Y_i(0), A_i) \mid X_i \)。（这由实验设计保证，但 \(A_i\) 的缺失并不破坏该性质，因为随机化仅基于 \(X\)。）

政策规则： - 协变量基础规则：\(\pi_X : \mathcal{X} \to \{0,1\}\)，只依赖于观测 \(X\)。 - 增强规则：\(\pi_{X,\hat{A}} : \mathcal{X} \times \mathbb{R} \to \{0,1\}\)，也使用代理 \(\hat{A}\)。 - 可行增强规则：使用 \(\hat{A}\) 而非真实 \(A\)。 - 报告重点考虑参数化政策类：例如 \(\pi_{\theta}(z) = 1\{ s_\theta(z) > 0 \}\)，其中 \(z\) 是政策相关变量（\(X\) 或 \((X,\hat{A})\)），\(s_\theta\) 是光滑分数函数。常见特例：矩形规则（如“若 \(x\) 超过阈值且 \(\hat{a}\) 超过阈值则赋处理”）。

最简特例（\(K=1\) 个代理，\(d=1\) 协变量）： - 假设单一协变量 \(X_i \in \mathbb{R}\)（教育年数），代理模型：\(\hat{A}_i = A_i + \epsilon_i\)，\(\epsilon_i \perp A_i \mid X_i\)，\(\text{Var}(\epsilon_i) = \sigma^2\)。 - 真实处理效应 \(\tau(X_i, A_i) = \mathbb{E}[Y_i(1)-Y_i(0) \mid X_i, A_i]\)。 - 政策目标：找到一个规则 \(\pi\) 最大化 \(\mathbb{E}[Y(\pi(Z))]\)。 - 直觉：若 \(\tau\) 对 \(A\) 有强依赖性（例如只有商业头脑高于中位数的人获益），但 \(A\) 不可观测，则仅用 \(X\) 的规则会遗漏关键信息。使用噪声代理 \(\hat{A}\) 引入新维度，但会因为测量误差而错误分类个体（将高 \(A\) 但低 \(\hat{A}\) 的人排除，或将低 \(A\) 但高 \(\hat{A}\) 的人误纳入）。报告的核心结果给出了一个判决条件：当由 \(A\) 解释的处理效应方差足够大，超过噪声项 \(\epsilon\) 的缩放效应时，使用代理才能带来 minimax 改善。

与该特例对应的关键公式（转写复原，具体数字待核实）： - 协变量基础规则的遗憾界（与 Oracle 比较）：
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_X}] \lesssim \underbrace{C_1 \sqrt{\frac{VC}{n}}}_{\text{统计误差}} + \underbrace{\mathbb{E}[ \text{Var}(\tau(X,A) \mid X) ]}_{\text{因遗漏 }A\text{ 造成的不可减少的遗憾}}\)
第一项为经典贪婪遗憾（Kitagawa & Tetenov 2018），第二项为条件于 \(X\) 的处理效应方差——即 \(A\) 所能解释的部分。 - 增强规则的遗憾界：
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_{X,\hat{A}}}] \lesssim C_1 \sqrt{\frac{VC}{n}} + C_2 \cdot M \cdot \underbrace{\mathbb{P}\left(\text{sign mismatch between } A \text{ and } \hat{A} \mid X\right)}_{\text{由测量误差导致的错误分类概率}}\)
其中 \(M\) 是结果上界。该错误分类概率由 root mean square error (RMSE) of \(\hat{A}\) 控制（在正态误差下 \(\propto \sigma\)）。

判决条件：若 \(\mathbb{E}[\text{Var}(\tau \mid X)] > c \cdot M \cdot \text{RMSE}(\hat{A}) + O(n^{-1/2})\) 则使用代理 minimax 更优。这给出了何时“值得”引入噪声代理的定量条件。

三、报告主体：讲者讲了什么¶

[0:00:06–0:04:05] 动机与问题陈述 - 动机：NGO提供现金转移给小微企业主，但效果因人而异——有证据表明部分企业家收到钱后反而利润下降。政策学习的目标是在大规模实施前，仅对预期受益者分配干预。 - 现有政策学习假定所有政策相关维度都被完美观测。但在现实中，关键异质性维度（如商业头脑）未观测，只能通过代理（如社区排名、基于面板数据的固定效应估计）获取，且必有误差。 - 问题：带误差的代理能否改善政策推荐？何时改善？

[0:04:05–0:07:40] 举例说明未观测异质性的后果 - 例子：若仅按教育水平分配现金：教育高 → 受益，教育低 → 受损。但加入未观测的商业头脑后，可能出现教育高但头脑低的人受损，教育低但头脑高的人受益。完美分配需同时考虑教育水平和商业头脑，但后者不可直接观测。 - 两个困难：① 数据仅为随机样本，不完全观察因果律（经典统计问题）；② 第二困难：代理提供的信息带有测量误差。报告聚焦第二个困难。

[0:07:40–0:10:58] 全文三大贡献概览 - 第一部分：理论刻画近似-估计误差权衡，推导 minmax 最优遗憾界。 - 第二部分：政策制定者面临的资源分配问题——在提高代理精度（如增加测量次数、增大估计代理的外部样本量）与扩大政策实验样本量之间权衡。 - 第三部分（演讲仅简要触及）：利用 AER 2022 论文数据（Asim Regal 和 Ro，转写拼写可能有误）验证——使用估计的商业头脑代理（社区排名）进行政策学习，可使平均利润提高 8%，并将产生福利损失的概率减半（对应标题）。

[0:11:00–0:16:00] 正式设定：潜在结果、政策类、目标函数 - 数据：\( (Y_i, Z_i, X_i, \hat{A}_i) \)，\( Z_i \) 在给定 \(X_i\) 下随机化（倾向已知）。 - 政策类：参数化分数规则 \(\pi_\theta(z) = 1\{s_\theta(z) > 0\}\)，VC维有界。 - 目标：最大化期望福利 \(W(\pi) = \mathbb{E}[Y_i(\pi(Z_i))]\)。学习算法：Empirical Welfare Maximization (EWM)，用 IPW 估计每个规则的福利，在给定类内最大化。 - 评估基准：Oracle——完全知道因果律且完美观测 \(A\) 的政策。 - 评价指标：遗憾 = Oracle 的福利 - 学习到的政策的福利。

[0:16:00–0:19:00] 假设 - A1–A3（DGP）：结果有界 |Y|≤M；无混淆 + 已知倾向分数；严格重叠。 - A4（代理）：\(\hat{A}_i = A_i + \epsilon_i\)，\(\epsilon_i \perp A_i \mid X_i\)（测量误差模型）；方差可随 \(X_i\) 变化，允许任意偏差（只要 RMSE 有定义）。演讲还提到论文中同时处理了 \(\hat{A}\) 来自独立样本的估计（非测量值）的情况。 - A5–A7（政策类）：VC维有限 + margin 条件（分数密度在0附近不聚集）+ 分数函数 Lipschitz。

[0:19:00–0:21:50] 主要理论结果：遗憾界 - 定理1（协变量基础规则）:
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_X}] \lesssim \underbrace{\sqrt{\frac{\text{VC}(F_X)}{n}}}_{\text{统计误差}} + \underbrace{\sqrt{\text{Var}_{\Pi}(\tau(X,A) \mid X)}}_{\text{因遗漏 }A\text{ 造成的不可减少遗憾}}\)
其中 \(\text{Var}_{\Pi}\) 表示在均匀分布下条件方差（或处理效应方差）。 - 定理2（增强规则）:
\(\mathbb{E}[W_{\text{Oracle}} - W_{\hat{\pi}_{X,\hat{A}}}] \lesssim \sqrt{\frac{\text{VC}(F_{X,\hat{A}})}{n}} + C\cdot M\cdot \text{RMSE}(\hat{A})\)
第二项来自错误分类概率。 - 两个界都是 minmax 尖锐（sharp up to constants）。基于它们可以得到一个关于“何时使用代理”的决策准则：当前项主导时（即 \(\text{Var}(\tau \mid X)\) 足够大相对于 \(\text{RMSE}(\hat{A})\)），增强规则 minimax 更优。

[0:21:50–0:23:10] 遗憾界的不等式比较 - 转写中提到，当 \(\text{Var}(\tau \mid X)\) 足够大而 \(\text{RMSE}(\hat{A})\) 足够小，协变量基础的下界 > 增强规则的上界，因此采用代理是 minimax 最优的。

[0:23:10–0:26:00] 第二部分：最优数据收集设计（简要） - 引入信息指数 \(t\) 刻画代理精度：\(\text{RMSE}(\hat{A}(t))\)（例如 \(t\) 可为外部样本量、面板长度或重复测量数）。 - 总预算 \(B\) 分为代理用力 \(C_t(t)\) 和实验样本量 \(C_n(n)\)。问题：选择 \((t,n)\) 极小化 sup-regret。 - 将 regret 界代入目标，如果进一步假设 RMSE 的衰减率（如 \(O(t^{-1/2})\)）和成本函数形式，可得到闭式解。

[0:26:00–0:28:00] 实证应用（仅概要） - 数据：印度小微企业主的 RCT（AER 2022），处理为现金转移，结果为利润。代理：社区对企业家的评级（估计商业头脑）。 - 比较四种政策： 1. 不干预（status quo） 2. 随机分配 3. 基于协变量（年龄、教育）的规则 4. 增强规则（再加入社区评级） - 结果：增强规则的福利累计分布占优其他所有规则，且将低于 status quo 的概率从约 10% 降至 5%（“福利损失概率减半”）。 - 第二个实证练习（未详述）：基于作者数据作为 pilot，估算最优分配（如将预算花在更多测量还是更大实验）。

[0:28:00–0:29:40] Q&A - 问题：是否允许 \(A\) 的估计本身由机器学习得到？讲者回答：论文将 \(\hat{A}\) 视为给定，理论适用于任何已知 RMSE 的估计量。将 \(A\) 的估计与政策学习整合为未来工作。

四、对应论文与开放问题¶

(a) 对应论文 - 基于转写与标题，报告对应论文为 "Policy Learning with Unobserved Heterogeneity"。
- 作者：讲者本人（转写中名字为 “Jakamo”，可能为 Giacomo De Luca 或其他，待查）。合作者未提及。
- 数据来源：AER 2022 论文（Asim Regal 与 Ro，转写拼写不准确），但该论文为应用文，非方法论文。
- 演讲未提供 arXiv 号或期刊。建议搜索关键词 "Policy Learning with Unobserved Heterogeneity" 或联系讲者（University of Bologna）。
- 幻灯片文字抽取与演讲主题完全不符（幻灯片来自 William Bekerman 的第二场 talk），此处已严重不一致。请务必对照视频确认讲者姓名及论文标题。

(b) 开放问题（每条扎根转写） 1. 如何将 \(A\) 的估计与政策学习联合优化？
[0:28:30–0:29:00] Q&A 中，研究者和讲者讨论了是否可以将 \(A\) 的估计视为内生于决策过程，目前论文作为给定。这意味着：允许研究者同时选择 \(\hat{A}\) 的构造方法（如选择哪些变量、模型、样本外结构）与政策规则，可能获得更好的整体性能。这是一个自然的延伸，但需要处理两阶段不确定性（First-stage 估计误差传播到 Second-stage 的政策学习）。

当代理来自机器学习（如深度学习）且其 RMSE 理论上不可量化时如何应用理论？
[0:29:10–0:29:30] 讲者承认这种情形下很难给出 RMSE 的理论保证。不过从实践角度，可以用交叉验证等经验 RMSE 近似，但理论 optimality 保证可能丢失。
动态、多期政策中合成代理的 trade-off 会如何变化？
报告中只考虑单期截面分配。实际许多现金转移是持续多轮的，异质性可能随时间演化，且代理本身可每期更新。这涉及 Markov 决策过程的 policy learning 与双采样 trade-off，远超目前框架。
在非实验（观察性）设置中，如何放松无混淆性假设？
当前假设基于 RCT，若使用观察数据则需要倾向分估计。\(A\) 为未观测，若其同时影响选择，则无混淆性可能被违背。如何在高维 IV 或 Proxy IV 框架下扩展本报告的结果？转写未讨论。
遗憾界的尖锐常数的具体形式是否依赖于参数化类的假设？
报告采用 VC 维有界 + margin + Lipschitz 的条件。若政策类为更复杂的类（如深度网络），可能需要不同的复杂度度量（Rademacher 复杂度、entropy 等），minmax 界的推导需要重新审视。
预算分配问题中信息指数 \(t\) 与样本量 \(n\) 的成本函数形式未知时如何做？
报告在第二部分假设了具体的 RMSE 衰减率和成本函数形式才得到闭式解。实际中成本结构未知，需发展适应性的数据收集策略（如多阶段适应）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Policy Learning with Unobserved Heterogeneityrecommendations increases welfare by 6%, and halves the probability of generating welfare losses.¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论