跳转至

Evaluating Counterfactual Policies Using Instruments

讲者: Michal Kolesár
讨论人: Edward Vytlacil
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-04
主题: 因果推断
视频: https://youtu.be/KUOpFA5QLhc · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

本报告(Kolesár, Montiel Olea & Roth, 2025)聚焦于多值工具变量(multi-valued IV)环境下的反事实政策评估。这是当代应用微观计量(尤其是“法官设计”(judge design))的核心问题:

  • 奠基性路线:Imbens & Angrist (1994) 在二元IV、二元处理的框架下建立了 LATE 解释——TSLS(两阶段最小二乘)估计量可解读为局部平均处理效应的加权平均,其关键假设是IV单调性(IV monotonicity:更宽松的法官在每件案子上都更宽松)。Vytlacil (2002) 证明该假设等价于一个潜在指数选择模型。Heckman & Vytlacil (2005) 的边际处理效应(MTE)框架进一步将 LATE 推广到连续或多值IV,并引入政策不变性(policy invariance:所有法官共享同一个潜在排名V,政策只改变阈值)来将 IV 变动的信息映射到反事实政策的效果。
  • 当前frontier面临的张力:大量实证检验表明,法院场景下IV单调性通常被拒绝(Frandsen et al., 2023; Agan et al., 2023; Chan et al., 2022; Coulibaly et al., 2024)。同时,即便单调性成立,LATE 也只能回答“被法官变动所影响的亚组(compliers)的平均因果效应”,而政策制定者关心的是某种具体政策(如:要求所有法官释放率达到20%,或取消裁判权)的效果——两者并不直接相通。Heckman & Vytlacil (2005) 的政策相关处理效应(policy-relevant treatment effect, PRTE)试图连接,但依赖政策不变性这一高强度假设。已有文献尝试弱化单调性(如 Frandsen et al., 2023; de Chaisemartin, 2017; Small et al., 2017; Mogstad et al., 2021),但要么仍然指向LATE型参数,要么对政策效果覆盖不全。
  • 这场报告的位置:它从根本上将政策本身建模为一个可以做实验但未被观测的IV(记作 \(A\):是否实施反事实政策)。在观测数据中 \(A=0\),目标量是 \(\theta = E[Y(D(Z,1))]\)。不假设法官间的IV单调性,也不假设政策不变性,而是在仅要求政策单调性(policy monotonicity:政策只鼓励释放、绝不逆转)及工具独立性下,将识别集(identified set)表述为一个线性规划(LP),其规模与法官个数成线性关系(\(O(K)\) 而非 \(4^K\) 个类型)。核心结论:IV单调性在多数政策场景下既无助于缩小识别集,也不会在数据拒绝了它时保护识别集(如按IV单调性做“naïve”分析反而得到更宽的bounds)。作为替代,报告介绍了基于分歧率(disagreement rate)的松弛政策不变性,能够在放宽假设的同时显著收紧 bounds。

该工作与当前学界关注的“不用单调性做政策评价”潮流高度吻合(Bai et al., 2024; Kitagawa, 2021),但首次在多值IV、任意政策、任意相关结果(有界)的通用框架下给出了可实现的 LP 解法,并明确指出了 IV 单调性的信息贡献(或无贡献)条件。

二、最小内核 / 一个最简例子

符号与模型(取自幻灯片)
- 观测数据:\((Y, D, Z)\)
- \(Y\):有界结果,归一化到 \([0,1]\)(如是否重新犯罪)
- \(D \in \{0,1\}\):二元处理(如是否被释放)
- \(Z\):多值IV(如法官ID),离散,假定随机分配
- 潜在变量:
- \(D(z,a)\):被分配到法官 \(z\)、政策状态 \(a\) 时的处理(观测到 \(a=0\)
- \(Y(d)\):处理为 \(d\) 时的潜在结果
- 目标量:

\[\theta = E[\,Y(D(Z,1))\,]\]
即当政策实施(\(a=1\))时的平均结果。
- 核心假设:
- 工具独立性:\(Z \perp\!\!\!\perp (Y(\cdot), D(\cdot,\cdot))\)(包含排除限制:Z/A 仅通过 D 影响 Y)
- 政策单调性:\(D(z,1) \ge D(z,0)\ \forall z\)(政策不逆转已有释放)
- 识别集 \(\Theta_I = \{E_{P^*}[Y(D(Z,1))] : P^* \in \mathcal{P}^*,\ P^* \text{ generates } P\}\)

最简特例(幻灯片第17–19页,转写约 [0:26:28]–[0:31:39])
设:
- 结果二值且 \(Y(0)=0\)(未释放则无法犯罪),只需关心 \(Y(1)\)
- 反事实政策为全部释放\(D(z,1)=1\ \forall z\),此时 \(\theta = E[Y(1)]\)

无IV单调性的识别集
对每个法官 \(z\),观测数据给出条件概率 \(P(Y=1, D=1\mid Z=z)\)\(P(D=0\mid Z=z)\)
\(Y(1)\) 的上下界来自:从未被法院释放的人(\(D=0\) 组)中,其潜在 \(Y(1)\) 可以是0或1。于是对于法官 \(z\),区间

\[I_z = [\,P(Y=1,D=1|Z=z),\ \; P(Y=1,D=1|Z=z) + P(D=0|Z=z)\,].\]

因为 \(\theta\) 必须同时与所有法官兼容,所以
\[\Theta_I = \bigcap\nolimits_{z} I_z.\]

(此即 Bates et al. 2024 Lemma 3.1 的特例。)

强制IV单调性下的识别集
若IV单调性成立,则最宽松法官 \(z_{\max}\) 的释放决策包含所有潜在释放者:\(D(z_{\max},0)=1 \Rightarrow D(z,0)=1\ \forall z\)。因此对所有 \(z\),凡未被 \(z_{\max}\) 释放的人(\(D(z_{\max},0)=0\))都是“永不释放者”(never-takers),其 \(Y(1)\) 完全不可识别(只有平凡界 \([0,1]\))。于是 \(\Theta_I\) 退化为

\[\Theta_I = I_{z_{\max}},\]

即仅依赖一个法官的信息。

启示(幻灯片第19–20页):
- 若数据不拒绝IV单调性,则 \(\bigcap_z I_z = I_{z_{\max}}\),有无单调性 bounds 相同;
- 若数据拒绝IV单调性,则 \(\bigcap_z I_z \subsetneq I_{z_{\max}}\)(因为存在违者(defiers)提供额外信息),因此无单调性的 bounds 更窄,强制单调性反而会得到更宽的 naïve bounds。

三、报告主体:讲者讲了什么

以下按发言顺序整理,每条带大致时间戳 [H:MM:SS]。口语转写与幻灯片(权威)融合,有歧义处已做说明。

[0:00:07–0:01:31] 开场与动机
- 介绍了法官设计(judge design)在应用中的流行(Kling 2006; Mueller-Smith 2015; Aizer & Doyle 2015 等),并非只能用于法官,也可用于专利审查员、儿童福利调查员、检察官、医生轮班等。
- 两个标准工具:TSLS 和 MTE 曲线。
- 两大批评
1. IV单调性在法官设计中常被数据拒绝(Frandsen et al. 2023; Agan et al. 2023 等);
2. 即使单调性成立,LATE 的政策相关性存疑——政策(如鼓励释放)影响的群体与LATE的compliers未必一致。

[0:01:31–0:10:38] 设置与贡献
- 讲者将反事实政策看作一个未观测的IV \(A\),在数据中 \(A=0\),但感兴趣的是 \(A=1\) 时的平均结果 \(\theta\)
- 三大贡献(幻灯片第4页):
1. 建立显式政策评估框架;
2. 给出识别集的线性规划表征,无需枚举指数多个响应类型;
3. 证明IV单调性在很多政策下无助于收紧 bounds,但若滥用则可能使 bounds 更宽。
- 强调:IV单调性既非必要也非充分条件;注意力应转向其他更合理的限制(如松弛政策不变性)。

[0:10:42–0:18:23] 正式设置与三类限制
- 明确符号:潜在处理 \(D(z,a)\),政策不变性(policy invariance)假设很强,它等价于将 \((Z,A)\) 视为一个多元IV并满足IV单调性(Heckman et al. 2006; Mogstad et al. 2021 指出这通常不合理)。
- 区分 边际限制(per-judge marginal)与 跨工具限制(cross-instrument)。政策实施细节给出边际限制(如配额),政策单调性是边际限制;IV单调性是跨工具限制。

[0:18:23–0:23:17] 第一个主要结果:线性规划表征(幻灯片第11–14页)
- 关键洞见:目标量和观测数据均只涉及每个法官的边际分布,无需联合分布。
- 令 \(\pi_{y_0,y_1,d_0,d_1|z} = P^*(Y(0){=}y_0,Y(1){=}y_1,D(z,0){=}d_0,D(z,1){=}d_1)\)。则存在 \(P^*\) 生成数据 \(P\) 当且仅当:
1. 与数据匹配:\(\sum_{y_0,d_1}\pi_{y_0,y_1,1,d_1|z} = P(Y=y_1,D=1|Z=z)\),类似 \(D=0\)
2. 不同法官间 \(Y(1),Y(0)\) 的联合分布一致:\(\sum_{d_0,d_1}\pi_{y_0,y_1,d_0,d_1|z} = \pi_{y_0,y_1}\) 对所有 \(z\) 相同;
3. 概率非负、和为1。
- 目标 \(\theta = E[Y(D(Z,1))]\)\(\pi\) 的线性函数,因此可在线性约束下通过LP计算 bounds,变量数 \(\asymp K \times \#Y^2\) 而非 \(4^K \times \#Y^2\)。离散化结果会得到保守 bounds。

[0:23:17–0:25:32] 推断方法
- 使用投影法(projection):先对数据概率 \(\hat{P}\) 构造同时置信带(也许用bootstrap或Gaussian近似),然后通过LP求解最大化/最小化 \(\theta\) 的置信区间(Andrews et al. 2023; Cox & Shi 2023; Fang et al. 2023)。幻灯片第15页给出具体形式。

[0:25:32–0:33:07] 第二个主要结果:IV单调性不帮助的条件
- 先讲最简单的例子(见上节最小内核),然后抽象出命题(幻灯片第20页):
假设政策单调性成立,且要么 (a) \(Y(0)=0\),要么 (b) \(D(z,1) \ge D(z_{\max},0)\)(政策“足够强”)。
若数据不拒绝IV单调性,则强制与否不改变识别集。
- 如果数据拒绝IV单调性,则 naïve 强制单调性得到的 bounds 要么更宽,要么为空。
- 拓展说明:IV单调性在更复杂政策(如“中等释放比例”)时可以帮助,但讲者猜测在实践中影响很小(引用Kamat 2019关于联合分布可识别性的观察)。

[0:33:07–0:38:12] 政策不变性 vs 松弛政策不变性
- 政策不变性可点识别(如要求所有法官与最宽松法官释放相同的案件集),但通常太强。
- 引入 分歧率 \(\delta\)\(\Pr(D(z,1)=1 \mid D(z_{\max},0)=1) \ge 1-\delta\),即最宽松法官释放的人中,另一法官在政策下不释放的比例至多为 \(\delta\)
- 该限制可简单融入LP,且可由面板数据校准(Sigstad 2023 给出实际分歧率约7–26%)。
- 同时指出:也可对任意法官对施加类似限制。

[0:38:12–0:47:15] 实证应用:Agan, Doleac, Harvey (QJE 2023)
- 背景:麻州检察官随机分配,处理为是否撤销指控(non-prosecution),结果为两年内是否重新犯罪(二元)。
- 样本:10名案件最多的检察官(均 \(\ge 1825\) 件)。IV单调性被拒绝(两个类似non-prosecution率的检察官 #308 和 #342 结果不同)。
- 反事实1:消除检察官裁量权,即全部起诉(\(D(z,1)=0\))。
- 无单调性 sharp bounds: [35.8, 36.6] (CI [32.7, 40.2]);若只看最严厉检察官(IV单调性 naïve),得 [29.4, 36.6] (CI [27.3, 38.8])。前者上界远窄于后者,且能推断犯罪率必定高于现状33.7%(从而政策有害)。
- 直觉:各检察官 bounds 的交集仅取决于两个极端检察官。
- 反事实2:要求所有检察官的非起诉率达到最宽松者的水平(约16.2%)。
- 无其他限制时 bounds 很宽 [27.4, 39.9](因为大量从未被释放之人可被任意赋值)。
- 加入分歧率 \(\delta\):数据要求 \(\delta \ge 0.11\)(必然存在一些违者)。若 \(\delta \le 0.18\),则点估计表明犯罪率低于现状(33.7%),CI 略宽。
- 参照 Sigstad (2023) 的分歧率校准值 7%–26%,说明该假定可在合理范围内得到有信息量的结论。

[0:47:15–1:02:30] 讨论环节(Edward Vytlacil)
- Vytlacil 将本框架与 LATE / MTE 比较,指出本工作将政策本身视为IV的做法“巧妙且意外地有效”。
- 重点:本框架不定义“以不同法官分配的响应类型”为基础的参数,因为目标参数不需要;线性结构源自对潜在概率的定义方式(将政策作为IV纳入)。
- 讨论了强加IV单调性在测试外生性时的价值(若相信单调性则拒绝单调性可能意味着外生性也被拒绝)。
- 讲者回应:分歧率松弛与MTE框架的取舍(后者可加入模型对MTE函数的 smoothness 假设,前者不能直接做但可添加单调处理响应等结果限制)。

[1:02:30 结束]

四、对应论文与开放问题

对应论文
- Kolesár, Michal, José Luis Montiel Olea, and Jonathan Roth. Evaluating Counterfactual Policies Using Instruments. 工作论文,2025。
- 报告无明确arXiv号,合作者、标题、内容与幻灯片完全一致。转写中讲者提到“joint project with Jonathan Roth and Pepe(José Luis Montiel Olea的昵称)”,权威材料已确认。
- 讨论人 Edward Vytlacil(耶鲁大学)是MTE框架的奠基人之一。
- 相关论文:Bai, Yuehao, Azeem M. Shaikh, and Edward J. Vytlacil (2024) “Sharp bounds on treatment effects with binary outcomes and a binary treatment” 等工作使用了类似类型枚举方法。

开放问题(来自报告及讨论)
1. 边际释放者的结果限制(幻灯片第31页):“Are there reasonable restrictions on outcomes of marginally released?” 讲者提到“if judges competent, would expect marginally released defendants to be worse than always-released”,但未深入。这指向单调处理响应分布假设,如何融入LP并保持线性?(转写约 [0:58:12] 讲者回应提到MTE框架可通过光滑性假设施加限制,但分歧率框架未直接实现)。
2. 分歧率 \(\delta\) 的先验定义与校准:在多法官场景下,如何定义“最宽松法官”并计算分歧率?若有多维指标(如不同罪行类型分歧率不同),如何选择合适的 \(\delta\) 范围?Sigstad (2023) 的校准是否适用于其他法官集?(转写 [0:40:58–0:42:05])。
3. 线性规划置信区间的精确性:投影法在离散化结果时可能保守,但也可能因同时置信带的取法而损失效率。最优推断方法的选择仍是一个开放问题(Andrews et al. 2023 给出多种方法,但需权衡计算效率和覆盖精度)。
4. 与PRTE框架的整合:Vytlacil 在讨论中指出本框架未利用政策变化与法官变动之间的共同结构;是否可将分歧率与MTE中的潜在选择模型结合,在放松政策不变性的同时保留部分预测能力?(约 [0:48:30]–[0:49:20])。
5. 连续结果与高维IV:幻灯片第5页提到“most results go through with continuous \(Z\)”,但具体如何扩展到连续结果变量(非线性约束?需要离散化)以及连续IV(非参数核平滑?)的 LP 维度控制仍待细致讨论。

——以上开放问题均基于报告内容,不评价其可行性或与研究者武器库的匹配程度。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论