Evaluating Counterfactual Policies Using Instruments¶

讲者: Michal Kolesár
讨论人: Edward Vytlacil
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-04
主题: 因果推断
视频: https://youtu.be/KUOpFA5QLhc · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

本报告（Kolesár, Montiel Olea & Roth, 2025）聚焦于多值工具变量（multi-valued IV）环境下的反事实政策评估。这是当代应用微观计量（尤其是“法官设计”（judge design））的核心问题：

奠基性路线：Imbens & Angrist (1994) 在二元IV、二元处理的框架下建立了 LATE 解释——TSLS（两阶段最小二乘）估计量可解读为局部平均处理效应的加权平均，其关键假设是IV单调性（IV monotonicity：更宽松的法官在每件案子上都更宽松）。Vytlacil (2002) 证明该假设等价于一个潜在指数选择模型。Heckman & Vytlacil (2005) 的边际处理效应（MTE）框架进一步将 LATE 推广到连续或多值IV，并引入政策不变性（policy invariance：所有法官共享同一个潜在排名V，政策只改变阈值）来将 IV 变动的信息映射到反事实政策的效果。
当前frontier面临的张力：大量实证检验表明，法院场景下IV单调性通常被拒绝（Frandsen et al., 2023; Agan et al., 2023; Chan et al., 2022; Coulibaly et al., 2024）。同时，即便单调性成立，LATE 也只能回答“被法官变动所影响的亚组（compliers）的平均因果效应”，而政策制定者关心的是某种具体政策（如：要求所有法官释放率达到20%，或取消裁判权）的效果——两者并不直接相通。Heckman & Vytlacil (2005) 的政策相关处理效应（policy-relevant treatment effect, PRTE）试图连接，但依赖政策不变性这一高强度假设。已有文献尝试弱化单调性（如 Frandsen et al., 2023; de Chaisemartin, 2017; Small et al., 2017; Mogstad et al., 2021），但要么仍然指向LATE型参数，要么对政策效果覆盖不全。
这场报告的位置：它从根本上将政策本身建模为一个可以做实验但未被观测的IV（记作 \(A\)：是否实施反事实政策）。在观测数据中 \(A=0\)，目标量是 \(\theta = E[Y(D(Z,1))]\)。不假设法官间的IV单调性，也不假设政策不变性，而是在仅要求政策单调性（policy monotonicity：政策只鼓励释放、绝不逆转）及工具独立性下，将识别集（identified set）表述为一个线性规划（LP），其规模与法官个数成线性关系（\(O(K)\) 而非 \(4^K\) 个类型）。核心结论：IV单调性在多数政策场景下既无助于缩小识别集，也不会在数据拒绝了它时保护识别集（如按IV单调性做“naïve”分析反而得到更宽的bounds）。作为替代，报告介绍了基于分歧率（disagreement rate）的松弛政策不变性，能够在放宽假设的同时显著收紧 bounds。

该工作与当前学界关注的“不用单调性做政策评价”潮流高度吻合（Bai et al., 2024; Kitagawa, 2021），但首次在多值IV、任意政策、任意相关结果（有界）的通用框架下给出了可实现的 LP 解法，并明确指出了 IV 单调性的信息贡献（或无贡献）条件。

二、最小内核 / 一个最简例子¶

符号与模型（取自幻灯片）
- 观测数据：\((Y, D, Z)\)
- \(Y\)：有界结果，归一化到 \([0,1]\)（如是否重新犯罪）
- \(D \in \{0,1\}\)：二元处理（如是否被释放）
- \(Z\)：多值IV（如法官ID），离散，假定随机分配
- 潜在变量：
- \(D(z,a)\)：被分配到法官 \(z\)、政策状态 \(a\) 时的处理（观测到 \(a=0\)）
- \(Y(d)\)：处理为 \(d\) 时的潜在结果
- 目标量：

\[\theta = E[\,Y(D(Z,1))\,]\]

即当政策实施（\(a=1\)）时的平均结果。
- 核心假设：
- 工具独立性：\(Z \perp\!\!\!\perp (Y(\cdot), D(\cdot,\cdot))\)（包含排除限制：Z/A 仅通过 D 影响 Y）
- 政策单调性：\(D(z,1) \ge D(z,0)\ \forall z\)（政策不逆转已有释放）
- 识别集 \(\Theta_I = \{E_{P^*}[Y(D(Z,1))] : P^* \in \mathcal{P}^*,\ P^* \text{ generates } P\}\)。

最简特例（幻灯片第17–19页，转写约 [0:26:28]–[0:31:39]）
设：
- 结果二值且 \(Y(0)=0\)（未释放则无法犯罪），只需关心 \(Y(1)\)
- 反事实政策为全部释放：\(D(z,1)=1\ \forall z\)，此时 \(\theta = E[Y(1)]\)

无IV单调性的识别集：
对每个法官 \(z\)，观测数据给出条件概率 \(P(Y=1, D=1\mid Z=z)\) 和 \(P(D=0\mid Z=z)\)。
\(Y(1)\) 的上下界来自：从未被法院释放的人（\(D=0\) 组）中，其潜在 \(Y(1)\) 可以是0或1。于是对于法官 \(z\)，区间

\[I_z = [\,P(Y=1,D=1|Z=z),\ \; P(Y=1,D=1|Z=z) + P(D=0|Z=z)\,].\]

因为 \(\theta\) 必须同时与所有法官兼容，所以

\[\Theta_I = \bigcap\nolimits_{z} I_z.\]

（此即 Bates et al. 2024 Lemma 3.1 的特例。）

强制IV单调性下的识别集：
若IV单调性成立，则最宽松法官 \(z_{\max}\) 的释放决策包含所有潜在释放者：\(D(z_{\max},0)=1 \Rightarrow D(z,0)=1\ \forall z\)。因此对所有 \(z\)，凡未被 \(z_{\max}\) 释放的人（\(D(z_{\max},0)=0\)）都是“永不释放者”（never-takers），其 \(Y(1)\) 完全不可识别（只有平凡界 \([0,1]\)）。于是 \(\Theta_I\) 退化为

\[\Theta_I = I_{z_{\max}},\]

即仅依赖一个法官的信息。

启示（幻灯片第19–20页）：
- 若数据不拒绝IV单调性，则 \(\bigcap_z I_z = I_{z_{\max}}\)，有无单调性 bounds 相同；
- 若数据拒绝IV单调性，则 \(\bigcap_z I_z \subsetneq I_{z_{\max}}\)（因为存在违者（defiers）提供额外信息），因此无单调性的 bounds 更窄，强制单调性反而会得到更宽的 naïve bounds。

三、报告主体：讲者讲了什么¶

以下按发言顺序整理，每条带大致时间戳 [H:MM:SS]。口语转写与幻灯片（权威）融合，有歧义处已做说明。

[0:00:07–0:01:31] 开场与动机
- 介绍了法官设计（judge design）在应用中的流行（Kling 2006; Mueller-Smith 2015; Aizer & Doyle 2015 等），并非只能用于法官，也可用于专利审查员、儿童福利调查员、检察官、医生轮班等。
- 两个标准工具：TSLS 和 MTE 曲线。
- 两大批评：
1. IV单调性在法官设计中常被数据拒绝（Frandsen et al. 2023; Agan et al. 2023 等）；
2. 即使单调性成立，LATE 的政策相关性存疑——政策（如鼓励释放）影响的群体与LATE的compliers未必一致。

[0:01:31–0:10:38] 设置与贡献
- 讲者将反事实政策看作一个未观测的IV \(A\)，在数据中 \(A=0\)，但感兴趣的是 \(A=1\) 时的平均结果 \(\theta\)。
- 三大贡献（幻灯片第4页）：
1. 建立显式政策评估框架；
2. 给出识别集的线性规划表征，无需枚举指数多个响应类型；
3. 证明IV单调性在很多政策下无助于收紧 bounds，但若滥用则可能使 bounds 更宽。
- 强调：IV单调性既非必要也非充分条件；注意力应转向其他更合理的限制（如松弛政策不变性）。

[0:10:42–0:18:23] 正式设置与三类限制
- 明确符号：潜在处理 \(D(z,a)\)，政策不变性（policy invariance）假设很强，它等价于将 \((Z,A)\) 视为一个多元IV并满足IV单调性（Heckman et al. 2006; Mogstad et al. 2021 指出这通常不合理）。
- 区分 边际限制（per-judge marginal）与 跨工具限制（cross-instrument）。政策实施细节给出边际限制（如配额），政策单调性是边际限制；IV单调性是跨工具限制。

[0:18:23–0:23:17] 第一个主要结果：线性规划表征（幻灯片第11–14页）
- 关键洞见：目标量和观测数据均只涉及每个法官的边际分布，无需联合分布。
- 令 \(\pi_{y_0,y_1,d_0,d_1|z} = P^*(Y(0){=}y_0,Y(1){=}y_1,D(z,0){=}d_0,D(z,1){=}d_1)\)。则存在 \(P^*\) 生成数据 \(P\) 当且仅当：
1. 与数据匹配：\(\sum_{y_0,d_1}\pi_{y_0,y_1,1,d_1|z} = P(Y=y_1,D=1|Z=z)\)，类似 \(D=0\)；
2. 不同法官间 \(Y(1),Y(0)\) 的联合分布一致：\(\sum_{d_0,d_1}\pi_{y_0,y_1,d_0,d_1|z} = \pi_{y_0,y_1}\) 对所有 \(z\) 相同；
3. 概率非负、和为1。
- 目标 \(\theta = E[Y(D(Z,1))]\) 是 \(\pi\) 的线性函数，因此可在线性约束下通过LP计算 bounds，变量数 \(\asymp K \times \#Y^2\) 而非 \(4^K \times \#Y^2\)。离散化结果会得到保守 bounds。

[0:23:17–0:25:32] 推断方法
- 使用投影法（projection）：先对数据概率 \(\hat{P}\) 构造同时置信带（也许用bootstrap或Gaussian近似），然后通过LP求解最大化/最小化 \(\theta\) 的置信区间（Andrews et al. 2023; Cox & Shi 2023; Fang et al. 2023）。幻灯片第15页给出具体形式。

[0:25:32–0:33:07] 第二个主要结果：IV单调性不帮助的条件
- 先讲最简单的例子（见上节最小内核），然后抽象出命题（幻灯片第20页）：
假设政策单调性成立，且要么 (a) \(Y(0)=0\)，要么 (b) \(D(z,1) \ge D(z_{\max},0)\)（政策“足够强”）。
若数据不拒绝IV单调性，则强制与否不改变识别集。
- 如果数据拒绝IV单调性，则 naïve 强制单调性得到的 bounds 要么更宽，要么为空。
- 拓展说明：IV单调性在更复杂政策（如“中等释放比例”）时可以帮助，但讲者猜测在实践中影响很小（引用Kamat 2019关于联合分布可识别性的观察）。

[0:33:07–0:38:12] 政策不变性 vs 松弛政策不变性
- 政策不变性可点识别（如要求所有法官与最宽松法官释放相同的案件集），但通常太强。
- 引入 分歧率 \(\delta\)：\(\Pr(D(z,1)=1 \mid D(z_{\max},0)=1) \ge 1-\delta\)，即最宽松法官释放的人中，另一法官在政策下不释放的比例至多为 \(\delta\)。
- 该限制可简单融入LP，且可由面板数据校准（Sigstad 2023 给出实际分歧率约7–26%）。
- 同时指出：也可对任意法官对施加类似限制。

[0:38:12–0:47:15] 实证应用：Agan, Doleac, Harvey (QJE 2023)
- 背景：麻州检察官随机分配，处理为是否撤销指控（non-prosecution），结果为两年内是否重新犯罪（二元）。
- 样本：10名案件最多的检察官（均 \(\ge 1825\) 件）。IV单调性被拒绝（两个类似non-prosecution率的检察官 #308 和 #342 结果不同）。
- 反事实1：消除检察官裁量权，即全部起诉（\(D(z,1)=0\)）。
- 无单调性 sharp bounds: [35.8, 36.6] (CI [32.7, 40.2])；若只看最严厉检察官（IV单调性 naïve），得 [29.4, 36.6] (CI [27.3, 38.8])。前者上界远窄于后者，且能推断犯罪率必定高于现状33.7%（从而政策有害）。
- 直觉：各检察官 bounds 的交集仅取决于两个极端检察官。
- 反事实2：要求所有检察官的非起诉率达到最宽松者的水平（约16.2%）。
- 无其他限制时 bounds 很宽 [27.4, 39.9]（因为大量从未被释放之人可被任意赋值）。
- 加入分歧率 \(\delta\)：数据要求 \(\delta \ge 0.11\)（必然存在一些违者）。若 \(\delta \le 0.18\)，则点估计表明犯罪率低于现状（33.7%），CI 略宽。
- 参照 Sigstad (2023) 的分歧率校准值 7%–26%，说明该假定可在合理范围内得到有信息量的结论。

[0:47:15–1:02:30] 讨论环节（Edward Vytlacil）
- Vytlacil 将本框架与 LATE / MTE 比较，指出本工作将政策本身视为IV的做法“巧妙且意外地有效”。
- 重点：本框架不定义“以不同法官分配的响应类型”为基础的参数，因为目标参数不需要；线性结构源自对潜在概率的定义方式（将政策作为IV纳入）。
- 讨论了强加IV单调性在测试外生性时的价值（若相信单调性则拒绝单调性可能意味着外生性也被拒绝）。
- 讲者回应：分歧率松弛与MTE框架的取舍（后者可加入模型对MTE函数的 smoothness 假设，前者不能直接做但可添加单调处理响应等结果限制）。

[1:02:30 结束]

四、对应论文与开放问题¶

对应论文
- Kolesár, Michal, José Luis Montiel Olea, and Jonathan Roth. Evaluating Counterfactual Policies Using Instruments. 工作论文，2025。
- 报告无明确arXiv号，合作者、标题、内容与幻灯片完全一致。转写中讲者提到“joint project with Jonathan Roth and Pepe（José Luis Montiel Olea的昵称）”，权威材料已确认。
- 讨论人 Edward Vytlacil（耶鲁大学）是MTE框架的奠基人之一。
- 相关论文：Bai, Yuehao, Azeem M. Shaikh, and Edward J. Vytlacil (2024) “Sharp bounds on treatment effects with binary outcomes and a binary treatment” 等工作使用了类似类型枚举方法。

开放问题（来自报告及讨论）
1. 边际释放者的结果限制（幻灯片第31页）：“Are there reasonable restrictions on outcomes of marginally released?” 讲者提到“if judges competent, would expect marginally released defendants to be worse than always-released”，但未深入。这指向单调处理响应或分布假设，如何融入LP并保持线性？（转写约 [0:58:12] 讲者回应提到MTE框架可通过光滑性假设施加限制，但分歧率框架未直接实现）。
2. 分歧率 \(\delta\) 的先验定义与校准：在多法官场景下，如何定义“最宽松法官”并计算分歧率？若有多维指标（如不同罪行类型分歧率不同），如何选择合适的 \(\delta\) 范围？Sigstad (2023) 的校准是否适用于其他法官集？（转写 [0:40:58–0:42:05]）。
3. 线性规划置信区间的精确性：投影法在离散化结果时可能保守，但也可能因同时置信带的取法而损失效率。最优推断方法的选择仍是一个开放问题（Andrews et al. 2023 给出多种方法，但需权衡计算效率和覆盖精度）。
4. 与PRTE框架的整合：Vytlacil 在讨论中指出本框架未利用政策变化与法官变动之间的共同结构；是否可将分歧率与MTE中的潜在选择模型结合，在放松政策不变性的同时保留部分预测能力？（约 [0:48:30]–[0:49:20]）。
5. 连续结果与高维IV：幻灯片第5页提到“most results go through with continuous \(Z\)”，但具体如何扩展到连续结果变量（非线性约束？需要离散化）以及连续IV（非参数核平滑？）的 LP 维度控制仍待细致讨论。

——以上开放问题均基于报告内容，不评价其可行性或与研究者武器库的匹配程度。

Maintained by 陈星宇 · Homepage · Source on GitHub

Evaluating Counterfactual Policies Using Instruments¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论