ocis-2020-10-12-interview-with-esther-duflo¶

讲者: Interview with Esther Duflo
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-10-12
主题: 因果推断
视频: https://www.youtube.com/watch?v=WWW9q3oMYxU&feature=youtu.be

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

报告性质：这不是一场技术性学术报告，而是访谈。Esther Duflo 作为 RCT 在发展经济学中的主要推动者，以亲身经历和观点回应因果推断社群（OCIS）的提问。整场访谈围绕一条核心问题线：田野实验（RCT）在发展中经济学的因果识别中扮演什么角色？其方法论缺口与政策转化路径是什么？

子方向定位：
这场访谈可放在 “随机化实验在经济学因果推断中的应用与挑战” 这一宽泛子方向下。该方向的奠基人是 Joshua Angrist（LATE 框架、IV 与自然实验）和 Guido Imbens（因果推断计量理论），而 Duflo、Abhijit Banerjee、Michael Kremer 则将 RCT 从方法论工具箱升格为发展经济学的主流实证范式，并搭建了 J-PAL 这一规模化基础设施。主流路线的特征是：用随机分配消除混淆，但面临外部有效性、干扰、多重比较、实操约束等挑战。近期 frontier 包括：结合机器学习的异质性处理效应、自适应试验设计、用合成控制法进行政策推广评估、以及更精细的多重假设检验方法。

这场报告站在：
Duflo 作为“内部人”兼“运动领袖”，既不教授具体识别条件（如 Neyman 正交性、影响函数），也不给出新公式，而是从实践者角度指出当前方法论工具的不足，尤其集中在：
- 多重假设检验对高维结局数据的适配性
- 在政府合作约束下如何设计自适应试验
- 异质性处理效应与个性化政策推荐
- 干扰（网络溢出）的识别与测量
- 合成控制方法在发展中场景的被低估潜质

这些正是因果推断方法论研究的前沿阵地，也直接对应研究者的兴趣（半参数效率理论、高维统计、因果推断与机器学习交叉）。

有把握的关键工作（依据转写中明确提及的贡献者）：
- Kremer (1994)：肯尼亚教科书实验——早期规模极小的 RCT，发现无效应，促使后来规模化。
- Duflo & Banerjee et al. (多处)：印度妇女领导权自然实验（利用宪法规定的随机席位预留），研究女性领导对公共品提供、性别偏见、女孩受教育期望的影响。
- Duflo, Banerjee, Kremer (2015 Science)：跨多国的“教学按学生水平分组”项目评估——转写[0:13:10]提到“your recent 2015 Science paper”（可能是 Banerjee et al. 2015 Science 或 Duflo 参与的大规模合作，需核对原文）。
- Imbens 的“替代指标”工作（[0:25:15] 提到“Guido's work on surrogates”——很可能是 surrogate endpoint 相关，如 Athey, Chetty, Imbens, 等近期研究，但转写未给出标题，需核实）。
- Ben Olken 在巴基斯坦的税收激励实验（[0:27:07]）——典型的大规模政策合作 RCT。
- Pascaline Dupas 的蚊帐定价实验（[0:40:00]）——影响全球疟疾防治政策的经典例子。
（注：以上人名可能被 ASR 轻微拼错，已按领域常识校正。）

二、最小内核 / 一个最简例子¶

符号与设定（以 RCT 为基本框架）：

可观测数据：\( (Z_i, X_i, Y_i) \)，\( i=1,\dots,n \)。
\( Z_i \in \{0,1\} \)：随机分配的处理指标（1=处理，0=对照）。
\( X_i \)：协变量（如学校规模、地区特征）。
\( Y_i \)：结局（如考试成绩、免疫率）。
潜在结果框架：每个个体 i 有两个潜在结果 \( Y_i(1) \)（若接受处理）和 \( Y_i(0) \)（若未接受）。实际观测 \( Y_i = Z_i Y_i(1) + (1-Z_i)Y_i(0) \)。
目标 estimand：平均处理效应 \( \tau = \mathbb{E}[Y_i(1) - Y_i(0)] \)。
随机化保证：\( Z_i \perp (Y_i(0), Y_i(1)) \)（理想 RCT）或条件独立给定 \( X_i \)。
潜在不可观测量：每个个体只能观测到一个潜在结果，缺失的反事实。

最简例子——肯尼亚教科书实验（转写[0:03:41]–[0:05:06]）：

设计：Kremer 将14所学校随机分为7所接受教科书（处理）和7所不接收（对照）。全校作为随机化单元（聚类）。
意图：检验免费教科书能否提高学生学习成绩。
发现：第一次（14校）和第二次（100校）均未找到统计显著效应。即使改用专门设计的测试，仍无效应。
为什么这是一个有启发性的例子：
随机化消除了选择偏差，但未控制聚类效应——校数少导致效力不足，这是后来做更大规模的最初动力。
测量误差：官方考试天花板效应（孩子们都得零分）使得信号被噪声淹没，讲者将其识别为一个方法论教训。
直觉失败：事前人人认为教科书必然有效，但 RCT 给出了相反答案，这正是 Duflo 强调的“摆脱直觉”的价值。
后续：这一负结果促使研究者关注更精细的干预（如补习教育、按学生水平分组教学），并推动了“积累证据拼图”的理念。

这一例子浓缩了整场访谈的多数关键问题：
- 如何理解单一实验的外部有效性 → 通过叠加更多实验点来构建证据马赛克（[0:15:42] “pointillist painting”）。
- 当单位是聚类时如何处理推断 → 需要更大随机化单元数或更好级别随机化。
- 结局指标的设计 → 直接与多重比较、高维数据、机器学习方法相关。

三、报告主体：讲者讲了什么¶

以下按时间顺序整理 Duflo 的回答要点，并标出对应时间戳。每个标记 [H:MM] 为转写中近似时间。

[0:00:00–0:01:20] 开场与背景¶

主持人介绍 Duflo 的身份与荣誉：MIT 教授、克拉克奖、麦克阿瑟奖、2019年诺贝尔经济学奖（与 Banerjee、Kremer）。访谈目的：请 Duflo 分享从自然实验转向 RCT 的动机、J-PAL 的建设、面对批评的思考，以及对方法论开放问题的看法。

[0:01:28–0:07:08] 从自然实验到 RCT¶

博士阶段师从 Josh Angrist，做自然实验（印尼学校扩建），[0:01:50] 提到“effect of schools in Indonesia” —— 这是 Duflo (2001) QJE 论文（Duflo 2001, “Schooling and Labor Market Consequences of School Construction in Indonesia”）。
[0:03:00] 在研究生课堂上首次了解 Kremer 和 Banerjee 正在做的 RCT：教科书实验。
详细讲述教科书实验经过（[0:03:41–0:05:06]）：波澜不惊的结果与不断改进测量，让她深感 RCT 在检验直觉上的威力。
[0:06:18] 她认为“理想实验就是 RCT 本身”——获得教职后决定直接做 RCT，而不是试图接近它。

[0:07:09–0:12:12] J-PAL 的建设动机¶

三大动机：
避免重复犯错（[0:08:50]）——第一次 RCT 出现地震、骚乱、数据录入错误等，需要制度化学习。
共享调研团队与基础设施（[0:10:07]）——防止依赖普通调查公司（ethics 不同）。
与政策制定者沟通（[0:10:36]）—— Duflo 选择经济学就是为了改变世界，不能仅在办公室发表论文。
[0:11:28] 早期 J-PAL 只有8人，一个简陋网站，但产生了正反馈循环，后来借助 Rachel Glennerster 和 Iqbal Dhaliwal 的运营发展壮大。

[0:12:12–0:19:16] 可推广性/外部有效性（针对 Deaton 批评）¶

[0:13:42] 回应：可推广性是任何基于观测的方法都有的问题，不是 RCT 独有的。
[0:14:17] 纠正“RCT 都是小规模”的误解：当前 RCT 往往涉及数万到数十万人（如印度哈里亚纳邦免疫项目涉及30万儿童）。
[0:15:28] 类比：每个实验像一个点画中的一个点，积累起来才形成画面。通过同一干预在不同国家重复（如 2015 Science 论文）、同一国家不同版本干预（如教育培训的多种变体）来构建理论。
[0:16:54] 关键主张：实验与理论之间需要来回反馈——理论指导实验设计，实验结果更新理论，循环迭代。
[0:17:46] 提出“政策实验”：在规模化实施前，直接在规模上做 RCT，同时尝试多个版本，以容纳真实世界的混乱（“invite the mess in”）。

[0:19:16–0:20:28] 为什么医学 RCT 外部有效性争议更小？¶

Duflo 推测：人体生物学机制更稳定；但她也指出药物 RCT 同样存在外部有效性争议（如缺乏非洲裔美国人、老年人、孕妇的试验）。

[0:20:37–0:21:52] 如何回应“RCT 只能回答小问题/无法触及宏大问题”（来自听众提问）¶

[0:21:54] 区分：她并不回答“aid in general alleviate poverty”这种无法实验的问题。她更爱回答“well-defined, can answer”的问题。
[0:22:46] 认为 RCT 也可用于理解机制（如人们对激励的响应程度），这些“小结论”可被结构性模型组装。
[0:23:44] 强调“credibility revolution”（Angrist & Imbens）迫使非实验研究者也以实验为模板精确建模。例如 Acemoglu 关于制度长期影响的工具变量研究，虽无实验但仍透明且有用。
[0:25:08] 提到 Guido Imbens 关于“替代指标/surrogates”的工作——连接短期 RCT 效果与长期结果估计（[0:25:15] “Guido's work on surrogates”）。
[0:25:26] 认为实验参数可被结构性模型使用，是方法整合的途径。

[0:25:53–0:27:45] 最想做的实验 vs. 实际更惊喜的事¶

[0:26:12] 自己很少做梦想实验，反而被年轻研究者的创造力不断打动（如 Ben Olken 在巴基斯坦与税务部门合作、刚果的复制）。J-PAL 的壮大带来意想不到的进展。

[0:27:51–0:35:08] 开放方法论问题（核心部分）¶

主持人（Michael？）问：对统计学家/方法论学家来说，哪些开放问题最重要？

(1) 高维结局与多重假设检验 [0:28:50]
现状：典型 RCT 有大量结局变量（>= 随机化单元数）。目前多重推断方法太“暴力”（Bonferroni、FDR 等），要么效应被试错掩盖，要么随意挑选显著结果。
[0:31:52] “我不喜欢现在多重推断的状态……完全蛮力。你的数据是花心血收集的，应该有更精细的方法利用结果之间的相关结构。”
[0:33:12] 过度依赖预分析计划（pre-analysis plan）约束了数据利用。她希望允许一定程度的事后探索但不失控。
她是一个明确的需求方：需要既能控制多重性、又能保留白噪声下真实信号的统计方法，且应利用多变数之间的相关结构。
(2) 多臂试验与最优分配 [0:29:53]
[0:30:04] 典型发展 RCT 往往有数十种处理组（如哈里亚纳免疫项目有75个处理组合），随机化单元有限。
问题：“what works best”和“what works best for whom”（个性化/异质性处理效应）。
[0:30:51] 提到“personalized medicine”组合预测与随机化，但仍未成熟。
[0:31:05] 提到自适应试验（adaptive trials），但在发展背景下不能像 AB 测试一样频繁调整——政府合作伙伴无法每两周换方案。
需要在设计阶段就考虑最优分配策略，在有限沟通周期内最大化信息。
(3) 合成控制法在发展经济学的应用 [0:35:16]
[0:35:53] 合成控制法目前未被发展经济学广泛使用，但数据可用；她认为其即将回归。
应用场景：把 RCT 结果推广到政策采纳后的非随机缩放阶段（staggered adoption），用合成控制法测试效应是否维持。
另一个变种：用合成控制的思想为每个子组寻找最佳处理（[0:37:19] 有人将合成控制法用于个性化治疗选择）。

[0:37:54–0:43:05] 与政策制定者的关系¶

J-PAL 三大支柱：方法、实施、政策影响；政策组在全球工作，主动衔接政策需求。
例子：Pascaline Dupas 的免费蚊帐实验改变全球防疟策略（大量发放免费蚊帐）；哈里亚纳省免疫项目是与省政府合作的盘子实验。
强调：政策影响很少是“一次 ppt 说服”，而是长期互动与嵌入。

[0:43:08–0:47:51] 女性领导力自然实验（Duflo 自己的研究）¶

印度宪法为妇女预留1/3村委会席位（随机分配），Duflo 用以研究：
女性领导者投资更多于饮用水和卫生设施（而非教育）。
选民对女性领导者的偏见（初感厌恶，但接触后改变能力感知，在预留解除后愿再投票给女性）。
角色模型效应（女孩受教育期望提升、实际就学年限延长）。
[0:46:55] 她本人由此改变对平权措施的立场，从“让最好的人胜出”转向支持为女性和少数族裔设预留席位。

[0:48:00–0:50:40] 未来贫困问题中的田野实验方向¶

长期紧迫问题：全民基本收入（UBI）在贫穷国家的效果正在被实验研究，但需要时间。
更开放：世界不需要银弹，而是需要许多点画——年轻研究者会持续给出惊喜。

[0:50:50–0:53:14] 干扰/溢出效应的处理¶

[0:51:14] 承认目前工具“勉强够用”，但强调实验设计阶段就考虑溢出最重要（事后难以修正）。
举例：多层随机化（村内/村间），测量均衡效应；自己曾做法国劳动力市场的整群随机化（随机化劳动市场整个地区）。“当时觉得很大胆，现在大家常做。”

[0:53:16–0:57:28] 对年轻研究者的建议¶

经济学是一个能连接研究到政策的优秀学科；统计方法学也可发挥更大直接作用。
只要学得扎实，总能找到用处。

四、对应论文与开放问题¶

(a) 对应论文（来自转写中明确提及）¶

转写提及	论文/项目（标注不确定性）
[0:01:50] “effect of schools in Indonesia”	Duflo, E. (2001). Schooling and Labor Market Consequences of School Construction in Indonesia. QJE.
[0:03:41] 教科书实验	Kremer (或 Glewwe, Kremer, Moulin 1990s-2000s)
[0:13:11] “your recent 2015 Science paper”	可能指 Banerjee, Duflo et al. (2015). Teaching at the Right Level: Evidence from multiple countries. Science. （需核对准确标题）
[0:25:15] “Guido's work on surrogates”	可能指 Athey & Imbens (2016) 关于替代指标的收束，或相关 working paper（需查）
[0:27:07] Ben Olken 在巴基斯坦的税务实验	未给出标题
[0:40:07] Pascaline Dupas 的蚊帐定价实验	Dupas (2014). Short-Run Subsidies and Long-Run Adoption of New Health Products.
[0:44:00] 印度妇女预留席位	Duflo & Chattopadhyay (2004, Econometrica); Beaman, Duflo et al. (2009, QJE); Beaman et al. (2012, Science)

（注：所有合作者及标题均未在转写中被完整给出，以上仅凭领域常识推断。强烈建议查原文确认。）

(b) 开放问题（只罗列，不评判可操作性）¶

多重假设检验的高维变体（[0:31:52]–[0:32:40]）：在结局变量数量超过有效随机化单元时，如何利用结局间的相关结构做更精细的多重校正？现有方法要么太严格（Bonferroni），要么太随意（后选显著指标）。
约束下的自适应试验设计（[0:31:16]–[0:31:40]）：在发展中国家，无法频繁调整处理分配（政府合作伙伴每数月甚至一年才能改一次）。如何设计固定阶段、分批进行的自适应实验？
异质性处理效应与个性化策略（[0:29:53]–[0:31:00]）：如何将机器学习预测与随机化结合，以得出“谁最受益”并指导政策分配？目前仍在蹒跚探索阶段。
合成控制法在政策推广评估中的应用（[0:36:20]–[0:36:58]）：RCT 证明有效的干预被规模化采纳（非随机），如何用合成控制法为其因果效应提供事后证据？
干扰/溢出的识别与测量（[0:50:54]–[0:52:24]）：尽管一些实验设计（多层随机化）有效，但事后补救工具仍不成熟。需要更适合观测数据的溢出效应识别方法。
将实验参数嵌入结构性模型（[0:25:26]–[0:25:40]）：虽然已有一些工作，但如何系统地将 RCT 估计值校准到经济结构模型中并量化不确定性，仍是开放方向。

Maintained by 陈星宇 · Homepage · Source on GitHub