Can teaching be taught? Improving teachers' pedagogical skills at scale in rural Peru¶
作者: Juan F. Castro, Paul Glewwe, Alexandra Heredia-Mayo, Stephanie Majerowicz, Ricardo Montero
来源: Quantitative Economics
主题: 经济理论 / 应用
相关性: 4/10
机构绿灯: University of Minnesota(US News 前 50,免分进入精读)
链接: https://doi.org/10.3982/qe2079
一、领域脉络与小综述¶
这个方向是什么¶
本子方向研究大规模教育干预的因果效应估计,核心挑战在于:真实政策环境中普遍存在动态依从性(教师/学生跨期流动),导致传统随机对照试验(RCT)的“分配即处理”假设失效。该方向的根本问题是:在非实验性流动下,如何定义并识别有政策意义的处理效应参数? 成熟度方面,LATE框架已在静态非依从性中广泛使用(Angrist, Imbens & Rubin 1996),但动态(多期)设定下的识别与估计仍属活跃前线,尤其在高流动率背景(如农村学校)下。
发展脉络(基于一般文献知识 + abstract中作者自述)¶
- 奠基工作:Angrist, Imbens & Rubin (1996) 提出使用工具变量(随机分配)识别局部平均处理效应(LATE),解决静态非依从性。该方法成为政策评估的黄金标准。
- 主要进展:后续研究将LATE扩展到动态多期设定,如允许个体在多个阶段切换处理状态。Frolich (2004) 讨论了多期工具变量;Lehrer & Kosec (2011) 讨论了教师流动对项目评估的干扰。但这些工作通常假设处理分配和依从性在时间上独立或可分离。
- 当前frontier:在高流动率环境中(如本文的秘鲁农村教师轮岗),“处理学校”的教师构成逐年变化:原本未受训的教师可能调入、原受训教师可能调出。这产生了非可观依从性——无法仅凭初始分配决定实际接受的辅导剂量。作者指出:“teacher turnover can erode compliance and cause spillovers onto non‐program schools”(abstract)。现有方法难以处理这种跨期依从性变化与溢出效应。
- 本文的位置:本文开发了一个考虑教师动态流动的处理效应框架,明确定义了“全程受辅导教师”、“部分受辅导教师”等参数,并借助工具变量(随机分配)与“实际接受辅导”这一内生的处理变量,用LATE思路估计这些参数。这是对动态非依从性文献的直接推进,且结合了真实大规模实验数据(3797所学校)。
子线索聚类¶
此方向被引文献大致分为两条线索:
- 静态LATE与工具变量:单期依从性处理,使用IV估计(Angrist et al. 1996; Imbens & Rubin 2015)。本文继承了其识别逻辑(随机分配为IV)。
- 多期/动态处理效应:讨论处理在时间上变化时的因果参数定义与识别(Robins, 1986; Hernán & Robins, 2020;结构嵌套模型)。本文采用LATE而非g-methods,属于另一条发展路线——强调分配机制(随机化)而非测量时变混杂。
作者没有引用后一条线索中的结构性方法(如g-formula、IV with time-varying confounding),可能因为他们强调实验设计(随机分配),而非观察性纵向数据。这一回避是否合理,值得研究者自行判断。
这个方向在追问的核心问题¶
- 在高流动率下,什么才是“依从”的定义? 是“始终受处理”还是“至少一段时间”?不同定义对应不同政策意义。
- 哪些因果参数在动态非依从性下仍可识别? 本文给出了部分参数(如“全程受辅导教师”效应)可识别的条件,但未涵盖所有可能。
- 如何处理由流动导致的溢出效应? 当处理学校的受训教师调离后去往非处理学校,会污染对照组,从而稀释ITT估计。
- 如何将LATE估计的局部效应推广到目标群体? 外推性问题在政策评估中普遍存在,本文未涉及。
⚠️ 作者的 framing(基于abstract原文)¶
作者将其贡献框架为:“We develop a framework that defines different treatment effects when teacher turnover is present, and explains which effects can be estimated.” 他们强调定义和识别是首要贡献,而估计结果(0.20 SD教师技能提升、0.106 SD数学成绩等)是次要的实证展示。作者淡化了与已有多期IV文献的联系(未在abstract中比较),并且回避了教师流动内生性——流动本身可能受教师能力或学校特征影响,本文使用随机分配作为IV只能解决依从性问题,不能解决流动选择。什么明显该存在却未出现:没有提到两阶段最小二乘(2SLS)的具体估计量形式,也没有讨论弱工具变量问题(教师流动率高可能弱化相关性)。
张力¶
未见明显对立引用。本文是典型的LATE应用扩展,与主流文献兼容。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 记号:
- \( Z_i \):学校 \(i\) 的随机分配(1=辅导项目学校,0=控制学校)。外生且可观测。
- \( D_{it} \):学校 \(i\) 在时间 \(t\)(学年)实际有教师接受辅导 的指示变量(可随时间变化)。内生的,受教师流动影响。
- \( T_{it} \):学校 \(i\) 在时间 \(t\) 的教师群体是否“全程被辅导”的度量(例如某教师自项目启动起一直在该校且接受了辅导)。定义复杂,但核心是“剂量”。
- \( Y_{it} \):学生成绩(数学/阅读)或教师教学技能评分。可观测。
-
样本量:\( N = 3797 \) 所学校。
-
统计模型(简洁表述):
数据来自整群随机试验:学校为单位随机分配 \( Z_i \),但处理 \( D_{it} \) 受教师流动(非依从)影响。作者假设随机分配 \( Z_i \) 是潜在处理状态(潜在剂量)的工具变量,即满足:排他性(\( Z_i \) 仅通过 \( D_{it} \) 影响结果)和相关性(\( Z_i \) 影响实际 \( D_{it} \))。潜在结果的设定:每个学校有其潜在处理序列 \( D_i(1), D_i(0) \) 与潜在结果 \( Y_i(1), Y_i(0) \)。 -
可观测数据:
研究者能观测到:每个学校 \( i \) 的分配 \( Z_i \);每个时间点 \( t \) 的实际处理状态 \( D_{it} \)(比如学校年度报告是否有受训教师);学生成绩 \( Y_{it} \)(年级水平)。不可观测的是:教师离开后的新教师是否受过辅导(若来自控制组则未),以及如果学校被分到另一组时的潜在结果。
第二步:最小内核——双期、两类依从性¶
去掉所有复杂性,考虑最简单的两期设定(第1年、第2年),且只关心“教师技能”这一结果。假设:
- 每个学校只有1名教师。
- 第1年:所有学校教师固定,辅导项目在第1年随机分配给学校(\( Z_i \))。
- 第1年结束:教师可能离职,第2年有新教师加入。
- 新教师可能来自其他学校,其辅导经历未知。
- 我们想估计“全程受辅导教师”(即第1年和第2年都是同一位受辅导的教师)对教师技能提升的因果效应。
核心难题:第2年的实际教师受辅导状态 \( D_{i2} \) 与第1年的分配 \( Z_i \) 不完美相关——因为新教师可能没受过辅导(即使学校被分配为处理组)。传统ITT估计 \( E[Y_i | Z_i=1] - E[Y_i | Z_i=0] \) 会被第2年教师流动稀释。
本文关键想法:利用两个时期的实际辅导状态(\( D_{i1}, D_{i2} \))联合定义依从性类型。假设个体(学校)依从性类型是稳定的(potentially always-taker, never-taker, complier, defier),但对时间有依赖性:定义“全程依从者”为那些在第1年和第2年均接受辅导的学校(\( D_{i1}=1, D_{i2}=1 \)),当被分配处理时。然后使用ITT策略的两阶段最小二乘变形:第一阶段的回归使用 \( Z_i \) 预测 \( D_{i1} \) 和 \( D_{i2} \) 的联合分布;第二阶段估计全程依从者子群中的平均效应。在简单例子中,如果假设无排他性违背(\( Z_i \) 不直接通过教师流动影响结果,仅通过实际辅导)且单调性(\( D_i(Z) \) 关于 \( Z \) 非减),那么全程依从者效应可被识别为:
这就是多期LATE的一个实例,分母是“全程接受辅导”的概率差异。本文本质上做了这个推广,只是分母是向量(不同依从模式),通过工具变量回归实现。
三、这篇论文做了什么¶
三句话¶
① 研究了秘鲁大规模教师辅导项目(coaching)对教师教学技能和学生成绩的因果效应,并重点应对教师高流动导致的动态非依从性;② 核心工具是基于随机分配为工具变量、定义多种处理剂量的LATE识别框架,将传统的单期IV扩展到“始终处理”等复合剂量;③ 主要结论:两年后教师技能提升0.20 SD;学生成绩在第一年(二年级)提升0.106 SD(数学)/0.075 SD(阅读);三年累积效应0.114/0.100;若教师全程受辅导,效应提升至0.18/0.16 SD。
关键设定与假设¶
- 设定:2016年秘鲁农村3797所学校中随机选择学校接受教师辅导项目。教师每年观察一次教学技能;学生每年参加标准化考试。教师流动率很高(文中应报告具体数字,abstract未给出)。
- 假设:
- 随机分配有效性:学校级别 \( Z_i \) 是随机分配的,与潜在结果独立。
- 排他性:\( Z_i \) 仅通过教师接受辅导的途径影响学生成绩(不能直接影响,例如通过资源或士气)。
- 单调性:\( D_{it}(1) \ge D_{it}(0) \) 对所有 \( i,t \) 成立(分配处理不会减少实际接受辅导的概率)。
- 相关性:\( Z_i \) 显著预测某些处理剂量(如全程受辅导指标)。
- 相比已有文献:本文没有引入如无交互作用或时序结构独立的强假设;但通过定义多期剂量,放松了“处理状态不随时间变”这一单期IV隐含要求。代价是识别参数的选择性(只能识别一部分剂量的LATE)。
主要结果(理论部分较少,以估计值为核心)¶
- 教师技能:项目对整体教师教学技能的ITT效应为0.20 SD(两年后)。作者未给出标准差,但应显著。
- 学生成绩(ITT):
- 一年级后(2017):数学0.106 SD,阅读0.075 SD。
- 三年累积(2018):数学0.114 SD,阅读0.100 SD。
- 全程受辅导教师的LATE:数学0.18 SD,阅读0.16 SD。显示了稀释效应确实存在(ITT被教师流动压低)。
- 量化结论对比:本文效应量属于中等偏下范围(许多发展中国家小规模研究可达到0.3–0.5 SD)。作者将此归因于项目规模化后的质量控制问题和教师流动。
- 稳健性:应包含多种处理剂量定义(如“至少两年”等),以及排除部分流动学校的子样本分析。abstract未提,但根据框架应有调整。
证明路线与技术技巧¶
本文属于应用方法型,无严格定理证明。但识别策略可视为一个渐进性论证:
- 定义多期处理剂量:定义 \( D_i^{(k)} \) 为学校 \( i \) 在 \( k \) 期中“始终接受辅导”的指示变量(需跨越教师流动)。更一般地,定义多种模式。
- 工具变量可识别性条件:证明如果单调性成立且无互动溢出,则针对任意剂量 \( D_i^{(k)} \),以 \( Z_i \) 为工具、\( D_i^{(k)} \) 为内生变量,通过2SLS可估计“始终接受该剂量”学校的平均效应。
- 估计步骤:
- 第一段回归:用 \( Z_i \) 预测 \( D_i^{(k)} \),得到拟合值 \( \hat{D}_i^{(k)} \)。
- 第二段回归:用 \( \hat{D}_i^{(k)} \) 预测结果 \( Y_i \),系数即LATE。
- 处理教师流动带来的测量问题:例如,如果第2年新教师来自控制组,该学校 \( D_{i2} \) 为0,但第1年有辅导,整体剂量定义要区分“全程”和“部分”。本文框架提供了明确定义。
技术技巧:没有复杂的数学技巧,而是识别策略的清晰刻画。关键技巧是“将内生变量的定义从二元变成复合指标”,这属于分类依从者的经典方法。此外,实证中使用聚类标准误,但abstract未提及。
真实例子与应用¶
- 数据:秘鲁农村学校,2016年随机分配,2017-2018年跟踪。教师教学技能由专门评测量表获得;学生成绩来自国家标准化考试(ECE)。
- 方法应用:根据教师流动数据,定义每位教师是否在该校任教超过1年并接受了辅导。构造“始终受困教师”指标。使用2SLS估计。
- 结果:如上。作者对比了ITT与LATE,说明流动对效应稀释的解释力。
- 例子想说明:即使在大规模随机干预中,动态依从性会严重低估真正处理效应;本文框架有助于恢复实际剂量上的效应,为政策制定者提供更真实的“辅导教师对学习的影响”估计。
🔎 结论是否比证明窄¶
本文实证估计仅针对“全程受辅导教师”,但框架允许更细致的剂量定义。作者声称框架可扩展至“部分受辅导教师”等,但实证部分未展示这些估计。因此结论的覆盖范围比框架的理论可能性窄。原文需确认是否估算了其他剂量。此外,论文未讨论defier情况(教师因项目而离开学校),单调性假设可能不成立,但作者未检验。
四、开放问题(点到为止)¶
- 如何放松单调性假设? 如果教师因不满项目而选择离职(defier),LATE框架会失效。能否使用非单调IV方法(如Imbens & Angrist 1994的凸组合解释)扩展到动态设定?
-
扎根:单调性假设在本文中属于“必须假设”,未在abstract中讨论其合理性。
-
溢出的正式处理:当受训教师流动到控制组学校时,破坏了SUTVA(稳定单位处理值假设)。本文框架未对此建模。开发允许溢出的动态IV估计量是一个明显缺口。
-
扎根:abstract明确提及“spillovers onto non‐program schools”,但框架未正式纳入。
-
剂量-反应函数的多期识别:本文只识别了“全程” vs “非全程”二元剂量。能否在连续剂量(如受训年数)下识别非参数LATE?这需要更强工具变量或剂量光滑性假设。
-
扎根:本文框架只定义了特定离散剂量,连续扩展未涉及。
-
外部有效性检验:秘鲁农村学校的结果能否推广至城市或高流动率不同的国家?作者未讨论。
- 扎根:一般政策评估的普遍局限,本文未设external validity分析。
确认提示:上述开放问题的真正缺口程度,建议查阅2019-2023年JPE/AEJ: Applied Economics中关于动态IV的5篇近期论文,看是否已有解决方案。若多数论文指向同一问题,则为本领域共识gap;若互相矛盾,则存在新机会。
Maintained by 陈星宇 · Homepage · Source on GitHub