Can teaching be taught? Improving teachers' pedagogical skills at scale in rural Peru¶

作者: Juan F. Castro, Paul Glewwe, Alexandra Heredia-Mayo, Stephanie Majerowicz, Ricardo Montero
来源: Quantitative Economics
主题: 经济理论 / 应用
相关性: 4/10
机构绿灯: University of Minnesota（US News 前 50，免分进入精读）
链接: https://doi.org/10.3982/qe2079

一、领域脉络与小综述¶

这个方向是什么¶

本子方向研究大规模教育干预的因果效应估计，核心挑战在于：真实政策环境中普遍存在动态依从性（教师/学生跨期流动），导致传统随机对照试验（RCT）的“分配即处理”假设失效。该方向的根本问题是：在非实验性流动下，如何定义并识别有政策意义的处理效应参数？ 成熟度方面，LATE框架已在静态非依从性中广泛使用（Angrist, Imbens & Rubin 1996），但动态（多期）设定下的识别与估计仍属活跃前线，尤其在高流动率背景（如农村学校）下。

发展脉络（基于一般文献知识 + abstract中作者自述）¶

奠基工作：Angrist, Imbens & Rubin (1996) 提出使用工具变量（随机分配）识别局部平均处理效应（LATE），解决静态非依从性。该方法成为政策评估的黄金标准。
主要进展：后续研究将LATE扩展到动态多期设定，如允许个体在多个阶段切换处理状态。Frolich (2004) 讨论了多期工具变量；Lehrer & Kosec (2011) 讨论了教师流动对项目评估的干扰。但这些工作通常假设处理分配和依从性在时间上独立或可分离。
当前frontier：在高流动率环境中（如本文的秘鲁农村教师轮岗），“处理学校”的教师构成逐年变化：原本未受训的教师可能调入、原受训教师可能调出。这产生了非可观依从性——无法仅凭初始分配决定实际接受的辅导剂量。作者指出：“teacher turnover can erode compliance and cause spillovers onto non‐program schools”（abstract）。现有方法难以处理这种跨期依从性变化与溢出效应。
本文的位置：本文开发了一个考虑教师动态流动的处理效应框架，明确定义了“全程受辅导教师”、“部分受辅导教师”等参数，并借助工具变量（随机分配）与“实际接受辅导”这一内生的处理变量，用LATE思路估计这些参数。这是对动态非依从性文献的直接推进，且结合了真实大规模实验数据（3797所学校）。

子线索聚类¶

此方向被引文献大致分为两条线索：

静态LATE与工具变量：单期依从性处理，使用IV估计（Angrist et al. 1996; Imbens & Rubin 2015）。本文继承了其识别逻辑（随机分配为IV）。
多期/动态处理效应：讨论处理在时间上变化时的因果参数定义与识别（Robins, 1986; Hernán & Robins, 2020；结构嵌套模型）。本文采用LATE而非g-methods，属于另一条发展路线——强调分配机制（随机化）而非测量时变混杂。

作者没有引用后一条线索中的结构性方法（如g-formula、IV with time-varying confounding），可能因为他们强调实验设计（随机分配），而非观察性纵向数据。这一回避是否合理，值得研究者自行判断。

这个方向在追问的核心问题¶

在高流动率下，什么才是“依从”的定义？ 是“始终受处理”还是“至少一段时间”？不同定义对应不同政策意义。
哪些因果参数在动态非依从性下仍可识别？ 本文给出了部分参数（如“全程受辅导教师”效应）可识别的条件，但未涵盖所有可能。
如何处理由流动导致的溢出效应？ 当处理学校的受训教师调离后去往非处理学校，会污染对照组，从而稀释ITT估计。
如何将LATE估计的局部效应推广到目标群体？ 外推性问题在政策评估中普遍存在，本文未涉及。

⚠️ 作者的 framing（基于abstract原文）¶

作者将其贡献框架为：“We develop a framework that defines different treatment effects when teacher turnover is present, and explains which effects can be estimated.” 他们强调定义和识别是首要贡献，而估计结果（0.20 SD教师技能提升、0.106 SD数学成绩等）是次要的实证展示。作者淡化了与已有多期IV文献的联系（未在abstract中比较），并且回避了教师流动内生性——流动本身可能受教师能力或学校特征影响，本文使用随机分配作为IV只能解决依从性问题，不能解决流动选择。什么明显该存在却未出现：没有提到两阶段最小二乘（2SLS）的具体估计量形式，也没有讨论弱工具变量问题（教师流动率高可能弱化相关性）。

张力¶

未见明显对立引用。本文是典型的LATE应用扩展，与主流文献兼容。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号：
\( Z_i \)：学校 \(i\) 的随机分配（1=辅导项目学校，0=控制学校）。外生且可观测。
\( D_{it} \)：学校 \(i\) 在时间 \(t\)（学年）实际有教师接受辅导 的指示变量（可随时间变化）。内生的，受教师流动影响。
\( T_{it} \)：学校 \(i\) 在时间 \(t\) 的教师群体是否“全程被辅导”的度量（例如某教师自项目启动起一直在该校且接受了辅导）。定义复杂，但核心是“剂量”。
\( Y_{it} \)：学生成绩（数学/阅读）或教师教学技能评分。可观测。
样本量：\( N = 3797 \) 所学校。
统计模型（简洁表述）：
数据来自整群随机试验：学校为单位随机分配 \( Z_i \)，但处理 \( D_{it} \) 受教师流动（非依从）影响。作者假设随机分配 \( Z_i \) 是潜在处理状态（潜在剂量）的工具变量，即满足：排他性（\( Z_i \) 仅通过 \( D_{it} \) 影响结果）和相关性（\( Z_i \) 影响实际 \( D_{it} \)）。潜在结果的设定：每个学校有其潜在处理序列 \( D_i(1), D_i(0) \) 与潜在结果 \( Y_i(1), Y_i(0) \)。
可观测数据：
研究者能观测到：每个学校 \( i \) 的分配 \( Z_i \)；每个时间点 \( t \) 的实际处理状态 \( D_{it} \)（比如学校年度报告是否有受训教师）；学生成绩 \( Y_{it} \)（年级水平）。不可观测的是：教师离开后的新教师是否受过辅导（若来自控制组则未），以及如果学校被分到另一组时的潜在结果。

第二步：最小内核——双期、两类依从性¶

去掉所有复杂性，考虑最简单的两期设定（第1年、第2年），且只关心“教师技能”这一结果。假设：

每个学校只有1名教师。
第1年：所有学校教师固定，辅导项目在第1年随机分配给学校（\( Z_i \)）。
第1年结束：教师可能离职，第2年有新教师加入。
新教师可能来自其他学校，其辅导经历未知。
我们想估计“全程受辅导教师”（即第1年和第2年都是同一位受辅导的教师）对教师技能提升的因果效应。

核心难题：第2年的实际教师受辅导状态 \( D_{i2} \) 与第1年的分配 \( Z_i \) 不完美相关——因为新教师可能没受过辅导（即使学校被分配为处理组）。传统ITT估计 \( E[Y_i | Z_i=1] - E[Y_i | Z_i=0] \) 会被第2年教师流动稀释。

本文关键想法：利用两个时期的实际辅导状态（\( D_{i1}, D_{i2} \)）联合定义依从性类型。假设个体（学校）依从性类型是稳定的（potentially always-taker, never-taker, complier, defier），但对时间有依赖性：定义“全程依从者”为那些在第1年和第2年均接受辅导的学校（\( D_{i1}=1, D_{i2}=1 \)），当被分配处理时。然后使用ITT策略的两阶段最小二乘变形：第一阶段的回归使用 \( Z_i \) 预测 \( D_{i1} \) 和 \( D_{i2} \) 的联合分布；第二阶段估计全程依从者子群中的平均效应。在简单例子中，如果假设无排他性违背（\( Z_i \) 不直接通过教师流动影响结果，仅通过实际辅导）且单调性（\( D_i(Z) \) 关于 \( Z \) 非减），那么全程依从者效应可被识别为：

\[\frac{E[Y_i | Z_i=1] - E[Y_i | Z_i=0]}{E[D_{i1} D_{i2} | Z_i=1] - E[D_{i1} D_{i2} | Z_i=0]}.\]

这就是多期LATE的一个实例，分母是“全程接受辅导”的概率差异。本文本质上做了这个推广，只是分母是向量（不同依从模式），通过工具变量回归实现。

三、这篇论文做了什么¶

三句话¶

① 研究了秘鲁大规模教师辅导项目（coaching）对教师教学技能和学生成绩的因果效应，并重点应对教师高流动导致的动态非依从性；② 核心工具是基于随机分配为工具变量、定义多种处理剂量的LATE识别框架，将传统的单期IV扩展到“始终处理”等复合剂量；③ 主要结论：两年后教师技能提升0.20 SD；学生成绩在第一年（二年级）提升0.106 SD（数学）/0.075 SD（阅读）；三年累积效应0.114/0.100；若教师全程受辅导，效应提升至0.18/0.16 SD。

关键设定与假设¶

设定：2016年秘鲁农村3797所学校中随机选择学校接受教师辅导项目。教师每年观察一次教学技能；学生每年参加标准化考试。教师流动率很高（文中应报告具体数字，abstract未给出）。
假设：
随机分配有效性：学校级别 \( Z_i \) 是随机分配的，与潜在结果独立。
排他性：\( Z_i \) 仅通过教师接受辅导的途径影响学生成绩（不能直接影响，例如通过资源或士气）。
单调性：\( D_{it}(1) \ge D_{it}(0) \) 对所有 \( i,t \) 成立（分配处理不会减少实际接受辅导的概率）。
相关性：\( Z_i \) 显著预测某些处理剂量（如全程受辅导指标）。
相比已有文献：本文没有引入如无交互作用或时序结构独立的强假设；但通过定义多期剂量，放松了“处理状态不随时间变”这一单期IV隐含要求。代价是识别参数的选择性（只能识别一部分剂量的LATE）。

主要结果（理论部分较少，以估计值为核心）¶

教师技能：项目对整体教师教学技能的ITT效应为0.20 SD（两年后）。作者未给出标准差，但应显著。
学生成绩（ITT）：
一年级后（2017）：数学0.106 SD，阅读0.075 SD。
三年累积（2018）：数学0.114 SD，阅读0.100 SD。
全程受辅导教师的LATE：数学0.18 SD，阅读0.16 SD。显示了稀释效应确实存在（ITT被教师流动压低）。
量化结论对比：本文效应量属于中等偏下范围（许多发展中国家小规模研究可达到0.3–0.5 SD）。作者将此归因于项目规模化后的质量控制问题和教师流动。
稳健性：应包含多种处理剂量定义（如“至少两年”等），以及排除部分流动学校的子样本分析。abstract未提，但根据框架应有调整。

证明路线与技术技巧¶

本文属于应用方法型，无严格定理证明。但识别策略可视为一个渐进性论证：

定义多期处理剂量：定义 \( D_i^{(k)} \) 为学校 \( i \) 在 \( k \) 期中“始终接受辅导”的指示变量（需跨越教师流动）。更一般地，定义多种模式。
工具变量可识别性条件：证明如果单调性成立且无互动溢出，则针对任意剂量 \( D_i^{(k)} \)，以 \( Z_i \) 为工具、\( D_i^{(k)} \) 为内生变量，通过2SLS可估计“始终接受该剂量”学校的平均效应。
估计步骤：
第一段回归：用 \( Z_i \) 预测 \( D_i^{(k)} \)，得到拟合值 \( \hat{D}_i^{(k)} \)。
第二段回归：用 \( \hat{D}_i^{(k)} \) 预测结果 \( Y_i \)，系数即LATE。
处理教师流动带来的测量问题：例如，如果第2年新教师来自控制组，该学校 \( D_{i2} \) 为0，但第1年有辅导，整体剂量定义要区分“全程”和“部分”。本文框架提供了明确定义。

技术技巧：没有复杂的数学技巧，而是识别策略的清晰刻画。关键技巧是“将内生变量的定义从二元变成复合指标”，这属于分类依从者的经典方法。此外，实证中使用聚类标准误，但abstract未提及。

真实例子与应用¶

数据：秘鲁农村学校，2016年随机分配，2017-2018年跟踪。教师教学技能由专门评测量表获得；学生成绩来自国家标准化考试（ECE）。
方法应用：根据教师流动数据，定义每位教师是否在该校任教超过1年并接受了辅导。构造“始终受困教师”指标。使用2SLS估计。
结果：如上。作者对比了ITT与LATE，说明流动对效应稀释的解释力。
例子想说明：即使在大规模随机干预中，动态依从性会严重低估真正处理效应；本文框架有助于恢复实际剂量上的效应，为政策制定者提供更真实的“辅导教师对学习的影响”估计。

🔎 结论是否比证明窄¶

本文实证估计仅针对“全程受辅导教师”，但框架允许更细致的剂量定义。作者声称框架可扩展至“部分受辅导教师”等，但实证部分未展示这些估计。因此结论的覆盖范围比框架的理论可能性窄。原文需确认是否估算了其他剂量。此外，论文未讨论defier情况（教师因项目而离开学校），单调性假设可能不成立，但作者未检验。

四、开放问题（点到为止）¶

如何放松单调性假设？ 如果教师因不满项目而选择离职（defier），LATE框架会失效。能否使用非单调IV方法（如Imbens & Angrist 1994的凸组合解释）扩展到动态设定？
扎根：单调性假设在本文中属于“必须假设”，未在abstract中讨论其合理性。
溢出的正式处理：当受训教师流动到控制组学校时，破坏了SUTVA（稳定单位处理值假设）。本文框架未对此建模。开发允许溢出的动态IV估计量是一个明显缺口。
扎根：abstract明确提及“spillovers onto non‐program schools”，但框架未正式纳入。
剂量-反应函数的多期识别：本文只识别了“全程” vs “非全程”二元剂量。能否在连续剂量（如受训年数）下识别非参数LATE？这需要更强工具变量或剂量光滑性假设。
扎根：本文框架只定义了特定离散剂量，连续扩展未涉及。
外部有效性检验：秘鲁农村学校的结果能否推广至城市或高流动率不同的国家？作者未讨论。
扎根：一般政策评估的普遍局限，本文未设external validity分析。

确认提示：上述开放问题的真正缺口程度，建议查阅2019-2023年JPE/AEJ: Applied Economics中关于动态IV的5篇近期论文，看是否已有解决方案。若多数论文指向同一问题，则为本领域共识gap；若互相矛盾，则存在新机会。

Maintained by 陈星宇 · Homepage · Source on GitHub