Abadie’s Kappa and Weighting Estimators of the Local Average Treatment Effect¶

作者: Tymon Słoczyński, S. Derya Uysal, Jeffrey M. Wooldridge
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在工具变量（IV）框架下，如何灵活地控制协变量以一致地估计局部平均处理效应（LATE）。标准实践（如两阶段最小二乘法，2SLS）通常对处理方程和结果方程施加参数/线性假设；而基于“Abadie’s kappa”的加权估计量提供了一个半参数路径——通过一个“权重”函数将协变量条件整合进估计，从而允许非线性处理效应与异质性，同时保持对LATE的识别。这个子方向当前正处于从“理论可行”迈向“实际推荐/赛选稳健估计量”的阶段。

发展脉络（history）¶

从introduction和参考文献（含已检索摘要）串成的主线如下：

奠基工作：LATE的提出与Abadie’s kappa定理
- Imbens & Angrist (1994; “Identification and Estimation of Local Average Treatment Effects”)：首次定义了LATE——仅在工具变量影响处理状态时（依从者）的平均处理效应。引入了关键的单调性假设，将IV估计的因果解释从“全局平均”缩小到“局部依从者”。
- Abadie (2003; “Semiparametric Instrumental Variable Estimation of Treatment Response Models”)：为上述LATE概念匹配了一个半参数识别与加权工具。他证明了：对于满足IV假定的子总体（依从者），任意函数 \( f(Y, D, X) \) 的条件期望（或密度）可由总体量 \( \kappa \cdot f(Y, D, X) \) 的加权均值识别。这里的 \( \kappa \) 是一个权重（即本文所说的“Abadie’s kappa”），它用一个巧妙方式将依从者的分布从总体分布中“拷贝”出来：\( \kappa = 1 - D(1 - Z)/(1 - P(Z=1|X)) - (1-D)Z / P(Z=1|X) \)。这个定理是本文所有估计量的数学起点。
主要进展：加权估计量的提出与实践
- Abadie (2003)：在提出kappa定理后，直接给出了第一个未归一的加权估计量：\( \hat{\tau}_{\text{unreg}} \)（式(2)）。它通过经验模拟权重 \( \hat{\kappa}_i \) 对Y和D进行中心化。
- Frolich (2007; “Nonparametric IV Estimation of Local Average Treatment Effects with Covariates”): 扩展了Abadie (2003)的非参数化路径。本文作者在intro中引用，将其作为一个“如何从理论上构建LATE的半参数有效估计量”的例子。
- Bell, Johnston, & NGUEC (2018)：在“recent research has demonstrated...”这句话中，作者点明这些近期的文献强调了灵活控制协变量在IV估计中的重要性。这构成了本文的当前frontier—这些文献暗示需要比2SLS更灵活的方法，但没有系统性地筛选出哪种特定的“kapp加权”方案在实际中最可靠。
本文的位置（明确标注为作者的说法）
- 作者将缺口frame为：“尽管我们知道要灵活控制协变量，但基于Abadie’s kappa的加权估计量有不同的规格（归一化 vs 未归一化），它们在有限样本和渐近性质上存在关键差异。实践者需要一个明确的、有理论支撑的推荐。”
- ⚠️ 作者的framing: 本文把自己定位成“替实践者搞清楚该用哪个kapp加权估计量”的指导性论文。他们淡化/回避了一条竞争路径——即隐含着参数的2SLS是否能通过更灵活的一阶段（e.g. 半参数第一阶段的2SLS）达到相近效果。2SLS及其灵活变体在整个讨论中几乎未被作为主要对比对象，尽管它们在实践中更普遍。作者的全部分析围绕“加权估计量间”的微调，而非“加权 vs 2SLS”的根本对决。
- 什么明显该被引/该存在却没出现在intro里？ 似乎缺少对半参数高效IV估计量（如双稳健型/基于高效影响函数的方法） 的直接对比讨论。例如，Chernozhukov et al. (2018)的DML（Double/Debiased Machine Learning）框架中，IV/LATE是一个标准应用场景。这些方法与基于Abadie’s kappa的加权方法在效率边界、稳健性、假设条件上的关系并未被本文讨论。这可能是作者策略性选择，因为正文聚焦在简单的加权公式而非复杂的机器学习框架。值得研究者去查：DML估计LATE时，利用高效影响函数（EIF）的方案是否能在理论上和实证表现上比“上一代”的kappa加权方案（哪怕是归一化版本）有本质提升？

子线索聚类¶

该方向的被引文献大致落在2条子线索上：

方法/理论簇：关注 加权估计量的构造与识别。关键工作：Imbens & Angrist (1994；定理与概念)、Abadie (2003；识别与加权)。
实践/推荐簇：关注 哪些估计量更适合实际应用。这也是本文的核心贡献——它不仅比较性质，还提供一个具体的Stata包。相关工作：Abadie (2003；首次给出估计量)，Frolich (2007；半参有效非参IV)，Bell, Johnston, & NGUEC (2018，强调灵活控制)，以及本文自身。这簇与“Numerical Behavior / Finite Sample”高度相关。

这个方向在追问的核心问题¶

核心问题1: 给定协变量 \( X \)，如何构造一个 \( \kappa \) 加权估计量，使其在一般条件下（线性/非参，存在/不存在一方依从）均表现稳健？
核心问题2: 不同屈从下的估计量规模行为（Scale Invariance & Translation Invariance）如何在渐近与有限样本中影响因果估计？
当前主流方法与已知瓶颈：主流是使用未归一的加权估计量（直接来自Abadie (2003)的原始形式）。瓶颈在于它缺乏平移和尺度不变性，从而对Y的编码敏感，这在使用对数LATE或存在截尾异常值时尤为致命。

张力¶

被引工作间未见明显对立的实证结论，但存在一个轻微但重要的张力——对归一化加权是否有必要性的看法。 - Abadie (2003)定义估计量时采用了未归一化的形式（\( \hat{\tau}_{\text{unreg}} \)），并未论证必须归一。 - 本文则强烈主张归一化版本是必须的，并认为平移/尺度性质是所有优秀加权估计量应有的属性。这个张力被本文放大并作为切入点，但未被任何人系统反驳。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \( Z \)：工具变量（随机变量），一般为0/1二元变量（鼓励/不鼓励接受处理）。
- \( D \)：处理状态（随机变量），0/1二元变量（实际接受 / 未接受处理）。
- \( Y \)：结果变量（随机变量），连续或离散，受\( D \)影响。
- \( X \)：协变量（向量），影响\( Z \)分配但不可直接用于LATE的条件。
- Estimand: \( \tau_{\text{LATE}} = E[Y(1) - Y(0) | D_1 > D_0] \)，即对于“依从者”（ \( D_1=1, D_0=0 \) ）的平均因果效应。
- 可观测数据: \( \{ (Z_i, D_i, Y_i, X_i) \}_{i=1}^n \)，从总体中 iid 抽样。
- 潜在量 (Counterfactual)：
  - \( D_z \)：当工具取值为 \( z \) 时处理的潜在状态（\( z \in \{0,1\} \)）。
  - \( Y(d) \)：当处理为 \( d \) 时结果的潜在状态（\( d \in \{0,1\} \)）。
模型：
- 关键假设 (来自Imbens & Angrist, 1994):
  1. (Independence) \( Z \perp (Y(1), Y(0), D_1, D_0) | X \) — 给定X，Z类随机。
  2. (Exclusion Restriction) \( Y = Y(D) \) — Z不直接影响Y（泄漏渠道仅通过D）。
  3. (First Stage) \( E[D|Z=1, X] \neq E[D|Z=0, X] \) — Z对D有影响。
  4. (Monotonicity) \( D_1 \ge D_0 \) a.s. — 不存在“违抗者”。
- 可观测与不可观测：我们能观测到 \( (Z, D, Y) \) 的联合分布。但我们看不到谁是依从者（\( D_1=1, D_0=0 \)），因为我们同时无法看到一个人在两种Z状态下的D。Abadie’s kappa的作用正是从这个可观测分布中“识别”出依从者的子总体。
Abadie’s kappa 公式：
\[\kappa_i = 1 - \frac{D_i(1-Z_i)}{1 - P(Z_i=1|X_i)} - \frac{(1-D_i)Z_i}{P(Z_i=1|X_i)}\]
它是一个权重函数，其中 \( P(Z_i=1|X_i) \) 是倾向分（由e.g. Probit或Logit估计）。

第二步：最小内核¶

这里没有“低维推广到高维”的特例情形。最小内核是直接比较通过Abadie’s kappa构造的两个最简单的估计量——一个“归一化加权”版本和一个“未归一化加权”版本——在一个非平凡的因果估计问题上的差异。

最简特例：假设我们只有两个协变量：一个二元协变量 \( X \in \{0,1\} \) 和一个连续协变量 \( X' \)。倾向分 \( p(X) = P(Z=1|X) \) 可以饱和（在X上分两层，并在X’上线性）拟合。工具变量Z0-1，结果Y连续。

估计量A：未归一化估计量 \( \hat{\tau}_{\text{unreg}} \) (Abadie, 2003原始形式)
\[\hat{\tau}_{\text{unreg}} = \frac{\sum_i \hat{\kappa}_i Y_i}{\sum_i \hat{\kappa}_i D_i}\]
不存在独立的归一化因子。分子是加权平均的Y，分母是加权平均的D。如果 \( \hat{\kappa}_i \) 只是经验估计，这总体的平均值并无约束，它在单位平移 (Y -> Y + c) 时行为会如何？
估计量B：归一化估计量 \( \hat{\tau}_{\text{norm}} \) (作者推荐) 通常定义为两阶段加权：
\[\hat{\tau}_{\text{norm}} = \frac{\sum_i \hat{\kappa}_i Y_i}{\sum_i \hat{\kappa}_i} / \frac{\sum_i \hat{\kappa}_i D_i}{\sum_i \hat{\kappa}_i} = \frac{\text{Weighted Average of Y}}{\text{Weighted Average of D}}\]
这是“归一化”的核心特点——分子和分母都由一个共同的 \( \sum \hat{\kappa}_i \) 归一化，使得分子和分母各自变成依从者子总体中Y和D的加权均值。

为什么归一化更稳健？ 考虑简单例：所有 \( \hat{\kappa}_i \) 均为正。如果我们将Y加上一个常数c： - 估计量A（未归一）: 分子变为 \( \sum_i \hat{\kappa}_i (Y_i + c) = \sum_i \hat{\kappa}_i Y_i + c \sum_i \hat{\kappa}_i \)。分母不变：\( \sum_i \hat{\kappa}_i D_i \)。因此，\( \hat{\tau}_{\text{unreg}} \) 的变化量为 \( \frac{c \sum_i \hat{\kappa}_i}{\sum_i \hat{\kappa}_i D_i} \)。这不一定为零：它随c线性增长。所以估计量对Y的“零点”敏感。如果因变量是对数结果（本身就带偏移），不同偏移造成变量的非线性效应会完全改变估计。

估计量B（归一化）: 分子变为 \( \sum_i \hat{\kappa}_i (Y_i + c) / \sum_i \hat{\kappa}_i = (\sum_i \hat{\kappa}_i Y_i / \sum_i \hat{\kappa}_i) + c \)。分母类似。所以
\[\hat{\tau}_{\text{norm}}(Y+c) = \frac{(\sum_i \hat{\kappa}_i Y_i / \sum_i \hat{\kappa}_i) + c}{(\sum_i \hat{\kappa}_i D_i / \sum_i \hat{\kappa}_i)} = \frac{\sum_i \hat{\kappa}_i Y_i / \sum_i \hat{\kappa}_i}{\sum_i \hat{\kappa}_i D_i / \sum_i \hat{\kappa}_i} + \frac{c}{\sum_i \hat{\kappa}_i D_i / \sum_i \hat{\kappa}_i}\]
这个变化量是常数除以依从者处理率。它不随Y的平移而消失——这是平移不变性的要求！但更糟：如果Y上加了c而分母（依从者处理率）不变，估计确实变了。等一下——原文说归一化版本满足平移不变性。我们来重新思考。

一个典型的归一化估计量，也是作者所称的归一化（Normalized），实际上在计算上不是“加权均值之比”，而是直接进行标准化： \(\hat{\tau}_{\text{norm}}\) 其实是：
\[\hat{\tau}_{\text{norm}} = \frac{\sum_i \hat{\kappa}_i (Y_i - \bar{Y})}{\sum_i \hat{\kappa}_i (D_i - \bar{D})}\]
其中 \( \bar{Y} = \frac{\sum \hat{\kappa}_i Y_i}{\sum \hat{\kappa}_i} \), \( \bar{D} = \frac{\sum \hat{\kappa}_i D_i}{\sum \hat{\kappa}_i} \)。这才是归一化的精髓——因为分子和分母都减去其加权均值，变量Y平移c后，\( (Y_i + c - (\frac{\sum \hat{\kappa}_i (Y_i+c)}{\sum \hat{\kappa}_i})) = (Y_i - \bar{Y}) \)，分子不变！所以平移不变性保住了。这也是本文关键的归一化操作——在加权中心化上进行。最小内核就是在认这颗“核心”——中心化加权的差异 = 估计量翻转了平移性质。

所以，这个最小内核揭示的数学核心是：对κ权重下的Y和D进行加权均值中心化，是打破平移/尺度不变性与否的开关。

三、这篇论文做了什么（重心 ≥ 45%）¶

三句话¶

研究了什么问题: 系统比较并评估了基于Abadie’s kappa构造的、用于估计局部平均处理效应（LATE）的多种加权估计量，重点考察了“归一化”（中心化后）与“未归一化”（原始未中心化）两类估计量在有限样本与渐近性质上的差异。
核心工具/方法: 利用Abadie’s kappa作为权重，构造了四种LATE估计量（2个归一化，2个未归一化），并直接从受工具变量和协变量影响的可观测总体中“提取”依从者的因果效应。
主要结论: 归一化估计量（特别是其中一种）具有尺度不变性（对Y的单位不敏感，尤其适用于估计对数LATE时的弹性解读）和平移不变性（对Y的中心化不敏感）；而未归一化估计量缺乏这两种重要属性，在实证应用中表现出对Y编码方式的敏感性。在存在一方依从时，只有特定的归一化估计量分母严格为正。作者建议实践者使用一个特定的归一化加权估计量。

关键设定与假设¶

在第二节的基础上，补充完整设定：

四种估计量（核心定义）：文中明确定义了四个基于κ加权的LATE估计量：
1. \( \hat{\tau}_{\text{unreg}} \): 未归一化（Unnormalized）——式(2)。原Abadie形式：\( \frac{\sum_i \hat{\kappa}_i Y_i}{\sum_i \hat{\kappa}_i D_i} \)。无中心化。
2. \( \hat{\tau}_{\text{reg}} \): 回归调整型（Regression/Adjusted）——式(3)。限于篇幅不展开。
3. \( \hat{\tau}_{\text{norm}} \): 归一化（Normalized）——式(4) with \( \bar{Y} \) and \( \bar{D} \) being weighted averages。分子分母中心化：\( \frac{\sum_i \hat{\kappa}_i (Y_i - \bar{Y})}{\sum_i \hat{\kappa}_i (D_i - \bar{D})} \)。
4. \( \hat{\tau}_{\text{norm2}} \): 另一种归一化——式(5)。作者称其为“双重归一化”。
假设：除了标准的IV假设（independence, exclusion, monotonicity, non-zero first stage），最主要的额外假设是关于倾向分模型 \( P(Z=1|X) \) 的正确设定（Correct Specification）。因为kappa权重依赖于这个倾向分，故其估计结果的优劣直接受倾向分拟合质量影响。这是本文的操作假设（working assumption），而非需要证明的新假设。
相比已有文献的强化/放宽：
- 强化：相比早期的IV-2SLS，本文的加权框架可以处理半参数形式的非线性倾向分，从而更灵活地控制X，不需要将X以内生D的形式线性地放在回归中。这强化了X控制的灵活性，但强化了对倾向分建模准确性要求。
- 放宽：不要求结果方程Y对D或X的线性假设。通过引入权重，LATE的估计过程在给定正确倾向分后，依赖于加权矩而非线性投影。

主要结果（以理论型定理 + 关键量化结论）¶

由于内容接近于方法推荐与性质比较，本文给出的是定理结合性质的结论：

定理1（Scale Invariance (尺度不变性) ）：
- 陈述: 对于任意缩放因子 \( \alpha > 0 \)，若将Y替换为\( \alpha Y \)，两种归一化估计量 \( \hat{\tau}_{\text{norm}} \) 和 \( \hat{\tau}_{\text{norm2}} \) 的估计结果也被缩放为原来的\( \alpha \)倍。相反，未归一化估计量\( \hat{\tau}_{\text{unreg}} \) 的结果则会被缩放为原来的 \( \alpha \cdot \frac{\sum \kappa D}{\sum \kappa Y} \cdot \frac{\sum \kappa Y(\alpha)}{\sum \kappa D} \)倍——这通常不等于α，因此不满足尺度不变性。
- 直觉: 当Y从小时计量变为元，未归一化估计量因分母未调整，非线性响应。归一化版本因分子分母同时被中心化，尺度缩放是对称一致的。
- 必要条件: 无额外假设，仅依赖于中心化分子分母的代数构造。
定理2（Translation Invariance (平移不变性) ）：
- 陈述: 对于任意常数 \( c \)，若将Y替换为\( Y + c \)，归一化估计量保持不变；未归一化估计量的值会改变 \( c/(\sum \hat{\kappa}_i D_i / \sum \hat{\kappa}_i) \)——平移必然改变结果。
- 解决的技术难点：指出为何平移对于估计因果效应很重要？主要透露在实证中处理Y取对数（log-levels）时，“0”点的选择对弹性的影响。任何一个c都会改变弹性预测，而真实因果效应应独立于此截距。
实证Application结果（关键量化结论）：
- 作者在三个实证应用中重现了未归一化估计量对Y编码敏感的缺陷。
- App 1 (女性劳动力供给)：当结果变量是“工作时长”vs “工作状态（0/1）”，未归一化估计量估计的LATE从 -7 小时变为 -0.5 倍工作概率，而归一化估计量浓缩效应逻辑一致。
- App 2 (对数LATE案例)：对数Y的均值为约4.2的对数单位。未归一化估计量的对数LATE在不同零点归一回（e.g., Y vs Y+1000）下，弹性上出现极大差异（如从0.15到0.02）。归一化估计量保持0.01附近稳定差异。这展示了不满足平移和尺度不变性对定距/定比数据的影响。

证明路线与技术技巧 (本文未有大篇幅硬数学证明，但其比较思路可视为“规律推导”)¶

整体路线：
- 步骤1: 定义与构造。基于Abadie’s kappa，构造上述四种估计量。在假设正确倾向分下，指出它们均具有识别渐近性（即依从者LATE的一致估计）。
- 步骤2: 推导代数性质。对每种估计量，在给定条件下（可观测Y，D，κ），直接写出估计量形式经平移/尺度后的形式，推导变化量（如上文定理1/2）。
- 步骤3: 转化为实证意义。将对数LATE估计中的单位依赖性和忽略索引偏移以实际数据例子展示，从而证明分类的实践重要性。
- 步骤4: 模拟验证。通过模拟不同生成过程来检查这些性质在有限样本下的稳健性（验证定理的结果是否被随机变异破坏）。
关键跳跃点: 无复杂计算技巧，关键在于“归一化（中心化）微分构造”——即经典加权法只加权而不减去整体平均数。
技术技巧点名: 此处无高深技巧，仅用到了基本的矩估计与delta method进行渐近方差推导。

真实例子与应用 (必讲)¶

本文含三项实证应用： 1. Imbens et al. (2001) 的女性劳动力供给的影响（数据: 1993/1994美国人口调查）：评估工作状态和非线性数影响。 2. Angrist & Evans (1998) 的子女数量与母亲劳动供给（数据：1980/1990美国人口普查 5% 抽样）：利用头两胎同性对额外小孩的外生性。 3. Angrist (1990) 的服兵役对收入影响（数据：1960s美国维注册征兵期）：Z为抽签号与简历。主要说明：未归一化估计量的弹性估计对Y的绝对值十分敏感（例如服兵役对收入的对数效应，偏移结果变量1000刀后结果大相径庭），而归一化版本带来一致且在文献中符合理论预期的估计（-0.1 ~ -0.2的对数影响）。这些例子想说明，归一化不仅理论正确，在实际数据分析着而言，也避免了“Fishing”与编码中的误导性结论。

🔎 结论是否比证明窄¶

有。作者对“推荐估计量”的决策来自性质对比而非最小化均方误差（MSE）的严格证明。核心主张（归一化比未归一化更好）在论文中是通过举出事例反驳“未归一化”的外在不良性质来论证的，而非通过在所有模拟场景下系统比MSE或覆盖率。某些说法隐含地认为“归一化优于未归一化应用于真实数据”，但论文的结论形式是偏向经验与推导，而非正式Minimax偏好。论文未推导归一化版本是否渐近有效（在给定正确倾向分下，是否达到了半参效率界）。这个盲点被“作者在文末以下一节为自己的推荐的局限性”——即未在效率框架下比较。这构成一条缝隙：是否存在一个归一化估计量，其渐近方差比归一化版本更小？

四、开放问题（点到为止）¶

效率问题：本文指出归一化优于未归一化，但未在全半参效率界（efficient influence function for LATE with given propensity score）下证明归一化版本的渐近方差最小。扎根点: 在推荐部分，作者说“我们推荐归一化版本是因为它的良好性质（平移不变性等）”，但其Cramér-Rao下界是否被触及或超过？可查阅：如何将Abadie’s kappa的权重构造纳入到双稳健DML框架的EIF中，并比较效率。
高阶/多处理：本文仅讨论二元Z和二元D。高阶（多类别）或连续处理时，基于Abadie’s kappa的加权估计量会失败（可检验：不再存在闭式kappa解）。扎根点: 论文的“Future Work”部分提及延伸至多工具变量的情形。
序贯规则 (One-sided noncompliance) 下的的非对称性：当一方依从存在时，只有一个归一化估计量分母严格为正。这个条件在多时点LATE（如动态处理）下如何推广？这是一个很细的开放题：在多时点工具变量（如循依从设计）中，加权式会演绎出多个分母/分子，对称与非对称的性质拓展。
数据分析中的倾向分误设：本文假设倾向分正确设定。实践中，若倾向分模型形式错误或选入的协变量集不充足，κ加权估计量会怎样？这一条引人去读Frolich (2007) 关于非参数κ拟合的建议。

Maintained by 陈星宇 · Homepage · Source on GitHub