Identification of nonparametric factor models for average treatment effects¶
讲者: Guido Imbens
讨论人: Bryan Graham
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-25
主题: 因果推断
视频: https://youtu.be/6YuY-J3CXMI · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
子方向:因果推断与面板数据的交叉——非参数识别。
该方向追问的核心是:在面板数据 (N units, T periods) 中,能否在不依赖线性或加法函数形式假设的前提下,从观测数据识别出平均处理效应(尤其是ATT)? 传统答案几乎都建立在具体参数/半参数模型上:
- Two-Way Fixed Effects (TWFE) (Bertrand et al., 2004):假设控制结果可加性分解 Y_it(0) = α_i + β_t + ε_it。
- 线性因子模型 / 矩阵完成 (Bai, 2009; Athey et al., 2021):Y_it(0) = α_i^T β_t + ε_it。
- 合成控制 (Abadie, Diamond & Hainmueller, 2010):不明确指定生成模型,而是对控制单位加权来重构处理单位的反事实,但其一致性常在线性因子模型或TWFE下论证。
当前Frontier:部分文献已开始放宽函数形式,例如:
- 分组 / 离散化异质性 (Bonhomme & Manresa, 2015):允许 α 为单位分组(而非连续)且随时间变化 —— 仍属分组可加而非完全非参数。
- 行-列可交换非参数矩阵 (Aldous, 1981; Feng, 2021, 2023; Abadie, Agarwal & Shah, 2023) 直接设定 Y_it = η_t(α_i) + ε_it 或类似结构,其中 g(·) 未知且允许非线性。Feng (2020) 和 Abadie, Agarwal & Shah (2023) 已在该框架下讨论因果估计。
这场报告的站位:Athey & Imbens 提出比 Abadie et al. (2023) 更一般的完全非参数因子模型:Y_it(0) = g(α_i, β_t, ε_it),其中 g 无任何可加或乘法限制。工作线是:(1) 给出不依赖函数形式的识别假设——将截面中的 unconfoundedness 推广为潜在因子可忽略性 (Latent Factor Ignorability); (2) 证明即使不知道 g、且 α_i 和 β_t 完全不可观测,条件均值函数 μ(α_i, β_t) = E[Y_it(0)|α_i, β_t] 仍然可以被识别(从而 ATT 被识别);(3) 利用该框架重新解释已有估计量(合成控制、矩阵完成)的适用条件,显示它们在该非参数模型下仍可能一致,关键条件是 N 和 T 足够大。
二、最小内核 / 一个最简例子¶
数据:
- i = 1, ..., N 单位,t = 1, ..., T 时期。
- 对每对 (i,t),有二元处理 W_it ∈ {0,1},观测到 Y_it = Y_it(W_it)。
- 潜在结果 (Y_it(0), Y_it(1)),无动态处理效应(Y_it(1) 只取决于当期 W_it)。
- 目标 estimand: 被处理者的平均处理效应 (ATT)
τ = [ Σ_{i,t} W_it (Y_it(1) - Y_it(0)) ] / [ Σ_{i,t} W_it ]。
核心模型(非参数因子模型):
存在不可观测的单位成分 α_i ~ F_α(i.i.d.)和时期成分 β_t(平稳过程),使得
Y_it(0) = g(α_i, β_t, ε_it),
其中 g 为完全未知函数,ε_it 为独立于 (α_i, β_t) 的噪声,可跨期相关,但跨单位独立。关键识别假设是跨单位条件独立性:
Y_it(0) ⊥ Y_jt(0) | α_i, α_j, β_t,且 α_i ⊥ α_j (即单位交换)。
这等价于:若已知 β_t,N 个单位的 Y_it(0) 只通过它们各自的 α_i 相关联。
潜在因子可忽略性:
W_it ⊥ Y_it(0) | α_i, β_t
即:“潜在因子” (α_i, β_t) 构成一个充分降维的混淆集——一旦控制了它们,处理无异于随机分配。
最简特例:乘法模型,d=1(标量 α, β)
- Y_it(0) = α_i × β_t × exp(ε_it) (g 是乘性,但仅作示例;实际框架允许任意非线性)。
- 假设 α_i ~ Uniform[0,1] i.i.d., β_t ~ Uniform[0,1] 独立(平稳且独立),ε_it N(0, σ²) 独立同分布。
- 设单位 i* 在时期 t* 被处理。
为什么简单匹配不工作:
若试图用 argmin_j Σ_{t≠t*} (Y_{i*t} - Y_{jt})^2 找“最相似”单位,对于乘法模型,最优匹配会向 α_j = α_i*/2 偏畸(见幻灯片第14页),而非 α_j≈α_i*。这是因为匹配目标不是 μ(α, β),而是带噪声的 Y,噪声幅度与 α 水平相关(异方差)。
如何拯救(核心思路):
不直接比较 Y_{i*t} - Y_{jt},而是比较跨单位协方差(对 t 取平均):
(1/T) Σ_t Y_{it} Y_{kt} 对每个 k。由于 E[Y_{it}Y_{kt}|α_i,α_k] = E_β[μ(α_i,β) μ(α_k,β)],μ(α_i,β) 与 μ(α_k,β) 的整体相似性可被该协方差衡量。若对所有 k 都有 (1/T)Σ_t Y_{it}Y_{kt} ≈ (1/T)Σ_t Y_{jt}Y_{kt},则推断 μ(α_i,·) ≈ μ(α_j,·),从而 α_i ≈ α_j。
三、报告主体:讲者讲了什么¶
[0:00-0:04] 开场与简介¶
- 介绍数据:面板
N×T,潜在结果(Y_it(0), Y_it(1)),二元处理W_it,目标 ATT。 - [0:04-0:06] 列出三种主流方法:TWFE、线性因子 / 矩阵完成、合成控制。
[0:06-0:11] 为什么不满现状¶
- 批评:这些方法依赖函数形式假设(可加性、线性),实际的假设对因果解释不透明。相比之下,截面因果推断中的
unconfoundedness + overlap假设干净、无函数形式。 - 出发:构造面板版的“无形式假设”识别条件。
[0:11-0:15] 关键假设 I:非参数因子模型 (NFM)¶
- [0:11:30] 第一假设:存在
α_i, β_t使得跨单位条件独立:
Y_it(0) ⊥ Y_jt(0) | α_i, α_j, β_t
且α_i ⊥ α_j(单位可交换)。 - [0:12:00] 这由非参数因子模型
Y_it(0) = g(α_i, β_t, ε_it)可导出(仅需ε_it ⊥ (α_i,β_t),ε_{it} ⊥ ε_{jt},α_i ⊥ α_j)。 - 不对称性:不假设同单位跨期独立性——
β_t可自相关,ε_it可跨期相关;只要求跨单位独立。
[0:12-0:14] 关键假设 II:潜在因子可忽略性 (Latent Factor Ignorability)¶
- [0:12:10]
W_it ⊥ Y_it(0) | α_i, β_t。 - 若
α_i,β_t可观测,则条件随机化——直接可识别 ATT。 - [0:13:15] 不可观测性导致了困难。但报告宣称:在 NFM + latent factor ignorability + 光滑性 + 大
N,T下,μ(α_i,β_t) = E[Y_it(0)|α_i,β_t]可识别(从而 ATT 可识别),即使α_i,β_t本身不可识别。
[0:14-0:16] 连接文献¶
- [0:14:40] 若无时间混杂(只须条件于
α_i):用单位自己的其他时期做估计。若有时间混杂(只须条件于β_t):用同期的其他单位。但此处两者都需要,故须匹配“双键”单位。 - [0:15:30] 举例说明简单匹配失败(乘法模型
α_i × β_t + ε_it):匹配目标会偏畸向α_j = α_i*/2,因为噪声与α水平相关。([0:16:50-0:18:00] 例子细节:若α_i* = 1,单变量最小化E[(α_i·β - α_j·β)^2]得α_j = 1/2。)
[0:18-0:22] 与固定效应(FE)文献的对比¶
- FE 方法(TWFE, Chamberlain条件对数, Honore缩尾)通过变换将
α_i,β_t完全消掉,视它们为参数(固定效应),不假设其分布。 - 本报告视
α_i,β_t为随机效应(依赖于其分布假设),不试图消掉它们,而是依赖N,T大后会有α_j≈α_i的单位供匹配。
[0:22-0:25] 联系网络文献¶
- [0:22:20] 非参数网络模型:
A_{ij}=g(α_i,α_j,ε_{ij}),节点i、j可交换。该文献(Bickel, Chen & Levina 2011; Lovász 2012; Zeleneev 2020; Graham 2024)研究类似识别问题——用“co-degree matching”而非直接距离。 - [0:23:50] 其他相关文献:分组异质性(Bonhomme & Manresa)、行-列可交换矩阵(Aldous 1981; Lynch 1984)、以及近期因果应用(Feng 2020; Abadie, Agarwal & Shah 2023)。
[0:25-0:35] 识别证明的直观¶
- [0:25:15] 再次明确符号:
Y_it = g(α_i, β_t, ε_it),μ(α,β) = E[Y_it|α_i=α, β_t=β]。需要可区分性:若对所有β有μ(α,β)=μ(α′,β),则α=α′。 - [0:26:00-0:28:00] 用协方差控制寻找好匹配:先定义不可行集
J*(α) = {α′: sup_{α′′} |E_β[(μ(α,β)-μ(α′,β)) μ(α′′,β)]| = 0}。若α′∈J*(α),则E_β[(μ(α,β)-μ(α′,β))^2]=0(即α=α′在“均值平方”意义下)。 - [0:28:30] 构造可行版本:对每个
i和j,计算与所有k的样本协方差(1/T)Σ_t Y_{it}Y_{kt}。若对所有k≠i,j都有该协方差接近,则认为j是i的匹配。关键:由于跨单位独立,(1/T)Σ_t Y_{it}Y_{kt} → E_β[μ(α_i,β)μ(α_k,β)|α_i,α_k](一致),所以协方差比较抓住了“函数形状的相似性”。 - [0:30:00] 讲者澄清:这类似于网络中的co-degree matching(Lovász & Szegedy 2010)。提问环节中由 Susan 补充,Bryan Graham 也专门讨论了该距离度量的由来。
- [0:32:00-0:34:00] 需要双维大样本:T 大 → 样本协方差估计准确;N 大 → 有足够多的
k供判别,且匹配集(≈α_i的单位数)随N发散。
[0:34-0:42] 距离度量的具体例子(TWFE 与线性因子模型)¶
- [0:34:30] 在 TWFE:
μ(α,β)=α+β,条件E[(μ(α,β)-μ(α′,β))μ(α′′,β)]=0 ∀α′′等价于(α-α′)(α′′+E[β])=0 ∀α′′→ 仅当α=α′成立——说明距离度量有效。 - [0:35:50] 在线性因子模型:
μ(α,β)=α^T β,条件等价于(α-α′)E[ββ^T]α′′=0 ∀α′′→ 需E[ββ^T]满秩 +α≠α′→ 满射性质可检验。
[0:40-0:44] 合成控制的重新解释¶
- [0:40:10] 考虑单位
N在时期T被处理。SC 最小化Σ_{t=1}^{T-1} (Y_{Nt} - Σ_i ω_i Y_{it})^2。 - [0:41:00] 将该目标函数的期望分解为:
(a)E_β[(μ(α_N,β_t) - Σ_i ω_i μ(α_i,β_t))^2](系统项)
(b) +E_ε[η_{Nt}^2] + Σ_i ω_i^2 E_ε[η_{it}^2](噪声项)。 - [0:42:00] 要点:若 SC 只对
α_j≈α_N的单位分配非零、等权重(如ω_j ≈ 1/M,M为小数量),则可使(a)小、(b)中的Σ ω_i^2 ~ 1/M → 0。条件:T大 → 系统项可被精确匹配;N大 → 有足够多的α_j≈α_N。凸性约束(非负+和=1)在此起了关键作用:防止无限放大小权重的噪声放大问题。
[0:42-0:44] 矩阵完成的线性化¶
- [0:42:30] 矩阵完成(核范数正则化)可通过泰勒展开逼近非参数模型:
μ(α,β)可展开成α,β的多项式,正则化允许因子数随样本增长——相当于自适应地调整展开阶数。这提供了另一种一致性路径。
[0:44-0:56] 讨论环节¶
- [0:44:15] Bryan Graham 的评论:(a) 将报告模型定位在严格外生性 (strict exogeneity) 框架;(b)强调no feedback 假设:
W_it不能依赖于过去的Y_{it}(0),这对动态面板是不现实的;(c)推荐 Chamberlain (1992, Econometrica) 的“heterogeneous feedback”框架作为未来拓展方向;(d)重述匹配算法的直觉,核心是网络文献中的co-degree隐式匹配,可看作(1/T)Σ_t Y_{it}Y_{kt}的再比较。 - [0:56-1:01] Imbens 回应:认同 feedback 问题是重要开放问题;承认该工作只处理了因果面板中“不满意”的一部分;论文会很快发到 arXiv(“imminently forthcoming”);未来需要更好的时间序列模型来放松平稳性假设,处理非平稳趋势与预料未及的处理行为。
四、对应论文与开放问题¶
(a) 对应论文¶
- 工作论文:Athey, S. & Imbens, G. (2025). Identification of average treatment effects in nonparametric panel models. 尚无 arXiv 编号或期刊出处(讲者称“imminently forthcoming”)。合作者 Susan Athey 也在问答中参与。
- 密切相关的已发表论文:Athey, S., Bayati, M., Doudchenko, N., Imbens, G. & Khosravi, K. (2021). Matrix completion methods for causal panel data models. JASA.
- 报告中大量引用的近期非参数因果面板文献:Abadie, A., Agarwal, A. & Shah, D. (2023). A causal inference framework for data rich environments. (未给出完整引用,arXiv 很可能存在。)
- 注意:以上论文信息取自幻灯片参考文献,ASR 转写可独立核实。
(b) 开放问题(每条扎根于转写时间点)¶
- [0:18:00-0:22:00] 非平稳的时间结构:报告假设
β_t服从平稳过程;但许多实际面板呈趋势或非平稳。如何放松平稳性、仍保持识别?类似问题也被提及于 [0:52:00-0:55:00](观众提问与 Susan 回应)。 - [0:44:15-0:45:00 (Graham)] 动态 / 反馈效应:严格的 "no feedback" 假设(
W_it独立于过去Y_{it}(0))在真实政策分析中常被违反。Graham 提到 Chamberlain (1992) 的 heterogeneous feedback 框架;Imbens 承认这是重要的开放问题。 - [0:45:00-0:50:00] 协变量 (X_it) 的纳入:报告未详细讨论协变量。如何在实际应用中整合时变/时不变协变量而不破坏 nonparametric factor structure?
- [0:50:00-0:52:00] 有限样本估计与推断:识别框架的基础是
N,T → ∞。如何构造有限样本可行的估计量(例如不依赖所有k的比较,而用子采样或核权函数)?收敛率、标准误、以及实际中T和N的相对增长速度需要明确。 - [0:56:00-1:00:00] 检验可检验的约束:报告的非参数假设(跨单位条件独立性、平稳性等)是否对观测
(Y, W)产生可检验的约束?若能,如何设计检验(例如基于协方差结构的非参数检验)?这适用于研究者熟悉的高维统计 / 假设检验技术。
Maintained by 陈星宇 · Homepage · Source on GitHub