Identification of nonparametric factor models for average treatment effects¶

讲者: Guido Imbens
讨论人: Bryan Graham
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-03-25
主题: 因果推断
视频: https://youtu.be/6YuY-J3CXMI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：因果推断与面板数据的交叉——非参数识别。

该方向追问的核心是：在面板数据 (N units, T periods) 中，能否在不依赖线性或加法函数形式假设的前提下，从观测数据识别出平均处理效应（尤其是ATT）？ 传统答案几乎都建立在具体参数/半参数模型上： - Two-Way Fixed Effects (TWFE) (Bertrand et al., 2004)：假设控制结果可加性分解 Y_it(0) = α_i + β_t + ε_it。 - 线性因子模型 / 矩阵完成 (Bai, 2009; Athey et al., 2021)：Y_it(0) = α_i^T β_t + ε_it。 - 合成控制 (Abadie, Diamond & Hainmueller, 2010)：不明确指定生成模型，而是对控制单位加权来重构处理单位的反事实，但其一致性常在线性因子模型或TWFE下论证。

当前Frontier：部分文献已开始放宽函数形式，例如： - 分组 / 离散化异质性 (Bonhomme & Manresa, 2015)：允许 α 为单位分组（而非连续）且随时间变化 —— 仍属分组可加而非完全非参数。 - 行-列可交换非参数矩阵 (Aldous, 1981; Feng, 2021, 2023; Abadie, Agarwal & Shah, 2023) 直接设定 Y_it = η_t(α_i) + ε_it 或类似结构，其中 g(·) 未知且允许非线性。Feng (2020) 和 Abadie, Agarwal & Shah (2023) 已在该框架下讨论因果估计。

这场报告的站位：Athey & Imbens 提出比 Abadie et al. (2023) 更一般的完全非参数因子模型：Y_it(0) = g(α_i, β_t, ε_it)，其中 g 无任何可加或乘法限制。工作线是：(1) 给出不依赖函数形式的识别假设——将截面中的 unconfoundedness 推广为潜在因子可忽略性 (Latent Factor Ignorability)； (2) 证明即使不知道 g、且 α_i 和 β_t 完全不可观测，条件均值函数 μ(α_i, β_t) = E[Y_it(0)|α_i, β_t] 仍然可以被识别（从而 ATT 被识别）；(3) 利用该框架重新解释已有估计量（合成控制、矩阵完成）的适用条件，显示它们在该非参数模型下仍可能一致，关键条件是 N 和 T 足够大。

二、最小内核 / 一个最简例子¶

数据： - i = 1, ..., N 单位，t = 1, ..., T 时期。 - 对每对 (i,t)，有二元处理 W_it ∈ {0,1}，观测到 Y_it = Y_it(W_it)。 - 潜在结果 (Y_it(0), Y_it(1))，无动态处理效应（Y_it(1) 只取决于当期 W_it）。 - 目标 estimand: 被处理者的平均处理效应 (ATT)
τ = [ Σ_{i,t} W_it (Y_it(1) - Y_it(0)) ] / [ Σ_{i,t} W_it ]。

核心模型（非参数因子模型）：存在不可观测的单位成分 α_i ~ F_α（i.i.d.）和时期成分 β_t（平稳过程），使得 Y_it(0) = g(α_i, β_t, ε_it)，其中 g 为完全未知函数，ε_it 为独立于 (α_i, β_t) 的噪声，可跨期相关，但跨单位独立。关键识别假设是跨单位条件独立性： Y_it(0) ⊥ Y_jt(0) | α_i, α_j, β_t，且 α_i ⊥ α_j （即单位交换）。这等价于：若已知 β_t，N 个单位的 Y_it(0) 只通过它们各自的 α_i 相关联。

潜在因子可忽略性：
W_it ⊥ Y_it(0) | α_i, β_t 即：“潜在因子” (α_i, β_t) 构成一个充分降维的混淆集——一旦控制了它们，处理无异于随机分配。

最简特例：乘法模型，d=1（标量 α, β） - Y_it(0) = α_i × β_t × exp(ε_it) （g 是乘性，但仅作示例；实际框架允许任意非线性）。 - 假设 α_i ~ Uniform[0,1] i.i.d., β_t ~ Uniform[0,1] 独立（平稳且独立），ε_it N(0, σ²) 独立同分布。 - 设单位 i* 在时期 t* 被处理。

为什么简单匹配不工作：
若试图用 argmin_j Σ_{t≠t*} (Y_{i*t} - Y_{jt})^2 找“最相似”单位，对于乘法模型，最优匹配会向 α_j = α_i*/2 偏畸（见幻灯片第14页），而非 α_j≈α_i*。这是因为匹配目标不是 μ(α, β)，而是带噪声的 Y，噪声幅度与 α 水平相关（异方差）。

如何拯救（核心思路）：
不直接比较 Y_{i*t} - Y_{jt}，而是比较跨单位协方差（对 t 取平均）： (1/T) Σ_t Y_{it} Y_{kt} 对每个 k。由于 E[Y_{it}Y_{kt}|α_i,α_k] = E_β[μ(α_i,β) μ(α_k,β)]，μ(α_i,β) 与 μ(α_k,β) 的整体相似性可被该协方差衡量。若对所有 k 都有 (1/T)Σ_t Y_{it}Y_{kt} ≈ (1/T)Σ_t Y_{jt}Y_{kt}，则推断 μ(α_i,·) ≈ μ(α_j,·)，从而 α_i ≈ α_j。

三、报告主体：讲者讲了什么¶

[0:00-0:04] 开场与简介¶

介绍数据：面板 N×T，潜在结果 (Y_it(0), Y_it(1))，二元处理 W_it，目标 ATT。
[0:04-0:06] 列出三种主流方法：TWFE、线性因子 / 矩阵完成、合成控制。

[0:06-0:11] 为什么不满现状¶

批评：这些方法依赖函数形式假设（可加性、线性），实际的假设对因果解释不透明。相比之下，截面因果推断中的 unconfoundedness + overlap 假设干净、无函数形式。
出发：构造面板版的“无形式假设”识别条件。

[0:11-0:15] 关键假设 I：非参数因子模型 (NFM)¶

[0:11:30] 第一假设：存在 α_i, β_t 使得跨单位条件独立：
Y_it(0) ⊥ Y_jt(0) | α_i, α_j, β_t
且 α_i ⊥ α_j（单位可交换）。
[0:12:00] 这由非参数因子模型 Y_it(0) = g(α_i, β_t, ε_it) 可导出（仅需 ε_it ⊥ (α_i,β_t), ε_{it} ⊥ ε_{jt}, α_i ⊥ α_j）。
不对称性：不假设同单位跨期独立性——β_t 可自相关，ε_it 可跨期相关；只要求跨单位独立。

[0:12-0:14] 关键假设 II：潜在因子可忽略性 (Latent Factor Ignorability)¶

[0:12:10] W_it ⊥ Y_it(0) | α_i, β_t。
若 α_i,β_t 可观测，则条件随机化——直接可识别 ATT。
[0:13:15] 不可观测性导致了困难。但报告宣称：在 NFM + latent factor ignorability + 光滑性 + 大 N,T 下，μ(α_i,β_t) = E[Y_it(0)|α_i,β_t] 可识别（从而 ATT 可识别），即使 α_i,β_t 本身不可识别。

[0:14-0:16] 连接文献¶

[0:14:40] 若无时间混杂（只须条件于 α_i）：用单位自己的其他时期做估计。若有时间混杂（只须条件于 β_t）：用同期的其他单位。但此处两者都需要，故须匹配“双键”单位。
[0:15:30] 举例说明简单匹配失败（乘法模型 α_i × β_t + ε_it）：匹配目标会偏畸向 α_j = α_i*/2，因为噪声与 α 水平相关。（[0:16:50-0:18:00] 例子细节：若 α_i* = 1，单变量最小化 E[(α_i·β - α_j·β)^2] 得 α_j = 1/2。）

[0:18-0:22] 与固定效应（FE）文献的对比¶

FE 方法（TWFE, Chamberlain条件对数, Honore缩尾）通过变换将 α_i,β_t 完全消掉，视它们为参数（固定效应），不假设其分布。
本报告视 α_i,β_t 为随机效应（依赖于其分布假设），不试图消掉它们，而是依赖 N,T 大后会有 α_j≈α_i 的单位供匹配。

[0:22-0:25] 联系网络文献¶

[0:22:20] 非参数网络模型：A_{ij}=g(α_i,α_j,ε_{ij})，节点 i、j 可交换。该文献（Bickel, Chen & Levina 2011; Lovász 2012; Zeleneev 2020; Graham 2024）研究类似识别问题——用“co-degree matching”而非直接距离。
[0:23:50] 其他相关文献：分组异质性（Bonhomme & Manresa）、行-列可交换矩阵（Aldous 1981; Lynch 1984）、以及近期因果应用（Feng 2020; Abadie, Agarwal & Shah 2023）。

[0:25-0:35] 识别证明的直观¶

[0:25:15] 再次明确符号：Y_it = g(α_i, β_t, ε_it)，μ(α,β) = E[Y_it|α_i=α, β_t=β]。需要可区分性：若对所有 β 有 μ(α,β)=μ(α′,β)，则 α=α′。
[0:26:00-0:28:00] 用协方差控制寻找好匹配：先定义不可行集 J*(α) = {α′: sup_{α′′} |E_β[(μ(α,β)-μ(α′,β)) μ(α′′,β)]| = 0}。若 α′∈J*(α)，则 E_β[(μ(α,β)-μ(α′,β))^2]=0（即 α=α′ 在“均值平方”意义下）。
[0:28:30] 构造可行版本：对每个 i 和 j，计算与所有 k 的样本协方差 (1/T)Σ_t Y_{it}Y_{kt}。若对所有 k≠i,j 都有该协方差接近，则认为 j 是 i 的匹配。关键：由于跨单位独立，(1/T)Σ_t Y_{it}Y_{kt} → E_β[μ(α_i,β)μ(α_k,β)|α_i,α_k]（一致），所以协方差比较抓住了“函数形状的相似性”。
[0:30:00] 讲者澄清：这类似于网络中的co-degree matching（Lovász & Szegedy 2010）。提问环节中由 Susan 补充，Bryan Graham 也专门讨论了该距离度量的由来。
[0:32:00-0:34:00] 需要双维大样本：T 大 → 样本协方差估计准确；N 大 → 有足够多的 k 供判别，且匹配集（≈α_i 的单位数）随 N 发散。

[0:34-0:42] 距离度量的具体例子（TWFE 与线性因子模型）¶

[0:34:30] 在 TWFE：μ(α,β)=α+β，条件 E[(μ(α,β)-μ(α′,β))μ(α′′,β)]=0 ∀α′′ 等价于 (α-α′)(α′′+E[β])=0 ∀α′′ → 仅当 α=α′ 成立——说明距离度量有效。
[0:35:50] 在线性因子模型：μ(α,β)=α^T β，条件等价于 (α-α′)E[ββ^T]α′′=0 ∀α′′ → 需 E[ββ^T] 满秩 + α≠α′ → 满射性质可检验。

[0:40-0:44] 合成控制的重新解释¶

[0:40:10] 考虑单位 N 在时期 T 被处理。SC 最小化 Σ_{t=1}^{T-1} (Y_{Nt} - Σ_i ω_i Y_{it})^2。
[0:41:00] 将该目标函数的期望分解为：
(a) E_β[(μ(α_N,β_t) - Σ_i ω_i μ(α_i,β_t))^2] （系统项）
(b) + E_ε[η_{Nt}^2] + Σ_i ω_i^2 E_ε[η_{it}^2] （噪声项）。
[0:42:00] 要点：若 SC 只对 α_j≈α_N 的单位分配非零、等权重（如 ω_j ≈ 1/M，M 为小数量），则可使(a)小、(b)中的 Σ ω_i^2 ~ 1/M → 0。条件：T 大 → 系统项可被精确匹配；N 大 → 有足够多的 α_j≈α_N。凸性约束（非负+和=1）在此起了关键作用：防止无限放大小权重的噪声放大问题。

[0:42-0:44] 矩阵完成的线性化¶

[0:42:30] 矩阵完成（核范数正则化）可通过泰勒展开逼近非参数模型：μ(α,β) 可展开成 α,β 的多项式，正则化允许因子数随样本增长——相当于自适应地调整展开阶数。这提供了另一种一致性路径。

[0:44-0:56] 讨论环节¶

[0:44:15] Bryan Graham 的评论：(a) 将报告模型定位在严格外生性 (strict exogeneity) 框架；（b）强调no feedback 假设：W_it 不能依赖于过去的 Y_{it}(0)，这对动态面板是不现实的；（c）推荐 Chamberlain (1992, Econometrica) 的“heterogeneous feedback”框架作为未来拓展方向；（d）重述匹配算法的直觉，核心是网络文献中的co-degree隐式匹配，可看作 (1/T)Σ_t Y_{it}Y_{kt} 的再比较。
[0:56-1:01] Imbens 回应：认同 feedback 问题是重要开放问题；承认该工作只处理了因果面板中“不满意”的一部分；论文会很快发到 arXiv（“imminently forthcoming”）；未来需要更好的时间序列模型来放松平稳性假设，处理非平稳趋势与预料未及的处理行为。

四、对应论文与开放问题¶

(a) 对应论文¶

工作论文：Athey, S. & Imbens, G. (2025). Identification of average treatment effects in nonparametric panel models. 尚无 arXiv 编号或期刊出处（讲者称“imminently forthcoming”）。合作者 Susan Athey 也在问答中参与。
密切相关的已发表论文：Athey, S., Bayati, M., Doudchenko, N., Imbens, G. & Khosravi, K. (2021). Matrix completion methods for causal panel data models. JASA.
报告中大量引用的近期非参数因果面板文献：Abadie, A., Agarwal, A. & Shah, D. (2023). A causal inference framework for data rich environments. （未给出完整引用，arXiv 很可能存在。）
注意：以上论文信息取自幻灯片参考文献，ASR 转写可独立核实。

(b) 开放问题（每条扎根于转写时间点）¶

[0:18:00-0:22:00] 非平稳的时间结构：报告假设 β_t 服从平稳过程；但许多实际面板呈趋势或非平稳。如何放松平稳性、仍保持识别？类似问题也被提及于 [0:52:00-0:55:00]（观众提问与 Susan 回应）。
[0:44:15-0:45:00 (Graham)] 动态 / 反馈效应：严格的 "no feedback" 假设（W_it 独立于过去 Y_{it}(0)）在真实政策分析中常被违反。Graham 提到 Chamberlain (1992) 的 heterogeneous feedback 框架；Imbens 承认这是重要的开放问题。
[0:45:00-0:50:00] 协变量 (X_it) 的纳入：报告未详细讨论协变量。如何在实际应用中整合时变/时不变协变量而不破坏 nonparametric factor structure？
[0:50:00-0:52:00] 有限样本估计与推断：识别框架的基础是 N,T → ∞。如何构造有限样本可行的估计量（例如不依赖所有 k 的比较，而用子采样或核权函数）？收敛率、标准误、以及实际中 T 和 N 的相对增长速度需要明确。
[0:56:00-1:00:00] 检验可检验的约束：报告的非参数假设（跨单位条件独立性、平稳性等）是否对观测 (Y, W) 产生可检验的约束？若能，如何设计检验（例如基于协方差结构的非参数检验）？这适用于研究者熟悉的高维统计 / 假设检验技术。

Maintained by 陈星宇 · Homepage · Source on GitHub