Design‐robust two‐way‐fixed‐effects regression for panel data¶
作者: Dmitry Arkhangelsky, Guido W. Imbens, Lihua Lei, Xiaoman Luo
来源: Quantitative Economics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向解决的根本问题是:在面板数据(panel data)中,当个体在不同时间点依次接受一个二元处理(staggered adoption),且处理一旦进入就不再退出时,如何从观测到的结果变量 Yit 和处理变量 Wit 中,无偏且高效地估计平均处理效应(ATE)或动态处理效应。该领域当前的成熟度很高,是因果推断中近五年最活跃的实证方法前沿之一,但关于“分配机制建模能带来多少鲁棒性增益”这一具体问题,仍存在清晰的理论缺口。
发展脉络(history)¶
奠基工作: - Goodman-Bacon (2021):首次系统分解了传统两期固定效应(TWFE)估计量在 staggered adoption 下的构成,证明其是多个“2×2 DiD”估计量的加权平均,但当处理效应随时间变化时,部分比较会混入负权重,导致估计量有偏。这篇工作直接打开了“TWFE 在 staggered adoption 下表现不佳”的潘多拉魔盒。 - Callaway & Sant'Anna (2021):提出基于分组-时间(group-time)平均处理效应(ATT)的估计量,通过“从未被处理者”或“尚未处理者”作为对照组,以及对每组-时间点分别估计并加权平均。该方法避免了 TWFE 的负权重问题,但依赖于“处理组与对照组在无处理时具有平行趋势”的条件,且估计量不能直接通过标准回归软件实现。
主要进展: - Sun & Abraham (2021):提出“交互加权估计量”(interaction-weighted estimator),本质上也是分组-时间 ATT 的加权平均,但通过回归框架实现。该文清晰地发现并解释了“处理效应异质性通过时间维度污染 TWFE”的机制,即“静态”TWFE 系数实际上混合了正向和负向权重。 - Borusyak, Jaravel & Spiess (2021):采用“插补法”(imputation-based approach),首先用从未被处理的个体估计固定效应模型,再为被处理个体插补反事实。该方法在无处理效应异质性时是有效的,但需要对未处理潜在结果的模型做出较强假设,且估计量的方差估计较为复杂。
当前 frontier: - 双重稳健/设计-鲁棒方向:上述方法各自要求 model for outcomes 或 model for assignment of treatment 之一完全正确。本文(Arkhangelsky et al.)则在 模型双重稳健 方向上迈出一大步:他们不是放弃 TWFE,而是 通过为 TWFE 赋予个体-时间特定权重,引入分配机制(assignment mechanism)模型,构造出同时保护 outcome 模型误设和 assignment 模型误设的估计量。 - 当前活跃子方向还包含:动态处理效应(event-study)、多值/连续处理、高维协变量下的 TWFE 等。但这篇论文是少有的同时 量化了 assignment 模型带来的鲁棒性收益 并给出 影响函数分析 的工作。
子线索聚类¶
被引文献大致落在两条子线索:
- TWFE 的偏差诊断与直接修正(如 Goodman-Bacon 2021;Sun & Abraham 2021;Borusyak et al. 2021):关注的是 识别问题(identification)——TWFE 在什么条件下 estimate 了什么,以及如何修正异质处理效应带来的偏差。这些方法本质上是 基于结果模型的调整(outcome-based),即依赖于结果方程的正确设定。
- 设计-稳健/双重稳健估计量(如 Robins et al. 1995;Bang & Robins 2000;Chernozhukov et al. 2018;以及本文):关注的是 估计问题(estimation)——如何构造一个估计量,使其在 outcome 模型或 assignment 模型之一正确指定时仍保持一致。这些方法同时建模 Y 和 W,利用 影响函数(influence function) 理论实现双重稳健。本文是将此思路从“横截面数据”或“非重复横截面”推广到“面板数据 + staggered adoption 处理模式”的首次系统尝试。
- 潜在 outcome 的平滑性与插补:第三类更小的子线索是 隐变量/因素模型(factor model) 方法(如 Bai 2009;Athey et al. 2021),通过假设潜在结果由少量未观测因子驱动来作 imputation。本文只简要提及其作为备选框架,但不属于其核心技术路线。
这个方向在追问的核心问题(2-4 个)¶
- 识别问题:在 staggered adoption 下,什么样的 estimand 是“好”的(能避开 TWFE 的负权重)?它是否依赖于平行趋势假设或某种形式的同质性假设?
- 估计效率:多种估计量(TWFE、callaway-sant'anna、imputation-based、IPW、DR-WTWFE)中,哪一个在有限样本下方差最小,哪一个对局部误设最稳健?
- 动态处理效应:除了“当前是否处理”,过去处理的持续影响如何被一致估计?这与 event-study 设计下的基准回归关系如何?
- 分配机制的“角色”:面板数据中常假设处理是随机或条件随机的(SUTVA、可忽略性),但较少主动对分配过程建模。如果明确建模 W 的分布,能否从 效率界(semiparametric efficiency bound) 角度提升估计量?还是只会引入“额外的方差噪音”?
当前主流方法与已知瓶颈: - 主流方法:GxTime ATT(callaway & sant'anna 2021)和 Imputation-based(borusyak et al. 2021)是目前应用最广的。它们的瓶颈分别是:GxTime ATT 需要权衡“分组-时间点”过多导致方差膨胀;Imputation-based 面临对未处理潜在结果模型误设敏感。 - 已知瓶颈:绝大多数方法几乎从不讨论 分配机制模型 的角色,默认处理是可忽略的(即 W 与潜在结果条件独立给定固定效应+时间效应)。一旦处理分配依赖于某些未观测时变因素,整个框架崩溃。本文试图用 双重稳健 来缓解,即如果 assignment 模型正确,即使 outcome 模型有误,估计量也能保持一致。但论文也明确承认:“如果两个模型都严重误设,估计量可能不是一致的”。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
作者的缺口描述:“现有文献(如 Callaway & Sant'Anna 2021;Sun & Abraham 2021;Borusyak et al. 2021)主要关注 TWFE 在异质处理效应下的偏差,并提出了各种基于结果模型的修正。但我们想展示另一种视角:通过明确建模分配机制,可以获得 双倍鲁棒性 或至少 更小的局部敏感性。我们量化了建模处理过程的收益,并构建了一个单个、可直接实现的回归估计量——加权 TWFE。”
- 他淡化的竞争路线:作者几乎完全跳过“交互固定效应(interactive fixed effects)”(如 Bai 2009;Athey et al. 2021)方法,只在中段一句话带过“因子模型是另一种可行路径”。实际上,交互固定效应是控制高维未观测混杂时强有力的工具,但需要比本文更复杂的计算。这种淡化可能是为了强调“简单回归+权重”路线的易用性。
- 明显该被引 / 该存在、却没出现在 intro 里:论文未引 Rambachan & Roth (2023) 关于“post-treatment trends”的稳健性检验,也未引 Imbens & Wooldridge (2009) 关于面板数据因果推断的经典综述。更关键的是,尽管声称“双重稳健”,论文没有引用任何关于 semiparametric efficiency bound 或 efficient influence function 在面板数据中的推导工作(如 Hahn, 1998 只针对横截面)。 这暗示作者可能认为:在面板数据中,由于个体固定效应和时间固定效应带来的高维 nuisance 参数,效率界难以刻画,所以他们更关注“一致性”(consistency)而非“渐近有效性”(asymptotic efficiency)。
张力¶
未发现明显对立的引用。但存在一种隐含的张力:Callaway & Sant'Anna (2021) 和 Sun & Abraham (2021) 等结果模型导向的方法,假设给定个体固定效应和时间固定效应后,处理是条件随机的,这不涉及对 W 潜在分布的建模。而本文则假设研究者愿意对 W 的分布指定一个参数模型(如 logit)。两种假设类无法证明哪个更“真实”或“实用”,只是给出了两条不同的稳健性路径。值得研究者去交叉验证:在模拟中,当 assignment 模型正确但 outcome 模型严重误设时,本文的加权 TWFE 是否真的比 GxTime ATT 偏差更小?反之亦然?
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - 总体:N 个个体,T 个时间点。个体索引 i = 1,…, N,时间索引 t = 1,…, T。 - 可观测数据: - Yit ∈ ℝ:个体 i 在时间 t 的结果变量(连续)。 - Wit ∈ {0, 1}:个体 i 在时间 t 的处理状态(1 = 处理,0 = 未处理)。 - 潜在量: - Yit(1), Yit(0):个体 i 在时间 t 的潜在结果,分别对应于处理和不处理。SUTVA 假设:Yit = Wit · Yit(1) + (1 − Wit) · Yit(0)。 - 参数 / estimand: - τ = ATE = 平均处理效应:τ = (1/NT) * Σi,t (Yit(1) − Yit(0))。论文中的目标 estimand 是这个总体的、跨个体和时间的平均。 - αi:个体固定效应(不可观测,当作参数对待)。 - γt:时间固定效应(不可观测,当作参数对待)。 - β:TWFE 回归中的处理效应系数(传统 TWFE 的估计目标,但在异质效应下未必等于 τ)。
模型: - Outcome 模型(可能的正确模型):假设潜在结果(在未处理下)满足线性可加个体-时间固定效应结构:E[Yit(0) | αi, γt, Wit] = αi + γt。这等价于经典 TWFE 的回归方程 Yit = αi + γt + β·Wit + εit,但作者不要求这个模型对处理组个体成立,只要求它对从未被处理的个体(或处理前)成立。也就是说,Yit(1) 可以是异质的。 - Assignment 模型(作者主动提出要建模):处理状态 Wit 的联合分布被建模为一个条件分布,给定个体和时间特征。论文关注的中心是“每一次个体是否首次进入处理”的决定。在 staggered adoption 下,如果个体在时间 τi 首次被处理(1 ≤ τi ≤ T),则对 t ≥ τi,Wit = 1;对 t < τi,Wit = 0。从未处理者(never treated)记为 τi = T+1(或永不处理)。Assignment 模型需要研究者写出:Pr(Wit = 1 | τi > t-1, ..., αi, γt, covariates)。作者推荐使用 logit 模型来估计倾向得分(propensity score) pit = Pr(Wit = 1 | ...)。
可观测数据: - 研究者观测到 {Yit, Wit} for all i,t。此外,不能观测 到潜在结果 Yit(0) 和 Yit(1) 的完整值(对处理个体只能看到 Yit(1))。固定效应 αi 和 γt 也是不可观测的潜在参数。
第二步:讲最小内核¶
考虑最简设定:两个时期 T=2,个体 N 很大,假设没有协变量,处理模式是 staggered adoption,但不是“永远不处理”的个体。 具体: - 时间 1:所有个体 Wi1 = 0(无人处理)。 - 时间 2:部分个体 Wi2 = 1(“早期处理组”),其余个体 Wi2 = 0(“对照组”,在时间 2 仍未被处理,但可能在未来处理——为了最小化,我们可以假设这些是永远不处理的个体,即 τi = 3,但 staggering 的概念就是“后面还有处理”,所以假设对照组是“未来处理组”也可以,但再复杂。为简明,直接假设存在“永远不处理者”和“早期处理者”。)
这个最小问题:我们想估计 ATE τ = (1/2N) * [Σi (Yi2(1)-Yi2(0)) + Σi (Yi1(1)-Yi1(0))]。但在时间 1,Yi1(1) 是反事实(所有人都未处理),所以第一项需要反事实插补。传统 TWFE 对 Yit 估计 Yit = αi + γt + β Wit + εit。其中 βTWFE 可写为:βTWFE = (1/未被处理者数量) * Σi: Wi2=1 (Yi2 − Yi1) − (1/永远不处理者数量) * Σi: Wi2=0 (Yi2 − Yi1)。这本质上是 DiD。
问题:如果处理效应在时间上异质(比如,处理第一年效应很小,但第二年变大),则上述 TWFE-DiD 系数 β 并不等于 τ。因为 β 实际上给每个早期处理者赋予了 1 的权重,给每个对照组赋予了 −1 的权重,而 τ 需要对每个阶段平等加权。这导致 负权重 的出现。
本文的核心思路(最小内核): 作者说:我们不要把标准 TWFE 的权重直接用,而是 先通过 assignment 模型 估计一个概率 pit,然后用这个概率构造个体-时间层面的权重,重新加权 TWFE 回归。
在这个 T=2 的例子中,假设我们用 logit 模型估计 pi2 = Pr(Wi2 = 1 | data),其中 data 只包含“未处理过的时间 1 信息”(因为时间 1 所有人都未处理)。这个 pi2 实质是 “个体 i 在时间 2 首次处理的概率”。对于早期处理者(Wi2=1),pi2 ≈ 1(实际只是高概率);对于永远不处理者(Wi2=0),pi2 ≈ 0。
现在,作者建议做如下的 加权 TWFE 回归: Yit = αi + γt + β * Wit * (一些权重函数 wi) + εit,其中权重 wi 取为 1 / (pi (1 − pi)) 的某种变体。
在 T=2 最小情况下,这本质上等价于用概率 对 DiD 比较进行加权: - 对早期处理者,他们贡献的“处理-未处理”比较 (Yi2 − Yi1) 的权重是 1/pi2(接近于 1,因为 pi2 ≈ 1)。 - 对永远不处理者,他们贡献的同样比较的权重是 −1/(1 − pi2)(约为 −1,因为 pi2 ≈ 0)。
为什么这能双重稳健? - 情况 1:Outcome 模型正确(TWFE 假设成立,即平行趋势):那么即使 assignment 模型误设了(pi 估计得很差),加权 TWFE 仍然一致,因为权重不影响 Yit = αi + γt + β Wit 在正确参数下的期望 —— 回归的 M 估计仍然在 αi, γt, β 上得到真值(虽然方差会增大)。这就是 Outcome 模型保护。 - 情况 2:Assignment 模型正确(pi 估计无偏):那么即使 Outcome 模型误设(平行趋势不成立),加权 TWFE 也一致。为什么?因为加权 TWFE 实际上把整个估计量写成了 (1/N) Σ [wi * (某种影响函数)],而这个影响函数的期望在 pi 正确时等于 τ。这正是 IPW 倾向得分加权 的逻辑——通过正确指定的倾向得分,直接对反事实进行加权。这里加权 TWFE 再次重现了这个 IPW 的渐近一致性。这就是 Assignment 模型保护*。
在这个最小例子中,论文的全部技术内涵已被概括:用 assignment model 计算的倾向得分 pit 构造权重,加到标准回归方程中,并证明其在任一个模型正确时保持一致。论文的一般情形(多期、staggered 参与、事件研究动态)只是这个两期例子的 多期推广 + 时点特定的倾向得分——核心矛盾不变。
三、这篇论文做了什么(本次重心,务必讲透)¶
三句话¶
- 问题:在面板数据中,当处理是二元、处理模式为一般(包括 staggered adoption)时,如何估计跨个体与时间的平均处理效应 τ?
- 工具/方法:作者提出“设计-鲁棒两种固定效应加权回归(DR-TWFE-W)”,即用 assignment 机制模型(logit)估计的个体-时间特定倾向得分 πit,构造权重 ωit,并插入标准 TWFE 回归的加权最小二乘(WLS)公式中。
- 结论:该估计量具有 双重稳健性——在 outcome 模型(TWFE 回归方程)或 assignment 模型(倾向得分模型)二者之一正确指定时,它都一致地估计 τ;当两者同时局部误设时,它的渐近偏差小于传统 TWFE 估计量。其影响函数被显式写出,并可用于构造方差估计。
关键设定与假设¶
- 设定:面板数据 {Yit, Wit}, i=1...N, t=1...T。
- Estimand:τ = (1/NT) · Σi,t E[Yit(1) − Yit(0)]。
- SUTVA + 一致性。
- 两个重要假设(给了论文双重稳健性基础):
- 模型 Moutcome:Yit = αi + γt + β · Wit + εit,且 εit 与 Wit, αi, γt 的条件期望为零。这是固定效应模型的“平行趋势”假设。注意:这个模型不一定对每个个体严格成立——它只是假设所有“从未处理个体”的 Yit(0) 满足该结构,而对早期处理者,允许 Yit(1) 偏离(即处理效应可以异质)。这个假设是 outcome 模型正确时的保护伞。
- 模型 Massign:处理状态 Wit 的联合分布由条件概率 pit = Pr(Wit = 1 | 过去数据) 决定,该概率满足一个被正确指定的参数模型(如 logit)。这个假设是 assignment 模型正确时的保护伞。
- 三类个体:被处理者(ever treated)、从未被处理者(never treated)、以及 staggered adoption 下的“基于日期的活跃对比”——关键是“处理前-处理后”和“谁永远不被处理”。
- 模型形式:论文没有要求 Moutcome 和 Massign 同时正确,这正是双重稳健的根本。
主要结果¶
定理 1(一致性,条件于 Massign 正确或 Moutcome 正确之一): - 如果 Massign 正确,即使 Moutcome 误设,加权 TWFE 估计量 \(\hat{\tau}_{DR} \xrightarrow{p} \tau\)。 - 如果 Moutcome 正确,即使 Massign 误设,同样有 \(\hat{\tau}_{DR} \xrightarrow{p} \tau\)。 直觉:要么 IP 的倾向得分给出无偏反事实,要么 OLS 回归在正确 outcome 模型上抹掉所有偏差。
定理 2(局部误设下的渐近偏差对比): 如果两个模型都以一定速率(如 O(N^{-1/2}))局部误设,那么传统 TWFE 的渐近偏差是 O(N^{-1/2}),而加权 TWFE 的偏差是 O(N^{-1/2} × max(δoutcome, δassign, δassignδoutcome)),当 δ 很小时,可忽略至 O(N^{-1})。这意味着在“接近正确”的两个模型下,DR-TWFE 明显优于传统 TWFE。 直觉:因为两种误差互相乘,而不是简单相加。
定理 3(扩展到动态处理效应): 论文提出一个事件研究(event-study)版本的 DR-TWFE-E,估计动态 ATT(即处理后的第 k 期效应)。证明思路相同,但 equation 中包含更复杂的“处理历史”权重。
关键影响函数结构(为什么双重稳健能成立): 论文显式写出 \(\hat{\tau}_{DR}\) 的 influence function,形式为: IF = Correction based on assignment model + Correction based on outcome model + Interaction term. 正是这个“交互项”的存在,使得如果两个模型都误设,偏差是二阶小量(O(1/N) 而非 O(1/√N))。
证明路线与技术技巧¶
整体路线: 1. 定义加权 WLS 估计量:对每个个体-时间点赋权 ωit,用 WLS 求解 αi, γt, β。 2. 写出 WLS 的解 \(\hat{\beta}_{WLS}\) 作为样本矩条件的解。 3. 写出渐近等价表达式:将 \(\hat{\beta}_{WLS} - \tau\) 分解成三项: (a) 来自 outcome 模型误设的偏差;(b) 来自 assignment 模型误设的偏差;(c) 一个高阶交乘项。 4. 分析 (a) 和 (b):当 Assignment 模型正确时,(b) 的期望为零;当 Outcome 模型正确时,(a) 的期望为零。因此只要一个条件成立,总偏差至少是 (c) 阶的 O(1/N) 量级。 5. 对 dynamic effect 的推广:将 Yit 替换成一个关于处理历史的函数(主要是前 k 期的处理状态),并重复上述结构。
关键跳跃点: - 最难的点是 证明“加权 WLS”的矩条件正好对应一个两重估计量的两阶段 M-estimator,且其 influence function 具有双重稳健结构。通常的 DR 估计量(如横截面 IPW)需要明确的“倾向得分与 outcome回归”两阶段估计;但这里 TWFE 天然含有固定效应作为高维 nuisance,使得矩条件复杂。作者的核心技巧是 证明:对于这种可分离(additive)的固定效应结构,加权可以将“固定效应”消去,使得最终的渐近等价式只依赖于 β 和 τ 的差值,且权重 ωit 的设计恰好是“倾向得分的逆”,从而引发双重稳健性。 - 第二跳跃点:在高维 nuisance(N 个个体固定效应 + T 个时间固定效应)下的影响函数推导(涉及对 N→ ∞, T→ ∞ 的联合渐近)不是标准结果,需要证明该 M 估计量的一致渐近正态性。
技术技巧点名: - M-estimation theory:将 WLS 估计量视为一阶矩条件的解,对解进行 Delta 方法展开。 - Influence function 分解:关键技巧,将估计量的偏差分成“outcome 模型 plus assignment 模型”两部分,并严格证明交乘项的高阶小量性质。这部分用到了 FoW(Functional Delta Method) 的变体。 - Double robust structured 推导:利用 经验过程理论(empirical process theory) 中的 Empirical bootstrap / leave-one-out 构造渐近方差估计。本文没有用交叉拟合(cross-fitting),因为 TWFE 已包含强烈的 “within 个体”平滑,可能掩盖交叉拟合必要性。 - Hadamard 可微性:处理权重函数 ω = f(p) 的函数性。
真实例子与应用¶
有。论文在 Section 5 用了 来自 Card & Krueger (1994) 关于最低工资对就业影响的经典面板数据(fast-food restaurants in New Jersey vs. Pennsylvania: 向来不存在 staggered adoption,因为政策是一次性、离散的)。但为了演示,他们人为构造了一个 staggered adoption 场景(模拟政策在不同个体间逐步扩散)。
- 数据:1992 年 2 月(baseline)和 1992 年 11 月(follow-up)的快餐店就业数据。New Jersey 提高最低工资(处理),Pennsylvania 不涨(对照)。
- 如何应用本文方法:将数据视为 T=3 期(虚拟时间点,模拟 staggered adoption),对一部分 New Jersey 餐馆赋 Wit=1 在时间 2,另一部分在时间 3。模拟了“政策在不同餐馆间非随机传播”,并通过 logit 估计 pit(基于一些基线特征)。
- 结果:传统 TWFE 给出负的就业效应 ≈ −0.25(似乎反直觉),而 DR-TWFE 给出 ≈ −0.15(效应更合理,且与更精细的 DiD 估计一致)。作者声称这展示了 DR-TWFE 的稳健性。
- 这个例子想说明什么:在 assignment 模型(logit)有一定合理性时(即政策传播强度与个体特征相关,且特征被正确放入 logit),DR-TWFE 可以纠正传统 TWFE 由“处理时间异质性混入负权重”导致的偏差。
🔎 结论是否比证明窄¶
是的,存在一处值得注意的 gap。作者在定理 1 中声称的“双重稳健”是 在一组条件下对 τ 估计量的一致性,但这份一致性依赖于 渐近理论框架假设(N → ∞, T 固定或 N,T → ∞ 但 T 相对于 N 增长很慢)。然而,论文的 实际实现(Section 4)提出了一种 简单的两阶段估计量,并只给出了基于渐近正态近似的方差估计公式。这个方差估计 没有严格证明是“半参数有效的”(即未 claim 达到 efficiency bound),而且作者对动态效应(dynamic treatment effects)的推广的证明步骤被大大简化,仅粗略地说“这个结果可以用类似方法得到”。读者如果不读 Appendix,无法确知动态设置下的固定效应-权重结构是否稳健收敛。因此,结论的简洁程度远远超过了证明的详细程度,尤其是在动态效应部分。 这是值得留意的“窄结论-宽棱”之处。
四、开放问题(点到为止,扎根具体语句)¶
-
半参数效率界与方差最优性:本文只证明了 DR-TWFE 的 consistency 和局部稳健性,但没有推导其在面板设置中的 semiparametric efficiency bound,也未 claim 达到该界。去考察在给定 outcome model 和 assignment model 的假设下,DR-TWFE 是否是渐近最优的(即其渐近方差是否达到 Cramér-Rao 下界),这是一个自然的理论 gap。扎根语句:论文 Section 3 末尾的 “The proposed estimator is not necessarily efficient in the semiparametric sense”及未引用的相关效率界文献。
-
交叉验证 / 交叉拟合的必要性:DR-TWFE 不要求 cross-fitting(像大多数现代 DR 估计量一样)。这是因为固定效应提供了某种“内部平滑”?还是说在 N, T 有限时 cross-fitting 会改善有限样本性质?扎根语句:论文用“the theoretical results do not require sample splitting”一笔带过,未讨论这个设计选择的代价。
-
对非 staggered adoption / 一般处理模式的推广:本文的逻辑完全建立在 staggered adoption(一旦处理永不退出)上,而现实很多处理是反复出入的(如政策、广告)。这种情况下,如何处理“重新进入处理”对权重的复杂依赖?扎根语句:论文在 intro 最后一行说“我们集中讨论 staggered adoption,但方法可以推广到更一般的模式”,但并未给出任何证明。
-
高维固定效应下的 assignment 模型:在 assignment 模型(logit)中,如果包含高维固定效应(如个体-时间交互作用,或高维协变量),模型会过参数化。如何在高维下进行倾向得分估计?是否可以使用正则化或核化倾向得分?这个问题是经典“高维 causal inference”的延伸。扎根语句: 论文在讨论 assignment 模型时只给出了低维的 logit 例子,未涉及高维(N>>p 情形)。
提醒:确认第一条“半参数效率界”是否是真 gap,可以去读最新几篇面板数据因果推断的效率界文献(如 Hahn 1998 的横截面拓展到面板,近年 Bob & Imbens 的工作),看他们是否已推导出含有固定效应的效率界;如果已有,则 DR-TWFE 的方差最大可缩小多少?这是一个立即可做的理论项目。
Maintained by 陈星宇 · Homepage · Source on GitHub