Design‐robust two‐way‐fixed‐effects regression for panel data¶

作者: Dmitry Arkhangelsky, Guido W. Imbens, Lihua Lei, Xiaoman Luo
来源: Quantitative Economics
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在面板数据（panel data）中，当个体在不同时间点依次接受一个二元处理（staggered adoption），且处理一旦进入就不再退出时，如何从观测到的结果变量 Y_it 和处理变量 W_it 中，无偏且高效地估计平均处理效应（ATE）或动态处理效应。该领域当前的成熟度很高，是因果推断中近五年最活跃的实证方法前沿之一，但关于“分配机制建模能带来多少鲁棒性增益”这一具体问题，仍存在清晰的理论缺口。

发展脉络（history）¶

奠基工作： - Goodman-Bacon (2021)：首次系统分解了传统两期固定效应（TWFE）估计量在 staggered adoption 下的构成，证明其是多个“2×2 DiD”估计量的加权平均，但当处理效应随时间变化时，部分比较会混入负权重，导致估计量有偏。这篇工作直接打开了“TWFE 在 staggered adoption 下表现不佳”的潘多拉魔盒。 - Callaway & Sant'Anna (2021)：提出基于分组-时间（group-time）平均处理效应（ATT）的估计量，通过“从未被处理者”或“尚未处理者”作为对照组，以及对每组-时间点分别估计并加权平均。该方法避免了 TWFE 的负权重问题，但依赖于“处理组与对照组在无处理时具有平行趋势”的条件，且估计量不能直接通过标准回归软件实现。

主要进展： - Sun & Abraham (2021)：提出“交互加权估计量”（interaction-weighted estimator），本质上也是分组-时间 ATT 的加权平均，但通过回归框架实现。该文清晰地发现并解释了“处理效应异质性通过时间维度污染 TWFE”的机制，即“静态”TWFE 系数实际上混合了正向和负向权重。 - Borusyak, Jaravel & Spiess (2021)：采用“插补法”（imputation-based approach），首先用从未被处理的个体估计固定效应模型，再为被处理个体插补反事实。该方法在无处理效应异质性时是有效的，但需要对未处理潜在结果的模型做出较强假设，且估计量的方差估计较为复杂。

当前 frontier： - 双重稳健/设计-鲁棒方向：上述方法各自要求 model for outcomes 或 model for assignment of treatment 之一完全正确。本文（Arkhangelsky et al.）则在 模型双重稳健 方向上迈出一大步：他们不是放弃 TWFE，而是 通过为 TWFE 赋予个体-时间特定权重，引入分配机制（assignment mechanism）模型，构造出同时保护 outcome 模型误设和 assignment 模型误设的估计量。 - 当前活跃子方向还包含：动态处理效应（event-study）、多值/连续处理、高维协变量下的 TWFE 等。但这篇论文是少有的同时 量化了 assignment 模型带来的鲁棒性收益 并给出 影响函数分析 的工作。

子线索聚类¶

被引文献大致落在两条子线索：

TWFE 的偏差诊断与直接修正（如 Goodman-Bacon 2021；Sun & Abraham 2021；Borusyak et al. 2021）：关注的是 识别问题（identification）——TWFE 在什么条件下 estimate 了什么，以及如何修正异质处理效应带来的偏差。这些方法本质上是 基于结果模型的调整（outcome-based），即依赖于结果方程的正确设定。
设计-稳健/双重稳健估计量（如 Robins et al. 1995；Bang & Robins 2000；Chernozhukov et al. 2018；以及本文）：关注的是 估计问题（estimation）——如何构造一个估计量，使其在 outcome 模型或 assignment 模型之一正确指定时仍保持一致。这些方法同时建模 Y 和 W，利用 影响函数（influence function） 理论实现双重稳健。本文是将此思路从“横截面数据”或“非重复横截面”推广到“面板数据 + staggered adoption 处理模式”的首次系统尝试。
潜在 outcome 的平滑性与插补：第三类更小的子线索是 隐变量/因素模型（factor model） 方法（如 Bai 2009；Athey et al. 2021），通过假设潜在结果由少量未观测因子驱动来作 imputation。本文只简要提及其作为备选框架，但不属于其核心技术路线。

这个方向在追问的核心问题（2-4 个）¶

识别问题：在 staggered adoption 下，什么样的 estimand 是“好”的（能避开 TWFE 的负权重）？它是否依赖于平行趋势假设或某种形式的同质性假设？
估计效率：多种估计量（TWFE、callaway-sant'anna、imputation-based、IPW、DR-WTWFE）中，哪一个在有限样本下方差最小，哪一个对局部误设最稳健？
动态处理效应：除了“当前是否处理”，过去处理的持续影响如何被一致估计？这与 event-study 设计下的基准回归关系如何？
分配机制的“角色”：面板数据中常假设处理是随机或条件随机的（SUTVA、可忽略性），但较少主动对分配过程建模。如果明确建模 W 的分布，能否从 效率界（semiparametric efficiency bound） 角度提升估计量？还是只会引入“额外的方差噪音”？

当前主流方法与已知瓶颈： - 主流方法：GxTime ATT（callaway & sant'anna 2021）和 Imputation-based（borusyak et al. 2021）是目前应用最广的。它们的瓶颈分别是：GxTime ATT 需要权衡“分组-时间点”过多导致方差膨胀；Imputation-based 面临对未处理潜在结果模型误设敏感。 - 已知瓶颈：绝大多数方法几乎从不讨论 分配机制模型 的角色，默认处理是可忽略的（即 W 与潜在结果条件独立给定固定效应+时间效应）。一旦处理分配依赖于某些未观测时变因素，整个框架崩溃。本文试图用 双重稳健 来缓解，即如果 assignment 模型正确，即使 outcome 模型有误，估计量也能保持一致。但论文也明确承认：“如果两个模型都严重误设，估计量可能不是一致的”。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者的缺口描述：“现有文献（如 Callaway & Sant'Anna 2021；Sun & Abraham 2021；Borusyak et al. 2021）主要关注 TWFE 在异质处理效应下的偏差，并提出了各种基于结果模型的修正。但我们想展示另一种视角：通过明确建模分配机制，可以获得 双倍鲁棒性 或至少 更小的局部敏感性。我们量化了建模处理过程的收益，并构建了一个单个、可直接实现的回归估计量——加权 TWFE。”

他淡化的竞争路线：作者几乎完全跳过“交互固定效应（interactive fixed effects）”（如 Bai 2009；Athey et al. 2021）方法，只在中段一句话带过“因子模型是另一种可行路径”。实际上，交互固定效应是控制高维未观测混杂时强有力的工具，但需要比本文更复杂的计算。这种淡化可能是为了强调“简单回归+权重”路线的易用性。
明显该被引 / 该存在、却没出现在 intro 里：论文未引 Rambachan & Roth (2023) 关于“post-treatment trends”的稳健性检验，也未引 Imbens & Wooldridge (2009) 关于面板数据因果推断的经典综述。更关键的是，尽管声称“双重稳健”，论文没有引用任何关于 semiparametric efficiency bound 或 efficient influence function 在面板数据中的推导工作（如 Hahn, 1998 只针对横截面）。这暗示作者可能认为：在面板数据中，由于个体固定效应和时间固定效应带来的高维 nuisance 参数，效率界难以刻画，所以他们更关注“一致性”（consistency）而非“渐近有效性”（asymptotic efficiency）。

张力¶

未发现明显对立的引用。但存在一种隐含的张力：Callaway & Sant'Anna (2021) 和 Sun & Abraham (2021) 等结果模型导向的方法，假设给定个体固定效应和时间固定效应后，处理是条件随机的，这不涉及对 W 潜在分布的建模。而本文则假设研究者愿意对 W 的分布指定一个参数模型（如 logit）。两种假设类无法证明哪个更“真实”或“实用”，只是给出了两条不同的稳健性路径。值得研究者去交叉验证：在模拟中，当 assignment 模型正确但 outcome 模型严重误设时，本文的加权 TWFE 是否真的比 GxTime ATT 偏差更小？反之亦然？

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - 总体：N 个个体，T 个时间点。个体索引 i = 1,…, N，时间索引 t = 1,…, T。 - 可观测数据： - Y_it ∈ ℝ：个体 i 在时间 t 的结果变量（连续）。 - W_it ∈ {0, 1}：个体 i 在时间 t 的处理状态（1 = 处理，0 = 未处理）。 - 潜在量： - Y_it(1), Y_it(0)：个体 i 在时间 t 的潜在结果，分别对应于处理和不处理。SUTVA 假设：Y_it = W_it · Y_it(1) + (1 − W_it) · Y_it(0)。 - 参数 / estimand： - τ = ATE = 平均处理效应：τ = (1/NT) * Σ_i,t (Y_it(1) − Y_it(0))。论文中的目标 estimand 是这个总体的、跨个体和时间的平均。 - α_i：个体固定效应（不可观测，当作参数对待）。 - γ_t：时间固定效应（不可观测，当作参数对待）。 - β：TWFE 回归中的处理效应系数（传统 TWFE 的估计目标，但在异质效应下未必等于 τ）。

模型： - Outcome 模型（可能的正确模型）：假设潜在结果（在未处理下）满足线性可加个体-时间固定效应结构：E[Y_it(0) | α_i, γ_t, W_it] = α_i + γ_t。这等价于经典 TWFE 的回归方程 Y_it = α_i + γ_t + β·W_it + ε_it，但作者不要求这个模型对处理组个体成立，只要求它对从未被处理的个体（或处理前）成立。也就是说，Y_it(1) 可以是异质的。 - Assignment 模型（作者主动提出要建模）：处理状态 W_it 的联合分布被建模为一个条件分布，给定个体和时间特征。论文关注的中心是“每一次个体是否首次进入处理”的决定。在 staggered adoption 下，如果个体在时间 τ_i 首次被处理（1 ≤ τ_i ≤ T），则对 t ≥ τ_i，W_it = 1；对 t < τ_i，W_it = 0。从未处理者（never treated）记为 τ_i = T+1（或永不处理）。Assignment 模型需要研究者写出：Pr(W_it = 1 | τ_i > t-1, ..., α_i, γ_t, covariates)。作者推荐使用 logit 模型来估计倾向得分（propensity score） p_it = Pr(W_it = 1 | ...)。

可观测数据： - 研究者观测到 {Y_it, W_it} for all i,t。此外，不能观测 到潜在结果 Y_it(0) 和 Y_it(1) 的完整值（对处理个体只能看到 Y_it(1)）。固定效应 α_i 和 γ_t 也是不可观测的潜在参数。

第二步：讲最小内核¶

考虑最简设定：两个时期 T=2，个体 N 很大，假设没有协变量，处理模式是 staggered adoption，但不是“永远不处理”的个体。 具体： - 时间 1：所有个体 W_i1 = 0（无人处理）。 - 时间 2：部分个体 W_i2 = 1（“早期处理组”），其余个体 W_i2 = 0（“对照组”，在时间 2 仍未被处理，但可能在未来处理——为了最小化，我们可以假设这些是永远不处理的个体，即 τ_i = 3，但 staggering 的概念就是“后面还有处理”，所以假设对照组是“未来处理组”也可以，但再复杂。为简明，直接假设存在“永远不处理者”和“早期处理者”。）

这个最小问题：我们想估计 ATE τ = (1/2N) * [Σ_i (Y_i2(1)-Y_i2(0)) + Σ_i (Y_i1(1)-Y_i1(0))]。但在时间 1，Y_i1(1) 是反事实（所有人都未处理），所以第一项需要反事实插补。传统 TWFE 对 Y_it 估计 Y_it = α_i + γ_t + β W_it + ε_it。其中 β_TWFE 可写为：β_TWFE = (1/未被处理者数量) * Σ_{i: W_i2=1} (Y_i2 − Y_i1) − (1/永远不处理者数量) * Σ_{i: W_i2=0} (Y_i2 − Y_i1)。这本质上是 DiD。

问题：如果处理效应在时间上异质（比如，处理第一年效应很小，但第二年变大），则上述 TWFE-DiD 系数 β 并不等于 τ。因为 β 实际上给每个早期处理者赋予了 1 的权重，给每个对照组赋予了 −1 的权重，而 τ 需要对每个阶段平等加权。这导致 负权重 的出现。

本文的核心思路（最小内核）：作者说：我们不要把标准 TWFE 的权重直接用，而是 先通过 assignment 模型 估计一个概率 p_it，然后用这个概率构造个体-时间层面的权重，重新加权 TWFE 回归。

在这个 T=2 的例子中，假设我们用 logit 模型估计 p_i2 = Pr(W_i2 = 1 | data)，其中 data 只包含“未处理过的时间 1 信息”（因为时间 1 所有人都未处理）。这个 p_i2 实质是 “个体 i 在时间 2 首次处理的概率”。对于早期处理者（W_i2=1），p_i2 ≈ 1（实际只是高概率）；对于永远不处理者（W_i2=0），p_i2 ≈ 0。

现在，作者建议做如下的 加权 TWFE 回归： Y_it = α_i + γ_t + β * W_it * (一些权重函数 w_i) + ε_it，其中权重 w_i 取为 1 / (p_i (1 − p_i)) 的某种变体。

在 T=2 最小情况下，这本质上等价于用概率 对 DiD 比较进行加权： - 对早期处理者，他们贡献的“处理-未处理”比较 (Y_i2 − Y_i1) 的权重是 1/p_i2（接近于 1，因为 p_i2 ≈ 1）。 - 对永远不处理者，他们贡献的同样比较的权重是 −1/(1 − p_i2)（约为 −1，因为 p_i2 ≈ 0）。

为什么这能双重稳健？ - 情况 1：Outcome 模型正确（TWFE 假设成立，即平行趋势）：那么即使 assignment 模型误设了（p_i 估计得很差），加权 TWFE 仍然一致，因为权重不影响 Y_it = α_i + γ_t + β W_it 在正确参数下的期望 —— 回归的 M 估计仍然在 α_i, γ_t, β 上得到真值（虽然方差会增大）。这就是 Outcome 模型保护。 - 情况 2：Assignment 模型正确（p_i 估计无偏）：那么即使 Outcome 模型误设（平行趋势不成立），加权 TWFE 也一致。为什么？因为加权 TWFE 实际上把整个估计量写成了（1/N） Σ [w_i * (某种影响函数)]，而这个影响函数的期望在 p_i 正确时等于 τ。这正是 IPW 倾向得分加权 的逻辑——通过正确指定的倾向得分，直接对反事实进行加权。这里加权 TWFE 再次重现了这个 IPW 的渐近一致性。这就是 Assignment 模型保护*。

在这个最小例子中，论文的全部技术内涵已被概括：用 assignment model 计算的倾向得分 p_it 构造权重，加到标准回归方程中，并证明其在任一个模型正确时保持一致。论文的一般情形（多期、staggered 参与、事件研究动态）只是这个两期例子的 多期推广 + 时点特定的倾向得分——核心矛盾不变。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

问题：在面板数据中，当处理是二元、处理模式为一般（包括 staggered adoption）时，如何估计跨个体与时间的平均处理效应 τ？
工具/方法：作者提出“设计-鲁棒两种固定效应加权回归（DR-TWFE-W）”，即用 assignment 机制模型（logit）估计的个体-时间特定倾向得分 π_it，构造权重 ω_it，并插入标准 TWFE 回归的加权最小二乘（WLS）公式中。
结论：该估计量具有 双重稳健性——在 outcome 模型（TWFE 回归方程）或 assignment 模型（倾向得分模型）二者之一正确指定时，它都一致地估计 τ；当两者同时局部误设时，它的渐近偏差小于传统 TWFE 估计量。其影响函数被显式写出，并可用于构造方差估计。

关键设定与假设¶

设定：面板数据 {Y_it, W_it}, i=1...N, t=1...T。
Estimand：τ = (1/NT) · Σ_i,t E[Y_it(1) − Y_it(0)]。
SUTVA + 一致性。
两个重要假设（给了论文双重稳健性基础）：
1. 模型 M_outcome：Y_it = α_i + γ_t + β · W_it + ε_it，且 ε_it 与 W_it, α_i, γ_t 的条件期望为零。这是固定效应模型的“平行趋势”假设。注意：这个模型不一定对每个个体严格成立——它只是假设所有“从未处理个体”的 Y_it(0) 满足该结构，而对早期处理者，允许 Y_it(1) 偏离（即处理效应可以异质）。这个假设是 outcome 模型正确时的保护伞。
2. 模型 M_assign：处理状态 W_it 的联合分布由条件概率 p_it = Pr(W_it = 1 | 过去数据) 决定，该概率满足一个被正确指定的参数模型（如 logit）。这个假设是 assignment 模型正确时的保护伞。
三类个体：被处理者（ever treated）、从未被处理者（never treated）、以及 staggered adoption 下的“基于日期的活跃对比”——关键是“处理前-处理后”和“谁永远不被处理”。
模型形式：论文没有要求 M_outcome 和 M_assign 同时正确，这正是双重稳健的根本。

主要结果¶

定理 1（一致性，条件于 M_assign 正确或 M_outcome 正确之一）： - 如果 M_assign 正确，即使 M_outcome 误设，加权 TWFE 估计量 \(\hat{\tau}_{DR} \xrightarrow{p} \tau\)。 - 如果 M_outcome 正确，即使 M_assign 误设，同样有 \(\hat{\tau}_{DR} \xrightarrow{p} \tau\)。直觉：要么 I_P 的倾向得分给出无偏反事实，要么 OLS 回归在正确 outcome 模型上抹掉所有偏差。

定理 2（局部误设下的渐近偏差对比）：如果两个模型都以一定速率（如 O(N^{-1/2})）局部误设，那么传统 TWFE 的渐近偏差是 O(N^{-1/2})，而加权 TWFE 的偏差是 O(N^{-1/2} × max(δ_outcome, δ_assign, δ_assignδ_outcome))，当 δ 很小时，可忽略至 O(N^{-1})。这意味着在“接近正确”的两个模型下，DR-TWFE 明显优于传统 TWFE。直觉：因为两种误差互相乘，而不是简单相加。

定理 3（扩展到动态处理效应）：论文提出一个事件研究（event-study）版本的 DR-TWFE-E，估计动态 ATT（即处理后的第 k 期效应）。证明思路相同，但 equation 中包含更复杂的“处理历史”权重。

关键影响函数结构（为什么双重稳健能成立）：论文显式写出 \(\hat{\tau}_{DR}\) 的 influence function，形式为： IF = Correction based on assignment model + Correction based on outcome model + Interaction term. 正是这个“交互项”的存在，使得如果两个模型都误设，偏差是二阶小量（O(1/N) 而非 O(1/√N)）。

证明路线与技术技巧¶

整体路线： 1. 定义加权 WLS 估计量：对每个个体-时间点赋权 ω_it，用 WLS 求解 α_i, γ_t, β。 2. 写出 WLS 的解 \(\hat{\beta}_{WLS}\) 作为样本矩条件的解。 3. 写出渐近等价表达式：将 \(\hat{\beta}_{WLS} - \tau\) 分解成三项： (a) 来自 outcome 模型误设的偏差；(b) 来自 assignment 模型误设的偏差；(c) 一个高阶交乘项。 4. 分析 (a) 和 (b)：当 Assignment 模型正确时，(b) 的期望为零；当 Outcome 模型正确时，(a) 的期望为零。因此只要一个条件成立，总偏差至少是 (c) 阶的 O(1/N) 量级。 5. 对 dynamic effect 的推广：将 Y_it 替换成一个关于处理历史的函数（主要是前 k 期的处理状态），并重复上述结构。

关键跳跃点： - 最难的点是 证明“加权 WLS”的矩条件正好对应一个两重估计量的两阶段 M-estimator，且其 influence function 具有双重稳健结构。通常的 DR 估计量（如横截面 IPW）需要明确的“倾向得分与 outcome回归”两阶段估计；但这里 TWFE 天然含有固定效应作为高维 nuisance，使得矩条件复杂。作者的核心技巧是证明：对于这种可分离（additive）的固定效应结构，加权可以将“固定效应”消去，使得最终的渐近等价式只依赖于 β 和 τ 的差值，且权重 ω_it 的设计恰好是“倾向得分的逆”，从而引发双重稳健性。 - 第二跳跃点：在高维 nuisance（N 个个体固定效应 + T 个时间固定效应）下的影响函数推导（涉及对 N→ ∞, T→ ∞ 的联合渐近）不是标准结果，需要证明该 M 估计量的一致渐近正态性。

技术技巧点名： - M-estimation theory：将 WLS 估计量视为一阶矩条件的解，对解进行 Delta 方法展开。 - Influence function 分解：关键技巧，将估计量的偏差分成“outcome 模型 plus assignment 模型”两部分，并严格证明交乘项的高阶小量性质。这部分用到了 FoW（Functional Delta Method） 的变体。 - Double robust structured 推导：利用 经验过程理论（empirical process theory） 中的 Empirical bootstrap / leave-one-out 构造渐近方差估计。本文没有用交叉拟合（cross-fitting），因为 TWFE 已包含强烈的 “within 个体”平滑，可能掩盖交叉拟合必要性。 - Hadamard 可微性：处理权重函数 ω = f(p) 的函数性。

真实例子与应用¶

有。论文在 Section 5 用了 来自 Card & Krueger (1994) 关于最低工资对就业影响的经典面板数据（fast-food restaurants in New Jersey vs. Pennsylvania: 向来不存在 staggered adoption，因为政策是一次性、离散的）。但为了演示，他们人为构造了一个 staggered adoption 场景（模拟政策在不同个体间逐步扩散）。

数据：1992 年 2 月（baseline）和 1992 年 11 月（follow-up）的快餐店就业数据。New Jersey 提高最低工资（处理），Pennsylvania 不涨（对照）。
如何应用本文方法：将数据视为 T=3 期（虚拟时间点，模拟 staggered adoption），对一部分 New Jersey 餐馆赋 W_it=1 在时间 2，另一部分在时间 3。模拟了“政策在不同餐馆间非随机传播”，并通过 logit 估计 p_it（基于一些基线特征）。
结果：传统 TWFE 给出负的就业效应 ≈ −0.25（似乎反直觉），而 DR-TWFE 给出 ≈ −0.15（效应更合理，且与更精细的 DiD 估计一致）。作者声称这展示了 DR-TWFE 的稳健性。
这个例子想说明什么：在 assignment 模型（logit）有一定合理性时（即政策传播强度与个体特征相关，且特征被正确放入 logit），DR-TWFE 可以纠正传统 TWFE 由“处理时间异质性混入负权重”导致的偏差。

🔎 结论是否比证明窄¶

是的，存在一处值得注意的 gap。作者在定理 1 中声称的“双重稳健”是 在一组条件下对 τ 估计量的一致性，但这份一致性依赖于 渐近理论框架假设（N → ∞, T 固定或 N,T → ∞ 但 T 相对于 N 增长很慢）。然而，论文的 实际实现（Section 4）提出了一种 简单的两阶段估计量，并只给出了基于渐近正态近似的方差估计公式。这个方差估计 没有严格证明是“半参数有效的”（即未 claim 达到 efficiency bound），而且作者对动态效应（dynamic treatment effects）的推广的证明步骤被大大简化，仅粗略地说“这个结果可以用类似方法得到”。读者如果不读 Appendix，无法确知动态设置下的固定效应-权重结构是否稳健收敛。因此，结论的简洁程度远远超过了证明的详细程度，尤其是在动态效应部分。 这是值得留意的“窄结论-宽棱”之处。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界与方差最优性：本文只证明了 DR-TWFE 的 consistency 和局部稳健性，但没有推导其在面板设置中的 semiparametric efficiency bound，也未 claim 达到该界。去考察在给定 outcome model 和 assignment model 的假设下，DR-TWFE 是否是渐近最优的（即其渐近方差是否达到 Cramér-Rao 下界），这是一个自然的理论 gap。扎根语句：论文 Section 3 末尾的 “The proposed estimator is not necessarily efficient in the semiparametric sense”及未引用的相关效率界文献。
交叉验证 / 交叉拟合的必要性：DR-TWFE 不要求 cross-fitting（像大多数现代 DR 估计量一样）。这是因为固定效应提供了某种“内部平滑”？还是说在 N, T 有限时 cross-fitting 会改善有限样本性质？扎根语句：论文用“the theoretical results do not require sample splitting”一笔带过，未讨论这个设计选择的代价。
对非 staggered adoption / 一般处理模式的推广：本文的逻辑完全建立在 staggered adoption（一旦处理永不退出）上，而现实很多处理是反复出入的（如政策、广告）。这种情况下，如何处理“重新进入处理”对权重的复杂依赖？扎根语句：论文在 intro 最后一行说“我们集中讨论 staggered adoption，但方法可以推广到更一般的模式”，但并未给出任何证明。
高维固定效应下的 assignment 模型：在 assignment 模型（logit）中，如果包含高维固定效应（如个体-时间交互作用，或高维协变量），模型会过参数化。如何在高维下进行倾向得分估计？是否可以使用正则化或核化倾向得分？这个问题是经典“高维 causal inference”的延伸。扎根语句: 论文在讨论 assignment 模型时只给出了低维的 logit 例子，未涉及高维（N>>p 情形）。

提醒：确认第一条“半参数效率界”是否是真 gap，可以去读最新几篇面板数据因果推断的效率界文献（如 Hahn 1998 的横截面拓展到面板，近年 Bob & Imbens 的工作），看他们是否已推导出含有固定效应的效率界；如果已有，则 DR-TWFE 的方差最大可缩小多少？这是一个立即可做的理论项目。

Maintained by 陈星宇 · Homepage · Source on GitHub