Group-Level Treatment Effect Heterogeneity in Difference-in-Differences: A Balanced Approach¶

作者: Nora Bearth, Nadja van 't Hoff, Torben S. D. Johansen
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.24785

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是：在双重差分（Difference-in-Differences, DiD） 框架下，如何识别、估计和推断处理效应在不同子组（group） 之间的异质性，并将这种异质性与组间协变量构成的差异分离开来。该方向当前处于方法快速发展但核心概念尚未完全统一的阶段：已有大量工作关注平均处理效应（ATT）的稳健估计、条件处理效应（CATE）的灵活估计，以及三重差分（DDD）的识别问题，但如何定义和估计一个“公平”的组间比较参数——即排除协变量分布差异后的组间处理效应差异——仍是一个开放且活跃的领域。

发展脉络（history）¶

奠基工作：DiD 框架的建立与协变量调整。Abadie (2005) 提供了条件平行趋势假设下 DiD 的第一个半参数公式化表述，奠定了后续工作的基础。随后，Sant'Anna & Zhao (2020) 和 Callaway & Sant'Anna (2021) 将双重稳健（doubly robust） 和多期交错采纳（staggered adoption） 引入 DiD，使得在灵活估计倾向得分和结果回归时仍能获得 \(\sqrt{n}\)-一致且渐近正态的 ATT 估计量。这些工作将 DiD 从简单的两期两组的设定扩展到了更现实的场景。
主要进展：处理效应异质性的估计。在横截面设定下，Wager & Athey (2018) 的因果森林和 Chernozhukov et al. (2018) 的去偏机器学习方法为估计条件平均处理效应（CATE） 提供了灵活且可推断的工具。这些方法随后被适配到 DiD 设定中，例如 Hatamyar et al. (2023) 和 Imai et al. (2026) 在条件平行趋势下估计条件处理效应。这些工作擅长描述异质性如何随协变量变化，但它们不直接回答一个更宏观的问题：两个子组（如男性和女性）的处理效应差异，在多大程度上是由组间协变量分布不同造成的？
当前 frontier：组间比较的识别与解释。最近的工作开始直接处理组间比较问题。Caron (2025) 在三重差分框架下区分了子组 ATT 的差异（DATT） 和因果差异（CDATT），后者需要关于子组状态可操纵性的强假设。Bearth & Lechner (2025) 在横截面无混杂设定下提出了平衡组平均处理效应（BGATE），通过将各组协变量分布平衡到同一目标分布来分离异质性与构成差异。本文的位置：将 Bearth & Lechner (2025) 的平衡逻辑扩展到 DiD 设定，在标准条件平行趋势假设下定义并识别平衡组平均处理效应（BGATT），并为其推导出影响函数（influence function），从而支持使用机器学习灵活估计高维 nuisance 组件时的 \(\sqrt{n}\)-一致推断。

子线索聚类¶

DiD 中的双重稳健与机器学习估计：Sant'Anna & Zhao (2020), Callaway & Sant'Anna (2021), Chang (2020), Zimmert (2018), Nie et al. (2024)。这一簇关注如何在 DiD 设定下构造对 nuisance 函数误设稳健的估计量，并允许使用高维或机器学习方法估计 nuisance。
处理效应异质性的灵活估计：Wager & Athey (2018), Athey et al. (2019), Chernozhukov et al. (2018), Kennedy (2023), Semenova & Chernozhukov (2021)。这一簇关注如何估计 CATE 或组平均处理效应（GATE），通常使用因果森林或去偏机器学习，但不专门处理组间比较中的协变量平衡问题。
三重差分（DDD）与组间比较的识别：Caron (2025), Olden & Møen (2022), Strezhnev (2023), Ortiz-Villavicencio & Sant'Anna (2025)。这一簇关注 DDD 设计的识别假设、估计量和权重性质，其中 Caron (2025) 最接近本文，但她关注的是子组状态的因果效应，而非在共同协变量分布下的组间处理效应比较。

这个方向在追问的核心问题¶

如何定义“公平”的组间比较参数？ 当组间协变量分布不同时，直接比较组 ATT 会混淆异质性与构成差异。需要一个新的 estimand 来分离两者。
如何在不依赖参数交互结构的情况下识别该参数？ 传统的三重差分或交互项回归依赖于特定的函数形式假设，在灵活设定下可能产生难以解释的权重。
如何在允许使用机器学习灵活估计高维 nuisance 组件的同时，对该参数进行 \(\sqrt{n}\)-一致且渐近正态的推断？ 这是当前因果推断方法发展的核心挑战之一。
如何将该参数扩展到多期交错采纳设定？ 实际应用中，处理通常在多个时间点交错实施，需要定义相应的 group-time 参数并处理其联合推断。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者认为现有方法（子组分析、三重差分）存在三个主要局限：(i) 子组分析样本量小、功效低；(ii) 三重差分的系数在灵活设定下可能使用难以解释的权重（引用 Strezhnev, 2023）；(iii) 当平行趋势条件依赖于协变量时，回归实现需要高阶交互项，导致高维问题。作者将 BGATT 定位为解决这些局限的“显然的下一步”：它提供了一个透明的、可解释的目标参数，在标准条件平行趋势假设下被识别，并且其影响函数表示允许灵活使用机器学习进行推断。
哪些竞争路线被他淡化或回避了：作者淡化了直接估计 CATE 然后对组内平均这一路线。虽然承认 CATE 方法“对于描述异质性很有用”，但认为它们“本身并不定义一个在共同协变量分布下的组级比较”。这回避了一个问题：如果研究者先估计 CATE \(\tau(x)\)，然后对每个组 \(Z=z\) 计算 \(\int \tau(x) dP_{X|D=1}(x)\)（即用目标分布 \(P_{X|D=1}\) 而非 \(P_{X|D=1, Z=z}\) 来平均），是否也能得到与 BGATT 相同的参数？作者没有讨论这种“先估计 CATE 再重新加权”的替代策略的优缺点。
什么明显该被引 / 该存在、却没出现在 intro 里？ 作者没有引用 Kennedy (2023) 关于 CATE 最优双重稳健估计的工作，尽管该工作也涉及“用估计或插补的结果进行回归”的通用 oracle 不等式，这与本文的“两步法”估计策略（先构造伪结果，再回归到 \(W\)）有很强的技术关联。此外，作者没有引用 Jacob (2019) 关于 GATES（按影响组排序的组平均处理效应）的工作，该工作也涉及在非随机实验中使用双重稳健估计和 Neyman 正交矩进行组级推断。

张力¶

未见明显对立引用。所有被引工作基本在 DiD 框架内沿着不同方向（稳健估计、异质性描述、组间比较）推进，没有出现彼此矛盾或在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(i = 1, \dots, N\)：独立同分布的个体。
- \(t \in \{0, 1\}\)：时间，\(t=0\) 为处理前，\(t=1\) 为处理后。
- \(Y_{it}\)：个体 \(i\) 在时间 \(t\) 的可观测结果。
- \(D_i \in \{0, 1\}\)：处理指示变量，\(D_i=1\) 表示在 \(t=1\) 时接受处理，\(D_i=0\) 表示从未接受处理。假设 \(D_{i0}=0\) 对所有 \(i\) 成立。
- \(Z_i \in \{0, 1\}\)：组别（moderator），一个在 \(t=0\) 时测量的二元变量，研究者想比较处理效应在 \(Z=1\) 和 \(Z=0\) 两组间的差异（例如性别）。
- \(X_i = (W_i, V_i)\)：预处理协变量向量。\(W_i\) 是平衡协变量，其分布在比较 \(Z=1\) 和 \(Z=0\) 两组时会被平衡到同一目标分布。\(V_i\) 是额外调整协变量，仅用于满足条件平行趋势假设。
- \(Y_{it}(1), Y_{it}(0)\)：潜在结果，分别表示个体 \(i\) 在时间 \(t\) 接受处理和不接受处理时的结果。
- \(\tau = E[Y_{i1}(1) - Y_{i1}(0) | D_i=1]\)：ATT，处理组平均处理效应。
- \(\gamma_G(z) = E[Y_{i1}(1) - Y_{i1}(0) | D_i=1, Z_i=z]\)：GATT，组 \(Z=z\) 内的 ATT。
- \(\gamma_B(z) = E_{W|D=1}[ E[Y_{i1}(1) - Y_{i1}(0) | D_i=1, Z_i=z, W_i] ]\)：BGATT，组 \(Z=z\) 的 ATT，但其中 \(W\) 的分布被平衡到整个处理组的边际分布 \(P_{W|D=1}\)。
- \(\gamma^\Delta_B = \gamma_B(1) - \gamma_B(0)\)：DiBGATT，两个 BGATT 的差，是本文的核心异质性参数。
- \(m_d(x, z) = E[Y_1 - Y_0 | D=d, Z=z, X=x]\)：条件平均结果变化。
- \(p_{D|X,Z}(1|x,z) = P(D=1|X=x, Z=z)\)：倾向得分。
- \(p_{Z|D=1,W}(z|w) = P(Z=z|D=1, W=w)\)：在处理组中，给定 \(W\) 时属于组 \(z\) 的概率。
模型：
- 数据生成机制由潜在结果框架描述。核心识别假设是条件平行趋势：\(E[Y_1(0) - Y_0(0) | D=1, X, Z] = E[Y_1(0) - Y_0(0) | D=0, X, Z]\)。这意味着，在控制了 \((X, Z)\) 后，处理组和对照组的反事实结果趋势是相同的。此外，还需要无预期假设（\(E[Y_0(0)|D=1, X, Z] = E[Y_0(1)|D=1, X, Z]\)）和重叠假设（处理概率和组别概率有界远离 0 和 1）。
- 要估计的对象是 \(\gamma_B(z)\) 和 \(\gamma^\Delta_B\)。这些是半参数参数：它们由有限维参数（如均值差）定义，但依赖于无限维 nuisance 函数（如 \(m_d\), \(p_{D|X,Z}\), \(p_{Z|D=1,W}\)）。
可观测数据：
- 研究者能观测到的是 \(\{ (Y_{i0}, Y_{i1}, D_i, Z_i, X_i) \}_{i=1}^N\)。
- 想要但观测不到的量：个体层面的处理效应 \(Y_{i1}(1) - Y_{i1}(0)\)，以及反事实结果 \(Y_{i1}(0)\)（对于 \(D_i=1\) 的个体）。识别依赖于条件平行趋势假设，用可观测的对照组结果变化来估计不可观测的处理组反事实结果变化。

第二步：讲最小内核¶

本文的核心思路可以用一个最简单的特例来理解：\(W\) 是二元变量（如教育水平：高/低），\(Z\) 是二元变量（如性别：女/男），且 \(X = W\)（即没有额外的调整协变量 \(V\)）。在这个特例下，条件平行趋势假设简化为：在控制了性别和教育水平后，处理组和对照组的反事实结果趋势相同。

问题：我们想比较处理效应在女性和男性之间的差异，但女性和男性在教育水平分布上不同（例如，处理组中女性75%高学历，男性25%高学历）。直接比较组 ATT 会混淆性别效应和教育效应。

核心思路：构造一个“公平”的比较。我们想知道：如果女性和男性有相同的教育分布，他们的处理效应差异是多少？

具体操作： 1. 定义目标分布：选择整个处理组的教育分布作为“公平”的参考分布。假设处理组中高学历和低学历各占 50%，即 \(P(W=h|D=1) = 0.5, P(W=\ell|D=1) = 0.5\)。 2. 计算每个教育水平下的性别处理效应差异： - 在高学历组，女性的 ATT 是 8，男性的 ATT 是 5，差异为 \(8 - 5 = 3\)。 - 在低学历组，女性的 ATT 是 4，男性的 ATT 是 3，差异为 \(4 - 3 = 1\)。 3. 用目标分布加权平均：DiBGATT 就是这两个“条件性别差异”在目标分布下的加权平均：

\[\gamma^\Delta_B = 0.5 \times 3 + 0.5 \times 1 = 2\]

这个特例揭示了什么？ - BGATT 的计算：\(\gamma_B(z) = E_{W|D=1}[ \text{ATT}(z, W) ]\)。即，先计算每个 \(W\) 水平下组 \(z\) 的 ATT，然后用 \(P_{W|D=1}\) 加权平均。在上例中，\(\gamma_B(\text{女}) = 0.5 \times 8 + 0.5 \times 4 = 6\)，\(\gamma_B(\text{男}) = 0.5 \times 5 + 0.5 \times 3 = 4\)，差为 2。 - 与直接比较 GATT 的区别：直接比较 GATT 得到 \(\gamma^\Delta_G = (0.75 \times 8 + 0.25 \times 4) - (0.25 \times 5 + 0.75 \times 3) = 7 - 3.5 = 3.5\)。这 1.5 的差异（\(3.5 - 2\)）完全由教育分布差异导致（女性更多高学历，而高学历组性别差异更大）。 - 数学困难：在一般设定下（\(W\) 连续或高维，\(X \neq W\)），我们不能简单地像这个特例一样分组计算。我们需要一个影响函数来构造一个估计量，该估计量能自动实现这种“先条件、再平衡”的操作，并且对 nuisance 函数的估计误差不敏感。这就是 Theorem 1 和后续估计方法的核心任务。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 DiD 框架下，如何定义、识别和推断一个能分离处理效应异质性与组间协变量构成差异的组间比较参数。
核心工具 / 方法：提出了平衡组平均处理效应（BGATT） 及其差异（DiBGATT），推导了其影响函数（influence function），并基于此构造了双重稳健、Neyman 正交的估计量，该估计量允许使用交叉拟合（cross-fitting） 和灵活的机器学习方法估计高维 nuisance 组件。
主要结论：在标准条件平行趋势假设下，BGATT 和 DiBGATT 被识别。所提出的估计量是 \(\sqrt{n}\)-一致、渐近正态且半参数有效的。该估计量具有一种新颖的“交叉双重稳健”性质：对于两组 nuisance 函数对，只要每对中至少有一个被一致估计，估计量就是一致的。模拟实验支持了理论结果。

关键设定与假设¶

核心设定：两期（\(t=0,1\)）面板数据，处理在 \(t=1\) 时发生。\(Z\) 是预处理二元组别变量。\(X = (W, V)\)，其中 \(W\) 是平衡协变量，\(V\) 是额外调整协变量。
关键假设：
- Assumption 1 (条件平行趋势)：\(E[Y_1(0) - Y_0(0) | D=1, X, Z] = E[Y_1(0) - Y_0(0) | D=0, X, Z]\)。这是 DiD 的核心识别假设，本文将其加强为在 \((X, Z)\) 上条件。
- Assumption 2 (无预期)：\(E[Y_0(0)|D=1, X, Z] = E[Y_0(1)|D=1, X, Z]\)。确保处理前结果不受处理预期影响。
- Assumption 3 (强重叠)：处理概率和组别概率有界远离 0 和 1。这是进行因果推断的标准假设。
- Assumption 4 (外生性)：\(X\) 和 \(Z\) 是预处理变量，不受处理影响。
- Assumption 6 (乘积率条件)：这是本文的关键技术假设，它要求 nuisance 函数的估计误差的 \(L_2\) 范数的乘积是 \(o_p(n^{-1/2})\)。例如，\(\|\hat{m}_0 - m_0\|_{L_2} \cdot \|\hat{p}_{D|X,Z} - p_{D|X,Z}\|_{L_2} = o_p(n^{-1/2})\)。这比要求每个 nuisance 函数单独收敛到 \(n^{-1/4}\) 更弱，是“双重稳健”性质的体现。
- Assumption 7 (稳定性)：对第二步回归估计量的稳定性要求，类似于 Kennedy (2023) 中的条件，确保伪结果回归的误差可控。
相比已有文献的放宽/强化：相比标准 DiD 文献，本文强化了平行趋势假设（需要条件在 \(X\) 和 \(Z\) 上），但放宽了对参数交互结构的依赖（BGATT 的识别不依赖任何参数模型）。相比 Caron (2025)，本文不需要关于 \(Z\) 可操纵性的因果假设，而是将 DiBGATT 主要解释为一个平衡后的描述性对比。

主要结果¶

Theorem 1 (BGATT 的影响函数)：给出了 BGATT \(\gamma_B(z)\) 的显式影响函数 \(\phi_z\)。该影响函数由三部分组成：一个残差化的 DiD 项（\(\omega_1(z;O) \cdot (Y_1 - Y_0 - m_0(X, z))\)），一个平衡校正项（\(\omega_2(z;O) \cdot (E[m_1|...] - E[m_0|...])\)），和一个中心化项（\(-\frac{D}{p_D(1)} \gamma_B(z)\)）。权重 \(\omega_1\) 和 \(\omega_2\) 包含了倾向得分、组别概率和密度比，其结构确保了 Neyman 正交性。
Theorem 2 (渐近正态性)：在 Assumptions 1-7 下，BGATT 估计量 \(\hat{\gamma}_B(z)\) 是渐近线性的，其影响函数即为 \(\phi_z\)。因此，\(\sqrt{n}(\hat{\gamma}_B(z) - \gamma_B(z)) \xrightarrow{d} N(0, E[\phi_z^2])\)。该估计量是半参数有效的，即其渐近方差达到了半参数效率界。
Theorem 3 (多期交错采纳的扩展)：将 BGATT 扩展到多期交错采纳设定，定义了 group-time BGATT \(\gamma^B_{g,t}(z)\)，并证明了其联合渐近正态性。这为构造事件研究图、组特异性平均等聚合参数提供了理论基础。

证明路线与技术技巧¶

整体路线：
1. 推导影响函数：使用 von Mises 展开（或称为路径导数）的方法。作者将 BGATT 视为一个分布泛函 \(\gamma(P)\)，然后计算其在真实分布 \(P\) 处的“一阶泰勒展开”的余项，该一阶项即为影响函数。具体地，作者通过将 BGATT 分解为更简单的构建块（如 \(m_1\), \(m_0\), \(p_{W|D=1}\) 等）的影响函数，并利用乘积法则（product rule for derivatives）组合它们，从而得到 \(\phi_z\)（见 Appendix A.2）。
2. 构造估计量：基于影响函数，构造一步估计量（one-step estimator）：\(\hat{\gamma}_B(z) = \frac{1}{N} \sum_i \hat{\phi}_z(O_i)\)，其中 \(\hat{\phi}_z\) 是将所有 nuisance 函数替换为交叉拟合估计值后的影响函数。由于影响函数是 Neyman 正交的，该估计量对 nuisance 函数的估计误差不敏感。
3. 证明渐近正态性：将估计误差分解为 \(\sqrt{n}(\hat{\gamma}_B - \gamma) = \sqrt{n} S^* + \sqrt{n} T_1 + \sqrt{n} T_2\)，其中 \(S^*\) 是影响函数的样本平均（主导项），\(T_1\) 是经验过程项，\(T_2\) 是二阶余项。交叉拟合确保 \(T_1 = o_p(1)\)。乘积率条件（Assumption 6） 确保 \(T_2 = o_p(1)\)。因此，\(\sqrt{n}(\hat{\gamma}_B - \gamma) = \sqrt{n} S^* + o_p(1)\)，由中心极限定理可得渐近正态性。
关键跳跃点：
- 推导影响函数：这是最吃功夫的部分。作者需要处理 BGATT 中嵌套的条件期望（先对 \(X\) 条件，再对 \(W\) 平均），并正确地将影响函数分解为 DiD 部分和平衡部分。Appendix A.2 的推导非常详细，但核心技巧是将离散情况下的推导作为脚手架，利用指示函数的性质简化计算，然后断言结果对连续情况也成立。
- 证明二阶余项 \(R_2\) 的可忽略性：这是证明的核心技术难点。Appendix B 展示了如何将 \(R_2\) 分解为 \(R_{2,A}\) 和 \(R_{2,B}\) 两部分，然后使用 Cauchy-Schwarz 不等式和重叠假设将其上界 bound 为 nuisance 函数估计误差的 \(L_2\) 范数的乘积。这正是 Assumption 6 的由来。
技术技巧点名：
- 影响函数 / von Mises 展开：核心工具，用于构造 Neyman 正交的估计方程。
- 交叉拟合（Cross-fitting）：用于控制经验过程项 \(T_1\)，避免对 nuisance 函数的估计施加过强的 Donsker 条件。
- 乘积率条件（Product Rate Condition）：这是双重稳健估计的典型条件，允许 nuisance 函数以较慢的速率（如 \(n^{-1/4}\)）收敛，只要它们的乘积收敛到 \(n^{-1/2}\)。
- Cauchy-Schwarz 不等式：用于 bound 二阶余项。

真实例子与应用¶

本文为“纯理论 + 模拟”论文，无真实数据例子。作者在 Section 8 标注“Work in progress”，表明实证应用部分尚未完成。模拟实验（Section 7）设计精巧，验证了理论结果： - 数据：模拟数据，包含高维控制变量 \(V\)（\(p=300\)）和 4 维平衡协变量 \(W\)。处理效应可以是 \(W\) 的加性函数或交互函数。 - 方法应用：使用交叉拟合的 Lasso 估计所有 nuisance 函数（倾向得分、结果回归、组别概率），然后构造 DiBGATT 估计量。 - 结果：当使用 Lasso 进行正则化估计时，DiBGATT 估计量的偏差很小，RMSE 随样本量增加而减小，95% 置信区间的覆盖率接近名义水平（约 0.96）。相比之下，使用未正则化的线性模型会导致巨大的偏差和极低的覆盖率（0.572）。这直观地展示了在高维设定下，使用正则化方法估计 nuisance 函数对于双重稳健估计量的有效性至关重要。

🔎 结论是否比证明窄¶

“交叉双重稳健”性质的严格证明范围：作者在 Section 5.3 和 Appendix B 中证明，在 Assumption 6 的乘积率条件下，\(R_2 = o_p(n^{-1/2})\)。这个条件具体化为：对于两组 nuisance 对，每对中两个估计量的 \(L_2\) 误差的乘积是 \(o_p(n^{-1/2})\)。作者在正文中将其解释为“对于每对 nuisance 函数，至少有一个被一致估计”，但这个解释是宽松的。严格来说，乘积率条件允许两个估计量都收敛得很慢（如 \(n^{-1/4}\)），只要它们的乘积收敛到 \(n^{-1/2}\)。而“至少一个一致估计”是乘积率条件的一个充分但非必要的特例。作者没有在正文中明确讨论这种区别，可能会让读者高估该性质的强度。
“半参数有效”的声明：Theorem 2 声称估计量“attains the semiparametric efficiency bound”。这个结论依赖于影响函数 \(\phi_z\) 确实是 BGATT 的有效影响函数。作者在 Appendix A.2 中推导了 \(\phi_z\)，但没有给出严格的证明证明它达到了半参数效率界（例如，通过计算该模型的正切空间并证明 \(\phi_z\) 属于该空间）。作者引用 Kennedy (2024) 的策略 2（组合已知影响函数），这通常是正确的，但论文本身没有提供完整的效率界证明。因此，这个声明应被视为一个基于标准方法的合理 claim，而非论文中严格证明的定理。

四、开放问题¶

BGATT 与“先估计 CATE 再重新加权”策略的比较：本文没有与一个自然的替代策略进行比较：先使用任意方法（如因果森林、DML）估计 CATE \(\hat{\tau}(x)\)，然后对每个组 \(z\) 计算 \(\frac{1}{N_{D=1}} \sum_{i: D_i=1} \hat{\tau}(X_i, z)\)。这个策略是否也能达到 \(\sqrt{n}\)-一致？它与本文基于影响函数的方法在效率、稳健性和计算成本上孰优孰劣？扎根点：Section 2 中作者将 CATE 方法定位为“描述异质性”，但未讨论这种直接的“估计-平均”策略。
\(W\) 的选择与敏感性分析：BGATT 的定义依赖于研究者选择哪些协变量作为“平衡协变量”\(W\)。不同的 \(W\) 选择会导致不同的 DiBGATT 值。本文没有讨论如何选择 \(W\)，也没有提供对 \(W\) 选择敏感性的分析方法。扎根点：Section 3.1 中 \(X = (W, V)\) 的划分是人为的，其依据未在论文中明确讨论。
DiBGATT 的因果解释条件：作者在 Section 4.4 中明确指出，将 DiBGATT 解释为 \(Z\) 的因果效应需要额外且通常不现实的假设。然而，论文没有系统地列出这些假设，也没有讨论在什么条件下 DiBGATT 可以近似地具有因果解释。扎根点：Section 4.4 的讨论较为简短，仅以“if gender affects occupation...”为例，未给出形式化的条件。
多期设定下的权重选择：在 Section 6.3 中，作者指出聚合权重 \(w(g,t)\) 与 \(z\) 无关，因此 DiBGATT 的聚合是线性的。然而，Callaway & Sant'Anna (2021) 中权重的选择（如基于组大小或时间距离）本身就是一个活跃的研究问题。不同的权重选择可能对聚合的 DiBGATT 产生显著影响，本文没有讨论这种敏感性。扎根点：Section 6.3 直接引用 Callaway & Sant'Anna (2021) 的权重方案，未做进一步讨论。

Maintained by 陈星宇 · Homepage · Source on GitHub