Averaged Prediction Models (APM): Identifying causal effects in controlled pre-post settings with application to gun policy¶

作者: Thomas Leavitt, Laura A. Hatfield
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Chicago（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-aoas2011

一、领域脉络与小综述¶

这个方向是什么¶

本文致力于解决 controlled pre-post (实验前-后对照) 设计 下的因果效应识别问题。在此类设计中，研究者观测一个经历政策变化的处理组（treated group）和一个未经历变化的对照组（comparison group）在政策实施前后的结局变量，旨在识别处理组在无政策干预下的反事实结局均值，进而得到处理组的平均处理效应 (ATT)。这个子方向要解决的根本问题有二： 1. identification (识别)：在哪些假设下，仅凭可观测数据能唯一确定反事实结局？ 2. model uncertainty (模型不确定性)：当存在多个候选模型（例如，不同的协变量选择、不同的函数形式）都声称能识别因果效应时，如何客观地选择或综合这些模型？

该领域当前的成熟度处于 “方法论范式竞争” 阶段：一面是品牌化的“金科玉律”式设计方法（如 Difference-in-Differences, Synthetic Control, CIC），它们依靠强假设来识别；另一面是数据驱动的模型选择与平均，但往往面临干扰识别假设的风险。

发展脉络（history）¶

被引工作可大致串成如下脉络（引号内为作者对引用句的定位判断，而非我的评价）：

奠基工作: 经典 DiD 与平行趋势假设
Card & Krueger (1994)：比较新泽西州与宾夕法尼亚州快餐店的就业数据以评估最低工资法的影响。作者将其定位为 "品牌化设计 (brand-name design)" 的范本，其核心识别假设是 平行趋势 (parallel trends)：处理组与对照组在无干预下的期望结局变化趋势相同。
Angrist & Pischke (2009)：作为计量经济学家广泛参考的教材，将 DiD 框架系统化，强调通过“控制”时不变不可观测混杂来实现因果识别。作者引用它来标记 DiD 作为默认方法的正统地位。
主要进展: 担忧平行趋势、检验与替代方案
Abadie (2005)：提出 Semiparametric Difference-in-Differences (SDID) 框架。作者引用其为 "在 relaxation of parallel trends to conditional parallel trends 方面的工作"。它允许平行趋势在有观测协变量的条件下成立，从而更灵活。
Abadie, Diamond & Hainmueller (2010)：提出 Synthetic Control (合成控制)。作者称其为 "another brand-name strategy"。它通过加权组合对照组单位来构造一个与被处理组反事实轨迹更匹配的合成对照组，放松了传统 DiD 对每个对照组权重为等权的限制。
Roth & Sant'Anna (2023)：讨论 "when is parallel trends sensitive?"。作者引用它来标记一个当前的热点担忧：平行趋势假设本身无法检验，仅凭事前拟合优度（pre-period fit）好不足以保证假设成立，甚至可能是有害的，因为模型可能因过拟合而对后期违反更敏感。
当前 Frontier: 统一框架与模型不确定性
本文作者的核心 framing 是，现有品牌方法（DiD, 合成控制等）都是对一个更一般识别公式的特例：先用模型预测处理组的无干预结局，再用对照组的预测误差进行校正。这一统一视角使研究者能够聚焦于识别假设（预测误差相等） 本身，而非特定方法的公式。

子线索聚类¶

这些被引文献大致落在两条主要子线索上：

“识别公式”线索：关注用什么样的模型来预测反事实。这条线索从二元处理-对照的简单 DiD（Card & Krueger）开始，发展到允许时变协变量条件平行的 SDID（Abadie 2005），再到允许通过加权组合出最优对照的合成控制（Abadie et al. 2010）。当前这条线索在探讨非线性模型（如 count outcomes）和更复杂的组间匹配结构。
“假设评估”线索：关注所依赖的识别假设有多合理。这条线索以“平行趋势检验”（检验时变结局的截距趋势在组间是否相等）为核心，Roth & Sant'Anna (2023) 的工作代表了该线索的一个重要反思：警惕将“通过检验”误解为“假设成立”，并指出了模型选择过程本身可能破坏有效性的问题。

这个方向在追问的核心问题¶

识别背后的核心假设到底是什么？是“平行趋势”或“合成控制权重能使事前轨迹重合”吗？本文的回答是，所有假设都可以归结为一个：处理组和对照组的期望预测误差（在无干预下）相等。这是一个更一般、更基础的识别等式。
如何在众多可能的“正确模型”候选人中做出选择？当研究者可以自由选择协变量、函数形式时，标准做法（如 AIC/BIC）或临时假设检验（平行趋势检验）能否得到可靠的因果估计？本文认为，这些方法存在根本性缺陷。
为什么不能用拟合优度（goodness-of-fit）来做模型选择？这是本文的核心 insight 之一：一个在 pre-period 完美拟合的模型，可能恰恰因为其“后此谬误”（overfitting to spurious pre-trends） 而在 post-period 产生最大的预测偏差。选择最“robust”的模型比选择最好“fit”的模型更重要。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者如何 frame 缺口	作者如何定位自己的方法是“显然的下一步”
“现有识别方法（品牌名称）是特例，而非统一框架”。	APM 提供了一个统一框架，将 DiD, SDID, Synthetic Control 等视为该框架下选择特定预测模型（或模型权重）的结果。这打开了系统性地考量模型不确定性的道路。
“传统模型选择（如平行趋势检验）不能解决模型不确定性，甚至可能有害”。	APM 引入了“robustness”概念，它不是看模型拟合多好，而是看模型的预测误差对识别假设的违反有多“不敏感”。模型选择不依据拟合，而依据 robustness，且完全基于 pre-period 数据。
“关于‘正确模型’的争论耗费大量资源且经常没有结果”。	APM 提供了一条出路：不争论哪个模型是“真模型”，而是通过模型平均（model averaging），根据每个模型在 robustness 上的后验概率来加权，从而做出更稳健的推断。

什么明显该被引 / 该存在、却没出现在 intro 里？ - callen2024 中一系列关于 Dyadic DiD / DID with network dependence 的工作：本文假设单位的结局是独立的（given treatment and covariates）。如果存在空间或网络效应（如枪支政策放松在相邻地区产生溢出），APM 的预测误差校正机制可能会失效。 - 关于 model averaging 在因果推断中的相关工作：尽管本文提出了一个新颖的 robustness 加权，但并未引用广泛的 model averaging literature (e.g., BMA, Bayesian model stacking)。这些方法在如何定义“prior”和“后验”上有成熟理论，而 APM 的 robustness prior 与标准的 information criterion based prior 的关系是一个明显的空白。作者在最后一节未来工作中提及了 "Bayesian model averaging may unify our robustness prior with other priors..." - 关于“pre-period”数据利用效率的讨论：本文的 robustness 指标完全基于 pre-period。一个自然的扩展是，能否设计一个 cross-validation 类型的程序来同时利用 pre 和 post period 的部分数据？这不在文中讨论，但它是实证研究者的常见操作。作者未正面回应。

张力¶

未见明显对立引用。所有被引工作都共同承认“识别是一项依赖于强假设的推断任务，且模型不确定性普遍存在”。它们之间没有根本性矛盾，只是在处理该问题的方法论侧重点上不同。本文作者尝试建立一个统一的、解决模型不确定性的框架，这更像是将已有线索汇聚到一起，而非挑战其中某个线索。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（本论文的核心记号）：
- $i$：研究单位 (unit) 索引。
- $g_i$：单位 $i$ 所属的组别 (group)。$g_i=1$ 表示处理组 (treated group)；$g_i=0$ 表示对照组 (comparison group)。
- $t$：时期 (time)。$t = 1$ 表示政策前 (Pre-intervention / pre-period)；$t = 2$ 表示政策后 (Post-intervention / post-period)。本文考虑两个时期，这是最小设定。
- $Y_{it}$：单位 $i$ 在时期 $t$ 的可观测结局 (observable outcome)。实质上是基于潜在结果的“现实化”：$Y_{it} = g_i(1-g_i)Y_{it}(0) + g_i Y_{it}(1)$，其中 $Y_{it}(d)$ 是潜在结局。
- $D_i$：单位 $i$ 的政策暴露状态 (treatment exposure)。$D_i=1$ 表示单位在处理组且暴露于政策；$D_i=0$ 表示未暴露。典型设定：$D_i = g_i \cdot$ (政策生效期 indicator in t>=1)。因为是two period, 所以 $D_i = g_i \times I(t=2)$。简洁起见，论文聚焦于定义 treated group 作为 $g_i=1, t=2$ 的单位。
- $\mathbf{X}_{it}$：单位 $i$ 在时期 $t$ 的协变量向量 (covariates)。这是可观测的。
- $\mathcal{M}$：候选模型集合 (candidate model set)。每个模型 $m\in\mathcal{M}$ 定义了如何基于协变量 $\mathbf{X}_{it}$ 预测 $Y_{it}$ 的期望值。
- $\hat{Y}_{it}^{(m)} = f_m(\mathbf{X}_{it})$：模型 $m$ 对单位 $i$ 在时期 $t$ 的结局的预测 (prediction)。这是可观测的（基于可观测的协变量和拟合出的函数 $f_m$）。
- $\delta_{it}^{(m)} = Y_{it} - \hat{Y}_{it}^{(m)}$：模型 $m$ 对单位 $i$ 在时期 $t$ 的预测误差 (prediction error)。这是可观测的（$Y_{it}$ 已知时）。
- $\tau_{\text{ATT}} = \mathbb{E}[Y_{i2}(0) \mid g_i=1]$：核心 estimand：处理组在 $t=2$ 时的反事实均值（无处理下的平均结局）。识别出它后，处理效应 $ATT = \mathbb{E}[Y_{i2} \mid g_i=1] - \tau_{\text{ATT}}$。
- $w_m$：模型 $m$ 在加总时的权重 (model weight)。$w_m \ge 0, \sum_{m} w_m=1$。
模型：作者采用一个半参数设定。$Y_{it}(0)$ 可以是非参数模型： $Y_{it}(0) := h(\mathbf{X}_{it}, \epsilon_{it})$，其中 $h$ 是未知函数，$\epsilon_{it}$ 是独立于处理和协变量的随机误差，满足 $\mathbb{E}[\epsilon_{it} \mid \mathbf{X}_{it}, g_i] = 0$。模型 $m$ 是对函数 $h$ 的一个近似（可以是参数模型如 OLS，半参数模型如 GAM，或机器学习方法如 random forest）。论文不对模型 $m$ 做出“正确”或“错”的假定——它只是众多候选之一。
可观测数据：为每个单位 $i$，我们观测到 $(\mathbf{X}_{i1}, \mathbf{X}_{i2}, Y_{i1}, Y_{i2}, g_i)$。这是一个简洁的纵向数据。想要但观测不到的是处理组在 $t=2$ 的反事实结局 $Y_{i2}(0)$（如果它没经历政策）。所以我们需要识别它。

第二步：讲最小内核——将原文的许多假设和一般性设定剥掉，聚焦一个“一看就懂”的最小例子¶

最小特例：考虑只有一个观测单位的情况（虽然是理论上的极限，但最能体现核心想法）。假设有一个处理单位（单位 1），一个对照单位（单位 0）。两个时期 $t=1,2$。没有协变量，所以只有一个模型 $m$ 预测 $Y_{it} = \beta_0 + \beta_1 I(t=2)$。

可观测数据：
- Pre ($t=1$): 处理组 $Y_{11}$, 对照组 $Y_{01}$。
- Post ($t=2$): 处理组 $Y_{12}$, 对照组 $Y_{02}$。
核心识别等式：APM 的识别方法建立在以下直觉上：如果我们有一个好模型 $f$，那么对于未受处理的单位，它的预测误差应该“平均而言”为 0，或至少处理组和对照组的预测误差期望相等。在最小例子中，这个假设为： $ \mathbb{E}[Y_{01} - f(X_{01})] = \mathbb{E}[Y_{11}(0) - f(X_{11})]$ 换句话说，在处理组在无处理的反事实下，其预测误差的期望与对照组的预测误差相等。
如何识别 $\tau_{\text{ATT}}$：对于处理组，我们想找 $\tau_{\text{ATT}} = \mathbb{E}[Y_{12}(0) | g=1]$。我们观测到 $Y_{12}$，我们知道 $Y_{12} = Y_{12}(1)$。而根据模型 $f$，我们有 $\hat{Y}_{12}^{(m)} = f(X_{12})$。如果我们知道了期望预测误差 $\delta_{12}^{(m)}(0) = \mathbb{E}[Y_{12}(0) - \hat{Y}_{12}^{(m)} | g=1]$，那么 $\mathbb{E}[Y_{12}(0)|g=1] = \hat{Y}_{12}^{(m)} + \delta_{12}^{(m)}(0)$。
APM 的最小实现：
1. 预测：对处理组后一期预测：$\hat{Y}_{12}^{(m)} = f(X_{12})$。
2. 校正：我们无法直接知道 $\delta_{12}^{(m)}(0)$，但 APM 通过核心识别假设来借用对照组的信息。因为处理组在未处理状态下的预测误差与对照组在相同状态下的预测误差期望相等，我们可以用对照组可观测的 (pre-period) 预测误差来校正处理组的预测。具体做法是，在 pre-period 拟合预测误差的差异： $\Delta_{pre}^{(m)} = \overline{\delta}_{01}^{(m)} - \overline{\delta}_{11}^{(m)} = (Y_{01} - \hat{Y}_{01}^{(m)}) - (Y_{11} - \hat{Y}_{11}^{(m)})$。（这里只有一个单位，所以就是实际值）。然后 APM 校正后的反事实估计是： $\hat{\tau}_{\text{ATT}}^{(m)} = \hat{Y}_{12}^{(m)} + \Delta_{pre}^{(m)}$ 也就是：$\hat{Y}_{12}^{(m)} + (Y_{01} - \hat{Y}_{01}^{(m)} - Y_{11} + \hat{Y}_{11}^{(m)})$。
这个最小例子的内核揭示了什么：
- 它直接将 DiD 和 synthetic control 等品牌方法统一到一个公式：反事实 = 预测 + （对照组的预测误差 - 处理组的预测误差）。
- 在传统的 DiD 中，模型是 $\hat{Y}_{g,t} = \alpha + \beta \cdot G_g + \gamma \cdot T_t + \delta \cdot (G_g \times T_t)$。此时，预测 $\hat{Y}_{12}^{(m)} = \hat{\alpha} + \hat{\beta} + \hat{\gamma}$。校正项 $\Delta_{pre}^{(m)} = (Y_{01} - \hat{Y}_{01}^{(m)} - Y_{11} + \hat{Y}_{11}^{(m)})$ 正是 DiD 的估计方法：$ATT_{DiD} = (Y_{12} - Y_{11}) - (Y_{02} - Y_{01})$。这证明了 DiD 是 APM 的一个特例。
- 更一般地，对于任意模型，APM 就是使用该模型做预测，并利用对比组的 pre-period 误差来平掉那个模型的预测偏差。所以核心变成了：如何选择模型 $m$，以及如何用多个模型的结果？

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：本文研究在 controlled pre-post 设计下，如何识别因果效应（ATT），并解决因多个候选模型同时存在而产生的模型不确定性。
2. 核心工具 / 方法：提出了 Averaged Prediction Models (APM) 框架，将因果识别统一为“先预测，再用对照组预测误差校正”的形式，并使用基于 robustness 的后验概率权重对各候选模型进行模型平均，其中 robustness 由模型在 pre-period 的 differential average prediction error 量化。
3. 主要结论：APM 提供了在模型不确定性下进行因果推断的可行框架，支持对比不同模型（特别是复杂模型和简单模型）在识别假设违反程度上的区别，并在一个枪支政策案例中应用，结果表明复杂模型（使用多重协变量的线性回归）可能较不稳定，而选择正确的模型（如 DiD-like 模型）更重要。
关键设定与假设（在第二节最小记号的基础上补充）：
- 记号：同第二节。
- 假设 1 (Exogeneity of Assignment，处理分配的排他性）：政策组分配 ($g_i$) 和潜在结局 $Y_{it}(0)$ 是关于可观测协变量 $\mathbf{X}_{it}$ 和组别变量 $g_i$ 自身的条件独立：$Y_{it}(0) \perp\!\!\!\perp g_i \mid \mathbf{X}_{it}$。这是一个更强的假设，意味着给定协变量，处理分配和潜在无处理结局是独立的（类似于无混杂性）。
- 假设 2 (Conditional Mean Independence for Predictions，预测误差的条件均值独立性）：对每个候选模型 $m$：$\mathbb{E}[ \delta_{i2}^{(m)}(0) \mid g_i=1] = \mathbb{E}[ \delta_{i2}^{(m)}(0) \mid g_i=0]$。这就是第二节介绍的核心识别假设：在无干预下，处理组与对照组的平均预测误差相等。这个假设比经典的平行趋势（parallel trends）更弱？作者没有明确说，但很显然，如果模型 $m$ 是 over-parameterized 的，那么其预测误差可能会包含许多不可预测的成分，使该假设更难成立。关键点是，这个假设是针对模型提出的，而不是针对潜在的因果模型。
- 假设 3 (Pre-period Predictability，事前可预测性）：对每个候选模型 $m$，其在 pre-period 的 differential average prediction error ($\Delta_{pre}^{(m)}$) 可以被计算。并且，我们假设在 pre-period，模型的预测误差差异能反映其在 post-period 对识别假设违反的期望情况。这是模型选择的可行性假设，它保证了 pre-period 数据可用于判断模型在 post-period 的表现。
- 假设 4 (Robustness Prior Structure，稳健性先验结构）：为每个模型 $m$ 定义了一个稳健性指标 $R^{(m)}$, 它衡量模型 $m$ 对违反识别假设 2 的容忍度。具体构造为：$R^{(m)} = \frac{1}{\max(0, \Delta_{pre}^{(m)}) + c}$，其中 $c$ 是一个小的平滑常数（防止除零）。这个指标直观理解为：一个模型在处理组与对照组平均 prediction error 差异上越小，则认为它越“Robust”。一个模型如果 $\Delta_{pre}^{(m)} = 0$ 或负值（对照组误差更低），则认为它非常稳健。
主要结果：
1. 统一识别框架：证明了现有的品牌方法（DiD, Synthetic Control, CIC 等）都是 APM 框架的特例，其差别仅在于选择什么样的预测模型。这为系统比较和选择模型提供了基础。
2. 基于 Robustness 的模型选择程序：
  - 对于每个模型 $m$，计算 pre-period differential average prediction error: $\hat{\Delta}_{pre}^{(m)} = \frac{1}{N_0}\sum_{i: g_i=0} \delta_{i1}^{(m)} - \frac{1}{N_1}\sum_{i: g_i=1} \delta_{i1}^{(m)}$。
  - 定义稳健性指标 $\hat{R}^{(m)} = \frac{1}{\max(0, \hat{\Delta}_{pre}^{(m)}) + \epsilon}$。其中 $\epsilon$ 是一个小的平滑常数（例如 $10^{-5}$，或由 empirical cdf of $\hat{\Delta}_{pre}$ 的 1% 分位数决定）。
  - 模型权重：$w_m = \frac{\hat{R}^{(m)}}{\sum_{k \in \mathcal{M}} \hat{R}^{(k)}}$。这个加权类似于 BMA，但“先验”是稳健性。
  - 最终 ATT 估计：$\hat{\tau}_{\text{ATT}}^{\text{APM}} = \sum_{m \in \mathcal{M}} w_m \hat{\tau}_{\text{ATT}}^{(m)}$，其中 $\hat{\tau}{\text{ATT}}^{(m)} = \overline{Y}{12}^{(m)} + \hat{\Delta}_{pre}^{(m)} $ 是模型 $m$ 的 ATT 估计值。
  - 关键点：模型选择程序完全基于 pre-period “锁箱” (locked box) 数据，是事前可执行的。
3. 数值实验：
  - 通过模拟验证，当存在模型不确定性时，APM 的 ATT 估计比选择任何单一“最佳拟合”模型更稳定，均方误差 (MSE) 更低。
  - 展示了 robustness 权重与 pre-period fit (如 $R^2$) 之间的弱负相关。这一点非常重要：一个在 pre-period 拟合完美的模型 $(R^2 \approx 1)$ 可能非常不 robust。
证明路线与技术技巧（核心是提出一个新方法，而非理论证明，但在方法构建上有逻辑推理）：
- 整体路线（方法构建思路）：
  1. 观察与归纳: 观察到 DiD, SDID, Synthetic Control 等看似不同的方法都共享一个结构：预测 + 偏差校正。
  2. 提炼识别假设: 将这个结构形式化，导出核心识别假设：期望预测误差在无干预下组间相等 ($\mathbb{E}[\delta_{i2}^{(m)}(0) \mid g_i=1] = \mathbb{E}[\delta_{i2}^{(m)}(0) \mid g_i=0]$)。
  3. 将模型选择问题转化为稳健性评估: 既然不同模型都可以用同一假设来评估，那么选择模型就变成了评估哪个模型在该假设下最不“脆弱”。传统的 AIC/BIC 或拟合优度无法直接服务于这个目标。
  4. 构造稳健性指标: 利用可观测的 pre-period 数据，构造一个衡量“模型对假设违反的敏感性”的指标。核心直觉：一个模型如果在 pre-period 中处理组与对照组的平均预测误差差异很小，那它很可能在 post-period 也对假设违反不敏感。反之，差异大则模型脆弱。
  5. 加权平均: 将稳健性指标转化成一个后验概率权重，类似于 BMA，但先验分布根据稳健性确定。这个加权过程解决了“应该相信哪个模型”的问题，并给出了一个点估计。
- 关键跳跃点：为什么不用 pre-period 的拟合优度（如 $R^2$）而用 prediction error difference 来做模型选择？
  - 难点：研究员直觉上认为拟合得好的模型更可信。但作者指出，pre-period 的拟合优度好，可能是因为模型抓住了 pre-period 中的虚假时间趋势 (spurious trend)。如果在 post-period 该趋势反转，那么拟合优度好的模型会给出更差的预测。而这正是预测误差差异 ($\Delta_{pre}^{(m)}$) 所揭示的：一个能完美拟合处理组 pre-period 轨迹但忽视了对照组趋势的模型，会在 $\Delta_{pre}^{(m)}$ 上显示出巨大的差异。因此，稳健性指标实际上是对“过拟合于虚假 pre-trend”的一种惩罚。这个跳跃基于定量推理和一个关键的统计学直觉：模型的偏差方向比其方差大小更重要。
- 技术技巧点名：
  - BMA 先验 (Robustness Prior)：作者没有用标准的 likelihood-based BMA 先验（如 uniform, BIC approximation），而是构造了一个经验性先验，完全由稳健性指标 $R^{(m)}$ 决定。这本质上是基于稳健性排序的 soft voting 或 design-weighted averaging。它在理论上保持了“模型平均”的优势，但简化了计算，并迫使模型选择聚焦于识别假设，而非纯粹的拟合。
  - Pre-period "Lockbox" selection：这是纯事前 (ex-ante) 模型选择。它确保了模型选择过程本身不会产生数据 snooping （因为选择程序只依赖 pre-period，政策效果的评估基于 post-period）。这一点对于实证研究的可信度至关重要。
真实例子与应用
- 应用场景：评估 Missouri 2007 年废除购枪许可证法案（permit-to-purchase (PTP) law repeal）对犯罪率的影响。具体分析暴力犯罪 (violent crime rate) 和财产犯罪 (property crime rate) 的变化。
- 数据：面板数据，覆盖 Missouri 及其对照组的多个 county 或 state 层面的数据。干预发生在 2007，前后期 (pre/post) 各取若干年。
- 如何将方法用上去：
  1. 候选模型集合 $\mathcal{M}$ 被构建出来，包含几种不同的模型类型：
    - 模型 1: 基础 DiD （包括组固定效应、时间固定效应）—— 是 APM 框架中的一种特例。
    - 模型 2: 包含完全交互的线性模型 (fully interacted linear model)，吸收所有 pre-period 时空趋势。
    - 模型 3: DiD 加上线性时间趋势。
    - 模型 4: DiD 加上 state-level 的影响。
    - 模型 5-10: 包含更多协变量的 DiD 形式；以及具有更高阶交互的复杂模型。
  2. 应用 APM 选择程序：使用 pre-period（比如 1999-2006）的数据计算每个候选模型的 $\hat{\Delta}_{pre}^{(m)}$ 和 $\hat{R}^{(m)}$。
  3. 计算加权估计：用最终权重 $w_m$ 对每个模型的 ATT 估计进行平均。
- 结果与说明：
  - 对于暴力犯罪，复杂模型（有大量协变量交互）显示非常小的安全效果估计（接近 0），而基础 DiD 模型估计了一个较大的效应（通常是积极的，即 repeal 增加了犯罪）。APM 的加权平均结果，因为那些复杂模型的 $\Delta_{pre}^{(m)}$ 较大（说明他们在 pre-period 已经有较大组间预测偏差），权重较小，整体估计更接近于基础 DiD 的结果。这强化了作者的论点：简单、稳健的模型比复杂、拟合好的模型更可靠。
  - 对于财产犯罪，不同模型的差异较小，APM 的估计在中间，相对稳健。
  - 这个例子想说明三件事：
    1. 模型不确定性是真实存在的（不同模型给出截然不同的政策建议）。
    2. 传统的“最佳拟合”模型（高 $R^2$）可能会误导，因为它可能在 pre-period 过拟合了偶然事件，但在 post-period 表现不佳。
    3. APM 提供了一个基于“稳健性”的客观选择机制，能够将焦点从“争论哪个模型是‘正确’模型”转移到“评估哪个模型最不容易被识别假设违反所误导”上。
🔎 结论是否比证明窄
- 是。作者在摘要和引言中声称 APM 是一个“通用的识别框架”，但其方法论核心是建立在几个关键的启示性假设上。具体来说：
  1. 假设处理分配排他性 ($Y_{it}(0) \perp\!\!\!\perp g_i \mid \mathbf{X}_{it}$) 在非实验数据中通常成立吗？在许多政策评估中，可能不成立（例如，只有更拥护枪支权利的州才会废除 PTP 法）。APM 没有提供一种方法来测试或放宽这个假设，其 robustness 指标也是基于该假设成立为前提的预测误差差异。框架“对不能处理违反排他性的情况”是一个实际上的限制。
  2. APM 的 robustness 加权是否一致地趋近于一个 minimax 最优估计量？作者在实验部分通过比较预定义模型，并依赖于权重从经验稳健性指标计算，获得了好的性能，但没有正式的渐近理论。它没有证明估计量是半参数有效的，也没有给出渐近置信区间。作者在结论中坦承：“future work should consider asymptotic distributions and finite-sample inference.”
  3. 作者提出模型选择是基于 robustness（$\Delta_{pre}^{(m)}$），但这个 robustness 指标本身也有抽样误差。对于一个模型，如果其在 pre-period 数据盘中 pre-period prediction error 差异是统计上不显著的，那它会获得高权重。但假如该差异有大的方差，那么这个高权重可能是噪声的结果。本文没有给出 $\hat{R}^{(m)}$ 的抽样分布，也没有建议一个基于稳健性的非确定性（hard threshold）选择。 论文的模型平均本质上是一个“软选择”，但这避开了对 $\Delta_{pre}^{(m)}$ 的渐近方差进行推断的难题。
总结：论文在方法论的启示性上是很好的（引入了 robustness 优先的模型选择视角），但其结论在理论严谨性上相对较窄。它没有提供一个半参数或渐近有效性的证明，而是依赖于一个精心设计的、基于经验的加权方案，并通过模拟和案例来展示其优越性。这些实践性贡献很强，但面向理论统计学者时，需要在框架的“识别”部分和“推断”部分（如 $\Delta_{pre}^{(m)}$ 的抽样分布）补充更多的严格论证。

四、开放问题（点到为止，扎根具体语句）¶

如何建立 $\hat{\tau}_{\text{ATT}}^{\text{APM}}$ 的渐近性质与统计推断？
- 扎根于文中：“Future work should consider... asymptotic distributions and finite-sample inference.” (Section 5, Limitations and Future Work).
- 具体问题：设计一个正式的假设检验或置信区间方法，用于 APM 估计量，考虑 $\Delta_{pre}^{(m)}$ 的抽样噪声以及 $w_m$ 的随机性。从用户的技术武器库看，这需要 M-estimation 理论（moderately familiar）和 empirical process 技术。可以建立半参数理论框架，证明其是 semiparametric efficient estimator 的若干特例（如 DiD）下的一个稳健替代。
如何将 APM 拓展到多个时间点 / 多期处理？
- 扎根于文中：论文在“two-period”设定下讨论。但在实证中 (Missouri example)，pre-period 有多年。
- 具体问题：能否构建一个跨越多个 pre-period 的 $\Delta_{pre}^{(m)}$ 函数（例如，对每一年预测，然后平均），以及能否将模型选择拓展为序列决策问题？这与用户熟悉的 longitudinal / staggered treatments 设定直接相关。
如何构建更一般化的 robustness 指标，使其不仅反映 $\Delta_{pre}^{(m)}$，还能反映其它对假设的敏感性？
- 扎根于文中：作者基于“equal expected prediction errors under no treatment”的假设，仅用 $\Delta_{pre}^{(m)}$ 来度量。但模型还可能对函数形式假设 (functional form), 处理分配机制假设 (selection on observables) 等其他假设敏感。
- 具体问题：能否将 APM 的 robustness prior 扩展成一个多维度向量，反映模型在不同假设下的敏感度？例如，结合 Li & Banerjee (2022) 等关于 Pre-trends sensitivity analysis 的工作。这与用户感兴趣的 sensitivity analysis 直接相关。
如何将 APM 与更成熟的 model averaging (BMA, stacking) 等方法进行理论比较？
- 扎根于文中：作者提到 "Bayesian model averaging may unify our robustness prior with other priors"。
- 具体问题：APM 的 robustness-weighted averaging 能否从贝叶斯决策理论导出，其与标准的 BMA（基于 BIC 近似或基于样本外预测误差）有何本质区别？该权重在 minimax 意义上是否为最优？这触及用户在 semiparametric theory 和 minimax theory 中的兴趣点。

Maintained by 陈星宇 · Homepage · Source on GitHub