Semiparametric Local Projections¶

作者: Silvia Goncalves, Ana Maria Herrera, Lutz Kilian, Elena Peavento, Iones Kelanemer Holban
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.13519

一、领域脉络与小综述¶

这个方向是什么

这个子方向解决的根本（统计 / 科学）问题是：如何从宏观时间序列数据中，在非线性结构动态模型（如状态依赖系数、非线性变换回归元、冲击-状态交互等）的设定下，估计内生变量对原始结构冲击（而非对可观测变量本身）的脉冲响应函数（IRF）。它是宏观经济学因果推断的核心工具，当前的成熟度在方法层面已从线性局部投影（LP）扩展至多种半/非参方法，但缺乏一个统一、有效的、能达到√T-收敛的双稳健估计框架，以处理广泛存在的非线性和内生状态问题。Kolesár and Plagborg-Møller (2024) 称线性模型在非线性世界下的因果解释有“好的、坏的、丑的”三种情况；Goncalves et al. (2024b) 则直接证明广义状态依赖 LP 有偏。

发展脉络

奠基工作：线性局部投影与线性 VAR
- Jordà (2005) / Plagborg-Møller & Wolf (2017)：标准线性 LP 作为一个“鲁棒”方法流行起来，因为它不对 DGP 的完整结构做限制，直接回归可观测变量。然而，在非线性里，它只能识别一个加权平均值（Kolesár & Plagborg-Møller, 2024），不是一个具体的因果效应（如固定大小冲击的响应）。
主要进展：非线性与状态依赖模型
- Goncalves et al. (2021) (引用 [3])：针对“非线性变换回归元”（如 max(x_t,0)）的情况，提出了一个基于控制函数的插件估计量，但抛弃了 LP 因为它们不一致。它留下一个口子：没有覆盖更广义的非线性（如状态依赖），也未达到半参效率。
- Ramey & Zubairy (2018) (引用 [10])：广泛使用的状态依赖 LP (SD-LP) 通过 OLS 与状态交互项来估计财政乘数。它留下一个致命口子：Goncalves et al. (2024b) 证明当状态是内生的（取决于系统过去值）时，SD-LP 估计的是错误的目标（条件期望的差异而非脉冲响应），且这个偏误不随样本量增加而消失。
- Gourieroux & Lee (2023) (引用 [21]) 和 Ballarin (2024) (引用 [5])：提出了非参数和半参数筛估计量。Gourieroux & Lee 假设高斯冲击来处理非结构性 IRF；Ballarin 在非线性回归元情况下提供了一致估计，但不包括双稳健方法、推论或更广义的非线性设定。
当前 Frontier：半参数、双稳健与因果推断
- Kolesár & Plagborg-Møller (2024) (引用 [4])：从因果推断角度重新审视问题。证明线性 LP 和 VAR 辨识的是边际处理效应的加权平均值，解释了非线性下哪些东西是“好的”（可用的）和“丑的”（不可靠的，如 Heteroscedasticity-based 方法）。他们明确了 Riesz representer（密度比）的表达式，为本文的双稳健构造奠定了基础。但本文指出他们关注的是无穷小冲击（导数），而实际应用常关心有限大小δ的冲击。
- Chernozhukov et al. (2022) (引用 [2])：提供了“自动去偏机器学习”（Auto-DML）的通用框架，通过 Riesz representer 构造双稳健矩条件。本文直接引用此框架，并扩展到时间序列与特定非线性识别结构。
- Ballinari & Wehrli (2025) (引用 [20]) 和 Huang et al. (2026)：同时期工作。Ballinari & Wehrli 专注于二元处理变量，调整项基于倾向得分；Huang et al. 采用两步法，第一步构造 Neyman-正交的伪结果，第二步非参数回归，导致收敛速度慢于√T。本文与之互补：本文的 estimand 使用冲击前后结果的期望差（而非从固定基线出发），可获得√T收敛。
- 本文 (Goncalves et al., 2026) 的位置：它是前序工作（Goncalves et al., 2021, 2024b）在方法上“闭环”的最终篇。直接解决了之前 SD-LP 有偏且不可救药的问题，提供了一个通用、基于双稳健的框架。它结合了 Auto-DML 的工具与 NLO (Neighbors-Left-Out) 交叉拟合，针对连续处理变量，密度比调整的矩条件。

子线索聚类

子线索1：线性近似及其因果解释 (Jordà, Plagborg-Møller & Wolf, Kolesár & Plagborg-Møller)。这一簇研究“在线性范式下，什么能被因果地解释”。结论是：加权平均效应，但无法辨识针对特定大小冲击的非线性 IRF。
子线索2：参数/特定形式非线性模型 (Goncalves et al., 2021; Ramey & Zubairy, 2018; Herrera et al., 2015)。这一簇为单一类型的非线性（非线性回归元、状态依赖）提出特定（通常是有参数）估计量，但要么有偏（SD-LP），要么局限在不生成内生的结构（例如控制函数方法）。
子线索3：半/非参数与双稳健框架 (本文; Ballinari & Wehrli, 2025; Huang et al., 2026; Ballarin, 2024)。这一簇利用现代非参数/双稳健方法论，试图提供一个“通用”解决方案，允许任意函数形式、处理连续冲击、同时寻求√T收敛与渐近正态的推论。

核心问题与瓶颈

核心问题：
1. 当处理变量x_t是连续的（而非二元），如何设计一个有效的 Neyman-正交矩条件？二元问题的调整项（倾向得分）无法推广。
2. 如何从状态-依赖的老方法（Ramey & Zubairy）的偏误中恢复出正确的因果效应？
3. 如何处理内生状态？当目标冲击ε_{1t} 能影响未来的状态变量（如通过产出→衰退状态），条件期望中的“状态”随时间变化，使得非对称估计非常困难。
4. 如何实现√T收敛？对于非线性泛函，插件方法常偏误。双稳健方法需要合适的交叉拟合（处理序列依赖）和产品率条件。
已知瓶颈：
- SD-LP 的持续偏误（Goncalves et al. 2024b, 本文图3）。
- 密度比估计：Riesz representer α_0(x,z) = (f_{x|z}(x-δ|z) - f_{x|z}(x|z))/f_{x|z}(x|z)。当边缘密度很薄时，它可能很大或不稳定（本文 Assumption 2(i) 要求均匀有界，排除高斯分布）。
- NLO 交叉拟合对小样本效率的影响：NLO 丢弃临近块，导致训练集比 i.i.d. 设置更大，这在短宏观序列中很成问题。Kolesár & Plagborg-Møller 明确“强调”了应用双稳健方法在小样本宏观经济学中的挑战（本文引用第3页）。

⚠️ 作者的 framing

作者的缺口描述：他们把缺口描述为“缺乏一个通用的、有效的半参数方法，能够处理广泛的非线性结构模型，并同时达到 √T-consistent 与渐近正态”。前任工作要么有偏缺陷（SD-LP）、要么限于特定设定（非线性回归元）、要么不能处理连续冲击（倾向得分）、要么收敛慢于√T（两步法）。因此，本文被定位为“该缺口显然的下一步”：提出 DR-NLO（双稳健-邻域左出交叉拟合）估计量，统一处理三种例子。
被淡化的竞争路线：作者显著淡化、甚至回避了与他们更“依赖”的纵向文献（DML、正交化、双稳健推断）的直接竞争。Ballinari & Wehrli (2025) 和 Huang et al. (2026) 被提及但明显是“互补的”而非“替代的”。他们强调自己的 √T 收敛、连续 x_t 和密度比，从而将自己与 Ballinari & Wehrli（二元）和 Huang et al.（慢收敛）区分。
什么明显应该存在但没被引/存在？ （值得研究者去查的问题）。
1. 本文没有详细讨论 LP 的稳定性问题：线性 LP 在小样本中往往波动很大。双稳健方法是否加剧或缓解了这个问题？
2. 没有引用 Robins 等人的 Riesz representer 和 efficient influence function (EIF) 推导的传统半参数工作（Bickel et al., 1993; van der Vaart, 1998）。虽然引用了 Chernozhukov et al., 但挡在介绍中只引用这些宏观计量背景，EIF 理论在此核心，却未深入讨论。
3. 没有引用 Strassen Coupling 的原始经典著作（除了引用 Semenova 再引），也略过了关于 β-mixing 下 coupler 偏差的更细化结果。
张力：未有明显对立引用。所有被引工作主要聚焦于不同类型的非线性或不同维度（连续 vs 二元），Kolesár & Plagborg-Møller 与本文的互补（无穷小 vs 有限大小）反而强化而非削弱了本文的合理性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
- \(z_t = (x_t, y_t)'\)：可观测时间序列向量。\(y_t\)：单变量结果变量（如 GDP 增长）。\(x_t\)：预定的处理/政策变量（如政府支出变化）。
- \(\varepsilon_{1t}\)：感兴趣的原始结构冲击（如政策冲击）。
- \(\varepsilon_{2t}\)：方程 (2) 中的其他结构冲击，与 \(\varepsilon_{1t}\) 独立。
- \(z_{t-1}\)：控制变量，系统的历史滞后（\(z_{t-1} = (z_{t-1}, z_{t-2}, \dots, z_{t-p})'\)）。
- \(U_{t+h} = (\varepsilon_{2t}, \varepsilon_{1,t+1}, \ldots, \varepsilon_{2,t+h}, z_{t-1}')'\)：所有其他决定 \(y_{t+h}\) 的随机变量。
- \(\delta\)：感兴趣的冲击幅度（有限大小，非无穷小）。
- \(\theta_{0,h} \equiv \text{ARF}_h(\delta)\)：目标 estimand——在时间 t 对 \(\varepsilon_{1t}\) 施加一个大小为 \(\delta\) 的冲击后，时间 t+h 的结果 y 的平均变化：
  \[\theta_{0,h} \equiv E[y_{t+h}(\varepsilon_{1t} + \delta) - y_{t+h}(\varepsilon_{1t})]\]
- Nuisance 函数：
  - \(g_{0,h}(x,z) \equiv E(y_{t+h} | x_t = x, z_{t-1} = z)\)：首要非参数 nuisance：未来的结果在给定今日处理变量与控制变量后的条件均值。
  - \(\alpha_0(x,z) \equiv \frac{f_{x|z}(x - \delta|z) - f_{x|z}(x|z)}{f_{x|z}(x|z)}\)：第二个 nuisance：Riesz representer。这是一个密度比，捕捉当 x_t 向左偏移 \(\delta\) 时，给定 z 后 x 的条件密度发生的相对变化。
- \(e_{t+h} \equiv y_{t+h} - g_{0,h}(x_t, z_{t-1})\)：残差。
- 样本和维度：\(T\)：时间序列长度。\(K\)：交叉拟合折数。\(I_{\ell}\) 和 \(I_{\ell}^{qc}\)：第 ℓ 个评估块和相应的训练/准补块（NLO 中去除了相邻两个块）。
模型：
- 一个加性-分可式的结构 VAR 模型 (S1): \(x_t = \phi(z_{t-1}) + \varepsilon_{1t}\)。这很关键：对 \(\varepsilon_{1t}\) 的 \(\delta\) 冲击，在给定 \(z_{t-1}\) 下，等价于对 x_t 的 \(\delta\) 冲击。
- 一个完全未限制的一般方程 (S2): \(y_{t+h} = \mu_h(x_t, U_{t+h})\)。它通过向前迭代 (2) 和替换 (1) 得来。(S2) 隐含着所有非线性，但重点是：给定 \(z_{t-1}\)，x_t 独立于 U_{t+h}（这是由 \(\varepsilon_{1t} \perp U_{t+h}\) 和加性结构 (S1) 推出的）。
可观测数据：可观测：\(\{y_t, x_t, z_{t-1}\}_{t=1}^T\)，T 个时间序列观测。
- “观测不到”/但需要识别：结构冲击 \(\varepsilon_{1t}, \varepsilon_{2t}\)，以及结构函数 \(\phi\) 和 \(\mu\)。所有推断都基于可观测数据的条件分布。

第二步：讲最小内核

最简特例：考虑没有任何控制变量 \(z_{t-1}\) 的情况（就像单个冲击），并假设 \(x_t\) 是 i.i.d. 的（如同在叙事识别方法中直接观测冲击变量）。在此例中，\(x_t = \varepsilon_{1t}\)。

识别：目标简化为：
\[\theta_0 = E[ g_0(x_t + \delta) - g_0(x_t) ]，其中 g_0(x) \equiv E(y_{t+h} | x_t = x).\]
注意这里不再有 z 下标，但这里 g_0 完全可识别。
天真 (Plug-in) 问题：如果我们非参估计 \(\hat{g}(x)\) 直接代入，会得到：
\[\hat{\theta}_{\text{plug-in}} = \frac{1}{T} \sum_{t=1}^T \big[ \hat{g}(x_t + \delta) - \hat{g}(x_t) \big].\]
难点：由于非参数估计（成活率低）会有偏（正则化/平滑偏误），这个偏误在 \(\sqrt{T}\) 被完全估计时不会消失（即它永远不会衰减）。这就是“插件偏误”。
双稳健 (Doubly Robust) Moment 构造：为了获得 \(\sqrt{T}\)-consistent，我们不从插件法估计，而是通过构造一个满足 Neyman 正交性的矩条件。令 Riesz representer \(\alpha_0(x) = (f_X(x-\delta) - f_X(x))/f_X(x)\)，它只需要通过密度比而非函数本身就能量化移动效应。然后它满足等式：
\[E[g_0(x_t + \delta) - g_0(x_t)] = E[\alpha_0(x_t) g_0(x_t)].\]

利用这个，我们能构造双稳健矩条件：
\[\psi(y_{t+h}, x_t; g, \alpha, \theta) = g(x_t+\delta) - g(x_t) - \theta + \alpha(x_t)(y_{t+h} - g(x_t)).\]

双稳健性：对于真实参数 \(\theta_0\)： * 当 g = g_0, α 任意: \(E[\psi] = E[g_0(x_t+\delta) - g_0(x_t) - \theta_0 + \alpha(x_t)(E[y_{t+h}|x_t] - g_0(x_t))] = \theta_0 - \theta_0 + 0 = 0\)。 * 当 α = α_0, g 任意: \(E[\psi] = E[g(x_t+\delta) - g(x_t) - \theta_0 + \alpha_0(x_t)(g_0(x_t) - g(x_t))]\)，这里第一项由一个已知等式改写：\(\int [g(x+\delta) - g(x)] dF_X(x) = \int [g_0(x) - g(x)] \alpha_0(x) dF_X(x) + \theta_0\)，所以抵消后剩 \(\theta_0 - \theta_0 = 0\)。
最终估计量：在这个最简案例下，我们得到的估计量是：
\[\hat{\theta} = \frac{1}{T} \sum_t \big[ \hat{g}(x_t + \delta) - \hat{g}(x_t) + \hat{\alpha}(x_t)(y_{t+h} - \hat{g}(x_t)) \big]\]
这里的 \(\hat{g}\) 和 \(\hat{\alpha}\) 是通过交叉拟合从样本外估计的。由于矩条件是双稳健的，只要 \(\hat{g}\) 和 \(\hat{\alpha}\) 都收敛且它们的乘积在适当的交叉拟合下为 \(o_p(T^{-1/2})\)，则偏误消失，估计量将是√T-consistent 且渐近正态。Riesz representer 可用最小距离法从数据中估计（Chernozhukov et al., 2022）。

三、这篇论文做了什么¶

三句话：
1. 研究了在非线性结构动态模型（含非线性回归元、状态依赖、冲击-状态交互）下，对有限大小冲击估计脉冲响应的因果推断问题。
2. 核心工具是结合 Auto-DML (Chernozhukov et al., 2022) 矩条件和 NLO (Neighbors-Left-Out) 交叉拟合（处理时间序列依赖）的双稳健局部投影估计量，通过密度比而非倾向得分调整。
3. 主要结论：在几何 β-混合与乘积率条件下，该估计量是 √T-consistent 且渐近正态，一阶渐近分布不受 nuisance 估计影响。仿真揭示 DR-NLO 在 bias 上显著优于 SD-LP（后者有不能消散的偏误）。
关键设定与假设：
- 设定：结构模型 (1)-(2)；加性 \(\varepsilon_{1t}\)，且 \(\varepsilon_{1t}\) 与所有其他冲击独立（\(\varepsilon_{1t} \perp U_{t+h}\)）。主要 estimand 是 ARF_h(δ)（定义1），与 Kolesár & Plagborg-Møller 的无穷小推导不同，这里有限大小 \(\delta\)。Nuisance 函数：\(g_{0,h}(x,z)\) 和 \(\alpha_0(x,z)\)（Riesz representer）。
- 假设：
  - Assumption 1 (β-mixing)：\(\{z_t\}\) 是平稳、几何 β-混合的。比强混合严格，但能利用 Strassen coupling，是 NLO 交叉拟合样本独立性的理论基础。
  - Assumption 2 (Regularity on nuisance and moment)：
    - (i) \(\sup |\alpha_0| < \bar{\alpha}\)：Riesz representer 呢均匀有界。这关键——它排除了高斯分布（尾部太薄），但允许厚尾分布（如 t 分布）。
    - (ii) \(\sup E[|e_{t+h}|^q | x_t, z_{t-1}] < \bar{\sigma}_q^q\) for q>2：条件残差有界 q-阶矩。这更强于 L2，用于控制序列相关的 autocovariance 项。
    - (iii) \(E[|\psi(\cdot, \cdot, g_0, \alpha_0, \theta_0)|^{2+\epsilon}] < \infty\)：影响函数矩条件，标准。
  - Assumption 3 (Nuisance convergence rates)：
    - (i) L_q 收敛：\(\sup_g \|g - g_0\|_{L_q} = o(1)\) 和 \(\sup_\alpha \|\alpha - \alpha_0\|_{L_q} = o(1)\)。比 DML 的 L2 更强，需要用来控制时间序列的 autocovariance 项。
    - (ii) 乘积率条件：\(\sqrt{T} r_{g,T} r_{\alpha,T} = o(1)\)，其中 \(r_{g,T}\) 和 \(r_{\alpha,T}\) 是 L2 率。这是双稳健框架中典型的“防偏误”条件。比标准 i.i.d. DML 更强，因为 L_q 收敛隐含 L2 收敛。
  - 对比文献：相比 Ballinari & Wehrli (2025)（需倾向得分正确）、Huang et al. (2026)（弱于 √T 收敛），本文条件在理论上要求了一种“适中”的努娇塞 value（需 L_q 率，但对核方法算较容易），同时能处理连续 x。
主要结果：
- Theorem 5.1（核心定理）：在 Assumptions 1-3 下，\(\sqrt{T}(\hat{\theta}_h - \theta_{0,h}) \xrightarrow{d} N(0, V_h)\)，其中 \(V_h\) 是真实影响函数 \(\psi\) 的长期方差。推论：方差可由 HAC 一致性估计。
- 技术难点：证明 √T(\(\hat{\theta} - \tilde{\theta}\)) = o_p(1)（其中 \(\tilde{\theta}\) 是 oracle 估计量）。这是通过双稳健性和 NLO 交叉拟合的共同作用实现的。
证明路线与技术技巧：
1. 整体路线：
  - Step 1：Oracle 估计量 \(\tilde{\theta}\) 由 β-混合的 CLT 给出，渐近正态。
  - Step 2：小样本解析。\(\hat{\theta} - \tilde{\theta} = R_1 + R_2 + R_3\)：
    - \(R_1\)：包含 \((\hat{g} - g_0)\) 在 \(\alpha_0\) 上。Neyman 正交性保证了这一项的条件期望为0。
    - \(R_2\)：包含 \((\hat{\alpha} - \alpha_0) e_{t+h}\)。由于 \(e_{t+h}\) 条件为0，条件期望也是0。
    - \(R_3\)：乘积项 \((\hat{\alpha} - \alpha_0)(\hat{g} - g_0)\)。期望非零，我们需要用产品率条件证明它小。
  - Step 3：用 Lemma B.1 (Semenova et al.) 去绑定每一项。Lemma 允许将样本内估计 \(\hat{\eta}_\ell\) 视为“固定”的序列，只要验证该序列的 Bias 和 Variance 都是 \(o_p(T^{-\frac12})\)。
  - Step 4：把 关键的 a.s. 等价定理应用于 \(R_1\) 和 \(R_2\)：\(E[A(\xi_t,\eta)]=0\) （无偏误）；剩下的方差项用 β-混合的 Covariance bound (Davidson, Corollary 14.3) 和控制 L_q rate（Assumption 3(i)）被绑定成 \(o_p(1/\sqrt{T})\)。
  - Step 5：绑定 \(R_3\)。\(E[R_3] \leq C r_{g,T} r_{\alpha,T}\) [Cauchy-Schwarz]。用 Assumption 3(ii) (√T r_g r_α = o(1)) 保证偏误可忽略。方差项同样用柯西和乘积率。
2. 关键跳跃点：
  - 如何绕过样本估计量 \(\hat{\eta}_\ell\) 与评估块 \(I_\ell\) 的依赖？NLO 在时间上留出 GAP（几何混合时间衰减），保证近似独立性，使得 Lemma B.1 成立。如果没有 NLO，但只做常规 K-fold，那么 \(\hat{\eta}_\ell\) 是基于过去和未来的观测估算的，会导致无效推断。
  - 重心在产品率条件 (product rate) 放松了单个 Nuisance 的收敛要求。如果只做插值，通常需要 \(\sqrt{T} r_g = o(1)\)（即收敛速度 > 1/2）；而放低条件到只要两者的乘积，这意味即使单个率慢于 1/2（例如 1/3），只要另一个也是 1/3 就够（√T * (1/3)*(1/3) = o(1)）。
3. 技术技巧点名：
  - High-order covariance bound for β-mixing (Davidson, 1994)：用于控制 \(R_1, R_2\) 的 autocovariance 项。结构是 \(|\text{Cov}(A_t, A_{t-j})| \leq C \beta(j)^{1-2/q} \|A_t\|_q^2\)。\(q>2\) 使 summable。
  - Strassen coupling (通过引用 Semenova et al., 2023)：NLO 交叉拟合的理论基础。它提供了一个 process-level coupling，保证训练块的邻域移除能在联合分布上近似独立。
  - Riesz representer change-of-measure trick：证明等式 (5) \(E[g(x+\delta)-g(x)] = E[\alpha(x)g(x)]\) 靠的是将积分中的 r.v. 变换：\(\int [g(x+\delta)-g(x)] f_X(x)dx = \int g(x)[f_X(x-\delta)-f_X(x)]dx = \int g(x)\alpha(x) f_X(x)dx\)。
  - Chernozhukov et al. (2022) Theorem 5：产生“自动”的双稳健性（即不需要手动推导 EIF，矩条件如上直接正交）。
4. 真实例子与应用：
5. 例子 1：通胀对汽油价格冲击的传递（图6/7）。
  - 数据/场景：美国月度数据（1974年-2026年），使用 FRED 变量：汽油价格变化、标题通胀、核心CPI（排除能源）。
  - 怎么用：DR-NLO + 线性 LP。变量选择：6期自回归。Nuisance 估计用的最低限度的非参数（Hermite 多项式）。
  - 结果：线性 LP 与 DR-NLO 在“平均”响应上几乎无差别：标题通胀冲击即刻上升 0.05% 点，而后迅速衰减；核心通胀几乎不响应。例子表明线性近似在这里足够。
  - 说明什么：验证理论/稳定性？不，更像是对“政策制定者”的（也许是消极的）建议——先前的线性结论（Chudik & Georgiadis, 2022）是可靠的。
6. 例子 2：汽车销售对汽油价格冲击的响应（图8）。
  - 数据/场景：同上数据源，但变量换了：实际汽油价格变化 vs 累计汽车和轻卡车销售变化。
  - 结果：线性 LP 给出反直觉的结果：冲击头几个月增加销售（也许是因为需求曲线或测量误差？）。而 DR-NLO 估计量显示一个更经济学合理的延迟但在 3 个月后销售持续下降，12个月后的累计下降是线性估计的 3.6 倍（DR-NLO: -12%, LP: -3.2%）。
  - 说明什么：这确实是 DR 方法的一个重要效用突破口，它在实际中发现了线性所错过的/扭曲的非线性行为，给出了更顺直觉的结论。
7. 🔎 结论是否比证明窄？
8. 结论声称适用于“广义”非线性，但证明和例子非常依赖线性和加性结构方程 (1)。如果 \(\phi\) 是高度非线性或加性形式错误（如 \(x_t = \phi(z_{t-1}, \varepsilon_{1t})\)），则关键条件 \(x_t \perp U_{t+h} | z_{t-1}\) 不成立，识别崩溃。论文在 “concluding remarks” 的第一个开放问题里承认这一点：“One possible extension would be to allow the shock to interact nonlinearly with lagged state variables”。所以定理的结论只在加性设定下严格成立，不能“泛泛声称”一个通用方案。
9. Theorem 5.1 的假设包括 L_q 收敛，这在非参中并非总能满足。若 Nuisance 估计在测试点上不是近一致收敛，numerator（L_q）可能爆炸。
10. 估计 \(\alpha\) 的 LASSO 最小距离法在实践中需要用灵活的基，但论文在模拟和实例中固定基础项数为2——这几乎是参数级别（低复杂度），与假设中的“非参数”不完全一致。如果加大复杂度，可能会违反未在大样本下证明的有限样本条件。

四、开放问题（扎根具体语句）¶

放松加性分离假设
- 扎根：结论最后一个自然段 “First, our identification result relies on the additive separability of ε_{1t} in equation (1). One possible extension would be to allow the shock to interact nonlinearly with lagged state variables.”
- 具体要证什么：假设方程 (1) 成 \(x_t = \phi(z_{t-1}, \varepsilon_{1t})\) （不可分），怎么识别和估计 \(\text{ARF}_h(\delta)\)？可能需更强的协变量外生性，或对密度形式做结构限制。
连续状态的条件 IRF (Conditional IRF)
- 扎根：Section 6 末尾 “We leave a formal treatment of this case [continuous Ωt] for future work.”
- 具体要做什么：将系列从以状态为条件的平均效应扩展到“给定连续状态变量值 ω”下的连续函数 \(\text{CAR}_h(\delta, \omega)\)。当前定理只适用于离散（如处理组 vs 参照组）。这需要非参数回归（如级数估计）作为第二步，这会严重降低收敛速度，可能无法维持√T。需要找平衡（例如，用一维核 / x 轴但光滑化，或更精巧的二阶双稳健方法）。
大样本下的效率与有限样本偏差
- 扎根：Theorem 5.1 只保证渐近方差，但没和半参效率界对比。模拟中，DR-NLO 在T=250 时 RMSE 仍较大且 coverage 偏低。
- 具体要证明什么：到底 \(\hat{\theta}_{\text{DR-NLO}}\) 是否达到半参效率界？如果否，差距多大？此外，当前的 NLO 交叉拟合丢弃了 T/3 个数据点（K=10时最大间距 T/10 保证渐近独立），这个丢弃会导致有限样本方差膨胀（Series correlation 的代价）。是否可能有一个更优的数据利用效率（如类似于“分块 bootstrap”的非丢弃方案）？需推导具体半参效率界及最优交叉拟合比率。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric Local Projections¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（扎根具体语句）¶

评论