Pivotal and identification-robust nonparametric inference in linear IV models¶

作者: Bertille Antoine, Pascal Lavergne
主题: 数理统计 / 假设检验
相关性: 9/10
链接: https://arxiv.org/abs/2606.12185

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的根本问题是，在线性工具变量（IV）回归模型中，当识别强度（即工具变量与内生变量的相关性，可能是“弱识别”）和误差项的异方差性（未知形式）同时存在并威胁传统推断方法（如Wald检验、2SLS）可靠性时，如何构建对二者均稳健的假设检验与置信区间。其核心挑战在于，弱识别会导致参数估计的非正态性和不一致性，而异方差会进一步破坏许多识别稳健检验统计量的枢轴性质（pivotalness）。当前该方向的成熟度为较高，但针对非参数一阶段方程设定下的识别-异方差联合稳健推理，仍是一个活跃且未完全解决的前沿。
发展脉络（history）：
- 奠基工作：
  1. Bierens (1982)：提出了集成条件矩（ICM）原则，将条件矩约束等价地转化为一系列关于复杂指数函数的无条件矩。这为后来构建不依赖特定工具变量选择的“连续矩”检验提供了理论基础。
  2. Staiger & Stock (1997)：引入了“弱工具变量”的渐近框架（模型参数随样本量以根号n的速率退化），系统性地阐述了弱识别导致的推断问题。
  3. Stock & Wright (2000)：提出了S检验，该检验基于连续更新GMM目标函数，是对弱识别稳健的GMM推断的标志性方法，但假设一阶段为线性。
- 主要进展：
  1. Moreira (2003)：提出了条件似然比（CLR）检验。Andrews, Moreira, & Stock (2006) 和 Andrews, Marmer, & Yu (2019) 进一步证明了其在同方差线性一阶段下的近乎最优性。
  2. Antoine & Lavergne (2023)：这是本文的直接前身。他们首次将ICM原则应用于线性IV模型，提出ICM检验。该检验的关键贡献在于：它是识别稳健的，且不需要假设一阶段为线性（非参数）。然而，在存在异方差时，其统计量的渐近分布依赖于被检验的参数值(β₀)，导致计算置信区间时需要为每个参数值模拟临界值，计算成本极高。
  3. Andrews, Stock, & Sun (2019)：对弱识别问题进行综述，总结了实证中常用的诊断与稳健推断方法，指出同方差假设在实际数据中经常被违反。
- 当前frontier与本文位置：
  1. Kleibergen & Zhan (2025)：提出了双重稳健LM统计量，侧重于模型潜在误设下的识别稳健推断。
  2. Chen, Lee, Seo, & Song (2025)：使用惩罚性最大统计量处理条件矩限制，旨在选择最优的工具变量组合以最大化检验势。
  3. 本文(Antoine & Lavergne, 2026)：本文的位置是直接继承并改进了Antoine & Lavergne (2023)的工作。它在ICM统计量中直接吸收了未知形式的异方差权重，构造了一个渐近枢轴（pivotal）的HICM统计量。这使得其临界值与参数值无关，极大简化了计算，并在此基础上首次提出了非参数一阶段下的子向量推断与纯规格检验。
子线索聚类：
1. 基于AR类统计量的识别稳健推断：代表有 Staiger & Stock (1997)的AR检验，Stock & Wright (2000)的S检验，以及Mikusheva & Sun (2022)的杰克刀AR检验。这一簇的核心是构造一个统计量，其在弱识别下仍有良好性质，但其构造通常需要选择一组有限维的工具变量。本文用连续的ICM代替了离散的矩条件，避开了工具变量的选择问题。
2. 基于条件似然的识别稳健推断：代表有 Moreira (2003)的CLR检验和Andrews, Marmer, & Yu (2019)的最优性结果。这一簇方法在线性一阶段且同方差假设下具有最优或接近最优的势。本文及其前身放宽了这一关键假设。
3. 基于ICM的非参数方法：代表有 Bierens (1982)的非参数设定检验，Antoine & Lavergne (2023)的ICM检验，以及本文的HICM检验。这一簇的核心是使用一个固定的、连续的权重函数（如sin函数）来综合条件矩，从而避免对一阶段函数的参数形式做假设。
4. 针对误设定和弱识别的联合稳健推断：代表有 Kleibergen & Zhan (2025)的双稳健LM检验，以及本文的规格检验。这一簇旨在同时处理模型可能被错误设定和识别强度可能很弱的两个问题。
这个方向在追问的核心问题：
1. 如何构造一个渐近pivotal且对识别强度与异方差都稳健的检验统计量？Stock & Wright (2000)的S检验依赖于同方差假设；CLR在同方差、线性一阶段下最优。Antoine & Lavergne (2023)的ICM在异方差下不是pivotal的。本文的HICM回答了这个问题。
2. 如何将识别稳健的推理（如置信区间）扩展到子向量（subvector）上？ Dufour (1997)提出了保守的投影法，但当参数维度高时可能非常保守。本文首次在非参数一阶段框架下实现了这个目标。
3. 如何进行对识别强度和非线性一阶段形式都稳健的模型设定检验（specification test）？ 传统的J检验（如Hausman等）依赖于工具变量的数量或线性一阶段。本文提供了一个新方案。
4. 如何降低此类稳健推断的计算成本，使其在实证中可行？这是本文最直接的实际贡献。
⚠️ 作者的framing：
- 作者把缺口frame成：“在存在异方差的情况下，ICM统计量不是pivotal的，导致其计算成本高昂，且无法直接用于子向量推断和纯规格检验。我们的HICM统计量通过直接吸收异方差权重，解决了这个问题，使得之前所有无法企及的计算和应用都成为可能。”
- 被淡化/回避的竞争路线：
  - 机器学习/集成学习方法：作者将非参数一阶段限定在平滑函数类（通过熵条件），但未讨论更灵活、高维的机器学习（如随机森林、神经网络）作为一阶段估计器的适用性。他们简单回避了“非参估计工具变量在弱识别下不可靠”的问题。
  - 基于核的GMM方法：Dominguez & Lobato (2004)提出用平滑核构造无条件矩，这与ICM有数学联系，但作者将其列为未来工作。
  - 条件似然比检验在非参数一阶段下的直接推广：这是理论上的一个明显空缺，但作者未予讨论。
- 明显缺失的讨论：作者没有引用或讨论Kasy (2018)关于“uniformity and the delta method”的工作，而该工作与本文定理3.1和3.2证明中使用的“sup over P”的均匀有效性直接相关；同时在讨论核估计时，没有引用Li & Racine (2007)等关于非参数条件方差估计的经典教科书，而是引用了较分散的应用文献。这可以视为一个值得研究者去查的缺口。
张力：未见有明显对立的直接引用。这些被引工作在一个可比较的逻辑框架内：线性一阶段假设→非线性一阶段假设；同方差→异方差；参数模型→非参数模型。其间呈现的是一种递进的、解决更复杂问题的关系，而非根本性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： * β：感兴趣的未知参数向量，内生解释变量的系数 (p×1)，是我们要推断的estimand。 * y_i：第i个观测的因变量（标量），是随机变量。 * Y_{2i}：第i个观测的内生解释变量向量 (p×1)，是随机变量。 * u_i：结构方程的误差项，均值为条件于工具变量 Z_i 时为0。不可观测。 * Z_i：工具变量向量 (k×1)，包括全部外生变量。它是可观测的。 * Π(·)：一阶段函数的非参数形式。它把 Z_i 映射到 Y_{2i} 的条件均值：E[Y_{2i}|Z_i] = Π(Z_i)。未知。 * V_{2i}：一阶段的误差项，均值为条件于 Z_i 时为0。不可观测。 * n：样本量。p, k 为固定的维度。 * b_0 = (1, -β')'：一个 (p+1)×1 的向量，用于构造检验统计量，其第一个元素=1，后面是-β。 * W：一个n×n矩阵，其 (j,m) 元素为 n^{-1} w(Z_j - Z_m)，其中 w(·) 是一个固定的、用户选择的核函数（如乘积型sinc函数）。它是对“总体”中 Z 分布的近似核矩阵。 * Ω(Z)： Y = (y, Y_2')' 在给定 Z 下的条件方差 (p+1)×(p+1) 矩阵。即 Var(Y_i | Z_i = z)。未知。 * ˆΩ(z)：对 Ω(z) 的一致非参数核估计量。 * Y：n×(p+1) 矩阵，其第i行为 (y_i, Y'_{2i})。

模型：数据生成机制由两个方程组成： 1. 结构/第二阶段方程 (式 2): y_i = Y'_{2i} β + u_i, 其中 E(u_i | Z_i) = 0。 2. 一阶段/约化形式方程 (式 3): Y_{2i} = Π(Z_i) + V_{2i}, 其中 E(V_{2i} | Z_i) = 0。模型的核心假设是 u_i 和 V_{2i} 的条件期望为0，但没有对 Π(·) 的形式做任何参数化假设。Π(·) 可以是任意非线性、未知的函数。u_i 和 V_{2i} 的条件方差 Ω(Z) 可以是未知形式的异方差。

可观测数据：研究者可以观测到的是一组独立同分布或近独立三角阵列的样本 {(y_i, Y_{2i}, Z_i)}_{i=1}^n。 想观测到但观测不到的量：u_i, V_{2i}, Π(·), Ω(·)。所有推断都必须依赖于可观测数据和模型的基本条件矩假设 E(u_i | Z_i)=0。

这里是关键点：虽然无法直接观测到 u_i，但在原假设 H_0: β = β_0 下，可以构造 y_i - Y_{2i}'β_0。这个残差在 β = β_0 且模型正确设定时，其条件期望为0。ICM/HICM 的原理就是检验这个可计算的残差的条件期望是否为0。

第二步：讲最小内核¶

本文的全部复杂统计论都可以简化为以下最简特例的推广： * 设定：p = 1 (单一内生变量)。k = 1 (单一工具变量 Z)。Ω(Z) 已知且恒定，即 Var((y_i, Y_{2i}) | Z_i) = σ^2 * I_2，其中 σ^2 已知（即同方差）。在这种情况下，HICM统计量退化为原始的ICM统计量，因为其分母中的 b₀'Ω(Z_i)b₀ 只是一个常数 σ²，被提出来约掉了。

最简问题：检验 H_0: β = β_0，其中模型为 y_i = Y_{2i}β + u_i，E(u_i | Z_i) = 0，且一阶段方程 Y_{2i} = Π(Z_i) + V_{2i} 中的 Π(·) 是未知的、平滑的非线性函数。Z_i 是连续的、有界的标量。数据是 (y_i, Y_{2i}, Z_i)。

待检验的命题：H_0 成立当且仅当对于所有实数 s，E[(y_i - Y_{2i}β_0) * exp(i s Z_i)] = 0 (Bierens (1982) 的等价性定理)。

证明的核心思路： 1. 构造一个连续度量：我们不能对每个 s 都单独检验，因为这有无穷多个。ICM方法构造了一个单一的统计量，它是一个关于 s 的积分： ICM(β₀) = ∫| n^{-1/2} Σ_{i=1}^n (y_i - Y_{2i}β_0) * exp(i s Z_i) |^2 dµ(s) 其中 µ 是某个权重函数（如均匀分布）。这个统计量就是我们需要的“测试棒”。 2. 在原假设下的行为：如果 H_0 成立，那么 y_i - Y_{2i}β_0 = u_i。统计量的内核变成了 n^{-1/2} Σ u_i exp(i s Z_i)。这是一个经验过程，对于每个固定的 s，它收敛到零均值高斯过程。因此，ICM(β₀) 收敛到一个已知的、与 β₀ 无关的分布（一个高斯过程的范数平方）。这就是渐近pivotal。 3. 在备择假设下的行为：如果 H_0 不成立（即 β ≠ β₀ 或模型误设），那么 y_i - Y_{2i}β_0 = Π(Z_i)(β - β₀) + u_i + V_{2i}(β - β₀)。则核的期望不为0，n^{-1/2} Σ E[...] 会发散到无穷大，导致 ICM(β₀) → ∞，从而检验具有一致性势。 4. 困难在哪：在同方差下，ICM统计量的渐近分布虽不依赖于β₀，但为了处理异方差，原始的ICM统计量的渐近分布依赖于β₀，因为其分母 ω（条件方差）的估计方式不同。本文的关键想法是在原假设下对可计算残差进行异方差校正，构造一个学生化残差 (y_i - Y_{2i}β_0) / sqrt(b₀'Ω(Z_i)b₀) 来代替原始残差。这个学生化残差在原假设下的条件方差恒为1，从而使得整个统计量的渐近分布不再依赖β₀。

三、这篇论文做了什么¶

三句话¶

研究问题：在非线性、非参数一阶段设定的线性IV模型中，针对内生变量系数 β 的识别稳健、异方差稳健、渐近pivotal的推断方法。
核心工具/方法：HICM统计量，它通过对原ICM统计量施加一个异方差权重（基于非参数估计的条件方差 ˆΩ(z)），从而在原假设下得到一个与β₀无关的渐近分布。
主要结论：HICM检验、其子向量版本 (HICM∗) 以及基于它的规格检验 (HICM∗) 均能在统一框架下渐近控制第一类错误（size），对任意识别强度稳健，且计算效率（通过模拟验证）远优于前身ICM。

关键设定与假设¶

模型：y_i = Y'_{2i} β + u_i，Y_{2i} = Π(Z_i) + V_{2i}，且 E(u_i | Z_i) = 0，E(V_{2i} | Z_i) = 0。这里 β 是整个模型的“锚”。
假设A：观测值来自独立三角阵列，Z 有界，Y 有 2+δ 阶条件矩。这是一个常规的正则性条件。
假设B：Π(Z) 属于一个熵（entropy）控制良好（V<2）的函数类，从而保证一阶段函数的估计过程的一致性。这个假设允许 Π 是任意复杂的非线性函数，只要它在适当的度量下是“光滑”的。
假设C：条件方差 Ω(Z) 是有界、正定的，其非参估计量 ˆΩ 在该函数类的熵条件下是一致收敛的（∥ ˆΩ - Ω ∥ → 0 以概率趋近1）。这是关键：它保证了 Ω 可以被准确估计，且估计误差不影响HICM统计量的渐近分布。相比已有文献（如S检验假设同方差），本文直接假设 Ω 未知。
假设D：权重函数 w(·) 对称有界，其Fourier变换在原点附近有紧支集。这个假设保证了Bierens (1982)的等价性定理成立，并且使得 W 矩阵的性质可控。

相比已有文献放宽或强化： * 放宽：不假设一阶段线性 (Π(Z) = π'Z)，不假设同方差，不假设识别强。 * 强化：对一阶段函数 Π 和条件方差函数 Ω 的非参数类施加了严格的熵条件（熵积分有界以控制经验过程）。这是为了证明统计量的均匀有效性所付出的代价，确保结论不仅在“好”的分布上成立，也在“坏”的识别情景下成立。

主要结果（理论型）¶

定理3.1（均匀size控制）：对于HICM(β₀)检验，在原假设 H_0: β = β₀ 且模型正确设定下，对所有可能的识别强度序列（包括弱识别），其渐近拒绝率不超过名义水平 α。即 lim sup_{n→∞} sup_{β₀} sup_{P∈P_{β₀}} Pr[HICM(β₀) > c_{1-α}(Z)] ≤ α。
- 直觉：这个定理保证了任何基于HICM的检验（如子向量推断或规格检验）的“尺寸”是保守的或正确的，不会因为识别弱、异方差或一阶段非线性而过度拒绝。
定理3.2（渐近势）：在局部备择假设（β₁ 靠近 β₀）下，当信号强度（由˜c_n控制）足够强时，HICM检验的势趋近于1。具体而言：
- (i) 在弱识别下（Π(Z) ≈ C(Z)/√n），只要偏离 β₁ ≠ β₀ 的幅度本身足够大，检验就具有势。
- (ii) 在强识别下（Π(Z) 固定），HICM检验能以 1/√n 的速率检测到局部偏离（Pitman局部备择）。
- 直觉：这个定理保证了检验不是无效的，当偏离真的存在且信号足够强时，它能发现。
定理3.3（规格检验的势）：基于最小值统计量 HICM∗ = min_{β'} HICM(β') 的规格检验，在模型误设程度（由˜d_n控制）足够大时，其势趋向于1。
- 直觉：这说明该规格检验能灵敏地发现模型的误设定，无论误设来自哪里（例如遗漏变量或错误的函数形式），并且对识别强度是稳健的。

证明路线与技术技巧¶

整体路线：证明可以分为三大步，其核心是证明过程 n^{-1/2} Σ wgt_i * exp(i s Z_i) 的均匀弱收敛到一个已知的、与β无关的高斯过程。

第一步：经验过程的Donsker性质。
- 建立包含所有可能的 β 和 s 的函数类 F = { f(β, s) = (b₀'ˆΩ(Z)b₀)^{-1/2} (Y₂'b₀) * exp(i s Z) : β ∈ B, s ∈ R^k } 的有界均匀熵积分（BUEI）性质。
- 技术技巧：利用exp(i·)的Lipschitz连续性、Ω的假设和函数类的熵结果（Kosorok, 2008的主导性书），对复杂函数类进行组合。原假设下，Y₂'b₀退化为 u_i，但其作为过程基底的均值为0。这个BUEI性质保证了对函数类 F 的泛函中心极限定理成立，且该收敛性在 P ∈ P 上是均匀的。
第二步：替换 ˆΩ 为 Ω 的连续性。
- 证明用估计量 ˆΩ 替换真实 Ω 不改变第一步的极限结果。需要证明 sup_{β, s} | n^{-1/2} Σ [f_ˆΩ - f_Ω] | 以概率趋近于0。
- 技术技巧：利用 f_ˆΩ - f_Ω 的Lipschitz性质和Assumption C中 ˆΩ → Ω 在 L₂(P) 下的收敛性，通过简单的泰勒展开或连续性引理（Lemma 1.1）来证明。这依赖于测度论下的简单估计：√n * error ≈ (estimated Ω - true Ω) * O_p(1)，而 estimated Ω - true Ω = o_p(1 / √n) 在正确的Banach空间范数下成立。
第三步：均匀size控制的证明（Theorem 3.1的证明核心）。
- 反证法：假设存在一个反例序列使size失控。先对HICM统计量进行连续截断（Lemma 1.2），确保其有界。这个截断操作不改变分位数性质。
- 关键跳跃点：证明从实验数据中模拟出的临界值 c_{1-α}(Z) 与从理想的高斯白噪声过程 G 中模拟出的临界值 c_{1-α}(h_G) 之间的距离由∥ˆh_{β₀} - h_G ∥ 控制。然后利用第一步中的均匀弱收敛：sup_{P} ∥d_{BL}(ˆh_{β₀}, h_G)∥ → 0。
- 由于c_{1-α}(·) 是Lipschitz连续的（Lemma 1.1的推论），∥c_{1-α}(Z) - c_{1-α}(h_G)∥ ≤ K * ∥ˆh_{β₀} - h_G ∥。因此，c_{1-α}(Z) 以概率趋近于 c_{1-α}(h_G)，且收敛是对P均匀的。
- 最后，通过反证法，如果存在反例序列使得 Pr[HICM(β₀) > c_{1-α}(Z)] > α + 3δ，则通过构造截断版本和均匀收敛，可以推导出 Pr[HICM(G) > c_{1-α}(h_G)] > α + δ，这与 c_{1-α}(h_G)的定义矛盾。

技术技巧点名： * Empirical process / Uniform CLT：整篇论文的基石，用于处理非参数 Π 和 Ω 的随机性。 * Bracketing / covering number：在假设B和C中使用，控制函数类的复杂程度。 * Lipschitz continuation of quantile function：在引理1.1和证明主定理时使用，证明分位数关于指标的连续性。 * Continuous truncation：在证明均匀size控制中使用，构造一个“紧凑”版本的统计量，使得可以应用一致收敛的条件。 * Bierens (1982) equivalence：将条件矩检验转化为连续的无条件矩检验，是构造ICM统计量的理论基础。

真实例子与应用¶

数据与场景: 使用Sellars & Alix-Garcia (2018)的数据，研究16世纪墨西哥人口崩溃（内生变量 Y₂，由气候工具变量识别）对1900年庄园内农业人口比例（y）的因果效应。这是一个典型的应用微观经济学IV模型。
如何将方法用上去:
- 首先，报告了在基准线性模型 S1 下的结果。HICM给出了最窄的95%置信区间[-1.235， -0.797]。S检验给出了[-1.369， -0.682]。ICM给出了最宽的[-2.159， -0.416]。
- 关键亮点：计算时间！HICM仅需46.66秒（计算一次临界值即可），而ICM需要3,140.22秒（52分钟，因为要逐点模拟），速度提升约70倍。
- 其次，尝试了非线性设定 S2 和 S3（在效应上引入指标断裂）。在二维参数 (b₁， b₂) 的情况下，HICM给出了有界的、信息丰富的置信区域（图3左侧），而S检验（假设线性一阶段）给出的区域是无界的（图3右侧）。
这个例子想说明什么:
- 验证理论：展示了HICM在有实际数据的情况下，能正确控制size（给出的置信区间是合理的）。
- 展示相对于baseline的优势：
  1. 计算效率远超ICM。
  2. 能给出比S检验更紧/有界的推断区域，特别是在非线性设定下。这表明HICM的保守性（size控制）带来的代价（势的损失）相对较小，且其非参数优势在处理非线性一阶段时非常明显。
  3. 检验对于模型是否线性设定也提供了有洞察的信息：在非线性设定下，HICM提供的区间更窄且有界，说明数据支持复杂效应的存在。

结论是否比证明窄¶

是。所有柯罗里（Corollary 3.1, 3.2, 3.3）中都明确说检验是保守的（conservative），即size控制是 <= α，而不是严格==α。这意味着在某些参数组合下，检验的势可能会比pivotal的检验低。作者在模拟部分验证了这个特质（HICM有时比S检验更保守）。
证明中的均匀性是对 P ∈ P 的，其中 P 是通过熵条件严格限定的。实际应用中的数据能否保证满足这些条件（如 Π 函数类的有限熵）是没有在本论文中证明的。作者在结论中暗示了这一点（“...assume throughout...”），但未讨论违反条件时的后果。
在Theorem 3.2和3.3中，势的陈述是 lim inf_{˜c_n→∞} Pr[rejection] = 1，这意味着远离最坏情况下的势。没有给出特定弱识别情节下的确切势函数。

四、开放问题¶

子向量推断的保守性：本文的子向量检验 HICM∗ 是保守的。扎根于 Corollary 3.1 后第一句 “...our test is conservative but allows to control the level...”。一个开放问题是：能否设计一个不保守（或者至少其保守性可以随样本量消失）的子向量推断程序，例如采用“条件化”的策略（类似 Moreira (2003)的CLR思想，但在非参数一阶段下）？
最优性：本文证明了HICM具有势（power consistent），但未讨论其最优性。扎根于 引言中关于CLR检验的讨论 “...the conditional likelihood ratio test of Moreira (2003) is nearly optimal...”。一个开放问题是：在非参数一阶段下，对于一个给定的识别强度（如参数退化或固定），HICM的势相对理论上的最优鞍点（minimax power）如何？能否推导出一个类型的“非参数CLR”或更优的统计量？
权重函数 w 的选择：HICM统计量依赖于权重函数 w(·)的选择（如sinc或高斯）。扎根于第2.1节对 w(·) 的讨论 “We focus on a particular application...leave for future work the investigation of the relative merits”。一个开放问题是：不同 w 函数的选择如何影响有限样本势和稳健性？是否存在一个数据驱动的、针对某种最优备择的 w 选择方法？
非参数一阶段估计量选择：虽然作者指出现有的一阶段非参数估计量在弱识别下不可靠（引用了 Jun & Pinkse 2012），但他们用核平滑法估计了 Ω。扎根于第2.1节的描述“we focus on kernel smoothing...”。一个开放问题是：能否将更稳健的非参数/半参数方法（如局部线性回归、系列估计器）用于 Π 和 Ω 的估计，并分析其对HICM统计量有限样本表现的影响？这是值得与同方向近期文献（如Abadie, Gu, & Shen 2023）做比较的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub