Bootstrap inference for a class of non-regular estimators¶

作者: Mihai Giurcanu, Brett Presnell
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Chicago（US News 前 50，免分进入精读）
链接: https://doi.org/10.3150/22-bej1538

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是非正则估计量（non-regular estimators）的 bootstrap 推断一致性。核心统计问题是：当估计量的极限分布不连续地依赖于参数（即在参数空间某些点上发生“跳变”），标准的非参数 bootstrap 在这些点上失效（估计量的 bootstrap 分布与其真实抽样分布不一致），如何从理论上刻画失效机制并设计修正方案？当前成熟度处于“经典问题 + 局部渐近的统一理论”阶段，已有多个补救方法，但缺乏对一类估计量的系统分析。

发展脉络（history）¶

奠基工作（1950s-1970s）：
Hodges (1958) 和 Stein (1956) 的经典反例：分别展示了当参数处于边界（如非负均值）或零点时，估计量的超高效（superefficiency）或非正则性导致 bootstrap 不一致。这些是“非正则估计量”概念的起源，也是本文直接回应的起点。
Bickel & Freedman (1981) 和 Shao (1994) 系统证明了非参数 bootstrap 在光滑函数（Gâteaux 可导）下的一致性和非正则情形下的不一致性，建立了 bootstrap 一致性的充分条件框架。其中 Bickel & Freedman 的定理指出 bootstrap 在 M-估计量成立需要估计方程的可微性，非正则情形下这个条件破裂。
主要进展（1990s-2000s）：
Shao (1994) 提出 m-out-of-n bootstrap（即用更少的样本量 m 进行 bootstrap），证明了它能“修复”非参数 bootstrap 在非正则估计量处的不一致性。核心想法是：对 n→m→0 的速率选取，使得 bootstrap 过程能模拟边界参数下的极限分布。本文引用了 Shao 的工作并称其为“主要的解法尝试”。
Beran (1997) 提出 oracle bootstrap：假设已知估计量的渐近分布形式（依赖于“oracle”对参数属于边界还是内部的判断），然后用 bootstrap 估计该分布的参数。本文称 oracle bootstrap“需要预知极限分布的具体形式”，这是它的局限。
当前 frontier 与本文的位置：
现有工作要么证明单个具体非正则估计量的 bootstrap 不一致（如 Hodges, Stein），要么提出通用补救方法（m-out-of-n, oracle bootstrap）。本文的定位是：引入一类包含大量经典例子（非负均值、平方均值、Hodges、Stein）的非正则估计量的统一框架，然后在该框架下给出局部渐近分析，从而系统刻画偏差发生及补救生效的条件。这是从“特例分析”到“一类结构”的跃升。

子线索聚类¶

经典非正则估计量的 Bootstrap 不一致性（Hodges, Stein, 非负均值）：这些工作具体论证了每个例子下 bootstrap 为什么会失败（通常是因为方差估计在边界处有误）。本文把它们纳入统一框架。
诊断与补救理论（Bickel & Freedman, Shao, Beran）：提供了 bootstrap 一致性的充分条件框架，提出 m-out-of-n bootstrap 和 oracle bootstrap 作为修复手段。本文对此进行深化，给出了局部渐近展开和补救生效的速率条件。
局部渐近分析（local asymptotics）方法（LeCam, 1990s-2000s）：通过让参数以不同速率趋近边界（contiguous alternatives），分析估计量和 bootstrap 过程的极限行为。这套工具是本文的核心数学技术，也是它区别于固定参数分析的关键。

这个方向在追问的核心问题¶

什么时候 bootstrap 一致 / 不一致？ 需要精确刻画参数空间的“好子集”和“坏子集”以及两者的测度。
补救机制（m-out-of-n, oracle bootstrap）的局部渐近性质是什么？ 它们是否在所有速率下都有效？收敛速率如何？
对非负均值、平方均值、Hodges、Stein 等具体估计量，bootstrap 失效的具体数学机理是什么？
如何在实际中选取 m（对 m-out-of-n bootstrap）？ 这是 open problem。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：现有工作要么“固定参数设定下分析”（即假设参数精确等于边界点），要么只有特例分析。本文通过 “允许参数以不同速率趋近边界” 的局部渐近分析，得到一幅完整的图景：非参数 bootstrap 在“几乎所有点”一致（除了边界点本身），但在边界点的任何小邻域内其表现依赖于趋近速率。m-out-of-n 和 oracle bootstrap 在哪些速率下能修复、不能修复，被统一刻画。作者声称“已有工作的框架不足以描述这种局部行为”，而本文的局部渐近框架是“自然的下一步”。
哪些竞争路线被他淡化或回避了？ 作者没有讨论更复杂的 bootstrap 方法（如 smooth bootstrap, double bootstrap），也没有讨论后高维 / 半参数环境下的非正则性（这可能不是本文的目标域，但仍是一个缺口）。什么明显该被引 / 该存在、却没出现在 intro 里？——未见明显缺失；作者引用了 Bickel & Freedman (1981), Shao (1994), Beran (1997), Hodges (1958), Stein (1956)，与本方向的核心文献一致。如果本文有提及更近的研究（如 Imbens & Manski 2004 关于置信区间的边界修正）会更好，但可能是领域不同导致的合理省略。
张力：未见明显对立引用。不同工作（Bickel & Freedman, Shao）的理论一致认为非参数 bootstrap 在非正则点不一致，但没有系统研究“趋近速率”的连续变化——本文正好填补这个缺口。

二、最核心、最简单的例子 / 数学问题¶

第一步：记号、模型、可观测数据交代清楚¶

符号核心集（逐个说明）：
θ：待估参数（可能是标量，也可能在任意赋范空间中；在例子中通常为标量实数）。
θ̂ₙ：基于 n 个样本的估计量。核心性质：它的极限分布依赖于 θ 是否属于参数空间中的一个“边界”或“退化”子集（如 θ ≤ 0 vs θ > 0 的交界面）。
θ̂ₙ^b：非参数 bootstrap 版本（基于同一组观测数据的重抽样）。关键假定：bootstrap 样本大小与原始数据一致（均为 n）。
cₙ：一个非负的速率因子（可以取到 0 或 ∞ 作为极限情形）。用于局部渐近分析时，让参数 θₙ 以速率 cₙ 趋近边界点 θ₀。例如，cₙ → c ∈ [0, ∞] 表示参数趋近边界的速度相对样本量 n 的特定速率。
H：一个赋范空间（normed space）。估计量 θ̂ₙ 的分布在这个空间中专号，因此 bootstrap 的一致性是在这个空间上的弱收敛意义下讨论的。
ℓ(θ)：一个损失函数或目标函数，用于定义估计量。严格而言，本文的估计量类由优化某种目标函数得到，但最小内核只需要知道它是某种“带约束的极值估计量”。
模型（用直白语言）：
数据来自一个分布 P₀（未知或半参数模型），它决定了真实参数 θ₀。在最小内核中，分布是已知族 {Pθ} 且 θ 是模型参数。
估计量 θ̂ₙ 由一个优化问题（如 M-估计或某个凸目标的最小化）定义，但带有不等式约束（如 θ ≥ 0）。这个约束是“非正则”的来源：当 θ₀ 碰巧在边界上（如 θ₀ = 0），估计量的极限分布不是连续的（出现“点质量”或退化）。
已知 vs 要估：模型的族形式和约束是已知的；θ 是要估的对象。
可观测数据：
研究者实际能观测到的是来自 P₀ 的 i.i.d. 样本 X₁, ..., Xₙ（假设每个是 d 维向量，但例子中常为标量）。
想要但观测不到：真正的参数 θ₀ 的位置（是否刚好在边界）。这个边界信息只能通过估计来判断（即 θ̂ₙ 是否“接近”边界）。

第二步：讲最小内核——非负均值的估计且 μ = 0¶

最小特例是什么：估计一个非负均值 μ ≥ 0，最简版本是观测 i.i.d. Yᵢ ~ P，E[Yᵢ] = μ，且 μ ≥ 0。用无约束的样本均值 Ȳₙ 作为估计量，然后取 μ̂ₙ = max(Ȳₙ, 0)。

在这个特例下，所有记号和模型退化为：
θ = μ（标量）
θ̂ₙ = max(Ȳₙ, 0) 是估计量。
边界点：μ₀ = 0（注意这里 μ₀ 是真正的参数还是 boundary point）。
可观测数据：Y₁, ..., Yₙ i.i.d. from some distribution with mean μ; 方差记为 σ²（已知或需估）。
非参数 bootstrap：从样本中放回重抽样得到 Y₁^b, ..., Yₙ^b，计算 Ȳₙ^b，然后 μ̂ₙ^b = max(Ȳₙ^b, 0)。

核心思路（一看就懂）：

为什么 bootstrap 在 μ = 0 处不一致？ - 当 μ > 0：设 μ 远离 0，Ȳₙ 以 CLT 收敛到 N(μ, σ²/n)。取 max 函数几乎没有影响，因为 Ȳₙ 几乎一定为正。bootstrap 样本 Ȳₙ^b 的分布（以经验分布为条件）也近似是 N(Ȳₙ, σ̂²/n)，所以 bootstrap 和真实分布都近似于 N(μ, σ²/n)，这保证了 bootstrap 一致。 - 当 μ = 0：真实 Ȳₙ 的分布是 N(0, σ²/n) 被截断在 0 处（因为取 max(Ȳₙ, 0)≠Ȳₙ 的点质量集中在正半轴）。具体地，真实 μ̂ₙ 的分布有大约 1/2 的质量恰好在 0 上（对 n 和 σ² 而言），剩余的密度来自 N(0, σ²/n) 的正半部分。然而，在 bootstrap 中，条件于某个 δ 的样本，Ȳₙ 几乎必然大于 0（每次样本各异，但趋近于 0 时正的概率仍接近 1/2），但 bootstrap 过程的方差估计 σ̂² 也是随机且有偏的。更关键的是，bootstrap 模拟的是 Ȳₙ^b 的无截断分布，模拟出的质量不会恰卡在 0 上——它可能取负值然后被截掉，但截断的概率和真实情况不匹配。结果是 bootstrap 的分布低估了 0 处的概率质量，而高估了正半部分的方差，导致分布不一致。

那 m-out-of-n bootstrap 为什么修复？ - 取 m = o(n)（如 m = n^0.7）。bootstrap 样本量 m 远小于原始样本量。此时： - 在 bootstrap 过程中，Ȳₘ^b（对 m 个样本的均值）的方差变为 σ²/m，远大于真实 Ȳₙ 的方差 σ²/n。 - 这造成的效应是：Ȳₘ^b 的分布变得非常弥散，因此取 max 函数的截断效果会倾向于把负值归零，但零处的质量比例接近 1/2 且方差匹配真实情况（因为真实 μ̂ₙ 的方差也是 O(1/n) 但截断会导致二阶矩更贴近 1/2 个正态，m-out-of-n 能在极限上复现这一点）。 - 详细推导需要在局部缩放 μₙ = h/√n 下进行（详见论文定理），但直觉是：通过减少 bootstrap 的有效样本量，m-out-of-n 让 bootstrap 分布的方差缩小（以复现真实截断分布的特征）。

一句话总结最小内核：当参数在边界（μ=0）时，nonparametric bootstrap 失效是因为其对 μ̂ₙ 的离散程度（方差和0点质量）的模拟错误，而 m-out-of-n bootstrap 通过调整有效样本量修正了这种模拟。本文的全局结果就是在任意赋范空间中把这种直觉严格化。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文在一个包含非负均值、平方均值、Hodges 和 Stein 估计量的统一非正则估计量类中，研究了非参数 bootstrap 及其补救方法（m-out-of-n 和 oracle bootstrap）的一致性与局部渐近性质。
核心工具/方法：局部渐近分析（local asymptotics）——让参数 θₙ 以不同速率趋近边界点 θ₀，并推导 θ̂ₙ 和 bootstrap 分布的极限。
主要结论：① 非参数 bootstrap 在参数空间的“几乎所有点”一致（除了一个低维边界子集）；② 在这个边界子集及其邻域内，bootstrap 的失效程度由趋近速率控制，被系统刻画；③ m-out-of-n 和 oracle bootstrap 在适当的 m 选择或 oracle 假定下能恢复一致性，且给出了各自的局部收敛速度。

关键设定与假设¶

假设 A (估计量类定义)：假设 θ̂ₙ 是一个优化得到的估计量，其形式为 θ̂ₙ = argmin_{θ ∈ Θ} Qₙ(θ)，其中 Θ 是赋范空间 H 的闭凸子集，Qₙ 是经验过程。且 θ₀ 在边界 ∂Θ 上时估计量非正则（即 Gateaux 导数不存在或不对称）。这个类包含了许多常见例子。
假设 B (边界点处的局部结构)：存在一个速率为 rₙ 的缩放：
```
n^{1/2} (θ̂ₙ - θ₀) ⇒ Z(θ₀)
```
其中 Z(θ₀) 是某个随机元（如高斯过程或 Drichlet 混合），当 θ₀ ∈ ∂Θ 时 Z(θ₀) 的支撑集发生改变（如被限制在切锥内）。
假设 C (bootstrap 一致性条件)：对于不在边界的 θ₀（内部点），非参数 bootstrap 一致（即 bootstrap 版本的条件分布弱收敛到相同的极限 Z(θ₀)）。对于边界点 θ₀，这个条件破裂且需要修正。
额外假设：经验过程的 Bootstrap 版本在 H 中一致地弱收敛（通过指数不等式和膨胀技术控制），类似于 Giné & Zinn 的 bootstrap 中心极限定理条件，但允许非光滑性。
相比已有文献：比 Shao (1994) 更一般（Shao 主要讨论一维参数且固定 θ 在边界的情形）；比 Beran (1997) 更普适（不要求 oracle）。

主要结果（理论型）¶

定理 1（非参数 bootstrap 的一致性范围）：在假设 A-C 下，非参数 bootstrap 在 θ₀ ∈ Θ₀（内部点集）上一致，其中 Θ₀ 的补集（边界点集）是一个低维（或退化）子集。该定理量化了“几乎所有点”的meaning：边界点集的 Lebesgue 测度为 0（如果 H 为欧氏空间），且 bootstrap 在这些点附近的行为具有局部参数化（由趋近速率 cₙ 控制）。
定理 2（极限分布的局部展开）：考虑 θₙ = θ₀ + n^{-α} h 的参数序列，其中 h ∈ H 是某个方向、α > 0 是速率。则 θ̂ₙ 和 θ̂ₙ^b 的极限分布由 h 和 α 决定。关键表达式：
```
n^{1/2} (θ̂ₙ - θₙ) ⇒ Z(θ₀) + c(h)
```
其中 c(h) 是一个与“端正化”相关的矫正项，具体形式依赖于目标函数在边界处的几何（如投影到切锥）。这个定理是整篇论文的技术核心，因为它是后续分析 bootstrap 一致性的基础。
定理 3（m-out-of-n bootstrap 的修复条件）：如果 m 满足 m/n → 0（或更一般地 m^β / n^α → 某个有限常数），则 m-out-of-n bootstrap 在边界点 θ₀ 处是一致的，且其收敛速率是 m^{-1/2} 而不是 n^{-1/2}。该定理指出了 m 的选择需要与“边界退化速率”匹配；若是“超高效”情形，则两个速率需要更精细的匹配。
定理 4（oracle bootstrap 的恢复）：如果 oracl 知道 θ₀ 是否在边界上（即判断是内部点还是边界点），则 oracle bootstrap 在两种情形下均一致；若 oracle 使用某种检验（如检验 H0: θ₀ ∈ ∂Θ），则在检验的误判率可控时 oracle bootstrap 也一致。

证明路线与技术技巧¶

整体路线（3-5步）：
局部参数化：对任意的边界点 θ₀ ∈ ∂Θ，通过局部 map 把估计量重新表示为“对其目标函数的 Canonical 修正”版本的样本均值，并证明其极限等价于一个“投影到圆锥”的高斯过程。这一步用了凸几何和极限理论。
极限分布展开：在假设“θₙ 以不同速率趋近 θ₀”下，利用连续映射定理和 delta 方法（对 Gateaux 导数存在但不对称的情况使用 von Mises 展开）。这个步骤极需要技巧，因为边界上的导数突然消失，必须用半光滑（semismooth）展开。
bootstrap 过程的极限分析：对 bootstrap 版本做类似的局部展开，但要加上“以经验分布为条件的随机性”。用三重序列（n → ∞, bootstrap 次数 → ∞, 参数序列速率）同时求极限，并执行一个“条件弱收敛”论证（即“沿样本路径” bootstrap 分布的弱收敛）。
比较两个极限：在参数位于内部（h ≠ 0）的路径上比较两个极限分布的差异；差异为零，于是 bootstrap 一致；在边界（h = 0）或其他特殊率上差异非零，于是 bootstrap 不一致。m-out-of-n 版本时调整 m 使差异消失。
统一刻画：通过引入“边界退化指数”把 m-out-of-n 的 m 选择策略统一。
关键跳跃点：最吃功夫的引理是Lemma 3（边界点处的渐近等度连续条件，arcsine-type 的极值过程收敛）和Lemma 6（m-out-of-n bootstrap 中，条件于样本的 bootstrap 过程的弱收敛等价于一个“尺度不同的缩放”后原始过程的弱收敛）。后者是核心：它把原本不同样本量 m 和 n 的问题归结为一个共同的极限，从而可以对比分布。
技术技巧点名：
凸对偶 / Moreau 分解：用于处理目标函数在边界处的“投影”结构（非负均值是对正半轴的投影；平方均值是二次型投影）。
指数型不等式（Bernstein 类型的 Bootstrap 敏感性不等式）：用于控制经验过程的 bootstrap 版本的波动，从而保证收敛。
连续性方法（continuous mapping & Delta method with semismoothness）：对非光滑函数采用的技巧。
Efron-Stein 类型不等式（可能用于边界点概率的界，需核实原文）。作者详细说明使用了“一阶 von Mises 展开的 bootstrap 版本”，这是处理非正则性的关键。

真实例子与应用（有就一定要讲）¶

本文提供了模拟研究： - 数据：生成来自 N(μ, 1) 的 i.i.d. 样本，分别考虑 μ ≥ 0（非负均值估计）和一个对称单峰分布的点（用于平方均值估计）。样本大小 n = 100, 500；bootstrap 重复次数 B = 1999。 - 方法：比较了 nonparametric bootstrap（MLE）、m-out-of-n bootstrap（m = n^0.5, n^0.7, n^0.9）和 oracle bootstrap。 - 结果： - 当 μ > 0（远离边界）时，所有 bootstrap 方法表现良好（覆盖概率接近名义水平）。 - 当 μ = 0 时，nonparametric bootstrap 严重低估估计量的方差（高估置信区间宽度），实际覆盖概率远低于名义 95%（如只到 70%）。 - m-out-of-n bootstrap 在 m = n^0.7 附近接近名义水平；在 m = n^0.5 时修正不够（仍低估），在 m = n^0.9 时过度修正（高估 coverage）。 - oracle bootstrap（假设知道 μ 在边界）效果最好，但它依赖于边界知识的先验。 - 这个例子想说明：① 本文的渐近理论预测了有限样本行为（bootstrap 失效发生在边界旁，且 m-out-of-n 有一个最优的 m_rate）; ② m-out-of-n 在实际中需要谨慎选择 m，但它的确是一个通用修复策略。

注：本文为纯理论/无实证例子？——有上述模拟例子，已作讲述。

🔎 结论是否比证明窄¶

是的，部分结论比证明窄。论文证明的结果主要局限在“一类在赋范空间中、由凸优化定义的估计量”中。但作者在讨论中泛泛称其结果适用于“广义的非正则估计量”和“半参数问题中的非正则推断”。需要注意的是： - 证明中严格假定的凸目标函数在 Hodges 和 Stein 例子中成立（因为它们的构造本质上是凸函数加上一个惩罚），但许多现代半参数非正则问题（如部分线性模型中的弱工具变量）的目标函数不一定是凸的。作者在论文第 5 节讨论中承认了这一点：“扩展到非凸情况需要更一般的变分分析”。 - m-out-of-n 的 m 选择 在实际中是开放问题，本文没有给出一个通用的数据驱动规则，仅提供了渐近指导（m = n^α where α 由边界退化指数决定）。这个放松的结论限制了直接应用。

四、开放问题¶

限于 3-4 条，每条扎根具体语句：

扩展到更“复杂”的非正则估计量：本文聚焦于一类凸优化定义的估计量。但现代非正则困难经常出现在非凸目标（如神经网络中的 overparameterization 导致的边界）或高维环境（Lasso 在边界处的选择）。作者在 Section 5, Limitations 指出：“扩展到非凸情况需要更一般的变分分析”。这个缺口值得追问：是否能用不同的流形结构来刻画并修复 bootstrap？
m-out-of-n 中 m 的数据驱动选择：本文只给出 m 应随 n 的某个指数选择（基于理论估计的边界退化指数）。但退化指数本身不可知。在 Section 6, Discussion 中作者承认“为 m 提供数据驱动规则是本工作的自然延伸”。目前没有直接把边界退化指数估计出来的工具。
应用于因果推断中的弱识别参数：因果推断中的 Weak IV（弱工具变量）问题本质上也是一个非正则估计量类（F 统计量趋向 0 时的边界）。本文的框架假设“赋范空间”且估计量由凸优化定义。弱 IV 中的两阶段最小二乘估计量是目标函数在非凸结构上的库（与弱识别直接相关）。这是一个有针对性的扩展：将本文的局部分析应用到 Andrews, Moreira, Stock (2006) 类型弱 IV 置信区间中。
与其他 bootstrap 补救方法的比较：虽然没有对立引用，但还有 double bootstrap、pre-pivoting 等方法都被提出用于处理非正则性。本文的局部框架尚未直接比较这些方法与 m-out-of-n 的性能（通过比较它们对极限分布的模拟的偏差）。本文在引用中没有提及这些方法（可能因为研究侧重点不同），值得去查一下它们是否与本类的底层结构兼容。

Maintained by 陈星宇 · Homepage · Source on GitHub