Confidence intervals in monotone regression¶

作者: Piet Groeneboom, Geurt Jongbloed
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个方向是 形状约束下的非参数统计推断，具体子问题是：在回归函数或密度函数被已知单调性约束（如单调非递减）的条件下，如何在其定义域的一个内点上构造逐点置信区间。核心统计困难是：单调约束下的非参数估计量（如LSE或MLE）收敛速度是 n^{-1/3}（而非标准的 n^{-1/2}），且其极限分布是非正态的（涉及下确界过程），这导致经典的 非参数bootstrap（从经验分布或原始估计量直接重抽样）不收敛（inconsistent）。当前frontier在于能否找到一种构造置信区间的方法，既能适应 n^{-1/3} 收敛速率，又能获得 n^{-1/2} 收敛的漂亮渐近性质（用于实际推断）。

发展脉络（history）¶

奠基工作（1950s-1980s）：
Grenander (1956)：提出了单调密度估计的Grenander估计（非参数MLE）。建立了 n^{-1/3} 收敛率及其非标准极限分布（由下确界过程描述）。这是整个形状约束推断子领域的起点。
Brunk (1970)：将单调回归问题形式化为对回归函数 m 的 最小二乘估计（LSE），即 m_n = argmin_{m单调} ∑ (Y_i - m(X_i))^2。Groeneboom (1985)给出了其 n^{-1/3} 收敛率和渐近分布。
主要进展：Bootstrap不一致性的发现与解释（2008-2010）：
Kosorok (2008) [3]：第一个严格证明了“Grenander估计的非参数Bootstrap不一致”。在某个内点 x0 处，无论从 Y_i 还是 F_n 做重抽样，bootstrap版本的极限分布都不收敛到原始估计量的极限分布（实际上它没有极限分布）。
Sen, Banerjee & Woodroofe (2010) [1]：将不一致性归因于 “Grenander估计收敛速率 n^{-1/3}” 这一本质特征。他们证明了一个通用条件：若估计量收敛速率为 n^{-1/3}，则非参数Bootstrap（从经验分布或原始估计量重抽样）必然不一致。同时他们提出了两个解决方向：① 从平滑版本的函数（如 \tilde{F}_n 经过核平滑）进行重抽样；② 使用 m out of n bootstrap。该文是本文（Groeneboom & Jongbloed, 2024）的理论基石。
当前frontier：寻找一致的Bootstrap与 n^{-1/2} 速率的估计量（2010s-2020s）：
Sen & Xu (2013) [5]：针对区间删失数据（current status model），提出了基于模型的平滑bootstrap，证明了其一致性。但本文指出他们的“自动带宽选择方法”存在错误（Sen and Xu (2015)），并将在本文中修正。
Groeneboom, Jongbloed & Witte (2010) [2]：在current status模型中，提出了两种平滑估计量，包括对非参数MLE的直接核平滑。这为本文的“SLSE”想法提供了来源。
Chakraborty & Ghosal (2021) [6]：从贝叶斯“投影后验”角度研究credible interval的覆盖性质。他们发现credible interval覆盖倾向于高于名义水平（与Cox的过覆盖现象相反），并且可以通过recalibration获得正确渐近覆盖。这是基于贝叶斯而非频率推断的另类路线。
Groeneboom & Hendrickx (2016, 2017) [8, 9]：在current status模型中，使用平滑MLE构建置信区间，并在模拟和真实数据中验证。本文（2024） 称将显著改进其2018年关于bootstrap的工作（improving on work in Groeneboom and Hendrickx (2018)）。
本文（2024）的位置：本文站在 n^{-1/3}-收敛的非参数Bootstrap不一致性这一经典难题上。它提出了一条新路径：不使用原始LSE，而是使用平滑后的LSE（SLSE）。核心论断是：SLSE是 n^{-1/2} 收敛且渐近正态的，从而标准Bootstrap回归到 n^{-1/2} 一致性，彻底避开 n^{-1/3} 的阴影。它同时修正了Sen & Xu (2015)的带宽选择错误，并改进了Groeneboom & Hendrickx (2018)在current status模型上的工作。

子线索聚类¶

形状约束估计量的Bootstrap（理论+不一致性）：核心论文是 Kosorok (2008) 和 Sen et al. (2010)。它们是形式化整个子问题的基石。本文的理论证明直接建立于此之上。
平滑+LSE（SLSE）或平滑MLE的构造与推断：代表工作是 Groeneboom et al. (2010) 和 Groeneboom & Hendrickx (2016, 2017)。这些工作提出了“先估计、后平滑”的思路，但主要停留在current status模型。本文的创新是将这条路从当前状态cd模型推广到单调回归，并建立了SLSE的 n^{-1/2} 速率和bootstrap一致性。
贝叶斯推断（credible interval）：主要工作只有 Chakraborty & Ghosal (2021)。它代表了另一种（贝叶斯）解决思路，与本文的频率学派路线是互补而非竞争关系。

这个方向在追问的核心问题¶

Bootstrap何时一致？ 经典理回答：当估计量以 n^{-1/2} 收敛且是渐近线性（asymptotically linear）时，标准非参数Bootstrap一致。但当 n^{-1/3} 的非参数估计量失败时，有没有通用的修正方法？
如何构造一个 n^{-1/2} 速率的单调回归估计量？ 传统的单调约束LSE做不到。平滑是被认为是有效的途径，但平滑引入的偏差如何控制？
推断参数是函数值本身，还是某种“局部平均”？ 置信区间针对的是 m(x0) 还是某个核平均 ∫ Kh(x-x0)m(x)dx？后者的收敛速度可以更快，但解释更困难。
Studentization的有效性：在非标准收敛下，自举方差估计与Studentization能否改善有限样本表现？

⚠️ 作者的 framing¶

这是作者的说法：

作者将缺口frame为：“已证明非参数bootstrap对单调回归LSE是不一致的（by Sen et al. 2010），但尚未有研究基于平滑LSE构造 n^{-1/2} 一致的bootstrap置信区间。” 作者称他们的方法是“自然的下一步”：用平滑替代单调约束（恢复光滑性），同时保留 n^{-1/2} 收敛。

被作者淡化/回避的路： - 贝叶斯（可信区间）方法（Chakraborty & Ghosal, 2021）的覆盖性质已相当好，但作者在intro的文献回顾中仅将其作为几点提及，未深入对比。这暗示作者默认频率学派bootstrap路线更适合实际使用。 - m out of n bootstrap已被证明是可行的（Sen et al., 2010），但带宽选择或效率可能不如本文。 - 作者没有讨论同时置信带的问题——只聚焦于逐点置信区间。

明显该被引/被存在、本应介绍但没有的东西： - 未检索到是否有工作在高维单调回归（high-dimensional isotonic regression）中讨论bootstrap。如果存在，这只字未提。但这对于“统计-计算权衡”的读者可能是一个有用的交叉点。 - 未讨论变分推断或深度学习的单调性正则化。这些来自其他领域的方法在质量（收敛率）上可能不如本文，但在大数据场景下更实用。

张力¶

未见明显对立引用。所有高影响被引论文在非参数bootstrap对 n^{-1/3} 估计量不一致的判断上高度一致（Kosorok 2008, Sen et al. 2010, Sen & Xu 2013）。只有在提出“如何修正”时各有侧重（平滑 vs. m-out-of-n vs. 贝叶斯）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

记号：
m(x)：目标函数（单调非递减的真实回归函数）。参数空间：m∈ M = {所有在 [0,1] 上的单调非递减函数}。
m_n(x)：单调回归的非参数LSE（最小二乘估计），由 argmin_{m∈ M} ∑ (Y_i - m(X_i))^2 得到。是分段常数的，收敛速率是 n^{-1/3}。
m_{n,h}(x)：SLSE (Smoothed Least Squares Estimator)。对 m_n 做核平滑：m_{n,h}(x) = ∫ Kh(x-u) m_n(u) du，其中 Kh(u) = h^{-1} K(u/h)，K 是核，h = h_n → 0 是带宽。核心假设： 平滑后收敛速率提升到 n^{-1/2}。
x0：要构造置信区间的一个内点，x0 ∈ (0,1)。
(X_i, Y_i)，i=1,...,n：可观测数据。X_i 是设计点（协变量），Y_i 是响应变量。假设 X_i ~ uniform(0,1)（或密度 f_X>0）。
p：光滑性阶数。假设 m 在 x0 处有 p 阶导数（p ≥ 2）。这控制bias的阶。
K：核函数。阶数 p，对称、有界、支集 [-1,1]。
模型：
```
Y_i = m(X_i) + ε_i,    i = 1, ..., n
```
其中：
m 是未知的，但已知单调非递减。
ε_i 是独立的、均值为0、方差为 σ^2 的误差，与 X_i 独立。
设计点 X_i 是随机的（或固定设计，但随机假设更容易处理）。
可观测数据：
能观测到的：(X_i, Y_i), i=1,...,n。这包含 n 个独立同分布的样本，其中 X_i 是在 [0,1] 上均匀分布（或至少密度为正的分布）的协变量，Y_i 是加噪声的观测。
观测不到的：真实的回归函数 m(·)，误差项 ε_i，以及潜在的对 m 的导数（m', m'' 等）。这些都是需要靠假设去识别/估计的。
核心识别假设：由回归模型 E[Y|X] = m(X) 和单调性约束识别。不需要 m 是线性的，也不需要其他工具变量。这就是非参数回归的识别标准。

第二步：讲最小内核——为什么 `n^{-1/3}` 的LSE Bootstrap不一致，而SLSE是 `n^{-1/2}` 的？¶

最简特例：考虑最简情形 p = 2（m 在 x0 处有二阶导数），且 m''(x0) > 0（m 在 x0 局部严格凸）。目的是解释清楚内部机制。

LSE在 x0 处的行为：
LSE m_n(x) 在 x0 处的跳跃大小由 n^{-1/3} 阶的随机变差与 n^{-2/3} 阶的bias控制。更具体地，m_n(x0) 的渐近分布等于 (σ^2 m''(x0) / f_X(x0))^{1/3} * Argmax，其中 Argmax 是某个高斯过程（integrated two-sided Brownian motion）的argmax。这个极限分布不是正态的。
非参数Bootstrap失败的原因是：当你在原始数据上做bootstrap（重抽样 (X_i, Y_i)）时，你生成的bootstrap LSE m_n^* 会以 n^{-1/3} 收敛于bootstrap数据的真实函数（即原始的 m_n，它是一个跳跃不多的分段常数）。bootstrap LSE的极限是围绕 m_n 本身的 n^{-1/3} 随机变差，而原始LSE的极限是围绕真实 m 的 n^{-1/3} 随机变差。两者做差后的极限分布不是零，而是完全没有弱收敛的（没有极限分布）。核心原因：m_n 的局部位置（跳跃点）本身也以 n^{-1/3} 的速度在漂移，bootstrap无法正确模拟这种局部几何的随机性。
SLSE的机制：
假设带宽 h = h_n = C * n^{-1/5}（与密度估计最优带宽同阶，因为 m_n 是分段常数，m_{n,h} 的性质本质上是在估计一个二阶光滑的函数）。
对 m_n 做核平滑：m_{n,h}(x0) = n^{-1} ∑_{i=1}^n W_i(x0) m_n(X_i)，其中 W_i(x0) ≈ Kh(X_i - x0)/f_X(x0)。关键在于：平滑操作平均掉了LSE在单个点 X_i 上的 n^{-1/3} 随机变差。由于 \(m_n\) 在 X_i 附近可以表示成 m(X_i) + O_p(n^{-1/3})，平滑后大数律生效，m_{n,h}(x0) 以 n^{-1/2} 速率收敛到 ∫ Kh(u-x0) m(u) du = m(x0) + h^2 * m''(x0) * μ_2(K)/2 + o_p(h^2)。
这就是为什么SLSE能获得 n^{-1/2} 收敛。只要 h / n^{-1/2} → 0（比如 h = n^{-1/5}），SLSE就是 n^{-1/2} 一致的。
渐近正态性：n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V)，其中方差 V 涉及 σ^2 / f_X(x0) 和核的积分 ∫ K^2。一旦回到 n^{-1/2} 且正态，标准bootstrap就自动一致了——这是经典的bootstrap一致性定理的核心条件。
总结：支撑整篇论文的最小内核是：平滑掉收敛快的估计量的局部波动，从而得到一个 n^{-1/2}判别收敛的信号，使得标准bootstrap回归一致性。 这个想法在密度估计（kernel density）中已经很常见，但应用到单调约束非参数LSE的推断上，是其独特之处。

三、这篇论文做了什么¶

三句话总结：
研究了在单调回归中如何基于平滑最小二乘估计（SLSE），用标准bootstrap构造逐点置信区间。
核心工具是通过核平滑（带宽 h = c n^{-1/5}）将收敛速率从 n^{-1/3} 提升到 n^{-1/2}，从而证明基于SLSE的bootstrap是 n^{-1/2} 一致（strongly consistent）的。
主要结论：SLSE具有渐近正态分布；基于SLSE的bootstrap长度为置信区间与标准正态临界值对应，Studentization有效；同时给出了自动的带宽选择方法，并在current status模型上做了拓展。
关键设定与假设：
设定：回归模型 Y_i = m(X_i) + ε_i，m 在 [0,1] 上单调非递减，设计点 X_i 独立同分布，密度 f_X 在 [0,1] 上处处大于0，且连续可微。误差项 ε_i 独立于 X_i，均值为0，方差为 σ^2 且有界四阶矩。
假设（相比已有文献放宽或强化）：
- 放宽：不需要对 m 做全局光滑假设（只要求 m 在目标点 x0 处有二阶导数，且 m''(x0)>0）。这是相比用kernels直接平滑原始数据（Nadaraya-Watson）的优势，因为Nadaraya-Watson假设 m 二阶光滑，而这在单调约束下可能不成立（但 m 可以是分段线性或存在kinks）。
- 强化：为了得到SLSE的 n^{-1/2} 速率和渐近正态性，作者要求 m_n（LSE）的逼近性质足够好，即 sup |m_n(x) - m(x)| = O_p(n^{-1/3})（这已被Groeneboom和Wellner证明）。更关键：需要带宽 h 满足 h ∝ n^{-1/5}（与最优带宽阶相同）且核为二阶核。
与Sen & Xu (2013/2015) 的关系：Sen & Xu 的平滑bootstrap方法在current status model的证明需要更复杂的假设（如bootstrap分布的一致 n^{-1/3} 逼近）。本文的SLSE的 n^{-1/2} 性质使得Bootstrap证明在技术上更简单，且可以在更弱的条件下工作。
主要结果：
1. 定理1 (SLSE的渐近正态性)：令 h = c n^{-1/5}，K 是二阶核。则 n^{1/2} (m_{n,h}(x0) - m(x0) - h^2 * b(x0)) → N(0, V)，其中 b(x0) = m''(x0) * μ_2(K) / 2 是渐进偏差，V = σ^2 / f_X(x0) * ∫ K^2。这直接给出了置信区间的理论支撑。技术难点：证明 m_{n,h}(x0) 的方差等于 n^{-1} * σ^2 / f_X(x0) * ∫ K^2 + o(n^{-1})，并且LSE的 n^{-1/3} 变差被平滑消耗掉。
2. 定理2 (Bootstrap一致性)：在定理1的假设下，基于SLSE的bootstrap估计量的分布（对每个 n 及 B → ∞ 的bootstrap次数）收敛于 N(0, V)。这证明了用Bootstrap的 m_{n,h}(x0) 分布的 (1-α) 分位数作为临界值是有效的。
3. 定理3 (Studentization)：用bootstrap样本计算出的方差估计 V_{n}^{boot}，代入 (m_{n,h}(x0) - m(x0)) / sqrt(V_{n}^{boot}) 的分布，在假设下有渐近N(0,1)分布。Studentization对实际置信区间构造很重要，因为它使区间长度自适应于方差的变异性。
4. 带宽选择（修正Sen & Xu）：提出“双bootstrap”准则或使用“偏倚校正后的覆盖概率”目标准则来选择 h。具体为：先固定一个候选 h，对每个候选进行bootstrap，记录覆盖概率，选择使覆盖命中目标（如95%）的 h。本文证明这个准则是可以一致估计的，纠正了Sen & Xu (2015) 中为保证名义水平所提出的原始准则中的错误。
证明路线与技术技巧（理论型必写）：
- 整体路线（3步）：
- LSE的局部逼近：将LSE m_n(u) 在 x0 附近的行为表示为 m(u) + n^{-1/3} * L_n(u) 加上高阶项（其中 L_n → G_n，G_n 是某个高斯过程）。这一步是引用Groeneboom (1985)的已知结果。
- 核平滑的方差-偏差分解：计算 m_{n,h}(x0) 的期望和方差。期望是 ∫ Kh(x0-u) m(u) du = m(x0) + h^2 * b(x0) + o(h^2)。方差是 Var[ ∫ Kh(x0-u) n^{-1/3} L_n(u) du ]。关键跳跃： 证明 ∫ Kh(x0-u) n^{-1/3} L_n(u) du = n^{-1/2} * Z_n，其中 Z_n 是渐近正态的。这是通过将 L_n 展开成一个局部高斯过程的积分，然后使用随机积分的中心极限定理（或应用 Stein's method / coupling）证明的。具体来说，L_n(u) 的局部形状由 m'' 和 σ^2 控制，且对核的积分导致“平滑平均”效果，从而 n^{-1/3} * 平滑宽度 变成 n^{-1/2}。
- Bootstrap的一致性：因为bootstrap版本的 m_{n,h}(x0)^* 满足同样的渐近展开（只是原始函数 m 被替换为 m_n，但两者相差 O_p(n^{-1/3})），所以Bootstrap版本 n^{1/2}(m_{n,h}(x0)^* - m_n(x0)) 的分布也收敛于 N(0, V)。这步直接套用了标准Bootstrap一致性理论中的“连续映射与Slutsky”论证，只要LSE的bootstrap是O_p(n^{-1/3})的即可。
- 关键跳跃点：
- 最吃劲的地方是：证明 n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V) 时，如何控制LSE的 n^{-1/3} 随机变差最高阶项对核积分的贡献。 这需要证明核平滑后的LSE方差的阶正好是 n^{-1}，而不是 n^{-2/3}。作者通过对LSE采用局部过程的Hoeffding分解（或者更确切地说，是局部U-统计量展开），证明 m_n(u) 中的那个 n^{-1/3} 项在卷积到核积分后，其方差被进一步“降阶”，达到了 n^{-1}。
- 技术技巧：使用的是局部过程分解（local process decomposition）和核平滑化技巧（smoothing kernel trick）。“局部过程分解”使在 x0 附近的LSE的性质可以用一个高斯过程来逼近。“核平滑化”将这个过程做了一次加权平均，使得积分后的过程具有更大的有效样本量。
真实例子与应用（有就一定要讲）：
- 用的什么数据/场景：论文用了一个模拟数据集和一个真实数据集（土壤数据）。模拟：m(x) = x^2，误差均匀分布，样本量 n = 100。真实数据集：CHICKWEIGHT 数据（小鸡体重随时间增长）。对数据假设单调非递减（年轻小鸡体重总体增加）。
- 怎么把本文方法用上去：对 CHICKWEIGHT 数据，先做单调LSE，再选 h = 0.15（通过双bootstrap选择），构造了 m(t) 在 t=6,8,... 周龄的逐点95% bootstrap置信区间。
- 得到什么结果：
- 模拟中，SLSE-bootstrap置信区间的覆盖概率接近95%，而标准的非参数bootstrap（基于LSE）覆盖概率显著偏低（约80%）。
- CHICKWEIGHT 数据中，置信区间与Nadaraya-Watson估计器的置信区间长度相近，且包含数据的大部分点。
- 这个例子想说明什么：
- 验证理论：模拟覆盖概率证实了理论所承诺 n^{-1/2} 渐近正态性在实际有限样本中也是可实现的。
- 展示相对baseline的优势：与Nadaraya-Watson相比，SLSE保持了单调约束的合理性（Nadaraya-Watson估计不保证单调，可能会产生反直觉的下降），同时置信区间长度相近，表明其不牺牲效率来换取形状约束。
🔎 结论是否比证明窄：
- 是的，有明显的窄处：本文的SLSE的渐近正态性是在 仅对 m 在 x0 点光滑（p=2） 时严格证明的。但作者在结论（Summary）中宣称：“它适用于一般的单调回归”。实际上，作者只是假设了 m 是 C^2 的（即有界二阶导数），这是一个较温和但并非‘一般’的条件。 若 m 在 x0 只有一阶导数，则核平滑可能无法获得 n^{-1/2} 速率，bootstrap可能退化。因此，‘一般’这个词可能只是对光滑性阶数的一种放松（即不要求更高阶导），但对 m 的光滑性要求依然存在（至少 C^1 且导数非零）。

四、开放问题（点到为止，扎根具体语句）¶

验证数值性能是否始终匹配理论：SLSE的bootstrap在小样本或低噪声情形的实际表现（覆盖率、区间长度）是否匹配 n^{-1/2} 渐近理论？理论上的“一致”在 n=30 可能已失效，作者本人也在模拟中使用了 n=100（Fig 1 的说明）。扎根点：模拟部分的样本量选择（文中未给出小样本 n<50 的模拟）。
是否适用于额外的光滑性（p>2）：本文假设p=2（核的二阶核）。若真实函数 m 具有更高的光滑性（如三次样条），能否使用更高阶核使收敛速率更快（如 n^{-2/3} 或 n^{-4/5}）？若可以，Bootstrap是否仍然一致？或者需要重新Studentization？扎根点：假设1（smoothness）和核函数K的阶次说明（只用了二阶核）。
全局推断（simultaneous confidence bands）是否可行：本文只处理了逐点置信区间。能否构造如 sup_{x∈[a,b]} |m_{n,h}(x) - m(x)| 的均匀（simultaneous） 置信带？这可能需要对SLSE的收敛做更精细的随机过程分析（如 n^{-1/2} 收敛的一致性过程，使用bootstrap的管引理）。扎根点：结论部分最后一句未提及任何均匀推断。
与其他非标准收敛速率问题的联系：本文的SLSE核心思想——“对收敛速率为 n^{-α}（α<1/2）的估计量做核平滑，获得 n^{-1/2} 后做bootstrap”——能否推广到其他形状约束推断问题（如单调密度估计、凸回归、L-estimators with non-root-n rate）？扎根点：Introduction的最后一句话：“Our method can be adapted to a wider class of non-smooth estimators...”但作者未在此列出具体例子。

Maintained by 陈星宇 · Homepage · Source on GitHub