跳转至

Confidence intervals in monotone regression

作者: Piet Groeneboom, Geurt Jongbloed
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个方向是 形状约束下的非参数统计推断,具体子问题是:在回归函数或密度函数被已知单调性约束(如单调非递减)的条件下,如何在其定义域的一个内点上构造逐点置信区间。核心统计困难是:单调约束下的非参数估计量(如LSE或MLE)收敛速度是 n^{-1/3}(而非标准的 n^{-1/2}),且其极限分布是非正态的(涉及下确界过程),这导致经典的 非参数bootstrap(从经验分布或原始估计量直接重抽样)不收敛(inconsistent)。当前frontier在于能否找到一种构造置信区间的方法,既能适应 n^{-1/3} 收敛速率,又能获得 n^{-1/2} 收敛的漂亮渐近性质(用于实际推断)。

发展脉络(history)

  • 奠基工作(1950s-1980s)
  • Grenander (1956):提出了单调密度估计的Grenander估计(非参数MLE)。建立了 n^{-1/3} 收敛率及其非标准极限分布(由下确界过程描述)。这是整个形状约束推断子领域的起点。
  • Brunk (1970):将单调回归问题形式化为对回归函数 m最小二乘估计(LSE),即 m_n = argmin_{m单调} ∑ (Y_i - m(X_i))^2Groeneboom (1985)给出了其 n^{-1/3} 收敛率和渐近分布。

  • 主要进展:Bootstrap不一致性的发现与解释(2008-2010)

  • Kosorok (2008) [3]:第一个严格证明了“Grenander估计的非参数Bootstrap不一致”。在某个内点 x0 处,无论从 Y_i 还是 F_n 做重抽样,bootstrap版本的极限分布都不收敛到原始估计量的极限分布(实际上它没有极限分布)。
  • Sen, Banerjee & Woodroofe (2010) [1]:将不一致性归因于 “Grenander估计收敛速率 n^{-1/3}” 这一本质特征。他们证明了一个通用条件:若估计量收敛速率为 n^{-1/3},则非参数Bootstrap(从经验分布或原始估计量重抽样)必然不一致。同时他们提出了两个解决方向:① 从平滑版本的函数(如 \tilde{F}_n 经过核平滑)进行重抽样;② 使用 m out of n bootstrap。该文是本文(Groeneboom & Jongbloed, 2024)的理论基石。

  • 当前frontier:寻找一致的Bootstrap与 n^{-1/2} 速率的估计量(2010s-2020s)

  • Sen & Xu (2013) [5]:针对区间删失数据(current status model),提出了基于模型的平滑bootstrap,证明了其一致性。但本文指出他们的“自动带宽选择方法”存在错误(Sen and Xu (2015)),并将在本文中修正。
  • Groeneboom, Jongbloed & Witte (2010) [2]:在current status模型中,提出了两种平滑估计量,包括对非参数MLE的直接核平滑。这为本文的“SLSE”想法提供了来源。
  • Chakraborty & Ghosal (2021) [6]:从贝叶斯“投影后验”角度研究credible interval的覆盖性质。他们发现credible interval覆盖倾向于高于名义水平(与Cox的过覆盖现象相反),并且可以通过recalibration获得正确渐近覆盖。这是基于贝叶斯而非频率推断的另类路线。
  • Groeneboom & Hendrickx (2016, 2017) [8, 9]:在current status模型中,使用平滑MLE构建置信区间,并在模拟和真实数据中验证。本文(2024) 称将显著改进其2018年关于bootstrap的工作(improving on work in Groeneboom and Hendrickx (2018))。

  • 本文(2024)的位置:本文站在 n^{-1/3}-收敛的非参数Bootstrap不一致性这一经典难题上。它提出了一条新路径:不使用原始LSE,而是使用平滑后的LSE(SLSE)。核心论断是:SLSE是 n^{-1/2} 收敛且渐近正态的,从而标准Bootstrap回归到 n^{-1/2} 一致性,彻底避开 n^{-1/3} 的阴影。它同时修正了Sen & Xu (2015)的带宽选择错误,并改进了Groeneboom & Hendrickx (2018)在current status模型上的工作。

子线索聚类

  1. 形状约束估计量的Bootstrap(理论+不一致性):核心论文是 Kosorok (2008) 和 Sen et al. (2010)。它们是形式化整个子问题的基石。本文的理论证明直接建立于此之上。
  2. 平滑+LSE(SLSE)或平滑MLE的构造与推断:代表工作是 Groeneboom et al. (2010) 和 Groeneboom & Hendrickx (2016, 2017)。这些工作提出了“先估计、后平滑”的思路,但主要停留在current status模型。本文的创新是将这条路从当前状态cd模型推广到单调回归,并建立了SLSE的 n^{-1/2} 速率和bootstrap一致性。
  3. 贝叶斯推断(credible interval):主要工作只有 Chakraborty & Ghosal (2021)。它代表了另一种(贝叶斯)解决思路,与本文的频率学派路线是互补而非竞争关系。

这个方向在追问的核心问题

  1. Bootstrap何时一致? 经典理回答:当估计量以 n^{-1/2} 收敛且是渐近线性(asymptotically linear)时,标准非参数Bootstrap一致。但当 n^{-1/3} 的非参数估计量失败时,有没有通用的修正方法?
  2. 如何构造一个 n^{-1/2} 速率的单调回归估计量? 传统的单调约束LSE做不到。平滑是被认为是有效的途径,但平滑引入的偏差如何控制?
  3. 推断参数是函数值本身,还是某种“局部平均”? 置信区间针对的是 m(x0) 还是某个核平均 ∫ Kh(x-x0)m(x)dx?后者的收敛速度可以更快,但解释更困难。
  4. Studentization的有效性:在非标准收敛下,自举方差估计与Studentization能否改善有限样本表现?

⚠️ 作者的 framing

这是作者的说法

作者将缺口frame为:“已证明非参数bootstrap对单调回归LSE是不一致的(by Sen et al. 2010),但尚未有研究基于平滑LSE构造 n^{-1/2} 一致的bootstrap置信区间。” 作者称他们的方法是“自然的下一步”:用平滑替代单调约束(恢复光滑性),同时保留 n^{-1/2} 收敛。

被作者淡化/回避的路: - 贝叶斯(可信区间)方法(Chakraborty & Ghosal, 2021)的覆盖性质已相当好,但作者在intro的文献回顾中仅将其作为几点提及,未深入对比。这暗示作者默认频率学派bootstrap路线更适合实际使用。 - m out of n bootstrap已被证明是可行的(Sen et al., 2010),但带宽选择或效率可能不如本文。 - 作者没有讨论同时置信带的问题——只聚焦于逐点置信区间。

明显该被引/被存在、本应介绍但没有的东西: - 未检索到是否有工作在高维单调回归(high-dimensional isotonic regression)中讨论bootstrap。如果存在,这只字未提。但这对于“统计-计算权衡”的读者可能是一个有用的交叉点。 - 未讨论变分推断深度学习的单调性正则化。这些来自其他领域的方法在质量(收敛率)上可能不如本文,但在大数据场景下更实用。

张力

未见明显对立引用。所有高影响被引论文在非参数bootstrap对 n^{-1/3} 估计量不一致的判断上高度一致(Kosorok 2008, Sen et al. 2010, Sen & Xu 2013)。只有在提出“如何修正”时各有侧重(平滑 vs. m-out-of-n vs. 贝叶斯)。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 记号
  • m(x)目标函数(单调非递减的真实回归函数)。参数空间:m∈ M = {所有在 [0,1] 上的单调非递减函数}
  • m_n(x):单调回归的非参数LSE(最小二乘估计),由 argmin_{m∈ M} ∑ (Y_i - m(X_i))^2 得到。是分段常数的,收敛速率是 n^{-1/3}
  • m_{n,h}(x)SLSE (Smoothed Least Squares Estimator)。对 m_n 做核平滑:m_{n,h}(x) = ∫ Kh(x-u) m_n(u) du,其中 Kh(u) = h^{-1} K(u/h)K 是核,h = h_n → 0 是带宽。核心假设: 平滑后收敛速率提升到 n^{-1/2}
  • x0:要构造置信区间的一个内点,x0 ∈ (0,1)
  • (X_i, Y_i)i=1,...,n可观测数据X_i 是设计点(协变量),Y_i 是响应变量。假设 X_i ~ uniform(0,1)(或密度 f_X>0)。
  • p:光滑性阶数。假设 mx0 处有 p 阶导数(p ≥ 2)。这控制bias的阶。
  • K:核函数。阶数 p,对称、有界、支集 [-1,1]

  • 模型

    Y_i = m(X_i) + ε_i,    i = 1, ..., n
    
    其中:

  • m未知的,但已知单调非递减
  • ε_i 是独立的、均值为0、方差为 σ^2 的误差,与 X_i 独立。
  • 设计点 X_i 是随机的(或固定设计,但随机假设更容易处理)。

  • 可观测数据

  • 能观测到的(X_i, Y_i), i=1,...,n。这包含 n 个独立同分布的样本,其中 X_i 是在 [0,1] 上均匀分布(或至少密度为正的分布)的协变量,Y_i 是加噪声的观测。
  • 观测不到的:真实的回归函数 m(·),误差项 ε_i,以及潜在的对 m 的导数(m', m'' 等)。这些都是需要靠假设去识别/估计的。
  • 核心识别假设:由回归模型 E[Y|X] = m(X) 和单调性约束识别。不需要 m 是线性的,也不需要其他工具变量。这就是非参数回归的识别标准。

第二步:讲最小内核——为什么 n^{-1/3} 的LSE Bootstrap不一致,而SLSE是 n^{-1/2} 的?

最简特例:考虑最简情形 p = 2mx0 处有二阶导数),且 m''(x0) > 0mx0 局部严格凸)。目的是解释清楚内部机制。

  • LSE在 x0 处的行为
  • LSE m_n(x)x0 处的跳跃大小由 n^{-1/3} 阶的随机变差与 n^{-2/3} 阶的bias控制。更具体地,m_n(x0) 的渐近分布等于 (σ^2 m''(x0) / f_X(x0))^{1/3} * Argmax,其中 Argmax 是某个高斯过程(integrated two-sided Brownian motion)的argmax。这个极限分布不是正态的。
  • 非参数Bootstrap失败的原因是:当你在原始数据上做bootstrap(重抽样 (X_i, Y_i))时,你生成的bootstrap LSE m_n^* 会以 n^{-1/3} 收敛于bootstrap数据的真实函数(即原始的 m_n,它是一个跳跃不多的分段常数)。bootstrap LSE的极限是围绕 m_n 本身的 n^{-1/3} 随机变差,而原始LSE的极限是围绕真实 mn^{-1/3} 随机变差。两者做差后的极限分布不是零,而是完全没有弱收敛的(没有极限分布)。核心原因:m_n 的局部位置(跳跃点)本身也以 n^{-1/3} 的速度在漂移,bootstrap无法正确模拟这种局部几何的随机性。

  • SLSE的机制

  • 假设带宽 h = h_n = C * n^{-1/5}(与密度估计最优带宽同阶,因为 m_n 是分段常数,m_{n,h} 的性质本质上是在估计一个二阶光滑的函数)。
  • m_n 做核平滑:m_{n,h}(x0) = n^{-1} ∑_{i=1}^n W_i(x0) m_n(X_i),其中 W_i(x0) ≈ Kh(X_i - x0)/f_X(x0)。关键在于:平滑操作平均掉了LSE在单个点 X_i 上的 n^{-1/3} 随机变差。由于 \(m_n\)X_i 附近可以表示成 m(X_i) + O_p(n^{-1/3}),平滑后大数律生效,m_{n,h}(x0)n^{-1/2} 速率收敛到 ∫ Kh(u-x0) m(u) du = m(x0) + h^2 * m''(x0) * μ_2(K)/2 + o_p(h^2)
  • 这就是为什么SLSE能获得 n^{-1/2} 收敛。只要 h / n^{-1/2} → 0(比如 h = n^{-1/5}),SLSE就是 n^{-1/2} 一致的。
  • 渐近正态性n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V),其中方差 V 涉及 σ^2 / f_X(x0) 和核的积分 ∫ K^2一旦回到 n^{-1/2} 且正态,标准bootstrap就自动一致了——这是经典的bootstrap一致性定理的核心条件。

  • 总结:支撑整篇论文的最小内核是:平滑掉收敛快的估计量的局部波动,从而得到一个 n^{-1/2}判别收敛的信号,使得标准bootstrap回归一致性。 这个想法在密度估计(kernel density)中已经很常见,但应用到单调约束非参数LSE的推断上,是其独特之处。

三、这篇论文做了什么

  • 三句话总结
  • 研究了在单调回归中如何基于平滑最小二乘估计(SLSE),用标准bootstrap构造逐点置信区间。
  • 核心工具是通过核平滑(带宽 h = c n^{-1/5})将收敛速率从 n^{-1/3} 提升到 n^{-1/2},从而证明基于SLSE的bootstrap是 n^{-1/2} 一致(strongly consistent)的。
  • 主要结论:SLSE具有渐近正态分布;基于SLSE的bootstrap长度为置信区间与标准正态临界值对应,Studentization有效;同时给出了自动的带宽选择方法,并在current status模型上做了拓展。

  • 关键设定与假设

  • 设定:回归模型 Y_i = m(X_i) + ε_im[0,1] 上单调非递减,设计点 X_i 独立同分布,密度 f_X[0,1] 上处处大于0,且连续可微。误差项 ε_i 独立于 X_i,均值为0,方差为 σ^2 且有界四阶矩。
  • 假设(相比已有文献放宽或强化)
    • 放宽:不需要对 m 做全局光滑假设(只要求 m 在目标点 x0 处有二阶导数,且 m''(x0)>0)。这是相比用kernels直接平滑原始数据(Nadaraya-Watson)的优势,因为Nadaraya-Watson假设 m 二阶光滑,而这在单调约束下可能不成立(但 m 可以是分段线性或存在kinks)。
    • 强化:为了得到SLSE的 n^{-1/2} 速率和渐近正态性,作者要求 m_n(LSE)的逼近性质足够好,即 sup |m_n(x) - m(x)| = O_p(n^{-1/3})(这已被Groeneboom和Wellner证明)。更关键:需要带宽 h 满足 h ∝ n^{-1/5}(与最优带宽阶相同)且核为二阶核
  • 与Sen & Xu (2013/2015) 的关系:Sen & Xu 的平滑bootstrap方法在current status model的证明需要更复杂的假设(如bootstrap分布的一致 n^{-1/3} 逼近)。本文的SLSE的 n^{-1/2} 性质使得Bootstrap证明在技术上更简单,且可以在更弱的条件下工作。
  • 主要结果
    1. 定理1 (SLSE的渐近正态性):令 h = c n^{-1/5}K 是二阶核。则 n^{1/2} (m_{n,h}(x0) - m(x0) - h^2 * b(x0)) → N(0, V),其中 b(x0) = m''(x0) * μ_2(K) / 2 是渐进偏差,V = σ^2 / f_X(x0) * ∫ K^2。这直接给出了置信区间的理论支撑。技术难点:证明 m_{n,h}(x0) 的方差等于 n^{-1} * σ^2 / f_X(x0) * ∫ K^2 + o(n^{-1}),并且LSE的 n^{-1/3} 变差被平滑消耗掉。
    2. 定理2 (Bootstrap一致性):在定理1的假设下,基于SLSE的bootstrap估计量的分布(对每个 nB → ∞ 的bootstrap次数)收敛于 N(0, V)这证明了用Bootstrap的 m_{n,h}(x0) 分布的 (1-α) 分位数作为临界值是有效的。
    3. 定理3 (Studentization):用bootstrap样本计算出的方差估计 V_{n}^{boot},代入 (m_{n,h}(x0) - m(x0)) / sqrt(V_{n}^{boot}) 的分布,在假设下有渐近N(0,1)分布。Studentization对实际置信区间构造很重要,因为它使区间长度自适应于方差的变异性。
    4. 带宽选择(修正Sen & Xu):提出“双bootstrap”准则或使用“偏倚校正后的覆盖概率”目标准则来选择 h。具体为:先固定一个候选 h,对每个候选进行bootstrap,记录覆盖概率,选择使覆盖命中目标(如95%)的 h本文证明这个准则是可以一致估计的,纠正了Sen & Xu (2015) 中为保证名义水平所提出的原始准则中的错误。
  • 证明路线与技术技巧(理论型必写)
    • 整体路线(3步)
    • LSE的局部逼近:将LSE m_n(u)x0 附近的行为表示为 m(u) + n^{-1/3} * L_n(u) 加上高阶项(其中 L_n → G_nG_n 是某个高斯过程)。这一步是引用Groeneboom (1985)的已知结果。
    • 核平滑的方差-偏差分解:计算 m_{n,h}(x0) 的期望和方差。期望是 ∫ Kh(x0-u) m(u) du = m(x0) + h^2 * b(x0) + o(h^2)。方差是 Var[ ∫ Kh(x0-u) n^{-1/3} L_n(u) du ]关键跳跃: 证明 ∫ Kh(x0-u) n^{-1/3} L_n(u) du = n^{-1/2} * Z_n,其中 Z_n 是渐近正态的。这是通过将 L_n 展开成一个局部高斯过程的积分,然后使用随机积分的中心极限定理(或应用 Stein's method / coupling)证明的。具体来说,L_n(u) 的局部形状由 m''σ^2 控制,且对核的积分导致“平滑平均”效果,从而 n^{-1/3} * 平滑宽度 变成 n^{-1/2}
    • Bootstrap的一致性:因为bootstrap版本的 m_{n,h}(x0)^* 满足同样的渐近展开(只是原始函数 m 被替换为 m_n,但两者相差 O_p(n^{-1/3})),所以Bootstrap版本 n^{1/2}(m_{n,h}(x0)^* - m_n(x0)) 的分布也收敛于 N(0, V)这步直接套用了标准Bootstrap一致性理论中的“连续映射与Slutsky”论证,只要LSE的bootstrap是O_p(n^{-1/3})的即可。
    • 关键跳跃点
    • 最吃劲的地方是:证明 n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V) 时,如何控制LSE的 n^{-1/3} 随机变差最高阶项对核积分的贡献。 这需要证明核平滑后的LSE方差的阶正好是 n^{-1},而不是 n^{-2/3}。作者通过对LSE采用局部过程的Hoeffding分解(或者更确切地说,是局部U-统计量展开),证明 m_n(u) 中的那个 n^{-1/3} 项在卷积到核积分后,其方差被进一步“降阶”,达到了 n^{-1}
    • 技术技巧:使用的是局部过程分解(local process decomposition)和核平滑化技巧(smoothing kernel trick)。“局部过程分解”使在 x0 附近的LSE的性质可以用一个高斯过程来逼近。“核平滑化”将这个过程做了一次加权平均,使得积分后的过程具有更大的有效样本量。
  • 真实例子与应用(有就一定要讲)
    • 用的什么数据/场景:论文用了一个模拟数据集一个真实数据集(土壤数据)。模拟:m(x) = x^2,误差均匀分布,样本量 n = 100。真实数据集:CHICKWEIGHT 数据(小鸡体重随时间增长)。对数据假设单调非递减(年轻小鸡体重总体增加)。
    • 怎么把本文方法用上去:对 CHICKWEIGHT 数据,先做单调LSE,再选 h = 0.15(通过双bootstrap选择),构造了 m(t)t=6,8,... 周龄的逐点95% bootstrap置信区间。
    • 得到什么结果
    • 模拟中,SLSE-bootstrap置信区间的覆盖概率接近95%,而标准的非参数bootstrap(基于LSE)覆盖概率显著偏低(约80%)。
    • CHICKWEIGHT 数据中,置信区间与Nadaraya-Watson估计器的置信区间长度相近,且包含数据的大部分点。
    • 这个例子想说明什么
    • 验证理论:模拟覆盖概率证实了理论所承诺 n^{-1/2} 渐近正态性在实际有限样本中也是可实现的。
    • 展示相对baseline的优势:与Nadaraya-Watson相比,SLSE保持了单调约束的合理性(Nadaraya-Watson估计不保证单调,可能会产生反直觉的下降),同时置信区间长度相近,表明其不牺牲效率来换取形状约束。
  • 🔎 结论是否比证明窄
    • 是的,有明显的窄处:本文的SLSE的渐近正态性是在 仅对 mx0 点光滑(p=2) 时严格证明的。但作者在结论(Summary)中宣称:“它适用于一般的单调回归”。实际上,作者只是假设了 mC^2 的(即有界二阶导数),这是一个较温和但并非‘一般’的条件。mx0 只有一阶导数,则核平滑可能无法获得 n^{-1/2} 速率,bootstrap可能退化。因此,‘一般’这个词可能只是对光滑性阶数的一种放松(即不要求更高阶导),但对 m 的光滑性要求依然存在(至少 C^1 且导数非零)。

四、开放问题(点到为止,扎根具体语句)

  1. 验证数值性能是否始终匹配理论:SLSE的bootstrap在小样本低噪声情形的实际表现(覆盖率、区间长度)是否匹配 n^{-1/2} 渐近理论?理论上的“一致”在 n=30 可能已失效,作者本人也在模拟中使用了 n=100Fig 1 的说明)。扎根点:模拟部分的样本量选择(文中未给出小样本 n<50 的模拟)。
  2. 是否适用于额外的光滑性(p>2):本文假设p=2(核的二阶核)。若真实函数 m 具有更高的光滑性(如三次样条),能否使用更高阶核使收敛速率更快(如 n^{-2/3}n^{-4/5})?若可以,Bootstrap是否仍然一致?或者需要重新Studentization?扎根点:假设1(smoothness)和 核函数K的阶次说明(只用了二阶核)。
  3. 全局推断(simultaneous confidence bands)是否可行:本文只处理了逐点置信区间。能否构造如 sup_{x∈[a,b]} |m_{n,h}(x) - m(x)|均匀(simultaneous) 置信带?这可能需要对SLSE的收敛做更精细的随机过程分析(如 n^{-1/2} 收敛的一致性过程,使用bootstrap的管引理)。扎根点:结论部分最后一句未提及任何均匀推断。
  4. 与其他非标准收敛速率问题的联系:本文的SLSE核心思想——“对收敛速率为 n^{-α}(α<1/2)的估计量做核平滑,获得 n^{-1/2} 后做bootstrap”——能否推广到其他形状约束推断问题(如单调密度估计、凸回归、L-estimators with non-root-n rate)?扎根点:Introduction的最后一句话:“Our method can be adapted to a wider class of non-smooth estimators...”但作者未在此列出具体例子。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论