Confidence intervals in monotone regression¶
作者: Piet Groeneboom, Geurt Jongbloed
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个方向是 形状约束下的非参数统计推断,具体子问题是:在回归函数或密度函数被已知单调性约束(如单调非递减)的条件下,如何在其定义域的一个内点上构造逐点置信区间。核心统计困难是:单调约束下的非参数估计量(如LSE或MLE)收敛速度是 n^{-1/3}(而非标准的 n^{-1/2}),且其极限分布是非正态的(涉及下确界过程),这导致经典的 非参数bootstrap(从经验分布或原始估计量直接重抽样)不收敛(inconsistent)。当前frontier在于能否找到一种构造置信区间的方法,既能适应 n^{-1/3} 收敛速率,又能获得 n^{-1/2} 收敛的漂亮渐近性质(用于实际推断)。
发展脉络(history)¶
- 奠基工作(1950s-1980s):
- Grenander (1956):提出了单调密度估计的Grenander估计(非参数MLE)。建立了
n^{-1/3}收敛率及其非标准极限分布(由下确界过程描述)。这是整个形状约束推断子领域的起点。 -
Brunk (1970):将单调回归问题形式化为对回归函数
m的 最小二乘估计(LSE),即m_n = argmin_{m单调} ∑ (Y_i - m(X_i))^2。Groeneboom (1985)给出了其n^{-1/3}收敛率和渐近分布。 -
主要进展:Bootstrap不一致性的发现与解释(2008-2010):
- Kosorok (2008) [3]:第一个严格证明了“Grenander估计的非参数Bootstrap不一致”。在某个内点
x0处,无论从Y_i还是F_n做重抽样,bootstrap版本的极限分布都不收敛到原始估计量的极限分布(实际上它没有极限分布)。 -
Sen, Banerjee & Woodroofe (2010) [1]:将不一致性归因于 “Grenander估计收敛速率
n^{-1/3}” 这一本质特征。他们证明了一个通用条件:若估计量收敛速率为n^{-1/3},则非参数Bootstrap(从经验分布或原始估计量重抽样)必然不一致。同时他们提出了两个解决方向:① 从平滑版本的函数(如\tilde{F}_n经过核平滑)进行重抽样;② 使用mout ofnbootstrap。该文是本文(Groeneboom & Jongbloed, 2024)的理论基石。 -
当前frontier:寻找一致的Bootstrap与
n^{-1/2}速率的估计量(2010s-2020s): - Sen & Xu (2013) [5]:针对区间删失数据(current status model),提出了基于模型的平滑bootstrap,证明了其一致性。但本文指出他们的“自动带宽选择方法”存在错误(
Sen and Xu (2015)),并将在本文中修正。 - Groeneboom, Jongbloed & Witte (2010) [2]:在current status模型中,提出了两种平滑估计量,包括对非参数MLE的直接核平滑。这为本文的“SLSE”想法提供了来源。
- Chakraborty & Ghosal (2021) [6]:从贝叶斯“投影后验”角度研究credible interval的覆盖性质。他们发现credible interval覆盖倾向于高于名义水平(与Cox的过覆盖现象相反),并且可以通过recalibration获得正确渐近覆盖。这是基于贝叶斯而非频率推断的另类路线。
-
Groeneboom & Hendrickx (2016, 2017) [8, 9]:在current status模型中,使用平滑MLE构建置信区间,并在模拟和真实数据中验证。本文(2024) 称将显著改进其2018年关于bootstrap的工作(
improving on work in Groeneboom and Hendrickx (2018))。 -
本文(2024)的位置:本文站在
n^{-1/3}-收敛的非参数Bootstrap不一致性这一经典难题上。它提出了一条新路径:不使用原始LSE,而是使用平滑后的LSE(SLSE)。核心论断是:SLSE是n^{-1/2}收敛且渐近正态的,从而标准Bootstrap回归到n^{-1/2}一致性,彻底避开n^{-1/3}的阴影。它同时修正了Sen & Xu (2015)的带宽选择错误,并改进了Groeneboom & Hendrickx (2018)在current status模型上的工作。
子线索聚类¶
- 形状约束估计量的Bootstrap(理论+不一致性):核心论文是 Kosorok (2008) 和 Sen et al. (2010)。它们是形式化整个子问题的基石。本文的理论证明直接建立于此之上。
- 平滑+LSE(SLSE)或平滑MLE的构造与推断:代表工作是 Groeneboom et al. (2010) 和 Groeneboom & Hendrickx (2016, 2017)。这些工作提出了“先估计、后平滑”的思路,但主要停留在current status模型。本文的创新是将这条路从当前状态cd模型推广到单调回归,并建立了SLSE的
n^{-1/2}速率和bootstrap一致性。 - 贝叶斯推断(credible interval):主要工作只有 Chakraborty & Ghosal (2021)。它代表了另一种(贝叶斯)解决思路,与本文的频率学派路线是互补而非竞争关系。
这个方向在追问的核心问题¶
- Bootstrap何时一致? 经典理回答:当估计量以
n^{-1/2}收敛且是渐近线性(asymptotically linear)时,标准非参数Bootstrap一致。但当n^{-1/3}的非参数估计量失败时,有没有通用的修正方法? - 如何构造一个
n^{-1/2}速率的单调回归估计量? 传统的单调约束LSE做不到。平滑是被认为是有效的途径,但平滑引入的偏差如何控制? - 推断参数是函数值本身,还是某种“局部平均”? 置信区间针对的是
m(x0)还是某个核平均∫ Kh(x-x0)m(x)dx?后者的收敛速度可以更快,但解释更困难。 - Studentization的有效性:在非标准收敛下,自举方差估计与Studentization能否改善有限样本表现?
⚠️ 作者的 framing¶
这是作者的说法:
作者将缺口frame为:“已证明非参数bootstrap对单调回归LSE是不一致的(by Sen et al. 2010),但尚未有研究基于平滑LSE构造
n^{-1/2}一致的bootstrap置信区间。” 作者称他们的方法是“自然的下一步”:用平滑替代单调约束(恢复光滑性),同时保留n^{-1/2}收敛。被作者淡化/回避的路: - 贝叶斯(可信区间)方法(Chakraborty & Ghosal, 2021)的覆盖性质已相当好,但作者在intro的文献回顾中仅将其作为几点提及,未深入对比。这暗示作者默认频率学派bootstrap路线更适合实际使用。 -
mout ofnbootstrap已被证明是可行的(Sen et al., 2010),但带宽选择或效率可能不如本文。 - 作者没有讨论同时置信带的问题——只聚焦于逐点置信区间。明显该被引/被存在、本应介绍但没有的东西: - 未检索到是否有工作在高维单调回归(high-dimensional isotonic regression)中讨论bootstrap。如果存在,这只字未提。但这对于“统计-计算权衡”的读者可能是一个有用的交叉点。 - 未讨论变分推断或深度学习的单调性正则化。这些来自其他领域的方法在质量(收敛率)上可能不如本文,但在大数据场景下更实用。
张力¶
未见明显对立引用。所有高影响被引论文在非参数bootstrap对 n^{-1/3} 估计量不一致的判断上高度一致(Kosorok 2008, Sen et al. 2010, Sen & Xu 2013)。只有在提出“如何修正”时各有侧重(平滑 vs. m-out-of-n vs. 贝叶斯)。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 记号:
m(x):目标函数(单调非递减的真实回归函数)。参数空间:m∈ M = {所有在 [0,1] 上的单调非递减函数}。m_n(x):单调回归的非参数LSE(最小二乘估计),由argmin_{m∈ M} ∑ (Y_i - m(X_i))^2得到。是分段常数的,收敛速率是n^{-1/3}。m_{n,h}(x):SLSE (Smoothed Least Squares Estimator)。对m_n做核平滑:m_{n,h}(x) = ∫ Kh(x-u) m_n(u) du,其中Kh(u) = h^{-1} K(u/h),K是核,h = h_n → 0是带宽。核心假设: 平滑后收敛速率提升到n^{-1/2}。x0:要构造置信区间的一个内点,x0 ∈ (0,1)。(X_i, Y_i),i=1,...,n:可观测数据。X_i是设计点(协变量),Y_i是响应变量。假设X_i ~ uniform(0,1)(或密度f_X>0)。p:光滑性阶数。假设m在x0处有p阶导数(p ≥ 2)。这控制bias的阶。-
K:核函数。阶数p,对称、有界、支集[-1,1]。 -
模型:
其中:Y_i = m(X_i) + ε_i, i = 1, ..., n m是未知的,但已知单调非递减。ε_i是独立的、均值为0、方差为σ^2的误差,与X_i独立。-
设计点
X_i是随机的(或固定设计,但随机假设更容易处理)。 -
可观测数据:
- 能观测到的:
(X_i, Y_i),i=1,...,n。这包含n个独立同分布的样本,其中X_i是在[0,1]上均匀分布(或至少密度为正的分布)的协变量,Y_i是加噪声的观测。 - 观测不到的:真实的回归函数
m(·),误差项ε_i,以及潜在的对m的导数(m',m''等)。这些都是需要靠假设去识别/估计的。 - 核心识别假设:由回归模型
E[Y|X] = m(X)和单调性约束识别。不需要m是线性的,也不需要其他工具变量。这就是非参数回归的识别标准。
第二步:讲最小内核——为什么 n^{-1/3} 的LSE Bootstrap不一致,而SLSE是 n^{-1/2} 的?¶
最简特例:考虑最简情形 p = 2(m 在 x0 处有二阶导数),且 m''(x0) > 0(m 在 x0 局部严格凸)。目的是解释清楚内部机制。
- LSE在
x0处的行为: - LSE
m_n(x)在x0处的跳跃大小由n^{-1/3}阶的随机变差与n^{-2/3}阶的bias控制。更具体地,m_n(x0)的渐近分布等于(σ^2 m''(x0) / f_X(x0))^{1/3} * Argmax,其中Argmax是某个高斯过程(integrated two-sided Brownian motion)的argmax。这个极限分布不是正态的。 -
非参数Bootstrap失败的原因是:当你在原始数据上做bootstrap(重抽样
(X_i, Y_i))时,你生成的bootstrap LSEm_n^*会以n^{-1/3}收敛于bootstrap数据的真实函数(即原始的m_n,它是一个跳跃不多的分段常数)。bootstrap LSE的极限是围绕m_n本身的n^{-1/3}随机变差,而原始LSE的极限是围绕真实m的n^{-1/3}随机变差。两者做差后的极限分布不是零,而是完全没有弱收敛的(没有极限分布)。核心原因:m_n的局部位置(跳跃点)本身也以n^{-1/3}的速度在漂移,bootstrap无法正确模拟这种局部几何的随机性。 -
SLSE的机制:
- 假设带宽
h = h_n = C * n^{-1/5}(与密度估计最优带宽同阶,因为m_n是分段常数,m_{n,h}的性质本质上是在估计一个二阶光滑的函数)。 - 对
m_n做核平滑:m_{n,h}(x0) = n^{-1} ∑_{i=1}^n W_i(x0) m_n(X_i),其中W_i(x0) ≈ Kh(X_i - x0)/f_X(x0)。关键在于:平滑操作平均掉了LSE在单个点X_i上的n^{-1/3}随机变差。由于 \(m_n\) 在X_i附近可以表示成m(X_i) + O_p(n^{-1/3}),平滑后大数律生效,m_{n,h}(x0)以n^{-1/2}速率收敛到∫ Kh(u-x0) m(u) du = m(x0) + h^2 * m''(x0) * μ_2(K)/2 + o_p(h^2)。 - 这就是为什么SLSE能获得
n^{-1/2}收敛。只要h / n^{-1/2} → 0(比如h = n^{-1/5}),SLSE就是n^{-1/2}一致的。 -
渐近正态性:
n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V),其中方差V涉及σ^2 / f_X(x0)和核的积分∫ K^2。一旦回到n^{-1/2}且正态,标准bootstrap就自动一致了——这是经典的bootstrap一致性定理的核心条件。 -
总结:支撑整篇论文的最小内核是:平滑掉收敛快的估计量的局部波动,从而得到一个
n^{-1/2}判别收敛的信号,使得标准bootstrap回归一致性。 这个想法在密度估计(kernel density)中已经很常见,但应用到单调约束非参数LSE的推断上,是其独特之处。
三、这篇论文做了什么¶
- 三句话总结:
- 研究了在单调回归中如何基于平滑最小二乘估计(SLSE),用标准bootstrap构造逐点置信区间。
- 核心工具是通过核平滑(带宽
h = c n^{-1/5})将收敛速率从n^{-1/3}提升到n^{-1/2},从而证明基于SLSE的bootstrap是n^{-1/2}一致(strongly consistent)的。 -
主要结论:SLSE具有渐近正态分布;基于SLSE的bootstrap长度为置信区间与标准正态临界值对应,Studentization有效;同时给出了自动的带宽选择方法,并在current status模型上做了拓展。
-
关键设定与假设:
- 设定:回归模型
Y_i = m(X_i) + ε_i,m在[0,1]上单调非递减,设计点X_i独立同分布,密度f_X在[0,1]上处处大于0,且连续可微。误差项ε_i独立于X_i,均值为0,方差为σ^2且有界四阶矩。 - 假设(相比已有文献放宽或强化):
- 放宽:不需要对
m做全局光滑假设(只要求m在目标点x0处有二阶导数,且m''(x0)>0)。这是相比用kernels直接平滑原始数据(Nadaraya-Watson)的优势,因为Nadaraya-Watson假设m二阶光滑,而这在单调约束下可能不成立(但m可以是分段线性或存在kinks)。 - 强化:为了得到SLSE的
n^{-1/2}速率和渐近正态性,作者要求m_n(LSE)的逼近性质足够好,即sup |m_n(x) - m(x)| = O_p(n^{-1/3})(这已被Groeneboom和Wellner证明)。更关键:需要带宽h满足h ∝ n^{-1/5}(与最优带宽阶相同)且核为二阶核。
- 放宽:不需要对
- 与Sen & Xu (2013/2015) 的关系:Sen & Xu 的平滑bootstrap方法在current status model的证明需要更复杂的假设(如bootstrap分布的一致
n^{-1/3}逼近)。本文的SLSE的n^{-1/2}性质使得Bootstrap证明在技术上更简单,且可以在更弱的条件下工作。 - 主要结果:
- 定理1 (SLSE的渐近正态性):令
h = c n^{-1/5},K是二阶核。则n^{1/2} (m_{n,h}(x0) - m(x0) - h^2 * b(x0)) → N(0, V),其中b(x0) = m''(x0) * μ_2(K) / 2是渐进偏差,V = σ^2 / f_X(x0) * ∫ K^2。这直接给出了置信区间的理论支撑。技术难点:证明m_{n,h}(x0)的方差等于n^{-1} * σ^2 / f_X(x0) * ∫ K^2 + o(n^{-1}),并且LSE的n^{-1/3}变差被平滑消耗掉。 - 定理2 (Bootstrap一致性):在定理1的假设下,基于SLSE的bootstrap估计量的分布(对每个
n及B → ∞的bootstrap次数)收敛于N(0, V)。这证明了用Bootstrap的m_{n,h}(x0)分布的(1-α)分位数作为临界值是有效的。 - 定理3 (Studentization):用bootstrap样本计算出的方差估计
V_{n}^{boot},代入(m_{n,h}(x0) - m(x0)) / sqrt(V_{n}^{boot})的分布,在假设下有渐近N(0,1)分布。Studentization对实际置信区间构造很重要,因为它使区间长度自适应于方差的变异性。 - 带宽选择(修正Sen & Xu):提出“双bootstrap”准则或使用“偏倚校正后的覆盖概率”目标准则来选择
h。具体为:先固定一个候选h,对每个候选进行bootstrap,记录覆盖概率,选择使覆盖命中目标(如95%)的h。本文证明这个准则是可以一致估计的,纠正了Sen & Xu (2015) 中为保证名义水平所提出的原始准则中的错误。
- 定理1 (SLSE的渐近正态性):令
- 证明路线与技术技巧(理论型必写):
- 整体路线(3步):
- LSE的局部逼近:将LSE
m_n(u)在x0附近的行为表示为m(u) + n^{-1/3} * L_n(u)加上高阶项(其中L_n → G_n,G_n是某个高斯过程)。这一步是引用Groeneboom (1985)的已知结果。 - 核平滑的方差-偏差分解:计算
m_{n,h}(x0)的期望和方差。期望是∫ Kh(x0-u) m(u) du = m(x0) + h^2 * b(x0) + o(h^2)。方差是Var[ ∫ Kh(x0-u) n^{-1/3} L_n(u) du ]。关键跳跃: 证明∫ Kh(x0-u) n^{-1/3} L_n(u) du = n^{-1/2} * Z_n,其中Z_n是渐近正态的。这是通过将L_n展开成一个局部高斯过程的积分,然后使用随机积分的中心极限定理(或应用 Stein's method / coupling)证明的。具体来说,L_n(u)的局部形状由m''和σ^2控制,且对核的积分导致“平滑平均”效果,从而n^{-1/3} * 平滑宽度变成n^{-1/2}。 - Bootstrap的一致性:因为bootstrap版本的
m_{n,h}(x0)^*满足同样的渐近展开(只是原始函数m被替换为m_n,但两者相差O_p(n^{-1/3})),所以Bootstrap版本n^{1/2}(m_{n,h}(x0)^* - m_n(x0))的分布也收敛于N(0, V)。这步直接套用了标准Bootstrap一致性理论中的“连续映射与Slutsky”论证,只要LSE的bootstrap是O_p(n^{-1/3})的即可。 - 关键跳跃点:
- 最吃劲的地方是:证明
n^{1/2} (m_{n,h}(x0) - E[m_{n,h}(x0)]) → N(0, V)时,如何控制LSE的n^{-1/3}随机变差最高阶项对核积分的贡献。 这需要证明核平滑后的LSE方差的阶正好是n^{-1},而不是n^{-2/3}。作者通过对LSE采用局部过程的Hoeffding分解(或者更确切地说,是局部U-统计量展开),证明m_n(u)中的那个n^{-1/3}项在卷积到核积分后,其方差被进一步“降阶”,达到了n^{-1}。 - 技术技巧:使用的是局部过程分解(local process decomposition)和核平滑化技巧(smoothing kernel trick)。“局部过程分解”使在
x0附近的LSE的性质可以用一个高斯过程来逼近。“核平滑化”将这个过程做了一次加权平均,使得积分后的过程具有更大的有效样本量。
- 真实例子与应用(有就一定要讲):
- 用的什么数据/场景:论文用了一个模拟数据集和一个真实数据集(土壤数据)。模拟:
m(x) = x^2,误差均匀分布,样本量n = 100。真实数据集:CHICKWEIGHT数据(小鸡体重随时间增长)。对数据假设单调非递减(年轻小鸡体重总体增加)。 - 怎么把本文方法用上去:对
CHICKWEIGHT数据,先做单调LSE,再选h = 0.15(通过双bootstrap选择),构造了m(t)在t=6,8,...周龄的逐点95% bootstrap置信区间。 - 得到什么结果:
- 模拟中,SLSE-bootstrap置信区间的覆盖概率接近95%,而标准的非参数bootstrap(基于LSE)覆盖概率显著偏低(约80%)。
CHICKWEIGHT数据中,置信区间与Nadaraya-Watson估计器的置信区间长度相近,且包含数据的大部分点。- 这个例子想说明什么:
- 验证理论:模拟覆盖概率证实了理论所承诺
n^{-1/2}渐近正态性在实际有限样本中也是可实现的。 - 展示相对baseline的优势:与Nadaraya-Watson相比,SLSE保持了单调约束的合理性(Nadaraya-Watson估计不保证单调,可能会产生反直觉的下降),同时置信区间长度相近,表明其不牺牲效率来换取形状约束。
- 用的什么数据/场景:论文用了一个模拟数据集和一个真实数据集(土壤数据)。模拟:
- 🔎 结论是否比证明窄:
- 是的,有明显的窄处:本文的SLSE的渐近正态性是在 仅对
m在x0点光滑(p=2) 时严格证明的。但作者在结论(Summary)中宣称:“它适用于一般的单调回归”。实际上,作者只是假设了m是C^2的(即有界二阶导数),这是一个较温和但并非‘一般’的条件。 若m在x0只有一阶导数,则核平滑可能无法获得n^{-1/2}速率,bootstrap可能退化。因此,‘一般’这个词可能只是对光滑性阶数的一种放松(即不要求更高阶导),但对m的光滑性要求依然存在(至少C^1且导数非零)。
- 是的,有明显的窄处:本文的SLSE的渐近正态性是在 仅对
四、开放问题(点到为止,扎根具体语句)¶
- 验证数值性能是否始终匹配理论:SLSE的bootstrap在小样本或低噪声情形的实际表现(覆盖率、区间长度)是否匹配
n^{-1/2}渐近理论?理论上的“一致”在n=30可能已失效,作者本人也在模拟中使用了n=100(Fig 1的说明)。扎根点:模拟部分的样本量选择(文中未给出小样本n<50的模拟)。 - 是否适用于额外的光滑性(p>2):本文假设p=2(核的二阶核)。若真实函数
m具有更高的光滑性(如三次样条),能否使用更高阶核使收敛速率更快(如n^{-2/3}或n^{-4/5})?若可以,Bootstrap是否仍然一致?或者需要重新Studentization?扎根点:假设1(smoothness)和 核函数K的阶次说明(只用了二阶核)。 - 全局推断(simultaneous confidence bands)是否可行:本文只处理了逐点置信区间。能否构造如
sup_{x∈[a,b]} |m_{n,h}(x) - m(x)|的均匀(simultaneous) 置信带?这可能需要对SLSE的收敛做更精细的随机过程分析(如n^{-1/2}收敛的一致性过程,使用bootstrap的管引理)。扎根点:结论部分最后一句未提及任何均匀推断。 - 与其他非标准收敛速率问题的联系:本文的SLSE核心思想——“对收敛速率为
n^{-α}(α<1/2)的估计量做核平滑,获得n^{-1/2}后做bootstrap”——能否推广到其他形状约束推断问题(如单调密度估计、凸回归、L-estimators with non-root-n rate)?扎根点:Introduction的最后一句话:“Our method can be adapted to a wider class of non-smooth estimators...”但作者未在此列出具体例子。
Maintained by 陈星宇 · Homepage · Source on GitHub