Cramér type moderate deviations for the Grenander estimator near the boundaries of the support¶

作者: Fuqing Gao, Hui Jiang, Xingqiu Zhao
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: https://doi.org/10.3150/22-bej1566

一、领域脉络与小综述¶

这个方向是什么¶

本方向聚焦于递减密度函数的非参数最大似然估计——Grenander 估计——在支撑边界附近的性质。核心问题是：由于估计量在边界处不一致，传统的全局或局部偏差度量（如 Kolmogorov-Smirnov 距离）会失效，因此需要更精细的尾概率理论来刻画边界附近估计量的波动。当前该子方向的理论已进入“精确渐近”阶段，而本文则推动其进入 Cramér 型中偏差的范畴——这不仅是对中心极限定理的推广（从正常尾部到指数尾部），更直接支撑了在边界处构建置信区间或做假设检验时的有限样本精度。

发展脉络¶

奠基工作（1960s-1970s） : Grenander (1956) 提出递减密度的非参数 MLE，但直到 Prakasa Rao (1969) 才给出其在内部点（非边界）的渐近正态性，收敛速率为 \(n^{1/3}\)，极限分布为三重切分布。这一阶段确立了 Grenander 估计的“立方根 \(n\)”收敛率，但边界行为完全未处理。
主要进展（1980s-1990s） : Woodroofe & Sun (1993) 正式指出 Grenander 估计在支撑边界处不一致（即估计量无法均匀收敛到真密度），这直接导致后续所有基于全局偏差度量的结论（如 Kolmogorov 型）都必须谨慎处理。Kim & Pollard (1990) 发展了凸函数估计的一般理论，Grenander 估计作为特例获得了一套完整的经验过程框架，但其焦点在内部点，边界的特殊困难仍被回避。Kiefer & Wolfowitz (1976) 的强逼近工作为后来的精细尾概率理论提供了工具基础。
当前 frontier（2000s 至今） : 文献开始从“存在的收敛结果”转向“具体速率与精确常数”。例如，Gao & Zhao (2011) 建立了 Grenander 估计的 Cramér 型中偏差（在内部点），而本文则将其搬运到边界区域。Shao (1995) 关于自正则和的中偏差工作提供了比较方法的模板。本文的位置就在于此：将中偏差理论从 Grenander 估计划分为内部点（已有 Gao & Zhao 2011）与边界点（本文）的两个互补框架。

子线索聚类¶

被引文献大致落在三簇：

极限分布理论：Kim & Pollard (1990)、Groeneboom (1985, 1989) 等，给出 Grenander 估计在内部点的三重切极限分布，但仅限内部点，且无指数尾概率。
偏差度量与全局性质：Durot & Tocquet (2003)、Beirlant & Devroye (1999) 等，处理 Grenander 估计的 \(L_1\) 或 sup-norm 收敛，但边界处的非一致性使这些结果要么回避边界，要么需要修正。
中偏差理论：Gao & Zhao (2011) 是本文的直接前身，处理内部点的 Cramér 型中偏差；Shao (1995) 提供一般性的比较方法；而本文使用的强逼近技术（Kiefer 过程、O'Reilly 不等式）则来自 Kiefer (1970) 和 Csörgő & Révész (1981) 的经典工作。

核心追问与瓶颈¶

问题1：Grenander 估计在边界附近的具体偏差速率——简单说，估计量的尾概率何时能被指数边界控制，何时只能慢收敛？
问题2：能否将 Cramér 型中偏差（tail probability 被正态尾均匀控制）从内部点推广到边界，从而支撑边界处的检验与置信带？
瓶颈：边界处的“立方根 \(n\)”局部收敛速率与“\(n^{-1/3}\)”邻域内的强逼近难以获得指数精确的尾概率。现有的中心极限定理只能给出粗糙的收敛保证。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者的说法：作者将缺口 frame 为“虽然内部点的 Cramér 型中偏差已由 Gao & Zhao (2011) 等解决，但边界处的等同结果因不一致性而根本更困难、且未被处理”。因此本文是“显然的下一步”。作者回避了全局连续性的问题——即能否将边界中偏差与内部中偏差拼接出一个全支撑的均匀中偏差结果。此外，对于多元 \(g\)（如凸函数或凹函数在边界附近），或对于核光滑而非 MLE 的估计量，intro 中完全未提及。什么明显该被引 / 该存在、却没出现在 intro 里？ 一是关于单调回归的边界中偏差（评论缺失），二是关于经验分布函数在端点处的中偏差（这通常是处理边界问题的自然比较对象）。这两条的缺席意味着作者可能刻意限制了比较范围。

张力¶

未见明显对立引用。现有文献一致承认边界不一致性是一个困难，而 Gao & Zhao (2011) 与本文互相补充，无冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
\(X_1, \dots, X_n\): i.i.d. 样本，密度 \(f\)。
\(f\)：真实的递减密度函数，支撑在 \([a,b]\)（假设 \(a < b\)，有限或无穷）。
\(F\): 对应的分布函数。
\(\hat{f}_n\): Grenander 估计（非参数 MLE），由下定义：\(\hat{f}_n = \arg\max_{h \text{ decreasing}} \prod_{i=1}^n h(X_i)\)，等价于对经验分布函数 \(F_n\) 的最大凹化（least concave majorant）：\(\hat{f}_n(x) =\) 最大凹化 \(F_n\) 在 \(x\) 处的左导数。这是 Grenander (1956) 的经典构造。
\(x\): 我们感兴趣的估计点，可以在支撑内部或边界近处。
\(n\): 样本量。
\(r_n\): 局部尺度参数 = \(n^{1/3}\)（因为收敛速率为 \(n^{-1/3}\)）。
\(\alpha_n\): 正参数，控制“边界近处”的量级——例如，\(x = a + n^{-1/3} t\)，其中 \(t\) 为固定常数。
参数/estimand：\(f(x)\)——真密度在点 \(x\) 处的值。
随机变量/样本：\(X_i \sim f\)，可观测。
潜在/不可观测：真密度 \(f\) 及其导数（仅由假设约束，非直接观测）；Grenander 估计的极限分布（三重切分布）是理论构造，不可直接观测。
模型：
数据生成机制：\(X_i \stackrel{i.i.d.}{\sim} f\)，其中 \(f\) 在支撑 \([a,b]\) 上递减、右连续、\(\int f = 1\)。
未知参数：\(f\) 本身（无穷维参数）。我们要估计它。
已知结构：递减性（无其他参数结构）。
可观测数据：
独立同分布样本 \(X_1,\dots,X_n\)。
由此可构造经验分布函数 \(F_n\)，以及 Grenander 估计 \(\hat{f}_n\)。
不可直接观测：真密度 \(f\) 的任何函数，真分布 \(F\)，以及任何潜在的“误差”项（如 Brownian 桥）。

第二步：最小内核¶

最简特例：假设支撑为 \([0,1]\)，密度 \(f\) 在左端点 0 附近连续且 \(f(0)>0\)，\(f'(0^-)\) 有限负（即下降速率在边界不爆炸）。我们只关心在左边界近处（例如 \(x_n = n^{-1/3}\) 量级）的 \(\hat{f}_n(x_n) - f(x_n)\) 的分布。在这个特例下，论文的核心结论退化为：

【最小命题】 设 \(t\) 为固定正常数。令 \(x = n^{-1/3} t\)。则当 \(n \to \infty\) 时，

\[\mathbb{P}\left( \frac{\hat{f}_n(x) - f(x)}{f(x) n^{-1/3}} > z \right) \sim \mathbb{P}(W > z) \cdot \exp\left( n^{2/3} \theta(z) \right)\]

其中 \(W\) 是三重切分布的左边界版本（对应边界处的极限分布），\(\theta(z)\) 是某个已知二次型，控制了偏差的中偏差速率。更具体地，本文证明：存在常数 \(C>0\) 使得对所有 \(n\) 足够大，\(z\) 在某个窗口内，

\[\left| \frac{\mathbb{P}(\hat{f}_n(x) - f(x) > z \cdot n^{-1/3})}{\mathbb{P}(W > z)} - 1 \right| \leq C \cdot n^{-1/3} \log n.\]

为什么这是一个“最小内核”：剥去了所有连接多个边界点或多个参数的一般性假设。核心思路：

强逼近：将经验分布函数 \(F_n\) 近似为 \(F_n(x) \approx F(x) + n^{-1/2} B_n(F(x))\)，其中 \(B_n\) 是 Brownian 桥。
局部线性化：在边界邻域，递减性使得 Grenander 估计 \(\hat{f}_n(x)\) 约等于 \(F_n\) 的局部线性凹包络的斜率。
比较方法：通过 Girsanov 定理或 Bryc (1993) 的分解，将 \(\hat{f}_n\) 的尾概率与 Brownian 桥通过凸化后产生的“双斜率”的尾概率相比，后者满足精确的 Cramér 型中偏差。
误差控制：强逼近的误差（Kiefer 过程界）加上局部凹化在边界处的额外偏差，被 O'Reilly 不等式控制，最终得到均匀的指数尾比较。

目标：读完这一节，读者应明白——论文在数学上干的事就是：将 Grenander 估计在边界处的尾概率（指数型）与一个完全显式的极限过程（三重切分布）的尾概率进行均匀比较，并给出误差项（\(n^{-1/3} \log n\)）。它不是要证明 Grenander 估计一致，而是给这个不一致的估计量一个可用的尾概率工具。

三、这篇论文做了什么¶

三句话¶

研究问题：建立了递减密度 Grenander 估计在支撑边界附近的 Cramér 型中偏差——即估计量尾概率与极限分布（三重切过程的边界部分）之间的均匀指数型比较。
核心工具与方法：强逼近技术（用 Brownian 桥近似经验分布）、比较方法（将 \(d_n\) 的尾概率与已知过程比较）、以及局部线性化与凹包络分析。
主要结论：得到了比普通科尔莫戈罗夫-斯米尔诺夫结果更精细的尾概率等值，指数衰减速率以 uniform 形式给出，误差项为 \(O(n^{-1/3} \log n)\)。

关键设定与假设¶

衰减密度 \(f\)：\(f\) 在支撑 \(S=[a,b]\)（\(a\) 可为 0）上递减、右连续，且 \(\int f = 1\)。
支撑假设：\(S\) 不包含孤立点，\(a\) 是左端点，满足 \(f(a-)=0, f(a+)>0\)（即左端点开口、右连续）。右端点 \(b\) 类似处理，但因对称性工作可按对称方式重复。
边界光滑性假设：\(f\) 在 \(a\) 处连续，且 \(f'(a)\) 存在且有限负（即等价于 \(f(x) \sim f(0) - \alpha x\)，在 \(x\to 0^+\)）。这个“局部线性”条件对保证三重切分布的边界版本显式是关键。 相比已有文献中内部点所需的二阶可微性，这是更弱的假设。
内部正则性：对任意内部点 \(x\)，\(f\) 在某个开邻域内是 Lipschitz 连续且正的。此假设源自 Kim & Pollard (1990)。
相比已强化/放宽：本文强化了对边界局部结构的假设（需要一阶导数存在且非零），但放宽了对内部整体光滑性的要求（只需内部局部 Lipschitz）。

主要结果¶

定理 2.1（上尾概率的 Cramér 型中偏差）：设 \(x = a + n^{-1/3} t\)，其中 \(t > 0\) 固定。则在适当条件下，

\[\left| \frac{\mathbb{P}\big( \hat{f}_n(x) - f(x) > z \cdot n^{-1/3} \big)}{\mathbb{P}\big( Z(t) > z \big)} - 1 \right| \leq C n^{-1/3} \log n,\]

对任意 \(0 \leq z \leq o(n^{1/3})\) 一致成立。其中 \(Z(t)\) 是三重切过程的左边界版本，其分布完全由 \(t\) 和 \(f'(a)\) 决定。这给出了一个分水岭：当 \(z\) 很小时，该结果退化为普通中心极限定理（比率 \(\to 1\)）；当 \(z\) 增长到 \(n^{1/3}\) 量级，它给出了指数衰减——这是之前任何结论都做不到的。

定理 2.2（下尾的对称结果）：类似地，\(\mathbb{P}(\hat{f}_n(x) - f(x) < -z \cdot n^{-1/3})\) 也被一致逼近，误差项同上。

该结果解决了什么：以前只知其尾概率最终服从三重切分布（极限），但不知收敛速度、不知何时指数衰减。本文给出了中间区域的精确情报。

证明路线与技术技巧¶

整体路线（4 步）：

Step 1: 强逼近：将经验分布函数 \(F_n\) 用 Brownian 桥逼近：\(F_n(x) = F(x) + \frac{1}{\sqrt{n}} B_n(F(x)) + R_n(x)\)，其中 \(B_n\) 是 Kiefer 过程，\(R_n\) 由 Komlós-Major-Tusnády 近似控制。这一步将离散的样本替换为连续的 Gaussian 过程。
Step 2: 局部化：将问题限制在宽度为 \(n^{-1/3}\) 的边界区域内。利用假设 \(f(x) \sim f(0) + f'(a)(x-a)\)，在这个尺度上，经验过程近似于一个“局部线性+ Brownian 桥”的复合结构。
Step 3: 比较方法：将 \(\hat{f}_n(x)\) 的尾概率转化为“\(F_n\) 的局部凹化在 \(x\) 处的导数超过阈值 \(z\)”的概率。利用凹化过程的单调性与比较性质，该概率可与“Brownian 桥的局部最小凹包络的斜率超过 \(z\)”的概率进行比较。
Step 4: 中偏差不等式：对 Brownian 桥的凹包络过程应用 van der Vaart & van de Geer (1997) 的指数不等式，或采用 Bryc (1993) 的 Girsanov 方法，计算出显式中偏差常数。

关键跳跃点：在 Step 3 中，如何将 \(d_n\) 的尾概率的误差从“离散样本”转移到“Brownian 桥”上？作者使用的技巧是：比较方法的核心是一个专门的引理（引理 3.2），它利用 O'Reilly 不等式将 \(R_n\) 的 L∞ 界嵌入尾概率的差中，然后通过 Brownian 桥的等距性将其转化为指数控制。这个引理就是整篇论文的技术核心——它不仅用了 Kiefer 过程，还用了 Cesàro 平均来吸收离散误差。

技术技巧点名： - 强逼近（Komlós-Major-Tusnády）：用 Brownian 桥逼近 \(F_n\)，误差为 \(O(\log n / \sqrt{n})\)，这是“小心处理大偏差时y所需精度”的前提。 - 凹包络分析与 KMT 过程的耦合：经典算法，但在边界处需要重新处理线性化的局部尺度。 - 比较方法（比较两个过程的尾概率）：将原问题“\(\hat{f}_n(x)\) 的尾概率”转化为对 Brownian 桥局部凹包络尾概率的比较。 - O'Reilly 不等式与 Kiefer 过程：提供强逼近误差的几乎确定界，进而被转换为尾概率的指数控制。

真实例子与实证¶

无。本文为纯理论，无模拟、无实证、无真实数据例子。 在数值/应用节中未见任何表格或图。

🔎 结论是否比证明窄¶

是的，有两点值得注意： - 推论3（Cramér 中偏差的全局版本） 在论文中被表述为“conjecture”——作者在 Section 5 (Future Work) 中提到，全支撑（从 \(a\) 到 \(b\) 整个区间）的中偏差结果目前仅是一个猜测，“by interpolation between the interior and boundary cases”可能成立，但未给出正式引理/定理。这意味着论文的核心结论仅针对一维边界（单个点），而“全支撑的比较”仍悬而未决。 - 另外，定理对 \(f\) 在边界附近的光滑性假设（局部线性）在实践中可能难以验证——密度可能在边界附近弯曲，使得真实的偏差与理论有差距。作者在假设中明确要求了“\(f\) 在 \(a\) 处可微且 \(f'(a)\) 非零”，但未讨论若 \(f'(a)=0\)（平坦边界）的情况——此时收敛速率会变慢，中偏差形式也会改变。

四、开放问题¶

全支撑均匀比较（conjecture from Section 5）：能否将边界中偏差与内部点中偏差（Gao & Zhao 2011）拼接到一个全支撑的均匀 Cramér 型结果上？作者认为这需要更复杂的插值技术，目前是开放问题。(扎根：Section 5, "Future work" 段落)
高维化 \(g\)：对于多元单调函数（如凸函数类似物），边界不再是单点而是曲边界，Grenander 估计的边界中偏差目前完全未涉足。本文的强逼近+比较方法是否能推广到 \(d \geq 2\) 的情形？这在技术上极为困难，因为边界曲率会破坏局部线性化。(扎根：Intro 未提及多元环境，仅在 "Discussion" 中提到可能的推广)
宽松光滑性假设下的结果：若 \(f'(a)=0\)（即在边界附近密度“平坦”），本文的局部线性假设失效。这时中偏差的速率会如何变化？是不是仍能获得指数型尾，但指数因子不同？这需要重新计算三重切边界过程在该退化情形下的变体。(扎根：定理假设中的 "\(f\) 在 \(a\) 处一阶导数非零")
构建均匀置信带：本文给了单个点 \(x\) 的中偏差结果。若要构造一个边界区域的均匀置信带（如 \([a, a + n^{-1/3} \log n]\) 的联合覆盖），需要处理多个边界点相关的多重比较——这需要关联中偏差的“最多可能”点和相关结构的控制。目前无结果。(扎根：Section 5, "A uniform confidence band near the boundary")

Maintained by 陈星宇 · Homepage · Source on GitHub