Explicit confidence bands and intervals for distribution functions and their derivatives via random Weierstrass-type operators¶

作者: José A. Adell, J. T. Alcalá, C. Sangüesa
主题: 非参数 / 半参数
相关性: 6/10
链接: https://arxiv.org/abs/2606.24345

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是分布函数 \(F\) 及其导数 \(F^{(k)}\) 的非参数推断，核心问题是：在仅假设 \(F^{(k)}\) 具有一定光滑性（如一致连续、Lipschitz 条件）的条件下，能否构造出显式的、非渐近的置信带（confidence band）和置信区间（confidence interval），其长度（宽度）由光滑性参数显式控制，且不依赖渐近近似或带宽选择的渐近理论。当前成熟度：经典核方法已有大量渐近结果，但显式非渐近的构造仍较少，且大多局限于 \(k=0\)（分布函数本身）或 \(k=1\)（密度）的特定情形。

发展脉络（history）¶

奠基工作：Rosenblatt (1956) 和 Parzen (1962) 开创了核密度估计，Schuster (1969) 和 Silverman (1978) 将其推广到导数估计，建立了渐近一致收敛性。Dvoretzky, Kiefer, Wolfowitz (1956) 给出了经验分布函数 \( \hat{F}_n \) 的指数型集中不等式（DKW 不等式），Massart (1990) 确定了最优常数 \(2e^{-2n\delta^2}\)。这些构成了本文的核心工具。
主要进展（渐近置信带）：
- Giné & Nickl (2010) 在“相似性条件”下构造了密度的渐近全局自适应置信带，但依赖于 Holder 球和 nowhere dense 例外集。
- Patschkowski & Rohde (2016) 将其推广到局部自适应置信带，使用 Slepian 比较不等式识别最不利平稳情形。
- Stepanova & Pavlenko (2014) 和 Dümbgen & Wellner (2014) 使用加权经验过程的 sup-泛函构造了分布函数 \(F\) 的渐近置信带，在尾部比经典 DKW 带更窄。
- Maillard (2020) 给出了局部 DKW 置信带的精确尾部概率公式（非渐近），但局限于均匀分布。
当前 frontier 与本文位置：
- 上述工作大多针对 \(k=0\) 或 \(k=1\)，且依赖渐近近似或特定光滑性假设（如 Holder 类）。
- 本文的定位：将经典二阶核估计量重新解释为随机 Weierstrass 型算子（特别是随机 Steklov 算子），从而：
  1. 对任意 \(k \ge 0\)，在仅假设 \(F^{(k)}\) 一致连续下，给出显式非渐近置信带（Theorem 4.1）。
  2. 允许 \(F^{(k)}\) 有第一类孤立间断点，估计中点函数 \((F^{(k)})_\star(x)\)，给出置信区间（Section 5）。
  3. 长度由 \(F^{(k)}\) 的二阶连续模 \(\omega_2(F^{(k)}; h)\) 显式控制，当 \(F\) 局部为至多 \(k+1\) 次多项式时达到 \(n^{-1/2}\) 阶。

子线索聚类¶

经验过程与 DKW 型不等式（核心工具）：Dvoretzky-Kiefer-Wolfowitz (1956), Massart (1990), Maillard (2020)。这一簇提供概率集中工具，本文直接使用 Massart 形式。
核估计与带宽选择（经典方法）：Rosenblatt (1956), Parzen (1962), Schuster (1969), Silverman (1978), Hall (1992), Calonico et al. (2015)。这一簇依赖渐近近似和带宽选择（undersmoothing vs. bias correction），本文通过随机算子绕开渐近。
自适应置信带（渐近）：Giné & Nickl (2010), Patschkowski & Rohde (2016), Walther et al. (2022)。这一簇追求全局/局部自适应，但通常限于密度 (\(k=1\)) 且依赖 Holder 类假设。
加权经验过程与尾部改进：Stepanova & Pavlenko (2014), Dümbgen & Wellner (2014)。这一簇改进尾部宽度，但仍是渐近的，且限于 \(k=0\)。
随机算子与逼近论（本文方法）：Adell & Sangüesa (2001), Adell et al. (2025)。这一簇将统计估计与函数逼近论（Steklov 算子、Bernstein 算子）结合，提供显式非渐近界。

这个方向在追问的核心问题¶

如何构造分布函数及其导数的显式非渐近置信带？ 经典核方法只给出渐近结果，没有显式常数。
如何在不假设高阶光滑性（如二阶导数存在）的情况下控制置信带的长度？ 本文用二阶连续模 \(\omega_2\) 替代导数存在性。
如何处理分布函数或密度存在孤立间断点时的推断？ 经典方法通常假设连续，本文通过估计中点函数 \((F^{(k)})_\star\) 来处理。
置信带的长度能否达到 \(n^{-1/2}\) 阶？ 本文证明当 \(F\) 局部为多项式时可以达到，但一般情形下依赖于 \(\omega_2\) 的衰减速度。

⚠️ 作者的 framing¶

作者把缺口 frame 成：经典核估计的渐近结果“没有指定收敛速度”（"with no specified rates of convergence"），而本文通过随机算子解释给出显式非渐近置信带/区间，且长度由二阶连续模显式控制。作者强调其方法“无需渐近近似”（"without asymptotic approximations"），且能处理间断点。
被淡化或回避的竞争路线：
- 加权经验过程方法（Stepanova & Pavlenko, Dümbgen & Wellner）在尾部更窄，但作者只在 Theorem 4.1 后提了一句“似乎可能改进尾部”，并未深入比较或采用。作者回避了“尾部改进”这一重要方向。
- 自适应方法（Giné & Nickl, Patschkowski & Rohde）追求全局/局部自适应，但作者的方法不是自适应的——带宽 \(h\) 的选择依赖于未知的 \(\omega_2\)，且 Theorem 4.1 中的 \(b_k(h)\) 需要已知上界。作者没有讨论如何自适应地选择 \(h\)。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 没有引用任何关于“自适应带宽选择”或“数据驱动带宽”的文献（如 cross-validation, plug-in 方法）。本文的置信带/区间长度依赖于未知的 \(\omega_2\)，但作者没有讨论如何从数据中估计它。
- 没有引用任何关于“高维分布函数估计”的文献。本文完全限于一元情形，但方向名称暗示可能推广。
- 没有引用任何关于“经验过程 bootstrap”的文献（如 multiplier bootstrap），这是构造非渐近置信带的另一条常见路线。

张力¶

未见明显对立引用。所有被引工作基本是互补的：有的处理渐近自适应，有的处理尾部改进，有的处理间断点，本文则聚焦于显式非渐近构造。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(F\)：未知的分布函数（cumulative distribution function, CDF），是要估计的目标。
- \(F^{(k)}\)：\(F\) 的 \(k\) 阶导数（\(k=0\) 时是 \(F\) 本身，\(k=1\) 时是密度 \(\rho\)）。
- \((F^{(k)})_\star(x)\)：\(F^{(k)}\) 在点 \(x\) 的中点函数，定义为 \(\frac{1}{2}(F^{(k)}(x+) + F^{(k)}(x-))\)。当 \(F^{(k)}\) 在 \(x\) 连续时，\((F^{(k)})_\star(x) = F^{(k)}(x)\)。这是要估计的 estimand，因为允许间断点。
- \(\hat{F}_n(x) = \frac{1}{n} \sum_{j=1}^n \mathbf{1}_{(-\infty, x]}(X_j)\)：经验分布函数，基于 i.i.d. 样本 \(X_1, \dots, X_n\)。这是可观测数据。
- \(S_n(x) = \sum_{j=1}^n \mathbf{1}_{[0, x]}(U_j)\)：均匀分布 \(U[0,1]\) 的经验过程，通过概率积分变换与 \(\hat{F}_n\) 联系：\(\hat{F}_n(x) \overset{(L)}{=} S_n(F(x))/n\)。
- \(h > 0\)：带宽（bandwidth），控制平滑程度。
- \(m \in \mathbb{N}\)：Steklov 算子的阶数（order），\(m = k+1\) 用于估计 \(F^{(k)}\)。
- \(\tilde{S}_m = \tilde{V}_1 + \cdots + \tilde{V}_m\)，其中 \(\tilde{V}_j\) i.i.d. 均匀分布于 \([-1, 1]\)。这是 Steklov 算子的核心随机变量。
- \(L_{m,h}(f; x) = \mathbb{E}[f(x + h \tilde{S}_m)]\)：Steklov 算子（确定性）。
- \(L_{m,h}(\hat{F}_n; x) = \tilde{\mathbb{E}}[\hat{F}_n(x + h \tilde{S}_m)]\)：随机 Steklov 算子，即本文的估计量。
- \(\omega_2(f; \delta)\)：函数 \(f\) 的二阶连续模（second modulus of continuity），定义为 \(\sup\{ |f(x-\epsilon) - 2f(x) + f(x+\epsilon)| : 0 \le \epsilon \le \delta \}\)。这是度量光滑性的关键量。
- \(t_\alpha = \sqrt{2 \log(2/\alpha)}\)：来自 DKW 不等式的临界值。
模型：
- 数据生成机制：\(X_1, \dots, X_n\) i.i.d. 来自某个未知分布，其分布函数为 \(F\)。没有参数假设（非参数）。
- 假设：\(F^{(k)}\) 是一致连续的（Theorem 4.1 的置信带），或允许有第一类孤立间断点（Section 5 的置信区间）。
- 要估的对象：\((F^{(k)})_\star(x)\)（中点函数）。
可观测数据：
- 可观测：样本 \(X_1, \dots, X_n\)，由此可计算经验分布函数 \(\hat{F}_n(x)\) 及其泛函。
- 不可观测 / 潜在：真实的 \(F\) 及其导数 \(F^{(k)}\)，以及光滑性度量 \(\omega_2(F^{(k)}; h)\)。后者只能通过假设或估计来获得。

第二步：讲最小内核¶

最简特例：估计分布函数 \(F\) 本身（\(k=0\)），且假设 \(F\) 是连续的（无间断点）。

在这个特例下，本文的核心思路退化为一个非常简单的想法：

经典 DKW 置信带：由 DKW 不等式，对经验分布函数 \(\hat{F}_n\) 有
\[P\left( \sup_{x \in \mathbb{R}} |\hat{F}_n(x) - F(x)| > \frac{t_\alpha}{2\sqrt{n}} \right) \le \alpha,\]
其中 \(t_\alpha = \sqrt{2\log(2/\alpha)}\)。这是一个显式非渐近置信带，但 \(\hat{F}_n\) 是阶梯函数（不连续）。
本文的改进：用随机 Steklov 算子 \(L_{1,h}(\hat{F}_n; x) = \tilde{\mathbb{E}}[\hat{F}_n(x + h \tilde{S}_1)]\) 代替 \(\hat{F}_n\)，其中 \(\tilde{S}_1\) 是均匀分布于 \([-1,1]\) 的随机变量。这个算子将 \(\hat{F}_n\) 平滑化，得到连续路径的估计量。
关键恒等式：
\[L_{1,h}(\hat{F}_n; x) - F(x) = \underbrace{L_{1,h}(\hat{F}_n - F; x)}_{\text{随机项 } T_{0,n}} + \underbrace{L_{1,h}(F; x) - F(x)}_{\text{偏差项}}.\]
随机项：\(T_{0,n} = \tilde{\mathbb{E}}[(\hat{F}_n - F)(x + h \tilde{S}_1)]\)。由于 \(\hat{F}_n - F\) 的 sup-norm 被 DKW 控制，且 \(|\tilde{S}_1| \le 1\)，可得 \(\|T_{0,n}\| \le \|\hat{F}_n - F\|_{[0,1]}\)。因此
\[P\left( |T_{0,n}| > \frac{t_\alpha}{2\sqrt{n}} \right) \le \alpha.\]
偏差项：\(L_{1,h}(F; x) - F(x) = \tilde{\mathbb{E}}[F(x + h \tilde{S}_1)] - F(x)\)。由于 \(\tilde{S}_1\) 对称，偏差可被二阶连续模控制：
\[|L_{1,h}(F; x) - F(x)| \le \frac{1}{2} \omega_2(F; h).\]
记 \(b_0(h) = \frac{1}{2} \omega_2(F; h)\)，则偏差 \(\le b_0(h)\)。
最终置信带：由三角不等式，
\[|L_{1,h}(\hat{F}_n; x) - F(x)| \le |T_{0,n}| + b_0(h).\]
因此
\[P\left( |L_{1,h}(\hat{F}_n; x) - F(x)| > \frac{t_\alpha}{2\sqrt{n}} + b_0(h) \right) \le \alpha.\]
这就是 Theorem 4.1 在 \(k=0\) 时的特例。

这个最小内核说明了什么？ - 本文的核心技巧是将核估计量的偏差用二阶连续模显式控制，而随机项则直接借用 DKW 不等式。 - 带宽 \(h\) 的选择是一个偏差-方差权衡：\(h\) 越小，偏差 \(b_0(h)\) 越小，但方差项（通过 DKW）不变；\(h\) 越大，偏差越大。Theorem 4.1 允许任意小的 \(h\)，因此可以“undersmooth”到偏差可忽略，从而得到与 \(\hat{F}_n\) 几乎相同的长度 \(t_\alpha/(2\sqrt{n})\)，但估计量是连续的。 - 对于 \(k \ge 1\)，核心思路完全相同，只是将 \(L_{1,h}\) 替换为 \(L_{k+1,h}\) 的 \(k\) 阶导数，并将 DKW 不等式应用于 \(\Delta_h^k\) 算子（见 (33) 和 (38)）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在非参数框架下，构造分布函数 \(F\) 及其 \(k\) 阶导数 \(F^{(k)}\) 的显式非渐近置信带与置信区间，允许 \(F^{(k)}\) 有第一类孤立间断点。
核心工具 / 方法：将经典二阶核估计量重新解释为随机 Weierstrass 型算子（特别是随机 Steklov 算子），利用 Dvoretzky-Kiefer-Wolfowitz 不等式控制随机项，用二阶连续模 \(\omega_2\) 控制偏差项。
主要结论：在仅假设 \(F^{(k)}\) 一致连续下，给出长度为 \(t_\alpha/(2h^k\sqrt{n}) + b_k(h)\) 的置信带（Theorem 4.1）；在允许间断点下，给出基于 MSE 或集中不等式的置信区间（Theorems 5.1, 5.6, 5.11）。当 \(F\) 局部为至多 \(k+1\) 次多项式时，长度达到 \(n^{-1/2}\) 阶。

关键设定与假设¶

设定：\(X_1, \dots, X_n\) i.i.d. 来自分布函数 \(F\)。\(F \in C_S(\mathbb{R})\)，即 \(F\) 有界，在 \(\mathbb{R} \setminus S\) 上连续，在 \(S\) 上有左右极限（\(S\) 是孤立间断点集，满足 \(\inf_j (x_{j+1} - x_j) = s > 0\)）。
假设：
- Theorem 4.1（置信带）：\(F^{(k)}\) 一致连续。这是必要条件（Schuster 1969 证明了一致收敛性等价于一致连续性）。
- Section 5（置信区间）：允许 \(F^{(k)}\) 有第一类孤立间断点，因此 estimand 是中点函数 \((F^{(k)})_\star(x)\)。额外假设 \((\sigma^2 \circ F)_\star(x) > 0\)（Theorem 5.1）或 \(\rho_\star(x) > 0\)（Theorem 5.6）以保证方差非退化。
- 光滑性假设：偏差项通过二阶连续模 \(\omega_2(F^{(k)}; h)\) 控制，不假设高阶导数存在。在 Corollary 4.2 和 5.8 中，进一步假设 \(\omega_2(F^{(k)}; h) \le A h^\beta\)（Lipschitz 条件）。
相比已有文献：
- 放宽：不假设 \(F^{(k)}\) 有连续的二阶导数（经典核方法通常需要），也不假设 Holder 类（Giné & Nickl 2010 需要）。
- 强化：要求 \(F^{(k)}\) 一致连续（比逐点连续强），且偏差上界 \(b_k(h)\) 需要已知（非自适应）。

主要结果¶

Theorem 4.1（置信带，核心）： - 设 \(F^{(k)}\) 一致连续，\(b_k(h)\) 是偏差 \( |L_{k+1,h}(F^{(k)}; x) - F^{(k)}(x)| \) 的已知上界（非降连续，\(b_k(0)=0\)）。则

\[P\left( \| L^{(k)}_{k+1,h}(\hat{F}_n; \cdot) - F^{(k)}(\cdot) \|_\infty > \frac{t_\alpha}{2 h^k \sqrt{n}} + b_k(h) \right) \le \alpha.\]

- 直觉：随机项 \(\|T_{k,n}\| \le \frac{1}{h^k} \| \hat{F}_n - F \|_{[0,1]}\)，由 DKW 不等式以概率 \(1-\alpha\) 被 \(t_\alpha/(2h^k\sqrt{n})\) 控制。偏差项由 \(b_k(h)\) 控制。 - 必要条件：\(F^{(k)}\) 一致连续（否则偏差项可能不趋于 0）。 - 解决的技术难点：如何将 DKW 不等式从 \(k=0\) 推广到 \(k \ge 1\)？关键在于将 \(L^{(k)}_{k+1,h}(\hat{F}_n - F; x)\) 表示为 \(\Delta_h^k\) 算子的期望（Proposition 3.1），从而将 sup-norm 控制归结为 \(\|\hat{F}_n - F\|_{[0,1]}\) 的控制（见 (38)）。

Corollary 4.2（Lipschitz 情形下的最优带宽）： - 若 \(\omega_2(F^{(k)}; h) \le A h^\beta\)，则选择 \(h \sim n^{-1/(2\beta+2k)}\) 可得长度 \(\sim n^{-\beta/(2\beta+2k)}\)。 - 与已有结果对比：对于密度 (\(k=1\))，Giné & Nickl (2010) 的渐近自适应带长度为 \(\sim (\log n)^\gamma n^{-\beta/(2\beta+1)}\)，本文为 \(n^{-\beta/(2\beta+2)}\)。本文的率更差（因为分母多了 1），但优点是显式非渐近。

Theorem 5.1（置信区间，\(k=0\)，允许间断点）： - 设 \((\sigma^2 \circ F)_\star(x) > 0\)，选择 \(h\) 使偏差 \(\le \sqrt{\epsilon_n/n}\) 且 \(L_{1,h}(\sigma^2 \circ F; x)\) 与 \((\sigma^2 \circ F)_\star(x)\) 的差 \(\le \nu_n\)。则置信区间长度为

\[l_0(x, n) = \sqrt{((\sigma^2 \circ F)_\star(x) + \nu_n) \tau^{-1}\left( \frac{\log(2/\alpha)}{n((\sigma^2 \circ F)_\star(x) + \nu_n)} \right)} + \sqrt{\frac{\epsilon_n}{n}},\]

其中 \(\tau(\delta) = (1+\delta)\log(1+\delta) - \delta\)。渐近地，\(l_0 \sim t_\alpha (\sigma \circ F)_\star(x) / \sqrt{n}\)。 - 与 Theorem 4.1 对比：Theorem 5.1 的区间长度依赖于 \((\sigma \circ F)_\star(x)\)，在尾部更短（因为方差小），而 Theorem 4.1 的带是均匀的（长度与 \(x\) 无关）。

Theorem 5.6（置信区间，\(k=1\)，密度估计）： - 设 \(\rho_\star(x) > 0\)，选择 \(h\) 使偏差 \(\le \sqrt{r/(2nh)}\)。则置信区间长度为

\[l_1(x, n) = \sqrt{ \left( \rho_\star(x) + \sqrt{\frac{r}{2nh}} \right) \tau^{-1}\left( \frac{\log(2/\alpha)}{2nh (\rho_\star(x) + \sqrt{r/(2nh)})} \right) } + \sqrt{\frac{r}{2nh}}.\]

渐近地，\(l_1 \sim t_\alpha \sqrt{\rho_\star(x)} / \sqrt{2nh}\)。

Theorem 5.11（置信区间，一般 \(k\)）： - 对 \(F^{(k+1)} = \rho^{(k)}\) 的估计，给出类似但更复杂的长度公式（涉及组合系数 \(\binom{k}{\lfloor (k+1)/2 \rfloor}\) 和 \(\binom{2k}{k}\)）。

证明路线与技术技巧¶

整体路线（以 Theorem 4.1 为例）： 1. 分解：将估计误差分解为随机项 \(T_{k,n}\) 和偏差项 \(B_{k,h}(x) = L_{k+1,h}(F^{(k)}; x) - (F^{(k)})_\star(x)\)（见 (34)）。 2. 控制随机项：利用 Proposition 3.1 将 \(T_{k,n}\) 表示为 \(\Delta_h^k\) 算子的期望，进而证明 \(\|T_{k,n}\|_\infty \le \frac{1}{h^k} \|\hat{F}_n - F\|_{[0,1]}\)（见 (38)）。然后直接应用 DKW 不等式 (32)。 3. 控制偏差项：利用 Proposition 2.3（Steklov 算子的逼近性质）将偏差用二阶连续模 \(\omega_2(F^{(k)}; h)\) 上界（见 (40)）。 4. 合并：由三角不等式和并集界得到最终概率不等式。

关键跳跃点： - 从 \(k=0\) 到 \(k \ge 1\) 的推广：关键在于 (38) 的证明。作者利用 \(\Delta_h^k\) 算子的组合恒等式 (7) 和 Steklov 算子的导数公式 (10)，将 \(L^{(k)}_{k+1,h}(\hat{F}_n - F; x)\) 的 sup-norm 归结为 \(\|\hat{F}_n - F\|_{[0,1]}\) 的 sup-norm 乘以 \(1/h^k\)。这个跳跃是非平凡的，因为直接对核估计量的导数应用 DKW 不等式并不显然。 - 处理间断点：在置信区间部分（Section 5），作者引入中点函数 \((F^{(k)})_\star\) 和辅助函数 \(f_x(y)\)（见 (16)），利用 Proposition 2.3 的局部逼近性质 (18) 来估计偏差，即使 \(F^{(k)}\) 在 \(x\) 处有跳跃。 - 集中不等式（Lemma A.1）：对于置信区间，随机项 \(T_{k,n}\) 的尾部不能用简单的 DKW 不等式控制（因为涉及 \(\tilde{\mathbb{E}}\) 和 \(\Delta_h^k\) 的组合）。作者使用了一个基于 Hölder 不等式推广形式（Kwon 1995）的集中不等式，适用于“次生随机过程”（subordinated stochastic process）的期望。这个引理是证明 Theorem 5.1, 5.6, 5.11 的关键。

技术技巧点名： - DKW 不等式（Massart 形式）：用于控制随机项 \(\|T_{k,n}\|_\infty\)（Theorem 4.1）。 - 二阶连续模 \(\omega_2\)：用于控制偏差项，替代高阶导数存在性假设。 - Steklov 算子的组合恒等式（Proposition 2.1, 2.2）：将导数估计转化为差分算子，便于应用 DKW。 - 集中不等式（Lemma A.1）：基于 Hölder 不等式推广（Kwon 1995），用于处理次生随机过程的期望尾部。 - Chebyshev 不等式：用于 MSE 很小的情况（Theorem 5.4, 5.10）。 - MSE 精确计算：Theorem 5.3 和 5.9 给出了 \(L_{1,h}\) 和 \(L^{(1)}_{2,h}\) 的 MSE 的封闭形式（涉及 \(\tilde{R}_1 \wedge \tilde{S}_1\) 等），这在核估计文献中少见。

真实例子与应用¶

本文包含一个模拟实验（Section 6）： - 数据：Poisson(4) 分布（离散）和 Pareto 密度 \(\rho(x) = a/(x+1)^{a+1}\)（连续，在 0 处有跳跃）。 - 方法应用： - Poisson 例子：验证 Corollary 5.5（离散变量的置信区间）。选择带宽 \(h\) 为相邻支撑点距离的一半，使得偏差为 0。图 1 展示了 \(n=200\) 时 \(F_\star(x)\) 的 95% 置信区间，在间断点和中间点都有效。 - Pareto 例子：验证 Corollary 5.8（密度估计的置信区间）。在 \(x=0\)（间断点）和 \(x>0\)（连续点）分别构造置信区间。图 2 展示了 \(n=1500\) 时 \(\rho(x)\) 的 95% 置信区间，注意在 \(x=0\) 附近需要很大样本（因为偏差大）。 - 结果说明： - 验证了理论：在 \(x=0\) 处长度 \(\sim n^{-1/3}\)，在 \(x>0\) 处长度 \(\sim n^{-2/5}\)（因为 \(\beta=2\)）。 - 展示了保守性：实际覆盖概率可能高于名义水平（因为使用了 Chebyshev 不等式或集中不等式的上界）。 - 突出了局限性：靠近间断点需要很大样本（见 (82) 的条件 \(x^5 \ge \text{const}/n\)）。

🔎 结论是否比证明窄¶

Theorem 4.1 的结论比证明窄：定理声称“在 \(F^{(k)}\) 一致连续下”成立，但证明中偏差上界 \(b_k(h)\) 需要是已知的（非降连续函数）。在实际应用中，\(\omega_2(F^{(k)}; h)\) 是未知的，因此 \(b_k(h)\) 无法直接得到。作者在 Corollary 4.2 中假设了 Lipschitz 条件 \(\omega_2 \le A h^\beta\)，但常数 \(A\) 也是未知的。因此，定理的“显式”性依赖于未知的光滑性参数，这在实际中需要估计或假设。
Section 5 的置信区间同样依赖未知量：Theorem 5.1 需要知道 \((\sigma^2 \circ F)_\star(x)\) 和偏差上界；Theorem 5.6 需要知道 \(\rho_\star(x)\) 和偏差上界。作者在 Corollary 5.5 和 5.8 中给出了特例（离散变量或 Lipschitz 条件），但一般情形下这些量未知。
作者在 Section 6 的模拟中回避了这个问题：在 Pareto 例子中，作者直接使用了已知的 Lipschitz 常数 \(A(0) = a(a+1)/3\) 和 \(A(x) = B(x)/3\)，这在实际中不可行。作者没有讨论如何从数据中估计这些常数。
结论中声称“长度 of order \(n^{-1/2}\) if \(F\) is locally a polynomial”，但 Corollary 4.3 的证明依赖于 \(L_{k+1,h}\) 精确保持多项式（偏差为 0），这要求 \(F\) 在区间 \([a-(k+1)h_0, b+(k+1)h_0]\) 上是精确的 \(k+1\) 次多项式——这是一个非常强的假设，在实际中几乎不可能验证。

四、开放问题¶

自适应带宽选择：Theorem 4.1 和 Section 5 的置信带/区间依赖于未知的 \(\omega_2(F^{(k)}; h)\) 或 Lipschitz 常数 \(A\)。如何构造数据驱动的带宽选择方法（如 plug-in 或交叉验证），使得置信带在未知光滑性下仍保持非渐近有效性？这扎根于 Theorem 4.1 中 \(b_k(h)\) 需要已知这一假设。
尾部改进：作者在 Theorem 4.1 后提到，使用 Maillard (2020) 的局部 DKW 公式可能改进尾部宽度。如何将加权经验过程方法（Stepanova & Pavlenko 2014, Dümbgen & Wellner 2014）与随机算子框架结合，得到在尾部更窄的非渐近置信带？这扎根于论文第 11 页的评论“it seems possible to improve this theorem, particularly for the tails of \(F\)”。
高维推广：本文完全限于一元分布函数。如何将随机 Weierstrass 型算子推广到多元分布函数 \(F(x_1, \dots, x_d)\) 及其偏导数？关键困难在于：多元 Steklov 算子的定义、DKW 不等式的多元推广（如 Kiefer 不等式）、以及“二阶连续模”的多元版本。这扎根于论文的标题和引言未提及高维。
半参数效率界：本文的置信区间长度在 Lipschitz 条件下为 \(n^{-\beta/(2\beta+2k+1)}\)（见 (78)）。这个率是否是最优的（minimax）？对于密度估计 (\(k=1\))，已知 minimax 率为 \(n^{-\beta/(2\beta+1)}\)（在 Holder 类下），本文的率更差。能否通过改进方法（如使用高阶核或局部多项式）达到 minimax 率，同时保持显式非渐近性？这扎根于 Corollary 4.2 和 (78) 中率的对比。

Maintained by 陈星宇 · Homepage · Source on GitHub