Integrated empirical measures and generalizations of classical goodness-of-fit statistics¶

作者: Hsien-Kuei Hwang, Satoshi Kuriki
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：拟合优度检验的根本统计问题是：给定一组样本，判断其是否来自某个特定的分布族。经典方法（如 Cramér-von Mises、Anderson-Darling、Watson 统计量）将经验分布与目标分布的偏差映射为一个标量统计量，其极限分布依赖于经验过程的协方差结构。本子方向聚焦于如何通过修改经验过程的构造（如积分、加权）来放大对特定分布特征（如尾部、偏度）的敏感度，同时保持极限分布的解析可处理性。当前该方向在经典框架下已高度成熟，但在高维、半参数及计算约束下的拓展仍处于探索期。

发展脉络： - 奠基工作：Cramér (1928) 与 von Mises (1931) 提出基于 \(L^2\) 范数的经验分布偏差度量；Anderson & Darling (1952) 引入加权函数 \(w(t) = [t(1-t)]^{-1}\)，得到 A-D 统计量，使得检验对尾部偏离更敏感；Watson (1961) 提出针对圆上分布的旋转不变统计量。这些工作的共同瓶颈是：极限分布的协方差核虽已知，但特征值通常无闭式解，只能通过数值积分或查表获得临界值。 - 主要进展（谱分解与解析计算）：为了突破特征值计算的瓶颈，Anderson & Darling (1952) 在特定加权下首次给出了特征值的显式公式；Tygert 等（近年在压缩感知与快速算法领域）利用类似 Karhunen-Loève (K-L) 展开与特征值闭式求解加速核矩阵的逼近；Kiefer (1959) 与 Rosenblatt (1952) 将经验过程拓展到密度估计的 \(L^2\) 偏差。 - 当前 frontier 与本文位置：近年的前沿试图将经典拟合优度统计量推广到更一般的测度变换下，以捕捉更细微的分布特征，同时要求极限分布的 MGF（矩生成函数）或特征值仍可解析求解。本文正是这一路线的推进：通过多重积分经验测度（multiply-integrated empirical measures）构造三类新统计量族，不仅推广了 A-D、C-v-M、Watson，而且首次在多重积分框架下给出了协方差核、特征值、MGF 的全链路闭式解，并将 MGF 的无穷乘积化简为有限项乘积。

子线索聚类： 1. 加权经验过程与尾部敏感检验：以 Anderson-Darling 为代表，通过选择 \(w(t)\) 放大尾部权重。本文的广义 A-D 族属于此线索的深化，将权重函数的选择内化到积分测度的构造中。 2. 旋转不变与圆上分布检验：以 Watson 统计量为代表，处理分布的周期性或旋转对称性。本文的广义 Watson 族在此线索上引入了多重积分结构。 3. 积分算子的谱分析与解析可处理性：不直接构造新统计量，而是研究如何让已有统计量的极限分布变得"可算"。本文的核心技术贡献（特征值闭式、MGF 有限乘积）落在此线索上，是对 Tygert 等人"快速逼近核矩阵"思路在拟合优度极限分布上的特化。

这个方向在追问的核心问题： 1. 如何系统性地构造对特定分布特征（尾部、中心、局部偏移）敏感的检验统计量？ 当前主流通过加权函数或核函数实现，但缺乏统一构造框架；本文用"多重积分阶数"提供了一个参数化框架。 2. 如何让这些敏感检验的极限分布变得解析可计算？ 已知瓶颈是：一旦加权或测度偏离经典形式，协方差核的特征值通常失去闭式，只能数值求解；本文通过特定的积分测度设计，绕开了这一瓶颈。 3. 无穷乘积到有限乘积的化简是否具有普遍性？ 本文在特定核下实现了 MGF 的有限乘积表示，但这是否依赖于积分测度的特殊结构，还是一类更广泛的现象？

⚠️ 作者的 framing： - 作者将缺口 frame 为：经典 A-D、C-v-M、Watson 统计量是"单一积分"或"特定加权"的特例，缺乏一个能通过积分阶数参数化来捕捉不同分布特征、同时保持全链路解析可处理性的统一框架。这使得本文的"多重积分经验测度"成为显然的推广路线。 - 被淡化或回避的竞争路线：intro 中未见对半参数拟合优度检验（如基于影响函数的检验，如 Khmaladze 变换）或高维/非参数投影追踪路线的讨论。这些路线同样致力于提升对特定偏离的敏感度，但走的是投影或变换路径，而非积分路径。 - 明显该被引却未出现的：涉及高阶 U-过程或V-过程在拟合优度中的工作（如 DeWet 与 Rietveld 对高阶 C-v-M 的探索），以及近年基于随机矩阵理论逼近极限分布的文献。这些是研究者值得去查的缺口——作者刻意将故事锁定在"经典统计量的多重积分推广"内，回避了与高阶 U-统计量理论的直接对接。

张力：未见明显对立引用。不同线索（加权 vs 积分 vs 投影）更多是互补而非矛盾，但在"解析可处理性"与"检验敏感度"的权衡上存在隐性张力：Anderson-Darling 证明了特定加权下可解析，但更一般的加权（如指数族加权）通常不可解析；本文声称多重积分下仍可解析，这本身是对该张力的一个突破，但需核实其解析性是否严重依赖于积分测度的特定代数结构。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与记号：
\(X_1, X_2, \ldots, X_n\)：来自真实分布 \(F\) 的独立同分布随机样本。
\(F_0(t)\)：零假设下的目标分布函数（本文主要在 \(F_0\) 为 \([0,1]\) 上均匀分布的标准化框架下推导，这是拟合优度极限分布理论的标准起手式）。
\(\mathbb{F}_n(t) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}(X_i \le t)\)：经典经验分布函数。
\(\alpha_n(t) = \sqrt{n}(\mathbb{F}_n(t) - F_0(t))\)：经典经验过程。
\(m \in \mathbb{N}\)：多重积分的阶数（核心新参数，\(m=0\) 退化为经典情形）。
\(\mathbb{F}_n^{(m)}(t)\)：多重积分经验测度（对 \(\mathbb{F}_n\) 进行 \(m\) 重积分后的量，具体定义见下文最简例子）。
\(\alpha_n^{(m)}(t)\)：多重积分经验过程（\(\sqrt{n}\) 标度下的偏差过程）。
\(\mathbb{B}^{(m)}(t)\)：极限布朗桥的 \(m\) 重积分过程（\(\alpha_n^{(m)}\) 的弱极限）。
\(\lambda_k\)：协方差核对应的积分算子的第 \(k\) 个特征值。
\(M(t)\)：矩生成函数。
模型（数据生成机制）：
零假设 \(H_0: F = F_0\)，样本 \(X_i \sim F_0\)（i.i.d.）。
备择假设 \(H_1: F \ne F_0\)（局部或固定偏离）。
本文的极限分布理论在 \(H_0\) 下建立；局部幂分析需在 \(F = F_0 + h/\sqrt{n}\) 的局部备择下进行（文中未展开，留给读者）。
可观测数据：
研究者实际观测到的是 \(n\) 个标量样本 \(X_1, \ldots, X_n \in \mathbb{R}\)。
不可观测的潜在量是真实分布函数 \(F(t)\) 与极限随机过程 \(\mathbb{B}^{(m)}(t)\)；\(F\) 只能通过 \(\mathbb{F}_n\) 估计，\(\mathbb{B}^{(m)}\) 只能通过 \(\alpha_n^{(m)}\) 在 \(n \to \infty\) 时弱逼近。

第二步：最小内核——\(m=1\) 时的广义 Cramér-von Mises 统计量

剥掉所有一般性论述，本文的最小内核是：对经验分布函数进行一次积分后，再取 \(L^2\) 范数，其极限分布的特征值与 MGF 仍可闭式求解，且 MGF 可从无穷乘积化简为有限乘积。

多重积分经验测度的构造（以 \(m=1\) 为例）：经典经验过程 \(\alpha_n(t) = \sqrt{n}(\mathbb{F}_n(t) - t)\)（设 \(F_0\) 为均匀分布，\(t \in [0,1]\)）。定义一重积分经验过程：
\[\alpha_n^{(1)}(t) = \int_0^t \alpha_n(s) ds = \sqrt{n} \int_0^t (\mathbb{F}_n(s) - s) ds\]
其弱极限为布朗桥 \(\mathbb{B}(t)\) 的一重积分：
\[\mathbb{B}^{(1)}(t) = \int_0^t \mathbb{B}(s) ds\]
广义 C-v-M 统计量（\(m=1\)）：
\[T_n^{(1)} = \int_0^1 \left( \alpha_n^{(1)}(t) \right)^2 dt\]
当 \(m=0\) 时，\(T_n^{(0)}\) 就是经典 Cramér-von Mises 统计量。
最小内核要证的命题：在 \(H_0\) 下，\(T_n^{(1)} \xrightarrow{d} \int_0^1 \left( \mathbb{B}^{(1)}(t) \right)^2 dt\)。该极限分布的协方差核为 \(K^{(1)}(s,t) = \text{Cov}(\mathbb{B}^{(1)}(s), \mathbb{B}^{(1)}(t))\)。 核心数学困难与突破：需计算积分算子 \(\int K^{(1)}(s,t) f(t) dt = \lambda f(s)\) 的特征值 \(\lambda_k\)。
经典 C-v-M（\(m=0\)）的特征值为 \(\lambda_k = 1/(k^2 \pi^2)\)，MGF 为 \(\prod_{k=1}^\infty (1 - 2t\lambda_k)^{-1/2}\)（无穷乘积）。
本文对 \(m=1\) 证明了：特征值仍可闭式求解（具体公式依赖于 \(\mathbb{B}^{(1)}\) 的协方差核的代数结构，涉及多项式求根），且 MGF 的无穷乘积可化简为有限项乘积（通过将特征值按代数关系分组，利用部分分式或 Weierstrass 乘积定理的逆操作，将无穷级数截断为有限项）。
为什么成立（直觉）：布朗桥的 \(m\) 重积分 \(\mathbb{B}^{(m)}\) 的协方差核是关于 \(s, t\) 的分段多项式（因为每积分一次，光滑度提升一阶，核从 \(\min(s,t)-st\) 的分段线性变为分段高阶多项式）。分段多项式核的积分算子，其特征函数满足常系数线性 ODE（通过核的微分性质转化），因此特征值由 ODE 的特征方程（多项式方程）决定，根可闭式求解（或至少解析表达）。MGF 的有限乘积化简则依赖于特征值的特定代数簇结构（如 \(\lambda_k\) 可表示为某个二次或高次方程的根，使得无穷乘积的连乘项可通过递推关系消解为有限项）。

三、这篇论文做了什么¶

三句话： ① 研究了基于多重积分经验测度的三类拟合优度检验统计量（广义 A-D、C-v-M、Watson）的极限分布解析求解问题。 ② 核心工具是 Karhunen-Loève 展开、积分算子的谱分解、以及 MGF 无穷乘积到有限乘积的代数化简。 ③ 主要结论是：在任意积分阶数 \(m\) 下，这三类统计量的协方差核、特征值、MGF 均有闭式表达式，且 MGF 可化简为有限项乘积，使得临界值的数值计算从"无穷级数逼近"变为"有限项精确计算"。

关键设定与假设： - 基本设定：样本 \(X_1, \ldots, X_n\) i.i.d.，零假设 \(F_0\) 为 \([0,1]\) 上均匀分布（通过概率积分变换 \(Y_i = F_0(X_i)\) 可将一般连续分布检验归化到此情形，这是经典假设，本文沿用）。 - 多重积分经验测度：定义 \(\mathbb{F}_n^{(m)}(t) = \int_0^t \int_0^{s_{m-1}} \cdots \int_0^{s_1} \mathbb{F}_n(s_0) ds_0 ds_1 \cdots ds_{m-1}\)，对应的多重积分经验过程为 \(\alpha_n^{(m)}(t) = \sqrt{n}(\mathbb{F}_n^{(m)}(t) - t^{m+1}/(m+1)!)\)（减去均匀分布下的理论积分值以中心化）。 - 三类统计量定义： 1. 广义 Cramér-von Mises：\(C_n^{(m)} = \int_0^1 (\alpha_n^{(m)}(t))^2 dt\)。 2. 广义 Anderson-Darling：\(A_n^{(m)} = \int_0^1 (\alpha_n^{(m)}(t))^2 w(t) dt\)，其中 \(w(t) = [t(1-t)]^{-1}\)（保持对尾部的敏感性，但作用在积分后的过程上）。 3. 广义 Watson：\(U_n^{(m)} = \int_0^1 (\alpha_n^{(m)}(t) - \int_0^1 \alpha_n^{(m)}(s) ds)^2 dt\)（去除均值后的 \(L^2\) 范数，保持旋转不变性）。 - 假设的统计含义： - \(F_0\) 为均匀分布的假设是标准归化技巧，不构成实质限制（对连续分布 \(F_0\) 均适用）。 - \(m\) 重积分假设的统计含义是：积分阶数 \(m\) 起到了低通滤波器的作用，\(m\) 越大，统计量对分布函数的高频（局部）波动越不敏感，而对低频（全局形状、累积偏移）越敏感。这与 A-D 的加权（高频/尾部敏感）形成互补。 - 相比已有文献（通常只考虑 \(m=0\) 或特定加权），本文将 \(m\) 推广到任意正整数，实质是提供了一个光滑度参数化的检验族。

主要结果： 1. 定理：极限分布与协方差核的闭式表达。在 \(H_0\) 下，\(\alpha_n^{(m)} \xrightarrow{w} \mathbb{B}^{(m)}\)，其中 \(\mathbb{B}^{(m)}\) 是 \(m\) 重积分布朗桥。三类统计量的极限分别为 \(\int (\mathbb{B}^{(m)})^2 dt\)、\(\int (\mathbb{B}^{(m)})^2 w dt\)、\(\int (\mathbb{B}^{(m)} - \bar{\mathbb{B}}^{(m)})^2 dt\)。作者给出了 \(\mathbb{B}^{(m)}\) 的协方差核 \(K^{(m)}(s,t)\) 的显式分段多项式闭式公式（涉及 \(\min(s,t)\) 的多项式组合与 \(s, t\) 的交叉项，阶数随 \(m\) 线性增长）。 - 直觉：布朗桥协方差核 \(\min(s,t)-st\) 是分段线性，每积分一次，光滑度升一阶，核变为分段 \(m+1\) 次多项式，可逐次递推计算。

定理：特征值的闭式求解。对应于三类协方差核的积分算子，其特征值 \(\lambda_k\) 均有闭式公式。具体地：
广义 C-v-M 的特征值由涉及 \(m\) 阶 ODE 的特征方程决定，可表示为 \(\lambda_k = \text{poly}_m(k^{-2})\) 的形式（具体公式见原文 Section 3，依赖于 \(m\) 的递推结构）。
广义 A-D 的特征值在 \(w(t)=[t(1-t)]^{-1}\) 加权下，仍可闭式求解（这是本文最意外的结果之一，因为一般加权会破坏闭式性；此处成立是因为 \(\mathbb{B}^{(m)}\) 的多项式核与 \(w(t)\) 的双曲结构在 ODE 层面恰好可解）。
广义 Watson 的特征值通过去除均值修正后，从 C-v-M 的特征值中平移得到。
必要条件：\(F_0\) 为均匀分布（归化条件），核的分段多项式结构（由积分保证）。
定理：MGF 的有限乘积化简。极限分布的 MGF 形式为 \(M(t) = \prod_{k=1}^\infty (1 - 2t\lambda_k)^{-1/2}\)（无穷乘积）。本文证明：对三类统计量，该无穷乘积均可化简为有限项乘积（具体项数依赖于 \(m\)，如 \(m=1\) 时化简为若干项，\(m\) 更大时项数线性增长但始终有限）。
技术难点：无穷乘积的化简通常要求特征值具有特殊的代数递推关系（如 \(\lambda_k\) 是某个多项式方程的根，且根之间有消解关系）。本文利用了特征值公式的部分分式分解与连乘递推消解，将 \(\prod_{k=1}^\infty\) 中的无穷项通过代数恒等式折叠为有限项。
解决的技术难点：从"无穷级数逼近临界值"到"有限项精确计算临界值"的跨越，使得高阶 \(m\) 的检验在实际中可用（无需截断误差分析）。

证明路线与技术技巧： - 整体路线： 1. 构造多重积分经验过程：从 \(\alpha_n\) 出发，递推定义 \(\alpha_n^{(m)}\)，证明其弱收敛到 \(\mathbb{B}^{(m)}\)（标准经验过程理论，连续映射定理）。 2. 计算协方差核：利用布朗桥 \(\mathbb{B}\) 的协方差核 \(\min(s,t)-st\)，通过 \(m\) 重积分运算，递推得到 \(\mathbb{B}^{(m)}\) 的协方差核 \(K^{(m)}(s,t)\) 的分段多项式闭式。 3. 谱分解（K-L 展开）：将 \(K^{(m)}(s,t)\) 代入积分算子 \(\mathcal{K}^{(m)} f = \int K^{(m)}(s,t) f(t) dt = \lambda f(s)\)，利用核的分段多项式性质，将积分方程转化为常系数线性 ODE 的边值问题（这是核心跳跃点）。 4. 求解特征值与特征函数：解 ODE 边值问题，得到特征值的闭式公式（由 ODE 的特征多项式决定）。 5. MGF 化简：将特征值公式代入 MGF 的无穷乘积，利用代数恒等式（部分分式、连乘消解）化简为有限乘积。

关键跳跃点：
从积分方程到 ODE：这是本文最吃功夫的引理。分段多项式核 \(K^{(m)}(s,t)\) 满足特定的微分方程（因为积分是微分的逆运算，多重积分核的导数会降阶回到低阶核），作者利用这一性质，将 \(\mathcal{K}^{(m)} f = \lambda f\) 转化为 \(D^{2m+2} f = \lambda^{-1} f\) 的 ODE（带边界条件，由核在 \(s=t\) 处的连续性与导数跳跃决定）。这一步将无穷维积分算子的谱问题降维为有限维 ODE 的特征值问题。
MGF 无穷乘积到有限乘积：特征值 \(\lambda_k\) 的公式涉及 \(k\) 的多项式，使得 \((1 - 2t\lambda_k)^{-1/2}\) 的连乘在 \(k \to \infty\) 时看似发散或需无穷截断。作者通过将 \(\lambda_k\) 表达为二次（或高次）方程的根，利用根的对称性与递推关系，将 \(\prod_{k=1}^\infty\) 按 \(k\) 的奇偶性或模数分组，每组内部可消解为有限项（类似 \(\prod_{k=1}^\infty \frac{k^2}{k^2 - a^2} = \frac{\pi a}{\sin(\pi a)}\) 的 Euler 乘积化简技巧）。
技术技巧点名：
Karhunen-Loève 展开：用于将极限随机过程的 \(L^2\) 范数分解为独立正态分量的加权和（\(\sum \lambda_k Z_k^2\)），是拟合优度极限分布的标准工具。
积分方程到 ODE 的转化：利用核的多重积分结构（微分降阶性质），将谱问题转化为 ODE 边值问题（核心技巧，见 Section 3-4）。
部分分式分解与无穷乘积消解：用于 MGF 的有限乘积化简（类似 Euler 的 \(\sin(\pi x)\) 乘积公式技巧，见 Section 5）。
连续映射定理与弱收敛：用于从 \(\alpha_n^{(m)} \xrightarrow{w} \mathbb{B}^{(m)}\) 推导统计量的极限分布（标准经验过程工具）。

真实例子与应用：本文为纯理论 / 无实证例子。全文聚焦于极限分布的解析推导与闭式求解，未包含任何真实数据集的拟合优度检验应用、模拟比较或临界值表（尽管 MGF 的有限乘积化简使得计算临界值变得可行，作者并未在文中提供数值实现的表格或代码）。

🔎 结论是否比证明窄： - 作者在 Abstract 与 Intro 中泛泛 claim 这些统计量是 "versatile and valuable toolbox for goodness-of-fit testing"，但严格证明仅覆盖 \(H_0\) 下的极限分布与 MGF，未提供任何局部备择假设下的局部幂分析或 Bahadur 斜率计算。因此，"versatile"（对各种偏离敏感）的判断缺乏理论支撑，仅基于直觉（积分阶数 \(m\) 的低通滤波效应）。 - 特征值与 MGF 的闭式求解严格依赖于 \(F_0\) 为均匀分布的归化条件与特定的加权函数 \(w(t)=[t(1-t)]^{-1}\)；对更一般的加权或非均匀 \(F_0\)，闭式性是否保持未被讨论，也未作为 conjecture 提出。

四、开放问题（点到为止，扎根具体语句）¶

局部幂与 Bahadur 斜率的解析计算：本文严格证明了 \(H_0\) 下的极限分布（Section 3-5），但对 \(H_1: F = F_0 + h/\sqrt{n}\) 下的局部幂未展开。要证：在局部备择下，\(C_n^{(m)}\)、\(A_n^{(m)}\)、\(U_n^{(m)}\) 的极限分布如何漂移，以及积分阶数 \(m\) 如何影响检测不同 \(h\) 的效率（扎根于 Abstract 中 "designed to detect various distributional features" 的 claim，但正文无理论支撑）。
高维或半参数设定下的推广：本文的 K-L 展开与 ODE 转化严格依赖标量 \(t \in [0,1]\) 上的分段多项式核结构。要估：在多元分布 \(t \in \mathbb{R}^d\) 或半参数 nuisance 参数下，多重积分经验测度的极限过程协方差核是否仍可转化为 ODE/PDE 边值问题并闭式求解（扎根于 Intro 中对经典一维框架的锁定，未见对 \(d>1\) 的讨论）。
MGF 有限乘积化简的代数普遍性：本文的 MGF 化简依赖于特征值的特定代数簇结构（部分分式消解）。要证：对更一般的加权函数 \(w(t)\)（非 \([t(1-t)]^{-1}\)），或对非均匀 \(F_0\) 归化后的核，无穷乘积是否仍可化简为有限项，还是本文的化简是积分测度与加权特定组合的"巧合"（扎根于 Section 5 的化简推导，作者未讨论化简条件的必要性）。
与高阶 U-统计量 / V-过程的对接：多重积分经验测度 \(\mathbb{F}_n^{(m)}\) 的构造在形式上与高阶 U-统计量的核积分有相似性，但本文未引用高阶 U-过程理论（如 DeWet, 1980s 的工作）。要查：\(\alpha_n^{(m)}\) 是否可表示为某类高阶 U-过程的退化核，从而直接借用高阶 U-过程的极限理论（如投影与退化分解）来统一处理局部幂与极限分布（扎根于 Intro 缺失的引用缺口，值得去查 DeWet 与 Rietveld 的文献）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Integrated empirical measures and generalizations of classical goodness-of-fit statistics¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论