Two-sample smooth test for the equality of distributions for dependent data and its bootstrap consistency¶

作者: Eric Beutner
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1214/25-ejs2352

一、领域脉络与小综述¶

这个方向是什么：两样本（及多样本）分布相等检验是统计推断的经典问题。其根本目标是：在给定两组数据（可能来自不同总体）时，判断它们是否来自同一个分布。本子方向聚焦于对依赖数据（dependent data，即样本间存在相关性或样本内存在时间序列/空间相关性）进行这种检验，而传统方法几乎都假设样本间独立且样本内独立同分布。当前该子方向的成熟度较低——大多数现有方法（如基于特征函数、核方法、Cramér-von Mises 型）的主要理论结果（渐近分布、bootstrap 有效性）都是在独立同分布假设下建立的，依赖数据下的严格理论结果是零散的、不完整的。
发展脉络（history） ：从论文的引用句和参考文献可梳理出一条清晰的脉络。
- 奠基工作：Rayner and Best (1989) 提出的 smooth test (平滑检验) 是该方法论的基石。它利用正交多项式对概率密度函数进行展开，将两样本分布相等检验转化为检验展开系数是否为零的问题（即检验分布密度在另一个分布的某个正交基下的投影是否为零）。
- 主要进展（将 smooth test 推广到两样本）：Beutner et al. (2021) [ref 47] 提出了两样本 smooth test，并将其形式化，该方法本身具有良好的性质（例如，在独立样本下其检验统计量是渐近分布自由的）。本文作者显然认为，这项工作留下了 “如何应对依赖数据” 的口子。
- 当前 frontier 与本文位置：作者指出，两样本问题的现有主流方法（特征函数法、经验似然、Cramér-von Mises）在很大程度上仍停留在独立数据假设上，而针对依赖数据（特别是样本间与样本内皆有的依赖）的理论结果仅零星可见。本文作者将该两样本 smooth test 作为支点，系统地处理了三种依赖设定，并证明在这些设定下其渐近分布仍然是分布自由的，同时设计了相应的 bootstrap 方案并证明其一致性。
子线索聚类：这些被引文献大致可分为以下几簇：
1. 平滑检验的基础理论：与 Neyman 的 smooth test 及正交多项式展开相关的工作。这簇是方法的内核。
2. 两样本分布相等检验的其他方法：如 特征函数法 (characteristic function-based)，核方法 (kernel-based, 如 MMD)，经验似然 (empirical likelihood)，Cramér-von Mises 型统计量。它们在独立数据下已经相当完善，但在依赖数据下的表现未知或不佳（这是作者 paper 中强调的缺口）。
3. 依赖数据下的统计推断：包括时间序列分析、面板数据、空间统计等背景下关于“依赖数据”的处理技术。这簇为理解三种依赖设定提供了理论基础。
4. Bootstrap 在依赖数据下的应用：如 block bootstrap、stationary bootstrap 等。本文的 bootstrap 方案直接借鉴了这些成果。
这个方向在追问的核心问题（2-4 个）：
1. 渐近分布的性质：在依赖数据下，检验统计量的极限分布是否仍与边际分布无关（即分布自由）？它的自由度（卡方分布的自由度）会受依赖结构影响吗？
2. Bootstrap 的有效性：在依赖数据下，bootstrap 能否准确估计出检验统计量的抽样分布（即 bootstrap 一致性）？什么 bootstrap 方案对应哪种依赖结构？
3. 方法的普适性：是否存在一个统一的理论框架，能同时涵盖样本间依赖、样本内依赖、以及两者兼有的情况？其他方法（如特征函经验似然）是否也能在依赖数据下获得类似结论？
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）：作者将缺口框架成 “现有两样本方法均未系统处理这三种依赖设定”，因此本文提出的依赖数据下的两样本 smooth test 及其 bootstrap 一致性是 “显然的下一步”。
- 被淡化/回避的竞争路线：作者提到了“基于特征函数的方法”、“经验似然”等，但没有详细比较它们在这些依赖设定下的具体表现或是否可推广。似乎回避了“为什么是 smooth test 而不是其他方法最适合这个任务”这一比较性问题。
- 什么明显该被引/该存在、却没出现在 intro 里？ 论文只引用了一篇关于“基于特征函数法在序列依赖下”的工作，但未提及在空间/面板数据依赖下是否存在相关工作。此外，关于“数据依赖结构已知 vs 未知”（如 ARMA vs 一般弱依赖）的严格分类和 bootstrap 选择策略，intro 中没有系统对比。
张力：未见明显对立引用。该领域工作主要集中在独立数据下的性能比较，依赖数据下的严格理论尚不丰富，因此不太可能出现在不同假设下得出矛盾结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
- \( X_1, ..., X_m \)：来自总体 \( P \) 的样本，样本量 \( m \)。在依赖设定中，它们可能不是独立同分布的，而是来自某个随机过程或序列。
- \( Y_1, ..., Y_n \)：来自总体 \( Q \) 的样本，样本量 \( n \)。
- \( H_0: P = Q \)：零假设，即两个总体分布相等。
- \( f(x) \) 和 \( g(x) \)：分别为 \( P \) 和 \( Q \) 的概率密度函数（或概率质量函数，假定为连续情形）。
- \( p_k(x), k=0,1,2,... \)：一组在区间(或支撑集)上正交的函数，通常取标准化正交多项式（如 Hermite 多项式、Legendre 多项式）。它们构成函数空间的一组基。
- \( \beta_k = \int f(x) p_k(x) dx \)：密度 \( f \) 在正交多项式 \( p_k \) 上的投影（即系数）。同样，定义 \( \gamma_k = \int g(x) p_k(x) dx \)。
- \( \hat{\beta}_k = \frac{1}{m} \sum_{i=1}^m p_k(X_i) \)：基于样本 \( X \) 的 \( \beta_k \) 的经验估计。类似有 \( \hat{\gamma}_k = \frac{1}{n} \sum_{j=1}^n p_k(Y_j) \)。
模型：论文的核心模型是半参数模型：对 \( P \) 和 \( Q \) 的分布不做任何参数化假设，仅假设它们有密度，并且该密度在一个有限维的正交函数空间中被良好近似。更具体地，考虑参数 \( K \)（展开维数），那么模型是 \( f(x) \approx \sum_{k=0}^{K-1} \beta_k p_k(x) \)。检验 \( H_0 \) 等价于检验 \( \beta_k = \gamma_k \) 对于 \( k = 0,...,K-1 \) 是否成立。注意：\( K \) 是选定的截断阶数，越大则逼近越精确，但统计量方差也会增大。实际模型不假设展开的前 \( K \) 项是真实密度的精确表示，但零假设下展开系数应相等。
可观测数据：研究者实际能观测到的是 \( \{X_i\}_{i=1}^m \) 和 \( \{Y_j\}_{j=1}^n \)。在依赖设定中，这些观测的联合分布不是简单的乘积分布（独立同分布）。例如，设定 (a)（样本间依赖），观测 \( (X_i, Y_i) \) 可能来自同一个 pair（如配偶、同一地点的观测），导致 \( X_i \) 和 \( Y_i \) 相关。设定 (b)（样本内依赖），观测 \( X_1, ..., X_m \) 可能是一个时间序列的连续值。
想要但观测不到的：除了两组样本的观测值，我们想要但观测不到的是：①每个样本内部的精确依赖结构（如 ARMA 的参数阶数、相关系数的具体值）；②样本间依赖的具体形式（如 \( X \) 和 \( Y \) 之间的 Copula 模型）。这些都需要在 bootstrap 步骤中通过某种机制（如 block bootstrap）去捕获，或在证明中利用某些强有力的假设（如混合条件）来绕过。

第二步：讲最小内核

最小内核：独立同分布 (i.i.d.) 的两样本 smooth test。

设定：假设 \( X_1, ..., X_m \) 和 \( Y_1, ..., Y_n \) 都是来自各自分布的独立同分布样本，且两个样本间相互独立。选择前 \( K \) 个正交多项式。在零假设 \( H_0: f=g \) 下，我们有 \( \beta_k = \gamma_k \) 对 \( k=1,...,K-1 \)（通常忽略截距项 \( k=0 \)）。定义两样本 smooth test 统计量为：
\[T_{m,n} = \sum_{k=1}^{K-1} \frac{(\hat{\beta}_k - \hat{\gamma}_k)^2}{\hat{\sigma}^2_k}\]
其中 \( \hat{\sigma}^2_k \) 是 \( \hat{\beta}_k - \hat{\gamma}_k \) 的方差的一个估计。在独立同分布且 \( m, n \to \infty \) 时，\( \hat{\beta}_k - \hat{\gamma}_k \) 是不同分布的中心化矩估计之差。根据经典中心极限定理和 Delta 方法，可以得到 \( T_{m,n} \) 的渐近分布是自由度为 \( K-1 \) 的卡方分布 \( \chi^2_{K-1} \)。
核心思路：这个简单的例子揭示了 smooth test 的核心：它将一个复杂的非参数检验问题转化为了一个参数检验问题——检验展开系数向量是否为零向量。当数据独立同分布时，经验系数 \( \hat{\beta}_k \) 是某种程度上均值为 \( \beta_k \) 的 i.i.d. 数据平均值，因此可以用传统的极大似然方法或矩估计方法构造检验统计量。整个问题的难度从“比较两个高维密度”退化成了“比较两个低维矩估计”。
难在哪儿：在依赖数据下，这个推理链断裂了。因为观测不再独立，\( \hat{\beta}_k \) 的方差不再是简单的 \( \text{Var}(p_k(X_1))/m \)；不同 \( k \) 之间的协方差也因依赖而变得更复杂。更麻烦的是，bootstrap 的对应理论（如 bootstrap 一致性）需要处理这种依赖结构——简单的 bootstrap 重抽样（如 i.i.d. bootstrap）会破坏或错误复制原数据的依赖结构，导致估计方差严重偏小（低估）或产生偏性。
本文的关键想法：本文假设了强有力的条件——例如，样本序列是强混合（\(\alpha\)-mixing）的，或者样本对 \((X_i,Y_i)\) 之间是成对可交换的——在这些条件下，可以证明：①经过适当的方差标准化（通过一个关于依赖结构的长期方差估计，如使用 Newey-West 型估计器），上述统计量 \( T_{m,n} \) 或其它的变体（如使用单个正交基下的标量统计量）的渐近分布仍然是 \(\chi^2\) 或正态分布。②采用独立 bootstrap（针对样本间独立但样本内依赖的设定）或 paired bootstrap（针对样本间依赖的设定）或混合 bootstrap（同时处理两种依赖）方案，可以保持 bootstrap 分布与原统计量抽样分布之间的弱收敛性（即 bootstrap 一致性）。这一结论的核心在于，尽管依赖结构复杂，但只要它是“远处衰减”的（由 mixing 条件保证），并且 bootstrap 方案正确地复制了这种衰减，那么基于 bootstrap 的临界值就能提供渐近正确的检验水平。

三、这篇论文做了什么¶

三句话：①研究了在三种依赖设定下（样本间依赖、样本内依赖、两者兼有）两样本分布相等检验的渐近理论。②核心工具是基于正交多项式的smooth test（平滑检验），并为其在依赖数据下的应用构造了相对应的 bootstrap 重抽样方案。③主要结论是：在所有三种设定下，该检验统计量的渐近分布都是分布自由（与边际分布无关）的，并且所构造的 bootstrap 方案是相合的（bootstrap consistency）。
关键设定与假设：
- 设定 1 (样本间依赖，样本内独立)：数据为成对独立的观测 \( (X_i, Y_i) \)，但 \( X_i \) 与 \( Y_i \) (相同 i) 之间可能任意相关。这个设定覆盖了配对设计（matched pairs）或纵向数据（一个观测对象的两个不同变量）。
- 设定 2 (样本独立，样本内依赖)：数据为两个独立的时间序列（或一般意义下的随机过程）\( \{X_t\} \) 和 \( \{Y_t\} \)。假设序列是严格平稳且α-混合（\(\alpha\)-mixing，或更强的条件如 \(\phi\)-mixing）的，以确保依赖的衰减可被量化。样本内依赖意味着 \( X_t \) 可能与 \( X_{t-1} \) 相关。
- 设定 3 (样本间与样本内都有依赖)：这是前两者的结合——\( (X_t, Y_t) \) 是一个二维平稳时间序列，内部可能有双向依赖。
- 假设条件：论文列出了具体的数学假设（如本文定理1-3的条件）。这些假设包括：
  - 混合条件：对时间序列（设定2和3）要求α-混合系数随滞后距离衰减的速度足够快（如几何衰减），使得某些中心极限定理和弱大数定律成立。
  - 矩条件：要求正交多项式 \( p_k(\cdot) \) 在相应分布下有有限矩（通常只要求矩存在或有界）。
  - 核函数带宽：在设定2和3中，为估计长期方差（long-run variance），需要使用核估计（如 Bartlett 核或 Parzen 核），且带宽需随样本量增长而增长，但远小于样本量（通常是 \( h \sim O(T^{1/3}) \) 至 \( O(T^{1/2}) \)）。
  - 光滑性条件：对正交多项式展开的逼近似度有假设，但非核心（因为是检验问题，而非估计问题）。
- 相比已有文献：已有的两样本 smooth test 假设样本间独立且样本内独立。本文显然放宽了这两个假设，是更一般的框架。作者声称“在依赖数据下，其他方法（如特征函数法、Cramér-von Mises）的理论结果尚未覆盖这三个设定”。
主要结果（理论）：
- 定理 1 (设定 1：样本间依赖)：定义统计量 \( S = \sum_{k=1}^{K-1} ( \frac{1}{m} \sum_{i=1}^m h_k(X_i, Y_i) )^2 \)，其中 \( h_k(x,y) = p_k(x) - p_k(y) \)。然后给出在平滑性假设下，当 \( m \to \infty \) 时，\( S \) 的渐近分布是自由度为 \( K-1 \) 的卡方分布。关键解决了样本间相关带来的方差协方差估计问题，结论是独立的情况下的自由度没有改变。
- 定理 2 (设定 2：样本内依赖)：定义基于每个样本的长期方差的 Wald 型统计量。证明其渐近分布是卡方分布，但自由度仍然是 K-1，且分布在所有平稳α-混合过程下是分布自由的（即与边际分布无关）。这是重难点，因为长期方差的结构复杂，需要合适的估计核函数。
- 定理 3 (设定 3：混合依赖)：与定理2类似，但长期方差的估计要同时考虑样本间和样本内的相互作用，证明其渐近分布仍是分布自由的（卡方分布）。
- Bootstrap 一致性：对应每个设定，论文构造了具体的 bootstrap 方案：
  - Bootstrap A (设定 1)：采用配对 bootstrap——从原始配对样本 \((X_i, Y_i)\) 中有放回地抽样，每次抽到一对，从而保持样本间的依赖结构。
  - Bootstrap B (设定 2)：采用独立 block bootstrap——对每个时间序列分别进行 block bootstrap（将序列分成若干重叠的块，随机重排这些块），每个块内部保持样本内的依赖结构。
  - Bootstrap C (设定 3)：采用成对 block bootstrap——对二维时间序列 \((X_t, Y_t)\) 的成对观测进行 block bootstrap，同时保留样本间和样本内的依赖结构。
  - 关键结果：在这三种 bootstrap 方案下，bootstrap 分布与原统计量的抽样分布之间的 Kolmogorov-Smirnov 距离或 Mallows 距离依概率收敛到零，即 bootstrap 分布是一致的。
证明路线与技术技巧（理论型必写，要具体）：
- 整体路线：证明的整体逻辑是：先证明原始的 Wald 统计量 \( T_{m,n} \) 在零假设下弱收敛到 \( \chi^2_{K-1} \) 或 \( \chi^2_{K-1} \)，然后证明 bootstrap 版本的统计量 \( T^*_{m,n} \) 在给定原始样本的条件下也弱收敛到同一个分布。两个收敛目标相同，但收敛空间不同（前者是原始概率空间，后者是条件于样本的 bootstrap 概率空间）。
- 关键跳跃点：
  - 跳跃 1：弱收敛的证明（定理1-3）：核心是证明向量 \( \hat{\boldsymbol{\delta}} = (\hat{\beta}_1 - \hat{\gamma}_1, ..., \hat{\beta}_{K-1} - \hat{\gamma}_{K-1})^\top \) 在依赖数据下均收敛到多元正态分布，且其协方差矩阵的估计是相合的。证明需要用泛函中心极限定理或伯恩斯坦不等式来处理依赖数据的函数，特别是对混合序列的积累和（cumulative sums）的极限分布。技巧包括：对依赖的调整、应用mixing 条件下的 CLT（如 Doukhan (1994) 中的定理）。
  - 跳跃 2：Bootstrap 一致性的证明：需要证明 bootstrap 版本的 \( \hat{\boldsymbol{\delta}}^* \) 的条件分布（给定原始样本）弱收敛到与原始渐近分布一样的多元正态分布。这通常依赖于bootstrap 在混合序列下的弱收敛性质。对于 block bootstrap，需要证明在块长 \( l \to \infty \) 且 \( l/m \to 0 \) 的情况下，bootstrap 的方差估计是原始长期方差的一致估计。这是一个比较繁重的技术步骤，涉及到 block bootstrap 的 Edgeworth 展开或用弱依赖的条件中心极限定理。
- 技术技巧点名：
  - 混合序列中心极限定理 (CLT for mixing sequences)：用于证明设定2和设定3下向量的渐近正态性，这是核心工具。
  - 核密度平滑 / 核长期方差估计：用于估计样本内依赖带来的长期方差（Newey-West 型估计）。使用的核（如 Bartlett 核或 Parzen 核）和带宽的选择是关键。
  - Block Bootstrap： 具体是圆块 bootstrap (Circular Block Bootstrap) 或 其中一种改进版本，用于复制依赖结构。
  - 条件收敛与无条件收敛的等价性：在证明 bootstrap 一致性时，通常需要利用原始样本的足够强的条件，以确保 bootstrap 统计量的条件分布几乎必然或依概率收敛到极限分布。
真实例子与应用：本文为纯理论，无实证例子（无模拟研究、无真实数据应用）。作者在结论部分提到“本文的结果打开了对某些实际应用的大门……”，但并未提供一个例子。
🔎 结论是否比证明窄：作者在引言中声称 “其他方法未覆盖这些依赖设定”。然而，需要核实的是，其他方法（特征函数法、Cramér-von Mises）是否真的在混合依赖假设下被证明是无效的（即没有对应的理论结果）。很可能作者引用的是独立同分布假设下的条件，而混合条件下可能有类似的理论但未知。另外，结论中提到的分布自由性（asymptotic distribution-free） 严格依赖于关键的假设（如混合条件、矩条件、核函数带宽的选择）。如果不满足这些条件（例如，依赖是长期记忆的、非平稳的，或混合衰减太慢），则结论不能保证成立。作者在原文中应该也提到了这些假设条件，但读者在阅读时容易忽略这些“紧致”的假设。

四、开放问题¶

检验功效分析：本文只提供了在零假设下的渐近分布及 bootstrap 一致性。一个自然的问题是：对于给定的依赖结构和备择假设（如 \( P \) 和 \( Q \) 有不同均值或方差），该 smooth test 的检验功效如何？ 比较它与其他竞争方法（如特征函数法在依赖数据下的变形，或经验似然）在功效上的优劣，是一个需要数值模拟或理论分析的问题。扎根点：论文并未提供关于功效的任何定量结论；conclusion 中仅说“打开了大门”。
更复杂的混合结构：本文假设了 α-混合（或特定类型的混合）条件。对于更复杂或更一般的依赖结构（如空间依赖、图结构依赖、异构（heterogeneous）依赖），是否还能建立类似的分布自由性和 bootstrap 一致性？ 这是统计理论中的开放问题。扎根点：论文的设定明确为两种简单依赖（配对样本或平稳时间序列），没有涵盖更复杂的结构。
高阶展开与更优的 bootstrap：本文采用了 block bootstrap。有没有可能设计出更高效的 bootstrap 方案（如 wild bootstrap、 autoregressive bootstrap），使得在有限样本下（特别是样本量较小但仍满足混合条件）的检验水平和功效性能优于 block bootstrap？这是一个理论问题，也涉及实际应用。扎根点：作者在引言中提到“提出了各种 bootstrap 方案”，但并未与其他可能方案进行比较。
计算复杂性：Smooth test 基于正交多项式，计算量主要取决于正交多项式的计算和协方差矩阵的估计。对于超高维数据（如每个观测有多个维度），正交多项式展开的维数 \( K \) 会爆炸，导致维度灾难。是否存在一个有效的算法或降维技巧（如使用 tensor 分解），使得 smooth test 能扩展到高维依赖数据？ 这与你对 tensor-network/einsum 复杂度的兴趣相关。由于本文是纯理论无实证，这个问题的答案可以从其他关于高维依赖数据检验的文献中寻找，或直接作为一个 interesting research question。

Maintained by 陈星宇 · Homepage · Source on GitHub

Two-sample smooth test for the equality of distributions for dependent data and its bootstrap consistency¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论