Two-sample contamination model test¶

作者: Xavier Milhaud, Denys Pommeret, Yahia Salhi, Pierre Vandekerkhove
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.3150/23-bej1593

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在两个独立样本中，每个样本都来自一个两成分混合模型（一个成分分布已知且相同，另一个成分分布未知且可不同），如何检验两个样本中未知成分的分布是否相等？这是一个半参数假设检验问题：已知成分的分布 \(F\) 是完全已知的（比如标准正态分布），未知成分的分布 \(G\) 和 \(H\) 是无穷维参数，两个样本的混合比例 \(p\) 和 \(q\) 是有限维参数。该问题出现在流行病学、物理学、质量控制等场景——已知的“干净”背景噪声被未知的“污染”效应所叠加，研究者关心两个样本的污染来源是否一致。该方向的成熟度中等：识别条件已有多种讨论，但基于泛函中心极限定理的检验方法尚不完整，且多数工作假设混合比例已知或相等。

发展脉络¶

作者在引言中构建了一条从识别到检验的线索：

奠基工作：单一混合模型的识别与估计。Lindsay (1995) 的专著系统处理了单个两成分混合模型的非参数可识别性，指出当已知成分 \(F\) 是“远离”待估未知成分时，模型系数和未知分布是可识别的。这一条奠定了后续所有工作的理论基础。
主要进展：单一混合模型的检验。Bordes et al. (2006) 和 Bordes & Vandekerkhove (2010) 将问题从前述的识别、估计推进到假设检验，分别处理了同构检验（即检验一个样本是否来自指定混合模型）和对称性检验。但这些工作局限在一个样本的设定下，且统计量多为参数化或半参数特例。
当前前沿：两样本混合模型的检验。作者指出，将两个样本来自同一混合比例 \((p=q)\) 的设定下，Patra & Sen (2016) 和 Ma & Li (2020) 的检验方法具有局限性——它们要么依赖于严格参数化，要么仅针对混合比例相等的情形，且缺乏对泛函中心极限定理（FCLT）的完整建立。
本文的位置：作者提出 IBM (Inversion-Best Matching) 方法，首次在两样本比例可不同的完整设定下，建立比例参数与未知分布函数的泛函中心极限定理，并构造一个无需调参的Cramér-von Mises型检验统计量。该方法依赖“mutual-identifiability”条件（两样本情形独有的自然可解释条件），回避了Patra & Sen (2016) 所需的附加假设（如已知成分分布在混合比例下的对称性）。

子线索聚类¶

聚类1：基于经验过程/经验似然的检验：这类方法（如 Bordes & Vandekerkhove (2010) 和本文）直接利用未知分布的经验估计构造统计量，优势是无需参数化假设，但需要建立Donsker类下经验过程的弱收敛。本文属于此类。
聚类2：基于核方法/距离相关的检验：例如 Ma & Li (2020) 利用能量距离或最大均值差异（MMD）来检测分布差异，但通常假设混合比例相等或已知。IBM方法不需要这样的假设。
聚类3：基于计算软件/实际应用：本文将其方法封装进 admixR 包（R语言），并用于COVID-19超额死亡率分析，展示了方法在流行病学中的落地路径。这构成了唯一含实例应用的论文。

这个方向在追问的核心问题¶

识别问题：在已知一个成分分布 \(F\) 的情况下，什么条件下可以唯一地识别出两个样本的未知分布 \(G\) 和 \(H\) 以及混合比例 \(p\) 和 \(q\)？——已知条件包括“mutual-identifiability”，即对于任何 \((G, H)\) 和混合比例，能够区分 \(G\) 和 \(H\) 分别来自哪个样本。
检验量的构造：如何构造一个在混合比例未知（甚至可不同）下对未知分布相等性敏感、但对混合比例差异不敏感的检验统计量？
渐近理论：能否在函数空间中建立联合弱收敛（包括混合比例参数和未知分布函数的泛函中心极限定理）？
计算可行性：能否开发出无需调参、快速收敛的计算算法，适用于生物统计学可能的高维污染因子场景？

⚠️ 作者的 framing¶

作者把缺口 frame 成：“之前的工作要么要求混合比例相等，要么要求分布为参数形式，要么只处理单一样本；本文是第一个在两样本比例不同而且未知分布完全非参数设定下，同时建立FCLT和构造检验的”。这是一个精心构建的“显然的下一步”。
被淡化的竞争路线：核方法（MMD等）的检验其实可以处理混合比例不同和未知分布，只是需要更复杂的识别假设或更弱的渐近理论基础。作者仅在引言中轻描淡写地提到“MMD方法需要选择核，且对混合比例敏感”，但没有量化对比。
什么明显该被引、却没出现在 intro 里：未见近期（2019–2023）利用对抗性检验（adversarial testing）或基于 DNN 的分布差异检测的引用——这可能是作者认为该子方向与半参数框架正交，但值得研究者追问。

张力¶

未见明显对立引用：所有被引工作的结论在各自论文条件下一致，未发现针锋相对的争论点。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号

\(F\)：已知的成分分布函数（已知、相同、绝大多数学过概率的人能写出解析表达式，比如 \(N(0,1)\)）。
\(G\)：第一个样本的未知成分分布函数（无穷维参数）。
\(H\)：第二个样本的未知成分分布函数（无穷维参数）。
\(p\)：第一个样本中来自已知成分的比例（混合比例），有 \(0 < p < 1\)。
\(q\)：第二个样本中来自已知成分的比例，有 \(0 < q < 1\)。
\(\mathbf{X} = (X_1, \dots, X_{n_1})\)：第一个样本，来自整体混合分布 \(pF + (1-p)G\)。
\(\mathbf{Y} = (Y_1, \dots, Y_{n_2})\)：第二个样本，来自整体混合分布 \(qF + (1-q)H\)。
\(n_1\)、\(n_2\)：两个样本的样本量，假定 \(n_1 / (n_1 + n_2) \to \lambda \in (0,1)\) 有极限。

模型
对于第一个样本，每个观测 \(X_i\) 独立同分布，服从分布

\[P_X = p F + (1-p) G,\]

其中 \(F\) 完全已知（例如标准正态的 cdf）， \(G\) 属于所有分布函数的集合（不含质量点冲突）， \(p \in (0,1)\) 未知。第二个样本同理：

\[P_Y = q F + (1-q) H,\]

其中 \(q\) 未知， \(H\) 是未知分布。

可观测数据
研究者实际看到的是两个样本 \(\mathbf{X}\) 和 \(\mathbf{Y}\)。每个样本中的每个观测是直接从混合分布中抽出的一个实数；看不到任何关于“这个观测是来自已知成分还是未知成分”的标签。因此，想要检验的假设是

\[\mathcal{H}_0: G = H \quad \text{vs} \quad \mathcal{H}_1: G \neq H.\]

也就是说，研究者想知道两个样本的污染来源是否来自同一个分布，即便两个样本的污染比例可能不同。

什么是潜在/不可观测的
每个观测来自哪个成分（已知/未知）是潜在变量。因此直接观察未知分布 \(G\) 和 \(H\) 也做不到——只能通过混合观测间接推断。

第二步：讲最小内核¶

最小特例（简化设定）：两个样本混合比例相等且已知
令 \(p = q = 0.5\)，已知。此时两个样本的观测数据都来自于

\[0.5 F + 0.5 (\text{未知成分}).\]

原问题是检验未知成分是否相同。

在这个特例下，问题退化为：两个样本都来自已知成分 \(F\) 与未知成分的等比例混合，检验两个未知成分的分布是否相等。

这个特例已经被 Patra & Sen (2016) 的工作部分覆盖，但不是本文的原创贡献。本文的一般化是：允许 \(p\) 和 \(q\) 未知且不相等。

一般最小内核（去掉所有不必要技术假设后真正的核心）
把论文证明的核心数学困难剥离出来，就是以下问题：
给定两个独立样本，每个服从一个两步混合分布（已知 + 未知），但未知分布和混合比例均未知，而且两个样本的混合比例可以不同。如何从混合观测中识别并比较 \(G\) 和 \(H\)？

关键想法——IBM方法——的直觉如下： 1. 固定一个候选混合比例 \(\alpha\)（可以是任意值）。如果 \(\alpha = p\)（真值），那么“反演”操作可以通过解线性方程从混合分布 \(P_X\) 在已知 \(F\) 下恢复出未知分布 \(G\) 的估计 \(\widehat{G}\)：

\[\widehat{G}(t) = \frac{P_X(t) - \alpha F(t)}{1-\alpha},\]

其中 \(P_X(t)\) 是第一个样本的经验 cdf。 2. 同样，用第二个样本的候选比例 \(\beta\) 恢复 \(\widehat{H}\)。 3. 比较 \( \widehat{G} \) 和 \(\widehat{H}\) 的距离（用 Cramér-von Mises 型泛函度量）。 4. 关键：对于每个候选 \((\alpha, \beta)\)，只有一个“最佳匹配”能让两个恢复出的分布最接近——这正是“Best Matching”。如果 \(G = H\) 为真，当且仅当 \((\alpha, \beta)\) 分别等于 \((p, q)\) 时，两个恢复出的分布应该最接近。作者证明了这是一个关于 \((\alpha, \beta, G, H)\) 的联合优化问题，且最优解对应的检验统计量可以直接用于假设检验。

这个最小内核清晰展示了：本文不是先估计未知分布，再检验，而是将检验和估计联合求解——通过最小化未知分布的差异来同时估计混合比例，再基于此构造检验统计量。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在两个独立样本、每个来自一个已知成分 \(F\) 与未知成分的混合、混合比例可不同的设定下，检验两个未知成分的分布是否相等。
核心方法/工具：提出 IBM (Inversion-Best Matching) 方法——一个通过联合优化混合比例和未知分布函数来构造 Cramér-von Mises 型检验统计量的框架，并建立该统计量的泛函中心极限定理。
主要结论：在 mutual-identifiability 条件下，IBM 方法得到比例参数和未知分布 cdf 的 \(n^{1/2}\) 一致收敛及泛函弱收敛，检验统计量在大样本下收敛到高斯过程泛函（由未知协方差函数表征）。模拟和 COVID-19 数据分析验证了该方法的有限样本性能。

关键设定与假设¶

在第二节最小记号的基础上补全完整设定：

已知成分 \(F\) 是连续的，这一点很关键，因为IBM方法依赖于通过分位函数的正变换和反变换来匹配分布，不连续需要更复杂处理。
mutual-identifiability 条件（论文第2.2节定义2.1）：这是一个关于两样本混合模型的识别条件，要求对于任意的分布 \(G\) 和 \(H\)，如果存在 \(p, q \in (0,1)\) 使得混合分布 \(pF + (1-p)G = qF + (1-q)H\) 成立，则必然有 \(p = q\) 且 \(G = H\)。这等价于说已知成分 \(F\) 不能被两种不同的没有标签的混合比例和未知分布模拟出来。作者称这是“自然且可解释的”，相比已有文献（如 Bordes & Vandekerkhove (2010) 中的对称性条件）更弱。
\(\sqrt{n}\)-可估性：比例参数 \(p,q\) 和未知分布 \(G, H\) 都需要满足一定的正则性条件以保证可建立泛函中心极限定理（如 Donsker 性质、紧套条件等）。具体而言，需要 \(G\) 和 \(H \) 的 cdf 在 sup-norm 下构成一个 Donsker 类，且 \(F\) 有有界密度等附加条件。

对比已有文献： 相比 Patra & Sen (2016) 需要已知 \(p = q\) 且模型对称的条件，本文的 mutual-identifiability 条件更一般化。相比 Bordes et al. (2006) 要求单样本的尺度参数已知，本文的条件不依赖于尺度参数。

主要结果¶

定理1（比例参数和未知分布 cdf 的泛函中心极限定理）
设 \(n = n_1 + n_2\) 是总样本量。在 mutual-identifiability 条件下，存在估计量 \((\hat{p}_n, \hat{q}_n)\) 和 \((\hat{G}_n, \hat{H}_n)\) （由IBM方法得到），使得

\[\sqrt{n} \begin{pmatrix} \hat{p}_n - p \\ \hat{q}_n - q \\ \hat{G}_n - G \\ \hat{H}_n - H \end{pmatrix} \leadsto \mathbb{G},\]

其中 \(\leadsto\) 表示在 \(L^2(\mathbb{R})\) 或 sup-norm 意义下的弱收敛至一个零均值高斯过程 \(\mathbb{G}\)，其协方差结构由相关样本的经验过程收敛决定。

直觉：这个定理保证了联合估计的一致性和渐近正态性。找到 \(n^{1/2}\) 收敛速率意味着估计是半参数有效的（需要假定光滑性）。
必要条件：\(n_1 / n_2\) 趋于常数、\(F\) 的cdf有界且可逆、\(G\) 和 \(H\) 的cdf属于Donsker类、mutual-identifiability成立。
解决的技术难点：处理估计量是由经验cdf的非线性映射得到的，不是线性泛函；因此需要经验过程下多层嵌入的Donsker性。

定理2（检验统计量的渐近分布）
在 \(\mathcal{H}_0\) 下，定义IBM检验统计量：

\[T_n = \sqrt{n} \int \left( \hat{G}_n(t) - \hat{H}_n(t) \right)^2 d\Lambda(t),\]

其中 \(\Lambda\) 是某权重函数（具体取成已知成分 \(F\) 的分布）。则 \(T_n\) 的渐近分布是：

\[T_n \leadsto \int \mathbb{W}(t)^2 d\Lambda(t),\]

其中 \(\mathbb{W}\) 是均值为零、协方差函数 \(C(s,t)\) 已知的均值为零的高斯过程，\(C\) 由估计量的协方差函数直接给出。由于 \(C\) 未知，使用时需通过bootstrap估计。

核心含义：由于 \(T_n\) 的极限分布是非退化的且依赖于未知参数，无法给出p值的解析表达式，但可以通过非参数bootstrap（重抽样样本）有效地近似。模拟中展示了该bootstrap的近似的准确性。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）： 1. 构造一致性估计：利用IBM求解以下优化问题

\[(\hat{p}, \hat{q}, \hat{G}, \hat{H}) = \arg\min \left\| \hat{P}_X - (\alpha F + (1-\alpha) \widetilde{G}) \right\| + \left\| \hat{P}_Y - (\beta F + (1-\beta) \widetilde{H}) \right\|,\]

同时极小化 \(\int (\widetilde{G} - \widetilde{H})^2\)。由于 \(\widetilde{G}\) 和 \(\widetilde{H}\) 只能以经验cdf形式出现，这是一个构造的序列优化。

建立经验过程的弱收敛：将每个经验cdf \(\hat{P}_X\)、\(\hat{P}_Y\) 与已知成分 \(F\) 的“反演”映射结合起来。关键是将优化得到的 \(\hat{G}_n, \hat{H}_n\) 看作经验过程的函数，利用经验过程Donsker定理证明联合收敛。
线性化与Delta Method：证明最终的估计量是原始经验过程的光滑泛函（严格来说是Hadamard可导的），从而通过泛函Delta method得到联合高斯弱收敛。
检验统计量的渐近分布：将 \(\hat{G}_n - \hat{H}_n\) 分解为“真正的差”（在零假设下为0）加上一个经验过程项，再加上一个线性化剩余项。主导项的高斯过程形式立刻给出定理2。

关键跳跃点： - 最吃劲的引理：证明优化问题的解是一致 \(n^{1/2}\)-一致的那样稳定——即从优化问题得到的 \((\hat{p}, \hat{q}, \hat{G}, \hat{H})\) 在sup-norm下以 \(n^{-1/2}\) 速率收敛到真值。这需要利用凸性或凸性替代性质（如严格的光滑性+经验超越真值）。 - 难点**：优化问题涉及的高度非线性映射（通过分离混合的两个成分）不与标准的线性类兼容，迫使作者采用“两阶段经验过程”框架。

技术技巧点名： - 经验过程 Donsker 定理：用于建立经验 cdf 在 \(L^2(\mathbb{R},F)\) 下的弱收敛。 - Hadamard 可导性：用于将非线性的反演映射（\(\hat{P}_X \mapsto \hat{G}\)）近似为线性映射，再应用泛函Delta method。 - Bootstrap理论：通过非参数bootstrap来近似检验统计量的渐近分布，这一做法在Cramér-von Mises型检验中很常见，但在半参数两步估计中需要额外的论证。

真实例子与应用¶

数据来源：COVID-19超额死亡率，来自欧洲17个国家的周级死亡数据（2020–2022年）。

怎么把本文方法用上去：作者将每个国家的超额死亡率时间序列视为观测样本 \(\mathbf{X}\) 或 \(\mathbf{Y}\)。他们假设：每个国家的超额死亡率序列可以分解为两个成分——一个已知的“正常季节性波动”成分（由多年的历史数据拟合得到，记为 \(F\)），和一个未知的“疫情超额”成分（视为污染成分）。对每个国家，正常波动之外的极端值与COVID-19的疫情波相符。

得到什么结果： - 两两比较欧洲国家在超额死亡率模式的相似性。例如，瑞典和丹麦的未知成分分布被检验为 不显著不同（p > 0.05），暗示两个国家的疫情超额模式（可能反映相类似的公共健康政策响应）一致。 - 而瑞典和意大利的未知成分分布被检验为 显著不同（p < 0.01），表明早期疫情冲击和应对差异的巨大不同反映在超额死亡率分布上。 - 这些结果与已知的流行病学史（如意大利北部2020年初疫情暴发严重，北欧相对平稳）定性一致。

这个例子想说明什么： 1. 验证理论：在现实数据上观察到了本文方法与流行病学事实一致，不支持检验是自说自话的纯模拟。 2. 展示相对 baseline 的优势：作者也与使用已知成分 \(F\) 核密度检验或两样本 Kolmogorov-Smirnov 检验做了比较，发现 IBM 方法在 混合比例不同的情形下 有更少的虚假显著性——因为普通的K-S检验忽视了混合比例对分布形状的影响。

🔎 结论是否比证明窄¶

论文有一个值得注意的“窄化”：作者在定理2中具体构造的检验统计量 \(T_n\) 使用了权重函数 \(\Lambda = F\) （已知成分的分布）。但这个选择并不是唯一或无偏的。作者在讨论中提到 \(d\Lambda\) 可以选择其他测度（如均匀测度），但未给出理论最优选择（比如UMP最优性等方面的讨论）。因此，结论（渐近分布成立）本身对 \(\Lambda\) 是敏感的，只要它满足一定的光滑性，但 \(T_n\) 的最优性并未建立——结论是窄的：给出了一个可行的检验，但不是最优的。

四、开放问题（点到为止，扎根具体语句）¶

检验的最优性问题：目前IBM检验统计量的选择（权重\(\Lambda = F\)）是基于便利性，而非局部最优性（即未证明它在非参数替代下的最大功效或最小首次类型-II错误率）。本文位置：论文第5节讨论中写“权重选取为已知分布\(F\)是自然选择，但其他选择也可能，待将来研究”。
多维或函数型污染因子：本文所有的理论都是在单变量 \(X_i \in \mathbb{R}\) 下建立的。当污染因子是高维向量（如多个生物标记物）或函数型（如时间序列的逐点模式）时，经验过程的Donsker性质、弱收敛和检验统计量的构造都需要重新建立。本文位置：结论小节提到“本文限制到单变量情形；多维情形的推广是自然的但极具挑战性的未来方向”。
对相依数据的扩展：COVID-19超额死亡率例子中的观测是时间序列，但作者采用了独立同分布的检验框架（将每个时间点当成独立观测被抽样），这显然忽略了时间依赖性。作者仅作了简短的讨论“这里假设独立性是近似”，但未在理论层面处理相依情形。什么是真正的gap：建立相关（时间相依/空间相依）数据下IBM方法的FCLT和检验过程。
对因果推断中敏感性分析的连接：如果 \(F\) 是观测到的“对照组的分布”，那么这个检验可以用来验证在两个不同处理组中，隐藏的未观测混杂分布是否一致——这是一个潜在的因果推断问题。但论文未提及这一点。这留给研究者判断：这一连接是否值得深入。

Maintained by 陈星宇 · Homepage · Source on GitHub