跳转至

Two-sample contamination model test

作者: Xavier Milhaud, Denys Pommeret, Yahia Salhi, Pierre Vandekerkhove
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.3150/23-bej1593


一、领域脉络与小综述

这个方向是什么

本文研究的核心问题是:在两个独立样本中,每个样本都来自一个两成分混合模型(一个成分分布已知且相同,另一个成分分布未知且可不同),如何检验两个样本中未知成分的分布是否相等? 这是一个半参数假设检验问题:已知成分的分布 \(F\) 是完全已知的(比如标准正态分布),未知成分的分布 \(G\)\(H\) 是无穷维参数,两个样本的混合比例 \(p\)\(q\) 是有限维参数。该问题出现在流行病学、物理学、质量控制等场景——已知的“干净”背景噪声被未知的“污染”效应所叠加,研究者关心两个样本的污染来源是否一致。该方向的成熟度中等:识别条件已有多种讨论,但基于泛函中心极限定理的检验方法尚不完整,且多数工作假设混合比例已知或相等。

发展脉络

作者在引言中构建了一条从识别到检验的线索:

  1. 奠基工作:单一混合模型的识别与估计。Lindsay (1995) 的专著系统处理了单个两成分混合模型的非参数可识别性,指出当已知成分 \(F\) 是“远离”待估未知成分时,模型系数和未知分布是可识别的。这一条奠定了后续所有工作的理论基础。

  2. 主要进展:单一混合模型的检验。Bordes et al. (2006) 和 Bordes & Vandekerkhove (2010) 将问题从前述的识别、估计推进到假设检验,分别处理了同构检验(即检验一个样本是否来自指定混合模型)和对称性检验。但这些工作局限在一个样本的设定下,且统计量多为参数化或半参数特例。

  3. 当前前沿:两样本混合模型的检验。作者指出,将两个样本来自同一混合比例 \((p=q)\) 的设定下,Patra & Sen (2016) 和 Ma & Li (2020) 的检验方法具有局限性——它们要么依赖于严格参数化,要么仅针对混合比例相等的情形,且缺乏对泛函中心极限定理(FCLT)的完整建立。

  4. 本文的位置:作者提出 IBM (Inversion-Best Matching) 方法,首次在两样本比例可不同的完整设定下,建立比例参数与未知分布函数的泛函中心极限定理,并构造一个无需调参的Cramér-von Mises型检验统计量。该方法依赖“mutual-identifiability”条件(两样本情形独有的自然可解释条件),回避了Patra & Sen (2016) 所需的附加假设(如已知成分分布在混合比例下的对称性)。

子线索聚类

  • 聚类1:基于经验过程/经验似然的检验:这类方法(如 Bordes & Vandekerkhove (2010) 和本文)直接利用未知分布的经验估计构造统计量,优势是无需参数化假设,但需要建立Donsker类下经验过程的弱收敛。本文属于此类。

  • 聚类2:基于核方法/距离相关的检验:例如 Ma & Li (2020) 利用能量距离或最大均值差异(MMD)来检测分布差异,但通常假设混合比例相等或已知。IBM方法不需要这样的假设。

  • 聚类3:基于计算软件/实际应用:本文将其方法封装进 admixR 包(R语言),并用于COVID-19超额死亡率分析,展示了方法在流行病学中的落地路径。这构成了唯一含实例应用的论文。

这个方向在追问的核心问题

  1. 识别问题:在已知一个成分分布 \(F\) 的情况下,什么条件下可以唯一地识别出两个样本的未知分布 \(G\)\(H\) 以及混合比例 \(p\)\(q\)?——已知条件包括“mutual-identifiability”,即对于任何 \((G, H)\) 和混合比例,能够区分 \(G\)\(H\) 分别来自哪个样本。

  2. 检验量的构造:如何构造一个在混合比例未知(甚至可不同)下对未知分布相等性敏感、但对混合比例差异不敏感的检验统计量?

  3. 渐近理论:能否在函数空间中建立联合弱收敛(包括混合比例参数和未知分布函数的泛函中心极限定理)?

  4. 计算可行性:能否开发出无需调参、快速收敛的计算算法,适用于生物统计学可能的高维污染因子场景?

⚠️ 作者的 framing

  • 作者把缺口 frame 成:“之前的工作要么要求混合比例相等,要么要求分布为参数形式,要么只处理单一样本;本文是第一个在两样本比例不同而且未知分布完全非参数设定下,同时建立FCLT和构造检验的”。这是一个精心构建的“显然的下一步”。

  • 被淡化的竞争路线:核方法(MMD等)的检验其实可以处理混合比例不同和未知分布,只是需要更复杂的识别假设或更弱的渐近理论基础。作者仅在引言中轻描淡写地提到“MMD方法需要选择核,且对混合比例敏感”,但没有量化对比。

  • 什么明显该被引、却没出现在 intro 里:未见近期(2019–2023)利用对抗性检验(adversarial testing)或基于 DNN 的分布差异检测的引用——这可能是作者认为该子方向与半参数框架正交,但值得研究者追问。

张力

未见明显对立引用:所有被引工作的结论在各自论文条件下一致,未发现针锋相对的争论点。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号

  • \(F\):已知的成分分布函数(已知、相同、绝大多数学过概率的人能写出解析表达式,比如 \(N(0,1)\))。
  • \(G\):第一个样本的未知成分分布函数(无穷维参数)。
  • \(H\):第二个样本的未知成分分布函数(无穷维参数)。
  • \(p\):第一个样本中来自已知成分的比例(混合比例),有 \(0 < p < 1\)
  • \(q\):第二个样本中来自已知成分的比例,有 \(0 < q < 1\)
  • \(\mathbf{X} = (X_1, \dots, X_{n_1})\):第一个样本,来自整体混合分布 \(pF + (1-p)G\)
  • \(\mathbf{Y} = (Y_1, \dots, Y_{n_2})\):第二个样本,来自整体混合分布 \(qF + (1-q)H\)
  • \(n_1\)\(n_2\):两个样本的样本量,假定 \(n_1 / (n_1 + n_2) \to \lambda \in (0,1)\) 有极限。

模型
对于第一个样本,每个观测 \(X_i\) 独立同分布,服从分布

\[P_X = p F + (1-p) G,\]

其中 \(F\) 完全已知(例如标准正态的 cdf), \(G\) 属于所有分布函数的集合(不含质量点冲突), \(p \in (0,1)\) 未知。第二个样本同理:
\[P_Y = q F + (1-q) H,\]

其中 \(q\) 未知, \(H\) 是未知分布。

可观测数据
研究者实际看到的是两个样本 \(\mathbf{X}\)\(\mathbf{Y}\)。每个样本中的每个观测是直接从混合分布中抽出的一个实数看不到任何关于“这个观测是来自已知成分还是未知成分”的标签。因此,想要检验的假设是

\[\mathcal{H}_0: G = H \quad \text{vs} \quad \mathcal{H}_1: G \neq H.\]

也就是说,研究者想知道两个样本的污染来源是否来自同一个分布,即便两个样本的污染比例可能不同。

什么是潜在/不可观测的
每个观测来自哪个成分(已知/未知)是潜在变量。因此直接观察未知分布 \(G\)\(H\) 也做不到——只能通过混合观测间接推断。

第二步:讲最小内核

最小特例(简化设定):两个样本混合比例相等且已知
\(p = q = 0.5\),已知。此时两个样本的观测数据都来自于

\[0.5 F + 0.5 (\text{未知成分}).\]

原问题是检验未知成分是否相同。

在这个特例下,问题退化为:两个样本都来自已知成分 \(F\) 与未知成分的等比例混合,检验两个未知成分的分布是否相等。

这个特例已经被 Patra & Sen (2016) 的工作部分覆盖,但不是本文的原创贡献。本文的一般化是:允许 \(p\)\(q\) 未知且不相等

一般最小内核(去掉所有不必要技术假设后真正的核心)
把论文证明的核心数学困难剥离出来,就是以下问题:
给定两个独立样本,每个服从一个两步混合分布(已知 + 未知),但未知分布和混合比例均未知,而且两个样本的混合比例可以不同。如何从混合观测中识别并比较 \(G\)\(H\)

关键想法——IBM方法——的直觉如下: 1. 固定一个候选混合比例 \(\alpha\)(可以是任意值)。如果 \(\alpha = p\)(真值),那么“反演”操作可以通过解线性方程从混合分布 \(P_X\) 在已知 \(F\) 下恢复出未知分布 \(G\) 的估计 \(\widehat{G}\)

\[\widehat{G}(t) = \frac{P_X(t) - \alpha F(t)}{1-\alpha},\]
其中 \(P_X(t)\) 是第一个样本的经验 cdf。 2. 同样,用第二个样本的候选比例 \(\beta\) 恢复 \(\widehat{H}\)。 3. 比较 \( \widehat{G} \)\(\widehat{H}\) 的距离(用 Cramér-von Mises 型泛函度量)。 4. 关键:对于每个候选 \((\alpha, \beta)\),只有一个“最佳匹配”能让两个恢复出的分布最接近——这正是“Best Matching”。如果 \(G = H\) 为真,当且仅当 \((\alpha, \beta)\) 分别等于 \((p, q)\) 时,两个恢复出的分布应该最接近。作者证明了这是一个关于 \((\alpha, \beta, G, H)\) 的联合优化问题,且最优解对应的检验统计量可以直接用于假设检验。

这个最小内核清晰展示了:本文不是先估计未知分布,再检验,而是将检验和估计联合求解——通过最小化未知分布的差异来同时估计混合比例,再基于此构造检验统计量


三、这篇论文做了什么

三句话

  • 研究了什么问题:在两个独立样本、每个来自一个已知成分 \(F\) 与未知成分的混合、混合比例可不同的设定下,检验两个未知成分的分布是否相等。
  • 核心方法/工具:提出 IBM (Inversion-Best Matching) 方法——一个通过联合优化混合比例和未知分布函数来构造 Cramér-von Mises 型检验统计量的框架,并建立该统计量的泛函中心极限定理。
  • 主要结论:在 mutual-identifiability 条件下,IBM 方法得到比例参数和未知分布 cdf 的 \(n^{1/2}\) 一致收敛及泛函弱收敛,检验统计量在大样本下收敛到高斯过程泛函(由未知协方差函数表征)。模拟和 COVID-19 数据分析验证了该方法的有限样本性能。

关键设定与假设

在第二节最小记号的基础上补全完整设定:

  1. 已知成分 \(F\) 是连续的,这一点很关键,因为IBM方法依赖于通过分位函数的正变换和反变换来匹配分布,不连续需要更复杂处理。
  2. mutual-identifiability 条件(论文第2.2节定义2.1):这是一个关于两样本混合模型的识别条件,要求对于任意的分布 \(G\)\(H\),如果存在 \(p, q \in (0,1)\) 使得混合分布 \(pF + (1-p)G = qF + (1-q)H\) 成立,则必然有 \(p = q\)\(G = H\)。这等价于说已知成分 \(F\) 不能被两种不同的没有标签的混合比例和未知分布模拟出来。作者称这是“自然且可解释的”,相比已有文献(如 Bordes & Vandekerkhove (2010) 中的对称性条件)更弱。
  3. \(\sqrt{n}\)-可估性:比例参数 \(p,q\) 和未知分布 \(G, H\) 都需要满足一定的正则性条件以保证可建立泛函中心极限定理(如 Donsker 性质、紧套条件等)。具体而言,需要 \(G\)\(H \) 的 cdf 在 sup-norm 下构成一个 Donsker 类,且 \(F\) 有有界密度等附加条件。

对比已有文献: 相比 Patra & Sen (2016) 需要已知 \(p = q\) 且模型对称的条件,本文的 mutual-identifiability 条件更一般化。相比 Bordes et al. (2006) 要求单样本的尺度参数已知,本文的条件不依赖于尺度参数。

主要结果

定理1(比例参数和未知分布 cdf 的泛函中心极限定理)
\(n = n_1 + n_2\) 是总样本量。在 mutual-identifiability 条件下,存在估计量 \((\hat{p}_n, \hat{q}_n)\)\((\hat{G}_n, \hat{H}_n)\) (由IBM方法得到),使得

\[\sqrt{n} \begin{pmatrix} \hat{p}_n - p \\ \hat{q}_n - q \\ \hat{G}_n - G \\ \hat{H}_n - H \end{pmatrix} \leadsto \mathbb{G},\]
其中 \(\leadsto\) 表示在 \(L^2(\mathbb{R})\) 或 sup-norm 意义下的弱收敛至一个零均值高斯过程 \(\mathbb{G}\),其协方差结构由相关样本的经验过程收敛决定。

  • 直觉:这个定理保证了联合估计的一致性和渐近正态性。找到 \(n^{1/2}\) 收敛速率意味着估计是半参数有效的(需要假定光滑性)。
  • 必要条件\(n_1 / n_2\) 趋于常数、\(F\) 的cdf有界且可逆、\(G\)\(H\) 的cdf属于Donsker类、mutual-identifiability成立。
  • 解决的技术难点:处理估计量是由经验cdf的非线性映射得到的,不是线性泛函;因此需要经验过程下多层嵌入的Donsker性。

定理2(检验统计量的渐近分布)
\(\mathcal{H}_0\) 下,定义IBM检验统计量:

\[T_n = \sqrt{n} \int \left( \hat{G}_n(t) - \hat{H}_n(t) \right)^2 d\Lambda(t),\]
其中 \(\Lambda\) 是某权重函数(具体取成已知成分 \(F\) 的分布)。则 \(T_n\) 的渐近分布是:
\[T_n \leadsto \int \mathbb{W}(t)^2 d\Lambda(t),\]
其中 \(\mathbb{W}\) 是均值为零、协方差函数 \(C(s,t)\) 已知的均值为零的高斯过程,\(C\) 由估计量的协方差函数直接给出。由于 \(C\) 未知,使用时需通过bootstrap估计。

  • 核心含义:由于 \(T_n\) 的极限分布是非退化的且依赖于未知参数,无法给出p值的解析表达式,但可以通过非参数bootstrap(重抽样样本)有效地近似。模拟中展示了该bootstrap的近似的准确性。

证明路线与技术技巧

整体路线(3-5 步逻辑主干): 1. 构造一致性估计:利用IBM求解以下优化问题

\[(\hat{p}, \hat{q}, \hat{G}, \hat{H}) = \arg\min \left\| \hat{P}_X - (\alpha F + (1-\alpha) \widetilde{G}) \right\| + \left\| \hat{P}_Y - (\beta F + (1-\beta) \widetilde{H}) \right\|,\]
同时极小化 \(\int (\widetilde{G} - \widetilde{H})^2\)。由于 \(\widetilde{G}\)\(\widetilde{H}\) 只能以经验cdf形式出现,这是一个构造的序列优化。

  1. 建立经验过程的弱收敛:将每个经验cdf \(\hat{P}_X\)\(\hat{P}_Y\) 与已知成分 \(F\) 的“反演”映射结合起来。关键是将优化得到的 \(\hat{G}_n, \hat{H}_n\) 看作经验过程的函数,利用经验过程Donsker定理证明联合收敛

  2. 线性化与Delta Method:证明最终的估计量是原始经验过程的光滑泛函(严格来说是Hadamard可导的),从而通过泛函Delta method得到联合高斯弱收敛。

  3. 检验统计量的渐近分布:将 \(\hat{G}_n - \hat{H}_n\) 分解为“真正的差”(在零假设下为0)加上一个经验过程项,再加上一个线性化剩余项。主导项的高斯过程形式立刻给出定理2。

关键跳跃点: - 最吃劲的引理:证明优化问题的解是一致 \(n^{1/2}\)-一致的那样稳定——即从优化问题得到的 \((\hat{p}, \hat{q}, \hat{G}, \hat{H})\) 在sup-norm下以 \(n^{-1/2}\) 速率收敛到真值。这需要利用凸性或凸性替代性质(如严格的光滑性+经验超越真值)。 - 难点**:优化问题涉及的高度非线性映射(通过分离混合的两个成分)不与标准的线性类兼容,迫使作者采用“两阶段经验过程”框架。

技术技巧点名: - 经验过程 Donsker 定理:用于建立经验 cdf 在 \(L^2(\mathbb{R},F)\) 下的弱收敛。 - Hadamard 可导性:用于将非线性的反演映射(\(\hat{P}_X \mapsto \hat{G}\))近似为线性映射,再应用泛函Delta method。 - Bootstrap理论:通过非参数bootstrap来近似检验统计量的渐近分布,这一做法在Cramér-von Mises型检验中很常见,但在半参数两步估计中需要额外的论证。

真实例子与应用

数据来源:COVID-19超额死亡率,来自欧洲17个国家的周级死亡数据(2020–2022年)。

怎么把本文方法用上去:作者将每个国家的超额死亡率时间序列视为观测样本 \(\mathbf{X}\)\(\mathbf{Y}\)。他们假设:每个国家的超额死亡率序列可以分解为两个成分——一个已知的“正常季节性波动”成分(由多年的历史数据拟合得到,记为 \(F\)),和一个未知的“疫情超额”成分(视为污染成分)。对每个国家,正常波动之外的极端值与COVID-19的疫情波相符。

得到什么结果: - 两两比较欧洲国家在超额死亡率模式的相似性。例如,瑞典和丹麦的未知成分分布被检验为 不显著不同(p > 0.05),暗示两个国家的疫情超额模式(可能反映相类似的公共健康政策响应)一致。 - 而瑞典和意大利的未知成分分布被检验为 显著不同(p < 0.01),表明早期疫情冲击和应对差异的巨大不同反映在超额死亡率分布上。 - 这些结果与已知的流行病学史(如意大利北部2020年初疫情暴发严重,北欧相对平稳)定性一致。

这个例子想说明什么: 1. 验证理论:在现实数据上观察到了本文方法与流行病学事实一致,不支持检验是自说自话的纯模拟。 2. 展示相对 baseline 的优势:作者也与使用已知成分 \(F\) 核密度检验或两样本 Kolmogorov-Smirnov 检验做了比较,发现 IBM 方法在 混合比例不同的情形下 有更少的虚假显著性——因为普通的K-S检验忽视了混合比例对分布形状的影响。

🔎 结论是否比证明窄

论文有一个值得注意的“窄化”:作者在定理2中具体构造的检验统计量 \(T_n\) 使用了权重函数 \(\Lambda = F\) (已知成分的分布)。但这个选择并不是唯一或无偏的。作者在讨论中提到 \(d\Lambda\) 可以选择其他测度(如均匀测度),但未给出理论最优选择(比如UMP最优性等方面的讨论)。因此,结论(渐近分布成立)本身对 \(\Lambda\) 是敏感的,只要它满足一定的光滑性,但 \(T_n\) 的最优性并未建立——结论是窄的:给出了一个可行的检验,但不是最优的。


四、开放问题(点到为止,扎根具体语句)

  1. 检验的最优性问题:目前IBM检验统计量的选择(权重\(\Lambda = F\))是基于便利性,而非局部最优性(即未证明它在非参数替代下的最大功效或最小首次类型-II错误率)。本文位置:论文第5节讨论中写“权重选取为已知分布\(F\)是自然选择,但其他选择也可能,待将来研究”。

  2. 多维或函数型污染因子:本文所有的理论都是在单变量 \(X_i \in \mathbb{R}\) 下建立的。当污染因子是高维向量(如多个生物标记物)或函数型(如时间序列的逐点模式)时,经验过程的Donsker性质、弱收敛和检验统计量的构造都需要重新建立。本文位置:结论小节提到“本文限制到单变量情形;多维情形的推广是自然的但极具挑战性的未来方向”。

  3. 对相依数据的扩展:COVID-19超额死亡率例子中的观测是时间序列,但作者采用了独立同分布的检验框架(将每个时间点当成独立观测被抽样),这显然忽略了时间依赖性。作者仅作了简短的讨论“这里假设独立性是近似”,但未在理论层面处理相依情形。什么是真正的gap:建立相关(时间相依/空间相依)数据下IBM方法的FCLT和检验过程。

  4. 对因果推断中敏感性分析的连接:如果 \(F\) 是观测到的“对照组的分布”,那么这个检验可以用来验证在两个不同处理组中,隐藏的未观测混杂分布是否一致——这是一个潜在的因果推断问题。但论文未提及这一点。这留给研究者判断:这一连接是否值得深入。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论