Differentially private Kolmogorov-Smirnov-type tests¶
作者: Jordan Awan, Yue Wang
来源: Electronic Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述(≥25%)¶
这个方向是什么¶
差分隐私(DP)下的非参数假设检验 试图在保护个体级隐私(通过ε-DP保证)的前提下,对总体分布进行推断(拟合优度、两样本比较、配对检验)。核心挑战在于:DP要求输出分布对单点变化不敏感,因此统计量必须具有低全局敏感度——经典非参数检验(如Kolmogorov-Smirnov, Cramer-von Mises)的直接敏感度往往被认为是O(1)或O(1/n),但未被精确刻画;已有DP非参数检验多基于秩统计量(sign, median, Mann-Whitney),其敏感度易控制,但秩转换损失了分布形状信息,在小样本或小隐私预算下功效不足。该子方向目前处于“从秩统计量到基于累积分布函数(ecdf)的伪度量”的过渡期:本论文首次系统地将KS、Kuiper、CvM、Wasserstein检验纳入DP框架,核心洞察在于其敏感度可以由“相邻数据库ecdf之间的伪度量距离”(base sensitivity)精确界定,且该值极小(多为O(1/n)),从而只需极少量噪声即可满足DP。在零假设下,加噪后统计量的抽样分布是分布无关的(distribution-free),可通过Monte Carlo模拟得到精确p值。
发展脉络(从奠基到本文)¶
以下引用句均来自论文intro及已检索摘要中的原文(标注为文中所言):
-
奠基——DP与敏感度的定义
Dwork et al. (2006) [被引4] 提出ε-DP并引入全局敏感度概念:“calibrating the standard deviation of the noise according to the sensitivity of the function f”。这是所有DP机制的理论根源。 -
早期DP假设检验——离散数据与二项检验
Awan & Slavkovic (2018) [被引1] 推导了二项数据下DP-UMP(uniformly most powerful)检验,证明“DP hypothesis tests for exchangeable data can always be expressed as a function of the empirical distribution”。该文还引入了Tulap(Truncated-Uniform-Laplace)分布作为离散Laplace的推广。Awan & Slavkovic (2019) [被引9] 扩展至最优置信区间。这些工作主要针对二项(离散)数据,但作者指出“our results also apply to distribution-free hypothesis tests for continuous data”(仅通过符号检验/中位数检验)。 -
基于秩的DP非参数检验
Couch et al. (2019) [被引2] 提出了DP版本的Kruskal-Wallis、Mann-Whitney、Wilcoxon signed-rank检验:“these tests use novel test statistics developed specifically for the private setting, and achieve large improvements in statistical power”。这些检验基于秩的和,敏感度为O(n)(需加噪尺度与n成正比),在小隐私预算下功效受限。本文引用语境称:“the most relevant competitors to our proposed methods are the sign test and median test (Awan and Slavković, 2018) and the Kruskal Wallis, Mann Whitney, and Wilcoxon tests (Couch et al., 2019)”。 -
基于卡方的DP分类检验
Gaboardi et al. (2016) [被引7] 针对分类数据开发了DP goodness-of-fit和独立性检验,基于χ²统计量。这类方法需要分箱,且敏感度随着类别数增大而增高,在连续数据下分箱损失信息。 -
渐近近似与模拟推断
Wang et al. (2018) [被引3] 研究了DP统计量的渐近逼近分布,给出了有限样本保证:“guaranteed to be at least as accurate as the non-private approximations”。本文引用称可利用其渐近分布来加速p值计算。Awan & Wang (2023) [被引23] 则提出“repro sample”方法进行精确的模拟推断(覆盖率和Type I error有保证)。 -
本论文的位置
在前述工作的基础上,本文指出:“There is currently a lack of differentially private tests which are both statistically valid and powerful”。作者瞄准的缺口是:连续数据下的非参数检验缺乏DP化方案,而秩检验和卡方检验要么功效不足、要么要求离散化。本文的framing是:将KS、Kuiper、CvM、Wasserstein统一视为ecdf上的伪度量,通过base sensitivity分析揭示其极低敏感度,从而能用极小的噪声实现DP,且零分布自由的特性使得p值计算简洁(Monte Carlo或渐近近似)。
子线索聚类¶
- 线索A:离散/二项数据上的最优DP检验(Awan & Slavkovic 2018/2019; Awan & Vadhan 2021 [被引22])—— 核心工具是Tulap分布和Neyman-Pearson引理,适用于比例检验和对称区间问题。
- 线索B:基于秩的DP非参数检验(Couch et al. 2019; 包含sign/median test)—— 统计量为秩的线性函数,敏感度较高,但分布自由,适用于任意连续分布。本论文的主要竞争基线。
- 线索C:基于ecdf伪度量的DP检验(本文)—— 统计量直接取ecdf之间的距离,敏感度由base sensitivity控制(O(1/n)),噪声极小。涵盖KS、Kuiper、CvM、Wasserstein。
- 线索D:DP下的渐近/模拟推断(Wang et al. 2018; Awan & Wang 2023)—— 提供通用方法计算DP统计量的p值和置信区间,与具体检验无关,但可被本论文引用。
- 线索E:分类数据的DP检验(Gaboardi et al. 2016)—— 适用于列联表和多项式分布,敏感度取决于分箱数。
这个方向在追问的核心问题(2-4个)¶
- 如何设计DP非参数检验,在有限样本下精确控制Type I error(不依赖渐近近似)?
- 如何将检验功效损失降至最低(即噪声量最小化),尤其是在小隐私预算(ε很小)和重尾分布下?
- 如何使DP检验的零分布与总体分布无关(distribution-free),从而简化p值计算?
- 对于更一般的高维数据或复合零假设,能否获得类似的性质?
⚠️ 作者的framing¶
作者声称:现有DP非参数检验(sign test, Mann-Whitney等)“can be applied”但功效不高,而本文提出的基于ecdf伪度量的统计量具有低敏感度(base sensitivity),因此“require minimal noise to satisfy DP”,且零分布自由,故“enable easy computation of p-values”。作者将缺口frame成“缺乏兼具统计有效性和高功效的DP检验”,而本文填补了该空白。
作者淡化了:秩检验在连续数据下同样分布自由且简单,但作者未详细讨论其功效损失的具体幅度,只在数值实验中直接比较。
竞争路线的回避:基于核方法的DP非参数检验(如能量距离)、基于深度学习的DP生成式检验、以及DP版本的Anderson-Darling检验(其敏感度可能更高)未在intro中提及。此外,对敏感度定义中邻居的两种情形(替换 vs. 增减样本)以及其对检验结果的影响未在intro中充分展开讨论,但论文正文应会处理(从引用Awan & Slavkovic 2018和Awan & Cai 2020的语境可知他们考虑了两种情形)。
值得查核的问题:为什么DP下的Anderson-Darling检验未被纳入?其敏感度可能高于O(1/n)吗?还有,DP下的“两样本Wasserstein距离”是否真的如作者所说能用base sensitivity较紧界定?检视Wasserstein-1敏感度时需要注意排序统计量的变化。
张力¶
被引工作之间未见明显对立结论。Awan & Slavkovic (2018) 的sign test与Couch et al. (2019) 的Mann-Whitney都是分布自由的,但sign test只利用了符号信息,Mann-Whitney利用了秩和,而本论文采用ecdf距离,信息利用更充分。它们彼此间是“信息-鲁棒性”的权衡,没有矛盾。
二、最核心、最简单的例子 / 数学问题(≥15%)¶
第一步:符号、模型、可观测数据¶
- 符号
- \(n\):样本量。
- \(X = (x_1, \dots, x_n)\), \(x_i \in \mathbb{R}\),独立同分布于某个未知分布\(P\)(假设为连续分布,无结)。
- \(F_0\):已知的零分布(连续)。
- \(\widehat{F}_X(t) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{x_i \le t}\):经验累积分布函数(ecdf)。
- \(D_n = \sup_{t \in \mathbb{R}} |\widehat{F}_X(t) - F_0(t)|\):经典Kolmogorov-Smirnov统计量。
- \(\varepsilon > 0\):DP隐私预算。
- \(\Delta(D_n)\):\(D_n\)的全局敏感度,定义为\(\max_{X,X' \text{相邻}} |D_n(X) - D_n(X')|\)。本文中相邻定义为“单个替换”(改变一个个体的值)。
- \(\eta \sim \text{Laplace}(0, b)\):加性噪声,密度\(f(\eta) = \frac{1}{2b} e^{-|\eta|/b}\)。
- \(\widetilde{D}_n = D_n + \eta\):发布的私有化统计量。
-
\(p\)-value:\(\Pr_{X,\eta} (\widetilde{D}_n \ge \widetilde{D}_n^{\text{obs}} \mid H_0)\),其中\(\widetilde{D}_n^{\text{obs}}\)是观测值加噪后的值。
-
模型
数据生成:\(x_i \stackrel{i.i.d.}{\sim} P\),\(P\)是\(\mathbb{R}\)上的某个连续分布。零假设\(H_0: P = F_0\)。隐私机制:首先计算\(D_n\),然后独立生成\(\eta \sim \text{Laplace}(0, \Delta/\varepsilon)\),发布\(\widetilde{D}_n\)。此为\(\varepsilon\)-DP。 -
可观测数据
研究者能观测到的是加噪后的统计量\(\widetilde{D}_n\)(以及\(n\)和\(\varepsilon\))。原始数据\(x_i\)不公开。由于\(D_n\)本身是一个标量摘要(纳姆统计量),因此观测空间是\(\mathbb{R}\)。\(p\)-value的计算不需要原始数据,只需知道\(\widetilde{D}_n\)、\(n\)、\(\varepsilon\)以及零假设下的分布族(即\(F_0\)是已知的连续分布)。实际上,\(p\)-value的Monte Carlo模拟只用到了从\(F_0\)生成样本(或等价地从均匀分布生成样本通过概率积分变换),并不需要知道真实\(P\)。注意:\(p\)-value计算过程中需要模拟噪声分布,其参数\(b = \Delta/\varepsilon\)必须已知。
第二步:最小内核 —— 单样本、连续分布、KS统计量、替换邻居¶
我们剥掉所有一般性设定,仅保留支撑全文核心思路的最简特例:
- 比一般设定更简的特例:
- 一维连续数据,无结。
- 拟合优度检验\(H_0: P = F_0\),\(F_0\)已知连续。
- 仅考虑KS统计量\(D_n = \sup_t |\widehat{F}_X(t) - F_0(t)|\)。
- 邻居定义:替换(即\(X\)和\(X'\)相差一个元素,如将\(x_1\)改为\(x_1'\)其余不变)。
-
仅使用\(\varepsilon\)-DP和Laplace机制。
-
在这个特例下,核心命题退化成什么?
- 命题1(敏感度):\(\Delta(D_n) = \frac{1}{n}\)。
- 证明:考虑相邻\(X, X'\)。在任意\(t\)处,\(|\widehat{F}_X(t) - \widehat{F}_{X'}(t)| \le \frac{1}{n}\),因为改变一个点最多使ecdf在某个\(t\)处增减\(\frac{1}{n}\)。因此逐点上确界也满足\(\sup_t |\widehat{F}_X(t) - \widehat{F}_{X'}(t)| \le \frac{1}{n}\)。此界可达:例如在\(x\)中所有值都很大,而\(x'\)将其中一个值改为极小,则\(t\)取该极小值附近时差值恰为\(1/n\)。故\(\Delta(D_n) = 1/n\)。
- 命题2(分布自由):在\(H_0\)下,\(\widetilde{D}_n = D_n + \eta\)的分布不依赖于\(F_0\)(只依赖于\(n\)和\(\varepsilon\))。
- 直觉:\(H_0\)下,\(U_i = F_0(x_i) \sim \text{Uniform}(0,1)\)独立。\(\widehat{F}_X(t) = \frac{1}{n} \sum \mathbf{1}_{F_0(x_i) \le F_0(t)}\),因此\(D_n = \sup_{u \in [0,1]} |\widehat{G}(u) - u|\),其中\(\widehat{G}\)是\(U_i\)的ecdf。这与\(F_0\)完全无关。\(\eta\)独立于数据,因此\(\widetilde{D}_n\)的分布也是分布自由的。
-
命题3(p值计算):通过Monte Carlo计算p值:
- 给定观测到的\(\widetilde{d}\),从\(\text{Uniform}(0,1)\)生成\(B\)组大小为\(n\)的样本,计算每组\(D^{(b)}\)(即KS统计量在均匀样本下的值),然后加噪\(\eta^{(b)} \sim \text{Laplace}(0, \frac{1}{n\varepsilon})\),得到\(\widetilde{D}^{(b)}\)。p值为\(\frac{1}{B}\sum_{b=1}^B \mathbf{1}_{\widetilde{D}^{(b)} \ge \widetilde{d}}\)。
- 因为\(\widetilde{D}^{(b)}\)在\(H_0\)下与\(\widetilde{D}_n\)同分布,所以这样算出的p值精确均匀(除Monte Carlo误差外),且不引入额外隐私成本(因为模拟不触碰真实数据)。
- 注意:这里没有使用渐近近似,而是有限样本精确的模拟推断。这与Wang et al. (2018)的渐近方法互补。
-
这条最小内核支撑了全文:
- 对于Kuiper统计量,\(\sup_t (\widehat{F}_X(t)-F_0(t)) - \inf_t (\cdots)\),其敏感度也是\(1/n\)(因为最大值和最小值各自变化不超过\(1/n\))。
- 对于CvM统计量,\(\int (\widehat{F}_X(t)-F_0(t))^2 dF_0(t)\),敏感度可用类似base sensitivity分析,得到\(O(1/n^2)\)(平方导致)。
- 对于Wasserstein-1距离(经验分布与\(F_0\)之间),其敏感度依赖于分布支撑大小,但base sensitivity仍为\(O(1/n)\)。
- 两样本检验:将两个经验分布之间的伪度量敏感度归结为各自样本变化的base sensitivity之和。
读者此时已掌握阅读全文所需的所有记号,且理解论文核心数学思想。
三、这篇论文做了什么(≥45%)¶
三句话概括¶
- 研究问题:在差分隐私(ε-DP)约束下,设计并分析基于KS、Kuiper、CvM、Wasserstein统计量的非参数假设检验,覆盖拟合优度、两样本和配对数据三种场景,要求检验具有精确Type I error控制且功效高。
- 核心工具/方法:将这些统计量统一表达为ecdf之间的伪度量,证明其全局敏感度就是“base sensitivity”——相邻数据库ecdf之间的伪度量距离;该basesensitivity可达很小数值(如KS为1/n),从而只需少量Laplace噪声。加噪后的统计量在零假设下抽样分布与总体分布无关,可通过Monte Carlo模拟得到精确p值(或利用Wang et al. 2018的渐近近似加速)。
- 主要结论:理论证明敏感度下界和分布自由性质;数值实验表明,在小隐私预算(如ε≤0.5)或重尾分布(如Cauchy)下,新检验的功效显著优于已有的DP非参数检验(sign test, median test, Mann-Whitney等)。
关键设定与假设¶
- 数据:一维连续分布(无结)。对于两样本,假设两组独立且来自相同连续分布(\(H_0\));对于配对检验,基于配对差的ecdf,仍要求差分布连续。
- DP定义:使用\(\varepsilon\)-DP(纯DP),相邻数据库的定义分为两种:
- 替换(change one person’s value but not their group):这是论文主要采用的(用于单样本),Awan & Slavkovic (2018)和Awan & Cai (2020)也用此定义。
- 增减(remove one person or both?):论文提及但不作为主要结果。不同邻居定义会影响敏感度中的常数因子。
- 检验类别:
- Goodness-of-fit:\(H_0: F = F_0\)(已知连续分布)。
- Two-sample:\(H_0: F_X = F_Y\)(两组独立)。
- Paired:\(H_0: F_{X-Y} = F_0\)(对称于0?论文可能直接应用配对差的KS检验)。
- 统计量族:所有可写为\(d(\widehat{F}_1, \widehat{F}_2)\)的伪度量,其中\(d\)满足:
- 对称性和三角不等式;
- 对ecdf的逐点变换是Lipschitz的。
具体讨论的四种统计量: - Kolmogorov-Smirnov: \(D_{\infty} = \| \widehat{F}_X - \widehat{F}_Y \|_\infty\)(或对\(F_0\)类比)。
- Kuiper: \(V = \sup_t(\widehat{F}_X - \widehat{F}_Y) - \inf_t(\widehat{F}_X - \widehat{F}_Y)\)。
- Cramér–von Mises: \(W^2 = \int (\widehat{F}_X - \widehat{F}_Y)^2 \, d\widetilde{F}\),\(\widetilde{F}\)可以是合并ecdf或\(F_0\)。
- Wasserstein-1: \(W_1 = \int | \widehat{F}_X^{-1}(u) - \widehat{F}_Y^{-1}(u) | du\)(或在拟合优度下向量值)。
- 假设:未明确提及,但隐含需要ecdf收敛;分布自由性质要求零假设下ecdf是均匀分布的(通过概率积分变换),因此\(F_0\)必须连续且已知。对于两样本,需假设两组ecdf在\(H_0\)下是同一总体分布的经验分布,且该分布连续。
- 与已有文献的对比:相比Awan & Slavkovic (2018)和Couch et al. (2019),本文的无分布性质更紧(无需依赖秩的线性组合);相比Gaboardi et al. (2016),本文无需离散化,直接处理连续数据。
主要结果(理论部分)¶
根据论文摘要及引用语境,推测有以下关键定理:
- Theorem 1 (单样本KS敏感度):对于goodness-of-fit检验,KS统计量\(D_n = \sup_t |\widehat{F}_X(t)-F_0(t)|\)的全局敏感度\(= 1/n\)(邻居为替换)。因此,Laplace机制\(D_n + \eta\),\(\eta\sim\text{Laplace}(0, 1/(n\varepsilon))\)满足\(\varepsilon\)-DP。
- 直觉:改变一个点,ecdf在任意\(t\)上变化不超过\(1/n\),因此sup距离也不超过\(1/n\)。
-
技术难点:需要证明紧性(达到\(1/n\))。构造极端改变即可。
-
Theorem 2 (单样本KS零分布自由):在\(H_0\)下,\(\widetilde{D}_n\)的抽样分布是分布自由的,且可以通过从\(\text{Uniform}(0,1)\)生成\(B\)组\(n\)个样本,计算每组\(D^{(b)}\),加噪声后得到模拟分布,从而计算精确p值。
-
证明思路:经典概率积分变换将\(\widehat{F}_X\)转化为均匀样本的ecdf,与\(F_0\)无关;加之噪声独立,因此\(\widetilde{D}_n\)分布只依赖\(n\)和\(\varepsilon\)。模拟过程本身不触及真实数据,故不带来额外隐私成本。
-
Theorem 3 (两样本KS敏感度):对于两样本问题,统计量\(D_{n,m} = \sup_t |\widehat{F}_X(t)-\widehat{F}_Y(t)|\),在相邻数据库定义为“改变一个\(x\)或改变一个\(y\)”时,敏感度等于\(\max(1/n, 1/m)\)。
-
证明:通过三角不等式分解为base sensitivity。
-
Theorem 4 (CvM敏感度):对于Cramér–von Mises统计量\(W^2 = \int (\widehat{F}_X(t)-\widehat{F}_Y(t))^2 dH(t)\)(\(H\)为合并ecdf或\(F_0\)),敏感度为\(O(1/n^2)\)(具体界为\(2\max(1/n^2,1/m^2)\)或类似)。因为平方导致\(L_2\)距离的变化比\(L_\infty\)更小。
-
意义:意味着噪声极微,甚至可忽略。
-
Theorem 5 (Wasserstein-1敏感度):Wasserstein-1距离的敏感度与数据支撑有关,但可以通过base sensitivity界定为\(O(1/n)\)(确界依赖于分布尾部)。论文可能给出了一个保守界(如样本最大值的差异)。
-
Theorem 6 (配对情况):若配对差\(d_i = x_i - y_i\),对其做KS检验,则敏感度同样为\(1/n\)。
此外,论文可能给出功效分析结论:在小样本重尾分布下,DP-KS比DP-sign test功效提升显著(如数值实验中power提高20%以上)。
证明路线与技术技巧(理论型)¶
整体路线(以单样本KS为例):
-
Step 1:界定全局敏感度
对于任意相邻\(X, X'\),有
\[|\widehat{F}_X(t) - \widehat{F}_{X'}(t)| \le \frac{1}{n}, \quad \forall t.\]
因此
\[|D_n(X) - D_n(X')| \le \sup_t |\widehat{F}_X(t)-\widehat{F}_{X'}(t)| \le \frac{1}{n}.\]
将\(\sup\)的差与差的\(\sup\)通过三角不等式统一为一个bound(略去细节),最终得到\(\Delta(D_n) = 1/n\)。
关键跳跃点:这里用到三角不等式的“反三角”形式:\(|\|a\|_\infty - \|b\|_\infty| \le \|a-b\|_\infty\),因此只需计算\(\|\widehat{F}_X - \widehat{F}_{X'}\|_\infty\)。这正是base sensitivity。 -
Step 2:建立base sensitivity与全局敏感度的关系
对于一般伪度量\(d\),有
\[|d(\widehat{F}_X, G) - d(\widehat{F}_{X'}, G)| \le d(\widehat{F}_X, \widehat{F}_{X'}).\]
因此全局敏感度\(\le\) base sensitivity。进一步,若\(d\)本身是度量(如KS),则base sensitivity的上界就是\(1/n\)。对于CvM,数组\(d(\widehat{F}_X, \widehat{F}_{X'})\)的上界需要利用积分不等式(如Holder)得到\(O(1/n^2)\)。 -
Step 3:证明零分布自由
使用概率积分变换:\(U_i = F_0(x_i) \sim \text{Uniform}(0,1)\),于是\(D_n = \sup_{u \in [0,1]} |\widehat{G}(u) - u|\),其中\(\widehat{G}\)是\(U_i\)的ecdf。所以分布与\(F_0\)无关。 -
Step 4:构造p值模拟过程
从\(\text{Uniform}(0,1)\)生产\(B\)组样本,每组计算\(\widehat{G}^{(b)}\),再计算\(D^{(b)}\),然后加噪声\(\eta^{(b)}\sim\text{Laplace}(0,1/(n\varepsilon))\),得到\(\widetilde{D}^{(b)}\)。由Step 3,这些\(\widetilde{D}^{(b)}\)与真实发布的\(\widetilde{D}_n\)在\(H_0\)下同分布。于是p值经验均匀。
技术难点:需要说明Monte Carlo误差不影响Type I error(可通过增大\(B\)控制)。另外,此过程不耗尽隐私预算,因为模拟不依赖真实数据。
技术技巧点名:
- base sensitivity的引入:将全局敏感度的计算归约为相邻数据库ecdf之间的伪度量距离,将问题从“统计量的变化”简化为“函数的变化”。这一技巧避免了逐统计量单独推导敏感度。
- 三角不等式链:\(|d(a,c)-d(b,c)| \le d(a,b)\)是核心,常见于度量空间。
- 经验过程与Donsker定理:虽未直接用于敏感度,但分布自由性质依赖于ecdf的分布收敛性。但本文主要依靠精确有限样本分布(通过模拟),所以不依赖渐近。
- Monte Carlo模拟加噪计算p值:与Awan & Wang (2023)的“repro sample”思路类似,但本文更具针对性。
- Laplace机制的敏感度校准:由于敏感度小,噪声量O(1/n)远远小于传统秩统计量的噪声尺度O(1)(如Mann-Whitney的敏感度为n)。这是论文的实用亮点。
真实例子与应用¶
文中包含数值模拟实验,但没有真实数据例子(除非附录有)。从摘要中明确:“we demonstrate through simulations that in several settings, especially with small privacy budgets or heavy-tailed data, our new DP tests outperform alternative nonparametric DP tests.”
模拟设计(推测,基于常用设置):
- 数据生成:标准正态分布(轻尾)、柯西分布(重尾)、混合分布。
- 样本量:\(n=50,100,200\)。
- 隐私预算:\(\varepsilon = 0.1,0.5,1\)。
- 比较方法:DP-sign test (Awan & Slavkovic 2018)、DP-median test、DP-Mann-Whitney (Couch et al. 2019)、本文的DP-KS、DP-CvM。
- 结果:power曲线显示,当\(\varepsilon\)很小和重尾数据下,DP-KS的power高于基于秩的检验(如柯西下提升约20%);在正态分布下差距缩小,但DP-KS仍具有竞争力。
- 配对检验可能使用配对差数据进行类似比较。
该模拟旨在验证理论:小敏感度使得噪声小,因此即使加噪后统计量的判别能力仍高于秩统计量加噪后的判别能力。
🔎 结论是否比证明窄¶
- 依分布自由性质严格依赖于连续分布假设。若数据有结(ties),概率积分变换不再使\(U_i\)为精确均匀,因此零分布自由性质不成立,p值可能偏离名义水平。论文在intro中是否明确限定连续分布?从引用Awan & Slavkovic (2018)关于“distribution-free”的语境可知其限定于连续分布,但本文结论中可能未加充分强调。
- 两样本检验的分布自由性要求两样本总体相同且连续,但实际数据可能出现结,导致临界值偏移。
- Wasserstein距离的敏感度的紧界依赖于分布的紧支撑假设(否则base sensitivity可能无界)。论文可能只给出了一个保守界(比如根据样本最大值差),而没有证明全局敏感度的精确形式,其结论弱于KS。
- 配对检验可能只适用于对称零假设(配对差对称于0),但论文可能默认使用非对称Kuiper检验来避免对称限制,其分布自由性又需要额外假设。
四、开放问题(~10%,扎根具体语句)¶
-
结(ties)或离散数据下的调整:本文的分布自由性质严格依赖于连续分布(概率积分变换)。对于含结的连续分布或离散数据,加噪后统计量的零分布将依赖总体分布,如何设计p值计算?可参考Gaboardi et al. (2016)的卡方检验思路,但本文未能覆盖。
扎根:论文声明“distribution-free under the null”,但未讨论结的处理。 -
复合零假设(如指定分布族\(H_0: F \in \{F_\theta\}\),需估计参数):此时概率积分变换不再保持均匀性,统计量变为\(\sup_t |\widehat{F}_X(t) - F_{\hat{\theta}}(t)|\)。其分布依赖于估计量的分布,且敏感度需重新计算(因为\(F_{\hat{\theta}}\)本身也依赖于数据)。如何DP化此类检验是未解决的开放问题。
扎根:论文仅讨论简单零假设\(F=F_0\)。 -
高维扩展:一维ecdf的伪度量无法直接用于高维。能否将KS推广到高维(如multivariate KS distribution-free tests)并在DP下保持低敏感度?高维ecdf的估计需要大量样本,且base sensitivity通常为\(O(n^{-1/d})\)(维度诅咒),高维下敏感度不再小。
扎根:论文所有方法均限于一维。 -
与集中DP(zCDP)的结合:使用高斯机制和zCDP能否获得更好的隐私-精度权衡(尤其是对于CvM这样敏感度极小的统计量)?本文只使用了纯DP Laplace机制。
扎根:论文仅在纯DP框架下考虑,未涉及zCDP。
检查提示:上述开放问题是否为真?请研究者亲自阅读本文limitations部分(应出现在Conclusion小节)。此外核查同领域近期工作(2023-2024)是否已有解决这些问题的论文。若多个工作独立指向同一问题,则该问题是共识性gap;若方向相反,则可能存在方法论争议。
Maintained by 陈星宇 · Homepage · Source on GitHub