Combining stochastic tendency and distribution overlap towards improved nonparametric effect measures and inference¶

作者: Jonas Beck, Patrick B. Langthaler, Arne C. Bathke
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

这个子方向关注的是两个分布之间的非参数比较，核心问题是如何设计一个既能检测差异、又能提供可解释效应量的推断框架。经典的非参数两样本检验（如 Wilcoxon-Mann-Whitney 检验）几乎完全聚焦于位置效应（stochastic tendency），即一个分布是否倾向于产生更大的值（θ = P(X < Y)）。然而，两个分布也可能在尺度（scale）、离散度（dispersion） 或形状（shape） 上存在差异，而位置度量对此完全不敏感。因此，本方向追问的是：能否在保留位置效应可解释性的同时，引入一个互补的、对离散度敏感的度量，并将两者联合起来用于推断，从而构建一个更全面的非参数效应度量与检验框架？

该方向的成熟度中等偏好。位置效应一端（Mann-Whitney 泛函）已被彻底研究过，是现代非参数统计的基石；离散度一端（分布重叠指数）是较新的概念（约2018年以来），其推断理论正在被搭建。将两者联合推断，正是本文试图填补的缺口——这是该子方向当前的一个明确且自然的下一步。

1.2 发展脉络¶

奠基工作（1950s-2000s） - Mann & Whitney (1947)：定义 θ = P(X < Y) 并给出基于秩的检验，成为后续所有工作（包括本文）的起点。作者在 intro 中称 θ 是“a fundamental functional in nonparametric statistics”。 - Lepage (1971)（见参考文献 [9] 的引用语境）：“The use of a location-scale model within a semiparametric statistical context dates back to Lepage (1971)”。这是最早尝试联合检验位置和尺度的提议，但它是参数化或半参数化的，且未给出可解释的效应量。 - 经典 U 统计量框架 (Hoeffding, 1948; van der Vaart & Wellner, 1996)：θ 的估计量是 U 统计量，其渐近理论是标准化的。

主要进展（2010-2020）——位置效应的现代外推 - Thas et al. (2012) 提出概率指数模型 (PIM)，将 θ 的条件版本（P(Y < Y | X, X)）作为半参数回归的目标，从而将这一位置捕获扩展到有协变量的设定。 - Brunner et al. (2017) 将非参数相对效应（基于秩）的系统性推断推广到一般的析因设计，并处理异方差情况。该工作被本文多处引用（例如导言和推导部分）作为秩统计联合分布技术的依据。 - Beck & Bathke (2023) 构建了非参数置信分布框架，为 θ 等秩/伪秩统计量提供了统一推断工具（点/区间/ p-值）。本文作者之一的旧作。 - Konietschke et al. (2012) 在多重比较场景中提供了 rank-based 的同时置信区间。本文在建议使用 range-preserving 置信区间时引用了该工作。

新线索——分布重叠指数 (2018-2024) - Parkinson et al. (2018) 从生态位重叠（niche overlap）出发，提出一种完全非参数的、基于秩的分布重叠度量 η（衡量“一个分布的观测值落入另一个分布中位数附近区域的概率”），并推导了其估计量的渐近分布，使得基于重叠的推断成为可能。这是 η 的源论文，已应用生态学并为两位本文作者所共用。 - Parkinson-Schwarz & Bathke (2021) 专门基于 η 提出一个检验两分布相等的非参数检验，发现其“获得了比其他两个常用检验更高的检验功效”。这表明 η 本身已可作为一个有效的检验统计量，但当时尚未与 θ 联合使用。

当前 frontier 与本文位置 - Ramdas et al. (2015) 对（一维/多维）两样本检验进行了系统化分类，建立了从 Wasserstein 距离到 Kolmogorov-Smirnov、能量统计的链路。本文引用它来说明两样本检验仍在积极研究，但同时也指出“there is yet, to the best of our knowledge, no test whose performance for small and moderate sample sizes matches the...”（这为本文新检验的需求做了铺垫）。 - Clémençon et al. (2023) 提出基于 bipartite ranking 的高维两样本检验。本文引用它来强调现有检验在小/中等样本量下的局限，从而突出自身基于 θ + η 联合推断 的新方法——通过联合这两个原本独立的度量，得到更大的检验一致性区域（consistency regions）和优于传统综合检验（如 Kolmogorov-Smirnov）的功效。 - 因此，本文的位置非常清晰：它不是第一个提出 η（2018年已有）或 θ（已存在75年），而是第一个（据作者声称：to the best of our knowledge）将它们的联合渐近分布推导出来，并据此构建检验和置信区域的工作。

1.3 子线索聚类¶

这些被引文献大致落在四条子线索上：

基于 Mann-Whitney 效应的位置检验（Mann & Whitney 1947; Thas et al. 2012; Beck & Bathke 2023; Brunner et al. 2017; Konietschke et al. 2012）。核心是 θ 及其各种推广：条件版、多组版、置信分布版。这是该子领域的“主干道”。
基于分布重叠指数的分散度检验（Parkinson et al. 2018; Parkinson-Schwarz & Bathke 2021; Langthaler et al. 2024）。核心是 η——一种对尺度/离散度敏感的、基于秩的度量。这一簇是目前最活跃的新分支之一。
联合位置-尺度检验（Lepage, 1971; Soave et al. 2015）。这一簇试图用一个检验同时检测位置和尺度的偏离。本文直接引用 Soave et al. (2015) 表明此想法在现代仍有应用（特别是在 GWAS 中）。然而，作者指出此类联合检验通常未提供可解释的效应量，这正是本文区别于它们的关键——本文不仅检验，还给出有直观解释的 (θ, η) 联合估计。
向多变量/高维数据的扩展（Hallin et al. 2021; Deb & Sen 2023; Kong & Harrar 2020; Kong et al. 2022; Ramdas et al. 2015）。这一簇通过分量分析、分位数/秩的测度输运泛化、能量距离等，试图将秩检验（如 WMW）推广到 d ≥ 2 的情况。本文在最后的多变量外推部分（Section 8）提及这一簇，作为其未来工作的一个可能方向。

1.4 核心问题¶

这个方向在追问的核心问题有：

如何同时检测位置和尺度差异？ 当两个分布仅在离散度（尺度）上相异时，所有基于 θ（包括 WMW 检验）的检验均无功效——这是一个基本盲点。现有方案（如 Kolmogorov-Smirnov）虽能检测，但功效往往不快，且不提供方向性效应量。
如何保持效应量的可解释性？ 传统综合检验（omnibus tests，如 KS）给出一个“差异存在”的真假，但不给出像“一个分布较大的概率”这样的简单概率解释。这限制了它们在做效应量报告和 meta 分析中的使用。
联合推断为什么还没有标准化？ 尽管 θ 和 η 各自的渐近理论都已确立（θ 作为 U-统计量，η 作为分位数过程泛函），但它们的联合渐近分布尚未被推导出来，因而无法构建联合置信区域和双变量直接检验。
如何向多变量/高维数据外推？ 在 d ≥ 2 时，传统的秩排序不再 canonically defined，因此所有基于“秩”的度量（包括 θ 和 η）的推广都是一个重要的开放问题。

主流方法与瓶颈：主流方法是单独使用 θ（位置效应）或使用综合检验（KS、能量距离等）。瓶颈在于：前者漏掉尺度差异、后者牺牲功效和可解释性。本文试图通过联合推断 θ 和 η 来解决前两点。

1.5 ⚠️ 作者的 framing（关键批判性分析）¶

作者把缺口 frame 成什么？ “a limitation of θ is its inability to capture scale differences.” (Abstract)。他们声称“现有检验中，没有一种（to the best of our knowledge）能在小/中等样本量下既识别位置和尺度差异，又提供可解释的效应量。”因此，本文将自己定位成填补这一缺失的“显然的下一步”。
哪些竞争路线被淡化？ 作者提到 KS 检验，说它“often suffer from low power”且“do not yield interpretable effect measures”。这是一个一刀切的强 claim——KS 检验的确是国内外被广泛使用的，但其功效确实在位置差异很小而尺度差异存在的情况下不一定差。作者直接对比了其新检验与 KS 并宣称“simulated power is much improved”（基于模拟，并非实际数据）。
被淡化/回避的还有：Lepage 检验（1971）及后来的一系列对其的变种（如 Soave et al.'s JLS test，2015）。作者只在历史回顾中提了一句，但未将其作为一个直接竞争者进行比较——尽管它们的目标（联合测试位置和尺度）是相同的。作者的 justification 很可能是：它们不提供 (θ, η) 这样的双分量效应量，而是仅给出一个标量 test statistic。
什么明显该被引 / 该存在、却没出现在 intro 里？ 有一类经典的位置-尺度非参数检验，它们在 handle 异方差情况时被使用，例如 Fligner-Killeen 检验（专注于尺度差异）或 Siegel-Tukey 检验。本文完全未提及这些。这是一个有意识的选择——它们聚焦于尺度差异，而不与位置效应联合。了解这一点有助于判断本文是否覆盖了其宣称的全部差距。
结论建议：给 researcher 的建议是：去读 Lepage (1971) 和 Soave et al. (2015) 的原文，核实作者是否公平对待了这些竞争者在“提供可解释效应量”方面的不同——这是判断本文是否“强”的关键一步。

1.6 张力¶

未见明显对立引用。所有被引工作可以被放到一个层级故事中（从位置效应到分散度再到联合推断），几乎没有互相矛盾的结论。唯一的“张力”隐藏在多变量推广这一话题上：作者关于“multivariate overlap indices”的讨论不太清晰，引用不多，反映出该子域可能还未有共识性结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

设我们比较两个独立随机样本：

可观测数据：
来自第一个分布 \(F\) 的 i.i.d. 样本 \(X_1, \dots, X_m\)。
来自第二个分布 \(G\) 的 i.i.d. 样本 \(Y_1, \dots, Y_n\)。
总样本量 \(N = m + n\)。
模型与假设：
假设 \(F\) 和 \(G\) 都是绝对连续分布（有概率密度函数）。这是本文的主要假设（实际上可放宽至无重，但连续分布是推导的基础）。
样本相互独立（组间、组内皆为独立）。
没有协变量，无分层，无截尾（文末真实例子有协变量，但核心理论是两样本）。
参数（estimands）：
θ (Mann-Whitney functional):
\[\theta = P(X < Y) + \frac{1}{2} P(X = Y) = \int (1-G(x)) \, dF(x)\]
它是衡量随机趋势（stochastic tendency）的位置参数。θ = 0.5 表示没有位置差异（等价于 \(F=G\) 约在连续的假设下），θ > 0.5 表示 \(Y\) 倾向于更大。
η (distribution overlap index): 作者定义（基于 Parkinson et al. 2018 的版本）：
\[\eta = P( Y_{(L)} < X < Y_{(U)} )\]
其中 \(Y_{(L)}\) 和 \(Y_{(U)}\) 分别是从分布 \(G\) 中中位数以下和中位数以上的随机抽取。即：随机从分布 \(G\) 中抽取一个观测值，条件为确保一个是中位数以下（\(Y_{(L)}\)）、一个是中位数以上（\(Y_{(U)}\)）。直观上，η 衡量样本 \(X\) 落入分布 \(G\) 的“核心区域”（以中位数为界的上下尾巴之间的区域）的概率。这是一个基于分布重叠概率的离散度指标。

等价且更清晰的表达（文章中使用）：若 \(\tilde{Y}\) 是来自分布 \(G\) 的、且与 \(Y_{(L)}\) 和 \(Y_{(U)}\) 独立的随机变量，那么：
\[\eta = P( Y_{(L)} < X < Y_{(U)} ) = E \left[ \mathbb{I}(Y_{(L)} < X < Y_{(U)}) \right].\]
至关重要的是：η 可以用分位数函数表示。设 \(q_{G, 0.5}\) 是 \(G\) 的中位数，中位数上下方各一半的分布函数部分来自 \(G\) 在 \((-\infty, q_{G,0.5}]\) 和 \([q_{G,0.5}, \infty)\) 上的条件分布。η 是 \(X\) 在 \(G\) 的这“两半”之间分布的概率。

对 η 的参数估计：文中给出一个基于秩的简单估计：η̂ = (2/(m n)) * 对每个 \(X_i\) 位于两个 \(Y\) 的极值之间的计数。但更严格的理论基于分位数过程。
潜在/不可观测的量：没有潜在变量。所有随机变量均为可观测。但是分布 \(F\), \(G\) 本身是不可直接观测的，只能通过样本估计。

第二步：最小内核¶

本文的最小内核，是将两个最小也最标准的特例联合起来，推导其联合渐近分布：

特例：连续分布，无协变量，H₀: F = G**。

在这个特例下： - θ = 0.5（因为 P(X < Y) = 0.5 当分布相等时）。 - η = ? 需要计算。作者给出当 \(F=G\) 时，如果分布是对称的（如正态、均匀、拉普拉斯），且已知中位数为 0，那么 η = 0.5（等概率地落入乐观和悲观的区间）。更一般地，在 \(F=G\) 且连续的情况下，η 恰好为 1/2。因此 H₀ 同时将 θ 和 η 的一半各自固定在一个已知点：θ = 0.5, η = 1/2。

核心问题：现在要检验 H₀。传统的 WMW 检验只检查 θ̂ 是否接近 0.5（通过它的渐近方差）。但存在两个分布尺度不同但中位数相同的情况（比如一个分布方差很大，一个方差很小），此时 θ̂ ≈ 0.5（因为位置没变），WMW 检验无法拒绝 H₀，但 η̂ 会显著偏离 1/2（因为 X 更倾向于落入 Y 的“核心”或“外围”，即重叠发变小）。因此，联合检验 (θ̂, η̂) 偏离 (0.5, 1/2) 的 Wald 统计量就是一个更灵活的检验。

这个特例下要证明的命题（退化为）：

要证明：

\[\sqrt{N} \left( \begin{pmatrix} \hat{\theta} \\ \hat{\eta} \end{pmatrix} - \begin{pmatrix} 0.5 \\ 1/2 \end{pmatrix} \right) \xrightarrow{d} N\left(0, \Sigma\right)\]

其中 \(\Sigma\) 是 2×2 协方差矩阵，并给出它的显式表达式（或可一致地估计）。

为什么吃劲？为什么作者需要技巧？

二者估计量的结构完全不同：\(\hat{\theta}\) 是 U-统计量（平滑的、全局的），而 \(\hat{\eta}\) 是分位数过程的泛函（对局部尾部行为敏感，受极值影响更大）。因此，它们的联合渐近分布不能只靠单一的 U-统计量理论，而需要处理过程层面的收敛。
U-统计量与分位数泛函的协方差项的推导：直接计算 Cov(θ̂, η̂) 涉及对混合类型对象（U-统计量与 V-统计量/次序统计量泛函）的协方差推导，通常没有现成的 closed-form 公式，需要利用 empirical process / influence function 方法。
η 的定义包含“两次从分布 G 中抽取”（一上一下），这使 η 的估计量不是简单两样本 U-统计量，而是一个四重求和（对应 \(X\) 与两个 \(Y\) 的比较）。在推导渐近方差时，需要用到高阶 U-统计量的退化展开技巧。

本文的关键想法：作者不用繁琐的经验过程分解，而是巧妙地利用 分位数过程 (quantile process) 表示 η（将 Parzen's representation 用一个变化后的 Z-score 表示）；然后通过Delta 方法，将 (θ̂, η̂) 表示为若干个独立样本之和的函数的联合收敛，并利用已知的 U-统计量弱收敛结果。结论：联合分布是一个已知协方差结构的双变量正态分布。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在非参数两样本比较中，将经典的 Mann-Whitney 效应量 (θ) 与新提出的分布重叠指数 (η) 结合起来，推导其联合渐近分布，构建联合置信区域和一种新的双变量假设检验，填补现有方法在检测位置+尺度差异时缺乏可解释效应量的空白。
核心工具/方法：利用分位数过程表示 η，通过 empirical process/ Delta method 推导 (θ̂, η̂) 的联合渐近正态性；基于 Wald 统计量构建双变量检验。
主要结论：(θ̂, η̂) 是联合渐近正态的，新检验一致区（consistency regions）远大于 WMW 检验，且对于仅存在尺度差异而位置无差的情况具有良好功效，综合检验性能优于 KS 和经典位置-尺度检验（如某些复合检验）。

关键设定与假设¶

在第二节记号基础上，完整设定如下：

总体假设：
A1 (连续分布)：\(F, G\) 皆连续分布——保证秩无结（无 ties），且 θ, η 的秩估计与映射唯一。
A2 (独立同分布样本)：\(X_1, \dots, X_m \stackrel{\text{i.i.d.}}{\sim} F\), \(Y_1, \dots, Y_n \stackrel{\text{i.i.d.}}{\sim} G\), 且两样本相互独立。
A3 (正则性)：\(F\) 和 \(G\) 的密度函数 \(f, g\) 在支撑集上有界且连续，且在各自的中位数处为正有限（\(f(m_G)>0\) 等）。这保证了分位数过程有良好的渐近行为。
相比已有文献的设定：
相比经典的 WMW 检验：本检验不需要位置偏移假设——WMW 检验在原假设 \(F=G\) 下工作良好，替代假设仅在位置偏移下工作；这里在原假设下 \(F=G\)（或某些 \(θ\) 与 \(η\) 的匹配情形）依然是原假设，但替代假设可以包括只有尺度差异、只有位置差异或两者皆有。
相比仅使用 η 的检验 (Parkinson-Schwarz & Bathke, 2021)：本文引入 θ 后，当面对仅位置差异的情境时，检验不会丧失功效，因为 WMW 部分依然敏感。同时，它还能提供更丰富的效应量分解。

主要结果¶

论文的理论贡献主要体现在 Section 4（Asymptotic Theory）。我挑两个最关键的定理来描述：

定理1 (Convergence of the joint estimator):

\[\sqrt{N} \left( \begin{pmatrix} \hat{\theta}^\dagger \\ \hat{\eta} \end{pmatrix} - \begin{pmatrix} \theta^dagger \\ \eta \end{pmatrix} \right) \xrightarrow{d} \mathcal{N}\left(0, \Gamma \right),\]

其中 \(\hat{\theta}^\dagger\) 是某个“调整了 ties 影响”的 θ 估计量（细节略，核心是U统计量）。\(\eta\) 是 \(\eta\) 的估计量（基于分位数过程的泛函）。 - 直觉：为了做 Delta method，作者需要把 η̂ 转化为一个关于 (F, G) 的平滑泛函。他们引入变量 \(Z_i = \Phi^{-1}(F(X_i))\) 等技巧，最终证明 η̂ 等于一个四重 U-统计量，从而使其与 θ̂（二重 U-统计量）在经验过程框架下联合收敛。 - 必要条件：连续分布假设 A1 是必须的（否则估计量形式失真）；A2 确保渐近独立；A3 确保分位数过程收敛。 - 解决的技术难点：此前没有一个工作将这样两个不同类型的泛函（U-统计量 vs. 分位数过程泛函）的联合分布封闭地推导出来。

定理2 (Consistency region of the proposed test): 定义检验统计量 \(T = N (\hat{\theta} - 1/2, \hat{\eta} - 1/2) \hat{\Sigma}^{-1} (\hat{\theta} - 1/2, \hat{\eta} - 1/2)^\top\) （这是一个 Wald 统计量，原假设 H₀: θ = 0.5, η = 1/2）。该检验的一致性区域（即检验功效趋于 1 的参数空间）为 { (θ, η) : (θ-0.5, η-1/2) ≠ (0,0) } 减去一个零测集。 - 后续函数中的对比：“Compared with the Wilcoxon-Mann–Whitney test”, WMW 的一致性区域仅为 { (θ, η) : θ ≠ 0.5}，这不包括仅有 η ≠ 1/2 但 θ = 0.5 的情况。新检验的一致性区域严格大于 WMW。 - 和 KS 对比：“Compared with classical omnibus tests（如 KS）, the simulated power is much improved”——他们在模拟中观察到明显的改进，尤其是在中等样本量下。 - 核心量化结论：模拟显示，对于尺度差异（scale alternative），WMW 检验的检验功效约为 0.05（等于名义水平），而新检验在同样情形下（例如两样本方差比为4时），功效可达 0.7–0.9。 - 稳健性：模拟调查了不同分布（正态、logistic、t-分布、Gamma）和样本量（N=20–100），结论比较稳健。替换估计量（\(\hat{\Sigma}\) 的估计方法）也做了比较，都基本维持了水平。

证明路线与技术技巧（理论型必写）¶

整体路线（5步逻辑主干）：

转化 η 为平滑泛函： η 最初定义为重叠概率。作者将其转化为一个可以用积分表示的 \(U\)-统计量：
\[\eta = P( Y_{(L)} < X < Y_{(U)} ) = \frac{1}{2} \iiint I(y_L < x < y_U) dF(x) \, dG(y_L | y_L ≤ q_G,0.5) \, dG(y_U | y_U ≥ q_G,0.5),\]
最终通过改变量使 \(Y_{(L)}\) 和 \(Y_{(U)}\) 的“条件分布”变为实际可以拿随机变量交换的一对独立变量（其中一个是限制在中位数以下，一个是以上）。关键步骤（Lemma 7.8 in arXiv version）: “the estimator of η is a so-called V-statistic of 2+order 4 (or 6, depending on nuancing)”，这意味着它可以写成一个多项求和，并最终用一个混合的 Hoeffding 分解来求渐近方差。
推导单调方差项：使用 Hoeffding 分解（empirical process 中的关键工具），将 \(\hat{\theta}\) 和 \(\hat{\eta}\) 的渐近方差分解为投影（projections）和 U-统计量核的退化部分，得出 \(\Gamma\) 的显式表达式。
通过 Delta 方法推导联合分布：一旦确认 \((\hat{\theta}, \hat{\eta})\) 是（经过适当中心化和缩放后的）渐近正态变量，直接构建 Wald 检验。
估计协方差矩阵：给出 plug-in 估计量 \(\hat{\Gamma}\)（基于两级子样本 U-统计量的经验方差），并证明其相合性（通过 law of large number for U-statistics）。
构造检验/置信域：根据 \(\chi^2_2\) 分布的临界值构建联合置信椭圆和检验的拒绝域。

关键跳跃点： - 跳跃点 1：η 不是标准 U-统计量（因为它涉及到对 Y 样本做的条件中位数分割 —— 这引入了 rank-based 的分位数）。克服方式：利用经验分位数的一致收敛（Glivenko-Cantelli）以及经验分位数过程的功能，来说明 η̂ 和其大样本条件下的“理想 U-统计量版本”（假设中位数已知）之间的差可以忽略（即 \(o_P(1/\sqrt{N})\)）。 - 跳跃点 2：计算 Cov(θ̂, η̂)。θ̂ 是均值对称二重求和；η̂ 是 4 次（或更高次）求和。他们的协方差涉及不同阶 U-统计量的协方差投影。作者用高阶 Hoeffding 分解（也称“U-统计量的方差/Varcov 公式”），但大幅化简地发现，两个对象的一阶投影（first-order Hoeffding projection）恰好同时相关——因此协方差只需要考虑每个估计量的线性部分。

技术技巧点名： - Empirical process theory (van der Vaart & Wellner, 1996)：用于保证分位数过程收敛。 - Hoeffding decomposition（U-统计量）：细到二阶投影，用于求方差和协方差。 - Delta Method：被用于从 U-统计量向目标统计量的转化。 - 可忽略误差项（\(o_P(1/\sqrt{N})\)）的构造：利用分位数估计的 \(N^{-1/2}\) 收敛速度和 Delta 方法，将 η̂ 替换为平滑版本。

真实例子与应用¶

本文包含一个数据应用：Paracelsus 10,000 队列研究（Frey et al., 2023）。

用的什么数据/场景：研究两种抗凝疗法对颈动脉内膜中层厚度 (CIMT) 的影响——比较维生素 K 拮抗剂 (VKA) 与直接口服抗凝药 (VA) 两组患者的 CIMT 分布。
怎么把方法用上去：计算两组 CIMT 的 (θ̂, η̂)，构建 95% 置信椭圆。θ̂ 说明哪组的 CIMT 更大（解析出位置差），η̂ 说明两组 CIMT 分布的重叠程度（解析出尺度/离散度差）。
得到什么结果：θ̂ ≈ 0.47（稍微倾向于 VA 组的 CIMT 更小），但其 95% CI 包含 0.5，说明类别间位置差没有统计学意义（即 WMW 检验如单独使用可能不显著）。而 η̂ ≈ 0.42，其置信区间排除了两组的 η = 0.5（原假设），表明 VA 组的 CIMT 分布“落在 VKA 组核心区域之外的概率”更高，即分布形状在尺度/离散度上有显著差异。
这个例子想说明什么：单独依靠 θ 会错过只有离散度变化时的效应，而联合框架可以检测到。头一个很多统计检验可能看似不显著（如果仅看位置），但这里联合检验给出了显著性证据，展示了该方法的实际优势。

🔎 结论是否比证明窄¶

是的，有一个值得注意的地方：定理假设了 \(F, G\) 是连续的（无 ties）。但在真实例子中（Paracelsus 10,000），CIMT 的分布很可能是带测量的连续变量或四舍五入的数据，因而会有一些轻微的 ties。作者在他们的模拟研究中考虑到了轻微 ties，指出结论在存在小概率 ties 时仍然比较稳健，但理论证明并没有正式覆盖离散分布。文章的 Abstract 只提到 “makes only one basic assumption on the underlying distribution, namely continuity”，这成为“结论比证明窄”的地方——作者没有（且也没有声称）在理论层面处理结（ties）的情况，尽管模拟显示它似乎合理。这个细节对于严谨的统计研究者是一个已知缺口，需要后续向 WMW 理论中处理 ties 的方法（如 half-correction）看齐。
另一个：“consistency region” 在理论上的确大于 WMW检验。但作者在模拟部分只展示了两个具体备择假设（纯尺度变化、位置+尺度变化）下的行为，未在所有可能的 (θ, η) 空间点上验证这个“更大”的性质。这是一种理论上的必然，非技术上的不足。

四、开放问题（点到为止，扎根具体语句）¶

以下每条问题都扎根于论文自身的局限性、模棱两可的表述或明确的 future work 导向。

处理结 (ties) 的理论扩展
- 扎根：论文第 2 节写“assume absolutely continuous distributions”且无 ties；但模拟部分（Section 6）提到了“artificial ties were added”。结论未正式覆盖有结分布（离散或连续含结）。具体 gap：在连续假设下推导的一致性与渐近方差估计量，在有结时的偏差有多大？是否可仿照 WMW 检验中“half-correction”的办法，构造一个修正版的 (θ, η) 估计量，以在离散设定下保持方差估计精确？这是对本文核心理论的直接扩展。
小样本的精确分布
- 扎根：论文完全基于“渐近”理论（\(N \to \infty\)）。模拟虽然覆盖 \(N\) 到 20 人的小样本，但建议（Section 8）说“在更小的样本下也许 permutation test 更合适”。具体 gap：是否存在对 (θ̂, η̂) 组合统计量的分布自由的精确（finite-sample）空分布？比如联合排秩检验？已知在单变量情况下（θ̂ 本身）可以使用 randomization，但 η̂ 依赖于“分布内排序”导致完全排列的方法不再 trivial。
一致性区域理论中的可识别性
- 扎根：文章定理 2 显示检验的一致区域是 \(\theta \neq 1/2\) OR \(\eta \neq 1/2\)。但注意在连续的设定下，\(\eta=1/2\) 可以发生而 θ ≠ 1/2（例如分布不对称的方差变化）。具体 gap：对于一对 (θ, η) 到分布 (F, G) 的映射，是否 show 了全双射？即给定任意的 (θ, η)，是否总能找到若干 (F, G) 会产生这一对？这决定了效应空间的维度。如果映射不是一一映射，那么(θ, η) 只是一个“summary”，某些高维结构差异可能无法被该简单二元组捕获。作者在 Section 8 也承认了这个总体性的“no one size fits all”问题。
多变量推广与非参数化操作
- 扎根：“link between multivariate overlap of niches and concepts of data depth (Liu et al., 1999; Chernozhukov et al., 2017) and multivariate ranks (Hallin et al., 2021; Deb & Sen, 2023) needs to be explored further”（Section 8）。
- 具体 gap：当 \(d \ge 2\) 时，秩的概念失去规范定义，η 的现有定义（涉及中位数以下和以上）也不再定义良好。如何利用测度输运或深度（depth）定义一个多变量分布重叠指数，从而让整个 (θ, η) 推论框架在多变量下成立？这是本文作者清晰指出但未试算的下一步。

Maintained by 陈星宇 · Homepage · Source on GitHub