On the failure of the bootstrap for Chatterjee’s rank correlation¶
作者: Zhexiao Lin, Fang Han
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:如何构造并推断一个具有0-1标度、且0等价于独立、1等价于函数依赖的非参数相关性度量。当前该方向处于高度活跃但理论瓶颈逐步显现的成熟期:大量文献已成功构造出满足0-1性质的度量(如 Chatterjee's \(\xi_n\)、Azadkia-Chatterjee's \(T_n\)),并建立了其渐近正态性;但随之暴露出两个深层缺陷——局部检验功效的速率次优,以及标准 bootstrap 推断的失效。本文正是锚定在“渐近正态却 bootstrap 不一致”这一反直觉的理论缺口上。
发展脉络: - 奠基工作:Dette et al. (2013) 首次提出了基于 copula 的 0-1 依赖度量 \(\xi\);Chatterjee (2021) 基于简单秩统计构造了 \(\xi\) 的样本版本 \(\xi_n\),证明了其在独立下的渐近正态性与无分布性,并提供了独立检验。作者引用原话指出:“Sourav Chatterjee derived the limiting null distribution of \(\xi_n\) for testing independence”。 - 主要进展(功效瓶颈):Shi et al. (2022) 与 Cao & Bickel (2022) 揭示了 \(\xi_n\) 在局部替代下的速率次优问题。作者引用 Shi et al. 指出其“rate sub-optimal compared to D, R, and \(\tau^*\)”。Bickel (2022) 进一步指出在某些局部替代下,Chatterjee 检验“may be misleading”。为弥补功效缺陷,Lin & Han (2022b) 提出了引入多个右近邻的改进版,以在 Gaussian rotation 下达到近参数效率。 - 主要进展(渐近分布与方差):Lin & Han (2022a) 解决了非独立下 \(\xi_n\) 的渐近分布长期悬而未决的问题,证明其在非函数依赖下渐近正态,且方差一致有界于 36,并给出了分析方差估计器。作者引用此工作称:“the method proposed by Lin and Han (2022) performs well for large n”。 - 当前 frontier(推断失效):尽管 \(\xi_n\) 渐近正态,经验与理论迹象表明标准 bootstrap 对其失效。Fang & Santos (2019) 从方向可微泛函角度给出了 bootstrap 失效的一般性框架;Sen et al. (2010) 与 Kosorok (2008) 证明了 \(n^{1/3}\) 收敛的 Grenander 估计量 bootstrap 不一致;Bretagnolle (1983) 与 Arcones & Gine (1992) 揭示了退化 U/V 统计量的非正态极限导致 bootstrap 失效。然而,\(\xi_n\) 既非 \(n^{1/3}\) 收敛也非退化 U 统计量,其 bootstrap 失效的机制属于新类别。 - 本文的位置:在上述脉络中,本文首次在额外独立性假设下严格证明了 \(\xi_n\) 的 bootstrap 不一致性,将其正式归类为“渐近正态但 bootstrap 不一致”的统计量,并指明有效推断只能依赖原始独立检验或 Lin & Han (2022a) 的分析方差。
子线索聚类: 1. 0-1 依赖度量的构造与拓展:从 Chatterjee (2021) 的 \(\xi_n\) 到 Azadkia & Chatterjee (2021) 的条件依赖系数 \(T_n\),再到 Griessenberger et al. (2022)、Fuchs (2023)、Strothmann et al. (2022) 的 copula/重排变体,以及 Han & Huang (2022) 的流形自适应。这一簇致力于“构造满足 0-1 性质且计算近线性时间的度量”。 2. 功效分析与改进:Shi et al. (2022)、Cao & Bickel (2022)、Auddy et al. (2021) 揭示 \(\xi_n\) 的 \(n^{-1/4}\) 检测边界与速率次优;Lin & Han (2022b)、Zhang (2023a/b) 通过多近邻或结合 Spearman's \(\rho\) 提升功效。这一簇追问“如何在保持 0-1 性质下达到近参数效率”。 3. Bootstrap 不一致的一般理论:Fang & Santos (2019) 的方向可微框架、Sen et al. (2010) / Kosorok (2008) 的 \(n^{1/3}\) 估计量、Arcones & Gine (1992) 的退化 U 统计量。这一簇梳理“哪些泛函类会导致 bootstrap 失效及补救方案(如 \(m\)-out-of-\(n\) 或平滑 bootstrap)”。
这个方向在追问的核心问题: 1. 如何推断 \(\xi_n\)?:已知 \(\xi_n\) 渐近正态,但 bootstrap 失效,方差估计复杂。当前主流是 Lin & Han (2022a) 的分析方差,瓶颈在于该方差公式在非独立下计算繁复,且缺乏数据驱动的简化。 2. \(\xi_n\) 的 bootstrap 失效机制是什么?:它不属于已知的不一致类别(非方向可微、非 \(n^{1/3}\)、非退化 U),其失效根源在于秩统计量在经验测度下的某种非平滑交互。当前瓶颈是缺乏对这种“渐近正态却 bootstrap 不一致”现象的一般刻画。 3. 0-1 度量能否兼顾功效与推断?:Chatterjee 类度量在功效上速率次优,在推断上 bootstrap 失效。当前瓶颈是“0-1 性质、近参数效率、推断便利性”三者似乎不可兼得。
⚠️ 作者的 framing: - 作者将缺口 frame 为:经验上已知 bootstrap 对 \(\xi_n\) 不工作,但缺乏严格证明,因此本文在独立性假设下给出证明,使其成为“显然的下一步”。 - 被淡化的竞争路线:作者未讨论针对 \(\xi_n\) 的 \(m\)-out-of-\(n\) bootstrap 或平滑 bootstrap 是否能恢复一致性(Sen et al. (2010) 对 Grenander 证明了平滑 bootstrap 有效),也未讨论 subsampling 的可行性。这些是明显的替代推断方案,却被回避。 - 缺失的引用:Intro 中未引述关于秩统计量 bootstrap 的经典文献(如 Babu & Rao 1984 对线性秩统计量 bootstrap 一致性的证明),也未引述经验过程在分位点/秩映射下不可微的深入讨论(如 Pollard 1984 或 van der Vaart 1998 的 Delta method 章节)。这些文献对于理解 \(\xi_n\) 的非平滑性至关重要,值得研究者去查。
张力: 未见明显对立引用。Bickel (2022) 与 Shi et al. (2022) 均指出 \(\xi_n\) 功效次优,与 Lin & Han (2022b) 的改进方向一致,无矛盾。但存在一个深层张力:\(\xi_n\) 在独立下渐近正态且方差已知(2/5),看似“平滑”,却 bootstrap 不一致;这与 Fang & Santos (2019) “方向可微是 bootstrap 一致的必要条件”的框架形成张力——\(\xi_n\) 的失效机制不在 Fang & Santos 的覆盖范围内,暗示存在更广泛的 bootstrap 不一致类别。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- 符号:
- \((X, Y)\):目标随机变量对,取值于 \(\mathbb{R}^2\)。
- \(\xi(X, Y)\):Chatterjee 的总体依赖度量,定义为 \(\xi = 1 - \frac{3 \mathbb{E}[\text{Var}(Y \mid X)]}{2 \text{Var}(Y)}\)(当 \(\text{Var}(Y)>0\)),满足 \(0 \leq \xi \leq 1\),\(\xi=0\) iff \(X \perp Y\),\(\xi=1\) iff \(Y=f(X)\) a.s.。
- \(\xi_n\):基于样本的 Chatterjee 秩相关系数,核心 estimand。
- \((X_i, Y_i)_{i=1}^n\):i.i.d. 样本,来自 \((X, Y)\) 的联合分布 \(P\)。
- \(R_i\):\(Y_i\) 在 \((Y_1, \dots, Y_n)\) 中的秩(从 1 到 \(n\))。
- \(N_i\):在 \(X\) 排序后,\(Y_i\) 的右近邻中 \(Y\) 值大于 \(Y_i\) 的个数。具体地,将样本按 \(X\) 排序得 \((X_{(1)}, Y_{(1)}), \dots, (X_{(n)}, Y_{(n)})\),则 \(N_i = \#\{j > i : R_{(j)} > R_{(i)}\}\)。
- \(\xi_n\) 的显式公式:\(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\),或等价地 \(\xi_n = \frac{\sum_{i=1}^{n-1} N_i}{\binom{n}{2}}\)。
- \(P_n\):经验分布;\(P_n^*\):从 \(P_n\) 重抽样 \(m=n\) 的 bootstrap 经验分布;\(\xi_n^*\):基于 bootstrap 样本计算的 \(\xi_n\)。
-
\(\sigma^2\):\(\xi_n\) 在独立下的渐近方差,已知 \(\sigma^2 = 2/5\)。
-
模型:
- 数据生成机制:\((X_i, Y_i) \sim P\),\(P\) 是 \(\mathbb{R}^2\) 上的连续分布(保证秩无结)。本文核心定理假设 \(X \perp Y\)(独立),且 \(X, Y\) 边际连续。
- 已知:\(P\) 连续,\(X \perp Y\)。
-
要估的对象:\(\xi_n\) 的渐近分布(已知为 \(\sqrt{n}(\xi_n - 0) \xrightarrow{d} N(0, 2/5)\)),以及 bootstrap 分布 \(\sqrt{n}(\xi_n^* - \xi_n)\) 是否收敛到同一极限。
-
可观测数据:
- 实际观测到的是 i.i.d. 样本 \((X_i, Y_i)_{i=1}^n\),从中可计算 \(R_i\)、\(N_i\)、\(\xi_n\)。
- 不可观测的是总体分布 \(P\) 与总体 \(\xi\);在独立假设下,\(\xi=0\) 是已知的 estimand,但本文关注的是 \(\xi_n\) 的抽样分布与 bootstrap 分布的匹配问题——这纯粹是关于统计量本身的性质,不涉及潜在因果或反事实量。
第二步:最小内核
本文的最小内核是:在 \(X \perp Y\) 且边际连续的特例下,证明标准 bootstrap 对 \(\xi_n\) 不一致。
- 特例设定:\(X \perp Y\),\(X, Y\) 均连续。此时 \(\xi_n = \frac{\sum_{i=1}^{n-1} N_i}{\binom{n}{2}}\),且 \(\sqrt{n} \xi_n \xrightarrow{d} N(0, 2/5)\)。
- 要证的命题:\(\sqrt{n}(\xi_n^* - \xi_n)\) 不收敛到 \(N(0, 2/5)\)(在概率意义下,即其分布不弱收敛到任何极限,或极限与 \(N(0, 2/5)\) 不同)。
- 为什么成立(直觉):
- \(\xi_n\) 的计算依赖两步排序:先按 \(X\) 排序,再在排序后的序列中比较 \(Y\) 的秩差 \(|R_{(i+1)} - R_{(i)}|\)。这引入了数据驱动的排序索引,使得 \(\xi_n\) 不是经验分布 \(P_n\) 的平滑泛函。
- Bootstrap 样本 \((X_i^*, Y_i^*)\) 来自 \(P_n\),其 \(X^*\) 值会出现结(即使原 \(X\) 连续,\(P_n\) 下 \(X^*\) 有结概率 > 0)。结的出现破坏了“按 \(X\) 排序”的唯一性,导致 bootstrap 版 \(\xi_n^*\) 的定义依赖于结处理规则(如随机打破结),而这种规则在 \(P_n\) 下与在 \(P\) 下行为截然不同。
- 更深层地,即使强制打破结,\(\xi_n\) 对经验分布的导数在独立点处不存在或不连续。Fang & Santos (2019) 证明,对于方向可微泛函,bootstrap 一致需要方向导数连续;\(\xi_n\) 的排序机制使得其方向导数在独立点处表现出非连续的跳变,导致 bootstrap 分布无法捕捉原分布的渐近行为。
- 最小内核的证明骨架:
- 计算 \(\xi_n^*\) 在 bootstrap 下的条件方差 \(\text{Var}^*(\sqrt{n} \xi_n^*)\),证明它不收敛到 \(2/5\)(而是收敛到某个更大值或波动),从而 bootstrap 分布的尺度与原分布不匹配。
- 具体地,由于 bootstrap 样本的 \(X^*\) 有结,排序后的 \(Y^*\) 序列不再是原样本排序后 \(Y\) 序列的简单扰动,而是引入了额外的随机置换,使得 \(N_i^*\) 的协方差结构偏离原 \(N_i\) 的协方差结构,导致方差膨胀。
三、这篇论文做了什么¶
三句话: ①研究了 Chatterjee 秩相关系数 \(\xi_n\) 在独立假设下标准 bootstrap 推断的一致性问题; ②核心工具是计算 bootstrap 版 \(\xi_n^*\) 的条件方差并证明其不收敛到真实渐近方差 \(2/5\); ③主要结论是 \(\xi_n\) 属于渐近正态但 bootstrap 不一致的统计量类别,有效推断只能依赖原始独立检验或 Lin & Han (2022a) 的分析方差估计器。
关键设定与假设: - 设定:\((X_i, Y_i)_{i=1}^n\) i.i.d. 来自连续分布 \(P\),计算 \(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\)。 - 假设 A1(独立性):\(X \perp Y\)。这是核心定理的必要条件,统计含义是限制在零假设下。相比已有文献(Lin & Han 2022a 在一般依赖下证明渐近正态),本文假设更强,但这是为了隔离 bootstrap 失效的根源——在依赖下,\(\xi_n\) 的非平滑性更复杂,独立性提供了最干净的剖析场景。 - 假设 A2(连续性):\(X, Y\) 边际连续,保证秩无结。这是 Chatterjee (2021) 的标准假设,本文未放宽。 - Bootstrap 定义:从 \(P_n\) 重抽样 \(n\) 个点,计算 \(\xi_n^*\)。对于 \(X^*\) 的结,采用随机打破规则。作者明确指出,结处理规则的选择不影响不一致性结论,因为失效根源在于排序机制的非平滑性,而非结本身。
主要结果: - 定理 2.1(Bootstrap 不一致性):在 \(X \perp Y\) 且边际连续下,\(\sqrt{n}(\xi_n^* - \xi_n)\) 的条件分布不弱收敛到 \(N(0, 2/5)\)(在概率意义下)。具体地,其条件方差 \(\text{Var}^*(\sqrt{n} \xi_n^*)\) 收敛到 \(2/5 + \Delta\),其中 \(\Delta > 0\) 是由排序非平滑性引入的方差膨胀项。 - 直觉:Bootstrap 样本中 \(X^*\) 的结导致排序索引的随机置换,使得 \(\xi_n^*\) 的波动比 \(\xi_n\) 更大,方差膨胀。 - 必要条件:独立性假设是关键——在依赖下,\(\xi_n\) 的渐近方差本身依赖 \(P\) 的结构,bootstrap 方差的偏离更难隔离。独立性使得真实方差固定为 \(2/5\),任何偏离都可被明确归咎于 bootstrap 失效。 - 解决的技术难点:计算 \(\xi_n^*\) 的条件方差需要处理排序索引在 bootstrap 下的随机性,这涉及秩统计量与排序过程的联合分布,传统经验过程工具难以直接应用。
- 推论 / 仿真补充:作者通过仿真验证,在一般依赖设定下(非独立),bootstrap 方差同样偏离真实渐近方差,且偏差随依赖强度变化。这暗示不一致性可能超越独立设定,但严格证明目前只在独立下完成。
证明路线与技术技巧: - 整体路线: 1. 分解 \(\xi_n\) 为秩差之和:利用 \(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\),将问题转化为分析排序后 \(Y\) 秩差的 bootstrap 版。 2. 刻画 bootstrap 排序过程:Bootstrap 样本 \((X_i^*, Y_i^*)\) 中 \(X^*\) 有结,排序后索引不再是原索引的确定性重排,而是引入随机置换。作者精确计算了这种置换对 \(Y^*\) 秩差的影响。 3. 计算条件方差:通过展开 \(\text{Var}^*(\sqrt{n} \xi_n^*)\),分离出由原样本贡献的项(收敛到 \(2/5\))和由 bootstrap 排序随机性贡献的项(收敛到 \(\Delta > 0\))。 4. 证明方差膨胀项非零:利用独立性假设,证明排序置换引入的协方差项在极限下为正,无法被消除。 5. 得出不一致性:由于条件方差偏离真实方差,bootstrap 分布无法匹配原分布,故不一致。
- 关键跳跃点:
- 引理 3.1 / 3.2(Bootstrap 排序索引的分布):这是最吃功夫的部分。作者需要刻画“在 \(X^*\) 有结下,排序后 \(Y^*\) 的秩差与原样本秩差的关系”。难点在于排序索引是数据驱动的,其 bootstrap 分布依赖 \(P_n\) 的结结构,传统 Delta method 无法处理。作者通过条件概率计算,给定原样本下,精确推导了 bootstrap 排序索引的联合分布,并证明其引入的协方差项在极限下为正。
-
方差膨胀项的识别:从 \(\text{Var}^*(\sqrt{n} \xi_n^*)\) 的展开中,作者识别出膨胀项来源于“相邻 \(X^*\) 值相同时,对应 \(Y^*\) 值的随机交换”,这种交换在独立下使得 \(Y^*\) 秩差的协方差结构偏离原结构。
-
技术技巧点名:
- 条件方差展开:用于分离 bootstrap 方差中来自原样本与来自排序随机性的部分,是证明的核心计算工具。
- 排序过程的随机置换分析:处理 bootstrap 下结导致的排序不确定性,这是本文针对 \(\xi_n\) 特有结构开发的技术,不属于经典经验过程工具。
- 独立性下的协方差简化:利用 \(X \perp Y\),将 \(Y\) 秩差的协方差结构简化为仅依赖边际分布,使得膨胀项可被显式计算。
- Hájek 投影的回避:Lin & Han (2022a) 用 Hájek 投影证明 \(\xi_n\) 渐近正态,但本文未用此工具,因为 bootstrap 下投影结构被排序随机性破坏,需直接计算方差。
真实例子与应用: - 仿真实验:作者在独立与多种依赖设定下(线性、单调、非单调依赖),比较了 bootstrap 方差、真实渐近方差(Lin & Han 2022a 公式)、以及经验方差。结果显示: - 在独立下,bootstrap 方差系统性高于 \(2/5\),与定理 2.1 一致。 - 在依赖下,bootstrap 方差同样偏离真实方差,偏差方向与大小依赖依赖类型。 - Lin & Han (2022a) 的分析方差估计器在所有设定下均与经验方差匹配。 - 想说明什么:验证理论结论(独立下不一致)在一般设定下同样成立,并展示分析方差估计器作为替代推断工具的有效性。
🔎 结论是否比证明窄: - 作者在 Abstract 与 Intro 中 claim:“the standard bootstrap, in general, does not work for Chatterjee’s rank correlation”,但严格证明只在独立假设下完成。一般依赖下的不一致性仅由仿真支持,未给出定理。这是一个明显的泛泛 claim,严格结论窄于陈述。 - 作者指出“Valid inferential methods in this case are Chatterjee’s original proposal for testing independence and the analytic asymptotic variance estimator of Lin & Han (2022)”,但未证明其他补救方案(如 \(m\)-out-of-\(n\) bootstrap、subsampling)是否有效,结论窄于“只有这两种方法有效”的暗示。
四、开放问题(点到为止)¶
- 一般依赖下的 bootstrap 不一致性:要证在 \(X\) 不独立于 \(Y\) 时,\(\sqrt{n}(\xi_n^* - \xi_n)\) 的条件分布不收敛到真实渐近分布。扎根在 Abstract 的“in general, does not work”与 Section 4 仿真的局限。
- 补救 bootstrap 方案的有效性:要证 \(m\)-out-of-\(n\) bootstrap 或平滑 bootstrap 对 \(\xi_n\) 是否一致。扎根在 Intro 对 Sen et al. (2010) 平滑 bootstrap 的引用,但本文未讨论此路线。
- “渐近正态却 bootstrap 不一致”的一般类别刻画:要找出除 \(\xi_n\) 外,哪些秩统计量或排序驱动统计量属于此类,并给出一般条件。扎根在 Intro 的“falls into a category”与 Fang & Santos (2019) 框架的张力——\(\xi_n\) 不在 Fang & Santos 的方向可微类别内。
- 高维 / 条件依赖系数的 bootstrap:要证 Azadkia-Chatterjee 的 \(T_n\) 是否同样 bootstrap 不一致。扎根在 Intro 对 Azadkia & Chatterjee (2021) 的引用及本文结论的可能推广。
提醒:要确认第 2 条是否真 gap,去读近 5 年关于 \(m\)-out-of-\(n\) bootstrap 与平滑 bootstrap 在非平滑泛函下的文献(如 Sen et al. 2010 后续);要确认第 3 条是否共识,去读 Fang & Santos (2019) 及其引用的后续工作,看是否有人提出比方向可微更广的 bootstrap 一致条件。
Maintained by 陈星宇 · Homepage · Source on GitHub