On the failure of the bootstrap for Chatterjee’s rank correlation¶

作者: Zhexiao Lin, Fang Han
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何构造并推断一个具有0-1标度、且0等价于独立、1等价于函数依赖的非参数相关性度量。当前该方向处于高度活跃但理论瓶颈逐步显现的成熟期：大量文献已成功构造出满足0-1性质的度量（如 Chatterjee's \(\xi_n\)、Azadkia-Chatterjee's \(T_n\)），并建立了其渐近正态性；但随之暴露出两个深层缺陷——局部检验功效的速率次优，以及标准 bootstrap 推断的失效。本文正是锚定在“渐近正态却 bootstrap 不一致”这一反直觉的理论缺口上。

发展脉络： - 奠基工作：Dette et al. (2013) 首次提出了基于 copula 的 0-1 依赖度量 \(\xi\)；Chatterjee (2021) 基于简单秩统计构造了 \(\xi\) 的样本版本 \(\xi_n\)，证明了其在独立下的渐近正态性与无分布性，并提供了独立检验。作者引用原话指出：“Sourav Chatterjee derived the limiting null distribution of \(\xi_n\) for testing independence”。 - 主要进展（功效瓶颈）：Shi et al. (2022) 与 Cao & Bickel (2022) 揭示了 \(\xi_n\) 在局部替代下的速率次优问题。作者引用 Shi et al. 指出其“rate sub-optimal compared to D, R, and \(\tau^*\)”。Bickel (2022) 进一步指出在某些局部替代下，Chatterjee 检验“may be misleading”。为弥补功效缺陷，Lin & Han (2022b) 提出了引入多个右近邻的改进版，以在 Gaussian rotation 下达到近参数效率。 - 主要进展（渐近分布与方差）：Lin & Han (2022a) 解决了非独立下 \(\xi_n\) 的渐近分布长期悬而未决的问题，证明其在非函数依赖下渐近正态，且方差一致有界于 36，并给出了分析方差估计器。作者引用此工作称：“the method proposed by Lin and Han (2022) performs well for large n”。 - 当前 frontier（推断失效）：尽管 \(\xi_n\) 渐近正态，经验与理论迹象表明标准 bootstrap 对其失效。Fang & Santos (2019) 从方向可微泛函角度给出了 bootstrap 失效的一般性框架；Sen et al. (2010) 与 Kosorok (2008) 证明了 \(n^{1/3}\) 收敛的 Grenander 估计量 bootstrap 不一致；Bretagnolle (1983) 与 Arcones & Gine (1992) 揭示了退化 U/V 统计量的非正态极限导致 bootstrap 失效。然而，\(\xi_n\) 既非 \(n^{1/3}\) 收敛也非退化 U 统计量，其 bootstrap 失效的机制属于新类别。 - 本文的位置：在上述脉络中，本文首次在额外独立性假设下严格证明了 \(\xi_n\) 的 bootstrap 不一致性，将其正式归类为“渐近正态但 bootstrap 不一致”的统计量，并指明有效推断只能依赖原始独立检验或 Lin & Han (2022a) 的分析方差。

子线索聚类： 1. 0-1 依赖度量的构造与拓展：从 Chatterjee (2021) 的 \(\xi_n\) 到 Azadkia & Chatterjee (2021) 的条件依赖系数 \(T_n\)，再到 Griessenberger et al. (2022)、Fuchs (2023)、Strothmann et al. (2022) 的 copula/重排变体，以及 Han & Huang (2022) 的流形自适应。这一簇致力于“构造满足 0-1 性质且计算近线性时间的度量”。 2. 功效分析与改进：Shi et al. (2022)、Cao & Bickel (2022)、Auddy et al. (2021) 揭示 \(\xi_n\) 的 \(n^{-1/4}\) 检测边界与速率次优；Lin & Han (2022b)、Zhang (2023a/b) 通过多近邻或结合 Spearman's \(\rho\) 提升功效。这一簇追问“如何在保持 0-1 性质下达到近参数效率”。 3. Bootstrap 不一致的一般理论：Fang & Santos (2019) 的方向可微框架、Sen et al. (2010) / Kosorok (2008) 的 \(n^{1/3}\) 估计量、Arcones & Gine (1992) 的退化 U 统计量。这一簇梳理“哪些泛函类会导致 bootstrap 失效及补救方案（如 \(m\)-out-of-\(n\) 或平滑 bootstrap）”。

这个方向在追问的核心问题： 1. 如何推断 \(\xi_n\)？：已知 \(\xi_n\) 渐近正态，但 bootstrap 失效，方差估计复杂。当前主流是 Lin & Han (2022a) 的分析方差，瓶颈在于该方差公式在非独立下计算繁复，且缺乏数据驱动的简化。 2. \(\xi_n\) 的 bootstrap 失效机制是什么？：它不属于已知的不一致类别（非方向可微、非 \(n^{1/3}\)、非退化 U），其失效根源在于秩统计量在经验测度下的某种非平滑交互。当前瓶颈是缺乏对这种“渐近正态却 bootstrap 不一致”现象的一般刻画。 3. 0-1 度量能否兼顾功效与推断？：Chatterjee 类度量在功效上速率次优，在推断上 bootstrap 失效。当前瓶颈是“0-1 性质、近参数效率、推断便利性”三者似乎不可兼得。

⚠️ 作者的 framing： - 作者将缺口 frame 为：经验上已知 bootstrap 对 \(\xi_n\) 不工作，但缺乏严格证明，因此本文在独立性假设下给出证明，使其成为“显然的下一步”。 - 被淡化的竞争路线：作者未讨论针对 \(\xi_n\) 的 \(m\)-out-of-\(n\) bootstrap 或平滑 bootstrap 是否能恢复一致性（Sen et al. (2010) 对 Grenander 证明了平滑 bootstrap 有效），也未讨论 subsampling 的可行性。这些是明显的替代推断方案，却被回避。 - 缺失的引用：Intro 中未引述关于秩统计量 bootstrap 的经典文献（如 Babu & Rao 1984 对线性秩统计量 bootstrap 一致性的证明），也未引述经验过程在分位点/秩映射下不可微的深入讨论（如 Pollard 1984 或 van der Vaart 1998 的 Delta method 章节）。这些文献对于理解 \(\xi_n\) 的非平滑性至关重要，值得研究者去查。

张力：未见明显对立引用。Bickel (2022) 与 Shi et al. (2022) 均指出 \(\xi_n\) 功效次优，与 Lin & Han (2022b) 的改进方向一致，无矛盾。但存在一个深层张力：\(\xi_n\) 在独立下渐近正态且方差已知（2/5），看似“平滑”，却 bootstrap 不一致；这与 Fang & Santos (2019) “方向可微是 bootstrap 一致的必要条件”的框架形成张力——\(\xi_n\) 的失效机制不在 Fang & Santos 的覆盖范围内，暗示存在更广泛的 bootstrap 不一致类别。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号：
\((X, Y)\)：目标随机变量对，取值于 \(\mathbb{R}^2\)。
\(\xi(X, Y)\)：Chatterjee 的总体依赖度量，定义为 \(\xi = 1 - \frac{3 \mathbb{E}[\text{Var}(Y \mid X)]}{2 \text{Var}(Y)}\)（当 \(\text{Var}(Y)>0\)），满足 \(0 \leq \xi \leq 1\)，\(\xi=0\) iff \(X \perp Y\)，\(\xi=1\) iff \(Y=f(X)\) a.s.。
\(\xi_n\)：基于样本的 Chatterjee 秩相关系数，核心 estimand。
\((X_i, Y_i)_{i=1}^n\)：i.i.d. 样本，来自 \((X, Y)\) 的联合分布 \(P\)。
\(R_i\)：\(Y_i\) 在 \((Y_1, \dots, Y_n)\) 中的秩（从 1 到 \(n\)）。
\(N_i\)：在 \(X\) 排序后，\(Y_i\) 的右近邻中 \(Y\) 值大于 \(Y_i\) 的个数。具体地，将样本按 \(X\) 排序得 \((X_{(1)}, Y_{(1)}), \dots, (X_{(n)}, Y_{(n)})\)，则 \(N_i = \#\{j > i : R_{(j)} > R_{(i)}\}\)。
\(\xi_n\) 的显式公式：\(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\)，或等价地 \(\xi_n = \frac{\sum_{i=1}^{n-1} N_i}{\binom{n}{2}}\)。
\(P_n\)：经验分布；\(P_n^*\)：从 \(P_n\) 重抽样 \(m=n\) 的 bootstrap 经验分布；\(\xi_n^*\)：基于 bootstrap 样本计算的 \(\xi_n\)。
\(\sigma^2\)：\(\xi_n\) 在独立下的渐近方差，已知 \(\sigma^2 = 2/5\)。
模型：
数据生成机制：\((X_i, Y_i) \sim P\)，\(P\) 是 \(\mathbb{R}^2\) 上的连续分布（保证秩无结）。本文核心定理假设 \(X \perp Y\)（独立），且 \(X, Y\) 边际连续。
已知：\(P\) 连续，\(X \perp Y\)。
要估的对象：\(\xi_n\) 的渐近分布（已知为 \(\sqrt{n}(\xi_n - 0) \xrightarrow{d} N(0, 2/5)\)），以及 bootstrap 分布 \(\sqrt{n}(\xi_n^* - \xi_n)\) 是否收敛到同一极限。
可观测数据：
实际观测到的是 i.i.d. 样本 \((X_i, Y_i)_{i=1}^n\)，从中可计算 \(R_i\)、\(N_i\)、\(\xi_n\)。
不可观测的是总体分布 \(P\) 与总体 \(\xi\)；在独立假设下，\(\xi=0\) 是已知的 estimand，但本文关注的是 \(\xi_n\) 的抽样分布与 bootstrap 分布的匹配问题——这纯粹是关于统计量本身的性质，不涉及潜在因果或反事实量。

第二步：最小内核

本文的最小内核是：在 \(X \perp Y\) 且边际连续的特例下，证明标准 bootstrap 对 \(\xi_n\) 不一致。

特例设定：\(X \perp Y\)，\(X, Y\) 均连续。此时 \(\xi_n = \frac{\sum_{i=1}^{n-1} N_i}{\binom{n}{2}}\)，且 \(\sqrt{n} \xi_n \xrightarrow{d} N(0, 2/5)\)。
要证的命题：\(\sqrt{n}(\xi_n^* - \xi_n)\) 不收敛到 \(N(0, 2/5)\)（在概率意义下，即其分布不弱收敛到任何极限，或极限与 \(N(0, 2/5)\) 不同）。
为什么成立（直觉）：
\(\xi_n\) 的计算依赖两步排序：先按 \(X\) 排序，再在排序后的序列中比较 \(Y\) 的秩差 \(|R_{(i+1)} - R_{(i)}|\)。这引入了数据驱动的排序索引，使得 \(\xi_n\) 不是经验分布 \(P_n\) 的平滑泛函。
Bootstrap 样本 \((X_i^*, Y_i^*)\) 来自 \(P_n\)，其 \(X^*\) 值会出现结（即使原 \(X\) 连续，\(P_n\) 下 \(X^*\) 有结概率 > 0）。结的出现破坏了“按 \(X\) 排序”的唯一性，导致 bootstrap 版 \(\xi_n^*\) 的定义依赖于结处理规则（如随机打破结），而这种规则在 \(P_n\) 下与在 \(P\) 下行为截然不同。
更深层地，即使强制打破结，\(\xi_n\) 对经验分布的导数在独立点处不存在或不连续。Fang & Santos (2019) 证明，对于方向可微泛函，bootstrap 一致需要方向导数连续；\(\xi_n\) 的排序机制使得其方向导数在独立点处表现出非连续的跳变，导致 bootstrap 分布无法捕捉原分布的渐近行为。
最小内核的证明骨架：
计算 \(\xi_n^*\) 在 bootstrap 下的条件方差 \(\text{Var}^*(\sqrt{n} \xi_n^*)\)，证明它不收敛到 \(2/5\)（而是收敛到某个更大值或波动），从而 bootstrap 分布的尺度与原分布不匹配。
具体地，由于 bootstrap 样本的 \(X^*\) 有结，排序后的 \(Y^*\) 序列不再是原样本排序后 \(Y\) 序列的简单扰动，而是引入了额外的随机置换，使得 \(N_i^*\) 的协方差结构偏离原 \(N_i\) 的协方差结构，导致方差膨胀。

三、这篇论文做了什么¶

三句话： ①研究了 Chatterjee 秩相关系数 \(\xi_n\) 在独立假设下标准 bootstrap 推断的一致性问题； ②核心工具是计算 bootstrap 版 \(\xi_n^*\) 的条件方差并证明其不收敛到真实渐近方差 \(2/5\)； ③主要结论是 \(\xi_n\) 属于渐近正态但 bootstrap 不一致的统计量类别，有效推断只能依赖原始独立检验或 Lin & Han (2022a) 的分析方差估计器。

关键设定与假设： - 设定：\((X_i, Y_i)_{i=1}^n\) i.i.d. 来自连续分布 \(P\)，计算 \(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\)。 - 假设 A1（独立性）：\(X \perp Y\)。这是核心定理的必要条件，统计含义是限制在零假设下。相比已有文献（Lin & Han 2022a 在一般依赖下证明渐近正态），本文假设更强，但这是为了隔离 bootstrap 失效的根源——在依赖下，\(\xi_n\) 的非平滑性更复杂，独立性提供了最干净的剖析场景。 - 假设 A2（连续性）：\(X, Y\) 边际连续，保证秩无结。这是 Chatterjee (2021) 的标准假设，本文未放宽。 - Bootstrap 定义：从 \(P_n\) 重抽样 \(n\) 个点，计算 \(\xi_n^*\)。对于 \(X^*\) 的结，采用随机打破规则。作者明确指出，结处理规则的选择不影响不一致性结论，因为失效根源在于排序机制的非平滑性，而非结本身。

主要结果： - 定理 2.1（Bootstrap 不一致性）：在 \(X \perp Y\) 且边际连续下，\(\sqrt{n}(\xi_n^* - \xi_n)\) 的条件分布不弱收敛到 \(N(0, 2/5)\)（在概率意义下）。具体地，其条件方差 \(\text{Var}^*(\sqrt{n} \xi_n^*)\) 收敛到 \(2/5 + \Delta\)，其中 \(\Delta > 0\) 是由排序非平滑性引入的方差膨胀项。 - 直觉：Bootstrap 样本中 \(X^*\) 的结导致排序索引的随机置换，使得 \(\xi_n^*\) 的波动比 \(\xi_n\) 更大，方差膨胀。 - 必要条件：独立性假设是关键——在依赖下，\(\xi_n\) 的渐近方差本身依赖 \(P\) 的结构，bootstrap 方差的偏离更难隔离。独立性使得真实方差固定为 \(2/5\)，任何偏离都可被明确归咎于 bootstrap 失效。 - 解决的技术难点：计算 \(\xi_n^*\) 的条件方差需要处理排序索引在 bootstrap 下的随机性，这涉及秩统计量与排序过程的联合分布，传统经验过程工具难以直接应用。

推论 / 仿真补充：作者通过仿真验证，在一般依赖设定下（非独立），bootstrap 方差同样偏离真实渐近方差，且偏差随依赖强度变化。这暗示不一致性可能超越独立设定，但严格证明目前只在独立下完成。

证明路线与技术技巧： - 整体路线： 1. 分解 \(\xi_n\) 为秩差之和：利用 \(\xi_n = 1 - \frac{3 \sum_{i=1}^{n-1} |R_{(i+1)} - R_{(i)}|}{n^2 - 1}\)，将问题转化为分析排序后 \(Y\) 秩差的 bootstrap 版。 2. 刻画 bootstrap 排序过程：Bootstrap 样本 \((X_i^*, Y_i^*)\) 中 \(X^*\) 有结，排序后索引不再是原索引的确定性重排，而是引入随机置换。作者精确计算了这种置换对 \(Y^*\) 秩差的影响。 3. 计算条件方差：通过展开 \(\text{Var}^*(\sqrt{n} \xi_n^*)\)，分离出由原样本贡献的项（收敛到 \(2/5\)）和由 bootstrap 排序随机性贡献的项（收敛到 \(\Delta > 0\)）。 4. 证明方差膨胀项非零：利用独立性假设，证明排序置换引入的协方差项在极限下为正，无法被消除。 5. 得出不一致性：由于条件方差偏离真实方差，bootstrap 分布无法匹配原分布，故不一致。

关键跳跃点：
引理 3.1 / 3.2（Bootstrap 排序索引的分布）：这是最吃功夫的部分。作者需要刻画“在 \(X^*\) 有结下，排序后 \(Y^*\) 的秩差与原样本秩差的关系”。难点在于排序索引是数据驱动的，其 bootstrap 分布依赖 \(P_n\) 的结结构，传统 Delta method 无法处理。作者通过条件概率计算，给定原样本下，精确推导了 bootstrap 排序索引的联合分布，并证明其引入的协方差项在极限下为正。
方差膨胀项的识别：从 \(\text{Var}^*(\sqrt{n} \xi_n^*)\) 的展开中，作者识别出膨胀项来源于“相邻 \(X^*\) 值相同时，对应 \(Y^*\) 值的随机交换”，这种交换在独立下使得 \(Y^*\) 秩差的协方差结构偏离原结构。
技术技巧点名：
条件方差展开：用于分离 bootstrap 方差中来自原样本与来自排序随机性的部分，是证明的核心计算工具。
排序过程的随机置换分析：处理 bootstrap 下结导致的排序不确定性，这是本文针对 \(\xi_n\) 特有结构开发的技术，不属于经典经验过程工具。
独立性下的协方差简化：利用 \(X \perp Y\)，将 \(Y\) 秩差的协方差结构简化为仅依赖边际分布，使得膨胀项可被显式计算。
Hájek 投影的回避：Lin & Han (2022a) 用 Hájek 投影证明 \(\xi_n\) 渐近正态，但本文未用此工具，因为 bootstrap 下投影结构被排序随机性破坏，需直接计算方差。

真实例子与应用： - 仿真实验：作者在独立与多种依赖设定下（线性、单调、非单调依赖），比较了 bootstrap 方差、真实渐近方差（Lin & Han 2022a 公式）、以及经验方差。结果显示： - 在独立下，bootstrap 方差系统性高于 \(2/5\)，与定理 2.1 一致。 - 在依赖下，bootstrap 方差同样偏离真实方差，偏差方向与大小依赖依赖类型。 - Lin & Han (2022a) 的分析方差估计器在所有设定下均与经验方差匹配。 - 想说明什么：验证理论结论（独立下不一致）在一般设定下同样成立，并展示分析方差估计器作为替代推断工具的有效性。

🔎 结论是否比证明窄： - 作者在 Abstract 与 Intro 中 claim：“the standard bootstrap, in general, does not work for Chatterjee’s rank correlation”，但严格证明只在独立假设下完成。一般依赖下的不一致性仅由仿真支持，未给出定理。这是一个明显的泛泛 claim，严格结论窄于陈述。 - 作者指出“Valid inferential methods in this case are Chatterjee’s original proposal for testing independence and the analytic asymptotic variance estimator of Lin & Han (2022)”，但未证明其他补救方案（如 \(m\)-out-of-\(n\) bootstrap、subsampling）是否有效，结论窄于“只有这两种方法有效”的暗示。

四、开放问题（点到为止）¶

一般依赖下的 bootstrap 不一致性：要证在 \(X\) 不独立于 \(Y\) 时，\(\sqrt{n}(\xi_n^* - \xi_n)\) 的条件分布不收敛到真实渐近分布。扎根在 Abstract 的“in general, does not work”与 Section 4 仿真的局限。
补救 bootstrap 方案的有效性：要证 \(m\)-out-of-\(n\) bootstrap 或平滑 bootstrap 对 \(\xi_n\) 是否一致。扎根在 Intro 对 Sen et al. (2010) 平滑 bootstrap 的引用，但本文未讨论此路线。
“渐近正态却 bootstrap 不一致”的一般类别刻画：要找出除 \(\xi_n\) 外，哪些秩统计量或排序驱动统计量属于此类，并给出一般条件。扎根在 Intro 的“falls into a category”与 Fang & Santos (2019) 框架的张力——\(\xi_n\) 不在 Fang & Santos 的方向可微类别内。
高维 / 条件依赖系数的 bootstrap：要证 Azadkia-Chatterjee 的 \(T_n\) 是否同样 bootstrap 不一致。扎根在 Intro 对 Azadkia & Chatterjee (2021) 的引用及本文结论的可能推广。

提醒：要确认第 2 条是否真 gap，去读近 5 年关于 \(m\)-out-of-\(n\) bootstrap 与平滑 bootstrap 在非平滑泛函下的文献（如 Sen et al. 2010 后续）；要确认第 3 条是否共识，去读 Fang & Santos (2019) 及其引用的后续工作，看是否有人提出比方向可微更广的 bootstrap 一致条件。

Maintained by 陈星宇 · Homepage · Source on GitHub

On the failure of the bootstrap for Chatterjee’s rank correlation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论