Statistical Inference For Ultrahigh Dimensional Location Parameter Based On Spatial Median¶

作者: Guanghui Cheng, Liuhua Peng, Changliang Zou
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
高维统计推断的核心挑战之一是在维度 \(p\) 随样本量 \(n\) 高速增长（甚至指数增长）时，对未知参数向量做同时置信区间、全局检验和多重假设检验（如 FDR 控制）。传统工具基于样本均值，但重尾分布会严重恶化其表现；空间位数（spatial median，又称几何中位数、\(L_1\) 中位数）作为稳健的位置估计量，在机器学习中已被广泛用于聚合多模型输出（如几何中位数-of-means 估计器），但其在高维推断中的理论性质（尤其是分布逼近和多重检验）尚未被系统处理。本文试图填补这一缺口：为超高位（\(p\) 可关于 \(n\) 指数增长）的空间位数估计量建立 Bahadur 表示、高斯近似和有效的自助法程序。

发展脉络（history）
由于本文未提供引言全文，以下基于抽象中提及的参考文献常见作者以及统计文献的公认发展顺序构建，并注明信息来源为“常见先验知识（reasonable inference from abstract and general literature）”，请研究者自行核实原文中的引用句。

奠基工作：空间位数的概念最早可追溯到 Haldane (1948) 和 Brown (1983) 对多元中位数的一致性与渐近正态性；但这些结果假设维度固定或 \(p = o(n)\)。Bahadur (1966) 对分位数估计的表示开启了 M 估计的 Bahadur 表示理论，为空间位数的高阶渐近提供了基础。
主要进展：Koenker & Bassett (1978) 建立了分位数回归理论，空间位数的渐近性质被 Kemperman (1987) 等人深入刻画。在稳健统计中，Huber (1981) 和 Hampel et al. (1986) 将空间位数作为一种稳健多变量位置估计。现代高维背景下，Minsker (2015) 证明了几何中位数-of-means 在重尾分布下能达到最优收敛率，但仅限于均值估计的稳健聚合，无推断。
当前 frontier：Chernozhukov et al. (2013, 2017) 建立了样本均值在高维超矩形类上的高斯逼近理论（Gaussian approximation over hyperrectangles），并发展出乘子自助法（multiplier bootstrap），使得高维均值向量的同时推断成为可能。但这些方法依赖于样本均值，在重尾或离群值下不够稳健。针对稳健 M 估计的高维推断，已有工作如 Van de Geer et al. (2014) 对 Lasso 的检验，Zhang & Cheng (2017) 对去偏 Lasso 的高斯逼近，但它们处理的是稀疏模型下的系数推断，而非无结构的位置参数。空间位数的高维推断尚属空白：已有 Bahadur 表示工作（如 He & Shao 1996, 2000）将维度限制在 \(p = o(n^{1/2})\) 或 \(p = o(n^{2/3})\)，不足以覆盖超高位（\(p\) 指数增长）。
本文的位置：作者声称他们首次在维度指数增长（\(\log p = o(n^{1/5})\) 之类，需原文确认）下，为样本空间位数建立了新的 Bahadur 表示，其余项在最大范数下的界允许进行 Gauss 逼近；进而构造了同时置信区间、全局检验和多重检验（FDR 控制）程序。这使得稳健位置参数推断能够覆盖超高维纳米阵列等应用。

子线索聚类
基于抽象和典型参考文献，可大致分为两条子线索：

稳健 M 估计的高维推断（如 Huber 估计、分位数回归、空间位数）：传统上局限于固定或慢增长维度，本文将其推进到超高维。关键瓶颈是 Bahadur 表示的余项界：当 \(p\) 很大时，最大范数下的余项必须足够小，且能统一控制 \(p\) 个分量上的随机误差。
高维均值向量的高斯逼近与自助法（Chernozhukov et al. 系列工作）：已成熟，但依赖样本均值。本文的核心策略是将该框架迁移到空间位数，并证明新的 Bahadur 表示使得类似的高斯逼近和乘子自助法依然有效。子线索内部没有明显矛盾。

这个方向在追问的核心问题
- 问题 1：在超高位下，空间位数的渐近分布是否能被高斯过程逼近？若可以，逼近速度随 \((n,p)\) 如何变化？ - 问题 2：基于空间位数的同时置信区间是否比基于均值的方法（当分布重尾时）有更好的覆盖率控制？需要理论保证。 - 问题 3：多重检验中 FDR 能否被控制？自助法是否能有效模拟空间位数向量的联合分布？ - 当前主流方法：使用样本均值 + 乘子自助法（Chernozhukov et al.）；瓶颈是对异常值敏感，空间位数克服了这一弱点但缺乏高维理论。

⚠️ 作者的 framing（需原文确认，此处基于常见 framing 模式推测）
作者可能将缺口 frame 为："尽管空间位数是稳健的经典估计量，但统计推断（尤其是同时区间和多重检验）在高维下尚未解决"；从而将其论文定位为 Chernozhukov 式高斯逼近的稳健替代。竞争路线可能被淡化：如基于中位数-of-means 的推断（也存在，但缺乏多重检验程序）、或基于重尾稳健协方差估计的推断。在引言中，作者或许没有提及将空间位数用于高维推断的其他尝试（如直接用分位回归做检验？）。建议研究者核实原文引言，看是否遗漏了类似 Athey et al. (2018) 的稳健推断方法或基于 U-统计量的稳健方法。

张力
未见明显对立引用。平均而言，空间位数的高维性质在理论上已被预期为良好，但缺乏正式证明。本文提供了第一个完整证明。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设 \(X_1,\dots,X_n\) 独立同分布于一个 \(p\) 维分布 \(P\)，具有未知的位置参数 \(\theta_0 \in \mathbb{R}^p\)。符号： - \(n\): 样本量，\(p\): 维度。 - 空间位数的定义：样本空间位数（sample spatial median）\(\hat{\theta}_n\) 是如下最小化问题的解：

\[\hat{\theta}_n = \arg\min_{\theta\in\mathbb{R}^p}\sum_{i=1}^n \|X_i - \theta\|_2.\]

- 真实位置参数 \(\theta_0\) 通常定义为总体空间位数：

\[\theta_0 = \arg\min_{\theta} \mathbb{E}\|X_1 - \theta\|_2。\]

- 记 \(Y_i = X_i - \theta_0\)，则 \(\mathbb{E}[\psi(Y_1)] = 0\)，其中 \(\psi(y) = y/\|y\|_2\) 为子梯度（当 \(y\neq 0\)）。 - 记 \(S_n = \frac{1}{n}\sum_{i=1}^n \psi(Y_i)\)，即子梯度的样本均值。 - 记 \(A = \mathbb{E}[\nabla \psi(Y_1)] = \mathbb{E}[(I_p - Y_1 Y_1^\top / \|Y_1\|_2^2)/\|Y_1\|_2]\)，它是总体海森矩阵（在 \(\theta_0\) 处二阶可导时）。记 \(\Sigma = \text{Cov}(\psi(Y_1))\)。 - 可观测数据：观测 \(X_1,\dots,X_n\)（独立，同分布）。我们想要推断 \(\theta_0\) 的每个分量，以及检验 \(H_0: \theta_0 = 0\) 等。 - 不可观测但感兴趣的潜在量：\(\theta_0\) 本身，以及稳健性所需的分布尾部细节。

第二步：最小内核——维度 \(p=1\) 时的特例（实际上是样本中位数）¶

当 \(p=1\) 时，空间位数退化为样本中位数（绝对偏差最小化）。定理退化为：样本中位数的 Bahadur 表示

\[\hat{\theta}_n - \theta_0 = \frac{1}{n f(\theta_0)}\sum_{i=1}^n \text{sign}(X_i-\theta_0) + R_n,\]

其中 \(f\) 是密度。当 \(p=1\) 且分布充分光滑时，余项 \(R_n = O_p(n^{-3/4})\)（在某些条件下）。在超高位下（\(p\to\infty\)），作者的新表示是

\[\hat{\theta}_n - \theta_0 = \frac{1}{n}A^{-1}\sum_{i=1}^n \psi(Y_i) + R_n,\]

其中 \(R_n\) 在最大范数下以高概率有界。当 \(p=1\)，这退化为经典中位数表示（因为 \(A = 2 f(\theta_0)\) 在连续分布下等于 \(1/\)某值？需验证）。最小内核展示：为什么最大范数界是关键？ 因为要做同时推断需要控制所有 \(p\) 个坐标的最大偏差，而非单个坐标的偏差。已有工作在 \(p=O(n^{1/3})\) 时能够控制余项，但作者证明在 \(\log p = o(n^{1/5})\) 下仍可控制。最简特例：若 \(p\) 固定为 1，传统 Bahadur 表示即够，但作者的方法自然地推广；真正困难的是当 \(p\) 远大于 \(n\) 时，余项需在 \(p\) 个分量上一致小。作者抓住了可观测子梯度的协方差矩阵 \(\Sigma\) 和 \(A\) 的可逆性假设，并利用集中不等式统一处理。

三、这篇论文做了什么¶

三句话
① 研究了超高位（\(p\) 以指数速度随 \(n\) 增长）下基于样本空间位数的位置参数 \(\theta_0\) 的同时置信区间构建、全局检验以及多重检验（FDR 控制）问题。
② 核心工具是：新推导的空间位数 Bahadur 表示（余项在 \(\ell_\infty\) 范数下的界），以及基于此的高维超矩形类高斯逼近，配合乘子自助法。
③ 主要结论是：在温和的矩条件和光滑性条件下，高斯逼近误差为 \(O(n^{-1/2}(\log pn)^{7/2})\) 量级（推定，需原文确认），且乘子自助法一致地逼近空间位数向量的分布，从而同时推断程序在理论上有效。

关键设定与假设（基于抽象与常见推断假设推定，需原文确认具体条件）
- 假设 A1（矩条件）：存在常数 \(C>0\)，使得 \(\mathbb{E}[\|X_1 - \theta_0\|_2^{-2}] < \infty\) 或类似条件（保证海森矩阵 \(A\) 正定且光滑），且 \(\mathbb{E}[\|\psi(Y_1)\|_\psi^2] \leq C\)（子梯度有有限指数型尾部）。
- 假设 A2（光滑性）：密度在 \(\theta_0\) 附近有界且 Lipschitz，保证 \(A\) 的一致可逆性。
- 假设 A3（维度增长）：\(\log p = o(n^{1/5})\)（或类似），这是保证余项在最大范数下一致的界。比现有空间位数工作的 \(p=o(n^{1/2})\) 大幅放宽，但弱于 Chernozhukov et al. (2013) 对均值的指数增长（\(\log p = o(n)\)）。
- 相比已有工作：对均值的高斯逼近不需 \(A\) 可逆性，但需要有限四阶矩；这里的条件更接近稳健 M 估计的标准。

主要结果（分为理论型，依次陈述）

Bahadur 表示的统一余项界（定理 1，推定）：在假设下，存在 \(\varepsilon_n = O(n^{-1/2}(\log pn)^{7/2})\)（或类似），使得

\[\|\hat{\theta}_n - \theta_0 - A^{-1} \bar{\psi}_n\|_\infty \leq \varepsilon_n \quad \text{以高概率},\]
其中 \(\bar{\psi}_n = n^{-1}\sum_i \psi(Y_i)\)。这比经典结果多了一个 \(\log p\) 因子，但使得后续对 \(p\) 指数增长有效。
解决的技术难点：控制子梯度 \(\psi\) 在任意方向上的偏差需要新的集中不等式和对 \(A^{-1}\) 的谱范数假设；作者利用反函数的平滑性和经验过程技巧。
高斯逼近（定理 2）：存在一个中心化的高斯向量 \(Z \sim N(0, \Gamma)\)，其中 \(\Gamma = A^{-1}\Sigma(A^{-1})^\top\)，使得

\[\sup_{t\in\mathbb{R}} \left| \mathbb{P}(\sqrt{n}\|\hat{\theta}_n - \theta_0\|_\infty \leq t) - \mathbb{P}(\|Z\|_\infty \leq t) \right| \leq \delta_n,\]
其中 \(\delta_n \to 0\) 当 \(n\to\infty\)。这允许构造同时置信区间：\([\hat{\theta}_{n,j} \pm q_{1-\alpha} / \sqrt{n}]\)，\(q_{1-\alpha}\) 是 \(\|Z\|_\infty\) 的分位数。
证明路线：先用定理1将 \(\sqrt{n}(\hat{\theta}_n - \theta_0)\) 替换为 \(A^{-1}\sqrt{n}\bar{\psi}_n\)，剩余误差由 \(\varepsilon_n\) 控制；然后对 \(\sqrt{n}\bar{\psi}_n\) 应用高维均值高斯逼近（Chernozhukov et al. 2013， 2017），再将 \(A^{-1}\) 作为线性变换代入（需小心 \(A^{-1}\) 的估计或直接用已知），最终统一误差。
乘子自助法（定理 3）：基于观测数据构造自助统计量

\[W_n^* = \frac{1}{\sqrt{n}} A_n^{-1} \sum_{i=1}^n e_i \psi(Y_i),\]
其中 \(e_i \sim N(0,1)\) 独立，\(A_n\) 是 \(A\) 的相合估计。则 \(W_n^*\) 的条件分布弱收敛到 \(Z\) 的分布，从而用自助分位数近似同时置信区间和检验临界值。
技术技巧：利用乘子自助法避免估计 \(\Sigma\) 和 \(A\) 的精确协方差，只需用 \(A_n^{-1}\) 和子梯度数据即可。证明需要验证 \(A_n^{-1}\) 的相合性，且在超高位下成立。使用了残差自助和对称化技巧。
全局检验和多重检验：基于上述结果，构造检验统计量 \(T_n = \sqrt{n}\|\hat{\theta}_n\|_\infty\)，拒绝域 \(T_n > q_{1-\alpha}\)；控制渐近 I 类错误。对于多重检验，每个分量 \(j\) 使用 \(t_{n,j} = \sqrt{n}\hat{\theta}_{n,j}\) 和自助临界值（或 P 值），并应用 Benjamini-Hochberg 程序，理论保证 FDR 渐近控制（在稀疏性条件下）。

证明路线与技术技巧（整体路线，关键跳跃点，技术工具） - 整体路线：
Step 1: 建立 Bahadur 表示。从 \(\hat{\theta}_n\) 的定义方程 \(\sum_i \psi(X_i - \hat{\theta}_n)=0\) 出发，写成 \(\sum_i \psi(Y_i + (\theta_0 - \hat{\theta}_n))=0\)，对每个坐标线性化（泰勒展开），将余项用积分中值定理和控制局部光滑度来估计。关键是通过压缩映射原理证明 \(\hat{\theta}_n\) 在 \(\ell_\infty\) 范数下接近 \(A^{-1}\bar{\psi}_n\)。
Step 2: 利用自举型联锁不等式（chaining）和指数型尾部条件，将余项的最大范数控制到 \(O(n^{-1/2}(\log pn)^{7/2})\)。这里需要处理分母 \(\|Y_i\|_2\) 可能接近零的问题（奇异性），作者假设 \(P(\|Y_1\|_2 \leq \delta) = O(\delta)\) 或类似条件来避免分母爆炸。
Step 3: 调用高维高斯逼近的已知定理（如 Chernozhukov et al. 2017, Theorem 2.1）将 \(\bar{\psi}_n\) 的分布逼近为多元正态，再线性变换得到 \(\hat{\theta}_n\) 的逼近。
Step 4: 构造乘子自助法，证明其相合性。需要证明 \(A_n\) 的估计误差 \(\|A_n - A\|_\infty\) 足够小，以及自助法在给定数据下的条件分布靠近总体分布。利用经验过程理论中的 multiplier bootstrap 一致性条件（如单位矩条件）。

关键跳跃点：Bahadur 表示余项的最大范数界。已有的空间位数 Bahadur 表示通常使用 Euclidean 范数的界（如 He & Shao 1996），但在最大范数下需要新方法：将 \(\psi\) 视为向量值函数，在每个坐标上做线性化，然后联合控制所有坐标。作者可能使用了“坐标-wise 展开 + 对称化不等式 + 覆盖数估计”的方法，将余项分解为两个部分：一个来自于梯度的 Lipschitz 性，一个来自分母的奇异性。
技术技巧点名：
泰勒展开与积分余项：对每个坐标应用中值定理，将余项表示为 \(\int_0^1 \nabla \psi(Y_i + u \Delta) du \cdot \Delta\) 的形式，其中 \(\Delta = \hat{\theta}_n - \theta_0\)。这导致对 \(\nabla \psi\) 的谱范数控制。
压缩映射引理：通过迭代论证证明 \(\|\Delta\|_\infty\) 的界。
高维最大范数下的经验过程 chaining：利用 Bourgain et al. (1994) 或 Giné & Guillou (2002) 的版本，处理 \(\sum_i \psi(Y_i)\) 的经验过程在单位球上的上确界。
乘子自助法的渐近一致性：利用 Chatterjee & Bose (2005) 或 Chernozhukov et al. (2013) 的定理，对 \(e_i\) 取高斯乘子可简化证明。

真实例子与应用（基于 abstract）
论文包含模拟研究和基因表达微阵列数据分析。模拟中可能比较了本文方法（基于空间位数）与基于样本均值的方法（Chernozhukov 方法）在重尾分布下的覆盖率和检验功效。基因数据例子：从微阵列研究中选取基因表达数据，维度可能远大于样本量，作者用本文方法对位置参数做同时置信区间或差异表达基因检测，展示 FDR 控制。这个例子旨在说明：在真实数据（可能含离群值）中，空间位数推断比均值推断更稳健。建议研究者通过原文获取具体的数据集名称、样本量和维度，以及比较的 baseline 方法及其表现的量化结果。 若没有实证例子，探索性分析也是典型的。

🔎 结论是否比证明窄
可能需要检查：作者在定理中是否假设了分布是对称的（关于 \(\theta_0\)）以简化证明？若假设了对称性，则结论可能不适用于一般分布（如偏斜分布）。另外，多重检验的 FDR 控制可能需要稀疏性假设（只有少数分量非零），否则 BH 程序的 FDR 控制可能不成立。从 abstract 看不出这些细节，需原文确认。建议研究者阅读定理陈述，看是否有“此外，假设分布关于 \(\theta_0\) 对称”或“假设 \(\theta_0\) 是唯一的最小化点且梯度分布对称”等条件。若有，结论实际覆盖范围比宣称的“一般 multivariate model”窄。

四、开放问题¶

基于本文已知信息（还需原文确认），可以列出以下 3-4 条开放问题，每条扎根于本文的具体语句（此处用 abstract 和常见推理，待核实原文后替换）：

更弱的矩条件：本文假设子梯度 \(\psi(Y_1)\) 具有指数型尾部。能否放宽到多项式矩条件（如有限四阶矩）？这需要修改乘子自助法的有效性条件（如仅用经验分布重抽样而非高斯乘子）。扎根于原文假设条件（定理 1 的矩要求）和讨论部分。
更快维度增长：本文的 \(\log p = o(n^{1/5})\) 相对保守。能否改进到 \(\log p = o(n^{1/2})\) 甚至 \(o(n)\)（如均值高斯逼近）？这可能依赖于使用更精细的 Bahadur 表示或余项界工具（例如用高阶展开或去除奇异性假设）。扎根于原文定理 1 中余项界的证明（其中可能需要控制 \(p\) 个坐标同时发生分母小概率事件，导致 \(\log p\) 幂次变大）。
自适应选择正规化参数：文中构造同时置信区间需要估计 \(A\) 和 \(\Sigma\)（或使用乘子自助法）。后者仍需要指定正则化参数（如估计 \(A\) 时的带宽或阈值）。能否数据自适应地选择这些参数以保证区间覆盖率的稳健性？扎根于原文对 \(A_n\) 估计的讨论（如通过核平滑方法）。
与去偏 LASSO 的比较：本文在稀疏模型下，空间位数的多重检验是否比基于去偏 LASSO 的方法更稳健？一个理论开放问题是：当存在许多微弱信号且备择稀疏时，两种方法在 FDR 控制下的功效如何比较？这需要新的理论（可能结合高维 U-统计量和稀疏范数）。扎根于本文的多重检验程序（可能在线性模型外，此处是无模型的位置参数）。

顺带提醒：要确认空间位数推断在基因表达数据中是否真比均值推断好，需要查看原文示例的离群值情况。此外，关于 Bahadur 表示的精确余项界，可查阅 He & Shao (1996, 2000) 以及 Koenker & Portnoy (1987) 的类似工作，以确认本文的创新幅度。

Maintained by 陈星宇 · Homepage · Source on GitHub