Projection Diagnostics for Directional Asymmetry and Tail-Ratio Departure in Multivariate Data¶
作者: Sayantan Banerjee, Soudeep Deb
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.03670
一、领域脉络与小综述¶
这个方向是什么¶
本文属于多元非正态性检验与投影追踪 (projection pursuit) 的交叉子领域,具体解决的核心问题是:当多元数据偏离高斯或椭球对称基准分布时,这种偏离是由方向不对称性 (directional asymmetry) 驱动,还是由尾部比率偏离 (tail-ratio departure) 驱动,还是两者兼有?该方向目前处于方法驱动但理论不饱和的状态:已有大量检验统计量及相关的渐近理论,但缺乏一种能同时量化和分解源头的、可用于模型选择的诊断工具。
发展脉络¶
- 奠基工作:投影多元正态性检验与全局矩统计量
- Malkovich and Afifi (1973):首次通过最大化一维投影上的偏度、峰度和 Shapiro-Wilk 型统计量来构造多元正态性检验。留下了口子:该检验是综合性的,无法告知偏离的具体类型。
- Mardia (1970, 1974):提出了基于三阶和四阶矩的多元偏度和峰度度量,提供了分开检验偏度与峰度的渐近零分布。作者的引用句称 "their behavior may be sensitive to heavy tails and to high-dimensional finite-sample effects"——即矩的存在性问题和维数效应是其根本瓶颈。
-
Baringhaus and Henze (1991):给出了 Malkovich-Afifi 意义上投影偏度的极限分布,并指出基于投影偏度的检验对固定椭球对称非正态备择可能不一致。作者说 "This observation directly motivates our separation of the diagnostic into two components"——这个不一致性是本文的直接动机。
-
主要进展:鲁棒分位数方法与结构化投影
- Ruppert (1987) 和 Jones et al. (2011):研究了分位数间尾部权重的度量,作为矩峰度的鲁棒替代。本文沿用了这些想法,但赋予了方向性。
- Kong and Mizera (2012) 的 quantile tomography 框架:通过一维投影的分位数来研究多元信息。作者说 "Our tail functional is related to interquantile tail-weight measures studied as robust alternatives to moment kurtosis"——这里明确建立了与分位数方法的连接,并强调其方向性 (directionally)。
-
Chowdhury et al. (2022) 的次维度 Mardia 度量:强调偏度和峰度可能集中在下维特征中,从而需要搜索方向或子空间。作者的引用句说 "Our contribution is to combine this projection viewpoint with robust directional quantiles"——本文是将该观点与鲁棒分位数结合。
-
当前 Frontier 与本文位置
- 现有综合性检验能有效检测偏离,但无法分解来源 (Henze-Zirkler, Doornik-Hansen, energy distance)。本文将其位置定义为:提供了一个稳健且可解释的诊断分解,而不是“统吃”的检验。作者称 "the main contribution of the proposed method is not that it uniformly dominates all existing tests in raw rejection probability. Rather, it provides a robust and interpretable diagnostic decomposition."
子线索聚类¶
| 子线索 | 核心方法 | 代表性工作 | 本文的连接 |
|---|---|---|---|
| 投影方法 (Projection) | 最大化一维投影统计量(偏度、峰度、Shapiro-Wilk) | Malkovich and Afifi (1973); Baringhaus and Henze (1991); Peña and Prieto (2001) | 沿用投影框架,但用分位数替代矩,并增加坐标方向 |
| 分位数方法 (Quantile) | 分位数间比率、Quantile tomography | Ruppert (1987); Jones et al. (2011); Kong and Mizera (2012); Crow and Siddiqui (1967) | 核心工具,使诊断避开矩尾部依赖性 |
| 矩方法 (Moment) | 多元偏度和峰度量 | Mardia (1970, 1974); Chowdhury et al. (2022) | 作为对比基准,但指出其在高维/重尾下的不稳定性 |
| 诊断目的 (Diagnostic) | 分解偏离来源、模型选择指南 | Henze-Zirkler (1990); Doornik-Hansen (2008); Székely-Rizzo (2013) | 将现有综合性检验作为参照,提出二分量分解 |
核心问题与主流方法瓶颈¶
该方向追问的 2-4 个核心问题:
1. 如何将多元正态性检验的偏离来源(偏度 vs. 厚度 vs. 混合)量化和分离?
2. 如何在不依赖高阶矩存在性的前提下,稳健地衡量方向不对称与尾部比率?
- 当前主流方法瓶颈:矩方法 (Mardia) 在重尾下不稳定;综合性检验不分解来源;Malkovich-Afifi 检验在椭球对称非正态备择下不一致。
3. 高维问题:当偏离集中在稀疏方向时,如何设计搜索策略?
- 当前主流方法瓶颈:纯随机投影在高维中效率低下 (参见本文 Theorem 5 与 Lemma 6 的因式分解);纯坐标方向可能忽略非常轴对齐的偏离。
⚠️ 作者的 Framing¶
-
作者将缺口 frame 成什么:
"An important lesson from this literature is that projection skewness alone is not a test of multivariate normality... the [Baringhaus–Henze] observation directly motivates our separation of the diagnostic into two components" (p.1).
作者把缺口定义为:现有方法要么是综合性检验 (不分解来源),要么是矩方法 (对重尾不稳定),因此需要一种基于分位数的、方向性的、能分离不对称性和尾部偏离的诊断。 -
哪些竞争路线被淡化:
- Malkovich-Afifi 方法虽然也是投影基础,但作者仅提及其被用作综合性正态性检验,而刻意淡化其也可以分解方向性 (它最大化偏度极小化了偏度,但本身不诊断类型)。
-
作者在数值实验中提到 Malkovich-Afifi 的投影-峰度检验 "extremely time-consuming",因而被排除。这显然是工程而非理论理由。
-
什么明显该被引/该存在、却没出现在 intro 里:
- 关于在非中心对称假设下投影偏度如何表现的理论 (例如,如果不对称性不是通过位置偏移而是通过方向性偏斜产生的?Kollo 和 Srivastava 的广义偏度理论并未被提及)。
- 近期关于分布不匹配检测 (distribution shift detection) 中关于偏度与厚度分解的贝叶斯非参方法 (如 Dirichlet process mixtures) ——这些更广泛的非参数偏离检测文献未被纳入,可能是因为作者聚焦于频率学派框架。
- 这并不一定是缺陷,但适合作为研究者自行核查的起点:是否现有更广泛的非参数多元密度偏离检测工具箱中已有类似分解?
张力¶
未在该方向被引文献中看到明显矛盾或相反结论的引用。文献似乎是逐步递进的,没有互相矛盾的理论结果。
二、这篇论文做了什么¶
三句话¶
- 研究了什么问题:如何构建一种投影基础的诊断,分离多元数据中的方向偏度与尾部比率偏离,并给出四区域分类 (对称基准尾、对称尾偏离、偏斜基准尾、偏斜尾偏离)。
- 核心工具/方法:使用随机投影和坐标投影上的分位数函数——方向偏度 (多个分位数水平) 和分位数间尾部比率 (相对于高斯基准),通过最大化和 Monte Carlo 校准进行诊断。
- 主要结论:在中心对称和椭圆分布下给出总体性质;建立随机方向的可检测性定理与均匀有限样本界;证明在分离区域下阈值分类的一致性;通过 rank-one 稀疏方向计算解释了坐标方向高维下的互补作用。
关键设定与假设¶
- 记号:\(X_1, \dots, X_n \in \mathbb{R}^p\),方向集 \(\mathcal{U}_m = \{\text{随机方向}\} \cup \{\text{坐标方向}\}\)。
- 核心定义:
- 方向偏度 (Quantile-based): \(\gamma_a(u) = (Q_{1-a} + Q_a - 2Q_{0.5}) / (Q_{1-a} - Q_a)\)。
- 方向尾部比: \(\tau_q(u) = (Q_{1-q} - Q_q) / (Q_{0.75} - Q_{0.25})\)。
- 假设 (用于理论部分):
- Assumption 1 (局部方向正则性):方向函数 \(\psi(u)\) 在信号方向邻域上 Lipschitz 连续 (该条件对分位数函数成立当投影密度有界且光滑,见 Lemma 3)。
- Assumption 2 (均匀局部分位数正则性):每个投影方向 \(u\in\mathcal{U}_m\) 上,分布函数 \(F_u\) 在各分位数水平 \(b\in\mathcal{A}_\star\) 处有密度下界 \(c_0\),且相关分母有均匀 π0 下界。
- 与已有文献相比放宽了哪些、强化了哪些:
- 放宽:无需第三/四阶矩存在,因此对重尾稳定。
- 强化 (对理论部分):需要分位数附近的密度下界和整体有界框 (可能在高维中难以验证)。
主要结果 (挑 2-3 个最关键的)¶
- Theorem 2 & 3 (均匀有限样本界)
- 陈述:在 Assumption 2 下,以至少 \(1-\eta\) 概率,\(\max_{u \in \mathcal{U}_m, a \in \mathcal{A}_S} |\hat{\gamma}_a(u) - \gamma_a(u)| \leq C \sqrt{\log(2m|\mathcal{A}_\star|/\eta) / n}\);对 \(\hat{\tau}_q(u)\) 类似。
- 直觉:搜索更多方向成本对数增长,而非线性;证明关键是通过 DKW 不等式 + 密度下界控制分位数误差。
- 解决的技术难点:需要将 \(m\) 个方向的误差统一控制,然后从分位数误差传递到比率误差。
-
必要条件:需 Assumption 2 的一致密度下界 (这可能在方向集增长时变紧)。
-
Theorem 4 (分离区域下的分类一致性)
- 陈述:若总体属于四个分离类别之一 (\(\Delta_S, \Delta_T\) 与零的距离),只要 \(a_{n,m}(\eta) < \min\{\lambda_S, \Delta_S - \lambda_S, \lambda_T, \Delta_T - \lambda_T\}\),则分类以至少 \(1-\eta\) 概率正确。推论:若 \(\log m_n = o(n)\),则渐近一致性。
- 直觉:是将均匀界与一个确定性阈值引理 (Lemma 5) 直接结合。
-
必要条件:分离常数 \(\Delta_S, \Delta_T > 0\)——这在弱信号或近似对称时可能不满足。
-
Theorem 5 & Proposition 2 (稀疏方向的可检测性)
- 陈述:在 rank-one 备择 \(X = Z + \delta V v\) 下,随机方向的最大三阶累积量为 \(O(\delta^3 |\kappa_3(V)| (\log m/p)^{3/2})\),而坐标方向在下界为 \(\delta^3 |\kappa_3(V)| s^{-3/2}\) (s 为稀疏度)。
- 直觉:定量刻画了随机方向 vs 坐标方向的效率差异;为使用混合方向集提供了理论支撑。
- 必要条件:需 \(\mathbb{E}(V^3) \neq 0\) 或 \(\mathbb{E}(V^4) > 0\)——对纯对称备择失效 (如对称重尾)。
方法/证明骨架¶
- Step 1 (总体分离):Lemma 1 & 2 证明在中心对称下方向偏度为零,在椭圆分布下尾部比为常数。
- Step 2 (随机方向可检测性):Theorem 1 通过球冠概率与控制 Lipschitz 常数给出检测上界。
- Step 3 (均匀有限样本控制):通过 DKW 不等式 → 各方向分位数误差控制 (Lemma 4) → 通过 Lipschitz 传递到比率 (Theorem 2 & 3)。
- Step 4 (分类一致性):结合均匀界与阈值引理 (Lemma 5) 得到 Theorem 4。
- Step 5 (稀疏方向计算):通过累积量恒等式与球面测度集中性 (Lemma 6) 得到 Theorem 5 & Proposition 2。
关键技巧性引理:Lemma 4 (均匀经验分位数控制) 使用 DKW 不等式的 Massart 常数 + 密度下界 \(c_0\) 实现;Lemma 3 (Lipschitz 分位数曲线 → Lipschitz 诊断) 使用商差引理,是连接均匀分位数误差与诊断误差的核心桥梁。
🔎 结论是否比证明窄¶
- 显著窄化点:
- Theorem 4 的一致性依赖于严格分离条件 (\(\Delta_S > 0, \Delta_T > 0\)),但实际数据中偏离可能无法满足严格零 vs 严格正。作者在第 3.4 节末尾的 Remark 3 中承认了这一点:引入了"近似区域" (\(\delta_S, \delta_T\)),但没有给出主定理的近似版本。这意味着主定理的证明在实用中不直接适用,更精细的 Lipschitz 平滑化需要进一步发展。
- 均匀有限样本界 (Theorem 2 & 3) 要求 Assumption 2 在方向集增长时一致成立。这个假设在 \(m_n \to \infty\) 时变得非常强——如果方向集通过随机抽样得到,需要整个球面上的密度下界一致;这在实际中几乎不可验证,且当分布有奇异方向时可能完全失败。作者在 Corollary 5 中只是说 "uniformity requirement is substantive when \(m=m_n\) grows" 但未提供验证条件。这表明理论在这个意义上很窄。
- 稀疏方向计算 (Section 3.5) 基于累积量,而本文的实际诊断基于分位数。作者明确承认这一点在计算后写道:"these calculations should be read as a transparent proxy for directional skewness and tail inflation. The main diagnostic in the paper uses quantile-based summaries, but the cumulant model makes the high-dimensional geometry particularly clear." 这意味着方向选择的理论没有直接证明分位数诊断在稀疏方向下的最优性——这是用 "透明代理" 的说法在告解窄结论。这也是一个干净的问题种子 (见第三节)。
三、值不值得做 / 研究者能做什么¶
领域层面的判断材料¶
- 社区真正在乎的问题:从被引文献看,多变量非正态性的来源分解 是反复出现的主题——Mardia (1970, 1974) 分开给出偏度与峰度检验;Baringhaus–Henze (1991) 指出投影偏度的不一致性;Chowdhury et al. (2022) 强调下维定位。这暗示社区确实对分解而非单纯拒绝感兴趣。
- 本文是否只是作者一家之言? 未必。作者的实际结论 (分位数方法能分离偏度与尾部) 在模拟中有合理支持,但分解的价值是否显著优于现有矩方法 + 诊断分析?需要通过引入 Mardia 的偏度与峰度检验在同一模拟设置下的分类能力来验证——本文在模拟对比表中没展示 Mardia 的分类能力,只展示了原始统计量的拒绝率。这说明可能存在选择性回避。
- 需建议研究者:若要进入这个方向,应至少阅读 Mardia (1970)、Chowdhury et al. (2022) 和 Baringhaus–Henze (1991) 的 intro,看它们的开放问题列表是否与本文的一致。
问题种子清单(必须 grounded)¶
(A) 立即可做(最多 2 条)¶
种子 A1: 将本文的均匀界技巧用于高维 U-统计量的对称性检验
- 问题表述: 对于中心对称的多元分布,基于高阶 U-统计量的投影对称性检验 (如检验某个方向 \(u\) 上的对称性) 的均匀有限样本界是什么?
- 扎根在本文哪里: Theorem 2 的证明思路 (DKW + 密度下界 → 均匀分位数界 → 比率误差) 直接可迁移。本文的分位数比率本质上是 U-统计量的一个特例 (influence function of quantile)。
- 攻它需要什么:
- 方法: 非常熟悉 nonparametric statistics 与 minimax bounds。你已有处理高阶 U-统计量的理论基础 (treewidth / einsum)——分位数比率同样可用 U-统计量视角理解。
- 数据: 不需要。
- 算力: 低。
- 谁已经在附近做: 没有在本文引用中看到 U-统计量对称性检验的讨论;但该领域如 Sen (1977) 的多元对称性检验文献可能需自查。
- 武器库匹配 + 独特角度: 你的 very_familiar 项中的 高阶 U-统计量计算 (treewidth / einsum) 可将分位数比率检验扩展到全投影方向集合、而不仅仅是随机方向——这使得均匀界的收敛速率不同 (多了一个压缩方向的维度因子)。独特角度:高阶 U-统计量的组合结构允许利用 tensor network 优化计算,而本文使用了 DKW 这种更通用的工具。
第一步具体动作: 选择最简单的对称性备择 (rank-one skew-正常扰动),将本文的方向偏度 \(\hat{\gamma}_a(u)\) 重写为 U-统计量 (基于指示函数的组合),推导其在中心对称零假设下的 Hoeffding 分解与渐近方差。直接计算均匀界。结果可写作一个试验性的 4-5 页技术笔记。
种子 A2: 将方向偏度诊断的思想引入因果推断中的 IV 模型诊断
- 问题表述: 在工具变量 (IV) 模型中,对简化式 \((Z, X, Y)\) 进行方向不对称性诊断——IV 的外生性假设要求 \(Z\) 对 \(Y\) 的效应应通过 \(X\) 中介,因此在控制 \(X\) 后 \(Z\) 对 \(Y\) 的偏度应为零。如何构建基于分位数的 IV 外生性检验?
- 扎根在本文哪里: Section 2 的核心思路——将多元问题降维到一维投影,分位数比率检测偏离。此处 "方向" 不再是欧几里得方向,而是 效果尺度方向:投影权重 \((w_Z, w_X, w_Y)\) 上的检验。
- 攻它需要什么:
- 方法: 非常熟悉 nonparametric statistics 与 estimation theory in causal inference。
- 数据: 无需;模拟即可。
- 算力: 低。
- 谁已经在附近做: Becker, J., & Caliendo, M. (2023) 的 IV 偏斜性检验 (可能未使用分位数)。根据自查结果。
- 武器库匹配 + 独特角度: 研究者对 identification theory 中级熟悉,但手头已有的 nonparametric statistics 与 high-dimensional asymptotics 可立即用于分析权重投影空间的导向性。独特角度:将分位数思想拓展到 IV 模型后,能够检验 "平稳" 的 IV 外生性偏离 (而非效应差异) 是否为对称;这比现有的矩检验更稳健。
第一步具体动作: 在 SEM 结构 (Y = beta X + epsilon, X = gamma Z + eta) 下写出简化式的一维投影权重;选取一个随机/优化方向集;模拟在 IV 非外生 (Cov(Z, epsilon) ≠ 0) 下的分位数偏度与尾部比率,与现有 IV 外生性检验进行比较。
(B) 中期可做(最多 2 条)¶
种子 B1: 放宽 Theorem 4 的分离条件到近似区域
- 问题表述: 建立分类一致性定理,当总体属于 "近似对称" 或 "近似基准尾" (即 \(\mathcal{S}_{\mathcal{U}_m, \mathcal{A}_S} \leq \delta_S\) 而不是严格零) 时,分类器的误分类率以某个速率趋于 0。
- 扎根在本文哪里: Remark 3 提出需要 "approximate null and alternative regions",但主定理只覆盖严格条件。Theorem 4 的证明依赖于 Lemma 5 的确定性引理,其中要求 \(\epsilon_S < \min\{\lambda_S, \Delta_S - \lambda_S\}\) 这种间距条件;若 \(\mathcal{S}_{\mathcal{U}_m, \mathcal{A}_S} = 0\) 改为 \(\leq \delta_S\) 则需要 \(\lambda_S > \delta_S\),导致一个新的阈值选择问题。
- 攻它需要什么:
- 缺失: 需要中等熟悉 (moderately familiar) 的 semiparametric theory 与 Hoeffding–Lehmann 型秩检验 (构建平滑或渐进水平的阈值选择规则,如基于 bootstrap 校准的近似零相邻区间)。
- 补哪 1-2 篇文献: van der Vaart (1998) Chapter 18 on bootstrap empirical processes (已引用); 以及 Politis, D. N., Romano, J. P., & Wolf, M. (1999) Subsampling 中关于区间校准的讨论。
- 补完后接回 A 档: 当补完 bootstrap 校准的近似理论后,可直接进入 A 档 (统一阈值规则的一致性证明),形成理论论文的一部分。
- 武器库匹配 + 独特角度: 研究者对 nonparametric statistics 和 high-dimensional asymptotics 非常熟悉,可用于推导 over the random set \(\mathcal{U}_m\) 的经验过程的渐近分布。
种子 B2: 将稀疏方向计算 (Section 3.5) 从累积量推广到分位数
- 问题表述: 验证 Theorem 5 的 rank-one 备择下,关于分位数方向偏度的信号强度 (而非关于三阶累积量) 是否具有相同的随机方向 vs 坐标方向对比阶。
- 扎根在本文哪里: 作者明确承认 "the calculations below are stated in terms of cumulants. They should be read as a transparent proxy for directional skewness and tail inflation. The main diagnostic in the paper uses quantile-based summaries, but the cumulant model makes the high-dimensional geometry particularly clear."——这意味着分位数诊断下的稀疏方向可检测性仍未严格证明。
- 攻它需要什么:
- 缺失: 需中等熟悉的 theory of higher-order U-statistics 以推导分位数函数关于分布扰动的线性展开 (influence function of quantile on rank-one perturbation);以及对 HOIF (Higher-Order Influence Functions) 的中等熟悉以处理二阶偏差项。
- 补哪 1-2 篇文献: van der Vaart (1998) Chapter 21 on quantile processes; 以及 Hörmann, S., & Leydold, J. (2008) 关于方向分位数存在性条件的分析 (若需自查)。
- 补完后接回 A 档: 一旦得到分位数诊断下的类似 Theorem 5 的结果,可直接用于改进方向选择策略 (如自适应选择坐标方向的比例)。
- 武器库匹配 + 独特角度: 研究者对 高阶 U-统计量的计算 (treewidth / einsum) 非常熟悉——rank-one 扰动下的分位数变化可以写成高阶 U-统计量的线性组合,其计算复杂度可通过 tensor contraction 分析;这提供了一个组合角度。
(C) 暂不建议(最多 2 条)¶
种子 C1: 推导 Assumption 1 (Lipschitz 分位数曲线) 在方向上的原始成立条件
- 问题表述: 对于一般分布族 (如多元 t 分布),投影分位数函数 \(u \mapsto Q_a(u)\) 的 Lipschitz 常数的显式表达式。
- 核心机器缺什么: 需要 特定函数空间精细分析——具体来说,需要将椭圆分布过程分布函数的逆在方向上的微分映射表达为分位数秩与椭球形状的交叉导数;这涉及到多元微分几何与条件 Copula 的梯度,当前工具箱难以绕过。
- 为何不易绕过: 即便写入论文,该问题本质上是技术性引理且不直接推动诊断的可操作性;若不能得到紧凑的边界,对实际改进来说价值有限。
种子 C2: 将方向诊断扩展到函数型数据
- 问题表述: 对函数型数据 (如曲线观测),构建方向偏度和尾部比率诊断。
- 核心机器缺什么: 需要 SoS / LDLR / 某种代数几何工具处理函数空间上的球冠测度——函数空间是无限维,随机方向集的球冠概率测度无法用经典的高维集中不等式直接处理;需要泛函数据分析中的特定退化方法 (如 Jing et al., 2014)。
- 为何不易绕过: 函数型数据的投影方向是高维的连续体,球面均匀抽样不构成有效搜索;这涉及到新的概率论维度问题。
迁移视角(单列)¶
迁移口子 1: 本文的方法 T(基于投影的分位数诊断 + 均匀界)→ 因果推断中的因果结构变点检测
- 目标领域: causal inference with longitudinal data / mediation。
- 为什么可行: 在多重时间点的因果结构中,方向不对称性可能反映非平稳因果效应 (如时间点间的因果方向反转)。Goldstein–Foster (2022, Journal of Machine Learning Research) 已有用分位数检测时变分布变化的工作,但未使用本文的投影分解思想。
- 武器库匹配: 研究者在 identification theory in causal inference 中中等熟悉;在 high-dimensional asymptotics 中非常熟悉;可立即将本文的均匀界技巧迁移到因果效应的假设检验中 (如检验某个因果参数随时间保持不变的方向对称性)。
迁移口子 2: 方向偏度诊断 → 高阶 U-统计量的对称性检验
- 目标领域: higher-order U-statistics 理论 / 组合对称性检验。
- 为什么可行: 高阶 U-统计量的对称性 (如 kernel 是否关于某些 indices 对称) 本质上是方向性的。本文的投影搜索可以让方向集成为 "核对称群" 的稀疏抽样。
- 武器库匹配: 研究者对 高阶 U-统计量的计算 (treewidth / einsum) 非常熟悉——这是本文方法直接嵌入的工具基础。
四、延伸与下一步¶
沿引用链的阅读路线¶
- 先读地基 (2-3 篇):
- Mardia (1970) Measures of multivariate skewness and kurtosis with applications (Biometrika) ——理解矩尖差分的经典理论。
- Malkovich & Afifi (1973) On tests for multivariate normality (JASA) ——理解投影思想在正态性检验中的奠基。
-
Baringhaus & Henze (1991) Limit distributions for measures of multivariate skewness and kurtosis based on projections (JMVA) ——理解本文动机来源 (即投影偏度对椭圆对称固定的非正态备择不一致性)。
-
再读 Frontier (3-5 篇):
- Kong & Mizera (2012) Quantile tomography (Statistica Sinica) ——理解分位数方向方法。
- Chowdhury et al. (2022) Sub-dimensional Mardia measures (JMVA) ——理解下维“分解”的连接。
- Jones et al. (2011) Skewness-invariant measures of kurtosis (The American Statistician) ——理解分位数尾重的性质。
- 如果是理论更深入的,可加读 van der Vaart (1998) Chapter 21 (empirical quantile processes) 和 Ledoux (2001) Concentration of Measure Phenomenon (球面测度集中)。
假设扰动¶
扰动: 假设 Assumption 2 中的密度下界条件不再成立,而是允许 分位数附近密度趋于零 (如存在尖点或间隙分布)。
- 结论变化: 均匀有限样本界 (Theorem 2 & 3) 的收敛速度会退化——控制经验分位数误差的常数 \(C_Q\) 通过 \(1/c_0\) 而发散;可能得到更慢的 \(n^{-1/3}\) 或 不可保证一致性。
- 需要的新工具: 非参密度估计的局部上界理论 (如 via small-ball probability) 或更稳健的分位数估计 (如 smoothed quantile / Bahadur representation with bounding c0)。
- 此扰动后的问题落入哪一档: (B) 中期可做——补齐 moderately_familiar 中的 nonparametric density estimation / localization 文献可推导在非光滑密度下的均匀控制。
理解检测题¶
题目: 将本文的 方向偏度 \(\gamma_a(u)\) 与 本文提到的 medcouple (Brys et al., 2004) 进行比较。
- 核心任务:
1. 证明在 Beysian 意义下,对顶点分布 (a distribution with a needle at the median) 的检测中,哪个更鲁棒 (即哪个对污染更不敏感)?
2. 将 medcouple 的定义写为与本文类似的分位数函数形式,写出其投影版本;导出其方向偏度的变体。
- 应用: 比较 medcouple 投影与 \(\gamma_a(u)\) 对 rank-one 备择的随机方向信号强度 (类似 Theorem 5 的计算)。
- 提示:medcouple 的 kernel 形式是成对比较;使用组合技巧将其重写为 U-统计量,然后在其投影空间中应用本文的高维几何分析。
Maintained by 陈星宇 · Homepage · Source on GitHub