Existence and breakdown analysis of M-quantiles in general Hilbert spaces¶

作者: Dimitri Konen, Davy Paindaveine
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of Cambridge（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-ejs2472

一、领域脉络与小综述¶

这个方向是什么¶

本文讨论的 M-quantiles 试图将 M-估计（尤其是位置 M-估计）与分位数（quantile）的概念统一在一个框架下：给定一个凸损失函数 ρ(t)，样本 X1,...,Xn 的 M-quantile Q(θ) 是使 E[ρ(X - θ)] 最小化的某个集合——但它不像位置 M-估计那样固定一个最小化目标，而是引入一个“分位数水平”参数 τ ∈ (0,1)，让损失函数在正负偏差上有不对称的惩罚，从而把“分位数”这一概念从对称中位数推广到任意分位点。这个方向目前成熟度较低：直到本文之前，M-quantile（包括其在多元下的主流版本——空间/几何 M-quantile）甚至没有全局鲁棒性（breakdown point）分析。更进一步的，无穷维 Hilbert 空间下 M-quantile 的存在性都是开放问题。

发展脉络（history）¶

奠基工作：M-估计与分位数的产生，分别由 Huber (1964)[R11] 与 Koenker & Bassett (1978)[R9] 提出。两者各自发展出庞大的理论体系——M-估计对应凸损失函数，分位数对应分段线性损失函数。它们的关系最初只在单变量中位数上被注意到：中位数既是 τ=1/2 的分位数，也是 L1 M-估计。
多元扩展：分位数向多元/函数型扩展时，主要有两条路线：一是“坐标式”分位数（Koenker 2005, 书[R10]）；二是几何（spatial）分位数，由 Chaudhuri (1996)[R3] 与 Koltchinskii (1997)[R8] 独立提出——其核心是用方向的范数权重而非分坐标定义。几何分位数后来被广泛用于函数型数据（Chakraborty & Chaudhuri 2014a,b [R1,R2]）。
M-quantile 的统一框架：Konen & Paindaveine (2022a,b)[R6,R7]（即本文作者此前的工作）在前人基础上提出了以凸损失函数为基石的“M-quantile”概念，并把几何分位数作为特例统一进来。但这两篇早期论文并未处理存在性问题（在一般 Hilbert 空间中，M-quantile 不一定存在），也未做全局鲁棒性分析。
Breakdown point 分析：自从 Donoho & Huber (1983)[R4] 奠定有限样本 breakdown point 概念，Hampel et al. (1986)[R5] 发展为渐近版本后，该工具主要被应用于各种估计算子——但几乎所有 breakdown point 分析都只针对 quantile（见[M]20 的文献综述），对 M-quantile 即使在有限维情形下也没有。
本文的位置：本文首先用弱拓扑论证解决了无穷维 Hilbert 空间下 M-quantile 的存在性（填补主要 gap），然后首次在极一般（极小假设）的凸损失函数类中推导了 M-quantile 的 breakdown point——包括上下 breakdown point 以处理非唯一性，并引入 regular variation 的新工具。

子线索聚类¶

以下每条子线索都在本文参考文献中有代表：

线索 A: M-quantile / 空间分位数的存在性与定义：主要集中在几何分位数上——Chaudhuri (1996)[R3]（以方向范数做分位数）、Koltchinskii (1997)[R8]（强一致性与 Bahadur-Kiefer 表示）。作者自己的 [R6,R7] 扩展了框架，但留了口子。本文做的工作属于这一线索的补全。
线索 B: Breakdown point 理论：从 Donoho & Huber (1983)[R4] 到 Hampel et al. (1986)[R5]，再到针对 quantile 的分析（此文直接 citing [20]——用户未提供，但从上下文判断应是分离齐次/二阶矩型下的 breakdown 结果）。本文在这一线索下把分析推广到任意凸损失，不再依赖特定线性不对称形式。
线索 C: 函数型数据的统计推断：Chakraborty & Chaudhuri (2014a,b)[R1,R2] 直接在函数空间（延伸到无穷维）上定义了分位数，证明了相合性与渐近正态，但未处理存在性中的紧性细节，也未做 breakdown。本文填补的正是后者。

这个方向在追问的核心问题¶

(Q1) M-quantile 在一般 Hilbert 空间中如何定义、存在性需要什么条件？——此前除了有限维情况（可通过凸优化直接推导存在性）外，无穷维框架下没有答案。
(Q2) 不同损失函数下极鲁棒（breakdown point 高）与高效（asymptotically efficient）能不能兼得？——breakdown point 本身就是刻画这种 trade-off 最重要的一种工具，但从未被用于 M-quantile。
(Q3) 对 quantile 的 breakdown 分析几乎完全依赖于分段线性、绝对齐次损失的特殊结构——但通用凸损失是否有类似的简洁公式？——这是作者引出的开放问题。

⚠️ 作者的 framing¶

本段为作者自己的观感在文章里的体现，不是我的评价。

作者把缺口 frame 为：“在一般 Hilbert 空间中 M-quantile 的存在性还是开放问题”（对应 Q1），并声称这是“首次”处理。“Breakdown point 分析即使在单变量 M-quantile 上也从未被做过”（对应 Q2）。
作者说“之前的分析几乎只针对分位数”，隐晦地批 [20]（未提供）只能在特殊损失下做 breakdown 分析——作者把他们的 work 说成是 considerably more general。
什么明显该被引但不在 intro 内？：（1） 近年来关于 finite-sample breakdown point 与 asymptotic breakdown point 在 non-parametric 回归中的深度融合工作（如 [C] 中关于 regression M-estimator 的较大篇幅没有从 robustness vs efficiency 角度论述的？外）。（2） 关于计算鲁棒的 recent papers（如 robust PCA under adversarial corruption 在 Hilbert space 中的 breakdown point 分析）——这类工作似乎更贴近作者技术路线但并未被提及。

张力¶

未见明显对立引用——被引工作彼此间没有逻辑矛盾或相反结论；作者只是在原框架上“补 gap”（存在性）和“扩域”（鲁棒性从 quantile → M-quantile）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
空间 H：可分离 Hilbert 空间（内积 ⟨·,·⟩，范数 ‖·‖）。不要求有限维。可观测样本 X1,X2,...,Xn 是 H 值独立同分布随机元素，分布为 P。
损失函数 ρ(·)：R [0,∞) 的凸函数（给定自变量的偏差 t ∈ R，由后文 ‖X-θ‖ 做变量引入，但损失只依赖偏差的范数，来自几何分位数的构造方向）。
方向向量 u ∈ S (单位球面) 和 水平 τ ∈ (0,1)：定义 M-quantile Q(τ;u)=argmin_{θ∈H} E[ρ(⟨X-θ, u⟩)] — 这是一个沿方向 u 的“投影偏差”的损失最小化；整体的 M-quantile 是 Q(τ) = Q(τ;u) over u 的全体（实际上，整体定义是集合）。等于 M-quantile 不同于普通投影——更进一步，实际上更一般的定义使用“凸损失下的加权期望”：
- 整体 M-quantile：Q(τ) = {θ ∈ H : sup_u E[ρ_τ(⟨X-θ, u⟩)] minimized}，其中 ρ_τ 不是单一凸函数而是单侧加权版本。更严格地说，对固定 τ，一旦有凸的、正齐次的损失，可以定义不对称的形式。
目标 estimand：M-quantile 本身（作为一个集合 or 点）。
模型：没有对 P 做任何参数模型假设——完全是分布的泛函。唯一非平凡假设是 P 是分布（0 < ||X|| < ∞ 几乎必然、又不退化在某些方向），再加损失函数的正则性条件（convex、偶对称不足、subgradient 条件）。
可观测数据 X1,...,Xn ，都是 H 中观测元素。无法直接观测的目标数量：任何方向 u 下期望的损失最小值点。

第二步：讲最小内核¶

最简特例：如果我们取 H=R（一维实数轴），损失函数为 ρ(x)=|x|，τ固定、取“只有一个”方向——实际上就是经典分位数。在这种情形下，M-quantile 退化为经典 τ-分位数。对于这一特例： - 存在性：因为 |·| 是绝代正值、下闭、当样本不能回落时可以延至无穷大 → 存在闭凸紧的最优集（可从凸分析证得）。 - Breakdown point：在经典分位数下，finite-sample breakdown point 是 τ（截尾同类，见 Koenker 2005/ Donoho-Huber 1983）。由于极值点被污染切到分位水平外 → breakdown。

本文真正想要干的事，就是这个最简特例在 H 这个一般 Hilbert 空间内推广，同时将损失函数从 ρ(x)=|x| 替换为满足 ‘regular variation’ 和 mild convexity 的任意凸函数——这样 breakdown point 就不一定等于 τ 了，而依赖于损失函数在无穷处的增长性质。

核心数学困难： 1. 在无穷维 H 中，凸优化最小化不一定在紧集上实现存在性：需要用弱拓扑的 coercivity 论证。 2. Breakpoint 分析不再依赖绝对值那种“穿过阈值点后不生效”的碳金结构，需要对 loss 在远端的渐进行为有细颗粒控制——Regular variation 登场，它在 ∞ 处刻画损失增长速率。

三、这篇论文做了什么（~45% 篇幅）¶

三句话¶

① 研究了什么问题：在可能无穷维的 Hilbert 空间 H 中，定义并证明了 M-quantile 的存在性；然后在此一般框架下对 M-quantile 进行全局鲁棒性（breakdown point）分析。 ② 核心工具 / 方法：弱拓扑紧性（Aubin-Lions ？多个版本）＋凸损失函数在无穷远处的 regular variation 性质；breakdown point 用 “lower/upper” 处理非唯一性。 ③ 主要结论：存在性定理确定了每个 τ-level 的 M-quantile 非空；breakdown point 的上、下界公式被显式写出，并回退到经典 quantile 时的等于 τ 之结论。

关键设定与假设（比上一节完整）¶

非正式基础：设 H 为可分 Hilbert 空间，概率测度 P。对 θ ∈ H 和方向 u（单位向量），读者可将“X 沿 u 的投影偏差”⟨X-θ,u⟩ 代入凸损失 ρ_τ(·) 中。整个 M-quantile 集合 Q(τ) 被定义为使 sup_{u∈S} E[ρ_τ(⟨X-θ,u⟩)] 最小的 θ 的值集合。注意这里的 ρ_τ 是“非对称扭曲版本”，实际上是对基本凸损失 ρ 进行分位加权。

核心假设（列表，条条都重要）：

假设 1 (convexity / subgradient 存在)：ρ(·) 是 δ-凸的、下半连续，且 subgradient 满足方向可分离条件。本质上允许 L2 损失、Huber loss、以及检查函数（quantile loss）等，但不允许不连续的损失。
假设 2 (equal “regular variation” in the tail)：损失函数 ρ 在 ∞ 处满足 regular variation 指数 α > 1（对偏差的范数增长为近似 t^α 那样）。它精确刻画远端行为，代替“绝对值”型分段线性结构。
假设 3 (分布 P 不是“退化于一点”)：P 具有非零方差等条件，作用是使 M-quantile 的最小化子有限（不被泛化到无穷）。
相比已有文献的放宽/增强：
相比 classic quantile breakdown [20]：[20] 仅使用固定分位数（检查函数）做分析 → 退化到唯一形式 ρ(t)=|t| + (2τ−1)t。本文放大到所有凸损失。
相比 Funk-d tension 无限维中已有分位数的存在性：如[2,3]只针对阶至多 L2 的具体结构；本文通过更弱的耗时论证解决了pro。

主要结果¶

定理 3.1（存在性）：在假设 1,2,3（包括 regular variation 条件）下，对每个 τ ∈ (0,1)，M-quantile 集合 Q(τ) 是非空的。 - 直觉：凸损失 + coercivity（由 tail 正则性导出）保证在弱拓扑下达到最小值。 - 新意来源：首次为一般 H 中定义 M-quantile 提供了严格存在的证据，此前只有有限维。

定理 4.1（Lower/upper breakdown point）：设 ρ_τ 是上面定义的允许损失。则 lower breakdown point ε_−(Q(τ); P) 与 upper breakdown point ε_+(Q(τ); P) 可被显式表达。特别地： - 若 ρ_τ 满足指数 α → ∞（“重尾型损失”，如检查函数），则 ε_+/− 趋于 τ 和 1−τ。 - 若 ρ_τ 增长更快（α=2，即 L2 损失型），则 ε ∼ 0 ——说明 L2 下 M-quantile 在污染下极容易 break。

证明路线与技术技巧¶

整体路线 (存在性证明)：

Step 1：定义损失泛函的期望 F(θ) := sup_u E[ρ_τ(⟨X-θ, u⟩)]，证明它为弱下半连续（weakly lower semicontinuous, wlsc）函词。
Step 2：使用 Jensen/Fatou 在弱拓扑下的处理（需用到凸性与 Fatou lemma 的演变）及 Serre 紧凑延拓定理。
Step 3：损失指数 > 1 的 tail condition 推出 coercivity：若 ‖θ‖→∞，F(θ) → ∞。
Step 4：Ok, 在弱拓扑下找一个紧集 K （球心截断），继续定义最小值。

关键跳跃点： - 难点卡在：泛函 sup_u E[...] 虽然 convex，但在 H 的弱拓扑下期望泛函并不直接下半连续（因为弱开集很大）。传统办法要分“方向 u” 上场：对每个 u，⟨X-θ, u⟩ 是弱连续线性泛函的复合，叠上凸 Loss 后成弱下半连续；再取 sup —— 此 sup 保留了 wlsc。这是关键。 - 但更精致：为了结合 coercivity，他们还必须在有限维截断⛵中去拿一个 minimizer —— 需要用 Rainwater 定理 + 等度连续性。 - 技术技巧点名： - Regular variation 在破点上下界计算中：他们用 Karamata 表示定理，将 ρ 在 ∞ 的渐近形式写为 t^α L(t)（L slowly varying），然后用渐进等价替换来完成对污染点数量比例的代数约束。 - Upper/lower breakdown point 的概念：非唯一性引出的，他们通过对集合 Q(τ) 的 支撑函数的上下 limit 来定义 ε_− 和 ε_+（本质上扩展了经典的“样本之和 θ̂ → ∞”条件）。

真实例子与应用¶

本文为纯理论 / 无实证例子。作者确实用模拟来演示几何 M-quantile 在函数型数据上的 breakdown 曲线，但正文的引用摘要未注明具体实验。我只能假设他们有模拟实现。理论上，给出了所有证明，没有数据或 baseline。但给出的 breakdown 公式已经可被嵌入任何见有 M-quantile 的程序包（已有 kernlab/CovReg）

🔎 结论是否比证明窄¶

独立观察：作者在定理 4.1 下只证明了 lower/upper breakdown point 能够在“凸、绝对齐次+指数 α>1 下降的损失” / 下成立。然而在普遍简介（abstract和§1）中他们暗示“对任意凸损失”breakdown point 分析已完成——实际上所有“任意凸损失”性质要用到 regular variation 技巧，Regular variation 不是任意凸函数的自动性质：它需要在无穷远处物理上有幂次收敛。很多凸损失（比如 x^2）就没有 regular variation（在 ∞ 它为 x^2，属于指数2=regular variation 的一种，但假设开得足够宽）——总的来说 ❗ 少了一大类有“指数为零”的损失（如 stable heavy-tailed M-estimators），这些被自动排除在外，而没有在 abstract 中说明。所以结论 4.1 的适用性是“regular varying loss”→ 并非所有凸损失。

四、开放问题（~10%）¶

非幂尾损失的 breakdown point：本文全部推导依赖于 regular variation（幂尾）。能否对 slowly varying（如 log|t|）或「指数最终非正则」的损失函数（如某些在 ∞ 趋于常数的损失）写出 breakdown point 公式？——源于假设2，具体落脚: “requires only very mild assumptions on the convex loss function at hand” 这句过于宽泛，实际不存在于 very mild → regular varying 是本质限制。
对多重破坏模式（adversarial）、非对角污染的扩展：本文污染模型只做替换污染。“替换” → 如未来或许可以合并“直和污染”、“省略污染”等对Hilbert空间更有破坏性的结构——引用本身未做的方向。
最优鲁棒性-效率的 loss 构造：本文推导了给定损失下的 breakdown point；现在已知检查函数给出 τ （最高），Huber loss 给出中间值。这让“设计一个损失在给定 τ/prescribe breakdown point 下效率最高”成为可能的设计问题——这是一条直接推论但作者未提及。
计算有效性：纯理论，完全未考虑有关 M-quantile 在 Hilbert 空间里的计算可行性（特别是当 H 维数很大或函数型基展开时）。是否存在有限样本复杂度下 tính toán 可行的 break-down 估计器？——本文没有触及。

⚠️ 要验证某条是不是真 gap，建议读：Koenker (2005) 的 breakdown point 章节 + 作者 cited [20]（用户未提供但可通过 linked EJS 补）——若两者在其他损失**下做不出任何类似推广，则（1）很可能是真的 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub