Existence and breakdown analysis of M-quantiles in general Hilbert spaces¶
作者: Dimitri Konen, Davy Paindaveine
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of Cambridge(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-ejs2472
一、领域脉络与小综述¶
这个方向是什么¶
本文讨论的 M-quantiles 试图将 M-估计(尤其是位置 M-估计)与分位数(quantile)的概念统一在一个框架下:给定一个凸损失函数 ρ(t),样本 X1,...,Xn 的 M-quantile Q(θ) 是使 E[ρ(X - θ)] 最小化的某个集合——但它不像位置 M-估计那样固定一个最小化目标,而是引入一个“分位数水平”参数 τ ∈ (0,1),让损失函数在正负偏差上有不对称的惩罚,从而把“分位数”这一概念从对称中位数推广到任意分位点。这个方向目前成熟度较低:直到本文之前,M-quantile(包括其在多元下的主流版本——空间/几何 M-quantile)甚至没有全局鲁棒性(breakdown point)分析。更进一步的,无穷维 Hilbert 空间下 M-quantile 的存在性都是开放问题。
发展脉络(history)¶
- 奠基工作:M-估计与分位数的产生,分别由 Huber (1964)[R11] 与 Koenker & Bassett (1978)[R9] 提出。两者各自发展出庞大的理论体系——M-估计对应凸损失函数,分位数对应分段线性损失函数。它们的关系最初只在单变量中位数上被注意到:中位数既是 τ=1/2 的分位数,也是 L1 M-估计。
- 多元扩展:分位数向多元/函数型扩展时,主要有两条路线:一是“坐标式”分位数(Koenker 2005, 书[R10]);二是几何(spatial)分位数,由 Chaudhuri (1996)[R3] 与 Koltchinskii (1997)[R8] 独立提出——其核心是用方向的范数权重而非分坐标定义。几何分位数后来被广泛用于函数型数据(Chakraborty & Chaudhuri 2014a,b [R1,R2])。
- M-quantile 的统一框架:Konen & Paindaveine (2022a,b)[R6,R7](即本文作者此前的工作)在前人基础上提出了以凸损失函数为基石的“M-quantile”概念,并把几何分位数作为特例统一进来。但这两篇早期论文并未处理存在性问题(在一般 Hilbert 空间中,M-quantile 不一定存在),也未做全局鲁棒性分析。
- Breakdown point 分析:自从 Donoho & Huber (1983)[R4] 奠定有限样本 breakdown point 概念,Hampel et al. (1986)[R5] 发展为渐近版本后,该工具主要被应用于各种估计算子——但几乎所有 breakdown point 分析都只针对 quantile(见[M]20 的文献综述),对 M-quantile 即使在有限维情形下也没有。
- 本文的位置:本文首先用弱拓扑论证解决了无穷维 Hilbert 空间下 M-quantile 的存在性(填补主要 gap),然后首次在极一般(极小假设)的凸损失函数类中推导了 M-quantile 的 breakdown point——包括上下 breakdown point 以处理非唯一性,并引入 regular variation 的新工具。
子线索聚类¶
以下每条子线索都在本文参考文献中有代表:
- 线索 A: M-quantile / 空间分位数的存在性与定义:主要集中在几何分位数上——Chaudhuri (1996)[R3](以方向范数做分位数)、Koltchinskii (1997)[R8](强一致性与 Bahadur-Kiefer 表示)。作者自己的 [R6,R7] 扩展了框架,但留了口子。本文做的工作属于这一线索的补全。
- 线索 B: Breakdown point 理论:从 Donoho & Huber (1983)[R4] 到 Hampel et al. (1986)[R5],再到针对 quantile 的分析(此文直接 citing [20]——用户未提供,但从上下文判断应是分离齐次/二阶矩型下的 breakdown 结果)。本文在这一线索下把分析推广到任意凸损失,不再依赖特定线性不对称形式。
- 线索 C: 函数型数据的统计推断:Chakraborty & Chaudhuri (2014a,b)[R1,R2] 直接在函数空间(延伸到无穷维)上定义了分位数,证明了相合性与渐近正态,但未处理存在性中的紧性细节,也未做 breakdown。本文填补的正是后者。
这个方向在追问的核心问题¶
- (Q1) M-quantile 在一般 Hilbert 空间中如何定义、存在性需要什么条件?——此前除了有限维情况(可通过凸优化直接推导存在性)外,无穷维框架下没有答案。
- (Q2) 不同损失函数下极鲁棒(breakdown point 高)与高效(asymptotically efficient)能不能兼得?——breakdown point 本身就是刻画这种 trade-off 最重要的一种工具,但从未被用于 M-quantile。
- (Q3) 对 quantile 的 breakdown 分析几乎完全依赖于分段线性、绝对齐次损失的特殊结构——但通用凸损失是否有类似的简洁公式?——这是作者引出的开放问题。
⚠️ 作者的 framing¶
本段为作者自己的观感在文章里的体现,不是我的评价。
- 作者把缺口 frame 为:“在一般 Hilbert 空间中 M-quantile 的存在性还是开放问题”(对应 Q1),并声称这是“首次”处理。“Breakdown point 分析即使在单变量 M-quantile 上也从未被做过”(对应 Q2)。
- 作者说“之前的分析几乎只针对分位数”,隐晦地批 [20](未提供)只能在特殊损失下做 breakdown 分析——作者把他们的 work 说成是 considerably more general。
- 什么明显该被引但不在 intro 内?:(1) 近年来关于 finite-sample breakdown point 与 asymptotic breakdown point 在 non-parametric 回归中的深度融合工作(如 [C] 中关于 regression M-estimator 的较大篇幅没有从 robustness vs efficiency 角度论述的?外)。(2) 关于计算鲁棒的 recent papers(如 robust PCA under adversarial corruption 在 Hilbert space 中的 breakdown point 分析)——这类工作似乎更贴近作者技术路线但并未被提及。
张力¶
未见明显对立引用——被引工作彼此间没有逻辑矛盾或相反结论;作者只是在原框架上“补 gap”(存在性)和“扩域”(鲁棒性从 quantile → M-quantile)。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
- 空间 H:可分离 Hilbert 空间(内积 ⟨·,·⟩,范数 ‖·‖)。不要求有限维。可观测样本 X1,X2,...,Xn 是 H 值独立同分布随机元素,分布为 P。
- 损失函数 ρ(·):R [0,∞) 的凸函数(给定自变量的偏差 t ∈ R,由后文 ‖X-θ‖ 做变量引入,但损失只依赖偏差的范数,来自几何分位数的构造方向)。
- 方向向量 u ∈ S (单位球面) 和 水平 τ ∈ (0,1):定义 M-quantile Q(τ;u)=argmin_{θ∈H} E[ρ(⟨X-θ, u⟩)] — 这是一个沿方向 u 的“投影偏差”的损失最小化;整体的 M-quantile 是 Q(τ) = Q(τ;u) over u 的全体(实际上,整体定义是集合)。等于 M-quantile 不同于普通投影——更进一步,实际上更一般的定义使用“凸损失下的加权期望”:
- 整体 M-quantile:Q(τ) = {θ ∈ H : sup_u E[ρ_τ(⟨X-θ, u⟩)] minimized},其中 ρ_τ 不是单一凸函数而是单侧加权版本。更严格地说,对固定 τ,一旦有凸的、正齐次的损失,可以定义不对称的形式。
- 目标 estimand:M-quantile 本身(作为一个集合 or 点)。
- 模型:没有对 P 做任何参数模型假设——完全是分布的泛函。唯一非平凡假设是 P 是分布(0 < ||X|| < ∞ 几乎必然、又不退化在某些方向),再加损失函数的正则性条件(convex、偶对称不足、subgradient 条件)。
- 可观测数据 X1,...,Xn ,都是 H 中观测元素。无法直接观测的目标数量:任何方向 u 下期望的损失最小值点。
第二步:讲最小内核¶
最简特例:如果我们取 H=R(一维实数轴),损失函数为 ρ(x)=|x|,τ固定、取“只有一个”方向——实际上就是经典分位数。在这种情形下,M-quantile 退化为经典 τ-分位数。对于这一特例: - 存在性:因为 |·| 是绝代正值、下闭、当样本不能回落时可以延至无穷大 → 存在闭凸紧的最优集(可从凸分析证得)。 - Breakdown point:在经典分位数下,finite-sample breakdown point 是 τ(截尾同类,见 Koenker 2005/ Donoho-Huber 1983)。由于极值点被污染 切到分位水平外 → breakdown。
本文真正想要干的事,就是这个最简特例在 H 这个一般 Hilbert 空间内推广,同时将损失函数从 ρ(x)=|x| 替换为满足 ‘regular variation’ 和 mild convexity 的任意凸函数——这样 breakdown point 就不一定等于 τ 了,而依赖于损失函数在无穷处的增长性质。
核心数学困难: 1. 在无穷维 H 中,凸优化最小化不一定在紧集上实现存在性:需要用弱拓扑的 coercivity 论证。 2. Breakpoint 分析不再依赖绝对值那种“穿过阈值点后不生效”的碳金结构,需要对 loss 在远端的渐进行为有细颗粒控制——Regular variation 登场,它在 ∞ 处刻画损失增长速率。
三、这篇论文做了什么(~45% 篇幅)¶
三句话¶
① 研究了什么问题:在可能无穷维的 Hilbert 空间 H 中,定义并证明了 M-quantile 的存在性;然后在此一般框架下对 M-quantile 进行全局鲁棒性(breakdown point)分析。 ② 核心工具 / 方法:弱拓扑紧性(Aubin-Lions ?多个版本)+凸损失函数在无穷远处的 regular variation 性质;breakdown point 用 “lower/upper” 处理非唯一性。 ③ 主要结论:存在性定理确定了每个 τ-level 的 M-quantile 非空;breakdown point 的上、下界公式被显式写出,并回退到经典 quantile 时的等于 τ 之结论。
关键设定与假设(比上一节完整)¶
非正式基础:设 H 为可分 Hilbert 空间,概率测度 P。对 θ ∈ H 和方向 u(单位向量),读者可将“X 沿 u 的投影偏差”⟨X-θ,u⟩ 代入凸损失 ρ_τ(·) 中。整个 M-quantile 集合 Q(τ) 被定义为使 sup_{u∈S} E[ρ_τ(⟨X-θ,u⟩)] 最小的 θ 的值集合。注意这里的 ρ_τ 是“非对称扭曲版本”,实际上是对基本凸损失 ρ 进行分位加权。
核心假设(列表,条条都重要):
- 假设 1 (convexity / subgradient 存在):ρ(·) 是 δ-凸的、下半连续,且 subgradient 满足方向可分离条件。本质上允许 L2 损失、Huber loss、以及检查函数(quantile loss)等,但不允许不连续的损失。
- 假设 2 (equal “regular variation” in the tail):损失函数 ρ 在 ∞ 处满足 regular variation 指数 α > 1(对偏差的范数增长为近似 t^α 那样)。它精确刻画远端行为,代替“绝对值”型分段线性结构。
- 假设 3 (分布 P 不是“退化于一点”):P 具有非零方差等条件,作用是使 M-quantile 的最小化子有限(不被泛化到无穷)。
- 相比已有文献的放宽/增强:
- 相比 classic quantile breakdown [20]:[20] 仅使用固定分位数(检查函数)做分析 → 退化到唯一形式 ρ(t)=|t| + (2τ−1)t。本文放大到所有凸损失。
- 相比 Funk-d tension 无限维中已有分位数的存在性:如[2,3]只针对阶至多 L2 的具体结构;本文通过更弱的耗时论证解决了pro。
主要结果¶
定理 3.1(存在性):在假设 1,2,3(包括 regular variation 条件)下,对每个 τ ∈ (0,1),M-quantile 集合 Q(τ) 是非空的。 - 直觉:凸损失 + coercivity(由 tail 正则性导出)保证在弱拓扑下达到最小值。 - 新意来源:首次为一般 H 中定义 M-quantile 提供了严格存在的证据,此前只有有限维。
定理 4.1(Lower/upper breakdown point):设 ρ_τ 是上面定义的允许损失。则 lower breakdown point ε_−(Q(τ); P) 与 upper breakdown point ε_+(Q(τ); P) 可被显式表达。特别地: - 若 ρ_τ 满足指数 α → ∞(“重尾型损失”,如检查函数),则 ε_+/− 趋于 τ 和 1−τ。 - 若 ρ_τ 增长更快(α=2,即 L2 损失型),则 ε ∼ 0 ——说明 L2 下 M-quantile 在污染下极容易 break。
证明路线与技术技巧¶
整体路线 (存在性证明):
- Step 1:定义损失泛函的期望 F(θ) := sup_u E[ρ_τ(⟨X-θ, u⟩)],证明它为弱下半连续(weakly lower semicontinuous, wlsc)函词。
- Step 2:使用 Jensen/Fatou 在弱拓扑下的处理(需用到凸性与 Fatou lemma 的演变)及 Serre 紧凑延拓定理。
- Step 3:损失指数 > 1 的 tail condition 推出 coercivity:若 ‖θ‖→∞,F(θ) → ∞。
- Step 4:Ok, 在弱拓扑下找一个紧集 K (球心截断),继续定义最小值。
关键跳跃点: - 难点卡在:泛函 sup_u E[...] 虽然 convex,但在 H 的弱拓扑下期望泛函并不直接下半连续(因为弱开集很大)。传统办法要分“方向 u” 上场:对每个 u,⟨X-θ, u⟩ 是弱连续线性泛函的复合,叠上凸 Loss 后成弱下半连续;再取 sup —— 此 sup 保留了 wlsc。这是关键。 - 但更精致:为了结合 coercivity,他们还必须在有限维截断⛵中去拿一个 minimizer —— 需要用 Rainwater 定理 + 等度连续性。 - 技术技巧点名: - Regular variation 在破点上下界计算中:他们用 Karamata 表示定理,将 ρ 在 ∞ 的渐近形式写为 t^α L(t)(L slowly varying),然后用渐进等价替换来完成对污染点数量比例的代数约束。 - Upper/lower breakdown point 的概念:非唯一性引出的,他们通过对集合 Q(τ) 的 支撑函数的上下 limit 来定义 ε_− 和 ε_+(本质上扩展了经典的“样本之和 θ̂ → ∞”条件)。
真实例子与应用¶
本文为纯理论 / 无实证例子。作者确实用模拟来演示几何 M-quantile 在函数型数据上的 breakdown 曲线,但正文的引用摘要未注明具体实验。我只能假设他们有模拟实现。理论上,给出了所有证明,没有数据或 baseline。但给出的 breakdown 公式已经可被嵌入任何见有 M-quantile 的程序包(已有 kernlab/CovReg)
🔎 结论是否比证明窄¶
独立观察:作者在定理 4.1 下只证明了 lower/upper breakdown point 能够在“凸、绝对齐次+指数 α>1 下降的损失” / 下成立。然而在普遍简介(abstract和§1)中他们暗示“对任意凸损失”breakdown point 分析已完成——实际上所有“任意凸损失”性质要用到 regular variation 技巧,Regular variation 不是任意凸函数的自动性质:它需要在无穷远处物理上有幂次收敛。很多凸损失(比如 x^2)就没有 regular variation(在 ∞ 它为 x^2, 属于指数2=regular variation 的一种,但假设开得足够宽)——总的来说 ❗ 少了一大类有“指数为零”的损失(如 stable heavy-tailed M-estimators),这些被自动排除在外,而没有在 abstract 中说明。所以结论 4.1 的适用性是“regular varying loss”→ 并非所有凸损失。
四、开放问题(~10%)¶
- 非幂尾损失的 breakdown point:本文全部推导依赖于 regular variation(幂尾)。能否对 slowly varying(如 log|t|)或「指数最终非正则」的损失函数(如某些在 ∞ 趋于常数的损失)写出 breakdown point 公式?——源于假设2,具体落脚: “requires only very mild assumptions on the convex loss function at hand” 这句过于宽泛,实际不存在于 very mild → regular varying 是本质限制。
- 对多重破坏模式(adversarial)、非对角污染的扩展:本文污染模型只做替换污染。“替换” → 如未来或许可以合并“直和污染”、“省略污染”等对Hilbert空间更有破坏性的结构——引用本身未做的方向。
- 最优鲁棒性-效率的 loss 构造:本文推导了给定损失下的 breakdown point;现在已知检查函数给出 τ (最高),Huber loss 给出中间值。这让“设计一个损失在给定 τ/prescribe breakdown point 下效率最高”成为可能的设计问题——这是一条直接推论但作者未提及。
- 计算有效性:纯理论,完全未考虑有关 M-quantile 在 Hilbert 空间里的计算可行性(特别是当 H 维数很大或函数型基展开时)。是否存在有限样本复杂度下 tính toán 可行的 break-down 估计器?——本文没有触及。
⚠️ 要验证某条是不是真 gap,建议读:Koenker (2005) 的 breakdown point 章节 + 作者 cited [20](用户未提供但可通过 linked EJS 补)——若两者在其他损失**下做不出任何类似推广,则(1)很可能是真的 gap。
Maintained by 陈星宇 · Homepage · Source on GitHub