On the breakdown point of transport-based quantiles¶
作者: Marco Avella Medina, Alberto González-Sanz
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本问题是:如何将一元统计中极其基础且成功的“分位数/秩/符号”概念,合理、保质地推广到多元(\(d \geq 2\))情形。一元分位数有天然的全序支撑,而多元空间缺乏自然序,导致多元分位数的定义长期混乱。当前该方向已从“概念提出期”进入“理论深挖与稳健性/效率验证期”,成熟度中等偏上:核心定义已收敛至基于最优传输的 center-outward 分位数,但其在污染模型下的极小极大抗扰能力(崩溃点)刚刚开始被严格刻画。
发展脉络(history): - 奠基工作:Chernozhukov et al. (2017)(即被引 [1])首次提出基于 Monge-Kantorovich 最优传输映射的多元分位数、深度与秩概念,将目标分布推向参考分布(单位球上的均匀分布),为多元分位数提供了一个具备一元分位数诸多性质的替代方案。Hallin et al. (2021)(即被引 [2])在此基础上给出了无需矩假设的 center-outward 分布与分位数函数定义,并建立了 Glivenko-Cantelli 定理,是该方向的基石文献。 - 主要进展(统计推断与计算):Ghosal & Sen (2019)(被引 [9])给出了经验分位数/秩映射的一致性与收敛速率;Deb & Sen (2019)(被引 [7])与 Shi et al. (2020)(被引 [11])利用传输秩构造了分布自由的多元非参数检验(独立性、两样本);Deb et al. (2021)(被引 [23])证明了这些检验的 Pitman 效率下界,确立了其统计效率地位。 - 主要进展(映射正则性与延拓):Figalli (2018)(被引 [10])与 del Barrio et al. (2020)(被引 [14])研究了 center-outward 映射的连续性与同胚性,为分位数轮廓的嵌套闭性提供保障;del Barrio et al. (2023)(被引 [22])将正则性结果推广至非凸支撑域;Cordero-Erausquin & Figalli (2019)(被引 [13])处理了无界域上的单调传输映射正则性。 - 当前 frontier(稳健性与崩溃点):稳健性是传输分位数走向实用推断的最后一块理论拼图。Paindaveine & Passeggeri (2024)(被引 [3])在半离散设定下推导了传输映射的崩溃点,发现其依赖于参考测度的 Tukey 深度,且传输中位数的崩溃点可能严格小于 \(1/2\)(取决于参考测度几何)。本文则在全连续(绝对连续目标测度 + 绝对连续参考测度)设定下,严格证明了传输中位数崩溃点为 \(1/2\),且 \(\tau\) 阶深度轮廓点的崩溃点为 \(\tau\),补上了半离散设定留下的口子。
子线索聚类: 1. 传输分位数的推断与效率路线:以 Hallin, Sen, Deb, Ghosal 等为主线,致力于将传输秩/符号用于构造分布自由的多元检验,并证明其 Pitman 效率([7, 9, 11, 23])。这一簇在“做推断”,关注的是效率与分布自由性。 2. 传输映射的正则性与延拓路线:以 Figalli, del Barrio, González-Sanz 等为主线,解决传输映射在原点及边界处的连续性、单调延拓(极大循环单调性)问题([10, 14, 17, 22, 25])。这一簇在“铺地基”,确保分位数轮廓闭且嵌套。 3. 多元深度与稳健性路线:以 Tukey 深度、几何中位数、空间分位数及近年传输分位数的稳健性为主线,关注崩溃点与极小极大速率([3, 5, 6, 16, 18, 20])。本文与 [3] 均落在此簇,聚焦于“传输分位数抗多少污染”。
这个方向在追问的核心问题: 1. 多元分位数能否兼具分布自由性与统计效率? ——已有文献([7, 23])给出了肯定回答,Pitman 效率下界已建立。 2. 传输分位数在 Huber 污染下的极小极大抗扰能力(崩溃点)是多少? ——本文与 [3] 共同回答了此问题:崩溃点由参考测度的 Tukey 深度决定,且在参考测度半空间对称时,中位数崩溃点达到 \(1/2\)。 3. 传输分位数与经典几何深度(Tukey 深度、空间分位数)在稳健性与轮廓形状上的本质差异是什么? ——[19] 指出两者轮廓不同;[3] 指出空间分位数中位数崩溃点为 \(1/2\),但传输中位数在半离散设定下可能严格小于 \(1/2\);本文则证明在全连续且参考测度半空间对称时,传输中位数崩溃点恢复到 \(1/2\)。
⚠️ 作者的 framing: - 作者把缺口 frame 成:半离散设定([3])下传输中位数崩溃点可能严格小于 \(1/2\),这“似乎”与一元分位数中位数崩溃点为 \(1/2\) 的经典性质不符;而本文证明在全连续设定下,只要参考测度半空间对称,崩溃点即为 \(1/2\) 且 \(\tau\) 阶轮廓点崩溃点为 \(\tau\),从而“恢复”了与一元情形的平行性。 - 作者淡化的竞争路线:空间分位数/几何中位数路线([16, 24])。作者仅在引言中提了一句“几何中位数崩溃点为 \(1/2\)”,但未深入比较传输分位数与空间分位数在非对称参考测度下的崩溃点差异,也未讨论 Tukey 中位数(已知崩溃点为 \(1/2\))与传输中位数在计算复杂度上的鸿沟(Tukey 中位数计算是 NP-hard,传输中位数计算复杂度尚无定论)。 - 明显该被引却未出现的文献:关于 Tukey 深度计算复杂度与极小极大稳健估计的经典工作(如 Liu 1990 的多元深度综述、Donoho & Gasko 1992 对 Tukey 中位数崩溃点的奠基性刻画、以及 Massé 2004 关于 Tukey 深度与崩溃点关系的理论),这些是本文核心定理(崩溃点 = Tukey 深度)的直接前置,未在 intro 中显式讨论其贡献,仅一笔带过“Tukey depth”。此外,关于 Huber 污染下极小极大速率的近期工作(如 Chen et al. 2018 [6] 的矩阵深度)也未与本文的崩溃点结果进行速率层面的对比。
张力: - 被引 [3] 与本文的表面矛盾:[3] 证明半离散设定下传输中位数崩溃点可严格小于 \(1/2\),本文证明全连续设定下传输中位数崩溃点为 \(1/2\)。这并非实质对立,而是设定差异:[3] 的参考测度是连续的但目标测度是离散的(半离散),本文两者皆连续。但这一设定差异导致的崩溃点鸿沟(从 \(<1/2\) 跳到 \(1/2\))是一个高价值信号:离散化目标测度(经验测度)的崩溃点是否在样本量趋于无穷时恢复到 \(1/2\)?还是存在本质的稳健性亏缺?这值得研究者去查证。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(d\):空间维数(\(d \geq 2\))。
- \(P\):目标概率测度(数据生成分布),绝对连续,支撑在 \(\mathbb{R}^d\) 上,密度为 \(p\)。这是我们要推断的对象。
- \(U\):参考概率测度,绝对连续,支撑在 \(\mathbb{R}^d\) 的有界凸集 \(S\) 上(通常取单位球上的均匀测度),密度为 \(u\)。这是人为选定的“标准参照系”。
- \(T\):最优传输映射(从 \(U\) 到 \(P\)),即 Monge 问题 \(\inf_{Q: Q\circ T^{-1}=P} \int \|x - T(x)\|^2 dU(x)\) 的解。\(T\) 是 \(P\) 的 center-outward 分位数函数,\(T^{-1}\) 是 \(P\) 的 center-outward 分布函数。
- \(\tau\):分位数阶数(\(\tau \in [0, 1/2]\)),对应参考测度 \(U\) 下 Tukey 深度为 \(\tau\) 的点。
- \(D(u, \mu)\):点 \(u\) 在测度 \(\mu\) 下的 Tukey(半空间)深度,定义为 \(D(u, \mu) = \inf_{v \in \mathbb{R}^d: \|v\|=1} \mu(\{x: \langle v, x-u \rangle \geq 0\})\)。
- \(\mathcal{C}_\tau\):\(P\) 的 \(\tau\) 阶传输深度轮廓,定义为 \(\mathcal{C}_\tau = T(\{u: D(u, U) = \tau\})\)。
- \(Q\):污染测度,形式为 \(Q = (1-\epsilon)P + \epsilon \tilde{P}\),其中 \(\epsilon \in [0,1]\) 为污染比例,\(\tilde{P}\) 为任意恶意分布。
- \(T_Q\):从 \(U\) 到污染测度 \(Q\) 的最优传输映射。
- 可观测数据:研究者实际观测到的是来自污染测度 \(Q\) 的 \(n\) 个样本 \(X_1, ..., X_n \in \mathbb{R}^d\)(或等价地,经验测度 \(Q_n\))。目标是基于 \(Q_n\) 估计 \(T_Q\)(经验传输映射),进而推断 \(P\) 的分位数轮廓。\(P\) 本身不可直接观测,只能通过抗污染估计逼近。
- 潜在/不可观测量:真实分布 \(P\) 与真实传输映射 \(T\) 不可观测;恶意污染分布 \(\tilde{P}\) 不可观测且可任意取。
第二步:最小内核——一元传输分位数的崩溃点
剥掉所有多元几何与凸分析的技术壳,支撑整篇论文的最小内核是:一元分位数崩溃点 \(\tau\) 的最优传输重构。
在一元情形(\(d=1\)),参考测度 \(U\) 取为 \([-1, 1]\) 上的均匀测度,目标测度 \(P\) 为 \(\mathbb{R}\) 上的任意连续分布。最优传输映射 \(T\) 即为经典的分位数函数的线性重排:\(T(u) = F_P^{-1}((u+1)/2)\),其中 \(F_P^{-1}\) 是 \(P\) 的分位数函数。
- Tukey 深度在一元均匀测度下的退化:对 \(U \sim \text{Unif}[-1, 1]\),点 \(u\) 的 Tukey 深度 \(D(u, U) = \min((u+1)/2, (1-u)/2)\)。中位点 \(u=0\) 的深度为 \(1/2\);深度为 \(\tau\) 的点为 \(u = 2\tau - 1\) 或 \(u = 1 - 2\tau\)。
- 崩溃点的定义:传输映射 \(T\) 在点 \(u\) 处的崩溃点 \(\epsilon^*(u)\) 是最小的污染比例 \(\epsilon\),使得存在某个恶意分布 \(\tilde{P}\),让从 \(U\) 到 \(Q=(1-\epsilon)P + \epsilon \tilde{P}\) 的传输映射 \(T_Q(u)\) 可以被驱赶到无穷远(或任意 aberrant 值)。
- 最小内核命题:\(\epsilon^*(u) = D(u, U)\)。
- 证明直觉(为什么成立):要让 \(T_Q(u)\) 被驱赶到无穷,必须让 \(Q\) 在 \(T(u)\) 的“某一侧”积累足够多的质量,以至于最优传输映射为了保持单调性,不得不将 \(u\) 映射到远处。在 \(d=1\) 时,\(u\) 的 Tukey 深度 \(D(u, U)\) 正是 \(U\) 在 \(u\) 的“最薄弱侧”的质量比例。若污染比例 \(\epsilon < D(u, U)\),则即使 \(\tilde{P}\) 把所有质量堆在 \(T(u)\) 的最薄弱侧,\(Q\) 在该侧的总质量 \((1-\epsilon)P\text{侧质量} + \epsilon\) 仍不足以压倒 \(U\) 在 \(u\) 侧的质量 \(D(u, U)\),传输映射 \(T_Q(u)\) 仍被限制在有限范围内;一旦 \(\epsilon \geq D(u, U)\),恶意分布可以完全压倒 \(U\) 的薄弱侧,\(T_Q(u)\) 即可被驱赶到无穷。
- 特例验证:中位点 \(u=0\),\(D(0, U) = 1/2\),故 \(\epsilon^*(0) = 1/2\),与经典一元中位数崩溃点 \(1/2\) 完美吻合。\(\tau\) 阶分位点 \(u = 1-2\tau\),\(D(u, U) = \tau\),故 \(\epsilon^*(u) = \tau\),与经典一元 \(\tau\) 阶分位数崩溃点 \(\tau\) 完美吻合。
本文的一般情形只是这个最小内核的“加壳”:在 \(d \geq 2\) 时,\(u\) 的“最薄弱侧”由 Tukey 深度 \(D(u, U)\)(半空间最小质量)刻画,最优传输映射的循环单调性(一元时退化为单调性)保证了 \(T_Q(u)\) 不能跨越半空间边界,从而崩溃点仍由 \(D(u, U)\) 决定。证明的吃劲处在于:多元时传输映射可能不连续(只能延拓为极大循环单调集 \(\partial \phi\)),且恶意分布 \(\tilde{P}\) 可以在多维空间中“绕过”边界,需要凸分析工具(强凸支撑域的正则性)来封锁这些绕行路径。
三、这篇论文做了什么¶
三句话: ① 研究了基于最优传输的多元分位数在 Huber 污染模型下的崩溃点。 ② 核心工具是将传输映射的崩溃点与参考测度下该点的 Tukey 深度建立通用联系,并利用凸分析中的强凸支撑域正则性封锁恶意分布的绕行路径。 ③ 主要结论是:传输中位数崩溃点为 \(1/2\),\(\tau\) 阶传输深度轮廓点的崩溃点为 \(\tau\),且此结果对任意半空间对称的绝对连续参考测度成立,恢复了与一元分位数崩溃点的完全平行性。
关键设定与假设: 在第二节最小记号基础上补全: - 定义 1(崩溃点):对 \(u \in \text{int}(S)\)(参考测度支撑内部),\(T\) 在 \(u\) 处的崩溃点定义为 \(\epsilon^*(u) = \inf\{\epsilon \in [0,1] : \sup_{\tilde{P}} \|T_Q(u) - T(u)\| = \infty\}\),其中 \(Q = (1-\epsilon)P + \epsilon \tilde{P}\),\(\tilde{P}\) 任意。对 \(u \notin \text{int}(S)\),\(\epsilon^*(u) = 0\)(边界点无稳健性)。 - 假设 1(参考测度 \(U\)):\(U\) 绝对连续,支撑 \(S\) 为有界凸集,且 \(S\) 是强凸的(即存在 \(r>0\),\(S\) 的每个边界点处都有半径为 \(r\) 的外切球包含在 \(S\) 内)。统计含义:强凸性排除了 \(S\) 的平坦边界或尖角,确保传输映射在边界附近有“向内拉”的几何约束,防止恶意分布沿边界滑行驱赶映射值。相比已有文献([2, 14] 仅要求凸支撑),本文额外要求强凸,这是一个强化假设。 - 假设 2(目标测度 \(P\)):\(P\) 绝对连续,密度 \(p\) 在支撑内局部有界且远离零(\(0 < \lambda \leq p \leq \Lambda\))。统计含义:确保传输映射 \(T\) 是 Lipschitz 连续且可逆的(Caffarelli 正则性),这是将参考测度的 Tukey 深度转化为目标测度稳健性的桥梁。与 [2] 一致,未放宽。 - 假设 3(半空间对称性):\(U\) 是半空间对称的,即对任意半空间 \(H\),\(U(H) = U(-H)\)。统计含义:这保证了中位点 \(u_0\)(\(T(u_0)\) 即传输中位数)的 Tukey 深度为 \(1/2\),从而传输中位数崩溃点为 \(1/2\)。这是本文与 [3] 的关键分歧点:[3] 的半离散设定中参考测度虽半空间对称,但目标测度离散导致传输映射不满足此对称性传递。
主要结果: - 定理 1(通用崩溃点公式):对任意满足假设 1-2 的 \(U, P\) 及任意 \(u \in \text{int}(S)\),\(\epsilon^*(u) = D(u, U)\)。 - 直觉:要让 \(T_Q(u)\) 被驱赶到无穷,必须让 \(Q\) 在某个半空间 \(H\) 中的质量超过 \(U\) 在对应半空间中的质量 \(D(u, U)\),否则循环单调性会阻止 \(T_Q(u)\) 跨出 \(H\)。一旦 \(\epsilon \geq D(u, U)\),恶意分布可以把所有质量堆在 \(H\) 外,压倒 \(U\) 的薄弱侧。 - 必要条件:强凸支撑(假设 1)与密度有界远离零(假设 2)是必需的。强凸性封锁了“恶意分布沿边界滑行”的路径;密度有界确保 \(T\) 不会把内部点映射到边界(Caffarelli 正则性)。 - 解决的技术难点:多元传输映射 \(T\) 可能不连续(仅 \(\mu\)-a.e. 可微),需要延拓为极大循环单调集 \(\partial \phi\);且恶意分布 \(\tilde{P}\) 可以在多维中“绕过”半空间边界,需要强凸性来证明“绕不过去”。 - 推论 1(传输中位数与轮廓崩溃点):若 \(U\) 半空间对称(假设 3),则传输中位数 \(T(u_0)\) 的崩溃点为 \(1/2\);\(\tau\) 阶传输深度轮廓 \(\mathcal{C}_\tau\) 中任意点的崩溃点为 \(\tau\)。 - 直觉:半空间对称性保证 \(D(u_0, U) = 1/2\),\(D(u, U) = \tau\) 对 \(\tau\) 阶深度点,代入定理 1 即得。 - 与经典结果的平行:一元分位数中位数崩溃点 \(1/2\),\(\tau\) 阶分位数崩溃点 \(\tau\);Tukey 中位数崩溃点 \(1/2\)。本文证明传输分位数在多元中完全继承了这些性质,且公式统一为 \(\epsilon^* = D(u, U)\)。
证明路线与技术技巧: - 整体路线(5 步): 1. 建立传输映射的延拓与边界封锁:将 \(T\) 延拓为极大循环单调集 \(\partial \phi\),利用 Caffarelli 正则性(密度有界 ⇒ \(T\) Lipschitz ⇒ 内部点不映射到边界)和强凸性(边界点有外切球 ⇒ 恶意分布不能沿边界滑行),证明 \(\partial \phi(u)\) 不能包含边界点,从而 \(T_Q(u)\) 被限制在内部。 2. 构造半空间约束:对任意方向 \(v\),定义半空间 \(H_v = \{x: \langle v, x-u \rangle \geq 0\}\)。利用循环单调性,证明若 \(Q(H_v) < D(u, U)\),则 \(T_Q(u)\) 不能跨出 \(H_v\)(否则会破坏循环单调性)。 3. 下界证明(\(\epsilon < D(u, U)\) 时 \(T_Q(u)\) 有界):取所有方向 \(v\) 的半空间交集,利用强凸性证明这个交集是一个有界区域,且 \(T_Q(u)\) 被困在其中。 4. 上界证明(\(\epsilon \geq D(u, U)\) 时 \(T_Q(u)\) 可被驱赶到无穷):构造恶意分布 \(\tilde{P}\),将所有质量堆在 \(u\) 的最薄弱半空间 \(H_{v^*}\) 的外侧(即 \(-H_{v^*}\)),使得 \(Q(-H_{v^*})\) 压倒 \(U(H_{v^*}) = D(u, U)\),迫使 \(T_Q(u)\) 跨出 \(H_{v^*}\) 并可被驱赶到无穷。 5. 整合上下界:得出 \(\epsilon^*(u) = D(u, U)\)。 - 关键跳跃点: - 引理 2(半空间约束的循环单调性封锁):这是最吃功夫的引理。难点在于:多元传输映射 \(T_Q\) 可能不连续,如何证明“\(Q(H_v) < D(u, U)\) ⇒ \(T_Q(u) \notin -H_v\)”?作者利用极大循环单调集的性质,构造了 \(u\) 与 \(-H_v\) 中任意点 \(y\) 的循环单调性矛盾:若 \(T_Q(u) \in -H_v\),则存在 \(y \in -H_v\) 使得 \((u, y) \in \partial \phi_Q\),但循环单调性要求 \(\langle y - T_Q(u'), u' - u \rangle \geq 0\) 对所有 \((u', T_Q(u')) \in \partial \phi_Q\) 成立,结合 \(Q(H_v) < D(u, U)\) 可推出矛盾。 - 引理 3(强凸性 ⇒ 有界封锁):利用强凸性证明,当所有薄弱侧半空间都被保护(\(Q(H_v) < D(u, U)\) 对所有 \(v\))时,\(T_Q(u)\) 被困在一个有界凸集(所有半空间的交集)中。强凸性确保这个交集不会退化为无界条带。 - 技术技巧点名: - 极大循环单调延拓:用于处理传输映射的不连续性,将 \(T\) 延拓为 \(\partial \phi\),确保在所有点都有定义且保持单调性结构(用在引理 2)。 - Caffarelli 正则性理论:密度有界远离零 ⇒ Brenier 势 \(\phi\) 是强凸的 ⇒ \(T\) 是 Lipschitz 且内部点不映射到边界(用在引理 1,封锁边界逃逸)。 - 强凸支撑的几何约束:支撑 \(S\) 强凸 ⇒ 边界点有外切球 ⇒ 恶意分布不能沿边界滑行驱赶映射值(用在引理 3,确保半空间交集有界)。 - Tukey 深度的半空间极小化:\(D(u, U) = \inf_{v} U(H_v)\),将稳健性问题转化为几何深度问题(用在定理 1,统一崩溃点公式)。
真实例子与应用: 本文为纯理论 / 无实证例子。所有结果均在 Huber 污染模型下严格证明,未涉及数据集或模拟实验。
🔎 结论是否比证明窄: - 定理 1 的条件与 claim:定理 1 在假设 1(强凸支撑)和假设 2(密度有界远离零)下严格证明,但作者在引言和摘要中泛泛 claim“传输分位数崩溃点为 Tukey 深度”,未显式强调强凸支撑的必要性。若参考测度支撑仅为凸而非强凸(如单位立方体),定理 1 是否成立?证明中引理 3(有界封锁)依赖强凸性,立方体的平坦边界可能让恶意分布沿边界滑行,导致封锁失效。这是一个“条件 X 下严格证明,却被泛泛 claim”的缺口,研究者应关注强凸性是否可放宽。 - 推论 1 的半空间对称性:推论 1 严格依赖假设 3(半空间对称),但作者在 framing 中将其与一元分位数崩溃点平行对比时,淡化了半空间对称性在多元中的非平凡性(一元均匀测度天然半空间对称,多元中参考测度需人为选取且必须半空间对称,否则中位数崩溃点可能 \(<1/2\))。
四、开放问题(点到为止,扎根具体语句)¶
- 强凸支撑假设是否可放宽? ——本文定理 1 依赖假设 1(支撑强凸),但引言中泛泛 claim 崩溃点 = Tukey 深度。若参考测度支撑仅为凸(如立方体),恶意分布沿平坦边界滑行时,引理 3 的有界封锁是否失效?崩溃点公式是否仍成立?扎根点:假设 1 的陈述与引理 3 的证明中对外切球的依赖。
- 半离散设定下崩溃点的鸿沟如何闭合? ——[3] 证明半离散设定下传输中位数崩溃点可严格小于 \(1/2\),本文证明全连续设定下为 \(1/2\)。经验测度 \(Q_n\) 是半离散的,其传输映射的崩溃点是否在 \(n \to \infty\) 时收敛到 \(1/2\)?还是存在稳健性的本质亏缺?扎根点:引言中“Our results and the parallel work of [51] constitute the first breakdown point analysis of transport maps”及 [3] 的摘要中关于半离散设定崩溃点 \(<1/2\) 的结论。
- 传输分位数与 Tukey 中位数在计算复杂度与稳健性之间的 trade-off 是什么? ——本文证明传输中位数崩溃点为 \(1/2\)(与 Tukey 中位数相同),但 Tukey 中位数计算是 NP-hard,传输中位数计算复杂度尚无定论。是否存在多项式时间可算的传输中位数近似,其崩溃点仍接近 \(1/2\)?扎根点:引言中“The coordinatewise median and the geometric median can be computed efficiently and are known to have high breakdown point of 1/2”,隐含了计算与稳健性的对比,但未触及传输中位数的计算复杂度。
- 非半空间对称参考测度下的崩溃点公式是什么? ——本文推论 1 依赖假设 3(半空间对称),若参考测度非半空间对称(如非对称球),中位点 \(u_0\) 的 Tukey 深度 \(D(u_0, U) < 1/2\),此时传输中位数崩溃点是否仍为 \(D(u_0, U)\)?扎根点:推论 1 的陈述与假设 3 的限制。
Maintained by 陈星宇 · Homepage · Source on GitHub