Approximation error from discretizations and its applications¶
作者: Junlong Zhao, Xiumin Liu, Bin Du, Yufeng Liu
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/24-aos2470
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本统计问题是:当连续随机变量被强制离散化(分箱、切片、量化)时,由此引入的系统性偏差(近似误差 / discretization bias)如何在数学上被精确刻画与控制? 连续变量的离散化是统计与机器学习中最古老、最常见的操作之一(如直方图密度估计、分箱回归、切片逆回归 SIR、决策树的节点分裂),但传统文献往往把离散化带来的偏差当作“不可避免的 nuisance”或仅作局部 Taylor 展开近似处理,缺乏一个统一、非参的逼近理论来系统比较不同切片策略的误差阶。该方向目前处于“有大量零散应用、但理论基础设施刚被系统搭建”的成熟度阶段。
发展脉络 - 奠基工作(切片与分箱的早期统计处理):切片逆回归(SIR, Li-1991)将连续响应变量 \(Y\) 切成若干片以估计中心子空间,其切片数与切片位置的选择长期依赖经验;直方图密度估计(Scott-1979, Freedman-Diaconis-1981)给出了分箱宽度的渐近最优准则(如 \(h \sim n^{-1/3}\)),但仅针对特定目标函数(密度)的 \(L_2\) 误差。 - 主要进展(特定场景的偏差刻画):在降维文献中,切片操作引入的偏差被零散讨论。例如,Li-1991 与后续 SIR 变体(如 Zhu-2006 的 B-spline 逼近)意识到切片数过少会导致中心子空间估计矩阵的偏差,但处理方式多为假设切片内分布均匀或仅做低阶 Taylor 展开;在回归分箱(binning)与核密度估计中,偏差通常被展开为 \(O(h^2)\) 形式,严重依赖目标函数的二阶导数存在性。 - 当前 frontier(从局部展开走向泛函不等式):本文作者在 intro 中明确指出,现有文献对离散化偏差的处理是“ad-hoc”的——要么针对特定估计量做 Taylor 展开,要么在强平滑假设下讨论。他们提出用 Poincaré 型不等式 这一泛函分析工具,将偏差的控制从“局部展开”提升为“分布距离 + 函数平滑性”的双因子分解,从而不依赖高阶导数的存在。 - 本文的位置:作为首个系统建立离散化 Poincaré 型不等式的工作,本文填补了“离散化偏差的一般性逼近理论”这一 gap,并将理论直接应用于解释 SIR 矩阵的偏差与设计基于响应离散化的新回归算法。
子线索聚类 被引文献及本文涉及的工作大致落在以下三条子线索上: 1. 降维中的切片偏差(SIR 及变体):Li-1991(提出 SIR,切片数选择未定)、Zhu-2006(用 B-spline 逼近连续切片以减小偏差)、Fukumizu-2004(切片与核方法的偏差比较)。这一簇在做“如何用切片估计条件矩,并控制切片带来的偏差”。 2. 密度与回归的分箱(Histogram / Binning):Scott-1979、Freedman-Diaconis-1981(直方图最优箱宽)、Hall-1986(分箱核估计的偏差展开)。这一簇在做“分箱操作对密度/回归估计 \(L_2\) 误差的渐近展开”。 3. 泛函不等式与分布距离(Poincaré / Wasserstein):经典 Poincaré 不等式(Ané-2000 等概率论教材)刻画了函数方差与其梯度期望的关系;Wasserstein 距离(Villani-2008)度量分布间的逼近。本文将这两者结合,用于离散化偏差的分解。
这个方向在追问的核心问题 1. 离散化偏差的统一上界是什么? ——能否不依赖目标函数的高阶导数,仅用分布距离与低阶平滑性(如 Lipschitz 或 Sobolev 范数)给出偏差的显式控制? 2. 不同切片策略(等宽 vs 等频 vs 最优量化)的偏差如何比较? ——是否存在一个通用的度量,使得策略 A 的偏差在理论上小于策略 B? 3. 切片数 / 分箱数的渐近最优选择是什么? ——当样本量 \(n \to \infty\) 时,偏差与方差如何联合决定切片数的收敛阶? 当前主流方法(Taylor 展开)的已知瓶颈:要求函数足够平滑(至少二阶导数存在),且无法处理切片内分布非均匀或边界效应,导致理论结论与实际算法(如决策树的不均匀分裂)脱节。
⚠️ 作者的 framing - 作者把缺口 frame 成什么:作者在 intro 中将现有文献对离散化偏差的处理定性为“not studied systematically”和“ad-hoc Taylor expansion”,从而将自己的 Poincaré 型不等式框架定位为“the first general framework to understand and compare different slicing strategies”。 - 竞争路线被淡化或回避了:作者回避了核平滑 这一与离散化直接竞争的连续化处理路线。核平滑通过卷积避免硬边界,其偏差有成熟的泛函展开理论;而本文聚焦硬离散化,未讨论在何种条件下离散化+Poincaré 界能比核平滑+Taylor 展开更优或更鲁棒。 - 明显该被引 / 该存在却未出现的:最优量化理论。将连续变量离散化为 \(K\) 个点以最小化某种期望距离(如 \(L_2\) 量化误差),是信息论与信号处理的经典问题(如 Gersho-1982, Lloyd-1982 最优量化)。本文的“量化误差”因子实质上就是最优量化中的 distortion,但 intro 未引用该脉络,这值得研究者去查:Poincaré 型不等式与最优量化的 distortion 界是否有深层联系,或者本文的界是否在量化理论中已被隐式获得?
张力 未见明显对立引用。现有文献在不同设定下(SIR 的切片 vs 直方图的分箱)各自做局部展开,结论不矛盾但互不通用;本文的 Poincaré 框架试图统一它们,但尚未与核平滑流派产生直接碰撞。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号与指标
- \(X \in \mathbb{R}^p\):连续随机向量(协变量),分布为 \(P_X\)。
- \(Y \in \mathbb{R}\):连续随机变量(响应变量),分布为 \(P_Y\)(单变量情形);或 \(Y \in \mathbb{R}^q\)(多变量情形)。
- \(Z\):\(X\) 或 \(Y\) 的离散化版本,由切片映射 \(T: \mathbb{R}^d \to \{1, \ldots, K\}\) 生成,\(Z = T(V)\),其中 \(V\) 是被离散化的原变量(可以是 \(X\)、\(Y\) 或 \((X, Y)\))。
- \(K\):切片数 / 分箱数(离散化后的类别数)。
- \(f: \mathbb{R}^d \to \mathbb{R}\):目标函数(我们要计算其期望或条件期望的函数,如条件均值函数 \(E[X|Y]\)、密度差等)。
- \(\|f\|_{\text{Lip}}\):函数 \(f\) 的 Lipschitz 范数,\(\|f\|_{\text{Lip}} = \sup_{x \neq y} |f(x) - f(y)| / \|x - y\|\)。
- \(\|f\|_{H^s}\):Sobolev 范数(平滑度 \(s > 0\))。
- \(W_1(P, Q)\):分布 \(P\) 与 \(Q\) 之间的 1-Wasserstein 距离(即量化误差的期望形式)。
- \(n\):样本量。
- \(E[f(V)]\):无离散化时的真实期望(我们要逼近的目标 estimand)。
-
\(E[f(Z)]\):离散化后的期望(实际可计算或估计的量),注意 \(Z\) 是离散随机变量,\(f(Z)\) 实际上是 \(f\) 在切片代表点上的取值。
-
模型(数据生成机制)
- \((X, Y)\) 服从某连续联合分布 \(P_{XY}\),密度存在。
- 离散化映射 \(T\) 将 \(\mathbb{R}^d\) 划分为 \(K\) 个互不相交的区域 \(S_1, \ldots, S_K\),\(T(v) = k\) 若 \(v \in S_k\)。
- 离散化变量 \(Z = T(V)\) 的分布为 \(P_Z\),\(P_Z(k) = P_V(V \in S_k)\)。
-
在切片 \(S_k\) 内,通常取代表点 \(c_k\)(如条件期望 \(E[V | V \in S_k]\) 或切片中心),从而 \(f(Z)\) 实际计算为 \(f(c_k)\)。
-
可观测数据
- 研究者实际观测到的是 \((X_i, Y_i)_{i=1}^n\),来自 \(P_{XY}\) 的 i.i.d. 样本。
- 离散化操作 \(T\) 是研究者自己选择的(如等频切片、等宽切片),因此 \(Z_i = T(Y_i)\) 或 \(T(X_i)\) 也是可观测的。
- 不可观测的潜在量:无离散化时的真实期望 \(E[f(V)]\)(如 SIR 中的真实中心子空间矩阵 \(\Gamma = E[X \cdot h(Y)]\) 的某个矩)是我们要估的 estimand,但算法只能用到离散化后的 \(E[f(Z)]\) 或其样本版本。偏差 \(|E[f(V)] - E[f(Z)]|\) 是不可观测的系统性误差,只能靠理论假设(平滑性)去识别与控制。
第二步:讲最小内核
本文的最小内核是单变量离散化的 Poincaré 型不等式。剥掉所有多变量、Sobolev 平滑度、SIR 应用等外壳,核心数学命题如下:
最简特例(单变量 \(d=1\),Lipschitz 函数,等宽切片): 设 \(V \in \mathbb{R}\) 服从分布 \(P_V\)(密度 \(p_V\) 有界且支撑集有界,如 \([0, 1]\) 上的均匀分布)。将 \([0, 1]\) 等宽切成 \(K\) 个区间 \(S_k = [(k-1)/K, k/K]\),代表点 \(c_k\) 取区间中点 \((2k-1)/(2K)\)。离散化变量 \(Z\) 取值于 \(\{c_1, \ldots, c_K\}\),分布 \(P_Z(c_k) = 1/K\)。
我们要证的是:对任意 Lipschitz 函数 \(f: \mathbb{R} \to \mathbb{R}\)(即 \(\|f\|_{\text{Lip}} \leq L\)),离散化偏差有上界
为什么成立(直觉与证明主干): 1. Lipschitz 性质直接控制偏差:对任意 \(v \in S_k\),\(|f(v) - f(c_k)| \leq L |v - c_k|\)(Lipschitz 定义)。 2. 期望的线性性:\(E[f(V)] = \sum_{k=1}^K E[f(V) | V \in S_k] P_V(S_k)\),而 \(E[f(Z)] = \sum_{k=1}^K f(c_k) P_Z(c_k)\)。由于 \(P_Z(c_k) = P_V(S_k)\)(切片概率守恒),偏差可写为
在这个特例下,偏差的阶是多少? - 对 \([0, 1]\) 均匀分布的等宽切片,\(W_1(P_V, P_Z) = E[|V - c_k| | V \in S_k] \leq \frac{1}{2K}\)(区间内最大距离为半宽 \(1/(2K)\))。 - 因此偏差 \(|E[f(V)] - E[f(Z)]| \leq L / (2K) = O(1/K)\)。 - 这与直方图密度估计的 \(O(h)\) 偏差(\(h = 1/K\))一致,但不需要 \(f\) 有二阶导数,仅需要 Lipschitz!
一般情形只是这个特例的“加壳”: - 多变量 \(V \in \mathbb{R}^d\):Lipschitz 范数换成多变量定义,\(W_1\) 换成多变量 Wasserstein 距离,切片换成 \(\mathbb{R}^d\) 的划分。 - Sobolev 平滑度 \(s > 1\):若 \(f\) 属于 Sobolev 空间 \(H^s\),偏差可进一步收紧到 \(O(W_1^s)\) 或 \(O(W_2^2)\)(利用高阶 Poincaré 不等式,类似 Taylor 展开但用泛函不等式统一表述)。 - SIR 应用:目标函数 \(f(V) = X \cdot h(Y)\),偏差控制 SIR 矩阵 \(\Gamma\) 的逼近误差。
三、这篇论文做了什么¶
三句话 ① 研究了连续变量离散化导致的近似误差(偏差)如何系统刻画与控制的问题; ② 核心工具是建立单变量及多变量离散化的 Poincaré 型不等式,将偏差分解为“分布间 Wasserstein 距离(量化误差) × 函数平滑性范数”; ③ 主要结论给出了偏差的显式上界,解释了 SIR 等降维方法中切片矩阵的近似误差,并据此设计了一种响应部分离散化+随机森林的回归算法。
关键设定与假设 在第二节最小记号的基础上,补全完整设定: - 离散化映射 \(T\) 的一般定义:\(T: \mathbb{R}^d \to \{1, \ldots, K\}\),将 \(\mathbb{R}^d\) 划分为 \(K\) 个 Borel 集 \(S_1, \ldots, S_K\)。代表点 \(c_k \in S_k\) 可以是任意选取(不一定是条件期望),但理论界依赖于代表点的选择(最优代表点使 \(W_1\) 最小)。 - 假设 A1(分布支撑与密度):\(P_V\) 的密度 \(p_V\) 在有界支撑集上存在且有界,或满足某些矩条件(多变量时)。这保证了 \(W_1(P_V, P_Z)\) 有限且可估。 - 假设 A2(函数平滑性):目标函数 \(f\) 属于 Lipschitz 类(\(\|f\|_{\text{Lip}} \leq L\))或 Sobolev 类 \(H^s\)(\(s \geq 1\))。这是 Poincaré 型不等式的核心输入——平滑度越高,偏差对 Wasserstein 距离的依赖阶数越高(如 Lipschitz 时偏差 \(\sim W_1\),\(H^2\) 时偏差 \(\sim W_2^2\))。 - 假设 A3(切片策略):切片划分 \(S_1, \ldots, S_K\) 可以是等宽、等频或一般划分。等频切片(每个 \(P_V(S_k) = 1/K\))在非均匀密度下比等宽切片有更小的 \(W_1\) 距离,本文的理论允许比较不同策略的 \(W_1\) 从而比较偏差。 - 统计含义:假设 A1-A2 将离散化偏差的控制从“局部 Taylor 展开(需 \(f\) 二阶导)”放宽到“泛函不等式(仅需 Lipschitz 或 Sobolev)”,使得对不光滑函数(如指示函数、决策树分裂函数)的离散化偏差也能给出理论界。相比已有文献(如 SIR 的 Zhu-2006 假设条件均值函数光滑),本文仅假设被积函数 \(f\) 光滑,条件更弱且更自然。
主要结果 1. 定理 1(单变量 Poincaré 型不等式): - 陈述:对 \(V \in \mathbb{R}\),离散化 \(Z = T(V)\),及 Lipschitz 函数 \(f\),
- 定理 2-3(多变量及一般设定推广):
- 陈述:对 \(V \in \mathbb{R}^d\),多变量离散化 \(Z = T(V)\),及 Lipschitz 函数 \(f: \mathbb{R}^d \to \mathbb{R}\),
\[|E[f(V)] - E[f(Z)]| \leq \|f\|_{\text{Lip}} \cdot W_1(P_V, P_Z)\]其中 \(W_1\) 是 \(\mathbb{R}^d\) 上的 1-Wasserstein 距离。对 Sobolev 函数,类似有高阶界。
- 直觉:单变量结果的直接维数推广,\(W_1\) 的计算依赖多变量划分的几何(如超矩形切片的体积与代表点位置)。
-
必要条件:多变量密度有界、支撑有界;\(f\) 的多变量 Lipschitz/Sobolev 范数有限。
-
应用 1(SIR 矩阵的近似误差解释):
- SIR 估计的中心子空间矩阵 \(\Gamma = \text{Var}(E[X | Y])\),实际计算时用切片版本 \(\Gamma_K = \text{Var}(E[X | Z])\)(\(Z\) 是 \(Y\) 的离散化)。
- 本文用 Poincaré 型不等式给出 \(\|\Gamma - \Gamma_K\|\) 的上界,界由 \(W_1(P_Y, P_Z)\) 和 \(E[X|Y]\) 的 Lipschitz 范数控制。这解释了为什么切片数 \(K\) 需要随 \(n\) 增加(偏差 \(O(1/K)\) 需要被方差 \(O(1/n)\) 平衡),以及等频切片为何比等宽切片更优(非均匀 \(P_Y\) 下等频的 \(W_1\) 更小)。
证明路线与技术技巧 - 整体路线(5 步): 1. 定义离散化映射与代表点:将连续分布 \(P_V\) 映射为离散分布 \(P_Z\),建立两者的耦合(coupling)关系——\(Z\) 是 \(V\) 在切片代表点上的投影。 2. 计算 Wasserstein 距离 \(W_1(P_V, P_Z)\):利用切片划分的几何性质(区间长度、体积)与密度 \(p_V\) 的性质,给出 \(W_1\) 的显式上界(如等宽切片时 \(W_1 \leq C/K\))。 3. 建立 Poincaré 型不等式:对 Lipschitz 函数,直接用 Lipschitz 定义 + 期望线性性得到 \(|E[f(V)] - E[f(Z)]| \leq \|f\|_{\text{Lip}} W_1\);对 Sobolev 函数,用高阶 Poincaré 不等式(涉及函数梯度的 \(L^2\) 范数)得到更紧的界。 4. 推广到多变量:将单变量的区间划分推广为 \(\mathbb{R}^d\) 的 Borel 划分,\(W_1\) 推广为多变量 Wasserstein 距离,Lipschitz/Sobolev 范数换成多变量版本。 5. 应用于 SIR 与回归算法:将 Poincaré 界代入 SIR 矩阵的偏差分解,或用于设计回归算法的离散化策略。
- 关键跳跃点:
- 从 Lipschitz 到 Sobolev 的高阶界:Lipschitz 情形的证明是直接的(如第二节最小内核所示),但 Sobolev 情形需要利用 Poincaré 不等式的经典形式(\(\text{Var}(f) \leq C E[\|\nabla f\|^2]\))来控制高阶偏差。这里的关键跳跃是将“离散化偏差”重写为“函数在耦合分布下的期望差”,然后对差函数 \(f(V) - f(Z)\) 应用 Poincaré 不等式——难点在于差函数不是直接定义在 \(P_V\) 上的,需要构造合适的测度变换。
-
多变量 \(W_1\) 的显式计算:多变量切片划分(如超矩形网格)的 \(W_1\) 距离计算依赖划分的几何与密度的交互,作者用积分逼近技术给出了 \(W_1 \leq C / K^{1/d}\) 的界( \(d\) 是维数),这解释了高维离散化的偏差收敛速度变慢。
-
技术技巧点名:
- Wasserstein 距离(1-Wasserstein / Kantorovich-Rubinstein 距离):用于度量离散化分布 \(P_Z\) 与原分布 \(P_V\) 的逼近程度,是偏差界的第一个因子。起作用在于将“切片策略的好坏”量化为一个可计算的分布距离。
- Poincaré 不等式(经典形式与离散化形式):经典形式 \(\text{Var}_P(f) \leq C_P E_P[\|\nabla f\|^2]\) 控制函数方差与梯度的关系;本文的离散化形式 \(|E_P[f] - E_Q[f]| \leq \|f\|_{\text{Lip}} W_1(P, Q)\) 是其推广(Kantorovich-Rubinstein 对偶定理的特例)。起作用在于将偏差分解为“分布距离 × 函数平滑性”。
- Coupling(分布耦合):构造 \(V\) 与 \(Z\) 的联合分布(\(Z\) 是 \(V\) 在切片代表点上的确定性投影),使得 \(W_1(P_V, P_Z) = E[|V - Z|]\) 可直接计算。起作用在于将抽象的 Wasserstein 距离转化为可操作的期望。
- Sobolev 嵌入与高阶 Poincaré:对 \(f \in H^s\),用 Sobolev 嵌入控制函数的高阶差分,从而将偏差界从 \(O(W_1)\) 收紧到 \(O(W_1^s)\) 或 \(O(W_2^2)\)。起作用在于为平滑函数提供更紧的偏差界。
真实例子与应用 - 应用 1:SIR 矩阵的近似误差(理论应用,无真实数据): - 场景:切片逆回归(SIR)中,响应变量 \(Y\) 被切成 \(K\) 片,估计矩阵 \(\Gamma_K = \text{Var}(E[X | Z])\)。 - 怎么用本文方法:将 \(\|\Gamma - \Gamma_K\|\) 的偏差用 Poincaré 界控制,界为 \(\|E[X|Y]\|_{\text{Lip}} \cdot W_1(P_Y, P_Z)\)。 - 结果:证明了等频切片的 \(W_1\) 在非均匀 \(P_Y\) 下比等宽切片更小,从而 SIR 的等频切片偏差更小——这与 SIR 实践中的经验选择一致,但首次有了理论依据。
- 应用 2:部分离散化随机森林回归算法(有模拟实验):
- 场景:回归问题 \((X, Y)\),响应变量 \(Y\) 是连续的。
- 怎么用本文方法:提出算法 "Partially Discretized Random Forest"(pDRF):在构建决策树时,对 \(Y\) 进行部分离散化(将 \(Y\) 切成 \(K\) 片,但在叶节点预测时仍用原始连续 \(Y\) 的均值)。离散化用于节点分裂(寻找最优分裂点时在离散化的 \(Y\) 上操作,减少搜索空间),预测用连续 \(Y\)。
- 得到什么结果:模拟实验(多种分布设定,样本量 \(n=100 \sim 1000\),维数 \(p=1 \sim 10\))显示,pDRF 在 MSE 上比经典随机森林(RF)低 5%-20%,且对 \(Y\) 的非均匀分布或噪声设定更鲁棒。切片数 \(K\) 的选择对性能影响不大(\(K \sim 10 \sim 50\) 即可)。
-
这个例子想说明什么:验证“离散化可以是有益的”这一反直觉观点——离散化虽引入偏差,但减少了分裂搜索的方差与计算量,偏差-方差权衡下总体 MSE 可能更优。Poincaré 界为偏差提供了定量控制,使得算法设计有理论依据。
-
🔎 结论是否比证明窄:
- 本文在定理陈述中对 Lipschitz 情形的界是严格证明的(\(|E[f(V)] - E[f(Z)]| \leq \|f\|_{\text{Lip}} W_1\)),但 Sobolev 高阶界的证明依赖 Poincaré 常数 \(C_P\) 的存在性,而 \(C_P\) 对某些分布(如多模态分布)可能很大或难以计算——作者在证明中假设了 \(C_P\) 有界,但未在定理陈述中显式标注这一隐含条件。
- 在 SIR 应用中,作者 claim Poincaré 界可以解释 SIR 矩阵的偏差,但实际证明仅覆盖了 \(E[X|Y]\) 是 Lipschitz 的情形;对 \(E[X|Y]\) 不光滑的情形(如 \(Y\) 有跳跃点),界可能失效,但作者未明确指出这一限制。
- pDRF 算法的理论分析仅给出了偏差的 Poincaré 界,未给出完整的 MSE 收敛阶证明(方差部分未严格控制),因此“pDRF 优于 RF”的结论在模拟中成立,但理论上仅部分证明。
四、开放问题(点到为止,扎根具体语句)¶
-
Poincaré 常数 \(C_P\) 对非均匀 / 多模态分布的依赖性:本文 Sobolev 高阶界的证明假设 Poincaré 常数 \(C_P\) 有界(定理 2-3 的证明路线中隐含),但对多模态或重尾分布,\(C_P\) 可能随模态数或尾重发散。要证什么:给出 \(C_P\) 对分布几何(如模态数、支撑连通性)的显式依赖界。扎根点:定理 3 证明中 \(C_P\) 的引入处,以及 intro 中“general framework”的 claim(第 1 页第 5 段)。
-
高维离散化的偏差-方差权衡与切片数 \(K\) 的最优选择:本文给出了偏差 \(O(W_1) \sim O(1/K^{1/d})\) 的界,但未联合方差 \(O(K/n)\) 给出 MSE 最优的 \(K^* \sim n^{d/(d+2)}\) 的严格证明。要估什么:在 SIR 或 pDRF 中,\(K\) 的最优收敛阶及与样本量 \(n\)、维数 \(d\) 的关系。扎根点:第 5 节 SIR 应用中“\(K\) needs to increase with \(n\)”的讨论(第 12 页第 2 段),以及 pDRF 模拟中 \(K\) 的经验选择。
-
离散化与核平滑的理论比较:本文回避了核平滑路线,但实际中离散化与核平滑是直接竞争的偏差控制策略。要证什么:在相同平滑度假设下,离散化的 Poincaré 界与核平滑的 Taylor 展开界,哪个更紧?在何种条件下离散化优于核平滑?扎根点:intro 中对“ad-hoc Taylor expansion”的批评(第 1 页第 3 段),以及未引用的核平滑文献(如 Hall-1986 的分箱核估计)。
-
最优量化理论与 Poincaré 界的联系:本文的 \(W_1(P_V, P_Z)\) 实质是量化理论中的 distortion,但未引用量化理论。要查什么:最优量化(Lloyd 算法、Gersho 界)给出的 \(W_1\) 最小化策略,是否与本文 Poincaré 界隐含的“最小化 \(W_1\) 以最小化偏差”策略一致?扎根点:定理 1 中 \(W_1\) 作为偏差界的核心因子,以及 intro 中“compare different slicing strategies”的 claim(摘要第 2 句)。
Maintained by 陈星宇 · Homepage · Source on GitHub