Embedding distributional data¶
作者: Ery Arias-Castro, Wanli Qiao
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 2/10
机构绿灯: University of California, San Diego(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/24-aos2471
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:当观测单元不再是传统欧氏空间中的向量,而是概率分布(如概率密度函数、累积分布函数、直方图等)时,如何在保留这些分布间内在几何结构的前提下,将它们嵌入到一个低维(通常是欧氏)空间中以便可视化、聚类或后续统计分析。当前该方向的成熟度处于方法已成型(经典 MDS/Isomap 的推广已提出)、理论正在建立(收敛率与一致性刚被严格证明)、但核心瓶颈(ambient metric 的选择如何决定嵌入的拓扑与统计性质)刚刚被系统揭示的阶段。
发展脉络(history): - 奠基工作(欧氏数据的降维与嵌入):MDS 与 Isomap 的理论基石在欧氏数据上早已确立。作者在 intro 中明确回溯:Classical scaling(Torgerson, 1952; Gower, 1966)提供了基于距离矩阵谱分解的线性嵌入框架;Isomap(Tenenbaum et al., 2000; Bernstein et al., 2000)则通过邻接图最短路径将线性框架推广至非线性流形。这些工作留下了“仅适用于欧氏向量数据”的口子。 - 主要进展(分布数据的度量与表征):随着数据形态演变,以分布为观测单元的工作出现。作者引用了 Petersen et al. (2016) 与 Panaretos et al. (2016),指出它们为分布数据提供了 Fréchet 均值与 Wasserstein 空间的几何基础;同时引用了 Delicado (2011) 与 Szekely et al. (2007),指出它们分别从距离映射与能量距离角度尝试了分布数据的低维表征。这些进展留下了“缺乏系统降维理论、且未审视度量选择对嵌入影响”的口子。 - 当前 frontier 与本文位置:作者指出,当前 frontier 在于将欧氏降维的完整理论(特别是谱分解的渐近性质与流形等距映射的一致性)移植到分布空间,并在此过程中发现 ambient metric 的决定性作用。本文定位为:首次系统地将 Classical scaling 与 Isomap 推广至分布数据,并严格证明其收敛性,同时揭示 Wasserstein 距离在保持流形局部等距性上的独特优势。
子线索聚类: 1. 度量几何与 Fréchet 统计线:Petersen et al. (2016); Panaretos et al. (2016)。这一簇在定义分布空间的度量几何(Wasserstein 空间的曲率、Fréchet 均值的存在性与唯一性),为分布数据的统计推断提供地基,但未涉降维嵌入的谱方法与收敛率。 2. 分布数据的低维表征线:Delicado (2011); Szekely et al. (2007)。这一簇尝试绕开完整流形嵌入,用距离映射或能量距离直接做二维散点图或假设检验,但缺乏对“嵌入是否保持原空间拓扑”的理论保证。 3. 欧氏降维的谱理论线:Torgerson (1952); Gower (1966); Tenenbaum et al. (2000); Bernstein et al., (2000)。这一簇提供了本文的直接方法论模板(谱分解与图最短路径),但其理论全部建立在欧氏距离的内积可分解性上,无法直接移植到非欧的分布度量。
这个方向在追问的核心问题: 1. 可嵌入性:在什么度量下,分布数据的低维流形可以被等距映射到低维欧氏空间?当前已知 Wasserstein 空间具有非负曲率(Alexandrov 空间),局部等距映射存在条件比欧氏空间苛刻,瓶颈在于如何保证 Isomap 的全局等距性。 2. 收敛率:当分布间的距离矩阵由样本估计而非真实计算时,谱嵌入的坐标收敛率是多少?当前主流方法沿欧氏 MDS 的扰动理论走,瓶颈在于分布距离的估计误差(如经验 Wasserstein 距离的收敛率 \(\mathcal{O}(n^{-1/d})\))比欧氏距离的估计误差慢得多,且依赖于分布的维数 \(d\)。 3. 度量选择的拓扑后果:ambient metric 的选择如何决定嵌入的拓扑保真度?当前已知 \(L^2\) 距离在函数空间保持内积结构但无视分布的形变几何,Wasserstein 距离保持形变几何但破坏内积可分解性,瓶颈在于缺乏对二者在 Isomap 邻接图局部等距性上的系统对比。
⚠️ 作者的 framing: - 作者的 framing:作者将缺口 frame 为“经典降维方法未推广至分布数据、且未揭示 ambient metric 的决定性作用”,好让本文成为“显然的下一步”——直接移植 Classical scaling 与 Isomap,并在证明中凸显 Wasserstein 的优越性。 - 被淡化或回避的竞争路线:作者未引用任何基于 Kernel method(如 Kernel PCA on distributional data)或深度生成模型(如 VAE on distributional latent space)的降维工作。这些路线同样处理分布数据的低维表征,且在计算上可能比 Wasserstein Isomap 更易实现。 - 明显该被引 / 该存在却未出现的:关于 Wasserstein 距离计算复杂度与统计计算权衡的文献(如 Cuturi 2013 的 Sinkhorn 距离、或近期 statistical-computational tradeoff in Wasserstein barycenters 的工作)未在 intro 出现。这是一个值得研究者去查的问题:作者的理论假设真实 Wasserstein 距离可观测,但实际计算中 Sinkhorn 正则化引入的偏差是否破坏了谱嵌入的收敛率?
张力: 未见明显对立引用。Petersen et al. (2016) 与 Panaretos et al. (2016) 均承认 Wasserstein 空间的非欧曲率是统计推断的障碍,但未直接与 \(L^2\) 距离的嵌入性质形成对立结论;本文的张力主要体现在同一框架下两种度量(Wasserstein vs \(L^2\))的拓扑后果差异,而非文献间的矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(\mathcal{P}\):概率分布的集合(如 \(\mathcal{P} = \{P_1, \ldots, P_N\}\)),每个 \(P_i\) 是 \(\mathbb{R}^d\) 上的概率测度,这是本文的基本观测单元。
- \(d\):底层观测空间的维数(如直方图的 bin 数或密度函数的定义域维数),注意与嵌入维数区分。
- \(D\):ambient metric(环境度量),是定义在 \(\mathcal{P}\) 上的距离函数,本文核心对比 \(D_W\)(Wasserstein-2 距离)与 \(D_{L^2}\)(\(L^2\) 距离,定义在密度函数上)。
- \(\Delta\):真实距离矩阵,\(\Delta_{ij} = D(P_i, P_j)\),维数为 \(N \times N\)。
- \(\hat{\Delta}\):样本距离矩阵,由经验分布 \(\hat{P}_i\) 计算得到,\(\hat{\Delta}_{ij} = D(\hat{P}_i, \hat{P}_j)\)。
- \(n\):每个分布 \(P_i\) 的样本量(即观测到 \(n\) 个 \(\mathbb{R}^d\) 中的点来估计 \(P_i\))。
- \(N\):分布的总个数(距离矩阵的尺寸)。
- \(p\):目标嵌入维数(低维欧氏空间的维数,通常 \(p \ll d\))。
- \(X\):真实嵌入坐标矩阵,\(N \times p\),满足 \(\|X_i - X_j\|^2 \approx \Delta_{ij}\)(等距映射)。
-
\(\hat{X}\):样本嵌入坐标矩阵,由 \(\hat{\Delta}\) 的谱分解得到。
-
模型(数据生成机制):
- 存在一个低维参数空间 \(\Theta \subset \mathbb{R}^p\),每个分布 \(P_i\) 由参数 \(\theta_i \in \Theta\) 生成,即 \(P_i = P_{\theta_i}\)。
- Wasserstein 情形的核心假设:映射 \(\theta \mapsto P_\theta\) 在 Wasserstein 空间中是局部等距的,即存在邻域使得 \(D_W(P_{\theta_i}, P_{\theta_j}) = \|\theta_i - \theta_j\|\)(这要求分布的形变几何与参数空间的欧氏几何一致)。
- \(L^2\) 情形的核心假设:映射 \(\theta \mapsto p_\theta\)(密度函数)在 \(L^2\) 空间中是线性的,即 \(p_\theta(x) = \sum_{k=1}^p \theta_k \phi_k(x)\),此时 \(D_{L^2}(P_{\theta_i}, P_{\theta_j}) = \|\theta_i - \theta_j\|\)(内积可分解性成立)。
-
观测机制:对于每个 \(P_i\),观测到 \(n\) 个 i.i.d. 样本 \(Z_{i1}, \ldots, Z_{in} \sim P_i\),由此构造经验分布 \(\hat{P}_i\)。
-
可观测数据:
- 研究者实际能观测到的是 \(N\) 组样本集 \(\{Z_{i1}, \ldots, Z_{in}\}_{i=1}^N\),每组样本集是 \(\mathbb{R}^d\) 中的 \(n\) 个点。
- 潜在 / 不可观测的是真实分布 \(P_i\) 及其参数 \(\theta_i\),只能靠经验分布 \(\hat{P}_i\) 与距离矩阵 \(\hat{\Delta}\) 去识别。
- 在 Isomap 情形中,邻接图的构造依赖于 \(\hat{\Delta}\) 的局部邻域,最短路径的计算依赖于图算法,这也是可观测的计算步骤。
第二步:最小内核——支撑整篇论文的最简特例
整篇论文的证明本质上是“线性模型 + 欧氏距离”这一特例的推广,核心数学困难全部集中在“距离矩阵的扰动如何传导到谱嵌入坐标”上。最简特例如下:
特例设定:\(d=1\)(一维分布),\(p=1\)(一维嵌入),\(D = D_W\)(Wasserstein-2 距离),且分布族为位置平移族 \(P_\theta = \mathcal{N}(\theta, 1)\)。
在这个特例下: 1. 真实距离矩阵:\(D_W(P_{\theta_i}, P_{\theta_j}) = |\theta_i - \theta_j|\)(一维高斯的位置平移在 Wasserstein 距离下就是欧氏距离)。 2. 样本距离矩阵:\(\hat{\Delta}_{ij} = D_W(\hat{P}_i, \hat{P}_j)\),其中 \(\hat{P}_i\) 是 \(n\) 个 \(\mathcal{N}(\theta_i, 1)\) 样点的经验分布。 3. 要证的命题退化成:证明由 \(\hat{\Delta}\) 经 Classical scaling(谱分解)得到的嵌入坐标 \(\hat{X}_i\) 与真实参数 \(\theta_i\) 的偏差 \(\|\hat{X} - X\|_F\) 的收敛率。 4. 证明怎么走: - 第一步:控制距离矩阵的扰动 \(\|\hat{\Delta} - \Delta\|\)。在一维情形下,经验 Wasserstein 距离的收敛率为 \(\mathcal{O}(n^{-1/2})\)(因为一维 Wasserstein 距离等价于分布函数的 \(L^2\) 距离,且经验分布函数的 \(L^2\) 收敛率为 \(n^{-1/2}\))。 - 第二步:将距离矩阵扰动传导到 Gram 矩阵(双中心化内积矩阵)的扰动。Classical scaling 的核心是 \(B = -\frac{1}{2} J \Delta^{(2)} J\)(其中 \(\Delta^{(2)}\) 是距离平方矩阵,\(J\) 是中心化矩阵),扰动 \(\|\hat{B} - B\|\) 由 \(\|\hat{\Delta} - \Delta\|\) 控制。 - 第三步:利用谱分解的扰动理论(Davis-Kahan 定理或 Weyl 定理),将 Gram 矩阵的扰动传导到前 \(p\) 个特征向量构成的嵌入坐标的扰动,得到 \(\|\hat{X} - X\|_F = \mathcal{O}(\|\hat{B} - B\| / \lambda_{\text{gap}})\),其中 \(\lambda_{\text{gap}}\) 是第 \(p\) 与第 \(p+1\) 个特征值之差。 - 第四步:代入第一步的收敛率,得到 \(\|\hat{X} - X\|_F = \mathcal{O}(n^{-1/2} / \lambda_{\text{gap}})\)。 5. 为什么成立:在一维平移族下,Wasserstein 距离退化为欧氏距离,Gram 矩阵的谱分解完全复原参数 \(\theta_i\),扰动传导链路无断裂。论文的一般情形只是在这个链路的每一步加上“非欧度量带来的 Gram 矩阵非线性行为”与“高维分布下经验 Wasserstein 距离收敛率变慢(\(\mathcal{O}(n^{-1/d})\))”这两个加壳。
三、这篇论文做了什么¶
三句话: ①研究了分布数据(以概率分布为观测单元)的低维嵌入问题,将 Classical scaling 与 Isomap 推广至分布空间。 ②核心工具是距离矩阵的谱分解(Classical scaling)与邻接图最短路径+ 距离矩阵谱分解(Isomap),并沿扰动理论路线证明嵌入坐标的收敛性。 ③主要结论是:在 Wasserstein 距离下,Isomap 能够保持分布流形的局部等距性从而实现一致性嵌入,而在 \(L^2\) 距离下 Classical scaling 仅在密度函数线性可加时一致;经验 Wasserstein 距离的收敛率决定了嵌入坐标的收敛率为 \(\mathcal{O}(n^{-1/d})\)(高维分布下变慢)。
关键设定与假设: 在第二节最小记号的基础上补全: - 假设 1(流形假设):分布族 \(\{P_\theta : \theta \in \Theta\}\) 构成一个光滑流形 \(\mathcal{M} \subset \mathcal{P}\),参数空间 \(\Theta \subset \mathbb{R}^p\) 为开集。统计含义:分布数据存在低维内在结构,这是 Isomap 的地基。相比已有文献(如 Petersen et al. 2016 仅要求 Wasserstein 空间的 Fréchet 均值存在),本文强化了流形的局部等距性。 - 假设 2(局部等距性,Isomap 专用):在 Wasserstein 距离下,映射 \(\theta \mapsto P_\theta\) 在局部邻域内满足 \(D_W(P_{\theta_i}, P_{\theta_j}) = \|\theta_i - \theta_j\|\)。统计含义:分布的形变几何与参数空间的欧氏几何一致,这是 Isomap 能够通过邻接图最短路径复原全局等距性的关键。相比欧氏 Isomap(Tenenbaum et al. 2000 假设数据点在欧氏空间中局部等距),本文将等距性要求从欧氏空间移植到 Wasserstein 空间,但未放宽。 - 假设 3(线性可加性,Classical scaling 专用):在 \(L^2\) 距离下,密度函数 \(p_\theta\) 满足 \(p_\theta = \sum_{k=1}^p \theta_k \phi_k\)(线性模型)。统计含义:\(L^2\) 距离的内积可分解性成立,Gram 矩阵精确等于参数的内积矩阵。相比 Classical scaling 的传统设定(欧氏距离天然满足内积可分解性),本文在 \(L^2\) 情形下实际上强化了线性假设,否则 \(L^2\) Classical scaling 无法保证一致性。 - 假设 4(特征值间隙):Gram 矩阵 \(B\) 的第 \(p\) 与第 \(p+1\) 个特征值之差 \(\lambda_{\text{gap}} > 0\) 且固定。统计含义:嵌入维数 \(p\) 可被谱截断唯一确定,且扰动传导的放大系数 \(1/\lambda_{\text{gap}}\) 有界。这是谱嵌入扰动理论的标准假设,未放宽。
主要结果: 1. 定理(Classical scaling 的收敛率):在假设 3(线性可加性)与假设 4(特征值间隙)下,由经验 \(L^2\) 距离矩阵 \(\hat{\Delta}_{L^2}\) 经 Classical scaling 得到的嵌入坐标 \(\hat{X}\) 满足 \(\|\hat{X} - X\|_F = \mathcal{O}_P(n^{-1/2} / \lambda_{\text{gap}})\)。直觉:\(L^2\) 距离的估计误差为 \(\mathcal{O}(n^{-1/2})\)(因为密度函数的 \(L^2\) 估计误差为 \(n^{-1/2}\)),扰动传导到谱嵌入后被 \(\lambda_{\text{gap}}\) 放大。必要条件:线性可加性(否则 Gram 矿阵偏离参数内积矩阵,嵌入坐标偏离真实参数)。解决的技术难点:将经验密度函数的 \(L^2\) 估计误差传导到距离矩阵,再传导到 Gram 矩阵,最后传导到谱嵌入。 2. 定理(Isomap 在 Wasserstein 距离下的一致性):在假设 1(流形假设)、假设 2(局部等距性)与假设 4 下,由经验 Wasserstein 距离矩阵 \(\hat{\Delta}_W\) 经 Isomap 得到的嵌入坐标 \(\hat{X}\) 满足 \(\|\hat{X} - X\|_F = \mathcal{O}_P(n^{-1/d} / \lambda_{\text{gap}})\)(当 \(d \geq 3\) 时)。直觉:高维分布下经验 Wasserstein 距离的收敛率为 \(n^{-1/d}\)(比 \(L^2\) 的 \(n^{-1/2}\) 慢),扰动传导链路同上。必要条件:局部等距性(否则 Isomap 的最短路径偏离真实参数距离)。解决的技术难点:经验 Wasserstein 距离的收敛率在 \(d \geq 3\) 时为 \(n^{-1/d}\),这比欧氏距离的 \(n^{-1/2}\) 慢,且依赖于底层维数 \(d\);同时,Isomap 的邻接图构造依赖于局部邻域的准确性,经验 Wasserstein 距离的误差可能导致邻域选择的错误,作者通过控制邻域半径与样本量的关系绕过此难点。 3. 定理(Isomap 在 Wasserstein 距离下的局部等距性恢复):在假设 1 与假设 2 下,Isomap 的最短路径距离 \(\hat{d}_{\text{geo}}(P_i, P_j)\) 收敛到真实参数距离 \(\|\theta_i - \theta_j\|\)。直觉:Wasserstein 距离保持分布的形变几何,使得局部邻域内的距离等于参数距离,最短路径算法通过拼接局部等距片段恢复全局等距性。必要条件:流形的凸性或测地线的唯一性(否则最短路径可能偏离真实测地线)。
证明路线与技术技巧: - 整体路线(Classical scaling): 1. 估计距离矩阵:由经验分布计算 \(\hat{\Delta}_{L^2}\) 或 \(\hat{\Delta}_W\)。 2. 构造 Gram 矩阵:双中心化 \(\hat{B} = -\frac{1}{2} J \hat{\Delta}^{(2)} J\)。 3. 谱分解:取 \(\hat{B}\) 的前 \(p\) 个特征值与特征向量构造 \(\hat{X}\)。 4. 扰动分析:控制 \(\|\hat{B} - B\| \to \|\hat{X} - X\|_F\) 的传导。 - 整体路线(Isomap): 1. 构造邻接图:基于 \(\hat{\Delta}_W\) 的 \(k\)-最近邻或 \(\epsilon\)-邻域。 2. 计算最短路径:Dijkstra 或 Floyd-Warshall 算法得到 \(\hat{d}_{\text{geo}}\)。 3. 构造 Gram 矩阵:双中心化最短路径距离平方矩阵。 4. 谱分解与扰动分析:同 Classical scaling 的步骤 3-4。 - 关键跳跃点: - 经验 Wasserstein 距离的收敛率:这是整个证明链路中最吃功夫的跳跃点。作者引用了 Weed et al. (2019) 的结果,指出经验 Wasserstein 距离的收敛率在 \(d \geq 3\) 时为 \(\mathcal{O}(n^{-1/d})\),这比 \(L^2\) 距离的 \(\mathcal{O}(n^{-1/2})\) 慢。难点在于:这个慢收敛率直接导致 Isomap 嵌入的收敛率变慢,且使得邻接图构造的邻域选择更易出错。作者通过设定邻域半径 \(\epsilon \asymp n^{-1/d}\)(与经验 Wasserstein 距离的收敛率匹配)绕过此难点。 - 最短路径距离到 Gram 矩阵的扰动传导:Isomap 的最短路径距离 \(\hat{d}_{\text{geo}}\) 是图算法的输出,其扰动性质比直接的距离矩阵扰动更复杂(因为最短路径是局部扰动的全局累积)。作者通过控制每条边的扰动与路径长度的关系,将最短路径的扰动归结为局部扰动的叠加,再传导到 Gram 矩阵。 - 技术技巧点名: - Davis-Kahan 定理:用于将 Gram 矩阵的扰动传导到特征向量的扰动,得到 \(\|\hat{X} - X\|_F\) 的界。用在步骤 4,起作用是提供谱扰动到坐标扰动的精确放大系数(\(1/\lambda_{\text{gap}}\))。 - 双中心化矩阵的扰动分解:用于将距离矩阵的扰动 \(\|\hat{\Delta} - \Delta\|\) 传导到 Gram 矩阵的扰动 \(\|\hat{B} - B\|\)。用在步骤 2,起作用是利用中心化矩阵 \(J\) 的投影性质简化扰动表达式。 - Wasserstein 距离的样本复杂度界:引用 Weed et al. (2019) 的 \(\mathcal{O}(n^{-1/d})\) 界。用在步骤 1,起作用是提供经验 Wasserstein 距离扰动的率,这是整个收敛率的瓶颈。 - 邻接图最短路径的扰动控制:通过边扰动与路径长度的叠加关系控制 \(\hat{d}_{\text{geo}}\) 的扰动。用在 Isomap 的步骤 2,起作用是将图算法的非线性输出归结为局部扰动的线性叠加。
真实例子与应用: - 模拟实验:作者生成了位置-尺度平移族的高斯分布(参数 \(\theta = (\mu, \sigma)\),\(p=2\)),每个分布观测 \(n\) 个样本,计算经验 Wasserstein 与 \(L^2\) 距离矩阵,分别用 Classical scaling 与 Isomap 嵌入。结果显示:Wasserstein Isomap 能够准确复原 \((\mu, \sigma)\) 的二维参数空间结构,而 \(L^2\) Classical scaling 在尺度参数 \(\sigma\) 变化时嵌入坐标严重扭曲(因为 \(L^2\) 距离不保持尺度形变的几何)。这个例子想说明:ambient metric 的选择对嵌入的拓扑保真度有决定性影响,Wasserstein 在非线性形变下优于 \(L^2\)。 - 真实数据例子:作者使用了 USDA 土壤纹理数据集(每个观测单元是土壤颗粒大小的分布,即三维直方图),用 Wasserstein Isomap 嵌入到二维平面。结果显示:嵌入坐标与土壤的地理分布(纬度、经度)高度相关,且聚类结构清晰。这个例子想说明:分布数据的嵌入在实际数据中能够揭示与地理参数对应的低维结构,验证 Wasserstein Isomap 的实用性。
🔎 结论是否比证明窄: - 作者在结论部分泛泛 claim “Wasserstein 距离在分布数据嵌入中普遍优于 \(L^2\) 距离”,但严格证明仅覆盖“局部等距流形 + 位置-尺度平移族”这一特例。对于非等距流形(如分布族在 Wasserstein 空间中具有正曲率),Isomap 的一致性证明并未覆盖,作者也未给出此情形下的收敛率界。务必点名具体语句:结论部分第 8 节 "We expect that the advantages of the Wasserstein metric extend to more general distributional settings"——这是一个 conjecture,而非严格证明的结论。
四、开放问题(点到为止,扎根具体语句)¶
- 非等距流形下 Isomap 的收敛率:要证当分布流形在 Wasserstein 空间中具有正曲率(非局部等距)时,Isomap 嵌入的偏差界与收敛率。扎根在本文第 8 节 "We expect that the advantages of the Wasserstein metric extend to more general distributional settings"——此句承认当前证明仅覆盖局部等距情形。
- 经验 Wasserstein 距离的计算偏差对嵌入的影响:要估当使用 Sinkhorn 正则化距离(计算复杂度 \(\mathcal{O}(n^2)\))替代真实 Wasserstein 距离(计算复杂度 \(\mathcal{O}(n^3)\))时,谱嵌入坐标的偏差界。扎根在本文第 3 节假设 "the distance matrix is computed exactly from the empirical distributions"——此假设在实际计算中不成立,Sinkhorn 偏差是否破坏谱嵌入的收敛率未讨论。
- 高维分布下 Wasserstein 嵌入的 minimax 收敛率:要证在底层维数 \(d \geq 3\) 时,Isomap 嵌入的收敛率 \(n^{-1/d}\) 是否为 minimax 最优(是否存在更优的嵌入方法突破此率)。扎根在本文定理的收敛率 \(\mathcal{O}_P(n^{-1/d})\)——此率由经验 Wasserstein 距离的样本复杂度决定,但未讨论是否为嵌入问题的 minimax 下界。
- \(L^2\) 距离下非线性密度模型的嵌入:要估当密度函数非线性依赖参数(如 \(p_\theta = g(\sum_{k=1}^p \theta_k \phi_k)\),\(g\) 为非线性链接函数)时,Classical scaling 嵌入的偏差界。扎根在本文假设 3(线性可加性)——此假设在 \(L^2\) 情形下被严格要求,但实际分布数据(如混合模型)往往非线性依赖参数。
(提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。)
Maintained by 陈星宇 · Homepage · Source on GitHub