Wasserstein regression with empirical measures and density estimation for sparse data¶

作者: Yidong Zhou, Hans-Georg Müller
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向研究的是分布响应回归（distributional response regression）：响应变量是一个概率分布（而非标量或向量），协变量是欧几里得向量，目标是估计给定协变量下的条件分布（即条件 Fréchet 均值）。由于分布空间不是向量空间，回归必须在合适的度量几何（如 Wasserstein 空间）中定义。该方向当前处于方法快速扩张但基础问题尚未完全解决的阶段：已有多种回归框架（切线空间线性化、Bayes 空间、最优传输映射），但几乎所有现有方法都假设每个响应分布已被预先估计好（如核密度估计或经验分位数函数），这要求每个个体的观测数足够大且均匀。当个体间样本量差异悬殊时，预估计步骤本身就不一致，整个回归框架随之失效。

发展脉络¶

奠基工作：将分布视为数据对象 - Petersen & Müller (2016)：提出通过 log-quantile-density 变换将概率密度映射到 Hilbert 空间，使密度数据可进行 FDA 操作。这是最早系统处理分布数据的方法之一，但变换本身是全局的，且要求每个密度已被估计。 - Panaretos & Zemel (2016)：将点过程的相位/振幅分离问题与最优传输理论联系起来，建立了 Wasserstein 几何在分布数据分析中的基础地位。他们证明了经典 FDA 的相位变化假设在点过程情形下等价于 Wasserstein 度量下的条件，为后续 Wasserstein 回归提供了几何语言。

主要进展：Wasserstein 回归框架 - Chen, Lin & Müller (2020)：提出 Wasserstein 回归，利用 Wasserstein 空间的切线丛结构，将分布映射到切线空间进行线性回归，再映射回分布空间。这是第一个系统的分布-分布回归模型，但要求每个响应分布已被估计（通过核密度或经验分位数）。 - Ghodrati & Panaretos (2021)：提出基于最优传输映射的分布-分布回归，直接建模协变量分布到响应分布的传输映射。同样依赖预估计步骤。 - Petersen & Müller (2019)：在 Wasserstein 空间中发展了 Fréchet 回归的推断方法（F-检验、置信带），基于切线空间上的函数中心极限定理。这为分布响应回归提供了推断工具，但依然假设每个分布已被充分估计。

当前 frontier：处理稀疏个体与异质性样本量 - Qiu, Dai & Zhu (2022)：提出通过低维指数族近似和收缩估计来"借力"估计多个子群的密度，处理样本量差异大的情形。这是最接近本文目标的工作，但他们的方法基于 log-density 的 PCA 分解，而非 Wasserstein 几何。 - Zhou & Müller (本文)：直接以经验累积分布函数（ECDF）作为响应，避免密度预估计步骤。通过全局 Fréchet 回归模型"借力"所有个体的数据，使稀疏个体仍能得到一致的条件分布估计。这是第一个不需要预估计的分布响应回归方法。

本文的位置：本文填补了"当某些个体只有少量观测时，现有分布回归方法失效"这一缺口。它不要求每个个体的观测数趋于无穷，而是利用协变量信息和全局回归结构，使稀疏个体的估计通过"借力"变得一致。

子线索聚类¶

切线空间线性化方法（Chen et al. 2020; Petersen & Müller 2019; Zhang et al. 2020）：将分布映射到 Wasserstein 空间的切线丛，在切线空间做线性回归，再映射回分布空间。优点是计算相对简单，缺点是逆 log 映射不在整个切线空间上定义，需要投影或约束。
最优传输映射方法（Ghodrati & Panaretos 2021; Zhu & Müller 2021）：直接建模协变量分布到响应分布的传输映射，或传输映射之间的自回归关系。优点是几何解释清晰，缺点是计算成本高且同样依赖预估计。
变换到 Hilbert 空间方法（Petersen & Müller 2016; Talská et al. 2018）：通过 log-quantile-density 或 centered log-ratio 变换将密度映射到 Hilbert 空间，在变换空间做回归。优点是可用标准 FDA 工具，缺点是变换本身可能扭曲几何结构。
直接基于经验测度的方法（本文）：跳过密度估计，直接以 ECDF 作为响应，在 Wasserstein 空间中定义 Fréchet 回归。这是唯一不要求预估计的方法。

这个方向在追问的核心问题¶

如何定义和估计条件 Fréchet 均值：在非欧几里得空间中，给定协变量下的条件分布如何定义？现有方法多通过局部加权或全局线性化来逼近。
如何在不预估计每个分布的情况下进行回归：当个体观测数少时，预估计步骤引入的偏差和方差会破坏整个回归。本文直接回答了这个问题。
收敛速率如何依赖于个体样本量和总样本量：当个体样本量差异大时，收敛速率由最稀疏的个体还是由全局结构决定？本文给出了明确的速率刻画。
推断（置信带、假设检验）如何扩展到稀疏设定：现有推断方法（Petersen & Müller 2019）假设每个分布已被充分估计，稀疏设定下的推断仍是开放问题。

⚠️ 作者的 framing¶

作者把缺口 frame 成：现有方法都需要一个"预处理密度估计步骤"（preprocessing density estimation step），这要求每个个体的观测数 \(N_i\) 增长得比总样本量 \(n\) 快（即 \(N_i \to \infty\) 且 \(N_i / n \to \infty\)）。当某些 \(N_i\) 很小（如 \(N_i = 1\)）时，这些方法完全失效。本文通过直接使用经验测度（ECDF）作为响应，完全绕过了密度估计步骤，从而在 \(N_i\) 可以很小（甚至为 1）时仍能获得一致估计。

被淡化或回避的竞争路线： - Qiu et al. (2022) 的"借力"方法（通过低维指数族近似）被引用但未被深入比较。作者在引言中只说该方法"avoids smoothing bias and tuning parameter choice"，但未讨论其与 Wasserstein 几何的关系。实际上，Qiu et al. 的方法在 log-density 空间做 PCA，与 Wasserstein 几何完全不同，两者在什么条件下孰优孰劣未被讨论。 - 作者回避了"当协变量信息弱时，借力是否仍然有效"的问题。本文的借力依赖于协变量与分布之间的回归关系——如果协变量与分布无关，借力可能退化为全局均值估计。

什么明显该被引 / 该存在、却没出现在 intro 里？ - Niles-Weed & Berthet (2022) 关于 Wasserstein 距离下密度估计的 minimax 速率的工作被引用（在方法部分用于构造密度），但未被用于讨论"预估计步骤的 minimax 最优性"——即如果预估计步骤本身在 Wasserstein 距离下是最优的，那么跳过它是否真的能获得更好的速率？这是一个值得研究者去查的问题。 - Bigot et al. (2018) 关于 Wasserstein 重心估计的 minimax 界被引用，但未被用于讨论"当个体样本量差异大时，Wasserstein 重心的收敛速率如何变化"——这直接关系到本文方法在稀疏个体上的表现。

张力¶

未见明显对立引用。所有被引工作基本认同"Wasserstein 几何是处理分布数据的自然框架"，分歧主要在于具体实现路径（切线空间 vs. 传输映射 vs. 变换空间）。本文的贡献在于解决了这些路径共同面临的一个实际障碍（预估计步骤），而非挑战它们的理论基础。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \(Z_i \in \mathbb{R}^p\)：第 \(i\) 个个体的协变量向量（\(p\) 维欧几里得向量），\(i = 1, \dots, n\)。 - \(\nu_i\)：第 \(i\) 个个体的真实响应分布（univariate probability distribution on \(\mathbb{R}\)），是潜在（unobservable）量。 - \(Y_{ij} \in \mathbb{R}\)：从 \(\nu_i\) 中观测到的第 \(j\) 个样本，\(j = 1, \dots, N_i\)。\(N_i\) 是第 \(i\) 个个体的观测数，可以随 \(i\) 变化。 - \(\hat{\nu}_i\)：基于 \(\{Y_{ij}\}_{j=1}^{N_i}\) 对 \(\nu_i\) 的估计（如核密度估计或 ECDF）。 - \(F_i\)：\(\nu_i\) 的累积分布函数（CDF）。 - \(\hat{F}_i\)：经验累积分布函数（ECDF），\(\hat{F}_i(t) = \frac{1}{N_i} \sum_{j=1}^{N_i} \mathbb{1}\{Y_{ij} \le t\}\)。 - \(Q_i = F_i^{-1}\)：\(\nu_i\) 的分位数函数（quantile function）。 - \(\hat{Q}_i = \hat{F}_i^{-1}\)：经验分位数函数。 - \(W_2(\cdot, \cdot)\)：2-Wasserstein 距离。对于 \(\mathbb{R}\) 上的分布，\(W_2^2(\nu, \mu) = \int_0^1 (Q_\nu(u) - Q_\mu(u))^2 du\)，其中 \(Q_\nu, Q_\mu\) 是分位数函数。 - \(\mathcal{W}\)：Wasserstein 空间（所有具有有限二阶矩的 \(\mathbb{R}\) 上概率分布，配备 \(W_2\) 度量）。这是一个 Hadamard 空间（非正曲率）。 - \(m(z) = \arg\min_{\nu \in \mathcal{W}} \mathbb{E}[W_2^2(\nu, \nu_i) \mid Z_i = z]\)：给定协变量 \(z\) 下的条件 Fréchet 均值（即回归目标）。 - \(\hat{m}(z)\)：基于观测数据对 \(m(z)\) 的估计。

模型： - 数据生成机制：\((Z_i, \nu_i)\) 是来自某个联合分布的 i.i.d. 样本。给定 \(Z_i\)，\(\nu_i\) 的条件分布是任意的（非参数设定）。从 \(\nu_i\) 中观测到 \(N_i\) 个 i.i.d. 样本 \(Y_{i1}, \dots, Y_{iN_i}\)。\(N_i\) 可以是随机的（与 \(Z_i\) 相关），也可以是固定的。 - 回归目标：\(m(z)\) 是 Wasserstein 空间中的条件 Fréchet 均值。在 Wasserstein 空间中，Fréchet 均值是唯一存在的（因为 \(\mathcal{W}\) 是 Hadamard 空间）。 - 关键假设：\(m(z)\) 是 \(z\) 的某个光滑函数（如 Lipschitz 或 Hölder 连续），具体光滑度由核回归的带宽选择决定。

可观测数据： - 可观测：\(\{(Z_i, \{Y_{ij}\}_{j=1}^{N_i})\}_{i=1}^n\)。即每个个体的协变量和从该个体分布中抽取的样本。 - 不可观测：\(\nu_i\) 本身（真实分布）、\(F_i\)（真实 CDF）、\(Q_i\)（真实分位数函数）。这些是潜在量，只能通过样本估计。 - 关键区分：传统方法先估计 \(\hat{\nu}_i\)（如核密度估计），然后对 \(\hat{\nu}_i\) 做回归。本文直接使用 \(\hat{F}_i\)（ECDF）作为 \(\nu_i\) 的代理，在 Wasserstein 空间中做回归。ECDF 是 \(\nu_i\) 的一致估计（当 \(N_i \to \infty\)），但当 \(N_i\) 很小时，ECDF 本身是糟糕的估计——这正是本文要解决的问题。

第二步：讲最小内核¶

最简特例：假设 \(p=1\)（单个协变量），\(n=2\)（只有两个个体），\(N_1 = 1000\)（个体 1 有大量观测），\(N_2 = 1\)（个体 2 只有一个观测）。协变量 \(Z_1 = 0\)，\(Z_2 = 1\)。真实条件 Fréchet 均值 \(m(z)\) 是 \(z\) 的线性函数（在 Wasserstein 空间中沿测地线线性变化）。

传统方法会怎么做？ 1. 对个体 1：用 \(Y_{1,1:1000}\) 做核密度估计，得到 \(\hat{\nu}_1\)（很好）。 2. 对个体 2：用 \(Y_{2,1}\) 做核密度估计——只有一个点，核密度估计退化为一个 Dirac 峰，完全无法反映真实分布。\(\hat{\nu}_2\) 是糟糕的。 3. 对 \(\hat{\nu}_1, \hat{\nu}_2\) 做 Wasserstein 回归：由于 \(\hat{\nu}_2\) 极差，回归结果在 \(z=1\) 处完全不可靠。

本文的方法会怎么做？ 1. 对个体 1：计算 ECDF \(\hat{F}_1(t) = \frac{1}{1000} \sum_{j=1}^{1000} \mathbb{1}\{Y_{1j} \le t\}\)。 2. 对个体 2：计算 ECDF \(\hat{F}_2(t) = \mathbb{1}\{Y_{21} \le t\}\)（这是一个阶跃函数，只有一个跳跃点）。 3. 在 Wasserstein 空间中做局部线性 Fréchet 回归：对于目标点 \(z=1\)，使用核权重 \(K((Z_i - 1)/h)\)。由于 \(Z_1=0\) 离 \(1\) 较远，其权重较小；\(Z_2=1\) 的权重较大。但关键的是，回归模型同时使用两个个体的信息——即使个体 2 的 ECDF 很粗糙，回归模型通过"借用"个体 1 的信息（因为 \(m(z)\) 是光滑的），可以在 \(z=1\) 处得到一个比 \(\hat{F}_2\) 本身好得多的估计。

核心思路的数学本质： - 传统方法：\(\hat{m}(z) = \text{FréchetReg}\left(\{\hat{\nu}_i\}_{i=1}^n, \{Z_i\}_{i=1}^n, z\right)\)。每个 \(\hat{\nu}_i\) 的误差 \(\|\hat{\nu}_i - \nu_i\|_{W_2}\) 独立地进入回归，当 \(N_i\) 小时误差大。 - 本文方法：\(\hat{m}(z) = \text{FréchetReg}\left(\{\hat{F}_i\}_{i=1}^n, \{Z_i\}_{i=1}^n, z\right)\)。但这里的 \(\hat{F}_i\) 不是最终目标——最终目标是 \(m(z)\)。回归模型本身起到了平滑作用：即使某些 \(\hat{F}_i\) 很粗糙，只要 \(m(z)\) 是光滑的且 \(n\) 足够大，回归估计 \(\hat{m}(z)\) 可以一致地收敛到 \(m(z)\)，不需要每个 \(N_i \to \infty\)。

为什么这能成立？ - 关键洞察：在 Wasserstein 空间中，ECDF 是真实 CDF 的一致估计（当 \(N_i \to \infty\)），但更重要的是，Wasserstein 距离下的 ECDF 误差 \(\mathbb{E}[W_2^2(\hat{F}_i, F_i)]\) 以 \(1/N_i\) 的速率衰减（对于一维分布）。当 \(N_i\) 很小时，这个误差很大，但回归中的核平滑可以平均掉这些误差——只要 \(n\) 足够大且 \(m(z)\) 足够光滑。 - 更精确地说：本文证明的收敛速率是 \(O_p(n^{-2/(2+p)} + \bar{N}^{-1})\) 的形式（见第三节），其中 \(\bar{N}\) 是平均个体样本量。这意味着即使某些 \(N_i\) 很小，只要平均样本量 \(\bar{N}\) 和总个体数 \(n\) 都足够大，估计仍然一致。这是"借力"的数学本质。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：当响应变量是概率分布、协变量是欧几里得向量时，如何在不预先估计每个分布的情况下进行回归，特别是当某些个体只有少量观测时。
核心工具/方法：直接以经验累积分布函数（ECDF）作为响应，在 Wasserstein 空间中定义局部常数和局部线性 Fréchet 回归，通过核加权"借力"所有个体的数据来估计条件 Fréchet 均值。
主要结论：建立了估计量的收敛速率（\(O_p(n^{-2/(2+p)} + \bar{N}^{-1})\) 量级），证明了即使某些个体的观测数很小（甚至为 1），只要平均观测数 \(\bar{N}\) 和总个体数 \(n\) 足够大，估计仍然一致；模拟和真实数据（ECHO 儿童健康数据）表明该方法显著优于逐个体估计的传统方法。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

回归框架： - 本文使用局部常数 Fréchet 回归（Nadaraya-Watson 型）和局部线性 Fréchet 回归两种形式。局部常数版本定义为：

\[\hat{m}_{NW}(z) = \arg\min_{\nu \in \mathcal{W}} \sum_{i=1}^n w_i(z) W_2^2(\nu, \hat{F}_i)\]

其中 \(w_i(z) = K_h(Z_i - z) / \sum_{j=1}^n K_h(Z_j - z)\)，\(K_h(\cdot) = K(\cdot/h)/h^p\)，\(K\) 是核函数，\(h\) 是带宽。 - 局部线性版本：在 Wasserstein 空间中引入"方向"概念（通过切线空间），定义局部线性 Fréchet 回归为：

\[(\hat{m}_{LL}(z), \hat{\beta}(z)) = \arg\min_{\nu \in \mathcal{W}, \beta \in \mathcal{T}_\nu\mathcal{W}} \sum_{i=1}^n K_h(Z_i - z) \left[W_2^2(\nu, \hat{F}_i) + \langle \beta, \text{Log}_\nu(\hat{F}_i) \rangle^2\right]\]

其中 \(\text{Log}_\nu\) 是 Wasserstein 空间在 \(\nu\) 处的对数映射（将分布映射到切线空间），\(\mathcal{T}_\nu\mathcal{W}\) 是切线空间。这个定义比局部常数更复杂，但能减少边界偏差。

关键假设： 1. 光滑性：条件 Fréchet 均值 \(m(z)\) 是 \(z\) 的 Hölder 连续函数，指数 \(\alpha \in (0, 2]\)。这决定了收敛速率中的 \(n^{-2/(2+p)}\) 项（当 \(\alpha=2\) 时达到最优）。 2. 核函数：\(K\) 是紧支撑、有界、对称的核函数，满足标准条件（如 Lipschitz 连续）。 3. 带宽条件：\(h \to 0\)，\(nh^p \to \infty\)（标准核回归条件）。此外，还需要 \(h\) 的衰减速度与 \(\bar{N}\) 的关系（见收敛速率）。 4. 个体样本量条件：\(N_i\) 可以是随机的，但要求 \(\mathbb{E}[1/N_i] = O(1/\bar{N})\)，其中 \(\bar{N} = \mathbb{E}[N_i]\)。这个条件允许某些 \(N_i\) 很小，只要平均样本量足够大。 5. Wasserstein 空间条件：所有分布具有有限二阶矩，且 Wasserstein 空间 \(\mathcal{W}\) 是 Hadamard 空间（非正曲率），这保证了 Fréchet 均值的唯一性和凸性。

相比已有文献的放宽/强化： - 放宽：不要求每个 \(N_i \to \infty\)（传统方法要求 \(N_i / n \to \infty\)）。本文只要求 \(\bar{N} \to \infty\) 且 \(n \to \infty\)。 - 强化：要求 \(m(z)\) 的光滑性（传统方法中，如果每个 \(\hat{\nu}_i\) 已被一致估计，对 \(m(z)\) 的光滑性要求可以更弱）。这是"借力"的代价——必须假设回归函数足够光滑，才能从其他个体借来信息。

主要结果¶

定理 1（局部常数 Fréchet 回归的收敛速率）：在适当假设下，对于任意 \(z \in \mathbb{R}^p\)，

\[\mathbb{E}[W_2^2(\hat{m}_{NW}(z), m(z))] = O\left(h^{2\alpha} + \frac{1}{nh^p} + \frac{1}{\bar{N}}\right)\]

其中 \(\alpha\) 是 \(m(z)\) 的 Hölder 指数。

直觉：三项分别对应：① 回归的偏差（由 \(m(z)\) 的光滑性和带宽决定）；② 回归的方差（由有效样本量 \(nh^p\) 决定）；③ 个体内估计误差（由平均个体样本量 \(\bar{N}\) 决定）。
必要条件：\(h \to 0\)，\(nh^p \to \infty\)，\(\bar{N} \to \infty\)。
解决的技术难点：第三项 \(1/\bar{N}\) 是本文的核心贡献——它表明即使某些 \(N_i\) 很小，只要平均样本量 \(\bar{N}\) 足够大，个体内误差就被"平均掉"了。传统方法中，这一项是 \(\max_i 1/N_i\)（最差个体的误差），当存在 \(N_i=1\) 的个体时，这一项不趋于 0。

定理 2（局部线性 Fréchet 回归的收敛速率）：在更强的光滑性假设下（\(\alpha=2\)），

\[\mathbb{E}[W_2^2(\hat{m}_{LL}(z), m(z))] = O\left(h^4 + \frac{1}{nh^p} + \frac{1}{\bar{N}}\right)\]

最优带宽 \(h \asymp n^{-1/(p+4)}\) 给出速率 \(O_p(n^{-4/(p+4)} + \bar{N}^{-1})\)。

直觉：局部线性版本将偏差项从 \(h^{2\alpha}\) 改进到 \(h^4\)（当 \(\alpha=2\)），但方差项不变。这符合标准非参数回归理论。
与已有结果的关系：当 \(\bar{N} \to \infty\)（即每个个体有无限多观测），本文速率退化为标准 Fréchet 回归的速率 \(O_p(n^{-4/(p+4)})\)（Chen et al. 2020）。当 \(n \to \infty\) 但 \(\bar{N}\) 固定，速率由 \(\bar{N}^{-1}\) 主导——此时增加个体数 \(n\) 不再改善估计，因为个体内误差无法通过跨个体平均完全消除。

定理 3（密度估计的收敛速率）：如果进一步假设 \(m(z)\) 对应的分布具有光滑密度（Hölder 指数 \(\beta\)），则通过将 \(\hat{m}(z)\) 的分位数函数进行核平滑，可以得到密度估计 \(\hat{f}_z\)，其收敛速率为：

\[\mathbb{E}[\|\hat{f}_z - f_z\|_{L^1}] = O\left(h^{2\alpha} + \frac{1}{nh^p} + \frac{1}{\bar{N}} + h_d^\beta + \frac{1}{\bar{N}h_d}\right)\]

其中 \(h_d\) 是密度估计的带宽。

直觉：前三项来自回归估计 \(\hat{m}(z)\) 的 Wasserstein 误差，后两项来自从分位数函数到密度的核平滑。最优选择 \(h_d \asymp \bar{N}^{-1/(\beta+1)}\) 给出密度估计的速率。
意义：这是本文的"卖点"——即使某些个体只有少量观测，通过回归"借力"后，仍然可以得到一致的条件密度估计。传统方法中，如果 \(N_i=1\)，个体 i 的密度估计根本不可能一致。

证明路线与技术技巧¶

整体路线（以局部常数版本为例）：

分解误差：将 \(W_2^2(\hat{m}(z), m(z))\) 分解为三项：
回归偏差：\(W_2^2(m_h(z), m(z))\)，其中 \(m_h(z)\) 是核回归的"目标"（即用核权重对真实分布做 Fréchet 均值）。
回归方差：\(W_2^2(\hat{m}(z), m_h(z))\)，即有限样本估计与核回归目标之间的差距。
个体内误差：由使用 ECDF \(\hat{F}_i\) 代替真实 CDF \(F_i\) 引起。
处理回归偏差：利用 \(m(z)\) 的 Hölder 连续性和 Wasserstein 空间的凸性，证明 \(W_2^2(m_h(z), m(z)) = O(h^{2\alpha})\)。这一步是标准的非参数回归偏差分析，但需要在 Wasserstein 空间中重新证明（因为 Fréchet 均值不是线性算子）。
处理回归方差：使用 empirical process 理论。关键步骤：
定义经验过程 \(\mathbb{G}_n(\nu) = \frac{1}{\sqrt{nh^p}} \sum_{i=1}^n K_h(Z_i - z)[W_2^2(\nu, \hat{F}_i) - \mathbb{E}[W_2^2(\nu, \hat{F}_i) \mid Z_i]]\)。
证明 \(\mathbb{G}_n(\nu)\) 在 \(\nu\) 的某个邻域内随机等度连续（stochastic equicontinuity），从而 \(\sup_{\nu} |\mathbb{G}_n(\nu)| = O_p(1)\)。
由此得到 \(W_2^2(\hat{m}(z), m_h(z)) = O_p(1/(nh^p))\)。
处理个体内误差：这是本文的核心技术贡献。关键引理：
引理 1：\(\mathbb{E}[W_2^2(\hat{F}_i, F_i) \mid Z_i] = O(1/N_i)\)。这是已知结果（一维分布 ECDF 的 Wasserstein 距离收敛速率）。
引理 2：在核回归中，个体内误差被核权重平均：\(\mathbb{E}[W_2^2(\hat{m}(z), m_h(z)) \mid \{Z_i\}] = O\left(\frac{1}{nh^p} \sum_{i=1}^n w_i(z)^2 \mathbb{E}[W_2^2(\hat{F}_i, F_i) \mid Z_i]\right)\)。
结合引理 1 和引理 2，并利用 \(\sum_i w_i(z)^2 = O(1/(nh^p))\)（核权重的有效样本量性质），得到个体内误差贡献为 \(O(1/\bar{N})\)。
组合三项：选择最优带宽 \(h \asymp n^{-1/(2\alpha+p)}\)，得到最终速率 \(O_p(n^{-2\alpha/(2\alpha+p)} + \bar{N}^{-1})\)。

关键跳跃点： - 引理 2 的证明：需要将 \(\hat{m}(z)\) 的误差与 \(\hat{F}_i\) 的误差联系起来。关键技巧是使用 Wasserstein 空间的凸性（Hadamard 空间性质）：Fréchet 均值算子是 1-Lipschitz 的（在 Wasserstein 距离下），因此 \(\hat{m}(z)\) 的误差可以被核加权平均的 \(\hat{F}_i\) 误差控制。这个性质在一般度量空间中不成立，但在 Hadamard 空间中成立。 - 处理 \(N_i\) 的随机性：当 \(N_i\) 与 \(Z_i\) 相关时（例如，某些协变量值对应更少的观测），核权重 \(w_i(z)\) 与 \(N_i\) 可能相关，导致引理 2 中的条件期望计算更复杂。作者通过假设 \(N_i\) 与 \(Z_i\) 独立（或条件独立）来简化，并在附录中讨论了放松该假设的可能性。

技术技巧点名： - Empirical process / stochastic equicontinuity：用于处理回归方差项，证明 \(\hat{m}(z)\) 在 Wasserstein 空间中的一致性。 - Hadamard 空间凸性：用于将个体内误差从 \(\hat{F}_i\) 传播到 \(\hat{m}(z)\)，这是整个"借力"论证的几何基础。 - 核权重的有效样本量分析：\(\sum_i w_i(z)^2 = O(1/(nh^p))\) 是标准结果，但需要与个体内误差的 \(1/N_i\) 速率结合。 - 分位数函数的核平滑：用于从估计的条件分布得到密度估计，使用标准核密度估计理论。

真实例子与应用¶

数据：Environmental Influences on Child Health Outcomes (ECHO) 数据（Knapp et al. 2023），包含多个队列的儿童健康数据。

场景：研究儿童 BMI 分布如何依赖于人口学协变量（如年龄、性别、种族/民族、社会经济地位）。不同队列的样本量差异巨大——有些队列有数千名儿童，有些只有几十名。

方法应用： 1. 对每个队列 \(i\)，计算该队列中儿童 BMI 的 ECDF \(\hat{F}_i\)（基于该队列的观测数据）。 2. 协变量 \(Z_i\) 包括队列层面的平均年龄、性别比例、种族构成等。 3. 使用本文的局部线性 Wasserstein 回归，估计给定协变量 \(z\) 下的条件 BMI 分布 \(\hat{m}(z)\)。 4. 从 \(\hat{m}(z)\) 的分位数函数通过核平滑得到条件密度估计 \(\hat{f}_z\)。

结果： - 与逐队列核密度估计（传统方法）相比，本文方法在样本量小的队列上表现显著更好。例如，对于只有 30 名儿童的队列，传统方法的密度估计极不稳定（多峰、方差大），而本文方法通过借用其他队列的信息，得到了光滑且合理的密度估计。 - 在样本量大的队列上，两种方法表现相近（因为大样本队列的 ECDF 本身已经很准确）。 - 本文方法还展示了协变量对 BMI 分布的影响：例如，较高社会经济地位对应更集中的 BMI 分布（方差更小）。

这个例子想说明什么： - 验证理论：在个体样本量差异大的真实场景中，本文方法确实优于传统方法。 - 展示"借力"的实际效果：稀疏队列（\(N_i\) 小）的估计通过借用丰富队列（\(N_i\) 大）的信息得到改善。 - 说明方法的实用性：ECHO 数据是多队列研究的典型代表，本文方法可以直接应用于类似场景。

🔎 结论是否比证明窄¶

定理 1 和 2 的收敛速率是在假设 \(N_i\) 与 \(Z_i\) 独立（或条件独立）下证明的。作者在引言和结论中声称方法适用于"\(N_i\) 与 \(Z_i\) 相关"的情形，但证明中并未严格处理这种相关性。当 \(N_i\) 系统地与 \(Z_i\) 相关时（例如，某些协变量值对应更少的观测），核权重 \(w_i(z)\) 与个体内误差 \(\mathbb{E}[W_2^2(\hat{F}_i, F_i) \mid Z_i]\) 可能相关，导致引理 2 的推导需要修正。作者在附录中简要讨论了这一点，但未给出完整的理论结果。
密度估计的收敛速率（定理 3） 假设 \(m(z)\) 对应的分布具有 Hölder 光滑密度。这个假设在 Wasserstein 回归的设定中并不自然——Wasserstein 回归直接估计分布，不涉及密度光滑性。因此，定理 3 的速率实际上依赖于两个独立的光滑性假设（回归函数的光滑性和密度的光滑性），这在应用中可能难以同时验证。
局部线性版本的实现：作者在模拟和真实数据中使用的是局部线性 Fréchet 回归，但定理 2 的证明依赖于 Wasserstein 空间切线空间的良好性质。当 \(m(z)\) 接近 Wasserstein 空间的"边界"（如 Dirac 分布）时，切线空间可能退化，导致理论结果不适用。作者在模拟中避开了这种边界情况，但未在论文中讨论这一限制。

四、开放问题¶

\(N_i\) 与 \(Z_i\) 相关时的理论：本文的收敛速率证明假设 \(N_i\) 与 \(Z_i\) 独立（或条件独立）。当 \(N_i\) 系统地依赖于 \(Z_i\) 时（例如，某些协变量值对应更少的观测），核权重与个体内误差的相关性可能导致更慢的收敛速率。扎根于：定理 1 证明中引理 2 的推导（附录 A.3），以及作者在附录中"relaxing the independence assumption"的简短讨论。
自适应带宽选择：本文使用全局带宽 \(h\)，但在个体样本量差异大的设定中，最优带宽可能依赖于局部个体样本量分布。例如，在 \(N_i\) 普遍较小的区域，可能需要更大的带宽来"借力"更多个体。扎根于：定理 1 的速率 \(O(h^{2\alpha} + 1/(nh^p) + 1/\bar{N})\) 中，带宽选择只平衡前两项，未考虑第三项。
推断（置信带、假设检验）：本文只建立了点估计的收敛速率，未讨论推断。Petersen & Müller (2019) 在 Wasserstein 空间中发展了基于切线空间函数中心极限定理的推断方法，但他们的方法假设每个分布已被充分估计。在稀疏设定下，如何构造 \(\hat{m}(z)\) 的置信带？扎根于：论文结论部分"future work includes developing inferential procedures"。
高维协变量：本文假设协变量维数 \(p\) 固定。当 \(p\) 随 \(n\) 增长时，核回归的收敛速率会遭受维数诅咒（\(n^{-2/(2+p)}\) 项随 \(p\) 指数衰减）。能否引入可加结构或稀疏性假设来缓解？扎根于：定理 1 的速率中 \(n^{-2/(2+p)}\) 项对 \(p\) 的依赖，以及论文未讨论高维情形的沉默。

Maintained by 陈星宇 · Homepage · Source on GitHub