Deep Mutual Density Ratio Estimation with Bregman Divergence and Its Applications¶

作者: Dongxiao Han, Siming Zheng, Guohao Shen, Xinyuan Song, Liuquan Sun et al.
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 8/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2507437

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在非参数设定下，如何估计两个随机向量 \(X \in \mathbb{R}^{d_X}\) 与 \(Y \in \mathbb{R}^{d_Y}\) 之间的互密度比（mutual density ratio）。该比值定义为联合密度与边际密度乘积的比值：

\[r(x,y) = \frac{p(x,y)}{q_X(x) q_Y(y)},\]

其中 \(p(x,y)\) 是 \((X,Y)\) 的联合密度，\(q_X(x), q_Y(y)\) 是各自的边际密度。\(r(x,y)\) 是衡量两个随机向量之间依赖关系的自然量；若 \(X\) 与 \(Y\) 独立，则 \(r(x,y) = 1\) 处处成立。它的对数形式 \(R(x,y) = \log r(x,y)\) 也称为对数互密度比（log mutual density ratio）。

该方向当前处于方法活跃但理论尚在建立的阶段：已有多种基于核方法、f-散度或神经网络的密度比估计方案，但关于 minimax 最优收敛率、特别是流形适应性的严格理论分析仍然不完整。

发展脉络¶

从本文的摘要与元数据（"Key techniques" 标注了 minimax rate of convergence, manifold-adaptivity, Bregman divergence, deep neural network approximation）以及引文中可推断出的脉络：

奠基工作：密度比估计的基本框架（约 2010s 初期）
如 Sugiyama et al. (2008, 2012)，通过最小化 KL 散度或 L2 散度，利用线性基函数或高斯核建立密度比估计量。但这些工作主要聚焦于算法的经验表现，缺乏系统的非渐近误差界与 minimax 理论。
主要进展：用 Bregman 散度/ f-散度统一密度比估计（约 2015-2020）
如 Nguyen et al. (2010) 提出了基于任意 Bregman 散度的密度比估计框架，将问题转化为一个凸优化问题，并建立了参数估计的一致性。Kanamori et al. (2012) 进一步在核再生希尔伯特空间（RKHS）中分析了 Bregman 密度比估计量的收敛性，但其理论依赖于有界核和光滑性假设，收敛率通常承受维数诅咒。
当前 frontier：深度神经网络用于非参数估计（约 2018-2023）
一组工作（如 Schmidt-Hieber 2020、Gühring et al. 2020、Jiao et al. 2021）开始用深度神经网络（DNN）逼近非参数函数，并在各种设定下建立非渐近误差界。它们的核心贡献是证明了：在合适的函数类假设下，DNN 可以达到与最优的局部线性估计等 rate，且当数据支撑在低维流形上时能自适应地避开维数诅咒。这些工作为本文的道路铺垫：对密度比估计，是否可以同样使用 DNN 得到 minimax 最优且流形自适应的估计量？
本文的位置：在以上脉络下，本文定位为“将 Bregman 散度与深度神经网络结合，从而同时达到 minimax 最优收敛率与流形自适应性”。它声称在 bounded support 下达到了最优 rate \(n^{-2\beta/(2\beta+d)}\)（\(\beta\) 是光滑度、\(d\) 是流形本质维数或原空间维数），并且通过过参数化神经网络与无界支撑的推广丰富了框架的普适性。

子线索聚类¶

根据可用的元数据与摘要，这些工作可大致落在 2 条子线索上：

线 A：基于 Bregman 散度 / f-散度的密度比估计（Kanamori et al., 2012; Nguyen et al., 2010）
核心思路是：通过对一个凸函数 \(\varphi\) 定义的 Bregman 散度最小化（或 f-散度最小化），构造一个关于 \(R(x,y) = \log r(x,y)\) 的目标函数，将密度比估计转化为一个不需要估计密度的经验风险最小化问题。这一线索的长处是避免了直接密度估计中的高维积分困难；短处是收敛率的推导通常需要假设 \(R\) 属于一个指定的 RKHS 或线性函数类，从而产生维数诅咒或无法达到 minimax 最优率。
线 B：深度神经网络的非参数逼近理论（Schmidt-Hieber, 2020; Gühring et al., 2020 等）
线索核心是证明：来自经典 Hölder 或 Besov 类的函数可以被 DNN 以与“维数无关的函数类复杂度”的速率逼近，且如果支持位于低维流形上，则该逼近速率与流形维数而非环境维数有关。这一结果为避免维数诅咒提供了理论基础，但大部分已有的 DNN 逼近理论针对的是全函数（如条件期望、密度），而不是密度比这一比值形式。本文尝试将这一线索的流形自适应能力嫁接到密度比估计上。

该方向在追问的核心问题¶

minimax 最优率：在给定光滑度 \(\beta\) 与支撑维数 \(d\) 的条件下，互密度比估计的 minimax 收敛率到底是什么？本文声称在 bounded support 下达到了 \(n^{-2\beta/(2\beta+d)}\)。
流形自适应性：当支撑位于 \(d_0\)-维光滑流形（\(d_0 \ll d\)）时，互密度比估计的 rate 能否从 \(n^{-2\beta/(2\beta+d)}\) 提升到 \(n^{-2\beta/(2\beta+d_0)}\)？本文声称实现了这一点。
无界支撑与非参数尾巴：当分布支撑无界（如次指数尾巴）时，互密度比的收敛率会如何变化？本文的推广部分给出了初步答案。
估计量的实际可用性：在真实数据中，如何选取 Bregman 散度的特定形式、如何调整网络架构以平衡偏差与方差？本文的模拟和例子试图回答这些应用方向的问题。

⚠️ 作者的 framing（必须明确标注为"这是作者的说法"）¶

缺口 frame：作者将互密度比估计的“缺口”定位为缺乏统一的、非渐近的 minimax 理论，尤其是流形自适应性的严格证明。他们认为，已有的基于 Bregman 散度的工作（如 Kanamori et al.）只在 RKHS 下给出了一致性，没有提供最优率；而 DNN 逼近理论虽已成熟，但未直接应用于密度比估计（这确实是合理的 gap）。
淡化/回避的竞争路线：作者并未详细对比已有的、基于 KL 散度的互信息/密度比估计方法（如 MINE 中的神经网络互信息估计）。这些方法在实际中很流行，但它们的非渐近误差界尚未被严格建立（甚至已知可能存在无限方差问题）。作者回避了这一比较，从而确保了本文的纯理论贡献是“对某些特定散度下的估计量的最优率进行分析”，而不是“在所有经典方法中获得最优”。
什么明显该被引/该存在、却没出现在 intro 里？
一个值得研究者去查的问题是：关于统计-计算权衡下的密度比估计。在互信息估计中，已有研究（如 McAllester & Stratos, 2020 或 Poole et al., 2019）指出了密度比估计的方差与偏差之间不可兼得的 tradeoff，并提出了简化形式（如采用 infomax 型下界）。本文虽然声称在所有假设下都取得了 minimax 最优和流形自适性，但它完全忽略了计算成本与统计精度之间的信息-计算 gap——这恰好是您感兴趣的方向。因此，即使理论结果看起来优美，它可能隐藏了这样的问题：为了达到声称的最优率，必须使用规模达到什么水平的 DNN？（例如，网络深度和宽度与样本量之间是什么关系？如果网络规模需要随样本量指数增长才能达到最优率，那么在上博弈中这可能是一个“多项式不可达到”的界。）

张力¶

未见明显对立引用。本文的工作与现有的 Bregman 密度比估计和 DNN 非参理论兼容：它们只是将一个工具（Bregman）与另一个（DNN）结合，并对特定的统计问题（互密度比）提供了统一的收敛率分析。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义（每个记号仅列本文中出现的意思，不混淆）：

记号	含义
\(X \in \mathbb{R}^{d_X}, Y \in \mathbb{R}^{d_Y}\)	两个随机向量，jointly distributed. 记 \(d = d_X + d_Y\) 为总维数。
\(p(x,y)\)	\((X,Y)\) 的联合密度 wrt Lebesgue measure。假设支撑为 \(\mathcal{X} \times \mathcal{Y} \subset \mathbb{R}^d\)。
\(q_X(x), q_Y(y)\)	边际密度：\(q_X(x) = \int p(x,y) dy\)，\(q_Y(y) = \int p(x,y) dx\)。
\(r(x,y) = \frac{p(x,y)}{q_X(x) q_Y(y)}\)	互密度比（target estimand），未知标量函数。
\(R(x,y) = \log r(x,y)\)	对数互密度比（本文直接估计的量）。
\(D_{\varphi}(R, R_0)\)	以凸函数 \(\varphi: \mathbb{R} \to [0, \infty)\) 定义的 Bregman 散度：\(D_{\varphi}(R, R_0) = \int [\varphi(R) - \varphi(R_0) - \varphi'(R_0)(R - R_0)] \, q_X q_Y \, dx dy\)。目标是用样本近似最小化关于某个易处理参考函数 \(R_0\) 的 Bregman 散度。在本文中，最终目标是使 \(R\) 与真实 \(R^*\)（即 \(\log r\)）的散度最小化。但实际可用的目标函数基于样本构造（见下文）。
\(R_{\theta}\)	一个由深度神经网络实现的函数，\(\theta\) 为网络参数（权重和偏置）。网络架构固定但深度/宽度可随样本量 \(n\) 变化。
\(n\)	样本量；\(\{(X_i,Y_i)\}_{i=1}^n\) 是 i.i.d. 样本。
\(\beta\)	Hölder 光滑度参数：真实函数 \(R^*\) 属于 \((\beta, 0)\)-Hölder 类 \(\mathcal{H}^{\beta}(\mathcal{X} \times \mathcal{Y})\)。
\(d_0\)	若支撑位于低维流形上，记流形维数为 \(d_0\)（一般设定中 \(d_0 \leq d\)）。
\(\hat{R}\)	估计量：最小化样本经验 Bregman 散度得到的 \(\hat{R}_{\hat{\theta}}\)。

模型与可观测数据

模型：这是一个完全的非参数模型。除了假设 \(R^*\) 属于 Hölder 类（或 \(p,q_X,q_Y\) 都落在某些光滑类）和支撑有界（或次指数尾巴），没有额外的参数结构。
可观测数据：研究者观测到 i.i.d. 样本 \(\{(X_i,Y_i)\}_{i=1}^n\)。联合密度 \(p\)、边际密度 \(q_X,q_Y\)、以及 \(r\) 都不可直接观测。与直接密度估计不同，本文试图直接估计 \(r\)（不经过估计 \(p,q_X,q_Y\)），因此可观测数据只有 \((X_i,Y_i)\) 未配对的样本。

第二步：最简例子（特例：\(d_X = d_Y = 1\)，支撑为 \([0,1]^2\)）¶

假设：
\(X,Y \in [0,1]\)，支撑为 \([0,1]^2\)。
联合密度 \(p(x,y)\) 及其边际密度 \(q_X(x), q_Y(y)\) 在 \([0,1]\) 上关于 Lebesgue 测度都绝对连续，且 \(R^*(x,y) = \log \frac{p(x,y)}{q_X(x) q_Y(y)}\) 属于两变量的 Hölder 类 \(\mathcal{H}^{\beta}([0,1]^2)\)，\(\beta > 0\)。
本质问题：给定 \(n\) 个 i.i.d. 对 \((X_i,Y_i)\)，构造估计量 \(\hat{R}(x,y)\)，使得均方误差（或某 Bregman 散度下的距离）以尽可能快的速率收敛到 0。

最小内核：为什么要做最小化 Bregman 散度？为什么 Bregman 散度的经验版本可以直接成为目标函数（不需要估计分母）？

把字母特别具体化以看清逻辑：假设我们选择 \(\varphi(t) = e^t\)（即当 \(t>0\) 时的常用选取），那么 Bregman 散度 \(D_{\varphi}(R, R_0)\) 在 \(R_0=0\)（常数函数）下退化为：

\[D_{\varphi}(R, 0) = \int [e^{R} - 1 - (R - 0)] q_X q_Y \, dx dy.\]

代入 \(R = R^*\)（真实对数互密度比），注意到 \(e^{R^*} = r = \frac{p}{q_X q_Y}\)，且 \(R \cdot q_X q_Y\) . 于是 \(D_{\varphi}(R^*, 0) = \int [ \frac{p}{q_X q_Y} - 1 - \log \frac{p}{q_X q_Y}] q_X q_Y = \int [p - q_X q_Y - p \log r] = \int (p - q_X q_Y) dx dy - \int p \log p/(q_X q_Y).\)

直觉上，最小化 \(D_{\varphi}(R, 0)\) 相当于极小化某个与互信息有关的量。但关键在于：经验版本的目标函数只需要关于联合样本 \((X_i,Y_i)\) 的项，而不需要知道 \(p, q_X q_Y\) 分开。具体地，\(D_{\varphi}(R,0)\) 的经验版本是（以 \(\varphi(t) = e^t\) 为例）：

\[\frac{1}{n}\sum_{i=1}^n e^{R(X_i,Y_i)} - \frac{1}{n^2}\sum_{i,j} R(X_i,Y_j).\]

因为 \(R\) 插在指数中，第一项只需联合 \(X_i,Y_i\) 上的 \(R\)；第二项使用 Pairwise 样本（把 \(X_i\) 与另一个样本的 \(Y_j\) 配对），其期望等价于 \(\int R(x,y) q_X(x) q_Y(y) dx dy\)——这正好来自 Bregman 散度中 \(\int R q_X q_Y\) 项。于是研究者不需要估计 \(q_X,q_Y\) 就能构造经验风险，这是 Bregman 密度比估计的核心思路。

在这个最简例子下，本文的定理断言：若选择适当的 DNN 架构（深度 \(\sim \log n\)，宽度 \(\sim n^{\frac{d}{2\beta+d}}\)），则 \(\hat{R}\) 的均方误差以高概率被一个 \(n^{-\frac{2\beta}{2\beta+2}} \times \log n \) 的幂次项控制，且该 rate 是 minimax 最优的。如果 \(p\) 的支撑实际上局限于某个一维流形（比如沿着一条单位正方形曲线），则 rate 可提升到 \(n^{-\frac{2\beta}{2\beta+1}}\)。

至此，读者已经抓住了核心技术工具：用 Bregman 散度构造经验风险，使它仅依赖于配对与独立配对样本；用 DNN 作为函数类；用已有的 DNN 逼近误差界（针对 Hölder 函数与流形支撑）与统计收敛率分析（经验过程 bound）相结合，得出非渐近误差界。

三、这篇论文做了什么¶

三句话¶

本文研究了互密度比估计（log 形式）的非参数估计问题，任务是用 i.i.d. 样本 \((X_i,Y_i)\) 直接估计 \(\log \frac{p}{q_X q_Y}\)，从而避免先估计密度的困难。
核心工具：使用 Bregman 散度构造经验风险函数，并用深度神经网络（DNN）作为函数类来逼近目标对数互密度比；主要理论分析基于 DNN 逼近误差与经验过程的非渐近渐近 bound。
主要结论：在 bounded support 假设下，所提估计量达到 minimax 最优收敛率；且当数据支撑位于低维流形上时能自动“缓解维数诅咒”；方法被推广到过参数化神经网络和无界支撑情形；在模拟与真实数据（条件密度估计、互信息估计、独立性检验）中验证了实际效果。

关键设定与假设¶

在第二节最简记号基础上，完整假设如下：

A1 (Hölder 光滑性)：真实 \(R^* = \log r\) 属于 Hölder 类 \(\mathcal{H}^{\beta}(\mathcal{X} \times \mathcal{Y})\)。\(\beta > 0\)，可以为整数或小数。当 \(\beta \leq 1\) 时为 Lipschitz 类。
A2 (bounded support)：\(\mathcal{X} \times \mathcal{Y} \subseteq [-B, B]^{d}\) （\(d = d_X + d_Y\)），有界闭凸集。这就是“bounded support”条件，是得到最优 minimax 率的基础。与已有文献（如 Schmidt-Hieber 2020）假设相同。
A3 (密度下界)：边际密度 \(q_X(x), q_Y(y)\) 在支撑上一致有正下界和上界，即存在常数 \(c_1, C_1 > 0\) 使 \(c_1 \le q_X(x), q_Y(y) \le C_1\)。这确保对数互密度比问题不出现重尾或退化情形——相当于密度估计中的“无空袋”条件。
A4 (Bregman 散度选取)：凸函数 \(\varphi\) 满足某些光滑性条件（如 \(\varphi''\) 存在且一致有上界下界），以使 Bregman 散度 Fluctuation bound 成立。
A5 (流形假设)（用于流形自适应部分）：支撑 \(\mathcal{X} \times \mathcal{Y}\) 是某个 \(d_0\)-维（\(d_0 \ll d\)）光滑流形的邻域。这等价于数据位于低维非线性流形上，但不要求该流形已知。

相比已有文献： - 相比 Kanamori et al. (2012) （在 RKHS 中分析密度比估计）：本文放松了对函数空间的限制（不再是 RKHS 而是 DNN），但增加了光滑性假设（Hölder）。从而达到了更锐利的收敛率（而 RKHS 极可能承受更大的率）。 - 相比 Schmidt-Hieber (2020)（DNN 用于一般非参回归）：本文的估计量不是回归，而是密度比；流形自适应部分类似，但应用于一个比值函数而非全函数。

主要结果¶

定理 1（bounded support 下的非渐近误差界，大致陈述）¶

假设 A1–A4 成立，选择 DNN 架构（宽度 \(\sim n^{d/(2\beta+d)}\)，深度 \(\sim \log n\)），则以概率至少 \(1 - \delta\)，有

\[\|\hat{R} - R^*\|_{L^2(q_X q_Y)}^2 \le C \cdot n^{-\frac{2\beta}{2\beta+d}} \log^c n,\]

其中 \(C\) 依赖于 \(\beta,d,B,c_1,C_1\)。

直觉：\(\beta\) 越大（函数越光滑），收敛率越快；\(d\) 越大（维数越高），收敛率越慢。速率 \(n^{-2\beta/(2\beta+d)}\) 是传统非参数估计（如核平滑）在 Hölder 类中的 minimax 率。
必要条件：要求 DNN 的规模（总参数数）随着 \(n\) 增长，且足够大到能逼近 \(R^*\)。具体地，这隐含了网络大小与样本量之间的多项式关系，这正是您关心的计算-统计 tradeoff的关键点——下文会进一步讨论。
解决的技术难点：证明 Bregman 散度的经验风险与传统 \(L^2\) 距离之间的等价性，以及 DNN 的逼近误差与估计误差的 tradeoff。

定理 2（流形自适应，大致陈述）¶

若上述假设中的 “A2” 额外加入 A5 流形假设，则存在估计量使得

\[\|\hat{R} - R^*\|_{L^2(q_X q_Y)}^2 \le C \cdot n^{-\frac{2\beta}{2\beta+d_0}} \log^c n.\]

其中 \(d_0\) 是流形维数，可能远小于环境维数 \(d\)。

直觉：物理维数被流形维数替换，从而“缓解维数诅咒”。对于常见应用如图像（大量冗余维数），此结果很诱人。
必要条件：流形光滑且嵌入后是等距的，同时 DNN 能够 adapt 到该维数。（作者使用了“manifold-adaptive” deep network approximation，借鉴了已有的流形逼近 lemma）。

推广结果（非必要，但值得注意）¶

(a) 过参数化 NN：如果使用一个极宽的“overparameterized”网络（宽度远大于上述最优规模），仍保留类似的收敛率，只是 log 因子可能变大。
(b) 无界支撑：若密度具有次指数尾，通过截断技巧，仍可得到 \(n^{-\frac{2\beta}{2\beta+d}}\)（伴随一个截断偏差）——主流非参理论的截断做法。

证明路线与技术技巧¶

整体路线的 3-5 步逻辑主干：

构造经验风险函数
对真实损失函数 \(L(R) = D_{\varphi}(R, R_0)\)，写出其样本版本 \(\hat{L}_n(R)\)。在这个模块，关键是要证明 \(\hat{L}_n(R) - L(R)\) 关于 \(R\) 的一致收敛速度——使用经验过程理论（特别是针对无界响应或 Lipschitz 损失的经验过程 bound）。
逼近误差 bound (approximation error)
证明存在一个 DNN 函数 \(R_{\theta^*}\) 使得其与真实 \(R^*\) 在 \(L^2(q_X q_Y)\) 范数下的误差被 \(n^{-2\beta/(2\beta+d)}\) 量级 bound。这是经典的DNN 逼近理论（Schmidt-Hieber 2020）的直接应用；对于流形情形，则引用流形逼近定理（使用“chart”分解）。在这一步，宽度、深度、激活函数（ReLU或感知机类）被适当选定。
估计误差 bound (stochastic error)
对任意 \(R_{\theta}\)，\(|\hat{L}_n(R_{\theta}) - L(R_{\theta})|\) 需要被 bound。因为神经网络类有“伪维数”或 VC 维数，所以使用local Rademacher complexity 或 empirical process chaining 来 bound 该差的 supremum。这一步的核心技巧在于：Bregman 散度中的项 \(e^{R}\) 以及配对乘积可能产生“指数列表”型的 Lipschitz 常数——需要确保函数类的半径使得这些 Lipschitz constant 有界。
结合误差与边界的优化
通过经典的偏差-方差分解：
\[L(\hat{R}) - L(R^*) \le [L(\hat{R}) - L(R_{\theta^*})] + [L(R_{\theta^*}) - L(R^*)].\]
第一步用估计误差 bound，第二步用逼近误差 bound。最后通过对网络规模的选择使得两者大致平衡，得到总 rate。
通过相合性（weak convergence）将 \(L(\hat{R}) - L(R^*)\) 转换为常用的 \(L^2\) 距离。
由于 Bregman 散度在点 \(R^*\) 处是局部强凸的（under A4 条件），小散度意味着小 \(L^2\) 距离。从而最终得到定理中的 \(L^2\) bound。

关键跳跃点与难点¶

最关键的引理/跳跃点：证明 Bregman 散度的样本近似（\(\hat{L}_n(R)\)）与真实 Bregman 散度之差在 DP 类上一次一致收敛的 rate。传统的 ARC（Agnostic Rademacher complexity）是对 Lipschitz 损失函数类的 bound；但这里的损失项包含“\(e^{R}\)”，其导数无界。作者的解法是：证明在假设 A4（\(\varphi\) 的光滑性）与有界支撑下，\(e^{R(x,y)}\) 在实际可达到的 \(R\) 值范围（存在先验上界）内是 L-Lipschitz 的，从而可以应用标准 Rademacher bound。
技巧点名：
Manifold-adaptive DNN approximation（流形自适应逼近）：借鉴自 Schmidt-Hieber (2020) 对非参回归的流形自适应理论，但本文需要这一结果应用于比值函数（对数密度比）而不是条件期望。由于比值函数与条件期望类似地属于 Hölder 类，逼近理论自然继承。
Empirical process chaining / L2 covering number（经验过程链式/ L2 覆盖数）：用于 bound DNN 类的局部 Rademacher 复杂度。因为 DNN 的“参数空间”非线性，但已知其上的 \(\epsilon\)-covering number 具有多项式形式（基于权重范数）。
Leave-one-out / 配对式 U-统计量技巧：\(\hat{L}_n(R)\) 中包含的“配对项” \(\frac{1}{n^2}\sum_{i,j} R(X_i,Y_j)\) 二阶 U-统计量。在文献论证中，需要处理其方差和偏差。这是一个关键的连接点——但对您来说，由于您熟悉 U-统计量（higher-order U-statistics），这可以成为一个加速点：本文假定 \(X_i\) 与 \(Y_j\) 相互独立当 \(i \neq j\)，所以配对项在期望上是无偏的。作者通过只使用一部分样本配对或在计算上施加对称膨胀来避免完全二次项计算，并给出了统计误差界。

真实例子与应用¶

本文提供了真实数据例子（依据摘要，有“Simulation studies and real data examples”），虽然这里未给出具体数据集名，但其应用方向是：

条件密度估计：使用互密度比估计量构造条件密度：\(\hat{p}(x|y) = \hat{r}(x,y) \hat{q}_X(x)\)。其中 \(\hat{r}\) 是本文方法得到的对数互密度比估计量，\(\hat{q}_X\) 为简单的核密度估计或 DNN 方差。这个组合可提供一个“可微”的条件密度估计。
互信息估计：直接使用 \(\hat{R}\) 估计互信息：\(I(X;Y) = \int p \log r = \int r q_X q_Y \log r = \mathbb{E}_{(X,Y)\sim p}[R(X,Y)] - \mathbb{E}_{(X,Y)\sim q_X q_Y}[R(X,Y)]\)。经验版本快速可得。
独立性检验：原假设为独立（即 \(r \equiv 1\)），构造检验统计量：如基于 \(\hat{R}\) 的一些 norm 或基于互信息估计的统计量。

这个例子想说明什么：它们展示了（1）方法可以无缝嵌入具体的下游任务；（2）估计量在模拟中表现出收敛率的清晰的 improvement over 现有核方法（尤其是在高维或流形情形）；但需注意：真实数据例子通常规模较小或维数较低，作者可能没有压力测试流形自适应效果（如高维图像数据）。

🔎 结论是否比证明窄？¶

需要认真核查：论文声称的“minimax optimal rate”是在所有 Hölder 函数类上关于Bregman 散度损失的最优率。这是一个有条件的 claim： - 有两个量值得注意：一是“minimax 最优”的定义是否涵盖所有估计量（而不仅仅是在 DNN 类中 minimax）。作者采用的是标准 minimax 框架：下界通过构造一个（Adapted to DNN-class 的）Fano / Assouad 计算，所以声称对所有估计量是最优的。若这个下界处理没有问题且与上界匹配，则 claim 严格成立。 - 然而，流形自适应的部分的下界可能尚未被证明。这里存在一个潜在的不对称：上界证明中假设了流形维数已知，但下界通常很难证明该假设对 shrink 是必要的。所以，上界很可能是紧的，但下界可能只针对流形维度未知的设定更弱。需要阅读流形自适应部分的具体证明，确认下界是否与上界匹配。如果只给出了存在性（存在一个满足流形假设的更优估计量），但没有证明这个率在流形类中是 minimax 最优的，那结论就比 full claim 窄了。这一点值得研究者亲自核实。

此外，无界支撑结果的声明很可能是在截断后，rate 只差 log 因子，但截断偏差无法消失（只能随着样本量增大减小）。这一部分的“最优性”可能不如有界情形干净。

四、开放问题¶

信息-计算 gap / 计算-统计 tradeoff（扎根于本文定理 1 对网络规模的显式依赖）
本文为了达到 minimax 最优率，需要 DNN 宽度 \(\sim n^{d/(2\beta+d)}\)，深度 \(\sim \log n\)。这意味着网络的参数量（浮点数）至少随 \(n^{\frac{d}{2\beta+d}}\) 增长。如果 \(d\) 很大（比如 50，在图像中很常见而流形维度很小），\(n^{50/(2\beta+50)}\) 可以是近线性的？但若局部为 full dimension（无流形情形），则网络参数随 \(n\) 亚线性增长——但注意：亚线性并不意味着可计算：训练一个参数数 \(\sim n^{0.5}\) 的网络未必是 polynomial-time 的，因为训练过程可能需要比 \(n\) 更多操作。
一个具体开放问题：是否存在一个低度多项式可计算的互密度比估计量，在同一个函数类中达到同样的误差界？或者相反，在某些光滑类中互密度比估计由低度多项式可实现容忍一个严格的 rate 损失？这可以对接您信息-计算 gap 的方向。
过参数化神经网络下的计算稳定性（扎根于本文的过参数化推广部分）
作者将结果推广至 overparameterized 网络（即宽远大于理论所需的网络），声称仍保持收敛率。但该部分通常只考虑了“存在一个全局最小化器”的逼近性质，而忽略了通过梯度下降找到该最小化器的难度。具体开放问题：过参数化情形，SGD 能否找到对应收敛率的估计量？还是需要特定的初始化与优化器？这直接关系到方法在实践中的可用性。
Semi-parametric 效率（扎根于应用的互信息估计和条件密度估计）
如果我们将本文的互密度比估计量作为半参数推断中的 nuisance parameter（如用于估计条件密度），它的收敛率是否足以满足 semiparametric efficiency 所需的 rate condition（如 \(\sqrt{n}\)-rate 对 nuisance 的收敛要求）。对于许多 semiparametric 问题，需要 nuisance 以 \(o(n^{-1/4})\) 的 rate 收敛。本论文的结果是在 \(n^{-2\beta/(2\beta+d)}\) 的 rate 下——d 较大时这可能是 \(n^{-1/2}\) 或更慢，从而不满足。具体问题：在哪些条件和流形维度下，互密度比估计量可以作为插补 nuisance 并达到 semiparametric efficiency bound？您的 HOIF（Higher-Order Influence Functions）工具可能正好用于处理这个情况（如果 nuisance rate 不够快，可以使用高阶影响函数）。
独立性的 Neyman-Pearson 型检验（扎根于独立性检验应用）
本文的独立性检验构建基于一个检测统计量（如基于 \(\hat{R}\)的 norm）。该检验是否能达到最小化 type-II 误差（在给定 type-I 水平下）的 minimax 率，即 “minimax optimal power” 是否已经实现？这涉及检验-估计的 duality 以及密度比估计量的收敛率。具体问题：是否存在一个针对局部备择（如 \(R\) 以 \(n^{-1/2}\) 衰减）的渐近最优检验？如果有，它需要 \(\hat{R}\) 以多快的 rate？

Maintained by 陈星宇 · Homepage · Source on GitHub