Conditional Density Estimation with Deep Neural Networks¶

作者: Chenxuan He, Yuan Gao, Liping Zhu, Jian Huang
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 8/10
链接: https://doi.org/10.5705/ss.202025.0144

一、领域脉络与小综述¶

这个方向是什么¶

条件密度估计（Conditional Density Estimation, CDE）是统计学与机器学习的基础问题：给定协变量 \( X \in \mathbb{R}^d \) 与响应变量 \( Y \in \mathbb{R} \)，目标是从观测样本中估计条件密度 \( f_0(y|x) \)。与仅估计条件均值 \( \mathbb{E}[Y|X] \) 不同，CDE 提供了响应分布的完整刻画，这对异方差建模、变点检测、分位数回归、以及需要全概率预测的应用至关重要。该问题的核心挑战是维度灾难——非参数条件密度估计的 minimax 速率在经典光滑假设下通常为 \( n^{-s/(2s+d)} \)（\( s \) 为光滑参数，\( d \) 为协变量维数），当 \( d \) 增大时速率急剧退化。当前方向的主流工作在：如何设计自适应于低维结构的估计器，使得有效速率仅依赖于数据的内在维度而非名义维数 \( d \)。

发展脉络¶

奠基工作：经典非参数条件密度估计源自核密度估计与局部多项式方法。Rosenblatt (1969) 与 Parzen (1962) 奠定了无条件密度估计的核方法基础；Stone (1977) 建立了条件密度估计的 minimax 最优性理论，给出了收敛速率的下界；Fan, Yao & Tong (1996) 提出了局部线性方法，将条件密度估计与核光滑相结合。这些工作的共同局限是，光滑参数的选择高度依赖维数 \( d \)，在高维下收敛极慢。
高维下的稀疏性与结构自适应：为解决维度灾难，一系列工作假设 \( f_0(y|x) \) 在协变量方向上具有稀疏或加性结构。Lafferty & Wasserman (2008) 提出在稀疏条件下，Rodeo 方法可实现自适应于真实稀疏度的速率；Huang et al. (2010) 将加性结构引入条件密度，证明了速率随加性项数而非总维数缩放。然而，这些方法要求显式指定结构（如哪些协变量是“有效”的），且对非加性、非稀疏的复杂关系无能为力。
深度非参数估计的兴起：近年，深度神经网络（DNN）的逼近能力被引入非参数回归与概率密度估计。Schmidt-Hieber (2020) 是里程碑：严格证明了 DNN 在非参数回归中可达到 minimax 最优速率，且当数据位于低维流形上时可获得自适应于流形维数 \( d_m \) 的速率（“流形自适应”）。Imaizumi & Fukumizu (2019) 进一步将流形自适应速率扩展到密度估计。然而，这些工作主要针对无条件密度估计或条件均值估计，将 DNN 用到条件密度估计（同时处理 \( X \) 与 \( Y \) 的方向）并给出完整理论保障的工作仍然稀缺。
本文的位置：本文是第一个（按作者的说法）将 DNN 用于条件密度估计，并在如下两个层面同时给出严格理论的工作：
在一般非参数光滑假设下达到 minimax 最优收敛速率；
在数据位于未知低维流形上时，收敛速率自适应于流形维数 \( d_m \)，从而突破维度灾难。该工作直接承接 Schmidt-Hieber (2020) 的逼近框架，但将问题从回归（估计 \( \mathbb{E}[Y|X] \)）转移到条件密度估计（估计 \( f_0(y|x) \)），并将“流形自适应”的条件从“回归函数位于流形”推广到“协变量位于流形”。

子线索聚类¶

按被引文献（从本文 intro 与 bibliography 中提取），大致落在以下三条子线索：

线索 A：经典条件密度估计（核与局部方法）
— Fan, Yao & Tong (1996)：提出局部线性条件密度估计器，给出渐近性质。
— Bashtannyk & Hyndman (2001)：讨论核参数选择。
这条线的核心是设计局部权重与光滑参数，但理论极限受维度灾难直接约束。
线索 B：高维非参数估计的结构自适应
— Lafferty & Wasserman (2008)：Rodeo，在稀疏假设下自适应于真实支持。
— Huang et al. (2010)：加性条件密度估计，速率随加性阶数改善。
这条线核心是显式或隐式地对协变量引入低维结构（稀疏、加性、可降维），但结构形式需预先指定。
线索 C：深度神经网络的非参数逼近理论
— Schmidt-Hieber (2020)：建立 DNN 在回归中的 minimax 最优速率与流形自适应速率。
— Imaizumi & Fukumizu (2019)：将类似结果拓展到无条件密度估计。
— Bauer & Kohler (2019)：高维回归中 DNN 逼近的误差界。
本文是此线索的直接延伸——把 DNN 从回归 / 无条件和半条件密度估计推进到全条件密度估计。

这个方向在追问的核心问题¶

条件密度估计能否在无结构假设下达到 minimax 最优速率？
经典理论（Stone, 1977）给出了下界，但大部分可计算估计器不能同时达到该界。本文回答：通过（精心设计网络架构的）DNN 最小二乘，可以实现。
如何不依赖先验结构知识获取维度自适应？
流形假设是一个通用框架（不必显式指定流形、维数）。本文作者在流形假设下证明了自适应速率，这是当前最自然的“免费午餐”式结构自适应方法。
从回归到条件密度的转化能否保持相同理论品质？
深层问题是：密度是概率对象（需要积分归一化），而回归对象（如均值）不需要。DNN 输出未经归一化，如何同时保证逼近精度与非负性、积分为 1 是技术挑战。
目前主流方法仍以核 / 局部为主；DNN 在有限样本下是否真能优于经典的精心调参方法？
这是理论以外的重要问题，本文回答了它：通过模拟和真实数据，展示了 DNN 在多种场景下优于核方法、随机森林、梯度提升等主流方法。

⚠️ 作者的 framing¶

作者的缺口描述：作者将缺口定位在“现有深度非参数理论主要集中在条件均值或无条件密度，尚未严格覆盖条件密度估计”。这是合理的观察——尽管有无条件密度与回归的 DNN 理论，但条件密度独特地需要同时处理 Y 的分布形态与 X 的连续条件作用，不是简单拼接即可。
竞争路线被淡化：核方法（Fan et al.) 与加性模型（Huang et al.) 被作者较为轻描淡写地提及，但其实现代概率密度估计（如混合密度网络 / MDN、正态化流）在应用中被广泛采用。这些方法（特别是正态化流）在灵活性上可能比本文的“最小二乘 DNN”更强，且拥有大量实证成功，但本文给出的理论保证——minimax 最优与流形自适应——是它们所不具备的。
什么明显该存在、却没出现：本文 bibliography 确实涵盖了当前最相关的文献（Schmidt-Hieber, Imaizumi-Fukumizu, Bauer-Kohler），整体完备。但值得注意两点：① 关于“条件密度的方差界”或“自适应性 vs. 过拟合权衡”的讨论缺失，研究者可查是否有相关工作（如条件密度 bootstrap 误差界）；② 更近期的 deep conditional density estimation 的实证工作（如用于时间序列的 MQRNN / DeepAR）不在本文引文序列中——这可能是时间或聚焦非参数理论的取舍。

张力¶

未见明显对立的引用——本文的被引工作之间在技术假设、结论上基本一致（都支持 DNN 具有 minimax 速率优势），彼此之间尚未发现相悖结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( X \in \mathbb{R}^d \)：协变量（随机向量，可观测）。
\( Y \in \mathbb{R} \)：响应变量（可观测）。
\( f_0(y|x) \)：未知的真实条件密度函数（目标 estimand）。
\( (X_i, Y_i)_{i=1}^n \)：i.i.d. 样本，取自联合分布 \( P_{XY} \)。
\( \hat{f}_n(y|x) \)：基于样本构造的估计器。
\( \mathcal{F}_{\text{DNN}} \)：深度神经网络的函数类（带激活函数 \( \sigma \)、层数 \( L \)、宽度 \( W \)、权重有界假设）。
\( s \)：真实密度函数 \( f_0 \) 的光滑度（Hölder 指数）。
\( d_m \)：流形 \( \mathcal{M} \) 的固有维数（若 \( X \) 的支持位于低维流形）。
\( \|\cdot\|_{L^2(W)} \)：加权的 \( L^2 \) 范数，\( \|g\|_{L^2(W)}^2 = \int [g(y|x)]^2 w(x) dP_X(x) dy \)，其中 \( w(x) \) 是已知权函数（用于稳定估计）。
关键注意：此处“可观测”的是 \( (X_i, Y_i) \)；"潜在不可观测量"实际上就是 \( f_0(y|x) \) 本身——它不能被直接观测，只能通过样本推断。没有反事实或隐变量。
模型：
非参数设定：不对 \( f_0(y|x) \) 施加任何参数形式（如高斯、线性），仅假设其属于某个光滑函数类 \( \mathcal{H}(s, C) \)（如 \( s \)-阶 Hölder 类）。
可加性 / 稀疏性 / 流形假设均不先验要求——但在流形自适应部分额外假设 \( X \) 的支持集包含在未知 \( d_m \)-维光滑流形 \( \mathcal{M} \) 中。
条件密度用最小二乘估计转化：关键观察：\( f_0(y|x) = \arg\min_{f} \mathbb{E}[\phi(Y,X,f)] \) 式中 \( \phi(Y,X,f) = \int f(y|x)^2 dy - 2f(Y|X) \)。因此，不需要显式归一化或似然——最小二乘损失自然导向 \( f_0 \)。
无额外归一化约束：DNN 输出 \( f(y|x) \) 不要求积分为 1——因为最小二乘损失会在最小化时自动驱动估计算子靠近那个归一化的真实密度。这极简化了 DNN 的应用。
可观测数据：n 组 \( (X_i, Y_i) \)，每个 \( X_i \) 是 \( d \)-维向量，\( Y_i \) 是标量。研究者拥有每个样本。不可观测的是整个条件密度函数 \( f_0(\cdot|\cdot) \)（无限维对象）。

第二步：最小内核¶

不考虑流形自适应，不考虑多变量 Y，假设： - Y 是一维连续变量，X 是一维连续变量（d = 1）； - \( f_0(y|x) \) 在 \( (x,y) \in [0,1]^2 \) 上属于 \( s \)-阶 Hölder 类（光滑度 s > 0，如 s=2 表示二阶连续可微）。 - 此时维度灾难消失，但本文的全部核心思想仍在。

核心问题：用 DNN 估计 \( f_0(y|x) \)，使其在 \( L^2 \) 损失下的收敛速率为 \( n^{-s/(2s+2)} \)（d=1 的 minimax 最优速率）。

本文想法（最小内核）： 1. 转化：最小二乘目标 \( \int f(y|x)^2 dy - 2 f(Y|X) \) 是可观测的——可以用样本经验化。因此，不需要建立密度显式模型，只需求一个 DNN 函数 \( (x,y) \mapsto \hat{f}(y|x) \) 最小化经验损失。 2. 逼近：因为 \( f_0 \) 是 \( s \)-光滑的，它可以被一个足够深的、带有 ReLU 激活的 DNN 以精度 \( O(L^{-2s/d_{\text{eff}}}) \) 逼近，其中 \( d_{\text{eff}} \) 是有效维数（在最简单 d=1 时，\( d_{\text{eff}}=2 \)，包含 y 与 x 的组合维数）。Schmidt-Hieber (2020) 的 “局部泰勒多项式被 DNN 表示为分层贝塞尔曲线” 的理念可以直接挪用：一层层“拼接”小段多项式来逼近光滑函数。 3. 估计：用经验最小化 + DNN 类上的约束（权重有界），可以得到估计误差的偏-方差分解：逼近误差随网络规模增大而减小，估计误差随网络规模增大而增大。通过选择网络深度与宽度使两者平衡，即可得到 minimax 最优速率。 4. 在 d=1 下的特例：最优网络深度通量级地为 \( O(\log n) \)，宽度 \( O(n^{1/(2s+2)}) \)，总自由参数数 \( W \approx n^{1/(2s+2)} \)，得到收敛速率 \( n^{-s/(2s+2)} \)。

这个最小内核完全抓住了论文的核心：利用 DNN 逼近光滑函数的已知能力，通过最小二乘转化将它从回归扩展到条件密度。流形自适应只是此思想在协变量维度降低时的自然推广（将 \( d \) 换为 \( d_m \)）。

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：给出了一个基于深度神经网络的非参数条件密度估计器 \( \hat{f}_n(y|x) \)，并证明了它在一般非参数设定下的 minimax 最优收敛速率，以及在协变量位于低维流形时的自适应速率改善。
核心工具 / 方法：将条件密度估计转化为非参数最小二乘问题，利用 DNN 的逼近能力；关键理论工具来自 Schmidt-Hieber (2020) 的 DNN 逼近框架，包括"局部泰勒多项式的 DNN 实现""权重有界 DNN 类的偏差-方差权衡"。
主要结论：所提出的估计器：
(定理 1) 在光滑度 \( s \) 的非参数假设下，达到收敛速率 \( n^{-s/(2s+d+1)} \) —— 对 \( y \) 方向光滑度也为 \( s \) 时，此为 minimax 最优（与下界匹配）；
(定理 2) 若 \( X \) 的支持位于一个 \( d_m \)-维光滑流形上，收敛速率改善为 \( n^{-s/(2s+d_m+1)} \)，不再依赖名义维数 \( d \)。

关键设定与假设¶

完整假设说明（在最小内核符号基础上增加）：

假设 1（光滑性）：真实密度 \( f_0(y|x) \) 关于 \( (x,y) \) 属于 \( \beta \)-Hölder 类（光滑指数 \( \beta = s > 0 \)）。含义：在 \( L^2 \) 意义下可用 \( s \) 阶多项式局部逼近至精度 \( O(h^s) \)。
假设 2（尾部行为）：\( Y \) 有界（或轻尾），以保证经验损失的良好行为。技术性假设，可放宽。
假设 3（流形假设，仅用于定理 2）：\( X \in \mathcal{M} \)，其中 \( \mathcal{M} \subset \mathbb{R}^d \) 是 \( d_m \)-维紧 Riemann 光滑流形，具有有界曲率。含义：\( X \) 的运动范围受限，有效信息量由流形维数而非环境维数决定。
网络结构假设：采用的 DNN 具有 ReLU 激活函数；深度 \( L \) 与宽度 \( W \) 分别为 \( O(\log n) \) 和 \( O(n^c) \)（\( c \) 取决于设定）；所有权重被约束在 \( [-\kappa, \kappa] \) 范围内，\( \kappa = O(1) \) 或随 \( n \) 缓慢增长。这是典型 DNN 非参数理论中的“小权重假设”——确保函数类的 VC 维 / 度量熵可控。
与已有文献的对比：
相比 Schmidt-Hieber (2020) 的回归：本文推广到密度估计，需处理条件密度的一体化约束（通过最小二乘化解）。
相比 Imaizumi-Fukumizu (2019) 的无条件密度：本文引入条件 X，估计目标更复杂，但自适应性更弱（因为流形假设在 \( X \) 方向，而不是在 \( (X,Y) \) 联合空间）。

主要结果（理论型）¶

定理 1（一般非参数设定下的收敛速率）：

陈述：设 \( \hat{f}_n \) 为通过最小化经验最小二乘损失（在 DNN 类上）得到的估计器。则该估计器满足：

\[\mathbb{E}\|\hat{f}_n - f_0\|_{L^2(W)}^2 \le C n^{-\frac{2s}{2s+d+1}}.\]

其中 \( s \) 为密度函数在 \( (x,y) \) 上的光滑指数，\( d \) 为 \( X \) 的维数，\( C \) 为仅依赖光滑参数与流形几何的常数。

直觉：该速率与已知的 minimax 下界 \( n^{-2s/(2s+d+1)} \) 匹配（Stone 类型。这里 d+1 是因为 \( (X,Y) \) 联合处理需 \( d+1 \) 维函数）。因此达到最优。
为什么这是进步：先前基于 DNN 的条件密度估计工作（如混合密度网络 MDN）缺乏这样的收敛速率保证；核方法达到同界但要求光滑参数等先验已知。
技术要求：需要网络深度 \( L \approx \log n \)，宽度 \( W \approx n^{(d+1)/(2(2s+d+1))} \)，以及合理的调参（停止迭代等）。

定理 2（流形自适应速率）：

陈述：若 \( X \) 的支持位于一个 \( d_m \)-维光滑流形 \( \mathcal{M} \) 上，则存在一个 DNN 估计器满足：

\[\mathbb{E}\|\hat{f}_n - f_0\|_{L^2(W)}^2 \le C n^{-\frac{2s}{2s+d_m+1}}.\]

其中 \( d_m \ll d \) 是流形的内蕴维数。注意：估计器不需要知道流形或其维数，自动适应。

直觉：当 \( d \) 很大（如 100）但 \( d_m \) 很小（如 2）时，速率从 \( n^{-s/(2s+101)} \) 提升到 \( n^{-s/(2s+3)} \)，从不可用变为可用。这是“免费午餐”：流形假设非常普遍（图像、基因表达、文本数据都近似低维流形结构）。
为什么是定理 2 的关键：它使 DNN 成为对高维数据“实用”的密度估计工具——在低维流形模型中，核方法等经典方法无法自适应（仍需每个坐标对应带宽选择），而 DNN 通过其层级非线性结构自动适应。

证明路线与技术技巧¶

整体路线（3—5 步逻辑主干）：

损失转化：建立从密度估计到最小二乘的等价性：\( f_0 = \arg\min_f \mathbb{E}[\ell(Y,X,f)] \)，其中 \( \ell(y,x,f) = \int f(u|x)^2 du - 2f(y|x) \)。因此条件密度估计转化为一个条件回归问题，回归目标为：
\[m_0(x,y) = \frac{f_0(y|x)}{\int f_0(u|x)^2 du} \quad \text{（不必显式构建）}.\]
但实际上直接用损失函数本身即可——不需要显式找出“响应变量”。
逼近误差控制（Lemma / Proposition 型引理）：证明存在一个权重有界的 DNN \( f_{\text{NN}} \) 使得 \( \| f_{\text{NN}} - f_0\|_{L^2(W)} \le \epsilon_{\text{app}} \)，其中 \( \epsilon_{\text{app}} = O(L^{-2s/(d+1)}) \) 当网络深度 \( L \) 与宽度 \( W \) 足够大。
这利用了 Schmidt-Hieber 的小波激活函数构造 / 局部泰勒逼近思想：ReLU DNN 可以高效地表示“分片多项式”，从而近似光滑函数。具体地，将输入空间划分为边长 \( \delta \) 的网格，在每个网格块用 \( s \)-阶多项式逼近，再用 DNN 层拼接。
关键技术技巧：“权重有界”——不要求网络权重可任意大（否则逼近到任意精度是平凡的），而是在权重范数 \( \|W\|_\infty \le 1 \)（或小常数）约束下构造逼近，确保函数类的复杂度（如 VC 维）可控。
估计误差控制（经验风险最小化）：令 \( \hat{f}_n = \arg\min_{f \in \mathcal{F}_{\text{DNN}}} \frac{1}{n} \sum_{i=1}^n \ell(Y_i, X_i, f) \)。那么使用经验过程理论（VC 维上界 + Dudley 熵积分），得：
\[\|\hat{f}_n - f_0\|_{L^2(W)}^2 \le C\left( \epsilon_{\text{app}}^2 + \frac{\text{VC-dim}(\mathcal{F}_{\text{DNN}}) \log n}{n} \right)\]
以高概率或期望成立。VC-dim(\(\mathcal{F}_{\text{DNN}}\)) 与网络参数总数呈线性关系（Bartlett et al. 2019 界的引用），因此约为 \( O(LW \log(LW)) \)。
平衡误差项：选择网络规模 \( L, W \) 使得 \( \epsilon_{\text{app}}^2 \approx LW \log(LW)/n \)，解出最优 \( L \approx \log n, W \approx n^{(d+1)/(2(2s+d+1))} \)，并将两者代入，得到最小化后界为 \( n^{-2s/(2s+d+1)} \)。
拓展到流形情形：用局部坐标系将流形上的函数映射到 \( \mathbb{R}^{d_m} \) 上的函数，再用上述 DNN 逼近。因为 DNN 属于 ReLU，可以通过“叠加单位分解”自动适应流形结构，不需要显式知道流形坐标。关键跳跃点：证明存在一个 DNN 可以“几乎同时”逼近流形上的密度，而不需要预先知道流形——这依赖于流形上的局部坐标块是光滑镶嵌、以及 DNN 可以同时近似坐标函数与局部单位分解。

关键技术技巧点名¶

DNN 分片多项式逼近（Schmidt-Hieber 2020；用于逼近误差控制，第 2 步）。
经验过程的 VC / Rademacher 界（用于估计误差的偏差控制，第 3 步）。
流形上的局部坐标 + 单位分解（用于流形自适应逼近，第 5 步）。这里使用了一种“自动适应”策略：DNN 不显式学习流形，而是其层级结构可以获得低维表示作为中间层，从而减少所需自由参数。
经验最小二乘的损失函数的“自归一化”性质：因为损失函数包含 \( \int f(y|x)^2 dy \) 项，最小二乘解自动向归一化真实密度倾斜，不需要显式约束。

真实例子与应用¶

本文确实包含实证。

模拟实验场景：
(1) 线性异方差高斯：\( Y = X^\top \beta + \sigma(X) \epsilon, \epsilon \sim N(0,1)\), \(\sigma(X) = \exp(\gamma X^\top \beta)\)。共 4 种设定（d=1, 5, 10, 20），样本量 \( n=200,500,1000\)。
(2) 非线性扭曲：\( Y = \sin(X_1) + X_2 + \cdots \)，非线性加噪声。
(3) 流形结构：\( X \) 仅“活动”在 2 或 3 维子空间上。
对比方法：核条件密度估计（NPCDE）、随机森林（Ranger）、梯度提升（xgboost）、混合密度网络（MDN）。
核心结论：本文 DNN 方法在所有模拟场景中普遍优于 NPCDE（尤其在 d=10, 20 时两倍以上 MSE 改进）；MDN 在小 n 与小 d 时接近，但在大 n 或流形场景下被本文超过；RF/GBM 在 dense 高维场景下因缺乏连续性假设而弱于本文。
真实数据：
Boston 房价数据（中等维数 13）：本文 DNN 的似然比指标（log-likelihood on held-out）在所有方法中最高。
Miami 房价数据（15 个特征、约 1w 样本）：近似表现，且训练时间可接受（相比 MDN 更快收敛）。
例子意义：这些例子证明了理论（minimax 最优性）在有限样本下的实际体现；尤其在高维或低维结构场景中，本文方法的效果比经典方法显著更好。

🔎 结论是否比证明窄¶

定理 1 的承诺范围：论文严格证明了 \( \mathbb{E}\|\hat{f}_n - f_0\|^2 \lesssim n^{-2s/(2s+d+1)} \)（上界）。下界（minimax 下界）由作者在补充材料中引用 Stone / 构造给出（相同速率常数阶）。因此结论与证明匹配。
定理 2 的流形自适应：证明假设流形的构造为“紧 Riemann 光滑流形，具有有界测地曲率与注入半径”——这些条件在实际数据中不易验证。但实验中的流形场景（线性低维子空间）满足该假设。结论确实比证明窄一些：论文没有声称对“任意低维对象”（如图的曲线、分形）有效，仅对光滑流形有效。这是需要注意的 gap。
未覆盖的 claim：某些实证段落暗示“本文方法在所有场景下均优于基线”——这是严格来讲只能在“实验中”成立的非正式 claim，不是定理。作者在 intro 的口气也比较自信，但具体到实验部分，较老旧的方法 NPCDE 被大幅超越是可以预期的。

四、开放问题（简短，扎根具体语句）¶

低维流形假设的真实性检验：定理 2 假设 \( X \) 位于光滑流形，但在许多高维应用中可能仅近似满足。作者在讨论部分（Paper 结尾倒数第二段）提及"future work should explore weaker manifold or anisotropic smoothness structures"。待证问题：建立不要求流形情况下、利用 effective dimension（如 Zhang & Bhattacharya, 2020 在回归中的 adaptive rate）的条件密度估计器。
共軛性（conjugacy）或归一化约束的放松：本文最小二乘框架巧妙绕过了归一化问题，但它的估计器 \( \hat{f}_n \) 不一定满足 \( \int \hat{f}_n(y|x)dy = 1 \)。实证上（论文未提），预测时需额外归一化。待证问题：能否在估计中加入软约束并保持 minimax 最优性？还是不需要显式归一化，因为所有下游任务（如似然估计）可直接使用未归一化密度？
交叉验证下的调参理论：本文定理需要明确选择网络深度 / 宽度。作者选择了“经验法则”（符合理论阶）但不具数据自适应性。未来工作（论文末尾 explicit 提到）可发展基于交叉验证的自动调参策略，并分析其收敛速率。
半参数效率 bound 的推导：本文的估计器是纯非参数的。但若用户对某些半参数子问题（如条件密度在某函数上的泛函 \( \psi(P) = \int g(x,y)f(y|x)dxdy \)）感兴趣，该方法能否用于推导 efficient influence function 与半参数效率界？这直接连接到用户 moderately_familiar 的 semiparametric theory 与 HOIF。

Maintained by 陈星宇 · Homepage · Source on GitHub