Estimating a density near an unknown manifold: A Bayesian nonparametric approach¶
作者: Clément Berenfeld, Paul Rosa, Judith Rousseau
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文解决的根本问题是:当数据的支撑集(support)并非整个欧氏空间,而是集中于一个未知的低维子流形(unknown submanifold)的偏移(offset)附近时,如何对数据的概率密度进行估计。这里的“偏移”是指样本点并非恰好落在流形上,而是分布在流形周围的一个“管道”或“管子”内。这是一种“流形假设”在密度估计中的具体实现:数据有内在的低维结构,但观测时叠加了噪声。核心困难在于:(i) 流形本身未知、 (ii) 偏移宽度(管子的半径)可能趋于零、 (iii) 密度沿流形切向和法向的光滑度可能不同(各向异性)。本文使用贝叶斯非参数方法,以location-scale高斯混合先验来解决此问题,并证明后验收敛率达到minimax自适应率。
发展脉络¶
本文将分散在几个子领域的线索串了起来,大致可按时间与问题焦点划分为四个阶段:
-
奠基:经典密度估计与minimax自适应理论。此方向的基础是Ghosal & Van Der Vaart (2007)对Dirichlet混合正态先验的后验收敛率分析,和Kruijer et al. (2010)、Shen et al. (2013) 将之扩展到各向同性/各向异性Hölder类、并证明贝叶斯方法可以达到minimax自适应率的工作。同期,Goldenshluger & Lepski (2011, 2014)在频率学派中建立了对Nikol'skii各向异性类的自适应kernel估计理论。这些工作的共同前提是密度支撑为整个欧氏空间或其子集(无流形结构),且光滑度是均匀的。
-
流形估计(Manifold Estimation) 。并行发展的主线是估计流形本身(而非其上的密度)。Genovese et al. (2012) 在Hausdorff损失下给出了流形估计的minimax界,Aamari & Levrard (2019) 给出了切空间和曲率的最优非渐近率,Divol (2021a, 2021b) 也处理了类似问题。这些工作的典型设定是数据恰好落在流形上(无偏移),或噪声模型是几何的而非概率密度的。
-
奇异支撑的密度估计(Density Estimation with Singular Support) 。当密度支撑是一个低维子集(而非管道)时,Mukhopadhyay et al. (2020) 提出了Fisher-Gaussian核的混合模型,在贝叶斯框架下获得了弱后验一致性,并展示了良好的实证表现。本文明确指出其工作是对此路的“impulse”(动力)的直接后续。Berry & Sauer (2017) 则处理了流形有边界时的密度估计。本文的核心创新发生在上述两条线索的交汇处——将“流形估计”与“贝叶斯自适应密度估计”结合起来,处理偏移宽度可以趋于零的“介于流形与管型之间”的区域。
-
本文的位置:Berenfeld, Rosa, Rousseau (2025) 将前两个方向的工具统一:它采用贝叶斯location-scale高斯混合(继承自第二阶段),将其应用于“未知子流形偏移”这一几何结构(继承自第一阶段),并首次提出了适用于该结构的各向异性Hölder光滑度定义。该定义的关键在于区分沿流形切向(内在方向,光滑度β1)和沿法向(偏移方向,光滑度β2)的Hölder指数。论文证明了后验收敛率在偏移宽度r非极小时(见原文条件(3.2))是minimax最优的(对于自适应的β1, β2和内在维度d),且当r→0时保持了合理(article-optimal)的率。工作被作者定位为向“靠近边界”或“支撑为流形本身”的极限情况的一个迈进,为将来处理此类问题提供了理论基础。
子线索聚类¶
- 线索一:拓扑/豪斯多夫下的流形与Ridge估计:Genovese et al. (2012)、Aamari & Levrard (2019)、Divol (2021a)等。聚焦于流形本身(点集)的估计,使用Hausdorff距离,或处理密度肩的Ridge(Chen et al., 2015)。密度估计是间接或次要目标。
- 线索二:基于流形的生成模型:GAN(Arjovsky & Bottou, 2017; Radford et al., 2015)、Normalizing Flows(Rezende & Mohamed, 2015)、在流形上的扩散模型(Mathieu & Nickel, 2020, Horvat & Pfister 2021a,b)。这些方法为深度生成方法,侧重于采样和表示学习,而非理论上的minimax率。
- 线索三:奇异支撑的贝叶斯非参数密度估计:Mukhopadhyay et al. (2020) 用Fisher-Gaussian核;Ghosal & Van Der Vaart (2007),Kruijer et al. (2010),Shen et al. (2013) 用Gaussian mixture。理论较完善,但要么支撑为光滑(非奇异),要么需支撑流形无(或很小)偏移。
- 线索四:本论文(Berenfeld, Rosa, Rousseau 2025) 独特地将“未知流形偏移”上的各向异性Hölder密度与“location-scale Gaussian mixture”贝叶斯先验结合,并用新定义的光滑度刻画收敛率。它在理论上增强了线索三,在设定上连接了线索一。
核心追问与瓶颈¶
这个方向在追问的核心问题包括: 1. 偏移宽度r趋近于0时的最优率:当数据越来越接近一个低维流形时(r→0),最优收敛率会退化到什么程度?传统Hölder类不适用,因为它要求法向也光滑,而这在近流形时极难满足或需要巨大样本量才能“看到”。本文用各向异性定义回避了这个问题,但率随r变化。 2. 自适应与minimax性:能否设计一个单一估计器,同时适应于未知的流形内在维度d、未知的各向异性光滑度(β1, β2)以及未知的偏移宽度r?本文的贝叶斯程序对此给出了肯定的回答(偏移非极小时)。 3. 支撑边界的处理:当流形有边界或密度在边界附近非零时(如形式为f(x)∝1),Wiener过程逼近的Heisenberg不确定性原理会导致额外困难。这是作者的future work中的开放问题(引Berry & Sauer 2017)。 4. 贝叶斯程序的计算可行性:虽然本文的Gibbs-type程序(基于位置-尺度混合)提供了后验采样,但与深度生成模型(如GANs/Flows)相比,在处理高维大规模D(观测维度)时的扩展性可能不足,而深度生成模型的问题在于缺乏对这种奇异支撑的理论保证。
⚠️ 作者的framing¶
-
作者把缺口frame成:“现有的贝叶斯非参数方法(如Kruijer等,2010; Shen等,2013)假设支撑为整个空间或高维流形,而现有的流形估计方法(如Genovese等,2012)只估计流形本身,不估计密度。我们需要一个统一理论来处理偏移宽度r可以趋于零的未知子流形上的密度估计”。作者的论文填补了这一空白,“显然是下一步”。
-
他淡化或回避的竞争路线:
- 作者在intro中重点对比的是 ① 传统的高斯混合(需要支撑全局光滑)和 ② 专用生成模型(缺乏理论保证)。它似乎回避了专门用于流形上密度估计的 kernel密度估计(KDE)与流形几何结合的方法(如Berry & Sauer 2017 的有边界情况,或基于laplacian eigenmaps的非参回归),而集中火力在location-scale Gaussian mixture上。这可能是因为KDE方法在自适应性和奇异支撑的理论分析上更复杂。
- 作者也回避了与深度扩散模型(在流形上学习)的深度对比,虽然提到它们。它们主要在应用领域(如图像、3D点云)很火,但缺乏如本文一样的minimax rate一致性结果。作者也许认为两种范式正交。
-
什么明显该被引/该存在、却没出现在intro里?
- 考虑到题目“Estimating a density near an unknown manifold”,而作者使用了location scale mixture。一个重要、但并未被检索的被引工作是:Frequentist adaptive density estimation without manifold structure (e.g., Goldenshluger & Lepski 2011, 2014) 或类似方法。如果退化到 r 很大(不再奇异),本文的率应该匹配这些已知的平面自适应率。似乎没有专门去检验这一点。
- 另外,对随机矩阵理论/高维PCA相关工作,或在流形假设下通过随机投影进行降维的理论(如混合因子分析,Chen et al. 2010),没有被引。这些可能为未来研究流形未知时的计算复杂性提供线索。
-
张力:未见明显对立引用。各条线索之间基本是互补而非冲突。
二、最核心、最简单的例子 / 数学问题(最小内核)¶
第一步:符号、模型与可观测数据¶
- 观测空间:\( \mathcal{X} = \mathbb{R}^D \),其中 \(D\) 是数据观测空间维数(可能很大)。
- 内在流形:\(M \subset \mathbb{R}^D\),是一个未知的 \(d\) 维光滑子流形。\(d\) 是内在(intrinsic)维度,满足 \(d \ll D\)。流形满足一定的几何正则性(如reach条件,保证有唯一最近邻,且曲率有界)。
- 偏移集:\( M^{\oplus r} = \{x \in \mathbb{R}^D : \text{dist}(x, M) < r \} \),即到 \(M\) 的 Euclidean 距离小于 \(r\) 的区域。\(r\) 是偏移宽度(offset thickness,或称管径),是正的参数,但被允许随着样本量 \(n\) 趋于0而变小。
- 数据分布:\(X_1, X_2, \dots, X_n \sim P_0\),其密度 \(f_0\) 的支撑位于 \(M^{\oplus r}\) 内。 这是可观测的样本。
- 目标estimand:密度函数 \(f_0: M^{\oplus r} \to \mathbb{R}^+\)。 这是不可直接观测的;我们希望从样本中逼近它。
- 贝叶斯先验:\( \Pi \) 是关于 \(f\) (通过location-scale Gaussian mixture的参数形式)的先验分布。
- 后验收敛:\(P_0\): \( \Pi(P: h(P, P_0) > \epsilon_n | X_1,...,X_n) \to 0 \) 的概率。 \(h\)是Hellinger距离。\(\epsilon_n\)是收敛率。
第二步:最简特例(D=2, d=1, r>0 固定的小偏移)¶
假设我们想估计一个在平面上的一条曲线附近生成的点的密度。
-
简化设定:
- \(D = 2, d = 1\):观测点在 \( \mathbb{R}^2 \) 中,内在流形 \(M\) 是一条一维的光滑曲线(例如正弦曲线 \(y = \sin x\) 的一部分)。流形未知。
- \(r\) :点沿着垂直于曲线的法线方向从流形上偏移出去,其距离均匀分布在 \((-r, r)\) 内(即偏移宽度为 \(r\))。
- \(f_0\) :密度在沿曲线长度(切向)上是均匀的,或是在法向上比较平滑(例如高斯或平坦)。沿切向的Hölder光滑度 \(\beta_1 = \infty\)(即完全光滑),沿法向的Hölder光滑度 \(\beta_2 > 0\) 决定它沿法向如何变化。
-
为什么这是”最小内核“?
- 这个简单例子体现了本文的核心困难:
- 流形“M”未知:我们不知道曲线在哪。
- 各向异性结构:目标密度 \(f_0\)沿着曲线的一维切向是平滑的,但一旦偏离曲线,沿着法向就有一个宽度 \(r\) 的快速下降(或均匀分布)。
- 本文的核心思路(在这个例子中):用一个location-scale Gaussian mixture 来逼近这个密度。关键点:每个混合成分是一个“高斯疙瘩”。这个高斯疙瘩的协方差矩阵 \(\Sigma\) 有方向性。在切向方向,该矩阵的 “尺度”(即沿该方向的标准差)可以很大(因为密度在切向上的变化很小);在法向方向,该矩阵的尺度必须很小(因为宽度 \(r\) 很小,这说明分布只在法向方向上变化很小)。所以,一个简单的 \(\Sigma\) 可以自然地(latently)揭示沿曲线方向和法线方向的不同变化尺度。
- 在该特例下,一般证明退化成的核心命题:
- 在一般的D维情况下,证明使用location-scale混合,构造的分布族权重、均值、协方差矩阵在参数空间上的分布,使得当\(r\) 不是特别小(相对于 \(n^{-\frac{2}{d + \text{polish}}\))时,对任意的满足各向异性Hölder条件(具光滑度 \(\beta_1\)沿切向, \(\beta_2\)沿法向)的密度 \(f_0\),后验收敛率可以达到:
\[\epsilon_n \asymp n^{-\frac{\beta_1 + \beta_2}{d + 2\beta_1 + 2\beta_2}} \log n\]
- 在D=2, d=1的特例下,这个率退化成
\[\epsilon_n \asymp n^{-\frac{\beta_1 + \beta_2}{1 + 2\beta_1 + 2\beta_2}} \log n\]
- 如果\(\beta_1\)很大(切向非常平滑),则近似为 \(n^{-\frac{1}{2} + \text{小心}}\),接近经典的一维Hölder \(beta\) 类的minimax率。
- 如果\(r \to 0\), 则法向光滑度 \(\beta_2\) 在极限情况下退化为一个点,整个问题变成“估计一个一维流形上的密度”,此时率退化成 \(n^{-\frac{\beta_1}{1+2\beta_1}}\log n\)。证明在 \(n\)和 \(r\) 的相互作用中非常关键。 在这个特例下,证明的核心是表明:即使只有一条平滑曲线,先验不会过度惩罚那些在法向方向使用“过大”标度的成分,当且仅当偏移宽度较小时。作者通过一个精心构造的先验(指定混合成分的均值、尺度以及它们的先验分布(如Dirichlet过程或类似结构))来自适应不同方向和尺度上的光滑度。
- 在一般的D维情况下,证明使用location-scale混合,构造的分布族权重、均值、协方差矩阵在参数空间上的分布,使得当\(r\) 不是特别小(相对于 \(n^{-\frac{2}{d + \text{polish}}\))时,对任意的满足各向异性Hölder条件(具光滑度 \(\beta_1\)沿切向, \(\beta_2\)沿法向)的密度 \(f_0\),后验收敛率可以达到:
- 这个简单例子体现了本文的核心困难:
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在未知子流形的偏移集(偏移宽度为\(r\),可随样本量趋于0)上,对密度进行贝叶斯非参数估计,使后验收敛率适应于未知流形内在维度\(d\)、各向异性Hölder光滑度(\(\beta_1, \beta_2\))和偏移宽度\(r\)。
- 核心工具/方法:一种location-scale Gaussian mixture先验,通过灵活地控制Gaussian成分的协方差矩阵 \(\Sigma\) 来“发现”并适应各向异性结构。采用Dirichlet过程或类似过程指定每个混合成分参量。证明基于后验收敛率的标准三明治技巧:先逼近(先验mass集中)、再计算边缘度量的覆盖率。
- 主要结论:后验收敛率在偏移宽度\(r\)非极小(即\(r \gtrsim n^{-(\beta_1 + \beta_2)/(d+2\beta_1+2\beta_2)}\))时达到minimax最优(模对数因子);当\(r\)更小或趋于0时,率退化到本文声称的“suboptimal but reasonable”速度,并在数值实验中展示了相当好的表现。
关键设定与假设¶
记:\(X_1,...,X_n \sim P_0\) with density \(p_0\) supported on \(M^{\oplus r}\).
- Assumption 1: 流形正则性:\(M\) 是一个 \(d\)维紧的 \(\mathcal{C}^k\) (k>=2) 光滑流形,有正的reach \( \tau >0 \)。
- 统计含义:确保法线方向唯一、流形曲率有界,可以使用经典的流形几何工具(如投影算子)。
- Assumption 2 (各向异性Hölder类 \( \mathcal{H}^{\beta_1, \beta_2}_d(M, r) \) :这个新定义是论文的基石。
- 定义:对任意 \(x \in M\),给定其沿切向(至多 \(\beta_1 >0\)阶)和沿法向(至多 \(\beta_2 >0\)阶)的导数约束。关键的直觉是:密度沿切向的变化像\(\beta_1\)-Hölder函数,沿法向像\(\beta_2\)-Hölder函数。
- 相比已有文献:该定义融合了流形的内在结构Hölder性(近似于Shen等2013的各向同/异Hölder)和偏移几何(需要在沿法向方向有“好的”行为)。它放松了要求密度在豪斯多夫拓扑下光滑的强假设。
- Assumption 3 (先验的构造): 先验 \(\Pi\)是在一个高维参数向量空间上的某个特定构造,具体地说,用 Dirichlet过程混合实现位置-尺度高斯。
- 位置(mean)和协方差矩阵(scale)上的先验允许后有更灵活的自适应。
- 此先验包含超参数控制光滑性。文中假设该先验是smoothness-adaptive的(意味着,对应于各向异性光滑性的隐参数会被贝叶斯自动“发现”)。
- 其他常规性假设:紧支撑或指数尾、核函数光滑性、带宽/权重适当支持范围。
主要结果¶
- 定理1 (仓室式先验下的后验收敛率):
在假设1,2,3及一些技术细节(如先验的mass集中条件)下,存在一个常数 \(C>0\),使得后验分布的Hellinger距离为\[\mathbb{E}_0[\Pi(p: h(p, p_0) > \epsilon_n | X^n) ] \to 0\]其中
\[\epsilon_n = O(n^{-\frac{\beta_1+\beta_2}{d+2\beta_1+2\beta_2}} \log^t n)\]要求偏移宽度\(r\)满足 \(r \gtrsim n^{-(\beta_1+\beta_2)/(d+ 2(\beta_1+\beta_2))}\)。- 定理1的直觉:如果你想在法向方向收敛得像一个 \( \beta_2\)-Hölder函数,但同时需要探测到流形切线上变化极为缓慢(\(\beta_1\) 大)的特性。偏移宽度 \(r\) 不能太小,以致于在法向上只需少量样本就能感知其结构;法向的信息量限制了总的收敛率。
- 必要条件:满足\(r \gtrsim n^{-(\beta_1+\beta_2)/(d+2(\beta_1+\beta_2))}\)。这防止了只有切向的信息去估计法向的结构。
- 定理2 (自适应与minimax最优性):
在定理1的相同假设下,该率是minimax最优的(模对数因子)。即存在minimax lower bound,与以上率(忽略log因子)匹配。- 证明路线:对于下界,使用构造问题(类似Fano/Assouad论证),将问题简化到创造一个严谨的回归/分类问题,或通过各向异性形式检验信息矩阵的迹。Minimax rate由内在维度 \(d\) 和两个光滑度参数共同决定。
- 定理3 (当r非常小、趋向于0时的行为):
当 \(r\)相比定理1的条件更小(但仍允许趋于0)时,后验收敛率退化至
\[\epsilon_n = O(n^{-\frac{\beta_1}{d+2\beta_1}} \log^t n)\]
这是不是minimax最优的(对于该r, 特征则是一个“manifold”)。然而,作者认为这是最合理的“自适应”结果,因为此时算法被迫在法向上“收缩”到流形上。- 这里存在一个已知gap(降级为猜测):(原文阐述)“我们猜测当r很小时,这是最优率,并且对应了一个标志着从'偏置正则'过渡到'法向噪声主导'的统计相变,有待后续证明”。
证明路线与技术技巧¶
总体路线(三个主要模块):
- 模块A:逼近(Approximation):证明任何满足各向异性Hölder类\(\mathcal{H}^{\beta_1,\beta_2}\)的密度 \(p_0\) 可以被一个有限阶的location-scale Gaussian mixture(适当的阶和参数)任意好地逼近(在Hellinger距离下)。这个逼近的误差(偏差项)被上界\(\epsilon_n\)控制。
- 模块B:先验质量集中(Prior Mass Concentration):证明在参数空间的一个“好”子集\(\Theta_n\)上,先验密度足够高(即,一旦正确的逼近似阶和尺度已知,先验就不会太分散)。通过构造一个紧密的覆盖(sieves)并在其上控制先验KL散度来实现。这背后是贝叶斯非参数理论的经典“一般性后验收敛定理”。
- 模块C:张成变换与各向异性处理: 这是本论文最独特的步骤。如何让单个的先验(对所有方向平等)适应于这些各向异性尺度?关键点在于对每个混合成分的协方差矩阵 \(\Sigma\) 给定一个“缩放”机制:在参数空间中,协方差矩阵被分解成沿切向的弹性部分和沿法向的刚性(较小)部分。该证明运用了“Siebert 技巧”和对于不同方向上尺度参数相应因子的加权度量熵的计算。
关键跳跃点: - 逼近与Siec的熵计算:这是最吃功的部分。构造一个先验。为了计算出距离 \(p_0\) 的Hellinger距离的覆盖数(metric entropy),需要将参数空间(位置、尺度)投影到流形上并用流形的几何(reach、切平面)来解释。经典的非参数典熵计算(如van der Vaart的文本)假定“整体支撑平滑”,但这里流形未知、偏移是各向同性的,所以必须同时处理两个不同光滑度。 - 作者如何绕过:他们定义了一个广义(1型/2型)Hölder空间,并证明了该先验在黎曼度规下可以正确“切掉”法向方差,并利用更精细的上界来控制覆盖数。
- 关键技术技巧点名:
- 度量熵上界(Metric Entropy)使用Gaston, Gine的严格bound;用于计算参数空间的复杂性。
- Siebert引理 / Bernstein's inequality的变体处理后验溢出。
- Empirical process理论: 用于控制KL散度下基于Hellinger距离的区间。
- Dirichlet Process的筛子技巧(Ghosal, van der Vaart等):构造一个可数且紧的“缩窄”的 \(\Theta_n\)。
- 流形几何(Reach/曲线性):在计算协方差矩阵在切空间上的投影并分析它时使用。核心引理(Lemma A.1)引用了Alexander and Bishop (2006) 关于曲率有界流形上的切线空间变化的引理。
真实例子与应用¶
- 本文有实证例子。作者使用Python包pyro实现了一个Stochastic Variational Inference (SVI) 程序来拟合Location-scale Gaussian mixture模型。这不是完全的MCMC后验采样,而是近似;但Pyro的灵活性使作者可以指定复杂的各向异性高斯。
-
数据/场景:两个仿真实验(Synthetic examples)加上一个真实数据应用:
- 简单二维S-型曲线(S-curve):内在维度 \(d=2\), 观测维度 \(D=3\)。数据生成自S形流形,加了一个小的高斯噪声(偏移宽度r小)。本文方法与标准(各向同性)高斯混合模型对比。结果:各向异性方法能更好地“贴附”在流形结构上,而各向同性方法会在流形外部的空洞里造成虚假模式。
- 正弦曲线: \(d=1, D=2\)。不同噪音水平。数值验证了框架在不同r下的行为。展示了即使在使用近似推断(SVI)下,结论仍与理论直觉一致。
- 风速风向数据(Wind Speed and Direction): 这是真实数据的一个简单例子。时间序列是在英国海上测得的风速和风向联合分布。此数据总能视为在每个时间点位于 \(f\((速度, 方向)在二维圆环上\)。但这对于作者的设定而言,无非是支撑在圆柱(或圆环)上的“管”状支撑数据。结果:与Fisher-Gaussian核相比取得可比但略微更稳健的表现(在log-predictive density上)。
-
说明目标:验证理论上的“simple Gaussian mixtures can lead to good... results”的论点,并证明在实际应用中该混合模型的方法是可操作的、合理的。与Mukhopadhyay et al. (2020)的Fisher-Gaussian对比时,本文方法得到了不相上下甚至更好的结果,表明Manifold offset设定下, location-scale Gaussian mixture就足以应付省更复杂的专用核。
🔎 结论是否比证明窄¶
- 是的,有部分结论比证明窄:
- 定理3(当r非常小时)明确注明是“猜测性”的,且并非minimax最优(只是合理)。换言之,其声称的exit rate \(O(n^{-\beta_1/(d+2\beta_1)})\)尚没有被完全证明是对应情况下的下界(minimax lower bound)。他们(在引理或断言后的阐述中)说“ 我们并未在此展示下界,但这可能是未来工作”。
- 实验部分主要依赖SVI近似(不是完全后验采样)。虽然结果上支持结论,但该方法与理论证明中假设的精确后验(full MCMC/DPM sampling)是两回事。算法实施后可能产生的不确定性(variational gap)并没有在理论部分给出严格的保证。
四、开放问题(扎根具体语句)¶
-
边界行为(Boundary/Edge):当流形有边界,且密度在边界附近不为零时(即支撑S紧靠边界,离流形外部空间有一jump)会如何?作者在Future Work中写道:“It is not clear that Gaussian mixtures are well behaved to estimate densities which do not vanish near the boundaries, for instance as in Berry and Sauer (2017) in the frequentist case”。此处的定理并未覆盖。
-
极小的r时的最优minimax率:定理3中的结论(当r很小的快收敛率)是“猜想”(作者称之为“suboptimal but reasonable”),给出了率的猜测,但并没有证明其minimax worst-case rate。这是一个非常直接的开放计算问题——用标准构造法找一个下界。
-
频率学派估计器的收敛率:《主要结果》展示贝叶斯方法后验收敛。但若考虑一个频率学派对该模型的MLE(或penalized MLE),其收敛率几何?原文对此保持沉默,尽管在引言中指出许多类似工作是用贝叶斯或自适应的频率派方法。这类似于一个“光滑度-参数双重识别”时的统计挑战。
-
参数化空间中的计算效率:作者说“due to the complexity of the MCMC, we used SVI instead”。这提出了一个处理奇异支撑时,贝叶斯精确推断的计算费用问题。何时可以保证完全的Gibbs后验与近似变分后验的差距能控制在理论范围内?这是一个结合计算复杂性的开放问题。
Maintained by 陈星宇 · Homepage · Source on GitHub