Logistic Gaussian process density regression: a generalized Bayesian approach¶
作者: Zichuan Chen, Lucas Kock, Jeong Eun Lee, David J. Nott
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.22915
一、领域脉络与小综述¶
这个方向是什么¶
密度回归(Density Regression)的目标是让响应变量的整个条件分布随协变量灵活变化,而非仅建模低阶矩(均值、方差)。在贝叶斯框架下,一个主流做法是使用逻辑高斯过程(Logistic Gaussian Process, LGP)先验:将响应变量变换到单位区间后,对某潜函数 \(f\) 赋予高斯过程先验,再通过指数与归一化构造条件密度。该方向已有数十年发展,但计算瓶颈始终突出:由于每个观测对应一个不同的归一化常数 \(\int_0^1 \exp(f(S(x),z))\,dz\),必须数值积分,导致难以扩展到大数据。当前的非参数密度回归方法按先验类型可分为两支:LGP 分支(Tokdar et al., 2010 为代表)和 Dirichlet Process(DP)分支(如依赖 DP);前者的优势是容易中心化于参数模型,进行模型批评(model criticism),但计算更重。
发展脉络(由引用句定位)¶
-
奠基工作(单变量密度估计,非回归):Leonard (1978) 首次将逻辑高斯过程用于密度估计,Lenk (1988, 1991) 和 Verdinelli & Wasserman (1998) 发展了计算与理论。这些工作奠定了“用 GP 控制对数密度形状”的基本思路,但仅处理无协变量的密度估计,且计算量随样本量急剧增加。
-
密度回归的提出:Tokdar et al. (2010) 将 LGP 拓展到密度回归,引入变换 \(w=S(x)\) 和累积分布变换 \(z=G(y|x)\),使潜函数定义在紧集上,并证明重尾基模型下后验一致(其 Theorem 3.1)。他们的计算采用低秩 GP 近似 + MCMC + 数值积分(每个 likelihood 项都需要数值积分),虽然理论上漂亮,但计算缓慢。Tokdar (2007) 已对此前密度估计版本的低秩近似节点选择给出详细指导。Tokdar & Ghosh (2007) 提供了后验一致性的理论。
-
同时期的替代路线:Kundu & Dunson (2014) 提出用潜因子变换加误差项实现密度回归,也可中心化于参数模型,但涉及观测级潜变量,MCMC 难以扩展。作者称“With high-dimensional covariates, their model can be used in a latent factor formulation … Doing so would be an interesting direction for future work, but we do not address it here.” 这表明该路线同样面临可扩展性瓶颈。
-
DP 分支:依赖 Dirichlet Process(MacEachern, 1999, 2000)及其变体(De Iorio et al., 2004; Griffin & Steel, 2006; Dunson et al., 2007)是另一大类。作者明确说明:“For most DP-based methods, it is difficult to centre the nonparametric prior on a parametric regression model.” ——这是 LGP 路线对 DP 路线的核心优势,也是本文聚焦 LGP 的理由。
-
广义贝叶斯与得分匹配(Hyvärinen score / Fisher divergence)路线:近年来,为避开归一化常数,广义贝叶斯(Bissiri et al., 2016; Knoblauch et al., 2022)结合各种得分作为损失函数兴起。Matsubara et al. (2022) 使用核 Stein 差异;Barp et al. (2019) 提出最小 Stein 差异估计;Altamirano et al. (2023, 2024) 将类似思想用于变点检测和 GP 回归;Bharti et al. (2026) 用于模拟推断。Jewson & Rossell (2022) 讨论 Hyvärinen score 用于模型选择。最直接相关的是 Paisley et al. (2025),他们将 Fisher 散度用于 LGP 密度估计(非回归),并使用随机傅里叶特征近似 GP;作者指出“Our approach has no restriction on the base density and considers density regression and not just density estimation.” 这是本文与其关键区别。
-
本文位置:在 LGP 密度回归的框架下,用广义贝叶斯替换标准贝叶斯,以 Hyvärinen score 作为损失,消除归一化常数;同时将稀疏诱导点变分推断(借鉴 Dezfouli & Bonilla, 2015 的黑盒策略)推广到导数 \(f_z\) 的诱导点,避免原函数的复杂结构。本质上,这是将“无归一化常数”的得分匹配思想嵌入 LGP 回归,并搭配大数据的计算方案。
子线索聚类¶
- LGP 密度估计/回归的传统计算路线:Leonard (1978), Tokdar (2007), Tokdar et al. (2010), Riihimäki & Vehtari (2014), Murray et al. (2008), Donner & Opper (2018)。共同特征:需要数值积分,MCMC 或 Laplace 近似,难以扩展。
- 广义贝叶斯 + 得分匹配避免归一化常数:Bissiri et al. (2016), Knoblauch et al. (2022) 提供框架;Hyvärinen (2005) 提出原始得分匹配;Matsubara et al. (2022), Barp et al. (2019), Altamirano et al. (2023, 2024), Bharti et al. (2026), Jewson & Rossell (2022) 等将类似思想用于各种模型。这些方法通常不需要归一化常数,但对具体模型如何结合有差异。
- 稀疏 GP 与变分推断:Titsias (2009) 经典的诱导点变分框架;Dezfouli & Bonilla (2015) 将其扩展到“黑盒”似然(高斯混合变分后验)。本文的变分近似直接继承后者,但将诱导变量从 \(f\) 改为 \(f_z\)。
- 基于 DP 的密度回归:MacEachern (1999, 2000), De Iorio et al. (2004), Griffin & Steel (2006), Dunson et al. (2007)。该路线与 LGP 路线竞争,但难以中心化于参数模型(作者强调这一点)。
核心追问与已知瓶颈¶
这个方向在追问 2-4 个核心问题: - 问题 1:如何避免观测级归一化常数的计算,从而让 LGP 密度回归扩展到大数据? - 主流方法:Tokdar et al. (2010) 用固定网格数值积分,慢且繁琐。 - 问题 2:如何在不损失可解释性的前提下,实现可扩展的非参数密度回归? - 主流方法:DP 方法难以中心化;Kundu & Dunson (2014) 涉及潜在变量难以抽样。 - 问题 3:如何在高维协变量下保持计算可行?(Tokdar et al. 2010 推荐子空间投影,但本文未处理) - 问题 4:这种广义贝叶斯后验的频域理论性质(收敛速率、一致性)能否建立? - 当前状态:本文是纯方法 + 实证,无理论保证。
⚠️ 作者的 framing(必须明确标注为作者的说法)¶
-
缺口被 frame 成:“logistic GP density regression methods lead to computational difficulties, since the likelihood terms contain observation-specific normalizing constants … This makes these regression density estimation methods hard to scale to large datasets.” 作者声称 Hyvärinen score 彻底消除了归一化常数,且其稀疏诱导点方法可扩展到 15 万观测。竞争路线(Paisley et al., 2025)被定位为“限于密度估计和高斯基密度”,因此本文是“显然的下一步”。
-
被淡化/回避的竞争路线:① Kundu & Dunson (2014) 的潜在因子方法——作者只说了“makes it hard to scale the approach to large datasets; doing so would be an interesting direction for future work, but we do not address it here.” 未讨论将其与本文方法结合或对比的潜力。② DP 方法的可扩展变体(如截断 stick-breaking、变分 DP)未提及。③ 其他大数据 GP 近似(如 KISS-GP、SVGP 的通用模型,而非针对导数)未被引用或比较。
-
什么明显该被引 / 该存在、却没出现:没有引用关于“学习率 β 选择理论”的更近工作(Wu & Martin, 2023 虽被引,但未深入);没有引用关于“概率积分变换下的密度回归”的近期理论工作(如验证后验集中率的);没有与“深度高斯过程”或“神经正切核”对比(但这些可能超出范围)。值得研究者去查:是否有使用 Stein's method 来判断广义后验集中率的理论工作,尤其是针对 Fisher 散度损失函数的。
张力¶
未见明显对立引用。被引文献之间(Tokdar et al. 2010 vs. Kundu & Dunson 2014)只是不同建模选择,并非矛盾。在 Hyvärinen score 路线上,Paisley et al. (2025) 与本文是密度估计 vs. 密度回归的延伸,也无冲突。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号(逐个点名,本文核心记号):
| 符号 | 含义 | 类型 |
|---|---|---|
| \(x \in \mathbb{R}^d\) | 协变量向量 | 可观测随机变量 |
| \(y \in \mathbb{R}\) | 响应变量 | 可观测随机变量 |
| \(S(x)\) | 将 \(x\) 映射到紧集 \([0,1]^d\) 的变换 | 确定性函数(用户指定) |
| \(w = S(x) \in [0,1]^d\) | 变换后的协变量 | 可观测 |
| (g(y | x)) | 基密度模型(已知参数形式,如正态或 t-分布) |
| (G(y | x)) | 基累积分布函数 |
| (z = G(y | x) \in [0,1]) | 概率积分变换后的值 |
| \(v = (w^\top, z)^\top \in [0,1]^{d+1}\) | 潜函数的输入 | 可观测 |
| \(f(v)\) | 潜函数,GP 先验 | 不可观测,待推断 |
| \(f_z(v), f_{zz}(v)\) | \(f\) 对 \(z\) 的一阶、二阶偏导 | 不可观测(但可通过 GP 导数性质联合建模) |
| (h(y | x,f)) | 模型定义的条件密度 |
| \(\sigma^2, \theta\) | GP 协方差的尺度与长度尺度参数 | 超参数(点估计或积分) |
| \(\beta\) | 广义贝叶斯的学习率 | 超参数(需选择) |
| \(n\) | 样本量 | 标量 |
| \(m\) | 诱导点数 | 超参数 |
模型(数据生成机制): - 真实数据来自某个未知条件密度 \(h_0(y|x)\)。 - 我们采用 Tokdar et al. (2010) 的参数化:
可观测数据: - 我们观测到 \((x_i, y_i), \; i=1,\dots,n\)。 - 从中可以计算 \(w_i = S(x_i)\),进而用参数化基模型计算 \(z_i = G(y_i|x_i)\),得到 \(v_i = (w_i^\top, z_i)^\top\)。 - 无法直接观测的是潜函数 \(f\) 及其在各个 \(v_i\) 处的值,以及归一化常数 \(c(x_i, f) = \int_0^1 \exp(f(w_i, z))\,dz\)。
关键困难:归一化常数依赖于 \(f\) 和 \(x\),且无法解析,在标准 Bayesian 推断中必须对每个观测数值积分。
第二步:讲最小内核——最简特例(d=1, 线性均值, 基模型为正态)¶
假设 \(d=1\),协变量 \(x\) 均匀分布于 \([0,1]\),无需额外压缩 \((S(x)=x)\)。响应变量 \(y\) 是连续的,我们定义一个简单的 高斯基模型:
按照模型定义,令 \(z = G(y|x)\) 为标准正态 CDF 在标准化残差处的值。潜函数 \(f(x,z)\) 有零均值 GP 先验,协方差(高斯型):
在标准贝叶斯下,每个观测 \((x_i,y_i)\) 的似然包含一个不同的积分 \(\int_0^1 \exp(f(x_i, u))\,du\),无法共用,必须对每个 \(i\) 单独数值积分 —— 这是计算瓶颈。
本文核心想法:改用 Hyvärinen score 作为损失函数。对数密度为
为什么这还是可计算的? 因为 \((f, f_z, f_{zz})\) 是多元 GP,其协方差已知(由 \(\Delta\) 及其导数给出),所以 \(\pi(f_z,f_{zz})\) 是高斯过程。损失项 \(H\) 是 \(f_z\) 和 \(f_{zz}\) 的二次函数(因为 \(f_z\) 和 \(f_{zz}\) 通过导数关系线性出现在 \(\ell_y, \ell_{yy}\) 中;可验证展开后是二次型)。因此,广义后验相当于在 GP 先验下观测到一个带二次损失的“伪似然”,整个推断可避开归一化常数。
为计算可扩展:需要处理 GP 本身的大 \(n\) 问题。本文选择对 \(f_z\) 引入诱导点(而非 \(f\)),因为目标仅依赖 \(f_z, f_{zz}\);再用高斯混合变分近似诱导点分布,最终实现可扩展优化。
最小内核总结:因为 Hyvärinen score 只与 \(f_z, f_{zz}\) 有关,而 \(f_z, f_{zz}\) 的联合先验可从 GP 解析得到,所以整个推断既无需数值积分归一化常数,又可通过诱导点+变分将计算复杂度降低到 \(O(nm^2)\) 量级(\(m\ll n\))。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:克服逻辑高斯过程密度回归中观测级归一化常数导致的计算困难,使其适用于大规模数据集(>15万观测)。
- 核心工具/方法:提出广义贝叶斯框架,以 Hyvärinen score(Fisher 散度) 作为损失函数,消除归一化常数;结合基于导数 \(f_z\) 的稀疏诱导点变分推断,实现可扩展推断;通过交叉验证选择 GP 核参数和学习率 \(\beta\)。
- 主要结论:在模拟和一个大型德国天气数据集(n>150k)以及一个 Gini 指数数据集上,该方法在 log-score 和 RMSE 上显著优于所批评的参数基模型,并提供了可解释的模型批评(通过 \(\exp(f_0)\) 展示校正形状)。
关键设定与假设¶
- 完整模型:同第二节,但一般化为 \(d\) 维协变量,通过 \(S(x)\) 映射到紧集。
- 假设清单:
- 基密度 \(g(y|x)\) 参数形式已知且重尾(作者推荐使用 \(t_3\) 或扩散 beta,以满足 Tokdar et al. (2010) Theorem 3.1 的后验一致性条件)。
- GP 协方差函数为高斯型(均方可微两次,以保证 \(f_z, f_{zz}\) 存在且为 GP)。
- 诱导点位置通过 k-means 从训练数据中选取(固定,不优化)。
- 变分后验中 \(f_z\) 的诱导值 \(\tilde{f}_z\) 采用高斯混合近似,但混合成分权重固定为相等(\(w_k=1/C\)),协方差矩阵限制为对角。
- 对 \(f_{zz}\) 采用条件期望插补(公式 7),仅基于 \(\tilde{f}_z\) 的均值确定性计算,而非作为独立随机变量。
-
学习率 \(\beta\) 通过 3 折交叉验证选择(拉丁超立方采样候选组合)。
-
相比已有文献放宽或强化:
- 放宽:相比 Tokdar et al. (2010),不需要数值积分;相比 Paisley et al. (2025),不限于高斯基密度,且处理密度回归而非仅密度估计。
- 强化/新增:必须保证 GP 导数协方差解析可知(高斯核满足);基模型需扩散+重尾(Tokdar 只要求重尾,本文加强推荐重尾以改善边界行为)。
主要结果¶
理论:本文无新定理。唯一引用的理论是 Tokdar et al. (2010) Theorem 3.1(后验一致性),作者只将其作为推荐重尾基模型的动机,未证明本文广义后验的任何性质。
实证(核心量化结果于 Table 1):
| 数据集 | 指标 | 基模型 | GPDR | 改善 |
|---|---|---|---|---|
| 模拟 (n=5000) | log-score ↑ | 20,168 | 53,628 | 极大提升 |
| 模拟 | RMSE ↓ | 0.1613 | 0.1161 | -28% |
| 模拟 | 95%覆盖率 | 0.9418 | 0.9569 | 更接近名义 |
| 模拟 | 95%区间长度 ↓ | 0.6057 | 0.4204 | -31% |
| 天气 (n=150k) | log-score ↑ | -13,072 | -11,100 | 提升 ~15% |
| 天气 | RMSE ↓ | 4.2602 | 4.0282 | -5.4% |
| 天气 | 95%覆盖率 | 0.9551 | 0.9607 | 接近 |
| 天气 | 95%区间长度 ↓ | 16.88 | 15.38 | -8.9% |
| Gini (n=1883) | log-score ↑ | 243.1 | 282.5 | 提升 ~16% |
| Gini | RMSE ↓ | 0.0777 | 0.0677 | -12.9% |
| Gini | 95%覆盖率 | 0.9286 | 0.9619 | 更接近名义 |
| Gini | 95%区间长度 ↓ | 0.2851 | 0.2716 | -4.7% |
关键可视化结果: - 图 1:对模拟数据,GPDR 预测密度几乎与真实密度重叠,而基模型(正态线性)严重偏差;\(\exp(f_0)\) 揭示了均值非线性与异方差的具体形状(三角形=过分散,偏斜=均值偏差)。 - 图 2:天气数据中,GPDR 预测密度比基模型更锐利(峰更靠近真实观测),且呈偏态。 - 图 3-4:天气数据的分位残差图显示基模型残差随均值增大而增宽(异方差缺失),GPDR 校正了这一点;随时间变化的预测区间宽度随季节变化(基模型假设恒定宽度)。 - 图 5:空间分析显示 GPDR 的标准差空间变化(沿海低、山地高),而基模型标准差固定(4.26°C)。 - 图 6-7:Gini 数据中,GPDR 密度偏离 Beta 基模型,分位残差趋势被消除。
证明路线与技术技巧¶
本文无严格渐近理论,但在方法论上有清晰的推导路线:
整体路线(方法构建):
- 模型设定:定义 LGP 密度回归模型(公式 1),写出对数密度 \(\ell(y|x,f)\) 并计算其对 \(y\) 的一阶、二阶导数(附录 A),得到 Hyvärinen score 中各项表达式,确认其仅含 \(f_z, f_{zz}\)。
- 广义贝叶斯后验:以平均 Hyvärinen score 作为损失,代入公式 (4)/(5),得到后验 \(\pi(f_z, f_{zz}|y) \propto \pi(f_z, f_{zz}) e^{-n\beta \ell(y,x,f_z,f_{zz})}\),其中先验由 GP 导数协方差给出。
- 变分近似:引入诱导点 \(\tilde{f}_z\)(对 \(f_z\),而非 \(f\)),构造增广后验(公式 6),采用结构化变分 \(q(\tilde{f}_z, f_z) = q(\tilde{f}_z) \pi(f_z | \tilde{f}_z)\)。对 \(q(\tilde{f}_z)\) 使用高斯混合(等权重、对角协方差)。
- 目标函数:推导变分下界 \(\mathcal{L}(\lambda)\)(公式 8),包含 KL 散度项和期望 Hyvärinen 损失。其中期望 Hyvärinen 损失是 \(\tilde{f}_z\) 的二次型(因为 \(H\) 是 \(f_z, f_{zz}\) 的二次型,且 \(f_{zz}\) 被条件期望插值(公式 7)线性依赖于 \(\tilde{f}_z\) 的均值)。
- 优化:KL 散度上界通过对各高斯分量的 KL 求和得到(Hershey & Olsen, 2007),每个分量 KL 为闭式(两个高斯之间的 KL)。整个目标可对 \(\lambda\) 求导,用 Adam 随机优化(Kingma & Ba, 2014)。
- 预测:对新点 \(\tilde{x}\),用条件期望由 \(\tilde{f}_z\) 均值预测 \(\tilde{f}\),进而通过离散求和近似归一化常数得到预测密度(公式略)。
关键跳跃点: - 从 \(f\) 到 \(f_z\) 的诱导点:因为损失只涉及 \(f_z, f_{zz}\),所以不需要推断 \(f\) 本身;这避免了为 \(f\) 设置诱导点(需考虑归一化常数带来的 intractable marginal)。作者选择对 \(f_z\) 的诱导点,使其自然适应损失的二次结构。 - 对 \(f_{zz}\) 的确定性插补(公式 7):不是将 \(f_{zz}\) 作为独立随机变量,而是直接用条件给定 \(\tilde{f}_z\) 均值的期望。这会引入近似误差,但使得目标函数完全由 \(\tilde{f}_z\) 的矩决定,简化计算(否则需要处理联合分布 \((f_z, f_{zz})\) 的变分)。 - 高斯混合变分后验:使用等权高斯混合对角协方差(C=1 或 3),利用 KL 上界(公式 12)得到可处理项。对于 C=1(模拟和天气数据),上界即为精确 KL,退化为标准变分 GP;对于 C=3(Gini 数据),更能拟合多模态性。
技术技巧点名: - Hyvärinen score:核心技巧,由其定义天然消除归一化常数。 - GP 导数协方差:高斯核解析可微,使得 \(f_z, f_{zz}\) 的联合先验是可计算的多元正态。 - 条件期望插补:用 \(E[f_{zz}|\tilde{f}_z]\) 代替随机 \(f_{zz}\),将问题降维。 - KL 上界(Hershey & Olsen, 2007):将混合高斯变分的不可处理 KL 拆分为各分量 KL 之和,保持可计算性。 - 拉丁超立方采样 + 交叉验证:选择 \(\beta\) 和核参数,而非贝叶斯积分。
真实例子与应用¶
三个例子均已在上文“主要结果”中覆盖,此处补充每个例子的具体设计:
-
模拟:n=5000 训练,50000 测试。真实 DGP:\(y|x \sim N(x+x^2, (0.2x)^2)\)。基模型 \(g_0\) 为 \(N(bx, \sigma^2)\)(误定:均值线性、方差恒定)。为满足重尾,GPDR 的基密度采用 \(t_3(bx, 3\sigma^2)\)(扩散 t 分布)。结果:GPDR 几乎恢复真实密度;\(\exp(f_0)\) 的三角形模式指征过分散(基模型高估不确定性)。说明:验证 GPDR 纠正严重误定的能力。
-
天气数据:n=150,985 训练,16,777 测试,协变量:day, longitude, latitude。基模型为带样条的加性高斯 GAM(\(y = \beta_0 + f_{\text{temp}}(day) + f_{\text{spat}}(lon,lat) + \varepsilon\))。GPDR 基密度为 \(t_3(\hat{\mu}(x), 3\hat{\sigma}^2)\)。结果:GPDR 在 log-score 和 RMSE 上均优于 GAM;分位残差图显示 GAM 的异方差被校正;时空预测区间宽度随位置变化。说明:展示 GPDR 在超大数据(>15万)上的可行性及捕捉异方差的能力。
-
Gini 数据:n=1883 训练,210 测试,5 个协变量(logGDP, urban, unemp, trade, year)。响应 Gini 指数在 [0,1];基模型为 Beta 回归。GPDR 基密度为 Beta(\(\mu_i \phi/2, (1-\mu_i)\phi/2\))。结果:GPDR 的 log-score 和 RMSE 优于 Beta 回归;分位残差趋势被消除。说明:验证 GPDR 对非高斯基模型的处理能力,以及中等样本、高维协变量下的实用性。
🔎 结论是否比证明窄¶
- 本文所有结论均为实证声明,未提供任何渐近理论框架。作者在讨论(Section 6)中明确说:“Establishing theoretical guarantees for Hyvärinen score generalized posteriors in logistic GP density regression would be valuable.” 这意味着当前论文的结论(“有效性”、“改进”)是基于有限模拟和两个实际数据,并非普遍可泛化的定理。
- 学习率 \(\beta\) 的选择通过交叉验证,没有理论最优保证;作者在 Section 3 只引用了两篇关于学习率选择的文献(Wu & Martin, 2023),但未深入讨论后者是否适用于 Hyvärinen score。
- 对 \(f_{zz}\) 的确定性插补(公式 7)引入了额外近似误差,但论文未量化该误差的影响。
- 高斯混合变分后验的 KL 上界(公式 12)在 C>1 时并非严格的下界,仅是一个近似;但论文中没有讨论这种近似如何影响预测性能。
四、开放问题¶
-
广义后验的频域一致性:本文方法完全依赖 Hyvärinen score 损失,但其广义后验是否在适当条件下以目标密度 \(h_0\) 的 Fisher 散度意义下收缩?Tokdar et al. (2010) 有标准似然的后验一致性定理,但对应 Hyvärinen score 的结果尚未建立。扎根:Section 6 第一句:“Establishing theoretical guarantees for Hyvärinen score generalized posteriors in logistic GP density regression would be valuable.”
-
高维协变量下的子空间投影扩展:Tokdar et al. (2010) 采用了子空间投影来处理高维 \(x\),本文未处理。在协变量维数增大时,本文方法是否仍然有效?需要与投影结合,并分析维数对诱导点数量、变分近似精度的影响。扎根:Section 6 第二句:“Extensions to high-dimensional covariates via subspace projections as in Tokdar et al. (2010) … are promising directions for future work.”
-
学习率 \(\beta\) 的理论选择:本文用交叉验证选 \(\beta\),但计算昂贵;是否存在理论指导的原则(如 PAC-Bayes 界或 Criterion-based calibration)更有效?扎根:Section 3 提到选择 \(\beta\) 的重要性,并引用了 Wu & Martin (2023) 等文献;但该方法并未提供理论指导。
-
对 \(f_{zz}\) 随机性处理的改进:本文用确定性插补(公式 7)而非完整变分推断。若将 \(f_{zz}\) 也视为随机变量并引入变分后验,能否提升预测质量?这需要处理更复杂的联合结构,但可能利用高阶 U-统计量/张量收缩的结构(与研究者背景的潜在连接)。扎根:公式 (7) 的定义及其“imputation”性质,以及附录 B 和 C 中未讨论其误差。
提醒:确认第 1 条是否是真 gap,可去读最近(2022-2025)关于 Fisher 散度广义贝叶斯的理论工作(如 Matsubara et al., 2022; 或 Altamirano et al. 2024 的理论部分),看是否已有类似 LGP 的结果。第 4 条与研究者对高阶 U-统计量(HOIF, 张量收缩)的熟悉度相关——\(f_{zz}\) 的变分推断本质上涉及协方差矩阵的块结构,可能用树宽/张量收缩来优化计算。
Maintained by 陈星宇 · Homepage · Source on GitHub