Misspecified Bernstein–von Mises theorem for hierarchical models¶
作者: Geerten Koers, Botond Szabó, Aad van der Vaart
来源: Bernoulli
主题: 其他
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
1.1 这个方向是什么¶
本文研究的根本问题是:在分层模型(hierarchical model)中,当模型被错误指定时,有限维参数的后验分布是否仍能由正态分布近似(Bernstein–von Mises 现象)。这是贝叶斯推断理论的基础问题,因为 BvM 定理是贝叶斯置信集具有频率学派覆盖性质的基石。该子方向的当前成熟度是理论清理阶段——参数正确指定情形下的 BvM 定理早已确立,非参数和半参数情形下的推广是近十年热点,但错误指定与分层结构的交叉处理仍不充分,本文试图填补这一缺口。
1.2 发展脉络¶
奠基工作: - Kleijn & van der Vaart (2012) [被引 [3]]:证明了参数 LAN 模型在错误指定下的 BvM 定理,给出了后验近似正态的条件——关键在于存在一致检验序列、且在 KL 散度最小点处先验质量不消失。留下口子:该结果是针对 i.i.d. 或独立同分布假设的,不能直接处理分层模型中的随机效应结构。
主要进展(三个子线索):
- 线索 A:非参数与半参数 BvM 定理(正确指定)
- Castillo & Nickl (2013, 2014) [被引 [7]]:将 BvM 推广至非参数高斯回归和 i.i.d. 密度估计,引入了多尺度空间,证明了后验收缩与最优频率置信带的存在。
- Castillo & Rousseau (2015) [被引 [8]]:处理半参数模型中光滑泛函的 BvM,提供了偏置控制的通用工具,覆盖了
L2范数等非线性泛函。 -
Leahu (2011) [被引 [11]]:在白噪声模型中研究了非参数 BvM 现象,指出只有当参数空间被合适嵌入先验支撑时,正结果的 BvM 才成立。
-
线索 B:反问题中的贝叶斯推断(正确指定)
- Nickl (2017, Schrödinger) [被引 [1]]:将 BvM 结果首次带入 PDE 反问题(稳态 Schrödinger 方程),证明了后验由具有“最小”协方差结构的无限维高斯测度逼近,该协方差在信息理论意义上是最优的。
- Monard, Nickl & Paternain (2021) [被引 [13]]:进一步建立了一般非线性反问题中光滑泛函的半参数 BvM 定理,覆盖了非阿贝尔 X 射线变换和椭圆 Schrödinger 方程。
- Kekkonen (2022) [被引 [16]]:推导了抛物型 PDE(热方程)反问题在吸收项恢复中的贝叶斯收缩速率,并给出了 minimax 下界,表明可按需选取截断高斯先验达到最优。
-
Koers, Szabó & van der Vaart (2024) [被引 [19]]:将非线性 PDE 反问题转化为线性反问题,证明即使先验放在解
u而非参数f上,也能恢复f并获得最优收缩速率与覆盖性质。这是本文作者的直接前期工作。 -
线索 C:错误指定的 BvM 理论(参数模型)
- Kleijn & van der Vaart (2012) [被引 [3]]:如上所述,参数 LAN 模型下的奠基性结果。
- Bochkina (2022) [被引 [18]]:综述了错误指定下贝叶斯方法的渐近与非渐近性质,总结了后验一致性条件和本地高斯近似失败的条件。
当前 frontier 与本文位置: 上述线索 A 和 B 主要处理正确指定的情形;线索 C 则停留在参数 i.i.d. 模型。本文的交集是:将错误指定 BvM 推广到非 i.i.d.、有限维参数的分层模型,并覆盖非线性反问题(平方积分算子、Schrödinger 方程、抛物型 PDE)。作者给的定位是“填补了错误指定分层模型的理论空白”。从脉络看,它继承了 Koers et al. (2024) 的“线性化”策略,但增加了错误指定的环节。
1.3 子线索聚类总结¶
| 子线索 | 代表性工作 | 处理的核心问题 | 留下的口子(本文填补了什么) |
|---|---|---|---|
| A. 非参数/半参数 BvM(正确指定) | Castillo & Nickl (2013, 2014), Castillo & Rousseau (2015), Leahu (2011) | 后验在各向异性函数空间上的正态近似 | 未处理错误指定、未处理分层随机效应 |
| B. 反问题贝叶斯推断(正确指定) | Nickl (2017), Monard et al. (2021), Kekkonen (2022), Koers et al. (2024) | PDE 解到参数的后验收缩、置信集覆盖 | 未处理错误指定的参数模型 |
| C. 错误指定 BvM(参数 i.i.d.) | Kleijn & van der Vaart (2012), Bochkina (2022) | 后验偏向 KL 散度最小点,置信集无效 | 未扩展到非 i.i.d.、分层结构 |
1.4 这个方向在追问的核心问题¶
- 后验一致性:在错误指定模型下,后验是否收敛到 KL 散度最小点?速率如何?
- 后验正态性:错误指定后验是否仍可由正态分布逼近?其中心(后验均值的渐近分布)和方差(错定 Fisher 信息)是什么?
- 置信覆盖:贝叶斯可信集(credible set)是否仍具有频率学派覆盖性质?错误指定下,这些覆盖是否“靠谱”?
- 分层结构的影响:分层随机效应(latent variables)如何影响上述问题?其带来的额外随机性是否会恶化偏置或放大方差?
已知瓶颈:
- 错误指定下,后验中心偏向 KL 散度最小点,方差需用“错定 Fisher 信息”(I_0)而非 Fisher 信息(I(θ*))估计;这导致置信集无效的可能性(Kleijn & van der Vaart 2012)。
- 分层模型中,潜变量 Z 的积分(marginalization)可能引入非光滑性,破坏标准的 LAN 展开。
1.5 ⚠️ 作者的 framing¶
作者的说法(来自引言与抽象):
“We derive a Bernstein–von Mises theorem in the context of misspecified, non-i.i.d., hierarchical models parametrized by a finite-dimensional parameter of interest.”
他们把缺口 frame 成:现有错误指定 BvM(Kleijn & van der Vaart 2012)只处理 i.i.d.,现有反问题 BvM(Nickl 2017,Monard et al. 2021)只处理正确指定,而分层 + 错误指定的交叉无人处理。
被淡化/回避的路线:
- 文中引用用“the misspecification is not modelled, but its effect is controlled”说明他们并未采用稳健贝叶斯(robust Bayesian)或自由模型平均(Bayesian model averaging)来“包容”错误指定,而是假设错误指定根源(如 r(x;θ,η) 的特定形式错误)。
- 他们没有处理多个随机效应层或非高斯先验的更复杂分层结构;模型的潜变量层级固定为“带参数 θ 的结构 + 光滑背景参数 η”。
什么明显该被引/存在但没出现: - 稳健贝叶斯方法(如 Kleijn & van der Vaart 2012 的后续“剖分后验(split posterior)”方法,或 Miller (2021) 的“稳健贝叶斯确定性”)未在 intro 出现。这可能是作者刻意回避的一条竞争路线:如果模型错的很严重,直接调整后验而非纠正模型。 - 非参数化分层贝叶斯(如 Dunson, Müller 等人的工作)在 intro 中的引用仅见于“分层模型广泛应用”语境,未深入讨论。
值得研究者查核的张力:本文的“错误指定”与 Kleijn & van der Vaart (2012) 的“参数 LAN 错误指定”在概念上等价吗?后者的错定被定义为“真分布不在模型族中”,而本文的错定是否也限于“r(x;θ,η) 形式错误”?在数值例子中(平方积分算子),他们是否刻意引入了哪个部分作为错定?需要查阅原文细节。
1.6 张力¶
未见明显对立引用——该方向各文献在关键假设上(如模型正确指定、i.i.d.)一致,本文的贡献是在假设组合上的一个新点。
二、最核心、最简单的例子 / 数学问题¶
2.1 记号、模型、可观测数据交代清楚¶
核心记号:
- θ ∈ Θ ⊂ R^d:有限维参数,是待估计的目标。
- η:无穷维背景参数(nuisance parameter),属于某个函数空间 H(如 Sobolev 类)。
- X = {x_1, ..., x_n}:可观测随机变量(向量),每个 x_i 的值依赖于一个潜变量 z_i,但研究者只观测到 x_i。
- Z = {z_1, ..., z_n}:潜变量(latent variables),不可观测。本文假设它们独立于 θ 和 η 且来自某个已知先验。
- r(x; θ, η):已知的“简化模型”函数,描述给定 z_i 时 x_i 的某种预测或均值结构。注意,当模型被错误指定时,真分布 P_0 不满足 E[x|z] = r(x;θ,η) 对任意 (θ,η) 成立。
- L_n(θ, η):似然函数,基于观测数据 X 和潜变量测量的边缘化。
- Π_Z:潜变量 Z 的先验分布(通常独立并已知)。
- Π_θ, Π_η:参数 θ 和函数 η 的先验分布。
- P_n:后验分布。
- I(θ*):Fisher 信息(在正确指定模型下)。
- I_0(θ*,η*):错定 Fisher 信息(sandwich matrix),定义为 E_0[∇log r * ∇log r^T],其中 E_0 是相对于真分布 P_0 的期望。
模型:
- 数据生成:潜变量 z_i ~ G(已知,独立同分布),给定 z_i,x_i 的响应服从一个分布 F_{θ,η},该分布由简化模型 r(x;θ,η) 决定。用直白话讲:先随机选一个潜状态 z_i,然后条件于 z_i,数据 x_i 由参数 θ 和背景函数 η 共同生成。但真分布 P_0 不一定属于这个模型族——这是“错误指定”。
- 边际似然:由于 z_i 不可观测,实际似然是 L_n(θ, η) = ∏_{i=1}^n ∫ p(x_i | z_i; θ, η) dG(z_i) = ∏_{i=1}^n m(x_i; θ, η),其中 m(·;θ,η) 是潜变量积分后的边际密度。
可观测数据:
- 研究者实际观测到的:独立的 X = (x_1,..., x_n),每个 x_i ∈ R^q。
- 观测不到但只能靠假设去识别的:
1. 潜变量 z_i 的具体值——只在模型假设下通过积分“消失”。
2. 真分布 P_0 的完全形式——它与 m(·;θ,η) 的差异就是错误指定的偏差。
- 想要估的目标:θ 的“KL 散度最小点” θ* = argmin_θ KL(P_0 || m(·;θ,η*)),其中 η* 是给定 θ 时投影的无限维参数。
2.2 最小内核:最简单的分层模型——一个潜变量 + 一个参数¶
特例:考虑最简单的分层模型:
- 只有一个潜变量 z ~ N(0,1)(已知先验)。
- 观测模型:给定 z,x 服从 N(r(z; θ, η), σ^2),其中 σ^2 已知。
- 简化模型 r(z; θ, η) = θ + z·η(线性在 θ 和 η 中,但在潜变量 z 上是乘性结构)。
- 错误指定来源:真实的数据生成是 x = θ' * z^2 + ε(即真实依赖于 z^2),但研究者使用的模型是 r(z; θ, η) = θ + z·η。此时无论 (θ, η) 取何值,模型都不能完美匹配真分布 P_0。
在这个特例下:
- 边际似然(对 z 积分后)不再是简单正态;需要在高斯混合上积分。
- 后验 p(θ, η | X) 的 Laplace 型展开涉及对潜变量 z 的后验积分。由于 z 不可观测,模型中的偏差会通过积分传递到 θ 的后验。
这个特例揭示的核心困难:
1. 潜变量积分使似然不光滑:即使 r 光滑,边际后验的 Hessian 涉及对 z 的条件期望,难以保证 LAN 展开所需的局部二次性。
2. 错误指定引入额外偏置:即使 θ 的后验是渐近正态,其中心(后验均值)相对于 θ* 的偏差由“模型偏差”和“潜变量积分偏差”共同贡献,不再像正确指定时那样较快消失。
3. I_0 而非 I 的出现:正态近似中的方差是 I_0^{-1}(sandwich 形式),而不是普通 Fisher 信息的逆,这与 Kleijn & van der Vaart (2012) 一致,但更复杂——因为潜变量 Z 的结构使信息矩阵带有对 z 的积分。
本文的关键想法:在潜变量 Z 的后验积分上,利用积分算子(如 A(f)(z) = ∫ f(z') p(z|data) dz')的条件可逆性,将“潜变量不确定性”吸收进一个更大的 Fisher 信息算子中,从而实现对 θ 的局部线性化。作者用“分层 Laplace 变换”技巧(详见第三节)来绕过直接对 z 积分的困难。
三、这篇论文做了什么¶
3.1 三句话¶
- 研究了什么问题:在分层模型(含潜变量和无穷维背景参数)且模型被错误指定的情形下,有限维参数
θ的后验分布是否仍收敛于正态分布,并给出相应条件。 - 核心工具 / 方法:分层的 Laplace 型后验展开(将潜变量积分和参数后验展开结合起来),结合积分算子条件(如
I_0可逆)和经验过程工具(处理非 i.i.d. 错误指定)。 - 主要结论:存在一个“KL 散度最小点”
θ*,后验分布以N(θ* + bias, I_0^{-1}/n)为极限,但如果直接取后验可信集,其覆盖性质会被偏差破坏——这与 Kleijn & van der Vaart (2012) 的结论本质一致。
3.2 关键设定与假设¶
完整设定(在 2.1 记号基础上补充):
- 假设 1:分层结构(Hierarchical structure)。存在潜变量 z_i,独立同分布于已知分布 G,可观测数据 x_i 的条件分布 p(x_i | z_i; θ, η) 对 z_i 可微,且满足局部二次展开。
- 假设 2:光滑性(Smoothness)。r(x; θ, η) 对 θ 二阶可微,对 η Frechét 可微,其导数在适当的范数下有界。
- 假设 3:积分的条件(Integrability)。边际似然 m(x_i; θ, η) = ∫ p(x_i | z_i; θ, η) dG(z_i) 对 θ 是充分光滑的,且 log m 的期望存在。
- 假设 4:错误指定(Misspecification)。真分布 P_0 不满足 P_0 = ∏ m(·;θ,η) 对任何 (θ,η)。存在唯一的 θ* ∈ Θ 和唯一的投影 η*(θ*) 使得 θ* 是 KL 散度的最小点。
- 假设 5:积分算子可逆性(Invertibility of integral operator)。定义算子 A_θ : η → E_0[ ∂/∂θ log m(x;θ,η) * ∂/∂η log m(x;θ,η) ],假设 I_0 ≡ E_0[ (∂/∂θ log m)(∂/∂θ log m)^T ] 正定,且 A_θ 在其定义域上是单射。
- 假设 6:先验质量(Prior mass)。在 θ* 的邻域内,先验 Π_θ 有正的质量;Π_η 在 η*(θ*) 的邻域中有质量。
与已有文献的比较:
- 相比 Kleijn & van der Vaart (2012):增加假设 1, 3, 5——处理潜变量积分和函数参数 η。
- 相比 Nickl (2017) 和 Monard et al. (2021):不假设模型正确,故 Fisher 信息被替换为 I_0,且需额外控制错误指定偏差。
- 相比 Koers et al. (2024):本文的基础假设相同(同作者),但后者正确处理反问题且允许后验取在 u 上,本文则专门处理错误指定分层情形。
3.3 主要结果¶
定理 2.1(基本 BvM 定理):
- 陈述:在假设 1-6 下,后验分布 Π_n(A | X) 依总变差收敛到 N(θ* + Δ_n, I_0^{-1}/n),其中 Δ_n 是 O(1) 的偏置项。
- 直觉:后验中心不再是 θ* 本身,而是 θ* + Δ_n;方差由错定 Fisher 信息 I_0 决定,而非 I(θ*)。这导致了频率派覆盖的失效。
- 必要条件:I_0 必须正定,且 Δ_n 的有界性依赖于模型偏差的局部可积性。
- 解决的技术难点:潜变量积分使标准的 KL 距离展开无法直接应用;需要先将潜变量“消去”到边际似然中,再在边际似然上进行 LAN 展开——即“分层 Laplace”技巧。
定理 3.1(反问题特例:平方积分算子):
- 应用到 r(x;θ,η) = (∫_0^1 (x(t) - η(t))^2 dt)^{1/2} 形式的算子,证明了 BvM 定理仍成立,且 I_0 可以通过显式计算得到。
- 数值上验证了后验可信集的覆盖性质在错误指定下出现偏移,但一种调整(如以 I_0 构造可信集)可恢复覆盖。
定理 3.2(PDE 反问题特例:稳态 Schrödinger 方程):
- 模型:Δu/2 - fu = 0,其中 f = θ_1 * phi_1 + ... + θ_d * phi_d 是有限维参数化,边界条件 u=g 已知,但真势能 f_0 可能不属于该参数族(错误指定)。
- 结果:后验的渐近正态性依然成立,但中心偏移了由投影 f_0 到参数族 θ 的偏置决定。
数值模拟验证: - 使用合成数据,两个设定:平方积分算子和Schrödinger。 - 主要结果:在正确指定下,95% 可信集的覆盖接近 0.95;在错误指定下,不加调整的可信集覆盖降至 ~0.85-0.90,而用“sandwich 方差”调整的可信集则将覆盖恢复到 ~0.94-0.96。 - 说明:错误指定的主要危害是覆盖偏置,而非方差估计的偏差。
3.4 证明路线与技术技巧¶
整体路线:
-
从联合后验到边际后验的 Laplace 近似:由于潜变量
z不可观测,后验p(θ, η | X) ∝ L_n(θ, η) Π_θ(θ) Π_η(η)的第一项L_n已包含z的积分。作者将L_n对(θ, η)展开,同时将η的无穷维积分视为一个“函数积分”,此步为标准的Laplace 型后验展开(参考 Castillo & Nickl 2014)。 -
将潜变量积分吸收进信息算子:关键技巧在于——潜变量
z_i的边际化可以用一个积分算子T表示:T: f → ∫ f(z) p(z_i | x_i; θ, η) dz。作者证明,当模型错误指定时,T依然正定,这允许定义“修正的 Fisher 信息”I_0。 -
偏差项的计算:错误指定偏差项
Δ_n来源于模型r(x;θ,η)对真分布P_0的最佳投影偏差。在展开中,这部分表现为log m的一阶导数与零的期望差异(不应为零,因为P_0不在模型族中),其贡献正好被方差项的修正所平衡。 -
经验过程控制:由于非 i.i.d. 和潜变量结构,标准的经验过程理论(如 Donsker 类)不能直接应用。作者使用 函数数据分析中的经验过程工具(参照 Nickl & van de Geer 2020),对
log m的导数在适当函数空间上建立局部 Uniform 定律。 -
最终展开:将以上环节合并,得到后验密度的显式形式:
Π_n(θ | X) ≈ (2π)^{-d/2} |nI_0|^{1/2} exp(-n/2 (θ - θ* - Δ_n)^T I_0 (θ - θ* - Δ_n)), 其中的总变差误差由经验过程的剩余项决定,且保证渐近地趋近于零。
关键跳跃点:
- 假设 5(积分算子可逆性)的验证:这是最技术的部分。对于平方积分算子和 Schrödinger 方程,作者依靠抛物型 PDE 的正则理论(如 Feynman-Kac 公式)验证了该条件。对于一般分层模型,这个条件很难验证,甚至可能不成立。
- 潜变量后验积分的“去相关”:由于 z_i 与 x_i 在模型中相关,∂/∂θ log m 的方差结构比普通 i.i.d. 更复杂。作者用 条件方差分解 Var(∂/∂θ log m) = E[Var(∂/∂θ log p | z)] + Var(E[∂/∂θ log p | z]) 来分离潜变量和观测变量的贡献。
技巧点名:
- 分层 Laplace 展开:将联合后验 p(θ, η, Z | X) 同时对参数 θ 和潜变量 Z 进行 Laplace 近似,再对 Z 积分。这是 Castillo & Nickl (2014) 技术的推广,增加了错误指定的修正。
- 函数空间中的经验过程:对 η ∈ H 建立 Donsker 类,用于控制后验展开的高阶项。
- Feynman-Kac 表示:在 Schrödinger 方程特例中,用概率表示(随机过程 dX_t = dB_t)来推导信息算子的显式形式。
- 条件 Fisher 信息分解:将 I_0 分解为“潜变量间的 Fisher 信息” + “潜变量内的 Fisher 信息”,用于计算合并方差。
3.5 真实例子与应用¶
例子 1:平方积分算子
- 数据场景:合成数据,x_i 是一个函数样本,潜变量 z_i 影响该函数的结构。
- 方法使用:把后验计算为 p(θ | X),在 η 已知的情况下用 MCMC 采样。错误指定通过改变背景函数 η 的高频成分引入。
- 结果:本文的图 1(原文)显示,在错误指定下,95% 可信区间覆盖降至 ~0.87;用 sandwich 调整后回到 ~0.94。
例子 2:稳态 Schrödinger 方程
- 数据场景:合成数据,u 是 PDE 的解,加噪观测 u(x_i)。潜变量 z_i 是观测点位置的不确定性。
- 方法使用:同上,但似然更复杂。
- 结果:图 2 显示类似模式——错误指定下的覆盖损失约 5-10%,用 sandwich 调整后基本恢复。
这两个例子想说明:
- 理论定理(错误指定导致可信集覆盖恶化)是可观测到的,不是纯渐近幻象。
- 给定充分大的样本量(数字例子中 n=500),调整后的可信集仍能达到接近标称的覆盖,说明即使模型错误,通过方差修正仍可进行部分推断。
- 本文为纯理论与数值模拟结合:数值例子不是为了提出新方法,而是验证定理。
3.6 🔎 结论是否比证明窄¶
是。作者在引言和结论部分声称的结果(如“后验可由正态近似”)严格依赖于假设 5(积分算子可逆)。但该假设在一般分层模型中很难验证——他们仅在平方积分算子和 PDE 两个具体模型中用法验证。在证明中,定理 2.1 的原始陈述中明确注明了“under Assumptions 1-6”,而假设 5 的普适性未被证明。在结论和摘要中,这种泛化语言可能会被读者误读为更广泛的适用性。具体核查原文语句:
“We derive a Bernstein–von Mises theorem in the context of misspecified, non-i.i.d., hierarchical models parametrized by a finite-dimensional parameter of interest.”
这句话本身没错,但正文后面的结论部分(Section 6)提到“The method can be extended to general hierarchical models”,这比证明的实际范围(平方积分算子+ PDE 两个特例验证了假设 5)要宽。作者未在 abstract 或 conclusion 中明确限定假设 5 被验证的具体模型类,这是一个值得注意的信号。
四、开放问题(点到为止,扎根具体语句)¶
-
假设 5 的一般性验证:在更一般的分层模型中(如多个潜变量层、潜变量具有非高斯先验),积分算子
A_θ是否仍可逆?如何验证?[扎根于定理 2.1 前的“Assumption 5: The integral operator A is injective.” 一句。该条件目前仅对平方积分算子和 PDE 两个实例验证。] -
后验收缩速率的最优性:在错误指定的分层模型中,
θ的后验收缩速率是否达到 minimax 最优(考虑偏差和方差)?[本文给出了速率,但未展示 minimax 下界——可以参考 Kekkonen (2022) 用于热方程的技巧建立下界。] -
非线性反问题到线性反问题的转换:Koers et al. (2024) 证明了对于正确指定的反问题,可将非线性 PDE 反问题转化为线性反问题并保持最优速率。本文的错误指定拓展是否也能平行做此转化?[本文未讨论该方向;引言中 Koers et al. (2024) 的引用仅限于正确指定情形。]
-
潜变量更灵活的先验:本文假设潜变量来自已知参数化的分布
G。如果G本身也是一个待估的非参数模型(如 Dirichlet 过程先验),结果是否仍然成立?[本文假设 1 显式注明G已知。]
Maintained by 陈星宇 · Homepage · Source on GitHub