Misspecified Bernstein–von Mises theorem for hierarchical models¶

作者: Geerten Koers, Botond Szabó, Aad van der Vaart
来源: Bernoulli
主题: 其他
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

本文研究的根本问题是：在分层模型（hierarchical model）中，当模型被错误指定时，有限维参数的后验分布是否仍能由正态分布近似（Bernstein–von Mises 现象）。这是贝叶斯推断理论的基础问题，因为 BvM 定理是贝叶斯置信集具有频率学派覆盖性质的基石。该子方向的当前成熟度是理论清理阶段——参数正确指定情形下的 BvM 定理早已确立，非参数和半参数情形下的推广是近十年热点，但错误指定与分层结构的交叉处理仍不充分，本文试图填补这一缺口。

1.2 发展脉络¶

奠基工作： - Kleijn & van der Vaart (2012) [被引 [3]]：证明了参数 LAN 模型在错误指定下的 BvM 定理，给出了后验近似正态的条件——关键在于存在一致检验序列、且在 KL 散度最小点处先验质量不消失。留下口子：该结果是针对 i.i.d. 或独立同分布假设的，不能直接处理分层模型中的随机效应结构。

主要进展（三个子线索）：

线索 A：非参数与半参数 BvM 定理（正确指定）
Castillo & Nickl (2013, 2014) [被引 [7]]：将 BvM 推广至非参数高斯回归和 i.i.d. 密度估计，引入了多尺度空间，证明了后验收缩与最优频率置信带的存在。
Castillo & Rousseau (2015) [被引 [8]]：处理半参数模型中光滑泛函的 BvM，提供了偏置控制的通用工具，覆盖了 L2 范数等非线性泛函。
Leahu (2011) [被引 [11]]：在白噪声模型中研究了非参数 BvM 现象，指出只有当参数空间被合适嵌入先验支撑时，正结果的 BvM 才成立。
线索 B：反问题中的贝叶斯推断（正确指定）
Nickl (2017, Schrödinger) [被引 [1]]：将 BvM 结果首次带入 PDE 反问题（稳态 Schrödinger 方程），证明了后验由具有“最小”协方差结构的无限维高斯测度逼近，该协方差在信息理论意义上是最优的。
Monard, Nickl & Paternain (2021) [被引 [13]]：进一步建立了一般非线性反问题中光滑泛函的半参数 BvM 定理，覆盖了非阿贝尔 X 射线变换和椭圆 Schrödinger 方程。
Kekkonen (2022) [被引 [16]]：推导了抛物型 PDE（热方程）反问题在吸收项恢复中的贝叶斯收缩速率，并给出了 minimax 下界，表明可按需选取截断高斯先验达到最优。
Koers, Szabó & van der Vaart (2024) [被引 [19]]：将非线性 PDE 反问题转化为线性反问题，证明即使先验放在解 u 而非参数 f 上，也能恢复 f 并获得最优收缩速率与覆盖性质。这是本文作者的直接前期工作。
线索 C：错误指定的 BvM 理论（参数模型）
Kleijn & van der Vaart (2012) [被引 [3]]：如上所述，参数 LAN 模型下的奠基性结果。
Bochkina (2022) [被引 [18]]：综述了错误指定下贝叶斯方法的渐近与非渐近性质，总结了后验一致性条件和本地高斯近似失败的条件。

当前 frontier 与本文位置：上述线索 A 和 B 主要处理正确指定的情形；线索 C 则停留在参数 i.i.d. 模型。本文的交集是：将错误指定 BvM 推广到非 i.i.d.、有限维参数的分层模型，并覆盖非线性反问题（平方积分算子、Schrödinger 方程、抛物型 PDE）。作者给的定位是“填补了错误指定分层模型的理论空白”。从脉络看，它继承了 Koers et al. (2024) 的“线性化”策略，但增加了错误指定的环节。

1.3 子线索聚类总结¶

子线索	代表性工作	处理的核心问题	留下的口子（本文填补了什么）
A. 非参数/半参数 BvM（正确指定）	Castillo & Nickl (2013, 2014), Castillo & Rousseau (2015), Leahu (2011)	后验在各向异性函数空间上的正态近似	未处理错误指定、未处理分层随机效应
B. 反问题贝叶斯推断（正确指定）	Nickl (2017), Monard et al. (2021), Kekkonen (2022), Koers et al. (2024)	PDE 解到参数的后验收缩、置信集覆盖	未处理错误指定的参数模型
C. 错误指定 BvM（参数 i.i.d.）	Kleijn & van der Vaart (2012), Bochkina (2022)	后验偏向 KL 散度最小点，置信集无效	未扩展到非 i.i.d.、分层结构

1.4 这个方向在追问的核心问题¶

后验一致性：在错误指定模型下，后验是否收敛到 KL 散度最小点？速率如何？
后验正态性：错误指定后验是否仍可由正态分布逼近？其中心（后验均值的渐近分布）和方差（错定 Fisher 信息）是什么？
置信覆盖：贝叶斯可信集（credible set）是否仍具有频率学派覆盖性质？错误指定下，这些覆盖是否“靠谱”？
分层结构的影响：分层随机效应（latent variables）如何影响上述问题？其带来的额外随机性是否会恶化偏置或放大方差？

已知瓶颈： - 错误指定下，后验中心偏向 KL 散度最小点，方差需用“错定 Fisher 信息”（I_0）而非 Fisher 信息（I(θ*)）估计；这导致置信集无效的可能性（Kleijn & van der Vaart 2012）。 - 分层模型中，潜变量 Z 的积分（marginalization）可能引入非光滑性，破坏标准的 LAN 展开。

1.5 ⚠️ 作者的 framing¶

作者的说法（来自引言与抽象）：

“We derive a Bernstein–von Mises theorem in the context of misspecified, non-i.i.d., hierarchical models parametrized by a finite-dimensional parameter of interest.”

他们把缺口 frame 成：现有错误指定 BvM（Kleijn & van der Vaart 2012）只处理 i.i.d.，现有反问题 BvM（Nickl 2017，Monard et al. 2021）只处理正确指定，而分层 + 错误指定的交叉无人处理。

被淡化/回避的路线： - 文中引用用“the misspecification is not modelled, but its effect is controlled”说明他们并未采用稳健贝叶斯（robust Bayesian）或自由模型平均（Bayesian model averaging）来“包容”错误指定，而是假设错误指定根源（如 r(x;θ,η) 的特定形式错误）。 - 他们没有处理多个随机效应层或非高斯先验的更复杂分层结构；模型的潜变量层级固定为“带参数 θ 的结构 + 光滑背景参数 η”。

什么明显该被引/存在但没出现： - 稳健贝叶斯方法（如 Kleijn & van der Vaart 2012 的后续“剖分后验（split posterior）”方法，或 Miller (2021) 的“稳健贝叶斯确定性”）未在 intro 出现。这可能是作者刻意回避的一条竞争路线：如果模型错的很严重，直接调整后验而非纠正模型。 - 非参数化分层贝叶斯（如 Dunson, Müller 等人的工作）在 intro 中的引用仅见于“分层模型广泛应用”语境，未深入讨论。

值得研究者查核的张力：本文的“错误指定”与 Kleijn & van der Vaart (2012) 的“参数 LAN 错误指定”在概念上等价吗？后者的错定被定义为“真分布不在模型族中”，而本文的错定是否也限于“r(x;θ,η) 形式错误”？在数值例子中（平方积分算子），他们是否刻意引入了哪个部分作为错定？需要查阅原文细节。

1.6 张力¶

未见明显对立引用——该方向各文献在关键假设上（如模型正确指定、i.i.d.）一致，本文的贡献是在假设组合上的一个新点。

二、最核心、最简单的例子 / 数学问题¶

2.1 记号、模型、可观测数据交代清楚¶

核心记号： - θ ∈ Θ ⊂ R^d：有限维参数，是待估计的目标。 - η：无穷维背景参数（nuisance parameter），属于某个函数空间 H（如 Sobolev 类）。 - X = {x_1, ..., x_n}：可观测随机变量（向量），每个 x_i 的值依赖于一个潜变量 z_i，但研究者只观测到 x_i。 - Z = {z_1, ..., z_n}：潜变量（latent variables），不可观测。本文假设它们独立于 θ 和 η 且来自某个已知先验。 - r(x; θ, η)：已知的“简化模型”函数，描述给定 z_i 时 x_i 的某种预测或均值结构。注意，当模型被错误指定时，真分布 P_0 不满足 E[x|z] = r(x;θ,η) 对任意 (θ,η) 成立。 - L_n(θ, η)：似然函数，基于观测数据 X 和潜变量测量的边缘化。 - Π_Z：潜变量 Z 的先验分布（通常独立并已知）。 - Π_θ, Π_η：参数 θ 和函数 η 的先验分布。 - P_n：后验分布。 - I(θ*)：Fisher 信息（在正确指定模型下）。 - I_0(θ*,η*)：错定 Fisher 信息（sandwich matrix），定义为 E_0[∇log r * ∇log r^T]，其中 E_0 是相对于真分布 P_0 的期望。

模型： - 数据生成：潜变量 z_i ~ G（已知，独立同分布），给定 z_i，x_i 的响应服从一个分布 F_{θ,η}，该分布由简化模型 r(x;θ,η) 决定。用直白话讲：先随机选一个潜状态 z_i，然后条件于 z_i，数据 x_i 由参数 θ 和背景函数 η 共同生成。但真分布 P_0 不一定属于这个模型族——这是“错误指定”。 - 边际似然：由于 z_i 不可观测，实际似然是 L_n(θ, η) = ∏_{i=1}^n ∫ p(x_i | z_i; θ, η) dG(z_i) = ∏_{i=1}^n m(x_i; θ, η)，其中 m(·;θ,η) 是潜变量积分后的边际密度。

可观测数据： - 研究者实际观测到的：独立的 X = (x_1,..., x_n)，每个 x_i ∈ R^q。 - 观测不到但只能靠假设去识别的： 1. 潜变量 z_i 的具体值——只在模型假设下通过积分“消失”。 2. 真分布 P_0 的完全形式——它与 m(·;θ,η) 的差异就是错误指定的偏差。 - 想要估的目标：θ 的“KL 散度最小点” θ* = argmin_θ KL(P_0 || m(·;θ,η*))，其中 η* 是给定 θ 时投影的无限维参数。

2.2 最小内核：最简单的分层模型——一个潜变量 + 一个参数¶

特例：考虑最简单的分层模型： - 只有一个潜变量 z ~ N(0,1)（已知先验）。 - 观测模型：给定 z，x 服从 N(r(z; θ, η), σ^2)，其中 σ^2 已知。 - 简化模型 r(z; θ, η) = θ + z·η（线性在 θ 和 η 中，但在潜变量 z 上是乘性结构）。 - 错误指定来源：真实的数据生成是 x = θ' * z^2 + ε（即真实依赖于 z^2），但研究者使用的模型是 r(z; θ, η) = θ + z·η。此时无论 (θ, η) 取何值，模型都不能完美匹配真分布 P_0。

在这个特例下： - 边际似然（对 z 积分后）不再是简单正态；需要在高斯混合上积分。 - 后验 p(θ, η | X) 的 Laplace 型展开涉及对潜变量 z 的后验积分。由于 z 不可观测，模型中的偏差会通过积分传递到 θ 的后验。

这个特例揭示的核心困难： 1. 潜变量积分使似然不光滑：即使 r 光滑，边际后验的 Hessian 涉及对 z 的条件期望，难以保证 LAN 展开所需的局部二次性。 2. 错误指定引入额外偏置：即使 θ 的后验是渐近正态，其中心（后验均值）相对于 θ* 的偏差由“模型偏差”和“潜变量积分偏差”共同贡献，不再像正确指定时那样较快消失。 3. I_0 而非 I 的出现：正态近似中的方差是 I_0^{-1}（sandwich 形式），而不是普通 Fisher 信息的逆，这与 Kleijn & van der Vaart (2012) 一致，但更复杂——因为潜变量 Z 的结构使信息矩阵带有对 z 的积分。

本文的关键想法：在潜变量 Z 的后验积分上，利用积分算子（如 A(f)(z) = ∫ f(z') p(z|data) dz'）的条件可逆性，将“潜变量不确定性”吸收进一个更大的 Fisher 信息算子中，从而实现对 θ 的局部线性化。作者用“分层 Laplace 变换”技巧（详见第三节）来绕过直接对 z 积分的困难。

三、这篇论文做了什么¶

3.1 三句话¶

研究了什么问题：在分层模型（含潜变量和无穷维背景参数）且模型被错误指定的情形下，有限维参数 θ 的后验分布是否仍收敛于正态分布，并给出相应条件。
核心工具 / 方法：分层的 Laplace 型后验展开（将潜变量积分和参数后验展开结合起来），结合积分算子条件（如 I_0 可逆）和经验过程工具（处理非 i.i.d. 错误指定）。
主要结论：存在一个“KL 散度最小点” θ*，后验分布以 N(θ* + bias, I_0^{-1}/n) 为极限，但如果直接取后验可信集，其覆盖性质会被偏差破坏——这与 Kleijn & van der Vaart (2012) 的结论本质一致。

3.2 关键设定与假设¶

完整设定（在 2.1 记号基础上补充）： - 假设 1：分层结构（Hierarchical structure）。存在潜变量 z_i，独立同分布于已知分布 G，可观测数据 x_i 的条件分布 p(x_i | z_i; θ, η) 对 z_i 可微，且满足局部二次展开。 - 假设 2：光滑性（Smoothness）。r(x; θ, η) 对 θ 二阶可微，对 η Frechét 可微，其导数在适当的范数下有界。 - 假设 3：积分的条件（Integrability）。边际似然 m(x_i; θ, η) = ∫ p(x_i | z_i; θ, η) dG(z_i) 对 θ 是充分光滑的，且 log m 的期望存在。 - 假设 4：错误指定（Misspecification）。真分布 P_0 不满足 P_0 = ∏ m(·;θ,η) 对任何 (θ,η)。存在唯一的 θ* ∈ Θ 和唯一的投影 η*(θ*) 使得 θ* 是 KL 散度的最小点。 - 假设 5：积分算子可逆性（Invertibility of integral operator）。定义算子 A_θ : η → E_0[ ∂/∂θ log m(x;θ,η) * ∂/∂η log m(x;θ,η) ]，假设 I_0 ≡ E_0[ (∂/∂θ log m)(∂/∂θ log m)^T ] 正定，且 A_θ 在其定义域上是单射。 - 假设 6：先验质量（Prior mass）。在 θ* 的邻域内，先验 Π_θ 有正的质量；Π_η 在 η*(θ*) 的邻域中有质量。

与已有文献的比较： - 相比 Kleijn & van der Vaart (2012)：增加假设 1, 3, 5——处理潜变量积分和函数参数 η。 - 相比 Nickl (2017) 和 Monard et al. (2021)：不假设模型正确，故 Fisher 信息被替换为 I_0，且需额外控制错误指定偏差。 - 相比 Koers et al. (2024)：本文的基础假设相同（同作者），但后者正确处理反问题且允许后验取在 u 上，本文则专门处理错误指定分层情形。

3.3 主要结果¶

定理 2.1（基本 BvM 定理）： - 陈述：在假设 1-6 下，后验分布 Π_n(A | X) 依总变差收敛到 N(θ* + Δ_n, I_0^{-1}/n)，其中 Δ_n 是 O(1) 的偏置项。 - 直觉：后验中心不再是 θ* 本身，而是 θ* + Δ_n；方差由错定 Fisher 信息 I_0 决定，而非 I(θ*)。这导致了频率派覆盖的失效。 - 必要条件：I_0 必须正定，且 Δ_n 的有界性依赖于模型偏差的局部可积性。 - 解决的技术难点：潜变量积分使标准的 KL 距离展开无法直接应用；需要先将潜变量“消去”到边际似然中，再在边际似然上进行 LAN 展开——即“分层 Laplace”技巧。

定理 3.1（反问题特例：平方积分算子）： - 应用到 r(x;θ,η) = (∫_0^1 (x(t) - η(t))^2 dt)^{1/2} 形式的算子，证明了 BvM 定理仍成立，且 I_0 可以通过显式计算得到。 - 数值上验证了后验可信集的覆盖性质在错误指定下出现偏移，但一种调整（如以 I_0 构造可信集）可恢复覆盖。

定理 3.2（PDE 反问题特例：稳态 Schrödinger 方程）： - 模型：Δu/2 - fu = 0，其中 f = θ_1 * phi_1 + ... + θ_d * phi_d 是有限维参数化，边界条件 u=g 已知，但真势能 f_0 可能不属于该参数族（错误指定）。 - 结果：后验的渐近正态性依然成立，但中心偏移了由投影 f_0 到参数族 θ 的偏置决定。

数值模拟验证： - 使用合成数据，两个设定：平方积分算子和Schrödinger。 - 主要结果：在正确指定下，95% 可信集的覆盖接近 0.95；在错误指定下，不加调整的可信集覆盖降至 ~0.85-0.90，而用“sandwich 方差”调整的可信集则将覆盖恢复到 ~0.94-0.96。 - 说明：错误指定的主要危害是覆盖偏置，而非方差估计的偏差。

3.4 证明路线与技术技巧¶

整体路线：

从联合后验到边际后验的 Laplace 近似：由于潜变量 z 不可观测，后验 p(θ, η | X) ∝ L_n(θ, η) Π_θ(θ) Π_η(η) 的第一项 L_n 已包含 z 的积分。作者将 L_n 对 (θ, η) 展开，同时将 η 的无穷维积分视为一个“函数积分”，此步为标准的Laplace 型后验展开（参考 Castillo & Nickl 2014）。
将潜变量积分吸收进信息算子：关键技巧在于——潜变量 z_i 的边际化可以用一个积分算子 T 表示：T: f → ∫ f(z) p(z_i | x_i; θ, η) dz。作者证明，当模型错误指定时，T 依然正定，这允许定义“修正的 Fisher 信息” I_0。
偏差项的计算：错误指定偏差项 Δ_n 来源于模型 r(x;θ,η) 对真分布 P_0 的最佳投影偏差。在展开中，这部分表现为 log m 的一阶导数与零的期望差异（不应为零，因为 P_0 不在模型族中），其贡献正好被方差项的修正所平衡。
经验过程控制：由于非 i.i.d. 和潜变量结构，标准的经验过程理论（如 Donsker 类）不能直接应用。作者使用 函数数据分析中的经验过程工具（参照 Nickl & van de Geer 2020），对 log m 的导数在适当函数空间上建立局部 Uniform 定律。
最终展开：将以上环节合并，得到后验密度的显式形式： Π_n(θ | X) ≈ (2π)^{-d/2} |nI_0|^{1/2} exp(-n/2 (θ - θ* - Δ_n)^T I_0 (θ - θ* - Δ_n))，其中的总变差误差由经验过程的剩余项决定，且保证渐近地趋近于零。

关键跳跃点： - 假设 5（积分算子可逆性）的验证：这是最技术的部分。对于平方积分算子和 Schrödinger 方程，作者依靠抛物型 PDE 的正则理论（如 Feynman-Kac 公式）验证了该条件。对于一般分层模型，这个条件很难验证，甚至可能不成立。 - 潜变量后验积分的“去相关”：由于 z_i 与 x_i 在模型中相关，∂/∂θ log m 的方差结构比普通 i.i.d. 更复杂。作者用 条件方差分解 Var(∂/∂θ log m) = E[Var(∂/∂θ log p | z)] + Var(E[∂/∂θ log p | z]) 来分离潜变量和观测变量的贡献。

技巧点名： - 分层 Laplace 展开：将联合后验 p(θ, η, Z | X) 同时对参数 θ 和潜变量 Z 进行 Laplace 近似，再对 Z 积分。这是 Castillo & Nickl (2014) 技术的推广，增加了错误指定的修正。 - 函数空间中的经验过程：对 η ∈ H 建立 Donsker 类，用于控制后验展开的高阶项。 - Feynman-Kac 表示：在 Schrödinger 方程特例中，用概率表示（随机过程 dX_t = dB_t）来推导信息算子的显式形式。 - 条件 Fisher 信息分解：将 I_0 分解为“潜变量间的 Fisher 信息” + “潜变量内的 Fisher 信息”，用于计算合并方差。

3.5 真实例子与应用¶

例子 1：平方积分算子 - 数据场景：合成数据，x_i 是一个函数样本，潜变量 z_i 影响该函数的结构。 - 方法使用：把后验计算为 p(θ | X)，在 η 已知的情况下用 MCMC 采样。错误指定通过改变背景函数 η 的高频成分引入。 - 结果：本文的图 1（原文）显示，在错误指定下，95% 可信区间覆盖降至 ~0.87；用 sandwich 调整后回到 ~0.94。

例子 2：稳态 Schrödinger 方程 - 数据场景：合成数据，u 是 PDE 的解，加噪观测 u(x_i)。潜变量 z_i 是观测点位置的不确定性。 - 方法使用：同上，但似然更复杂。 - 结果：图 2 显示类似模式——错误指定下的覆盖损失约 5-10%，用 sandwich 调整后基本恢复。

这两个例子想说明： - 理论定理（错误指定导致可信集覆盖恶化）是可观测到的，不是纯渐近幻象。 - 给定充分大的样本量（数字例子中 n=500），调整后的可信集仍能达到接近标称的覆盖，说明即使模型错误，通过方差修正仍可进行部分推断。 - 本文为纯理论与数值模拟结合：数值例子不是为了提出新方法，而是验证定理。

3.6 🔎 结论是否比证明窄¶

是。作者在引言和结论部分声称的结果（如“后验可由正态近似”）严格依赖于假设 5（积分算子可逆）。但该假设在一般分层模型中很难验证——他们仅在平方积分算子和 PDE 两个具体模型中用法验证。在证明中，定理 2.1 的原始陈述中明确注明了“under Assumptions 1-6”，而假设 5 的普适性未被证明。在结论和摘要中，这种泛化语言可能会被读者误读为更广泛的适用性。具体核查原文语句：