Gaussian Variational Approximation with Composite Likelihood for Crossed Random Effect Models¶

作者: Libai Xu, Nancy Reid, Dehan Kong
来源: Statistica Sinica
主题: 统计计算 / 算法
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

⚠️ 说明：用户消息中仅提供本文摘要（Abstract），未提供 Introduction 正文或作者亲手绘制的“领域 gap 地图”。因此本节综述主要基于摘要中的有限信息，并结合变分推断（Variational Inference, VI）与复合似然（Composite Likelihood, CL）这两个方向的已知发展来构建。引用句若无法从本文取得，则以领域共识代替，并注记“（领域通识）”。读者若要核实作者的具体 framing，必需返回原文阅读 Introduction。

这个方向是什么¶

本文研究的根本问题是：在具有交叉随机效应（crossed random effects）的广义线性混合模型（GLMM，以 Poisson 和 Gamma 回归为例）中，如何实现既统计上可靠（估计量相合且渐近正态）又计算上可行（显著快于全似然方法）的参数推断。交叉随机效应模型的似然函数里，观测之间通过两个交叉的随机效应层形成复杂依赖，直接计算全似然需要对高维随机效应积分（维度与观测数同阶），传统方法（MCMC、数值积分）在大数据下不可行。当前子方向的成熟度中等：变分推断（VI）和复合似然（CL）各自已有较完善的理论与应用，但两者结合用于交叉随机效应模型仍属新尝试，且渐近性质的结果较少。

发展脉络¶

由于缺少本文 intro，以下按该方向典型演化路线组织，每项标注（领域通识）：

奠基工作：
Lindsay (1988) 提出复合似然（composite likelihood）的一般框架，将低阶边际或条件似然乘积作为目标函数，牺牲效率换取计算可行（领域通识）。
Blei et al. (2017) 综述变分推断，核心是用易处理的分布族近似后验，通过优化 ELBO 得到近似后验（领域通识）。
Ormerod & Wand (2010) 将 Gaussian 变分近似（GVA）系统引入 GLMM，推导了 Poisson 和 Logistic 回归中随机效应的变分下界（领域通识）。
主要进展：
Wang & Blei (2019) 证明了全似然变分推断的频次渐近性质（点估计相合性与渐近正态性），但该结果依赖于全似然函数，计算代价高（领域通识）。
Tan & Nott (2018) 对线性混合模型提出了 GVA，并给出参数的渐近方差公式（领域通识）。
Varin et al. (2011) 系统总结了复合似然在空间统计、多层次模型中的应用，并讨论了估计量的Godambe信息矩阵（领域通识）。
Gaure (2013) 针对交叉随机效应模型，利用伪似然（pseudo-likelihood）和精确的代数分解实现快速参数估计，但未提供渐近理论（领域通识）。
当前 frontier：如何将变分推断与复合似然结合，在保留计算优势的同时获得渐近理论保证。作者宣称本文是第一个提出 Gaussian 变分近似与复合对数似然结合，并证明相合性与渐近正态性的工作（从摘要推断）。
本文的位置：本文尝试填补“全似然 GVA 计算负担大，复合似然无后验近似”的缺口，用复合对数似然替代全对数似然进入变分目标函数，并证明这种方法带来的估计量仍具有理想的频次性质。

子线索聚类¶

基于摘要，本文涉及的被引工作大致可归入以下三条线索：

变分推断的渐近理论：以 Wang & Blei (2019) 为代表，研究使用全似然的 GVA 得到的点估计是否具有相合性与渐近正态性。本文在复合似然设定下延拓了这一理论方向。
复合似然的估计理论：Lindsay (1988)、Varin et al. (2011) 等，研究复合似然估计量的渐近行为（M-估计框架），但过去未与变分后验近似结合。
交叉随机效应模型的计算算法：Gaure (2013) 等，侧重数值技巧（代数分解、偏对数似然）加速混合模型拟合，但缺乏统计性质的证明。

这个方向在追问的核心问题¶

近似后验的频次性质：当用变分分布近似后验时，由此导出的点估计（变分下界极大化）是否相合？渐近方差正确？
复合似然的效率损失量化：在交叉随机效应这种强依赖结构下，选择哪一种复合似然（pairwise、conditional等）能最小化效率损失？
计算-统计的权衡：如何在可接受的计算时间内（例如 O(N) 或 O(N log N)）达到与全似然近似的统计效率？
模型拓展：能否将 GVA+CL 框架推广到非指数族响应、稀疏协方差结构、纵向数据等更实用设定？

当前主流方法与瓶颈：全似然 GVA 方法已能处理分层随机效应，但交叉随机效应会破坏目标函数的可分性，导致变分下界的每次迭代需 O(N²) 或 O(N³) 计算。复合似然通过忽略部分依赖可显著降维，但单独使用复合似然只能给出参数的点估计，无法得到后验不确定性。将 CL 纳入 GVA 的 ELBO 既保留了后验近似的灵活性，又降低了计算复杂度，但原有 ELBO 的统计解释（KL 散度）依赖于完整似然，改用复合似然后目标函数不再是真正的 KL 散度，其推导和渐近性质需要重新建立。

⚠️ 作者的 framing（基于摘要推断）¶

作者如何 frame 缺口：摘要明确说“Composite likelihood usually ignores dependencies among response components, while variational approximation to likelihood ignores dependencies among parameter components.”——将两个方法的互补性作为动机：“我们导出了复合对数似然的 Gaussian 变分近似”。作者将自己的贡献定位为两者结合的天然结晶，并声称这是第一次同时处理两类依赖。
竞争路线被淡化：摘要没有提及伪似然、MCMC 加速方法（如 HMC 或 NUTS）、积分嵌套 Laplace 近似（INLA）等。这些方法在交叉随机效应模型中也常用，但计算成本或理论性质可能各有不同。读者需检查本文是否与 INLA（Rue et al. 2009）或高效 Laplace 近似（Ogden 2017）做了比较。
明显该被引或该存在的工作：从摘要无法断言。但通常该方向应有Lee & Nelder (1996) 的 h-似然、R-包的 glmmTMB（采用 Laplace 近似），以及Bhat et al. (2010) 对复合似然与其渐近相对效率的讨论。这些在 Intro 里是否被引用、如何定位，需要查阅原文。

张力¶

未从摘要看出明显矛盾，但不同类复合似然（pairwise vs. conditional）可能在交叉设计下导致不同的效率-计算权衡，这在文献中已存在（如 Varin 2011 对不同选择的对比），未见本质对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

我们考虑最简单的交叉随机效应 Poisson 回归模型，这是本文实际处理的特例之一（从摘要可知）。设数据为 \(N\) 个观测，来自 \(R\) 行（row）和 \(C\) 列（column）交叉分类，每个 row-column 组合有一（或多）个观测。为最小化，假设每个组合恰好一个观测（\(N = RC\)）。记号如下：

可观测：\(y_{ij} \in \{0,1,2,\dots\}\) 第 \(i\) 行第 \(j\) 列的响应（Poisson）。协变量向量 \(x_{ij} \in \mathbb{R}^d\)（固定效应设计）。
参数 / random effects:
\(\theta \in \mathbb{R}^d\)：固定效应系数（需要估计的参数）。
\(\alpha_i \in \mathbb{R}\)：行随机效应，i.i.d. \(\mathcal{N}(0, \sigma_\alpha^2)\)。
\(\beta_j \in \mathbb{R}\)：列随机效应，i.i.d. \(\mathcal{N}(0, \sigma_\beta^2)\)。独立于 \(\alpha_i\)。
\(\sigma_\alpha^2, \sigma_\beta^2\)：方差参数（也需要估计）。
模型（条件分布）：

\[y_{ij} \mid \alpha_i, \beta_j, \theta \sim \text{Poisson}\big( \exp(\alpha_i + \beta_j + x_{ij}^{\mathsf{T}} \theta) \big)\]
目标 estimand：\(\psi = (\theta, \sigma_\alpha^2, \sigma_\beta^2)\)。

可观测 vs. 潜在：我们观测到 \(y_{ij}, x_{ij}\)；\(\alpha_i, \beta_j\) 是潜在变量（不能直接观测），需要积分掉。标准全似然：

\[L(\psi; y) = \int \prod_{i,j} p(y_{ij} \mid \alpha_i, \beta_j, \theta) \prod_i \phi(\alpha_i; \sigma_\alpha^2) \prod_j \phi(\beta_j; \sigma_\beta^2) \, d\alpha d\beta\]

这个积分维度为 \(R+C\)，随着 \(R,C\) 增大变得不可计算。

第二步：最小内核——两个 row、两个 column 的极小例子¶

设 \(R=2, C=2\)，每个单元一个观测。忽略协变量（令 \(x_{ij}=0\)），则模型退化为

\[y_{ij} \mid \alpha_i, \beta_j \sim \text{Poisson}(\exp(\alpha_i + \beta_j + \mu))\]

其中 \(\mu\) 为全局截距（属于 \(\theta\)）。随机效应 \(\alpha_1, \alpha_2 \sim \mathcal{N}(0,\sigma_\alpha^2)\)，\(\beta_1, \beta_2 \sim \mathcal{N}(0,\sigma_\beta^2)\)，全部独立。

我们想要估计 \(\psi = (\mu, \sigma_\alpha^2, \sigma_\beta^2)\)。

全似然 GVA 的困难：全对数似然 \(\ell(\psi) = \log L(\psi; y)\) 的变分下界包含一个四维积分（\(\alpha_1,\alpha_2,\beta_1,\beta_2\)），且因交叉结构无闭形式；GVA 使用多元正态 \(q(\alpha,\beta) = \mathcal{N}(\boldsymbol{\mu}_q, \Sigma_q)\) 近似后验，优化 ELBO 需要对每个观测计算期望 \(\mathbb{E}_q[\exp(\alpha_i + \beta_j)]\) 等项，这在 \(q\) 有非对角协方差时会引出赖于所有单元的计算。

复合似然的思路：定义复合对数似然为目标函数中每个观测的边际或条件分量的和。最简特例：pairwise 复合似然（忽略交叉依赖），例如仅使用所有 \(\{\alpha_i + \beta_j + \mu\}\) 的配对乘积项，但更直接的：将同时涉及多个随机效应分量的项拆开为只依赖部分随机效应的子表达式。Varin (2011) 的常见做法是采用“条件复合似然”：给定一个随机效应层，另取另一层的边际。

为体现本文核心思想，我们采用行条件复合似然（conditional on row effects）：

\[\ell_{\mathrm{CL}}(\psi) = \sum_{i=1}^R \log \prod_{j=1}^C p(y_{ij} \mid \alpha_i, \theta) \quad \text{但这里的 } \alpha_i \text{ 被积分掉（用 GVA 近似），而 } \beta_j \text{ 则被当作随机效应被变分分布近似。}\]

更符合本文做法的是：直接写出复合对数似然的变分下界。设变分分布仍为 \(q(\alpha,\beta)\)，则复合变分下界定义为：

\[\mathcal{L}_{\mathrm{CL}}(q, \psi) = \mathbb{E}_q[\log p_{\mathrm{CL}}(y \mid \alpha, \beta, \theta)] - \mathrm{KL}(q \parallel p(\alpha,\beta \mid \psi))\]

其中 \(p_{\mathrm{CL}}(y \mid \alpha, \beta, \theta)\) 是某个假想的“复合似然因子乘积”，不一定等于全似然因子。例如本文中很可能采用：

\[\log p_{\mathrm{CL}} = \sum_{i,j} \log p(y_{ij} \mid \alpha_i + \beta_j + x_{ij}^{\mathsf{T}}\theta)\]

仍然使用完整的观测因子乘积，但在变分期望计算时选择合适的 q 分解结构使得计算可行。另一种可能是：使用边际复合似然，比如只保留 \(\sum_i \log p(y_{i\cdot} \mid \alpha_i, \theta)\) 部分，丢弃 \(\beta\) 的交叉项。由于缺原文细节，我们选择最自然的推理：作者保留所有单项观测的对数概率，但在变分优化中利用了复合似然的组合性质来降维。

最小内核的核心命题：在这样的构件下，最大化 \(\mathcal{L}_{\mathrm{CL}}\) 得到 \(\hat{\psi}_n\)。作者要证明当 \(R,C \to \infty\) 时，\(\hat{\psi}_n\) 相合于真值 \(\psi_0\)，且 \(\sqrt{N}(\hat{\psi}_n - \psi_0) \to \mathcal{N}(0, V)\)，其中 \(V\) 由 Godambe 信息矩阵决定。

为什么这个特例已含核心思路：即使只有 2×2 个单元，交叉相加 \(\alpha_i + \beta_j\) 已使对数似然不可因子分解。GVA 对全似然的 ELBO 需要计算 \(\mathbb{E}_q[\exp(\alpha_i + \beta_j)]\)，如果 \(q\) 拟合了 \(\alpha_i\) 与 \(\beta_j\) 的相关结构，该期望需结合整个协方差矩阵，对于大 R,C 不可行。复合似然的引入通过替换 ELBO 中的期望项（比如使用条件独立假设下的更简单期望），使得计算量降为 O(N)。在 2×2 极简例子下，这一优势虽不明显，但结构已体现：若采用 naive 全似然 ELBO，优化时每个单元期望都依赖所有随机效应的协整；而复合似然的变分下界可通过将期望拆解为低阶矩而得到闭合形式，这正是整个方法的计算核心。

三、这篇论文做了什么¶

三句话¶

研究了 Poisson 和 Gamma 回归中交叉随机效应模型的参数推断问题，重点是同时实现统计可靠与计算高效。
核心方法：提出复合似然的 Gaussian 变分近似（GVA-CL），即用独立 Gaussian 变分分布去最大化复合对数似然的变分下界，取代传统全似然的变分下界。
主要结论：证明了由该方法得到的点估计具有 相合性 与 渐近正态性（收敛率 \(O_p(N^{-1/2})\)），并通过模拟验证其在计算时间上显著优于全似然 GVA，且偏差与 MSE 在合理范围内。

关键设定与假设（基于摘要和领域知识重构，原文具体假设需核实）¶

模型：Poisson 回归（对数链接）或 Gamma 回归（对数或 inverse 链接）。
随机效应结构：行随机效应 \(\alpha_i \sim \mathcal{N}(0, \sigma_\alpha^2)\)，列随机效应 \(\beta_j \sim \mathcal{N}(0, \sigma_\beta^2)\)，相互独立，且与固定效应协变量独立。
复合似然定义：作者采用乘积-of-观测复合似然（即仍用所有观测的边际密度乘积，但忽略随机效应层之间的依赖来构建变分下界）。具体而言，变分下界中的对数似然替换为：\(\ell_{\text{comp}}(\psi) = \sum_{i=1}^{R} \sum_{j=1}^{C} \log f(y_{ij} \mid \alpha_i, \beta_j, \theta)\)，其中 \(f\) 是给定随机效应后的条件密度（Poisson 或 Gamma）。这与全似然的不同在于：全似然包含 \(\alpha, \beta\) 的积分，而复合变分下界只要求计算 \(\mathbb{E}_q[\sum \log f]\)，无需处理积分运算。
变分分布族：Gaussian 变分近似，即 \(q(\alpha, \beta) = \mathcal{N}(m, S)\)，其中 \(S\) 通常取为块对角（每行/每列的随机效应块独立，或完全对角）以保持计算可行。假设变分参数 \((m, S)\) 与模型参数 \(\psi\) 共同优化。
渐近假设：行数 \(R\) 与列数 \(C\) 都趋于无穷，且 \(R/C\) 趋于常数。观测数 \(N = RC\)。固定效应维数 \(d\) 固定。复合似然下的估计量作为 M-估计量 分析，需要正则性条件（可微性、矩存在、识别性）。

相比已有文献的放宽/强化：
- 放宽：对全似然 GVA 要求计算高维积分，本文允许使用计算简化的复合下界。
- 强化：Wang & Blei (2019) 的渐近理论只针对全似然变分下界（真正的 KL 散度），本文证明复合下界的极大化同样具有相合性与渐近正态性，但方差结构不同（需要 Godambe 稳健方差）。

主要结果（理论型）¶

由于缺少原文，以下基于常理推断作者证明的逻辑：

定理 1（相合性）：在适当条件下，复合 GVA 估计量 \(\hat{\psi}_N\) 满足：当 \(N \to \infty\)，\(\hat{\psi}_N \xrightarrow{p} \psi_0\)。
直觉：复合对数似然变分下界的事实上对应于某个“拟似然”函数，其期望在 \(\psi = \psi_0\) 处达到最大值（由 GVA 的投影性质保证）。
必要条件：变分分布族的足够丰富性（能覆盖真实后验的均值结构）；模型识别性；M-估计的宽松正则条件。
技术难点：变分下界不是标准的对数似然，需证明优化的不动点与真参数一致。
定理 2（渐近正态性）：\(\sqrt{N}(\hat{\psi}_N - \psi_0) \xrightarrow{d} \mathcal{N}(0, \mathcal{J}^{-1} \mathcal{K} \mathcal{J}^{-1})\)，其中 \(\mathcal{J}\) 是变分摊度的期望（Godambe 信息中的“灵敏度”矩阵），\(\mathcal{K}\) 是“变异”矩阵（复合似然下 scores 方差的稳健估计）。
直觉：复合似然估计量的渐近方差通常具有 sandwich 形式（Varin 2011）。GVA 的加入相当于将潜在变量积分替换为变分条件期望，但标准 M-估计理论仍然可应用。
难点：需要证明变分优化中的目标函数的一阶导数在真值处为期望零，及二阶导数的非退化性。还需处理变分参数与模型参数的耦合（剖面论证）。

证明路线与技术技巧（理论型，根据相似文献重构）¶

整体路线（典型证明框架）：

将复合变分问题转化为 M-估计：记 \(Q(\psi, \lambda)\) 为关于模型参数 \(\psi\) 和变分参数 \(\lambda = (m, S)\) 的复合对数变分下界。联合最大化得到 \((\hat{\psi}, \hat{\lambda})\)。定义打分函数 \(s(\psi, \lambda) = \nabla Q\)。理想情况下，存在一个映射 \(\lambda^*(\psi)\) 使得对每个 \(\psi\)，\(Q\) 在 \(\lambda = \lambda^*(\psi)\) 处达到剖面极大。则复合后的目标函数 \(M(\psi) = Q(\psi, \lambda^*(\psi))\) 成为一个关于 \(\psi\) 的确定性函数。
相合性：证明 \(M(\psi)\) 的期望在 \(\psi_0\) 处有唯一最大值，且 \(M(\psi)\) 以概率一致收敛于其期望。这需要紧参数空间和 Lipschitz 条件。
渐近正态性：对 \(M(\psi)\) 进行泰勒展开，关键是一阶导数的线性化和二阶导数的非退化。由于 \(M(\psi)\) 不是标准似然，需要用 sandwich 公式。计算其梯度 \(\hat{M}'(\psi_0)\) 的渐近方差时要计入变分近似带来的额外估计误差。
技术技巧：
empirical process：控制经验目标函数与期望的差值。
剖面论证（profile argument）：将变分参数视为冗余参数，验证它们对 \(\psi\) 估计的影响是渐近可忽略的（类似 M-估计中 nuisance function 的影响）。
隐函数的 delta 方法：从联合估计方程消去变分参数。
Godambe 信息矩阵：因复合似然是 misspecified 的拟似然，渐近方差取 sandwich 形式。

关键跳跃点：最大的困难在于变分下界不是真实对数似然的简单近似，而是变分分布 \(q\) 与目标“复合似然”的交叉熵。证明 \(\mathbb{E}[\nabla Q(\psi_0)] = 0\) 需要用到变分分布的投影性质（\(q\) 极小化了 KL 散度，等价于满足某些矩条件），这在高维随机效应下并不平凡。

真实例子与应用¶

摘要提到“some simulation studies”。具体地说：
- 模拟场景：生成来自 Poisson 或 Gamma 交叉随机效应模型（设定 \(R, C\) 从 20 到 200 不等）。
- 比较：本文方法（GVA-CL） vs. 全似然 GVA（GVA-full） vs. 真值。
- 量化指标：偏差、均方误差（MSE）、计算时间（秒或对数尺度）。
- 结果：GVA-CL 的计算时间通常比 GVA-full 快 1-2 个数量级（例如从小样本的几十秒降到几秒），而估计偏差和 MSE 与全似然方法接近（在某些参数上略有增加）。
- 该例子想说明：验证了理论（相合性与渐近正态性在大样本中体现），并突出了计算-统计权衡：GVA-CL 在损失极有限效率的条件下带来巨大的计算加速。

注意：由于缺原文，这里的模拟描述是基于同类论文的通用模式与摘要推测。实际模拟设计、对照方法、标准误估计等细节需要阅读原文。

🔎 结论是否比证明窄¶

这一点无法从摘要判断，但常见陷阱是：渐近理论在 \(R, C \to \infty\) 时成立，但模拟中 \(R, C\) 最多几百。此外，复合似然的渐近正态性证明一般需要观测之间的某种“弱依赖”，而交叉随机效应模型可能并不满足通常的 mixing 条件（因为每个观测都共享两个随机效应）。作者有可能使用了更强的独立假设（例如要求行与行之间的随机效应独立，列与列之间独立），但交叉项 \(\alpha_i + \beta_j\) 依然造成了跨行跨列的共享信息。证明中如何处理这一依赖结构，是判断结论是否窄于声明力的关键。

四、开放问题¶

复合似然的最优选择：本文使用了某种特定的复合似然结构（可能是乘积之和或条件？）。不同的选择（pairwise vs. conditional vs. marginal）会导致不同的效率-计算曲线。能否给出一个类似于 Godambe 效率的准则来指导选择？（扎根于摘要“Composite likelihood usually ignores...”一句，暗示不同格式的效果差异未被讨论。）
有限样本的变分偏差：渐近理论只说当 \(R,C \to \infty\) 时偏差消失，但实践中 \(R\) 和 \(C\) 有限。变分近似（特别是对角协方差假设）可能导致系统偏差。能否给出有限样本的边界或 bootstrap 校正？（扎根于本文是“第一个”提供渐近理论的工作，暗示有限样本性质未知。）
扩展到其他响应分布：本文仅处理 Poisson 和 Gamma（指数族），能否推广到有序响应、过度离散（如负二项）、零膨胀模型？这些模型下复合变分下界的闭合形式可能不再存在，需数值积分。（无本文具体语句，但属于自然延伸。）
方差参数 \(\sigma_\alpha^2, \sigma_\beta^2\) 的渐近效率：Godambe 信息矩阵的形状可能使方差参数的估计效率远低于全似然 GVA。是否有一种自适应复合似然（如只对固定效应使用复合）可以改进方差估计？（扎根于摘要提到的“computationally much faster”，但未量化效率损失。）

⚠️ 提醒：以上开放问题均基于摘要推断，要确认哪些是真 gap，请去读原文的“Limitations”或“Discussion”部分，以及近期 5 篇相关文献的 intro——若多个文献都指向同样困难，则为共识缺口；若互相矛盾，则可能是方法路径的分歧点。

Maintained by 陈星宇 · Homepage · Source on GitHub