Posterior contraction rates in a sparse non-linear mixed-effects model¶

作者: Marion Naveau, Maud Delattre, Laure Sansonnet
来源: Electronic Journal of Statistics
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向¶

贝叶斯高维稀疏模型的后验收缩率（posterior contraction rate）理论，研究的是：当参数维数 \(p \gg n\) 且真实信号稀疏时，后验分布以多快的速度收敛到真实参数。这是频率学派渐近性质在贝叶斯高维框架下的延伸，连接着先验设计、模型可识别性与 minimax 估计效率。当前该方向在线性模型（包括带干扰参数的线性、广义线性）中已比较成熟，但在非线性混合效应（non-linear mixed-effects, NLME）模型中尚属空白——本文恰好填补这一缺口。

发展脉络¶

奠基框架
Ghosal, Ghosh & van der Vaart (2000) 和 Ghosal & van der Vaart (2007) 建立了非 i.i.d. 观测下后验收缩率的一般理论，核心思路是：通过构造指数可分的检验（exponentially powerful tests）来证明后验质量集中于参数附近。这个框架是后续所有工作的基础。
稀疏线性回归
Castillo & van der Vaart (2012) 处理了稀疏序列模型（multivariate normal mean），给出了点质量混合先验下的最优收缩率。
Castillo, Schmidt-Hieber & van der Vaart (2015) 将结果推广到稀疏线性回归，首次证明了 spike-and-slab 先验（包含点质量+连续部分）下后验以 minimax 最优速率收敛，且能实现模型选择一致性。他们引入了相容性条件（compatibility condition），成为后续工作的标准工具。
本文引用背景：“sparse linear regression models with various types of mixture priors have been widely investigated, particularly in Narisetty and He (2014), Castillo et al. (2015), and Ročková and George (2018)”。
扩展到更复杂的模型
广义线性模型 (GLM)：Jeong & Ghosal (2021a) 将同一框架推广到稀疏 GLM，允许非规范链接函数，并证明后验收缩率与 Lasso 类方法相当。
带干扰参数的线性回归：Jeong & Ghosal (2021b) 进一步发展了处理未知干扰参数（可以是有限维、高维或无限维）的理论，利用平均 Rényi 散度（average Rényi divergence）来克服干扰参数的存在；该文同时证明了模型选择一致性和 Bernstein–von Mises 型结果。本文的核心证明结构直接继承自这一工作（文中明确说：“proofs…following the general structure of those presented in Jeong and Ghosal (2021b)”）。
多元响应组稀疏：Ning & Ghosal (2018) 在高维线性回归中处理未知协方差矩阵（其维数也可能高），使用了基于特征分解的先验，并得到了包含协方差参数的后验收缩率。本文在处理随机效应协方差矩阵 Γ 时也参考了该文。
混合效应模型的变量选择（频率学派一侧）
Schelldorfer, Bühlmann & De Geer (2011) 是线性混合效应模型高维变量选择的频率学派先驱，使用 ℓ₁ 惩罚，证明了估计一致性和 oracle 最优性。
Ghosh & Thoresen (2018) 将非凹惩罚（如 SCAD）引入线性混合效应模型，得到了高维条件下的选择和估计一致性。
但以上全是线性模型，直到本文才将贝叶斯后验收缩率理论推广到非线性混合效应。
非线性混合效应模型的计算方法
Ollier (2022) 提出使用惩罚似然 + 随机邻近梯度算法进行快速变量选择。
Naveau et al. (2023) 提供了基于 SAEM 算法的贝叶斯计算方法。
Krennmair & Schmid (2022) 用混合效应随机森林进行预测。
本文在 intro 中引用这些工作作为计算背景，但强调理论分析仍是空白。
本文的位置
本文宣称：“there exists a gap in the literature regarding analogous theoretical findings for non-linear models within the high-dimensional setting”。它首次给出了非线性混合效应模型的贝叶斯后验收缩率，是 Jeong & Ghosal (2021b) 框架的一个具体且非平凡的推广。

子线索聚类¶

线索 A（贝叶斯稀疏回归理论主干）：Castillo et al. (2015) → Jeong & Ghosal (2021a, 2021b) → Ning & Ghosal (2018) → 本文。
线索 B（混合效应模型变量选择）：Schelldorfer et al. (2011) → Ghosh & Thoresen (2018) → 本文（提供理论保证）。
线索 C（非线性混合效应模型的计算）：Ollier (2022); Naveau et al. (2023); Krennmair & Schmid (2022) → 本文（为这些方法提供渐近理论支持）。

核心问题与瓶颈¶

核心问题：如何将贝叶斯后验收缩率框架从线性/GLM 推广到非线性混合效应，其中非线性函数 \(f\) 破坏了似然的凸性，且随机效应协方差矩阵 \(\Gamma\) 是未知干扰参数？
已知瓶颈：
非线性导致测试构造和检验函数的存在性更加复杂；
随机效应协方差 \(\Gamma\) 的未知性阻碍了对回归系数 \(\beta\) 的直接收缩率分析（需要先通过预测项 \(f\) 的速率再反推 \(\beta\)）；
相容性条件需适应非线性设定。
本文的突破：假设残差方差 \(\sigma^2_\varepsilon\) 已知（简化测试构造），并利用 Nickl (2023) 的非线性逆问题理论（“deriving a posterior contraction rate on β vector from the contraction rate on the prediction term”）来桥接预测项与系数向量的速率。

⚠️ 作者的 framing¶

作者声称的缺口：所有已有的高维贝叶斯后验收缩率结果都只适用于线性或广义线性模型，非线性混合效应模型没有理论结果。
被淡化/回避的竞争路线：
频率学派 \(\ell_1\) 方法（Schelldorfer et al., 2011）虽然在高维线性混合效应模型中有理论保证，但未处理非线性；作者提到该工作但未讨论能否扩展到非线性。
贝叶斯非参数（如 Gaussian process 混合效应）的后验收缩率已有一些结果，但非稀疏高维设定。本文未提及。
明显该引却未见：
关于 非线性回归（非混合效应）的贝叶斯后验收缩率：例如 Richard Nickl 等人在逆问题上的工作，本文仅引用 Nickl (2023)，但早期相关文献（如 van der Vaart & van Zanten (2009) 的 GP 收缩率）没有出现——可能是因为本文假定参数空间有限维（稀疏β）而非非参。
最近的高维贝叶斯非线性模型（如 Bayesian neural networks）的后验收缩率结果（如 Polson & Ročková (2018)）也未被讨论。这可能是合理边界（本文限定了参数化的 NLME 模型），但值得读者核实是否存在更紧的相关工作。

张力¶

未见被引文献之间有明显矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设对每个个体 \(i = 1,\dots, n\)，我们有 \(n_i\) 个观测（通常 \(n_i\) 小，总样本量 \(N = \sum n_i\)）。定义：

\(y_{ij} \in \mathbb{R}\)：第 \(i\) 个体的第 \(j\) 次响应（可观测）。
\(\mathbf{x}_{ij} \in \mathbb{R}^p\)：对应的协变量向量（可观测），可能高维 \(p \gg N\)。
\(\boldsymbol{\beta} = (\beta_1,\dots,\beta_p)^\top \in \mathbb{R}^p\)：固定效应回归系数（未知、待估）。假设稀疏：非零分量个数 \(s = \|\boldsymbol{\beta}\|_0\) 远小于 \(p\)。
\(b_i \in \mathbb{R}^q\)：第 \(i\) 个体的随机效应（不可观测，潜在变量）。假设 \(b_i \sim \mathcal{N}_q(\mathbf{0}, \Gamma)\)，其中 \(\Gamma \in \mathbb{R}^{q \times q}\) 为正定协方差矩阵（未知、待估）。\(q\) 通常远小于 \(p\)，且假定已知（如 \(q=1\) 随机截距）。
\(\varepsilon_{ij} \sim \mathcal{N}(0, \sigma_\varepsilon^2)\)：独立同分布的测量误差，\(\sigma_\varepsilon^2\) 已知（关键假定）。
非线性函数 \(f(\mathbf{x}_{ij}, \boldsymbol{\beta}) : \mathbb{R}^p \times \mathbb{R}^p \to \mathbb{R}\)：已知形式（如 \(f(\mathbf{x},\boldsymbol{\beta}) = \beta_1 x_1 + \beta_2 x_2 + \beta_1 \beta_2 x_1 x_2\)）。
可观测数据：\(\mathcal{D}_N = \{ (y_{ij}, \mathbf{x}_{ij}) : i=1,\dots,n, j=1,\dots,n_i \}\)。
不可观测（潜在）：\(b_i\) 和 \(\boldsymbol{\beta}\) 的真值、\(\Gamma\) 的真值。
先验：
对 \(\boldsymbol{\beta}\)，每个分量独立：\(\beta_j \sim (1-\pi_0) \delta_0 + \pi_0 \cdot \text{Laplace}(\lambda)\)（spike-and-slab）。
对 \(\Gamma\)，取 Inverse-Wishart\((\nu, \Phi)\)。

模型（数据生成机制）：

\[y_{ij} = f(\mathbf{x}_{ij}, \boldsymbol{\beta}) + \mathbf{z}_{ij}^\top b_i + \varepsilon_{ij},\]

其中 \(\mathbf{z}_{ij} \in \mathbb{R}^q\) 是随机效应的设计矩阵（通常包含截距和/或某些协变量），已给定，且本文默认其有界。

后验收缩率：给定 \(\mathcal{D}_N\) 后，关于 \(\boldsymbol{\beta}, \Gamma\) 的后验分布 \(\Pi(\cdot \mid \mathcal{D}_N)\) 在某种距离（如 \(\ell_1\) 范数、Frobenius 范数、预测误差）下的收敛速度 \(r_N\)（即 \(\Pi(\|\boldsymbol{\beta} - \boldsymbol{\beta}_0\| > M r_N \mid \mathcal{D}_N) \to 0\) 对某个 \(M\)）。

第二步：最小内核——退化为简单特例¶

最简特例：取 \(q=1\)，\(\Gamma = \gamma\)（标量），\(\mathbf{z}_{ij} = 1\)（随机截距）；取每个个体只有一个观测 \(n_i = 1\)（退化为标准非线性回归，但随机效应和误差不可分——这里为了恢复可识别性，我们取 \(n_i=2\)）。为更清晰，我们采取一个极简设定：

令 \(n=1\)（仅一个个体），但重复观测 \(n_1 = 2\)，即 \(y_1, y_2\)，对应协变量 \(x_1, x_2\)（标量且不同）。
取 \(q=1, b_1 \sim \mathcal{N}(0,\gamma)\)，\(\varepsilon_j \sim \mathcal{N}(0,1)\) 已知。
取最简单的非线性模型：
\[y_j = \beta \cdot \sin(x_j) + b_1 + \varepsilon_j, \quad j=1,2.\]
这里 \(\beta\) 是标量（p=1，稀疏性退化为非零/零判别，但可呈现结构）。真实 \(\beta_0\) 可能是 0（稀疏）或某个非零值（但假设稀疏时更关注 0 情况）。

核心问题：对于这个特例，后验对 \(\beta\) 和 \(\gamma\) 的收缩率是多少？直观上，由于 \(f(x,\beta)=\beta \sin(x)\) 关于 \(\beta\) 是线性的（意外地），这个特例实际上退化为线性混合效应模型，本文的一般结果应能涵盖。真正非线性需用 \(f(\beta)=\beta^2 x\) 等。我们选用不可线性化的非线性：

\[y_j = \beta^2 x_j + b_1 + \varepsilon_j, \quad j=1,2.\]

（注意 \(\beta^2\) 使得 \(f\) 在 \(\beta\) 处梯度为 \(2\beta x_j\)，在 \(\beta=0\) 处消失，造成非正则。）

本文的关键想法：在面对非线性函数 \(f\) 时，直接证明 \(\beta\) 的收缩率是困难的。本文的策略是：先证明预测项 \(f(\mathbf{x}_{ij},\boldsymbol{\beta})\) 的后验收缩率（即 \(\Pi( \{\sum (f(\mathbf{x}_{ij},\boldsymbol{\beta}) - f(\mathbf{x}_{ij},\boldsymbol{\beta}_0))^2 > M r_N^2\} \mid \mathcal{D}) \to 0\)），然后利用 \(f\) 的某种局部可逆性**（如满足条件：\(\|f(\boldsymbol{\beta}) - f(\boldsymbol{\beta}_0)\| \ge c \|\boldsymbol{\beta} - \boldsymbol{\beta}_0\|\) 在一个小邻域内）将预测速率转化为 \(\beta\) 的速率。这个转化工具来自 Nickl (2023) 的非线性逆问题理论——本文引用时特别注明。

对于上述二次型例子，在 \(\beta_0=0\) 附近，\(\beta^2 x\) 的 Lipschitz 常数在零点退化，但本文的额外假设（如要求 \(\nabla f\) 非退化或 \(\beta_0\) 非零？）会限制这种情况。论文在定理 4 中额外假设了什么？我们没有全文，但从 abstract 知“under additional assumptions, the posterior distribution is shown to contract for recovery of the unknown sparse regression vector at a rate similar to that established in the linear case.” 这意味着该额外假设排除了零梯度点。

因此，最小内核揭示：本文的核心数学困难在于预测项速率到参数速率的映射，这是非线性模型特有的，而线性模型中没有这一步骤（因为预测项与 \(\beta\) 之间是线性映射，速率直接传递）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维稀疏非线性混合效应模型（假设残差方差已知，回归系数 \(\boldsymbol{\beta}\) 稀疏，随机效应协方差 \(\Gamma\) 未知）中，证明了贝叶斯后验分布对 \(\Gamma\)、预测项 \(f(\mathbf{x},\boldsymbol{\beta})\) 和（在额外条件下）\(\boldsymbol{\beta}\) 本身的收缩率。
核心工具/方法：使用 spike-and-slab 先验（点质量混合 Laplace 分布）和 Inverse-Wishart 先验；证明路线继承 Ghosal–van der Vaart 的测试性框架，并引入平均 Rényi 散度处理 \(\Gamma\)，利用 Nickl (2023) 的非线性逆问题理论从预测收缩率导出 \(\beta\) 收缩率。
主要结论：
后验的有效维度（effective dimension，即被选为非零的 \(\beta_j\) 个数）以高后验概率有界。
\(\Gamma\) 的后验收缩率 \(r_{N,\Gamma}\) 由先验参数和模型复杂度决定。
预测项 \(\sum_{i,j} (f(\mathbf{x}_{ij},\boldsymbol{\beta}) - f(\mathbf{x}_{ij},\boldsymbol{\beta}_0))^2\) 的收缩率 \(r_{N,\text{pred}}\) 达到与线性模型类似的形式（形如 \(s \log p / n\) 的量纲）。
在额外的假定（可能包括 \(f\) 的梯度非退化或相容性条件）下，\(\|\boldsymbol{\beta} - \boldsymbol{\beta}_0\|_1\) 或 \(\|\boldsymbol{\beta} - \boldsymbol{\beta}_0\|_2\) 的收缩率 \(r_{N,\beta}\) 与线性情形相当（即 \(r_{N,\beta} \asymp r_{N,\text{pred}}\)）。

关键设定与假设（基于 abstract 和引用语境推断）¶

模型：\(y_{ij} = f(\mathbf{x}_{ij}, \boldsymbol{\beta}) + \mathbf{z}_{ij}^\top b_i + \varepsilon_{ij}\)，\(b_i \sim N(0,\Gamma)\)，\(\varepsilon_{ij} \sim N(0,\sigma^2)\)，\(\sigma^2\) 已知。
稀疏先验：\(\beta_j \sim (1-\pi_0)\delta_0 + \pi_0 \cdot \text{Laplace}(\lambda)\)，\(\pi_0\) 和 \(\lambda\) 依赖 \(n,p\)（通常 \(\pi_0 \asymp p^{-1}\) 或类似，确保稀疏先验质量）。
Γ 先验：Inverse-Wishart(\(\nu, \Phi\))，参数选择需保证后验矩存在。
设计矩阵条件：假设 \(\|\mathbf{x}_{ij}\|_\infty \le C\)，\(\|\mathbf{z}_{ij}\| \le C\) 等常见有界条件。
相容性条件：类似 Castillo et al. (2015) 对设计矩阵的局部相容性，但推广到非线性设定（可能涉及 \(f\) 的梯度矩阵 \(\nabla f\)）。
非线性函数 \(f\) 的假设：需要 \(f\) 对 \(\boldsymbol{\beta}\) 连续可微，且满足某种局部强凹性或一致可逆性（来自 Nickl 2023 的框架），以确保预测速率能反向传递到 \(\boldsymbol{\beta}\)。具体表述可能类似：存在常数 \(c>0\) 使得 \(\|f(\boldsymbol{\beta}) - f(\boldsymbol{\beta}_0)\|_2 \ge c \|\boldsymbol{\beta} - \boldsymbol{\beta}_0\|_2\) 对足够接近 \(\boldsymbol{\beta}_0\) 的 \(\boldsymbol{\beta}\) 成立。
文献对比：相比 Jeong & Ghosal (2021b) 的线性模型（干扰参数为 \(\sigma^2\) 等），本文的主要新挑战是 (i) 非线性函数 \(f\)，(ii) 随机效应协方差 \(\Gamma\) 通过 \(b_i\) 引入额外不确定性，不再是独立的观测误差。

主要结果（理论型，给出 2-3 个关键定理的直觉）¶

定理类型 1：有效维度有界（类似 Castillo et al. (2015) Lemma 2）
- 陈述（直觉）：以高后验概率，模型中被选为非零的 \(\beta_j\) 数量不超过 \(C s_0\)（\(s_0\) 为真实非零个数）。
- 必要条件：先验 spill mass 恰当地集中在稀疏处，且检验能区分不同维度模型。
- 解决的技术难点：非线性导致似然检验构造更复杂，但借助 \(f\) 的 Lipschitz 性质（假设被满足）可类比线性情形。

定理类型 2：预测项和 \(\Gamma\) 的后验收缩率
- 陈述（直觉）：存在序列 \(\epsilon_N \to 0\)，满足

\[\Pi\left( \frac{1}{N} \sum_{i,j} (f(\mathbf{x}_{ij},\boldsymbol{\beta}) - f(\mathbf{x}_{ij},\boldsymbol{\beta}_0))^2 > M \epsilon_N^2 \mid \mathcal{D} \right) \to 0,\]

\[\Pi\left( \|\Gamma - \Gamma_0\|_F > M \epsilon_{N,\Gamma} \mid \mathcal{D} \right) \to 0,\]

其中 \(\epsilon_N^2 \asymp s_0 \log p / N\)（可能包含因子 \(\log N\)），\(\epsilon_{N,\Gamma}\) 涉及 \(q\) 和 \(n\)（通常更快，因为只涉及 \(n\) 个体）。
- 证明关键：使用平均 Rényi 散度来处理 \(\Gamma\)（继承 Jeong & Ghosal 2021b 的技巧），将 \(\Gamma\) 的不确定性通过 \(b_i\) 边缘化后，对 \(y\) 的似然可写为带未知 \(\Gamma\) 的多元正态分布，再构造测试。

定理类型 3（本文最主要的贡献）：在额外假设下 \(\boldsymbol{\beta}\) 的收缩率
- 陈述：若 \(f\) 满足所谓的局部可逆条件（见上文），则

\[\Pi\left( \|\boldsymbol{\beta} - \boldsymbol{\beta}_0\|_1 > M \epsilon_N \mid \mathcal{D} \right) \to 0,\]

其中 \(\epsilon_N\) 与预测速率相同（仅有常数差异），即达到线性情形相同的速率。
- 解决的技术难点：得出这个结果依赖于非线性逆问题的推导——本文引用 Nickl (2023) 的方法，将 \(\beta\) 的估计视为反解非线性映射 \(G(\boldsymbol{\beta}) = (f(\mathbf{x}_{ij}, \boldsymbol{\beta}))_{i,j}\)。具体地，若 \(G\) 在真实点 \(\boldsymbol{\beta}_0\) 处是局部微分同胚（导数矩阵满秩），那么预测误差的界直接转化为 \(\boldsymbol{\beta}\) 误差的界。
- 注意：这一假设排除了 \(f\) 在真值处梯度退化或真值位于尖锐边界等情形。

证明路线与技术技巧¶

整体路线（参考 Jeong & Ghosal 2021b）：

构造先验的集中性：证明先验在稀疏参数集 \(\{\|\boldsymbol{\beta}\|_0 \le s\}\) 上有足够质量（Kullback–Leibler 条件），且对 \(\Gamma\) 附近有正质量。这是 Ghosal–van der Vaart 测试性框架的第一步：先验在真实参数附近有足够质量（prior concentration）。
有效维度控制：构造检验来排除具有太多非零分量或太大 \(\Gamma\) 的参数。利用 spike-and-slab 先验的 point mass 部分给出维度惩罚，通过类似于 Castillo et al. (2015) 的论证，证明后验只会赋予小维度模型大的权重。
预测项的收缩：
定义平均 Rényi 散度 \(d(\boldsymbol{\beta}, \boldsymbol{\beta}_0; \Gamma, \Gamma_0)\) 来衡量带随机效应的观测分布之间的差异。
通过构造对每一个可能的 \(k_1 = \|\boldsymbol{\beta}\|_0\) 和 \(k_2\)（与 \(\Gamma\) 相关）的测试函数（exponentially powerful tests），证明后验质量集中在散度小的区域。
利用 Rényi 散度与预测误差之间的关系（由模型的高斯性保证），得到预测项的速率。
从预测到 \(\boldsymbol{\beta}\) 的传递：
引入非线性映射 \(G(\boldsymbol{\beta}) = (f(\mathbf{x}_{ij}, \boldsymbol{\beta}))_{i,j}\)。证明在额外条件下，\(G\) 在 \(\boldsymbol{\beta}_0\) 附近的 Lipschitz 常数和逆 Lipschitz 常数都有界（即 \(G\) 是双Lipschitz的）。于是 \(\|\boldsymbol{\beta} - \boldsymbol{\beta}_0\| \asymp \|G(\boldsymbol{\beta}) - G(\boldsymbol{\beta}_0)\|\)，从而预测速率直接给出 \(\boldsymbol{\beta}\) 的速率。这一步是本文相比线性模型全新的步骤，使用的工具来自 Nickl (2023) 的非参数逆问题贝叶斯理论（具体可能是 Le Cam 的 Lipschitz 反函数引理或局部线性化）。

关键跳跃点： - 如何在没有一般似然凸性的条件下构造指数可分的检验？本文依赖高斯误差假设，将非线性函数视为已知的均值函数，从而检验依然可以通过线性化处理（构造关于 \(G(\boldsymbol{\beta})\) 的测试，而非直接关于 \(\boldsymbol{\beta}\)）。 - 如何克服随机效应协方差 \(\Gamma\) 的未知性？通过平均 Rényi 散度（见 Jeong & Ghosal 2021b），将 \(\Gamma\) 边缘化后得到的边际分布是 \(\mathcal{N}(f + \mathbf{Z}\mathbf{Z}^\top \Gamma, \sigma^2 I)\)，其散度可显式表达为矩阵的迹形式，进而可以构造检验。

技术技巧点名： - Spike-and-slab 先验的测试构造：继承 Castillo et al. (2015) 的“martingale test”或“\(\chi^2\) test”。 - 平均 Rényi 散度：用于处理 \(\Gamma\) 的干扰，已由 Jeong & Ghosal (2021b) 系统化。 - 非线性逆问题工具：来自 Nickl (2023) 的专著，具体是局部线性化和Lipschitz 逆映射定理。 - 有效维度上界的证明使用了类似于相容性条件下的 Lasso 分析。

真实例子与应用¶

本文没有真实数据或模拟实验。在 abstract 和引用中均未提及任何实证结果。作者提到“This study provides a novel contribution, focusing specifically on a non-linear mixed-effects model”，属于纯理论工作。不过，与本文同一团队的前期工作（Naveau et al., 2023）包含模拟和植物育种数据应用，但本文仅提供渐近理论。

🔎 结论是否比证明窄？¶

文中定理 4（\(\boldsymbol{\beta}\) 的收缩率）明确声明需要 additional assumptions，且这些假设在 abstract 中被描述为“under additional assumptions”。因此，论文的一般性较弱：即便从预测速率推出的 \(\Gamma\) 和预测项的速率在更宽松条件下成立，\(\boldsymbol{\beta}\) 的速率依赖于较强的局部可逆条件，这并不总是满足（例如，当真实 \(\beta_0\) 在某些分量上为零时，梯度矩阵可能降秩；虽然稀疏变量中非零分量会被分离，但函数可能依赖于交叉项导致退化）。读者应仔细检查定理 4 的假设是否涵盖了非线性混合效应模型中常见的函数（如指数衰减、Michaelis-Menten 等）——很可能只适用于“梯度在真值处满秩”的子类。
此外，假设残差方差已知在实际中常见（如通过独立试验估计），但在许多 NLME 应用中 \(\sigma_\varepsilon^2\) 也需估计。本文未覆盖这种情况，这是一个明显的人为简化。

四、开放问题（扎根具体语句，最多 3-4 条）¶

放松残差方差已知的假设：能否将 \(\sigma_\varepsilon^2\) 也作为未知参数纳入后验收缩率的分析？扎根于本文假设“the residual variance is assumed to be known”——这在实际中较少见；可参考 Jeong & Ghosal (2021b) 中对选择干扰参数大小的处理。
去掉 \(\boldsymbol{\beta}\) 收缩率的额外假设：定理 4 中的额外假设（大概是 \(G\) 的局部双Lipschitz性质）能否被减弱或验证？扎根于 abstract 中 “under additional assumptions…the posterior distribution is shown to contract for recovery of the unknown sparse regression vector”。如果能证明更弱的条件（如相容性条件 + 函数 \(f\) 的某些非退化性假设）仍能得到相同速率，则实用性更强。
得到 minimax 最优速率：本文声称收缩率与线性情形“similar”，但并未证明它是 minimax 最优的。非线性模型的信息下界是什么？扎根于结果陈述的措辞“at a rate similar to that established in the linear case”——相似不等于最优；可结合高维统计中的 minimax 理论（您熟悉的领域）来计算下界，看是否匹配。
非线性函数的类型：本文的证明对 \(f\) 的依赖性如何？是否要求 \(f\) 对 \(\boldsymbol{\beta}\) 是线性形式的非线性（如 \(f = g(\mathbf{x}^\top \boldsymbol{\beta})\)）还是允许任意非线性（如乘法形式 \(\beta_1 \beta_2 x_1 x_2\)）？论文可能需要在“什么类型的非线性函数能被处理”方面更清晰。这是一个“未被明确讨论但读者关心”的 gap。

提示：要确认这些 gap 是否为真，建议同时阅读 Jeong & Ghosal (2021b) 和 Nickl (2023) 的相关章节，检查文中假设的具体表述。如果 \(f\) 的条件是 Lipschitz + 可微且其 Jacobian 的最小奇异值有下界，那么很多简单的非线性（如二次型）在真值为零时会被排除。这可能是作者未强调的弱点。

Maintained by 陈星宇 · Homepage · Source on GitHub