Non-asymptotic bounds for quasi-MLE, misspecified models, and dependence under group sequential sampling¶

作者: Julian Aronowitz, Jay Bartroff
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.07499

一、领域脉络与小综述¶

这个方向是什么 这个子方向致力于为极大似然估计（MLE）及拟极大似然估计（QMLE）的渐近正态性提供非渐近的、具有显式常数的有限样本逼近界。传统渐近理论（如 \(n \to \infty\) 下的 \(\sqrt{n}(\hat{\theta}-\theta_0) \to N(0, I^{-1})\)）只保证了极限分布的形态，但无法回答“样本量多大时正态逼近才可靠”这一实践问题。本方向利用 Stein's method 等概率工具，将渐近结论转化为可计算的误差界，并近期向群组序贯抽样、模型误设及组内依赖等复杂设定拓展。当前成熟度处于理论工具已成型、正向复杂统计设定（依赖/误设/序贯）渗透的阶段。

发展脉络 - 奠基工作：White (1982, 1996) 建立了固定样本下 QMLE 的渐近正态性理论，指出在模型误设下，估计量收敛到 KL 散度最小化点 \(\theta^*\)，且协方差结构为“Sandwich”形式（Hessian 与 Information 矩阵不再相等）。Jennison & Turnbull (1997) 证明了群组序贯抽样下 MLE 的联合渐近多元正态性，但假设观测独立且模型正确设定，并留下口子：“The general theory can also be extended to studies with correlated observations... We are not aware of such an extension... having been carried out”（引自 Intro）。 - 主要进展（Stein's Method 引入）：Anastasiou & Reinert (2017) 首次利用 Stein's method 为固定样本、正确设定的 MLE 导出了显式 Stein 界。随后 Anastasiou (2018) 扩展至多元，Anastasiou & Ley (2017) 及 Anastasiou & Gaunt (2020) 在 MLE 具有加性结构的假设下简化了界。Anastasiou (2017) 考虑了 \(m\)-dependent 数据，但仅限单变量。 - 当前 frontier（群组序贯与依赖）：Aronowitz & Bartroff (2025) 将非渐近界推广至群组序贯抽样（正确设定、独立观测）。Berckmoes et al. (2018, 2020) 用 approach theory 研究了序贯抽样后样本均值的渐近性，但未涉及 MLE 的非渐近界。 - 本文的位置：本文填补了 Jennison & Turnbull (1997) 留下的口子，将 Aronowitz & Bartroff (2025) 的界推广至QMLE（模型误设）与组内依赖设定，是首个在群组序贯下处理误设与依赖的非渐近界结果。

子线索聚类 1. Stein's Method for MLE Normal Approximation：Anastasiou 系列工作 (2017, 2018, 2020) 及 Pinelis (2017)。核心是利用 Stein's method 或特征函数，为 MLE 构造交换对或利用 Delta method，计算与正态的分布距离。 2. Group Sequential Asymptotic Theory：Jennison & Turnbull (1997, 2000)，Berckmoes 系列 (2018, 2020)。核心是证明序贯停止规则下统计量的联合渐近正态性，依赖“独立增量”结构。 3. QMLE & Misspecification Theory：White (1982, 1996)。核心是定义 KL 散度最小化点 \(\theta^*\)，推导 Sandwich 协方差阵 \(J = H^{-1} I H^{-1}\)，其中 Hessian \(H\) 与 Information \(I\) 因误设而不同。

这个方向在追问的核心问题 1. 收敛速率与常数：MLE/QMLE 到正态的收敛速率是否达到最优 \(O(1/\sqrt{n})\)？界中的常数能否显式计算且不依赖于未知参数？ 2. 停止规则的干扰：群组序贯的停止规则如何影响联合估计量的协方差结构？非渐近界如何量化这种干扰？ 3. 误设与依赖的代价：模型误设（Hessian \(\neq\) Information）与组内依赖（Score 函数非独立求和）在有限样本下对正态逼近精度造成多大的定量偏差？

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“依赖观测（如随机效应、混合模型）与模型误设下的群组序贯 QMLE 缺乏非渐近界”，并引用 Jennison & Turnbull (1997) 的原话作为动机，将自己定位为该引言的显然延伸。 - 淡化/回避的路线：作者明确回避了基于特征函数的路线（Pinelis 2017, Ulyanov），理由是“These results require independence and apply only to the univariate setting, and thus are not considered for extension to the setting considered here”。这合理，但特征函数路线在 Kolmogorov 距离下有最优阶，Stein 路线目前主要针对 Smooth function 距离，作者未深入对比两者的优劣。 - 缺失的引用：Intro 未引用近年来高维 MLE/QMLE 的非渐近界工作（如 Spokoiny 等人的 high-dimensional MLE bounds），也未引用半参数效率理论中处理误设估计方程的文献（如 Newey 1994 或 semi-parametric robustness）。对于一位关注 semiparametric efficiency 的研究者，这是值得去查的缺口：本文的 Sandwich 协方差计算与半参数中的 robust covariance 是否有深层联系？

张力未见明显对立引用。Anastasiou 系列与 Pinelis 在工具选择上有分歧（Stein vs 特征函数），但作者已明确选边并解释了理由。

二、这篇论文做了什么¶

三句话 ① 研究了群组序贯抽样下，存在模型误设与组内依赖时 QMLE 的渐近多元正态极限与非渐近正态逼近界。 ② 核心工具是 Stein's method 的交换对技术，结合 Taylor 展开与 Cauchy-Schwarz 截断。 ③ 主要结论是给出了具有显式常数的 \(O(1/\sqrt{n_K})\) 阶非渐近界，并在 Poisson GLMM 下显式计算了 Sandwich 协方差阵与界的所有分量。

关键设定与假设 - 群组序贯设定：观测分为 \(K\) 组，累计样本量 \(n_k\)。估计量向量为 \(\hat{\theta}_K = [\hat{\theta}_{n_1}; \dots; \hat{\theta}_{n_K}] \in \mathbb{R}^{dK}\)。 - QMLE 与误设：真实密度为 \(g^n\)，拟合密度为 \(f^n(\cdot|\theta)\)。QMLE \(\hat{\theta}\) 最大化 \(f^n\) 的对数似然，收敛到 KL 散度最小化点 \(\theta^*_{n_K}\)（而非真参数 \(\theta_0\)）。 - 依赖结构：组间独立，组内可依赖。这是关键假设，保留了群组序贯分析所需的“独立增量”结构（引用 Spiessens et al. 2000; Parast & Bartroff 2024）。 - 正则条件 (C1)-(C6)：参数空间紧致、Score 函数满足 LLN/CLT、Hessian 负定、可交换求导与期望。与 White (1996) 一致。 - 界的额外假设 (21)-(22)：对数似然的三阶导数被函数 \(M^k_{iuj}(y)\) 控制，且该控制函数在 \(|\hat{\theta} - \theta^*| < \epsilon\) 下的二阶矩有限。这是 Taylor 展开余项截断所必需的。

主要结果 1. Theorem 2.1 (渐近极限)：\(\sqrt{n_K} J^{-1/2}(\hat{\theta}_K - \theta^*_K) \to N(0, I_q)\)。其中 \(J\) 是 \(dK \times dK\) 的 Sandwich 协方差阵，块结构为 \(J[j][k] = H_j^{-1} I_{j \wedge k} H_k^{-1}\)。若模型正确设定（\(H=I\)），退化为 Aronowitz & Bartroff (2025) 的结果；若 \(K=1\)，退化为 White (1996) 的结果。 2. Theorem 2.2 (非渐近界)：对于 3 次可微测试函数 \(h\)， \(|E[h(X)] - E[h(Z)]| \le \frac{|h|_1}{\sqrt{n_K}} R_1 + \frac{q^2 \tau^2 |h|_2}{4} R_2 + \frac{q^3 \tau^3 |h|_3}{12} R_3 + \frac{2|h|_0}{\epsilon} E[Q]\)。 - \(R_1\)：MLE 与 Score 函数线性逼近的误差（来自 Taylor 展开余项与 Score 均值非零）。 - \(R_2\)：组内依赖导致的 Score 函数条件期望的方差（Stein 界的核心难点）。 - \(R_3\)：Score 函数的三阶矩（依赖下的交叉项）。 - \(Q\)：MLE 与 \(\theta^*\) 的最大偏差，用于截断控制。 - 界的阶数为 \(O(1/\sqrt{n_K})\)。 3. Corollary 3.1 (Poisson GLMM 显式计算)：在 Poisson GLMM (27) 下，若 \(E[e^U]=1\)，则 \(\theta^* = \theta_0\)。显式计算了 Hessian \(H_k\) (39)、Information \(\tilde{I}_k\) (42)。关键发现：Information 矩阵包含 \(\text{Var}(e^U)\) 项，当 \(\text{Var}(e^U) > 0\) 时 \(H \neq I\)（模型误设），Sandwich 结构显现。

证明路线与技术技巧 - 整体路线： 1. 分解距离：利用三角不等式，将 MLE 到正态的距离分为两部分：(62) Score 函数到正态的距离 + (63) MLE 到 Score 函数的距离。 2. Score 到正态 (62)：构造 Score 函数的交换对，应用 Reinert & Röllin (2009) 的多变量 Stein 界定理，计算条件期望方差 (\(R_2\)) 与三阶矩 (\(R_3\))。 3. MLE 到 Score (63)：对 Score 函数做二阶 Taylor 展开，将余项分为线性部分 (\(T_1\))、均值部分 (\(T_2\)) 和二次余项 (\(T_3\))。利用 Cauchy-Schwarz 与截断 (\(Q < \epsilon\)) 分别控制。 4. Poisson GLMM 计算：利用 Poisson 分布的条件矩公式 (Stirling numbers) 与随机效应的 MGF，显式求解 \(R_1, R_2, R_3\)。 - 关键跳跃点： - 组内依赖下的 Stein 界：传统的 Stein 界要求独立求和。本文允许组内依赖，通过构造组间独立、组内替换的交换对 \(W'\)（随机选一个观测 \(i^*\)，替换为其独立拷贝 \(\xi'_{i^*}\)），巧妙利用了组间独立性使得线性条件 \(E[W'-W|W] = -(1/n_K)W\) 仍然成立。这是证明能够绕过“全局依赖”死结的关键。 - Taylor 展开余项的控制：MLE 的 Taylor 展开余项通常难以控制。本文引入截断条件 \(Q < \epsilon\)（MLE 与目标点的偏差小于 \(\epsilon\)），在截断集内利用假设 (21)-(22) 控制三阶导数，在截断集外利用 Markov 不等式粗暴控制，得到 \(E[Q]/\epsilon\) 项。 - 技术技巧点名： - Stein's Method of Exchangeable Pairs：用于 (62) 的控制。构造 \(W'\)，验证线性条件，计算 \(A, B\) 项（对应 \(R_2, R_3\)）。 - Truncation / Conditioning on \(Q < \epsilon\)：用于 (63) 中 \(T_3\) 的控制。将余项分为“小偏差”与“大偏差”两部分，大偏差用 Markov 不等式放缩，小偏差用 Cauchy-Schwarz 结合假设 (22) 放缩。 - Cauchy-Schwarz Inequality：大量用于 \(T_1, T_2\) 及 \(T_3\) 小偏差部分的放缩，将期望的乘积转化为方差与二阶矩的乘积（如 (81), (85)）。 - Stirling Numbers of the Second Kind：用于 Poisson GLMM 的矩计算 (32)，将 \(E[Y^m]\) 表达为 \(e^{j x^T \theta} M_U(j)\) 的求和，从而显式计算 \(R_2, R_3\)。

真实例子与应用 - 数据/场景：癫痫临床试验 (Leppik et al. 1985)，\(K=4\) 期，\(d=4\) 协变量，\(q=16\)。随机效应 \(U_k \sim N(-\sigma^2/2, \sigma^2)\) 保证 \(E[e^U]=1\)。 - 怎么用上去：用真实数据估计参数 \(\theta_0\)，然后以此为中心模拟生成数据（乘数 \(m\) 放大样本量），计算 Corollary 3.1 的界。 - 得到什么结果：Table 1 显示界随 \(m\) 增加以 \(\approx 1/\sqrt{10}\) 速率下降，符合 \(O(1/\sqrt{n})\) 阶。\(R_3\) 项占主导（>94%），作者指出这是因为对 \(E|Y_i - Y'_i|^3\) 使用了粗暴放缩 (45)。 - 想说明什么：验证界的可计算性与速率，同时指出界的保守性（LHS 约为 \(10^{-10}\)，界远大于此），这是 Stein 界的通病。

🔎 结论是否比证明窄 - Theorem 2.2 的界依赖于测试函数 \(h\) 的 3 阶导数 (\(|h|_3\))，但作者在 2.3 节提及 Gaunt (2016) 和 Gaunt & Li (2023) 可以将要求降至 1 阶或 2 阶导数，并声称 "It may be possible to produce a version of our bound (23) with these relaxations"。这是一个未证明的 Conjecture/Claim，仅在文中泛泛提及，没有给出具体形式或证明草图，且承认代价可能是界的阶数随维度 \(q\) 增加。

三、开放问题¶

降低测试函数的光滑性要求：当前界要求 \(|h|_3 < \infty\)（3 阶可微），这排除了 Kolmogorov 距离（指示函数）。能否利用 Gaunt & Li (2023) 的技术，构造仅依赖 \(|h|_1, |h|_2\) 的界？代价是否仅为维度 \(q\) 的多项式增加？（扎根于 Section 2.3 末尾："It may be possible to produce a version of our bound (23) with these relaxations, at the cost of an increase of the bound's order of the dimension \(q\)"）
组间依赖的推广：当前假设组间独立。能否在组间存在弱依赖（如 Markov 结构或时间序列）下构造交换对或利用 blocking technique 推导非渐近界？（扎根于 Intro 对 Jennison & Turnbull (1997) 的引用："a more general result, allowing some dependence between groups as well, will hold as long as the LLN... hold for the conditional score functions"，作者承认这是可能的但未做）
收紧 \(R_3\) 项的粗暴放缩：在 Poisson GLMM 例子中，\(E|Y_i - Y'_i|^3\) 被 \(2E[Y_i^3]\) 粗暴放缩，导致 \(R_3\) 占主导。能否对特定模型（如 GLMM）利用条件矩的精确公式或更精细的 coupling，直接计算或大幅缩小 \(R_3\)？（扎根于 Section 4："This is due in part to the crude bound used in (45), and could be mitigated by utilizing the left hand side of (45), computed by Monte Carlo"）

四、最核心、最简单的例子 / 数学问题¶

最简特例：固定样本 (\(K=1\))、单变量 (\(d=1\))、正确设定 (\(\theta^* = \theta_0\))、组内独立

在这个特例下，群组序贯的联合分布退化为单点，Sandwich 协方差 \(J\) 退化为 \(I^{-1}\)（因为 \(H=I\)），MLE 向量退化为标量 \(\hat{\theta}\)。要证的命题退化为：证明 \(\sqrt{n} I^{-1/2} (\hat{\theta} - \theta_0)\) 到 \(N(0,1)\) 的距离有 \(O(1/\sqrt{n})\) 界。

证明怎么走（核心数学内核）：即使在这个最简特例下，本文的核心技巧——Stein's Method with Exchangeable Pairs for Dependent Data——的内核依然保留（假设组内有依赖，即 \(K=1\) 但组内 \(n\) 个观测 \(Y_1, \dots, Y_n\) 存在依赖）：

构造交换对：令 \(W = n^{-1/2} \sum_{i=1}^n S(i, \theta_0)\)（Score 函数的标准化）。随机选一个指标 \(i^* \in \{1, \dots, n\}\)，将 \(S(i^*, \theta_0)\) 替换为其独立拷贝 \(S'(i^*, \theta_0)\)（即重新从条件分布抽一次），得到 \(W'\)。
线性条件：因为 \(E[S'(i^*)|W] = E[S(i^*)]\)（独立拷贝），所以 \(E[W'-W|W] = -\frac{1}{n} W\)。这一步成立不要求 \(Y_i\) 之间独立，只要求替换操作合法。
计算 \(R_2\) (方差项)：这是依赖的代价。在独立数据下，\(E[(W'_i - W_i)(W'_j - W_j)|W]\) 的方差很容易算。但在依赖数据下，替换 \(i^*\) 会影响其他 \(W_j\) 的条件期望（因为 \(Y_{i^*}\) 与 \(Y_j\) 依赖），导致 \(R_2\) 中出现 \(\text{Var}(\sum_{v \in G_k} \xi_{vi} \xi_{vj} - \dots)\) 这样的交叉项（见 (72)）。
从 Score 到 MLE：\(\hat{\theta} - \theta_0 \approx H^{-1} W\)。利用 Taylor 展开控制余项。

为什么成立 / 难在哪：难在组内依赖使得 Score 函数不再是独立求和，传统的 Stein 界（基于独立求和的 Lindeberg swapping）失效。本文的破法是：只换一个观测 \(\xi_{i^*}\)，而不是换一整块。因为只换一个，线性条件的计算只需 \(E[\xi'_{i^*} - \xi_{i^*}|W]\)，这等于 \(E[\xi'_{i^*}] - E[\xi_{i^*}|W]\)，前者是无条件期望，后者是条件期望，差值恰好是 \(-\xi_{i^*} + E[\xi_{i^*}]\)，从而凑出 \(-\frac{1}{n} W\)。这个技巧绕过了“必须知道联合分布才能换整块”的障碍，只要能生成单变量的独立拷贝（即知道条件分布），就能构造交换对。这是本文在数学上最核心的洞察。

Maintained by 陈星宇 · Homepage · Source on GitHub

Non-asymptotic bounds for quasi-MLE, misspecified models, and dependence under group sequential sampling¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论