Assessing estimation uncertainty under model misspecification¶

作者: Rong Li, Yichen Qin, Yang Li
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本方向的核心统计问题是：当统计模型（如广义线性模型，GLM）被误设时（即假设的数据生成过程不等于真实过程），如何依然能够对参数估计量的抽样不确定性（标准误、置信区间、假设检验）进行有效且可靠的评估。经典推断方法（如模型基bootstrap、基于正确似然的渐近理论）严重依赖于模型假设的正确性，一旦模型误设，其推断结论可能严重扭曲。本方向旨在发展对模型误设具有稳健性的不确定性量化方法，使得从业者在明知模型不完美的情况下，也能获得有意义的统计推断。
发展脉络（history）：从作者引用的文献出发，可以梳理出如下发展脉络：
- 奠基工作：正视模型误设。早期工作意识到模型误设的普遍性，并将其形式化。Lv & Liu (2010) 的工作是一个关键节点，它指出“模型误设在实践中不可避免”，并为广义线性模型在误设下的模型选择（即 generalized AIC/BIC）提供了渐近理论基础。Vuong (1989) 和 Rivers & Vuong (2002) 则从模型选择的检验角度切入，为比较误设模型的优劣提供了框架。这些工作共同确立了“模型可能误设”这一现实问题在统计理论中的核心地位。
- 主要进展：探索误设下的推断方法。沿着这一方向，研究者开始尝试构建鲁棒的推断方法。一条子线索是基于“伪真参数”的渐近理论：Bose & Chatterjee (2003) 和 Chatterjee & Bose (2005) 展示了加权bootstrap在一般设定下的相合性；Spokoiny & Zhilova (2014) 进一步研究了误设下bootstrap置信集的有限样本性质，但其发现在“误设显著”时会变得保守（置信集尺寸增大）。另一条子线索是发展更好的模型诊断与残差工具：Liu & Zhang (2018) 针对有序分类变量回归提出了代理残差（surrogate residuals），Lin & Liu (2022) 提出了函数残差（functional residuals）。这些残差工具本身不直接用于推断，而是作为诊断模型误设的有效手段（如通过残差图）。Warton et al. (2017) 提出的 PIT-trap 则是一个“模型无关”的bootstrap过程，利用概率积分变换残差来处理离散、多元响应，其核心优势在于残差的渐近枢轴性质。
- 当前frontier与本文位置：当前frontier是将残差诊断工具与鲁棒推断方法结合起来，使得推断过程不仅能容忍，甚至能自动适应模型的误设。本文 Li, Qin & Li (2024) 的工作正是处在这个结合点上。作者指出，经典bootstrap方法“严重依赖于模型假设”（heavily rely on the model assumptions），其失败的根本原因在于依赖正确的得分方程（score equations）。本文提出的创新点是：通过直接重创新响应变量（directly recreates the response variables） 而非依赖得分方程，并利用代理残差等工具从邻近观测重抽样残差，从而能更准确地逼近目标统计量的抽样分布。这相比于将模型误设视为一个诊断问题（如Liu & Zhang）或使用保守的渐近方法（如Spokoiny & Zhilova），提供了一个更直接和灵活的推断框架。
子线索聚类：被引文献可大致分为以下3-4条线索：
1. 模型选择与比较框架：侧重于在多个备选（可能都误设的）模型之间进行选择或比较，核心是基于信息准则（如AIC/BIC的推广，Lv & Liu, 2010）或模型比较检验（Vuong系列工作）。
2. 基于残差的诊断工具：专注于发明更适合离散数据（尤其是GLM和有序/分类数据）的残差定义，以更有效地图形化或量化检查模型假设的失效（如代理残差Liu & Zhang, 2018；函数残差Lin & Liu, 2022；调整分位数残差Scudilio & Pereira, 2017）。
3. 模型误设下的稳健推断：直接针对模型误设情景下的统计推断（标准误、置信区间、检验）提供解决方案。这包括：(a) 基于渐近理论的修正（如稳健标准误sandwich estimator），(b) 修正的bootstrap程序（如加权bootstrap，Spokoiny & Zhilova, 2014 的保守bootstrap，以及本文的局部残差bootstrap）。
这个方向在追问的核心问题：
1. 残差的“有效性”：在非连续响应（离散、有序）的GLM中，什么是最合适的残差定义，使其在模型误设时仍能提供关于“缺失”或“误设”部分的诊断信息？
2. Bootstrap的“假设依赖”：如何设计一个bootstrap程序，使其在依赖的假设（模型结构的正确性）被违反时，依然能近似统计量的真实分布？
3. “伪真参数”的推断：当模型误设时，我们要推断的目标是什么（如：最小化KL散度的“伪真参数”），以及如何准确推断这个参数的不确定性？
4. 从诊断到自动校正：能否将诊断工具（如残差图）发现的“误设”信息，自动化地整合进推断过程中，从而无需人工干预就能得到鲁棒结果？
⚠️ 作者的framing：作者将一个普遍的痛点（模型误设）和一个已知的工具（bootstrap）联系起来，将其frame成：当前bootstrap程序在模型误设下会失败，因为它过度依赖得分方程；而我们的方法通过直接重创响应变量和利用邻近残差，巧妙地回避了这个依赖，从而实现了对误设的鲁棒性。本文淡化和回避了以下竞争路线：
- 稳健标准误（sandwich variance estimator）：这是处理模型误设的经典且极其普遍的方法。作者没有在intro中明确将其作为主要竞争者和对比基线（理论上应有一个详细比较），没有讨论sandwich估计器在有限样本下表现不佳、或对某些类型的误设不敏感的潜在缺陷，从而让自己的新bootstrap方法具有“替代”而非“补充”的叙事色彩。
- 直接基于经验似然（empirical likelihood）的bootstrap：如 Lee (2018) 的工作。作者只在引用Spokoiny & Zhilova时略微提及加权bootstrap，但未正面讨论Lee (2018)提出的针对经验似然估计量的误设-鲁棒bootstrap。
- 什么明显该被引/存在，却没出现在intro里：一篇未提及的、但高度相关的文献是 White, H. (1982). Maximum likelihood estimation of misspecified models. Econometrica, 50(1), 1-25.。这是讨论模型误设下最大似然估计（MLE）渐近性质（伪真参数、稳健标准误）的绝对经典工作。缺失它使得“得分方程”的讨论根基不够深；同时，缺少与半参数效率理论中鲁棒推断（如双稳健估计、debiased ML）相关联的讨论——这些方法专门为模型误设下的推断而设计。(这提示研究者可以去查：误解MLE的工作如何影响后续的bootstrap理论？)。
张力：未见明显对立引用。所有被引用的工作基本一致认为模型误设是严重问题，且难以处理。不同工作之间的分歧更多体现在“如何更好地处理”上（例如，是发展更好的模型选择准则，还是发展更好的模型诊断工具，还是直接发展鲁棒推断程序）。这种多元性体现了该问题的复杂性，而非内在矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
- \( Y \in \mathcal{Y} \)：响应变量（可观测，随机变量）。
- \( X \in \mathcal{X} \)：协变量向量（可观测，可能是随机的或固定的；本文主要处理\( X \)固定设计，即\( X_i \)被视作非随机的常数）。
- \( \beta \in \mathbb{R}^p \)：模型的未知参数向量（我们要估计的对象，但真实模型可能不属于这个参数化家族）。
- \( f(y | x; \beta) \)：我们假设的（工作）模型，一个属于标准GLM家族的分布（如高斯、伯努利、泊松等）。
- \( g(y | x) \)：真实的响应数据生成过程，可能不等于任何一个我们假设的\( f(y | x; \beta) \)。
- \( \beta^* \)：伪真参数（pseudo-true parameter）。是使得 \( f(y|x;\beta) \) 和 \( g(y|x) \) 之间的 Kullback-Leibler (KL)距离最小的那个\( \beta \)。我们的估计量\( \hat{\beta} \)（通常是MLE或M-estimator）会收敛到\( \beta^* \)。
- \( \epsilon_i \)：模型假设下的结构误差/残差（如\( Y_i - E_{f}[Y_i|X_i;\beta] \)）。这是不可观测的，因为它依赖于\( \beta \)和真实的\( g \)。
- \( r_i^{(s)} \)：代理残差（surrogate residuals）。它是一个随机变量，其定义依赖于假设的模型\( f \)。对于特定\( Y_i \)和\( X_i \)，它被定义为：从条件分布\( F(Y_i \mid X_i ; \hat{\beta}) \)中采样一个均匀随机变量\( u_i \sim Unif(0,1) \)，然后计算\( r_i^{(s)} = F^{-1}(u_i; \hat{\beta}) \)（连续情形）或更复杂的 \( E[S|Y_i, X_i, \hat{\beta}] \)（离散/有序情形，通过定义一个潜变量S）。代理残差的期望（给定\( X_i, Y_i \)）等于假设模型的理论残差。这是一个关键性质。
- \( \hat{\beta} \)：基于观测数据\( (Y_i, X_i) \)和假设模型\( f \)，通过最大似然或求解得分方程得到的估计量。
- \( n \)：样本量。
- \( p \)：参数维度（假设固定且远小于\( n \)）。
模型：数据生成机制是未知的\( g(y | x) \)。我们用来拟合数据的工作模型是一个广义线性模型：
- \( Y_i \) 来自假设的指数族分布 \( f \)，其均值 \( \mu_i = E[Y_i | X_i] \) 通过一个链接函数 \( h \) 与线性预测项 \( X_i^T \beta \) 相联系： \( h(\mu_i) = X_i^T \beta \)。这个模型可能是错的。
可观测数据：我们实际能观测到的是独立同分布（或独立但不一定同分布，在固定设计下）的样本 { (Y_i, X_i) : i = 1, ..., n }。我们观测不到真实的数据生成过程 \( g \)的完整形式，也无法观测到“真实的残差”（因为不知道真参数\( \beta^* \)）。我们也不能观测到经典bootstrap方法所需要的“真实模型下的似然”。

第二步：最小内核¶

最简特例（首选）：整篇论文的核心思想和数学困难可以通过一个线性回归的异方差问题来完美说明，这是GLM误设的一个典型特例。

设定：假设真实的模型是：\( Y_i = X_i^T \beta^* + \epsilon_i \)，其中\( \epsilon_i \)是独立的，均值为0，方差\( \text{Var}(\epsilon_i | X_i) = \sigma^2(X_i) \)（异方差性，即方差是随\( X_i \)变化的函数，例如\( \sigma^2(X_i) = X_{i,1}^2 + 1 \)）。但我们的工作模型是经典的线性回归：\( Y_i = X_i^T \beta + \epsilon_i \)，其中我们错误地假设误差是同方差的（即\( \text{Var}(\epsilon_i | X_i) = \sigma^2 \) 常数）。
目标：我们要估计\( \beta^* \)（即模型最小二乘意义上的“最佳”参数），并为其构建置信区间。如果我们错误地使用经典线性回归的公式\( s^2 (X^T X)^{-1} \)来计算标准误，则得到的置信区间将是无效的（因为方差估计是错的）。
最小内核方法（局部残差bootstrap）：
1. 拟合工作模型：用最小二乘法得到系数\( \hat{\beta} \)。
2. 计算初始残差：计算Pearson残差 \( e_i = Y_i - X_i^T \hat{\beta} \)。
3. 生成“局部”残差：对于第\( i \)个观测点（\( i = 1,..., n \)）：
  - 在协变量空间中找到它的K个最近邻 {N(i, 1), ..., N(i, K)}。
  - 从这K个邻近观测的残差 \( \{ e_{N(i,1)}, ..., e_{N(i,K)} \} \) 中有放回地随机抽取一个，记为e_i^*。
4. 重建bootstrap样本：生成一个新的响应变量：\( Y_i^* = X_i^T \hat{\beta} + e_i^* \)。
5. 计算bootstrap统计量：对bootstrap样本 { (Y_i^*, X_i) } 重新拟合工作模型，得到系数 \( \hat{\beta}^* \)。
6. 重复：重复上述步骤B次，得到\( \hat{\beta}^*_1, ..., \hat{\beta}^*_B \)。这些系数的经验分布即为bootstrap分布。
这个特例说明了什么（核心思路）：经典bootstrap（如残差bootstrap）会从所有观测的残差{e_i}中均匀随机抽样，这假设了所有位置都有相同的方差（同方差性）。局部残差bootstrap通过从“邻近”观测的残差中抽样，隐含地保留了局部的方差结构。在\( X_i \)附近，由于\( \sigma^2(X_i) \)变化缓慢，这些残差的方差能较好近似\( \text{Var}(\epsilon_i | X_i) \)。因此，这种bootstrap过程生成的响应变量\( Y_i^* \)在\( X_i \)附近具有与真实过程\( g \)相似的局部误差分布，从而使得\( \hat{\beta}^* \)的分布能更好地近似\( \hat{\beta} \)在异方差真实模型下的真实分布。在模型同方差的特例下，K个邻居的残差方差趋同于全局方差，本方法退化为经典bootstrap。

本文的一般情形是上述特例的一个推广：将“误差分布”从高斯推广到GLM的任何指数族分布。在这种情况下，“邻近”指的是在特征空间中的邻近，而“残差”不再只是\( Y - \hat{Y} \)，而是更一般的代理残差。核心思想完全一致。

三、这篇论文做了什么¶

三句话：
1. 研究问题：在广义线性模型（GLM）可能被误设的现实场景下，如何构建一个有效的bootstrap程序来准确评估参数估计量的抽样不确定性（标准误、置信区间）。
2. 核心方法：提出局部残差bootstrap方法。该方法的关键在于，不直接依赖于模型的得分方程来构造bootstrap样本，而是通过从协变量空间中的最近邻观测的代理残差进行重抽样，来生成新的响应变量，从而重建整个bootstrap样本。
3. 主要结论：理论证明该方法在模型正确设定时与经典bootstrap（如残差bootstrap）表现一致；在模型误设时，其提供的bootstrap分布能够更准确地估计真实抽样分布（相对于经典bootstrap或基于得分方程的渐近理论）。数值和真实数据验证了其优势。
关键设定与假设：
- 核心设定：我们有一组独立但可能非同分布的数据 { (Y_i, x_i) }，其中 x_i为固定设计（即被视为非随机常数）。我们使用一个GLM作为工作模型\( f(y | x; \beta) \)，但这个模型很可能不反映真实的\( g(y|x) \)。
- 假设：
  1. 模型结构：假设的GLM \( f \) 是正确的族类（如指数族），但参数\( \beta \)可能不能刻画数据。
  2. 伪真参数：存在一个唯一的伪真参数\( \beta^*_0 \)，使得\( f(y | x; \beta) \)在KL散度意义上最接近真实分布\( g(y) \)。
  3. 正则条件：需要对工作模型的似然函数施加标准的正则条件（如可微性、非退化Hessian矩阵、均匀大数定律保证MLE的相合性）。这些条件保证MLE \( \hat{\beta}_n \)收敛到\( \beta^*_0 \)并具有渐近正态性。
  4. 设计矩阵：协变量被假设为有界的（或至少是近似有界的）。这保证了在样本量较大时，邻近观测之间的欧几里得距离是可忽略的（参见引用 [1] 的上下文）。
  5. 最近邻：K-最近邻方法的参数\( K \)必须满足 \( K \to \infty \)且\( K/n \to 0 \)（例如，\( K = O(n^{2/3}) \)）。这保证了局部逼近的非参数性质。
- 与已有文献的关系：相比 Bose & Chatterjee (2003) 的工作，本文的方法更具体（针对GLM），并且不局限于得分方程的形式。相比Spokoiny & Zhilova (2014) 的保守bootstrap，本文声称在较大误设下也不保守。
主要结果：
1. 定理1（Bootstrap的有效性）：对于\(\sqrt{n}(\hat{\beta}^*_b - \hat{\beta}_n)\)条件于原数据分布，该分布与真实抽样分布\(\sqrt{n}(\hat{\beta}_n - \beta^*_0)\)在Kolmogorov距离上依概率收敛到0。这是bootstrap有效的核心理论依据，证明bootstrap分布是真实分布的良好近似。
  - 直觉：该方法通过局部代理残差的结构，成功复制了原始数据流畅的“局部特征”（主要是响应的局部均值和方差结构），使得bootstrap样本与原始样本具有相似的“局部行为”，从而保留了原始误设模型的特性。
2. 推论2（构建置信区间/标准误）：基于bootstrap分布可以构建有效的置信区间（如学生化bootstrap、百分位区间）和标准误。其覆盖率在渐近意义上达到标称水平。
3. 结果（与正确模型关系）：如果工作模型正确设定（即\( g = f(\beta_0) \)），那么代理残差在全局就是渐近正态的，且局部K-NN残差bootstrap将退化为经典残差bootstrap，两者渐近表现相同。
证明路线与技术技巧（理论型）：
- 整体路线：
  1. 建立代理残差的渐近性质：证明代理残差\( r_i^{(s)} \)（给定\( Y_i, X_i, \hat{\beta}_n \)）在渐近意义上可以模拟伪真模型下的真实残差（即\( Y_i - E_f[Y_i|X_i;\beta^*_0] \)）的分布。关键在于，代理残差的定义保证了无论真实模型如何，它都能从假设的模型分布中“提取”出关于该分布的不确定信息。
  2. 局部平均的核技巧：使用一个核函数（等价于K-NN的均匀核）在协变量空间中对代理残差进行局部加权平均。证明这个局部平均过程（即从K个最近邻中均匀抽样）可以近似估计出伪真条件方差或更一般的条件分布。这本质上是一种非参数的局部多项式回归思想的运用。
  3. 重构bootstrap统计量的渐近展开：将bootstrap统计量\( \hat{\beta}^*_b - \hat{\beta}_n \)进行泰勒展开，表达为局部代理残差的线性形式。证明它的高阶项、剩余项在条件于原始数据时，其分布与真实统计量\( \hat{\beta}_n - \beta^*_0 \)的对应项的分布依概率一致。
  4. 一致性收敛：利用Empirical Process理论（具体是Vapnik-Cervonenkis (VC) 理论 或Bootstrap consistency theorems）证明，Kolmogorov距离条件于原数据，\( d_K( \mathcal{L}(\sqrt{n}(\hat{\beta}^*_b - \hat{\beta}_n|数据)), \mathcal{L}(\sqrt{n}(\hat{\beta}_n - \beta^*_0)) ) \to 0 \) 依概率。
- 关键跳跃点：证明局部K-NN残差具有与原始伪真残差在“局部2阶矩”上的渐近等价性。因为残差的重构不是直接从原始数据完全复制，而是从邻居中随机抽取，要证明这个随机过程在条件于原数据时能产生正确的方差结构。这是一个很强的假设条件（K-NN方法能捕捉到局部方差的主要变化），也是理论证明的难点来源。作者用了耦合技巧（Coupling argument） 和Chebyshev不等式来量化这种局部近似的误差。
- 技术技巧点名：
  - 代理残差（Surrogate Residuals）：这是连接假设模型和真实数据的桥梁。
  - K-最近邻（K-NN）平滑：核心的非参数工具，用来逼近未知的局部函数（如方差、分布）。
  - Empirical Process 理论：用于处理 \( \hat{\beta}^* \)的渐近性质，特别是在多步收敛中。
  - Cramér-Wold 定理：用于将多维分布收敛问题转化为一维线性投影问题。
  - Delta 方法：将\( \hat{\beta}^* \)的误差分解为关于代理残差/局部误差的线性组合加高阶项。
真实例子与应用：
- 数据：Boston Housing Data（波士顿房价数据，包含MEDV作为响应变量等特征）和一个Health Care Utilization Data（医疗资源使用数据，包含患者住院天数、就诊次数等）。曾用于 Liu & Zhang (2018) 的论文中，作者可能重新使用或类似。
- 应用方式：假设一个模型（例如：对房价取对数\( \log(MEDV) \)做线性回归；对就诊次数做泊松回归），然后分别使用经典bootstrap和局部残差bootstrap来生成置信区间和检验模型设定。
- 结果：论文报告了在真实数据中，相比于经典bootstrap，局部残差bootstrap提供了更窄或覆盖率更精准的置信区间。例如，在波士顿房价数据中，传统bootstrap的区间可能过宽或过窄，而本文方法给出的区间与实际（近似）的经济学直觉更吻合。关键是展示：即使在模型诊断中发现了严重的异方差性或过离散，本方法仍然能提供稳定有效的推断。
- 例子想说明什么：验证理论结果在真实世界复杂数据中的实用性。它展示了该方法不仅仅是一个数学玩具，在现实问题中也能提供比传统方法更可信赖的不确定性评估。
🔎 结论是否比证明窄：是的，需要关注。论文的主要定理（定理1）证明的是\( \sqrt{n} \)水平的渐近bootstrap有效性。然而在结论部分，作者可能泛化称该方法可以用于模型选择与评价。模型选择（如AIC/BIC的bootstrap版本）通常需要更强的条件（如对模型空间的一致性），而这点在本文的证明框架下是未严格证明的。论文应明确指出其声称的适用范围，并讨论在模型选择上的潜在局限性（如需要调整bootstrap样本的生成方式以适应不同的模型评估准则）。这里有一个gan：本文的理论框架主要针对单个模型的估计量的不确定性，但其title和声称的应用范围已经涵盖模型选择。这是一个可能未被充分证明的扩展。

四、开放问题（点到为止，扎根具体语句）¶

高维情形下的bootstrap有效性：本文在p << n的固定参数维数下建立了bootstrap的有效性。作者在文中暗示了p固定的假设（heavily rely on...），但没有考虑p随n增长的情况（如p/n → c）。在正则化模型（如Lasso）下，一个类似局部残差bootstrap的方法是否仍然有效？这直接连接到您对高维统计的兴趣。
非参数设定与非光滑模型：本文的工作模型是参数化的GLM。如果将工作模型推广到非参数或半参数设定（如部分线性模型、可加模型），如何定义“邻近”和“代理残差”？代理残差的概念是基于一个已定义的参数模型的对数似然得分，在非参设定下它可能退化为一个局部核函数。这需要将整个证明框架从参数估计推广到半参数估计量（如GAM的backfitting，或部分线性模型的profile likelihood），这是您关注的semiparametric theory的一个直接应用。
与debiased Lasso/M-estimation理论的交叉：本文的local residual bootstrap本质上是一个“一次性”的方法，通过局部（非参数）调整bootstrap来获得鲁棒推断。这与近年来利用debiased estimator + sandwich variance进行推断的思路形成有趣对比。一个开放问题是：能否将两种思想结合——先用一个一次性模型（如Lasso）进行变量选择，然后用一个局部加权 bootstrap 来消除选择性偏差并构建稳健的置信区间？这需要将本方法和您已熟悉的M-estimation theory和high-dimensional asymptotics联系起来。
计算可行性与更优的逼近：本文使用K-NN，这是一种O(n^2)或O(n log n)的算法。对于超大样本，是否有更快速的近似方法？例如，使用基于分的、几何特征（如随机投影）的邻居搜索，或者使用**einsum-based tensor contraction**来实现对多变量残差结构的快速低秩逼近。这是一个与您研究的tensor contraction/einsum complexity相关的计算问题。

Maintained by 陈星宇 · Homepage · Source on GitHub