A Unified Framework for Residual Diagnostics in Generalized Linear Models and Beyond¶

作者: Dungang Liu, Zewei Lin, Heping Zhang
来源: Journal of the American Statistical Association
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2504037

一、领域脉络与小综述¶

这个方向是什么¶

本方向聚焦于广义线性模型（GLM）及其半参数扩展（如广义可加模型，GAM）的模型诊断——具体而言，就是如何定义和使用"残差"来检测模型设定错误（如遗漏高阶项、交互效应、零膨胀成分等）。在连续数据（如线性回归）中，经典残差（原始残差）之所以有效，是因为数据的随机性在拟合后完全体现在残差中，且分布形状（如Q-Q图）能直观反映偏离。但当响应变量是离散（二元、有序、计数）时，经典Pearson残差和Deviance残差的条件分布严重偏离正态性（例如，对于二元响应，任何残差都只取两个值），导致传统诊断图（残差-协变量散点图、Q-Q图）信息量极低甚至完全失效。因此，这个子方向的核心问题就是：在离散数据下，如何构造一个"残差"——最好是连续且信息丰富的——使之能像线性回归的残差一样直观地诊断模型设误？

发展脉络（History）¶

以下梳理从经典到本文的发展，主要依据本文 Introduction 中对前人工作的引用和定位：

奠基工作：经典残差的标准诊断框架（1970s-1980s）。对于线性模型，Anscombe (1973), Cox & Snell (1968), Landwehr et al. (1984) 奠定了基于残差图的诊断范式。这些工作建立了一个"残差≈零均值、近似正态分布的独立随机误差"的直观图景，使得诊断图（残差 vs. 拟合值、残差 vs. 协变量、Q-Q图）成为标准实践。对于GLM，Pierce & Schafer (1986) 系统分析了Pearson残差和Deviance残差的渐进性质，指出它们在连续数据情形下可用，但在离散数据情形下"image"（图形）严重退化。
主要进展：专门为离散数据设计的"点"残差（2010s）。为了克服离散数据下经典残差的退化，研究者提出了两类新型残差，它们本质上是将离散残差映射到连续尺度上的一个"点"：
概率尺度残差（Probability-Scale Residual, PSR）：Li & Shepherd (2012) 提出PSR，定义为 r_PSR = P(Y* < y) - 0.5*P(Y* = y)，其中 Y* 是服从拟合分布的随机变量，y 是观测值。它取值在 (-0.5, 0.5) 之间，对二元、有序、计数数据都适用，且条件分布是连续且对称的。Shepherd et al. (2016) 进一步将其推广到多水平模型。
替代残差（Surrogate Residual）：Liu & Zhang (2018) 提出替代残差，通过引入一个潜在连续变量（对二值/有序数据）。其核心思想是：若模型正确设定，则替代残差的条件分布是均匀的。两人中，一位是本文作者（Liu），另一位是本文共同作者（Zhang）。
这两类残差是点残差——每个观测样本对应一个数值。它们改善了诊断图的可读性，但作者指出，当数据为离散时，一个点残差包含的关于分布拟合质量的信息量有限——它无法同时反映多个分位数上的偏离，因为一个数值只能捕获分布的一个特征（如均值、中位数或某个分位残差）。这是本文要填补的缺口。
当前 Frontier 与本文的位置：本文作者的切入点是：既然一个"点"不够，那就用一个"函数"来承载残差信息。对于每个观测值 (x_i, y_i)，一个函数 R_i(t) = F_{Y|X}(t | x_i) - I(y_i ≤ t)（或类似变形）被构造出来，其输入是 t（某个实数），输出是一个"偏离度"的数值。这个函数集合保留了对所有阈值 t 的拟合偏差信息，从而比任何单一的"点残差"信息量更大。作者将这一概念称为函数残差（Functional Residual），并证明它统一了已有的PSR和替代残差（即它们是函数残差的某种积分或抽样）。本文确立了函数残差的理论性质（收敛性、渐近分布）并开发了相应的诊断图 Function-to-Function（F-to-F）图 和 函数残差-协变量（R-vs-C）图。

子线索聚类¶

本文引用和定位的工作大致落在以下两条子线索上：

线索（1）：离散数据下的新型"点"残差构造。核心问题是：如何为离散响应构造一个连续的残差量？主要方法有：
Li & Shepherd (2012)：概率尺度残差（PSR）。定义清晰，计算简单，适用于多种离散分布。但信息量受限于"点"。
Liu & Zhang (2018)：替代残差。利用潜在变量构造，理论背景更接近因果推断中的潜在结果框架（latent variable formulation）。同样受限于"点"。
这两类工作构成了本文的直接先导。作者通过提出"函数残差"来统一它们，并证明其扩展性。
线索（2）：半参数模型的诊断。此线索关注更灵活的模型形式（如GAM）的诊断：
Hastie & Tibshirani (1990)：GAM的奠基工作，但未深入讨论离散响应的诊断。
Wood (2017)：GAM的现代理论框架与实现（mgcv包），其中诊断部分主要依赖Pearson残差和模拟。作者指出，在离散数据（如二元、计数）下，mgcv的默认诊断工具（如 gam.check()）效果有限。
本工作将离散响应的诊断范围扩展到GAM，并展示了函数残差在检测GAM设误（如遗漏平滑项、零膨胀成分）中的有效性。

这个方向在追问的核心问题¶

如何构造一个信息量足够大、同时又易解释的"残差"？
- 现有方法（PSR、替代残差）提供了连续量，但仍是"点"，丢失了分布信息。能否找到一个更强的量，同时保持可视化的直观性？
如何将残差诊断与模型修正的"方向"关联起来？
- 看到残差-协变量图中有模式，到底应该加交互项、加平方项、还是修正连接函数？当前方法无法提供明确的修正方向。
对更复杂的模型（如GAM、混合效应模型）的诊断是否可统一？
- GAM对离散响应的诊断工具匮乏，且现有方法通常针对特定模型（如GLM）设计，缺乏统一框架。
诊断方法的理论性质（收敛速度、检验功效）如何？
- 许多诊断工具是启发式的，缺乏严格的统计理论基础来保证其检测能力（特别是功效 vs. 特定备择假设）。

⚠️ 作者的 Framing¶

作者将缺口 Frame 成什么？ 作者将关键缺口定位为："现有残差是点统计量（point statistic），当数据离散时，一个点保留的信息不足以充分揭示模型设误。因此需要将残差提升为函数（functional residual），以此捕获更丰富的信息，并统一现有方法（PSR、替代残差）。"
哪些竞争路线被淡化或回避了？
正式的假设检验方法（如 score test, GOF test）被淡化。作者在Intro中仅简要提及"大多数GOF检验只能检测整体拟合，不能像图一样揭示特定设误类型（如缺的到底是哪一项）"，从而将诊断图（而非检验）定位为本文焦点。但读者应意识到：GOF检验可以通过局部分解（如针对特定方向的C(α)检验）也做到"提示设误方向"。
模拟/后验预测检查（Posterior Predictive Check, PPC）。Bayesian路线通过模拟拟合分布下的数据集并与实际数据对比（参见 Gelman et al. (1996) 等）也能实现类似功能，但此文未深入讨论。
R的DHARMa包。这是一个专门为离散GLM设计的诊断工具，使用模拟残差（simulated residuals），功能上与本文部分重叠。论文未引用。
什么明显该被引/该存在，却没出现在Intro里？
DHARMa 及其相关文献（Florian Hartig, 2022 等）。这是一个活跃且广泛使用的R包，同样致力于解决离散GLM的诊断问题，其方法（量化残差，randomized quantile residuals）在逻辑上和本函数残差有学理关联，但本文未讨论。
连接半参数效率理论的诊断方法，比如基于影响函数（Influence Function）的模型检验——这与研究者（您）的"半参数理论"兴趣直接相关。本文没有朝这个方向走。

张力¶

未见明显对立的引用或结论。文献脉络基本上是累积性的（PSR→替代残差→函数残差），没有出现"方法A在某种条件下优于方法B但方法B在另一种条件下优于方法A"的显著张力。但这本身可能是一个信号——说明离散数据诊断的"最佳实践"尚未形成共识，不同方法（PSR, surrogate, functional）之间的正式比较（特别是power against specific alternatives 和 computational cost）仍有空间。

二、最核心、最简单的例子 / 数学问题¶

第一步：交代符号、模型、可观测数据¶

我们针对 GLM 的一般设定进行说明。GAM 的设定只是将线性预测器 x^T β 替换为可加平滑函数 f_1(x_1) + ... + f_p(x_p)，其余框架相同。

可观测数据：{(y_i, x_i)}_{i=1}^n，其中：
y_i ∈ ℝ：响应变量（可能离散，如0/1、计数0,1,2,...、有序类别）。
x_i ∈ ℝ^p：协变量向量（可能包含连续、离散或两者的混合）。
统计模型 / 假设的数据生成机制：
y_i | x_i 服从指数族分布，即密度（概率质量函数）为： p(y | x) = exp( (y * θ(x) - b(θ(x))) / φ + c(y, φ) )
θ(x) 是自然参数，通过连接函数 g(·) 与线性预测器关联：g(E[y|x]) = x^T β。
核心假设：模型是正确设定的，即 p(y|x) 的真实分布属于由参数 β 和可能已知的散度参数 φ 索引的指数族族。
参数和关键量：
β ∈ ℝ^p：待估的回归系数。本文的关注点在诊断（模型检验），而非 β 的推断。
F(y|x; β)：拟合的条件累积分布函数（CDF）。即，在协变量给定为 x 时，响应变量 y 的拟合（由模型估计的）条件分布函数。这是残差构造的核心。
I(y_i ≤ t)：指示函数，当观测值 y_i 小于等于阈值 t 时为1，否则为0。t 是一个自由变量，取遍实数（或 y 的取值范围）。
经典残差（对比物）：
Pearson残差：r_{P,i} = (y_i - E[y|x_i]) / sqrt(Var(y|x_i))。离散数据下严重非正态。
Deviance残差：基于对数似然差异，同样离散数据下非正态。
两者的共同问题：只能看"一个点"上的偏离（均值或似然），且离散下的图形模式难以解读。

第二步：最小内核——以二元Logistic回归为例¶

这是本文最核心概念的"最小特例"。去掉一般性后，支撑论文的最小内核是 "对每个观测值，定义一个函数，该函数是拟合CDF与指示函数的差"，它回答问题："模型拟合得好不好？好在哪？差在哪？"

最简特例：单协变量 x_i 的二元Logistic回归。设定 P(y_i = 1 | x_i) = p_i，拟合模型 logit(p_i) = β_0 + β_1 x_i。真实模型可能包含一个二次项 x_i^2。

可观测数据：{(y_i, x_i)}_{i=1}^n，y_i ∈ {0,1}，x_i ∈ ℝ。
拟合CDF：对于二元响应，拟合的CDF可以明确写出：
F(0 | x_i) = P(y_i ≤ 0 | x_i) = P(y_i = 0 | x_i) = 1 - p_i
F(1 | x_i) = 1，因为 y_i 最大为1。
函数残差的定义（核心思想）：对每个观测值 i，定义一个函数 R_i(t)（t 是实数阈值）： R_i(t) = F(t | x_i) - I(y_i ≤ t)
直觉：如果模型在阈值 t 处拟合完美，那么 F(t|x_i) 应该等于经验（观测到的）比例，即 I(y_i ≤ t) 的期望。对单次观测，I(y_i ≤ t) 是0或1。二者的差，作为 t 的函数，就是一个函数残差，它在每个 t 上评估了局部的拟合偏差。
在二元例子的具体计算：
- 若观测 y_i = 0：则 I(y_i ≤ t) 对于 t < 0 是1，对于 t ≥ 0 是1? 停！这里必须细致：y_i 取值0或1。所以：
- 对于 t < 0：I(y_i ≤ t) = 0（因为0 > t）。残差 R_i(t) = F(t|x_i) - 0 ≈ 0（因为对于 t<0，F(t|x_i)=0）。
- 对于 0 ≤ t < 1：I(y_i ≤ t) = 1（因为 y_i = 0 ≤ t）。残差 R_i(t) = F(0|x_i) - 1 = (1-p_i) - 1 = -p_i（常数）。
- 对于 t ≥ 1：I(y_i ≤ t) = 1，F(t|x_i) = 1，残差 R_i(t) = 0。
- 若观测 y_i = 1：类似推导得：
- 对于 t < 0：I(y_i ≤ t)=0，R_i(t)=0。
- 对于 0 ≤ t < 1：I(y_i ≤ t)=0，R_i(t)=F(0|x_i) - 0 = 1-p_i（常数）。
- 对于 t ≥ 1：R_i(t)=0。

这个例子说明了什么？ - 单独的 R_i(t) 是个阶梯函数（因为CDF是阶梯函数），但它的取值依赖于 p_i——也就是模型的拟合值。当 p_i 被正确估计（模型正确）时，R_i(t) 在 t^0 处的跳跃量（对 y_i=0 是 -p_i，对 y_i=1 是 1-p_i）的期望是0。 - 更关键的是，对一组在某个协变量区间（如 x_i 较小）的观测，它们的 R_i(t) 函数是否系统性地偏离0，这就是诊断的核心。例如，如果真实模型是 logit(p_i) = β_0 + β_1 x_i + γ x_i^2 但拟合模型遗漏了平方项，那么多项式项的误设会在 R_i(t) 随着 x_i 变化的模式中体现。 - 与"点残差"的对比：一个点残差（PSR或替代残差）只输出一个数，比如 s_i = E_{t~U}[R_i(t)]（PSR的某种积分形式）。这个 s_i 可能对某种特定设误（如均值偏移）敏感，但对高阶项的遗漏可能不敏感。而函数残差 R_i(t) 保留了在所有阈值 t 上的偏离信息，因此信息量远大于单个数字。

用此最简特例总结全文核心思路： "我们不用一个点（数值）来代表残差，而是用一个函数 R_i(t) 来代表残差。这个函数的值在每个阈值 t 上告诉我们，模型预测的 P(y ≤ t) 与观测到的 (y ≤ t) 之间的差距。这一差距的函数形式包含了丰富的设误信息，且可视化后能直观展示模型在哪里、以及如何不匹配。"

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在广义线性模型（GLM）及其半参数扩展（GAM）中，针对离散响应数据下经典残差诊断图失效的问题，提出了一种基于函数而非点的新型残差诊断框架。
核心工具/方法：提出了功能残差（Functional Residual），定义为 R(t) = F(t|x) - I(y ≤ t)，并在其基础上构造了统计性与渐近理论，设计了两种图形诊断工具：函数残差-协变量图（R-vs-C Plot） 和 函数对函数图（F-to-F Plot）。
主要结论：该框架统一了已有的概率尺度残差（PSR）和替代残差（Surrogate Residual），能在模拟和实证中检测到多种模型设误（高阶项遗漏、交互效应缺失、散度参数误设、零膨胀成分遗漏等），且在离散数据的诊断效果上优于经典残差图。

关键设定与假设¶

在第二节的基础上，论文对 GLM 的定义和函数残差的构造提出了若干假设，以下列出核心的几条（摘自论文的第2节和补充材料）：

假设 A（GLM 设定）：响应变量 y_i 的条件分布 F(y|x_i) 属于带连接函数 g(·) 的指数族分布。作者在此假设下推导函数残差的理论性质。这是标准假设，不弱于同类文献。
假设 B（兼容性假设）：所定义的函数残差 R_i(t) 的积分或某个泛函可以实现PSR和替代残差。作者在 Section 2.4 中给出了形式化证明（如PSR可表达为 E_{t ~ U}[R(t)] 的某种变形），这使其框架展现出统一性。
假设 C（无强共线性及Ⅳ问题）：与标准GLM理论相同，需要协变量设计矩阵满秩。这部分在标准MLE理论下等价于信息矩阵非奇异假设，作者未额外强调，但隐含其中。
关于诊断图的假设：
对于R-vs-C图：将每个观测的某个函数残差的摘要量（如 R_i(t_i)，其中 t_i 是某种代表性阈值，如 y_i）与协变量 x_i 画散点图。解读方式与线性模型残差-协变量图类似：没有系统性模式 = 良好拟合。
对于F-to-F图：本质上是 Q-Q 图的推广，它将每个观测的 R_i(·) 函数与一个理论基准函数（如来自 Bootstrap 的重抽样分布）进行比较。理论假设包括：Bootstrap 资源充足，函数残差的采样分布可近似。

主要结果¶

本文是方法型论文，理论结果不如纯粹统计理论文章密集，但仍提供了一些关键的理论支持：

结果1（一致性 / 渐近性，Theorem 1 及推论）：作者证明了，若模型正确设定，则样本函数残差的某个功能性（例如其均值）在适当弱条件下收敛到零函数。具体而言：sup_t | (1/n) Σ_i R_i(t) | →_p 0。这是诊断的统计基础——如果图出现系统性偏离（均值不趋近零函数），则提示模型误设。
结果2（与PSR/替代残差的统一，Theorem 2 及 Section 2.4）：严格证明了概率尺度残差和替代残差是函数残差的两种不同类型的积分/变换。具体为：
概率尺度残差 r_PSR = E_{t ~ U(y)}[R(t)]，其中U(y)是某个在支持集上的均匀分布。
替代残差可表达为 r_Surrogate = R(t_1) - R(t_0) 的某种变换，其中 t_1 和 t_0 是潜在变量划分的阈值。
这一结果将两个看似不同的方法归入同一框架，是论文的核心理论贡献之一。
结果3（诊断功效的经验验证，Section 4）：这是论文的重头。通过模拟和真实数据例子，作者展示了：
对GLM，R-vs-C图和F-to-F图能捕捉到的误设类型包括：遗漏二次项、遗漏交互项、错误链接函数、零膨胀成分。
对GAM，相同工具可用于检测遗漏平滑项或不恰当的平滑参数。
比较中，本方法的视觉诊断在多个场景下优于经典残差图（几乎无效）和PSR图（有时因信息不足而模糊）。

证明路线与技术技巧（理论型必写，要具体）¶

本文不是纯证明型论文，但包含了理论证明。证明的核心是建立函数残差的大样本性质。

整体路线（3步逻辑主干）： 1. 定义与转化：将诊断问题转化为函数空间中的假设检验问题。即，检验均值函数 μ(t) = E[R(t)] 是否恒为零。这是从点估计到函数估计的跃升。 2. 估计与收敛：用经验过程（Empirical Process）技术证明 μ̂(t) = (1/n) Σ_i R_i(t) 在 L_∞ 范数下 √n- 收敛到零（在正确模型下）。证明过程涉及对指数族的 Lipschitz 性质利用和 Uniform Law of Large Numbers。 3. 可视化与包装：将理论结果包装为直观的图。通过构造 B ootstrap 并行带（confidence envelope），将函数残差的偏离可视化在图中。

关键跳跃点： - 从点到函数的转换本身最难。作者需要证明对每一个 t 值，R_i(t) 以相同速度收敛，并且收敛是一致（uniform）的。这比离散 t 值的检验难很多，需要用经验过程理论。 - 跳跃点1：控制 sup_t 范数下的收敛速度。论文疑似通过Donsker定理和指数族分布的尾部控制完成了这一步。具体细节在补充材料中。 - 跳跃点2：统一PSR和替代残差需要证明两个看似不同的构造实际上是同一函数的不同积分。这需要杠杆化条件分布的性质并完成一个巧妙的积分变换。

技术技巧点名： - 经验过程与Donsker定理：用于证明 μ̂(t) 的一致收敛性。 - 概率积分变换（Probability Integral Transform）：用于将函数残差的解析和图形解释与均匀分布联系起来（F-to-F图的构造依赖于此）。 - Bootstrap重抽样：用于构造置信带 / 并行的带，使得函数图包含了不确定性的指示。 - 广义可加模型的b后验重抽样：对非参数项（光滑函数）的不确定性进行量化（用于GAM）。

真实例子与应用¶

论文Section 5（Examples）提供了两个真实应用案例，以展示方法的实用性。

案例1：公共汽车能耗数据（Bus Energy Data） - 数据/场景：响应变量是每小时的能耗（连续），但问题是 "连续响应场景下，本文方法是否还优于普通诊断？" 该例子的选取并非最理想，因为本文最重要的卖点是离散数据。 - 建模：一个GLM（含连续和分类协变量）。问题可能是：模型是否存在交互项、非线性项？ - 结果：经典残差图（Pearson vs. fitted）看不出任何模式；本文的R-vs-C图和F-to-F图则显示了清晰的结构（如有一个协变量的二次趋势），诊断后作者增加了平方项，模型的AIC改善。

案例2：儿童接种疫苗数据（Children Vaccination Data） - 数据/场景：响应变量是儿童接种疫苗的剂量数（计数数据，可能零膨胀）。协变量包括地区、医生配备、保险等。 - 核心问题：一个简单的负二项GLM（或Poisson GLM）是否充分拟合数据？这里是离散数据（计数+零膨胀），是本文方法最相干的场景。 - 如何用本文方法：先拟合一个基本的GLM（如 Poisson）。然后对残差做R-vs-C和F-to-F图。 - 结果：F-to-F图显示，在观测值 y=0 附近（即零值对应的阈值），函数的偏差远大于Bootstrap并行带的范围，强烈提示零膨胀存在。作者建议添加零膨胀成分（如使用ZIP模型），结果表明修正后的模型完全解决了原诊断图的问题。这个例子完美验证了方法的核心卖点。

🅾 案例想说明什么：第一个例子展示灵活性（对连续数据也适用），第二个例子展示对离散数据的诊断能力，特别是能揭示经典诊断图看不见的零膨胀成分，这是本文方法最显著的增量价值。

🔎 结论是否比证明窄¶

宽容的claim：作者在摘要和讨论中声称功能残差 "unifies diagnostic interpretation for discrete data and continuous data"。这个claim是基于函数形式的一致性，但在连续数据下，经典残差（原始残差）直接可用且非常有效，函数残差的优势不明显。
证明的窄处：定理1证明的是均值函数一致收敛到零，但诊断图的工作模式是通过视觉观察某个平滑的"平均函数"的偏离。当设误很微弱（如弱信号下的小交互效应）时，视觉诊断可能失效——这一点论文没有理论保证（即没有给出检测功效界）。因此，结论（很有效）的严格证明，目前仅限于一些大场景（信号足够强），对弱信号场景的承诺是经验性的，而非理论性的。

四、开放问题¶

本文虽提供了一个富有启发性的框架，但也留下了数个开放的理论与实践问题，扎根于具体语句：

检测功效的理论界（扎根于 Section 4 "Simulations"）：论文通过模拟展示了有效性的例子，但没有建立假设检验的理论框架，即："对于给定的备择假设（如遗漏一个大小为 δ 的交互项），函数残差图中的某个检验统计量（如 sup_t 均值差）的渐近功效是多少？它与基于理论的计算界（如score test的局部功效）相比如何？" 目前只展示了"看得到"，没有证明"多强的信号才看得到"。
弱信号下的稳健性（扎根于图5的讨论 "… the pattern is clearly visible"）：论文依赖人类的视觉判断来诊断模式。当设误微弱时，视觉系统的偏差和不可靠（参见关于数据可视化的心理物理学文献）会导致方法失效。一个开放的统计问题是：能否定义定量诊断指标（如基于函数残差的Cramér–von Mises类检验统计量）来替代视觉判断，并建立其大样本性质？
与贝叶斯后验预测检查（PPC）的正式比较（扎根于 discussion, "we believe this framework goes beyond PPC …"）：论文在讨论中简要提及PPC，但没有提供正式的模拟比较。PPC在离散数据中的表现如何？函数残差与基于模拟的检验（如 DHARMa 的量化残差）相比，哪个在检测特定设误（如零膨胀）时更灵敏？两者的计算成本和统计功效之间的权衡何在？
在更复杂模型（如混合效应模型、生存模型）下的推广（扎根于 Section 6 "Discussion" "… limit ourselves to GLMs and their semi‑parametric extensions"）：论文框架基于条件分布 F(y|x) 的定义，这对混合效应模型（有随机效应）、生存模型（有删失）、纵向数据（有组内相关）等更复杂结构是直接的挑战：如何定义函数残差及对应的图？其渐近性质如何推导？这需要结合您熟悉的 M-estimation theory 和 efficiency theory 进一步构建。

Maintained by 陈星宇 · Homepage · Source on GitHub