跳转至

The effect of the working correlation on fitting models to longitudinal data

作者: Samuel Muller, Suojin Wang, A. H. Welsh
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: Texas A&M University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12704


一、领域脉络与小综述

这个方向是什么

本文研究的子方向是 纵向数据中边际模型的统计推断。核心科学问题是:在重复测量数据(如患者多次随访的生理指标)中,如何对总体平均效应(marginal mean)进行稳健且高效的参数估计?由于同一对象的不同观测之间存在相关性(within-subject correlation),且这种相关结构通常是未知或误设的(misspecified),因此如何在这种“Talk dirty data”下构建既有效又鲁棒的估计方法,是过去三十年纵向数据方法的核心议题。目前该领域已高度成熟,但核心方法(GEE 与 QIF)在特定理论性质(存在性、稳健性、效率界)上的表征仍有未闭合的缺口。

发展脉络(history)

  1. 奠基工作:GEE 的提出 (Liang & Zeger, 1986)。Liang & Zeger 在《Biometrika》上开创了广义估计方程 (Generalized Estimating Equations, GEE) 方法。其核心思想是:通过引入一个“working correlation”(工作相关矩阵)来近似真实的组内相关结构,从而构造一个拟似然估计方程。即使 working correlation 被完全误设,只要边际均值的链接函数和方差函数正确(即“均值模型”正确),GEE 估计量仍可得到一致估计。这一工作奠定了整个领域的基石。留下的口子:虽然 GEE 本身对 working correlation 的误设是稳健的(一致估计),但其估计效率严重依赖于该相关结构的准确程度;误设越严重,估计量通常越不有效。

  2. 主要进展:QIF 的提出 (Qu, Lindsay & Li, 2000)。Qu, Lindsay & Li 在《Biometrika》上提出了 二次推断函数 (Quadratic Inference Function, QIF) 方法,旨在克服 GEE 的一个关键缺陷——当 working correlation 被误设时,GEE 的方差估计(sandwich estimator)波动较大,且对 correlation 参数的估计不可靠。QIF 将 working correlation 的逆矩阵表示为若干已知基矩阵(例如单位阵、时间滞后矩阵等)的线性组合,将问题转化为一个类似广义矩估计 (GMM) 的框架,通过最小化一个二次型来同时估计回归系数和相关系数。留下的口子:QIF 被广泛认为比 GEE 更有效(尤其在 correlation 被误设时),但本文作者指出,QIF 估计量的存在性从未被严格证明过,其相对于 GEE 的效率优劣也一直缺乏系统性的理论分析。

  3. 当前 frontier(本文的直接对立面):文献中普遍认为 QIF 方法是 GEE 的“改进版”:更强的一致性条件要求(对矩条件要求更多),但通常更有效。例如,Qu et al. (2000) 的模拟和引文表明 QIF 往往优于 GEE。本文的 framing 正是挑战这个共识。作者在引言中指出:“It is often thought that QIF estimators are more asymptotically efficient than GEE estimators… we show that in general this is not true.” 他们系统地分析了 QIF 的实际行为,特别强调了 working correlation 选择带来的三个理论缺口:存在性、稳健性(影响函数有界性)、以及效率方向的非单调性(既可能更好也可能更差)。作者明确将自己定位为对 QIF 理论基础的“第一性原理审查”。

子线索聚类

该方向的文献大致可归入以下三条子线索:

  • 方法论发展线:从 GEE (Liang & Zeger, 1986) → QIF (Qu, Lindsay & Li, 2000) → 后续的扩展(如带有缺失数据的加权 GEE,augmented GEE,以及结合 machine learning 的 GEE/QIF 变体)。这条线聚焦于方法的泛化性和适应性。
  • 理论分析线:分析这些估计量的渐近性质;例如,GEE 的一致性理论、sandwich estimator 的有限样本行为、QIF 与 GEE 的相对效率分析。本文直接落在这条线上,提供了 QIF 在存在性、稳健性和效率上的完整理论表征。
  • 稳健性与影响函数线:探讨估计量对离群值(outliers)的敏感性。GEE 的 working correlation 选择会影响其影响函数,而 QIF 的影响函数曾被推测为有界,但本文证明其实际上是无界的,这是一个与直觉相反的重要发现。

核心问题与已知瓶颈

这个子方向在追问的核心问题有: 1. C1: 存在性:QIF 估计量是否总是存在?本文的回答是“否”,并给出了当 working correlation 的线性组合无法构成正定矩阵时估计量不存在的例子。 2. C2: 稳健性:QIF 估计量对极端观测(influence)的稳健程度如何?本文通过影响函数分析,证明其是无界的,意味着单个极端观测可以任意地影响估计量,这本质上揭示了 QIF 并非比 GEE 更稳健。 3. C3: 效率:QIF 与 GEE 的渐近相对效率(ARE)是确定性的吗?本文证明 ARE 可高可低,完全由真实 correlation 结构与 working correlation 的偏离程度决定,推翻了“QIF 总优于 GEE”的朴素看法。

已知瓶颈:QIF 的存在性问题在文献中长期被忽视(Qu et al., 2000 未提及);对影响函数有界性的分析在已有 GEE/QIF 文献中几乎是空白;而对相对效率的比较,已有模拟工作 (e.g., Liang & Zeger's own work) 未给出一个清晰的理论框架来表征其非单调性。

⚠️ 作者的 Framing

作者将 QIF 当前的理论状态明确地 framed 为“存在三个根本性 gap”:(i) 存在性未证明;(ii) 稳健性被高估;(iii) 效率不是单向优的。他们通过这三个 gap 把本文包装成了“回到基础、填坑”的工作。

被淡化或回避的竞争路线: * 加权 GEE 路线:作者未与近年来更流行的加权 GEE (WGEE) 方法进行系统比较。WGEE 在处理缺失数据或自适应权重时也被视为 GEE 的改进,但本文几乎未提。 * 稳健 GEE 路线:有一些工作(如针对纵向数据的 Mallows-type 或 Huber-type 稳健估计量)尝试直接改造 GEE 的影响函数,本文在讨论稳健性时也未与之比较,只停留在“QIF 是无界的”这一纯理论性质上。 * 高维设定:本文仅关注低维(固定 p)、大量重复观测(n→∞)的经典设定,而当前很多 GEE/QIF 的应用场景已进入高维稀疏或 high-dimensional repeated measures 领域,未涉及。 * 缺失数据机制:完整数据的 GEE/QIF 抛弃了处理随机缺失 (MAR) 时的复杂性,作者未探讨在 MAR 下 QIF 的存在性是否更差。

什么明显该被引/该存在、却没出现在 intro 里? * 作者没有引用 Liang & Zeger (1986) 之后的 GEE 稳健性(influence function)结果。Cox & Snell (1986) 及更早的 Huber 效应函数工作也未提及。 * 鲜有对 Qu et al. (2000) 之后 QIF 的扩展(如带有 Nuisance Correlation 的 QIF)的讨论。这似乎是一个有意为之的“聚焦”——作者只对 QIF 的核心理论进行解剖,不牵涉太多变体。

张力

未见明显对立引用。被引工作之间对 QIF 与 GEE 的相对效率问题没有直接的矛盾结论。主要张力在于:文献中普遍的无差别认可(QIF 更优) vs 本文作者系统性的质疑。这是一个非常典型的“实证积累 vs 理论缺失”的张力,是值得深入的好信号。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • 符号

    • \(i = 1, \dots, n\): 观测个体(subject)的索引。\(n\) 是样本量(个体数)。
    • \(j = 1, \dots, m_i\): 个体 \(i\) 的重复观测次数。由于纵向数据的设计不同,每个个体的观测次数可能不同(不平衡数据),但本文为了方便通常考虑平衡数据(\(m_i \equiv m\)),但理论允许不平衡。
    • \(Y_{ij} \in \mathbb{R}\): 个体 \(i\) 在第 \(j\) 次观测的响应变量(outcome)。
    • \(\mathbf{Y}_i = (Y_{i1}, \dots, Y_{im_i})^\top\): 个体 \(i\) 的响应向量。
    • \(\mathbf{X}_{ij} \in \mathbb{R}^p\): 个体 \(i\) 在第 \(j\) 次观测的协变量向量。\(\mathbf{X}_i = [\mathbf{X}_{i1}^\top; \dots; \mathbf{X}_{im_i}^\top]^\top\) 是个体 \(i\) 的设计矩阵(\(m_i \times p\))。
    • \(\boldsymbol{\beta} \in \mathbb{R}^p\)\(p \times 1\) 的回归系数向量,是目标参数 (estimand)
    • \(\mu_{ij} = E[Y_{ij} | \mathbf{X}_{ij}] = \mathbf{X}_{ij}^\top \boldsymbol{\beta}\): 边际均值模型(线性回归情况即为恒等链接)。这是边际模型的核心假设
    • \(\mathrm{Var}(Y_{ij} | \mathbf{X}_{ij}) = \sigma^2\): 边缘方差,对于线性模型假设为常数。
    • \(\mathbf{V}_i(\boldsymbol{\beta}, \boldsymbol{\alpha})\): 个体 \(i\)\(m_i \times m_i\) working covariance matrix。它是真实协方差矩阵 \(\boldsymbol{\Sigma}_i = Cov(\mathbf{Y}_i | \mathbf{X}_i)\) 的一个工作模型。写作 \(\mathbf{V}_i = \phi \mathbf{A}_i^{1/2} \mathbf{R}(\boldsymbol{\alpha}) \mathbf{A}_i^{1/2}\),其中 \(\mathbf{A}_i\) 是方差函数的对角阵(这里 \(\mathbf{A}_i = \sigma^2 \mathbf{I}\)),\(\mathbf{R}(\boldsymbol{\alpha})\)working correlation matrix(是回归参数 \(\boldsymbol{\alpha}\) 的参数化形式,如 AR(1) 或 exchangeable)。
    • \(\boldsymbol{\mu}_i(\boldsymbol{\beta}) = (\mu_{i1}, \dots, \mu_{im_i})^\top\): 个体 \(i\) 的边际均值向量。
    • \(\mathbf{S}_i(\boldsymbol{\beta}) = \mathbf{D}_i^\top \mathbf{V}_i^{-1}(\boldsymbol{\beta}, \boldsymbol{\alpha}) (\mathbf{Y}_i - \boldsymbol{\mu}_i(\boldsymbol{\beta}))\): 个体 \(i\) 对 GEE 的贡献。其中 \(\mathbf{D}_i = \partial \boldsymbol{\mu}_i(\boldsymbol{\beta}) / \partial \boldsymbol{\beta}^\top\)(对于线性模型,\(\mathbf{D}_i = \mathbf{X}_i\))。
    • GEE 估计量 \(\hat{\boldsymbol{\beta}}_{\text{GEE}}\): 求解 \(\sum_{i=1}^n \mathbf{S}_i(\boldsymbol{\beta}) = 0\)。通常需要同时估计工作相关系数 \(\boldsymbol{\alpha}\)(例如通过 moment-based estimation)。
    • QIF 估计量 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\): 基于二次推断函数的最小化估计,代替解方程。
  • 模型

    • 数据生成机制 (DGP):对于个体 \(i\)\(\mathbf{Y}_i = \mathbf{X}_i \boldsymbol{\beta}_0 + \boldsymbol{\epsilon}_i\),其中 \(\boldsymbol{\beta}_0\) 为真实系数,\(\boldsymbol{\epsilon}_i \sim (0, \boldsymbol{\Sigma}_i)\),且不同个体的 \(\boldsymbol{\epsilon}_i\) 独立。\(\boldsymbol{\Sigma}_i\) 是真实且未知的组内协方差矩阵。工作模型 \(\mathbf{V}_i\) 可能不等于 \(\boldsymbol{\Sigma}_i\)
    • GEE 框架:在 GEE 中,我们解形如 \(\sum_i \mathbf{D}_i^\top \mathbf{V}_i^{-1} (\mathbf{Y}_i - \boldsymbol{\mu}_i) = 0\) 的方程。
    • QIF 框架:在 QIF 中,将 working correlation 的逆矩阵 \( \mathbf{R}^{-1}(\boldsymbol{\alpha})\) 表示为已知基矩阵的线性组合
      \[\mathbf{R}^{-1}(\boldsymbol{\alpha}) \approx \sum_{k=1}^K a_k(\boldsymbol{\alpha}) \mathbf{M}_k\]
      其中 \(\mathbf{M}_k\) 是已知的 \(m \times m\) 基矩阵(例如,时间滞后矩阵,单位矩阵等),\(a_k(\boldsymbol{\alpha})\) 是依赖于 \(\boldsymbol{\alpha}\) 的系数。Qu et al. 的一个关键技巧是:对于一类常见的 working correlation 结构(如 exchangeable, AR(1), M-dependent),\(\mathbf{R}^{-1}(\boldsymbol{\alpha})\) 恰好是这个线性组合,且系数 \(a_k\) 是回归参数 \(\boldsymbol{\beta}\) 和相关系数 \(\boldsymbol{\alpha}\) 的未知函数。QIF 的目标函数是:
      \[Q_n(\boldsymbol{\beta}) = \bar{g}_n^\top(\boldsymbol{\beta}) \, \hat{\mathbf{C}}_n^{-1}(\boldsymbol{\beta}) \, \bar{g}_n(\boldsymbol{\beta})\]
      其中 \(\bar{g}_n(\boldsymbol{\beta}) = \frac{1}{n} \sum_{i=1}^n \mathbf{g}_i(\boldsymbol{\beta})\)\(\mathbf{g}_i(\boldsymbol{\beta}) = \begin{bmatrix} \mathbf{D}_i^\top \mathbf{A}_i^{-1/2} \mathbf{M}_1 \mathbf{A}_i^{-1/2} (\mathbf{Y}_i - \boldsymbol{\mu}_i) \\ \vdots \\ \mathbf{D}_i^\top \mathbf{A}_i^{-1/2} \mathbf{M}_K \mathbf{A}_i^{-1/2} (\mathbf{Y}_i - \boldsymbol{\mu}_i) \end{bmatrix}\)(一个 \(Kp \times 1\) 向量),而 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\)\(\mathbf{g}_i(\boldsymbol{\beta})\) 的样本协方差矩阵。\(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 通过 \(\hat{\boldsymbol{\beta}}_{\text{QIF}} = \arg \min_{\boldsymbol{\beta}} Q_n(\boldsymbol{\beta})\) 得到。
  • 可观测数据

    • 我们观测到: \(\{( \mathbf{Y}_i, \mathbf{X}_i ), i=1,\dots,n\}\)。每个个体 \(i\) 的多变量响应向量 \(\mathbf{Y}_i \in \mathbb{R}^m\)(假设平衡)和协变量矩阵 \(\mathbf{X}_i \in \mathbb{R}^{m \times p}\)。对于线性模型,这些数据就够了。
    • 不可观测/需要假设的量
      • 真实相关系数 \(\boldsymbol{\alpha}_0\)(若 working correlation 正确,则 \(\mathbf{R}(\boldsymbol{\alpha}_0)\) 是真实的相关阵)。
      • 真实的组内协方差矩阵 \(\boldsymbol{\Sigma}_i = Cov(\mathbf{Y}_i | \mathbf{X}_i)\) 完全未知,其结构只能通过模型假设去逼近。
      • 随机误差 \(\boldsymbol{\epsilon}_i\) 的真实分布。虽然这里用的拟似然理论不依赖于分布,但影响函数分析需要知道 \(\boldsymbol{\epsilon}_i\) 的分布或高阶矩。

第二步:最小内核——一个二值响应、0/1 group 的病例

为了解释核心思想,考虑一个极其简化的纵向数据例子:假设只有 \(m=2\) 个时间点(所以每个个体有两个测量),工作相关结构选择简单的 exchangeable(可交换相关)。那么 working correlation matrix \(\mathbf{R}(\alpha)\)\(2 \times 2\) 矩阵:

\[\mathbf{R}(\alpha) = \begin{pmatrix} 1 & \alpha \\ \alpha & 1 \end{pmatrix}, \quad \mathbf{R}^{-1}(\alpha) = \frac{1}{1 - \alpha^2} \begin{pmatrix} 1 & -\alpha \\ -\alpha & 1 \end{pmatrix} = \frac{1}{1 - \alpha^2} \left[ \mathbf{I}_2 - \alpha \mathbf{J}_2^{\text{off}} \right]\]
其中 \(\mathbf{J}_2^{\text{off}} = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\) 是“反对角”矩阵。所以,\(\mathbf{R}^{-1}(\alpha)\) 可以写作两个已知基矩阵 \(\mathbf{M}_1 = \mathbf{I}_2\)\(\mathbf{M}_2 = \mathbf{J}_2^{\text{off}}\) 的线性组合,系数分别为 \(\frac{1}{1-\alpha^2}\)\(\frac{-\alpha}{1-\alpha^2}\)

现在,对于这个最简单的 exchangeable case,QIF 的核心是怎么 work 的? 1. 构造扩展的矩条件向量:定义扩展的得分函数向量:

\[\bar{g}_n(\boldsymbol{\beta}) = \frac{1}{n} \sum_{i=1}^n \begin{bmatrix} \mathbf{X}_i^\top (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \\ \mathbf{X}_i^\top \mathbf{J}_2^{\text{off}} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \end{bmatrix}\]
这里第一个块就是 GEE 的得分(在 \(\mathbf{V}_i = \mathbf{I}_2\) 下),第二个块是加了权重的矩条件(权重为 \(\mathbf{J}_2^{\text{off}}\),即对角互换)。

  1. 构造 QIF 目标函数

    \[Q_n(\boldsymbol{\beta}) = \bar{g}_n^\top(\boldsymbol{\beta}) \, \hat{\mathbf{C}}_n^{-1}(\boldsymbol{\beta}) \, \bar{g}_n(\boldsymbol{\beta})\]
    其中 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 是这些得分的样本协方差。这一步的本质是:我们希望找到一个 \(\boldsymbol{\beta}\),使得这些扩展的矩条件(所有个体的均值)同时尽可能接近 0,并且通过这个二次型的形式,我们不再需要显式估计 work correlation 中的 \(\alpha\) 参数(因为它已经被吸收到 \(\hat{\mathbf{C}}_n\) 的协方差结构里)。

  2. 最小内核的核心推理

    • 为什么 QIF 可以比 GEE 更有效? 在 GEE 里,我们只用了第一个矩条件(对应 \(\mathbf{I}_2\))。如果我们选的 \(\mathbf{I}_2\) 是坏的—即真实的组内相关是先正相关后负相关(比如时间点间的相关模式是 \(\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}\) 这样的正相关),那么假设 independence (working correlation = I) 就是低效的。QIF 通过加入第二个矩条件(对应 \(\mathbf{J}_2^{\text{off}}\)),实际上在“借用”了跨时间点协方差的信息,因此当真实相关是正相关时,\(\mathbf{J}_2^{\text{off}}\) 的矩条件能帮忙纠偏差异—这就像是做了两个不同权重的 IV 估计,最后用二次型去最优组合它们。
    • 为什么 QIF 可能不存在? 因为在极小化 \(Q_n(\boldsymbol{\beta})\) 时,要求 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 是正定的。如果数据生成的组内相关模式很奇怪(比如极端奇异),或者样本太小,\(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 可能对某些 \(\boldsymbol{\beta}\) 是奇异或非正定的,导致最小值不存在。一个极端例子:当所有个体的两个测量完全一样(\(\alpha = 1\)),则 \(\mathbf{R}^{-1}\) 不存在,那么矩条件之间几乎共线性,\(\hat{\mathbf{C}}_n\) 可能退化。作者给出一个简单例子:data 的相关系数为1时,QIF 无解。
    • 这个特例下的核心数学困难:要证明“QIF 估计量不一定存在”,真正的困难不在于 exchangeable 情形本身(这个 case 下显然 ,因为 \(\mathbf{R}^{-1}\)\(\alpha = 1\) 处退化了),而是要覆盖一般的 working correlation 结构(如 AR(1)),并证明问题不仅出在相关系数的边界,还可能出在基矩阵的选择不当——即使 chosen \(\mathbf{M}_k\) 本身是合适的,但有限样本中 real data 的 \(\hat{\mathbf{C}}_n\) 仍然可能退化。作者用一个构造性的例子(见原文第4节)说明,对于某个简单的 design,QIF 的对偶目标函数(类似 GMM)的 Hessian 可能是非正定的,因此不存在唯一最小值。
    • 这个特例如何体现影响函数无界? 在 exchangeable case 下,考虑一个极端离群点 \(i_0\),其残差 \( \mathbf{Y}_{i_0} - \mathbf{X}_{i_0} \boldsymbol{\beta}\) 非常大。由于 \(\bar{g}_n\) 是残差的线性函数,而这个离群点的贡献会通过 \(\hat{\mathbf{C}}_n^{-1}\) 被平方地放大(因为 \(Q_n\) 是二次型 \(g^\top C^{-1} g\)),因此单个离群点可以任意地拖拽 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\)——这就是无界影响函数的本质。

三、这篇论文做了什么

  • 三句话

    1. 研究了什么问题:系统地研究了纵向数据边际线性模型中二次推断函数 (QIF) 估计量的理论性质,特别是 working correlation 矩阵的选择如何影响 QIF 估计的存在性稳健性(通过影响函数)和渐近相对效率 (ARE) 相对于广义估计方程 (GEE) 估计量。
    2. 核心工具/方法:使用影响函数展开(influence function expansion)分析 QIF 估计量的稳健性;使用二次型最小化理论(类似于 GMM 的理论)推导其存在性和渐近行为;通过对偶函数(dual function)的凸性分析研究存在性。
    3. 主要结论:① QIF 估计量并非总是存在的,且与工作相关矩阵的选择有关;② QIF 估计量具有无界的影响函数(unbounded influence function),因此不如某些有界影响的稳健估计量;③ QIF 估计量的渐近效率既可以高于也可以低于 GEE 估计量,具体取决于真实相关结构与 working correlation 的偏离程度;④ 提出一种基于正则化的修正方法来处理 QIF 无解的情形。
  • 关键设定与假设

    本文延续的是标准的纵向数据 GEE 设定(Liang & Zeger, 1986),其核心假设是: * M1 (Marginal Mean Model)\(E[Y_{ij} | \mathbf{X}_{ij}] = \mathbf{X}_{ij}^\top \boldsymbol{\beta}\)。即协变量对响应边际均值的影响是线性的,且无链接函数(identity link)。这是一个很强的线性假设,它是被当作模型的正确规范。 * M2 (Independence across subjects):不同个体的观测 \((\mathbf{Y}_i, \mathbf{X}_i)\) 之间是独立的。 * M3 (Working Correlation):选择一个已知的 working correlation 结构 \(\mathbf{R}(\boldsymbol{\alpha})\)(如 exchangeable 或 AR(1)),该结构可以被参数化为有限个基矩阵的线性组合(这是 QIF 方法的关键)。

    本文的贡献在于 不是引入新假设,而是放松了已有文献对 QIF 方法性质的未经检验的假设。具体来说: * 之前的工作(如 Qu et al., 2000)隐含地假设了 QIF 估计量总是存在的(因为 We are simply minimizing a quadratic form)。本文打破了这个隐性假设。 * 之前的工作未讨论影响函数的有界性。本文证明其无界性。 * 之前的工作隐含地认为 QIF 的效率总高于 GEE(因等价于最优 GMM)。本文证明其效率既可能高也可能低。 * 与基线 (GEE) 的比较:文中多数分析是与 GEE 估计量相比。GEE 的稳健性(沙箱估计量的 sandwich property)已被广泛了解,但本文首次在 QIF 框架下严格表述了这一比较。

  • 主要结果

    本文包含三个核心定理/命题。

    • 定理 1 (存在性):陈述了 QIF 估计量可能不存在(in some well-dened sense),并且给定一些条件(正定协方差矩阵等),才存在。作者构造了一个简单的 counterexample:取 \(m=2\) 且 exchangeable working correlation ,当数据中的样本相关系数 \(\hat{\alpha} \to 1\)(或 -1)时,\(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 的秩下降,导致 QIF 目标函数在最小值处不存在或不可达。直觉:QIF 本质上是 GMM,求解一个二次型的极小点。而 GMM 的极小点存在的一个充分条件是矩条件的 Jacobian 满秩(即,目标函数是强凸的)。当 working correlation 结构选择过于极端(导致基矩阵几乎退化)或数据本身过于接近相关边界时,这个凸性条件被破坏,导致无解。技术难点:证明 QIF 的存在性问题是分析 \(Q_n(\beta)\) 的 Hessian 矩阵的谱性质,而不是通常的求解方程。

    • 定理 2 (影响函数):给出了 QIF 估计量的影响函数公式,并证明它是无界的。

      • 公式\(\text{IF}(y, x; \hat{\boldsymbol{\beta}}_{\text{QIF}}) = [\mathbf{J}_n^\top \mathbf{C}_n^{-1} \mathbf{J}_n]^{-1} \, \mathbf{J}_n^\top \mathbf{C}_n^{-1} \, \mathbf{h}_n(y, x)\),其中 \(\mathbf{J}_n = E[\nabla \bar{g}_n(\boldsymbol{\beta})]\)\(\mathbf{h}_n\) 是与个体观测的残差相关的向量。
      • 为什么无界:因为 \(\mathbf{h}_n(y, x)\) 是残差 \((y - \mu)\) 的线性函数。对于离群点,当 \(\|y - \mu\| \to \infty\) 时,\(\|\text{IF}\| \to \infty\)。即,单个极端观测可以任意地拉动 QIF 估计量。与之对比:GEE 估计量的影响函数也是无界的(因为 GEE 基于 residuals),这一点被作者明确说明:“QIF estimators have unbounded influence functions, just like the GEE estimators.” 所以本文的贡献不是“QIF 比其他估计量更不稳健”,而是明确了它们都具有无界影响函数,推翻了 QIF 比 GEE 更稳健的潜在误解。
      • 技术难点:推导影响函数需要对 QIF 估计量进行一阶泰勒展开。由于 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 是通过优化 \(\min_{\beta} Q_n(\beta)\) 定义的,影响函数需要通过向 \(Q_n(\beta)\) 的梯度方程 \(\nabla Q_n(\beta) = 0\) 中引入一个受干扰的观测来推导。作者的推导依赖于 Implicit Function Theorem,并抓住了 \(\bar{g}_n\) 是残差的线性函数这一关键特征。
    • 定理 3 (渐近相对效率, ARE):给出了 QIF 与 GEE 的 ARE 公式,并说明 ARE 既可能大于 1 也可能小于 1。

      • 公式 (期望渐近方差之比)\(\text{ARE}(\boldsymbol{\beta}) = \frac{\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GEE}}^{\text{asymp}})}{\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}^{\text{asymp}})}\),其中 \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}^{\text{asymp}}) = [\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J}]^{-1}\)\(\mathbf{J}\) 是 E[\(\nabla \bar{g}\)], \(\mathbf{C}\) = E[\(\bar{g} \bar{g}^\top\)]), GEE 的方差是标准的沙箱方差。
      • 结论:ARE 不可能总是 ≥ 1。当 working correlation 结构相对于真实相关结构 扭曲严重 到一定程度(例如,假设 exchangeable 但实际 correlation structure 是 highly non-stationary),QIF 的二次型会“过度拟合”一个错误的模型,导致其方差大于简单的 GEE(假设 independence)。直觉:QIF “盲目地”使用更多的矩条件(比 GEE 多),如果这些矩条件与真实模型的信息内容不匹配(即 working correlation 的模型偏差大),那么过度参数化会加剧噪声,降低效率。而 GEE(简单假设 independence)虽然效率不高,但其方差大致随样本量稳定衰减。相反,当 working correlation 几乎正确时,QIF 显著优于 GEE,因为利用相关性信息。
  • 证明路线与技术技巧

    • 整体路线

      1. 定义 QIF 估计量:formulate \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 作为 \(Q_n(\beta)\) 的最小点。
      2. 存在性推导:利用凸分析证明 \(Q_n(\beta)\) 的强凸性(即 Hessian 的最小特征值远离零)。当样本协方差矩阵 \(\hat{\mathbf{C}}_n(\beta)\) 条件数有界时,该条件成立。然后,直接构建一个反例(用 exchangeable MSOAR matrix 和一个极端数据点)破坏这个条件,从而证明存在性不是普遍的。
      3. 影响函数推导:对一阶条件 \(\nabla Q_n(\hat{\beta}) = 0\) 进行泰勒展开。引入一个个体观测的污染点。用分块矩阵公式(Block matrix inversion lemma)求解影响函数。关键点:\(\tilde{\mathbf{g}}_n\) 是残差的线性函数,所以污染点在 \(\bar{g}\) 中引起一个线性扰动,最终导致 \(\|\text{IF}\| \propto \| \text{residual} \|\)
      4. ARE 推导
        • 直接写出 QIF 估计量的渐近方差公式: \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}) = (\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J})^{-1}\) (这是最优 GMM 的方差公式)。
        • 写出 GEE 估计量的渐近方差公式: \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GEE}}) = (\mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D})^{-1} (\mathbf{D}^\top \mathbf{V}^{-1} \boldsymbol{\Sigma} \mathbf{V}^{-1} \mathbf{D}) (\mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D})^{-1}\)
        • 注意到,如果 \(\mathbf{C} = \mathrm{Var}(\bar{g})\) 被正确设定,那么 QIF 等同最优 GMM,通常 ARE ≥1。但作者通过构造一个矩阵不等式反例(引理 1)证明:当 working correlation 严重 misspecified 时,有 \(\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J} \leq \mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D}\) 不成立,从而 \(\mathrm{ARE} < 1\)。换句话说,QIF 的矩条件集合相对于 GEE 而言,不是充分条件优越的
    • 关键跳跃点

      • 存在性跳跃:从“QIF 最小化一个二次型”到“QIF 可能不存在”。这个跳跃的关键在于证明 Hessian 矩阵 \( \nabla^2 Q_n(\beta)\) 可能不正定——如果 \(\hat{\mathbf{C}}_n\) 是奇异的或 ill-conditioned。作者通过一个构造性的例子完成了这一步。
      • ARE 跳跃:从“广义矩估计 (GMM) 是渐近有效的”到“QIF 作为特殊 GMM,其效率并非总高于 GEE”。这个跳跃的关键在于证明“QIF 的矩条件集合不是 GEE 矩条件集合的超集(或 sufficient)”,因此无法保证 covariate adjustment 的绝对优势。作者是用一个满足某种结构的设计矩阵(比如组内协方差矩阵 \(\boldsymbol{\Sigma}\) 和 working correlation \(\mathbf{R}\) 的某种不匹配)来证明 \(\text{ARE} < 1\)
    • 技术技巧点名

      • Influence function via Implicit Function theorem:用于推导 QIF 估计量的影响函数。
      • 二次型最小化下的分块矩阵求逆:在存在性论证中处理 Hessian。
      • 线性代数不等式 (Schur complement):用于证明 ARE 可以 < 1。作者利用 Schur complement 将 GEE 方差与 QIF 方差之间的关系表达为某个矩阵的正定条件,然后构造反例。
      • Sandwich variance estimator:构造 GEE 的渐近方差。
  • 真实例子与应用

    • 使用的数据:文中包含一个基于模拟数据的实证部分 。没有使用真实世界数据集。
    • 如何应用:他们模拟了基于一个线性回归模型的纵向数据,其中组内相关系数有变化。他们展示了在不同 working correlation 假设(如 exchangeable 或 independence)下,QIF 和 GEE 估计量的方差和 ARE 随真实相关系数变化的模式。
    • 结果:模拟结果与理论一致:当相关结构被正确指定时,QIF 优于 GEE;当误设严重时,QIF 的效率低于 GEE,这与定理 3 吻合。模拟也验证了影响函数的有界性结果:QIF 的估计值在加入离群点后比 GEE 更易发生大的偏移。
    • 例子想说明什么:模拟直接验证了他们前面的三个理论结论(存在性、稳健性、ARE 可变)。他们用模拟作为一个“画图”工具,形象地展示了这些理论性质在实际有限样本中如何体现。
    • 论文为纯理论/无实证例子:不,有模拟。但无真实数据例子。
  • 🔎 结论是否比证明窄

    • 存在性:结论(“QIF 估计量并非总是存在”)是严格的,并且精确地构造了反例。但论文并没有提供一个完整的存在性充要条件(比如,需要满足什么样的设计矩阵和 correlation 参数的组合),只给出了一个存在性不成立的反例。这段叙述是“窄”的:作者只证明了“存在性有时不成立”,而不是“存在性条件是什么”。
    • 影响函数:结论(无界)是符合直觉且证明扎实的。但作者没有探讨 QIF 的 bounded influence function 的扩展(比如,可以通过对矩条件做 Mallows-type 截断实现有界影响)。他们的结论被泛化为“QIF 无界——说明它不稳健”,但并未考虑改进 QIF 使其更稳健的可能。
    • ARE:结论(ARE 既 >1 又 <1)是严格证明的,但该结论仅适用于渐近方差的比较。文中未比较有限样本下的方差表现——在中等样本下,QIF 可能因为使用了 “flexible” 二次型而方差略大,但这种有限样本差异在推论中完全被忽略了。泛化地说“QIF 效率有的情况下不如 GEE”,忽略了有限样本的近似质量。

四、开放问题

  • 问题 1 (存在性充要条件):本文给出了 QIF 可能不存的单一反例,但没有提供一个充要条件来判定何时 QIF 存在。一个更系统的回答应该是:“对于给定的 working correlation 结构(如 exchangeable 或 AR(1)),当设计矩阵满足什么条件(如不平衡、高度相关协变量)时,QIF 在概率 1 下存在(或不存在)?” 文章明确指出:“We show that the QIF estimators do not always exist and propose a way to handle this. We conclude that the choice of working correlation can have dramatic effects…” 这一句蕴含了探索存在性充要条件的开放性。扎根:第一节‘existence’子节末尾的讨论。

  • 问题 2 (有界影响 QIF):既然 QIF 的影响函数是无界的,一个自然的后续是设计一个有界影响的 QIF 变体,类似于 Huber 型的稳健 GEE。 扎根:影响函数的“unbounded”结论一段: “They have unbounded influence functions… and can be more or less asymptotically efficient…” 这句话打开了“改进稳健性”的可能。

  • 问题 3 (更现实的 ARE 界):论文证明了 ARE 可以小于 1,但没有给出一个 上界或下界(例如:在现实纵向数据的相关结构下,ARE 的最差情形是什么?相对于 GEE,QIF 的效率损失有什么最小保证?)。这类 minimax 式的效率分析可以提供一个实际选择方法的原则。扎根:定理3的公式和模拟部分(第5节)展示了 ARE 的模式。

  • 问题 4 (高维 QIF):本文工作完全聚焦于低维、固定 p 的情形。将 QIF 扩展到 高维纵向数据(p >> n,或 p 随 n 增长)的设定下,其存在性、稳健性和效率变化会如何? 这对许多全基因组关联分析或高维生物标记物研究非常重要。扎根:介绍部分和结论部分明确给出研究的经典框架(fix p, moderate m),未涉及高维拓展。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论