The effect of the working correlation on fitting models to longitudinal data¶

作者: Samuel Muller, Suojin Wang, A. H. Welsh
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: Texas A&M University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12704

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是 纵向数据中边际模型的统计推断。核心科学问题是：在重复测量数据（如患者多次随访的生理指标）中，如何对总体平均效应（marginal mean）进行稳健且高效的参数估计？由于同一对象的不同观测之间存在相关性（within-subject correlation），且这种相关结构通常是未知或误设的（misspecified），因此如何在这种“Talk dirty data”下构建既有效又鲁棒的估计方法，是过去三十年纵向数据方法的核心议题。目前该领域已高度成熟，但核心方法（GEE 与 QIF）在特定理论性质（存在性、稳健性、效率界）上的表征仍有未闭合的缺口。

发展脉络（history）¶

奠基工作：GEE 的提出 (Liang & Zeger, 1986)。Liang & Zeger 在《Biometrika》上开创了广义估计方程 (Generalized Estimating Equations, GEE) 方法。其核心思想是：通过引入一个“working correlation”（工作相关矩阵）来近似真实的组内相关结构，从而构造一个拟似然估计方程。即使 working correlation 被完全误设，只要边际均值的链接函数和方差函数正确（即“均值模型”正确），GEE 估计量仍可得到一致估计。这一工作奠定了整个领域的基石。留下的口子：虽然 GEE 本身对 working correlation 的误设是稳健的（一致估计），但其估计效率严重依赖于该相关结构的准确程度；误设越严重，估计量通常越不有效。
主要进展：QIF 的提出 (Qu, Lindsay & Li, 2000)。Qu, Lindsay & Li 在《Biometrika》上提出了 二次推断函数 (Quadratic Inference Function, QIF) 方法，旨在克服 GEE 的一个关键缺陷——当 working correlation 被误设时，GEE 的方差估计（sandwich estimator）波动较大，且对 correlation 参数的估计不可靠。QIF 将 working correlation 的逆矩阵表示为若干已知基矩阵（例如单位阵、时间滞后矩阵等）的线性组合，将问题转化为一个类似广义矩估计 (GMM) 的框架，通过最小化一个二次型来同时估计回归系数和相关系数。留下的口子：QIF 被广泛认为比 GEE 更有效（尤其在 correlation 被误设时），但本文作者指出，QIF 估计量的存在性从未被严格证明过，其相对于 GEE 的效率优劣也一直缺乏系统性的理论分析。
当前 frontier（本文的直接对立面）：文献中普遍认为 QIF 方法是 GEE 的“改进版”：更强的一致性条件要求（对矩条件要求更多），但通常更有效。例如，Qu et al. (2000) 的模拟和引文表明 QIF 往往优于 GEE。本文的 framing 正是挑战这个共识。作者在引言中指出：“It is often thought that QIF estimators are more asymptotically efficient than GEE estimators… we show that in general this is not true.” 他们系统地分析了 QIF 的实际行为，特别强调了 working correlation 选择带来的三个理论缺口：存在性、稳健性（影响函数有界性）、以及效率方向的非单调性（既可能更好也可能更差）。作者明确将自己定位为对 QIF 理论基础的“第一性原理审查”。

子线索聚类¶

该方向的文献大致可归入以下三条子线索：

方法论发展线：从 GEE (Liang & Zeger, 1986) → QIF (Qu, Lindsay & Li, 2000) → 后续的扩展（如带有缺失数据的加权 GEE，augmented GEE，以及结合 machine learning 的 GEE/QIF 变体）。这条线聚焦于方法的泛化性和适应性。
理论分析线：分析这些估计量的渐近性质；例如，GEE 的一致性理论、sandwich estimator 的有限样本行为、QIF 与 GEE 的相对效率分析。本文直接落在这条线上，提供了 QIF 在存在性、稳健性和效率上的完整理论表征。
稳健性与影响函数线：探讨估计量对离群值（outliers）的敏感性。GEE 的 working correlation 选择会影响其影响函数，而 QIF 的影响函数曾被推测为有界，但本文证明其实际上是无界的，这是一个与直觉相反的重要发现。

核心问题与已知瓶颈¶

这个子方向在追问的核心问题有： 1. C1: 存在性：QIF 估计量是否总是存在？本文的回答是“否”，并给出了当 working correlation 的线性组合无法构成正定矩阵时估计量不存在的例子。 2. C2: 稳健性：QIF 估计量对极端观测（influence）的稳健程度如何？本文通过影响函数分析，证明其是无界的，意味着单个极端观测可以任意地影响估计量，这本质上揭示了 QIF 并非比 GEE 更稳健。 3. C3: 效率：QIF 与 GEE 的渐近相对效率（ARE）是确定性的吗？本文证明 ARE 可高可低，完全由真实 correlation 结构与 working correlation 的偏离程度决定，推翻了“QIF 总优于 GEE”的朴素看法。

已知瓶颈：QIF 的存在性问题在文献中长期被忽视（Qu et al., 2000 未提及）；对影响函数有界性的分析在已有 GEE/QIF 文献中几乎是空白；而对相对效率的比较，已有模拟工作 (e.g., Liang & Zeger's own work) 未给出一个清晰的理论框架来表征其非单调性。

⚠️ 作者的 Framing¶

作者将 QIF 当前的理论状态明确地 framed 为“存在三个根本性 gap”：(i) 存在性未证明；(ii) 稳健性被高估；(iii) 效率不是单向优的。他们通过这三个 gap 把本文包装成了“回到基础、填坑”的工作。

被淡化或回避的竞争路线： * 加权 GEE 路线：作者未与近年来更流行的加权 GEE (WGEE) 方法进行系统比较。WGEE 在处理缺失数据或自适应权重时也被视为 GEE 的改进，但本文几乎未提。 * 稳健 GEE 路线：有一些工作（如针对纵向数据的 Mallows-type 或 Huber-type 稳健估计量）尝试直接改造 GEE 的影响函数，本文在讨论稳健性时也未与之比较，只停留在“QIF 是无界的”这一纯理论性质上。 * 高维设定：本文仅关注低维（固定 p）、大量重复观测（n→∞）的经典设定，而当前很多 GEE/QIF 的应用场景已进入高维稀疏或 high-dimensional repeated measures 领域，未涉及。 * 缺失数据机制：完整数据的 GEE/QIF 抛弃了处理随机缺失 (MAR) 时的复杂性，作者未探讨在 MAR 下 QIF 的存在性是否更差。

什么明显该被引/该存在、却没出现在 intro 里？ * 作者没有引用 Liang & Zeger (1986) 之后的 GEE 稳健性（influence function）结果。Cox & Snell (1986) 及更早的 Huber 效应函数工作也未提及。 * 鲜有对 Qu et al. (2000) 之后 QIF 的扩展（如带有 Nuisance Correlation 的 QIF）的讨论。这似乎是一个有意为之的“聚焦”——作者只对 QIF 的核心理论进行解剖，不牵涉太多变体。

张力¶

未见明显对立引用。被引工作之间对 QIF 与 GEE 的相对效率问题没有直接的矛盾结论。主要张力在于：文献中普遍的无差别认可（QIF 更优） vs 本文作者系统性的质疑。这是一个非常典型的“实证积累 vs 理论缺失”的张力，是值得深入的好信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
- \(i = 1, \dots, n\)：观测个体（subject）的索引。\(n\) 是样本量（个体数）。
- \(j = 1, \dots, m_i\)：个体 \(i\) 的重复观测次数。由于纵向数据的设计不同，每个个体的观测次数可能不同（不平衡数据），但本文为了方便通常考虑平衡数据（\(m_i \equiv m\)），但理论允许不平衡。
- \(Y_{ij} \in \mathbb{R}\)：个体 \(i\) 在第 \(j\) 次观测的响应变量（outcome）。
- \(\mathbf{Y}_i = (Y_{i1}, \dots, Y_{im_i})^\top\)：个体 \(i\) 的响应向量。
- \(\mathbf{X}_{ij} \in \mathbb{R}^p\)：个体 \(i\) 在第 \(j\) 次观测的协变量向量。\(\mathbf{X}_i = [\mathbf{X}_{i1}^\top; \dots; \mathbf{X}_{im_i}^\top]^\top\) 是个体 \(i\) 的设计矩阵（\(m_i \times p\)）。
- \(\boldsymbol{\beta} \in \mathbb{R}^p\)： \(p \times 1\) 的回归系数向量，是目标参数 (estimand)。
- \(\mu_{ij} = E[Y_{ij} | \mathbf{X}_{ij}] = \mathbf{X}_{ij}^\top \boldsymbol{\beta}\)：边际均值模型（线性回归情况即为恒等链接）。这是边际模型的核心假设。
- \(\mathrm{Var}(Y_{ij} | \mathbf{X}_{ij}) = \sigma^2\)：边缘方差，对于线性模型假设为常数。
- \(\mathbf{V}_i(\boldsymbol{\beta}, \boldsymbol{\alpha})\)：个体 \(i\) 的 \(m_i \times m_i\) working covariance matrix。它是真实协方差矩阵 \(\boldsymbol{\Sigma}_i = Cov(\mathbf{Y}_i | \mathbf{X}_i)\) 的一个工作模型。写作 \(\mathbf{V}_i = \phi \mathbf{A}_i^{1/2} \mathbf{R}(\boldsymbol{\alpha}) \mathbf{A}_i^{1/2}\)，其中 \(\mathbf{A}_i\) 是方差函数的对角阵（这里 \(\mathbf{A}_i = \sigma^2 \mathbf{I}\)），\(\mathbf{R}(\boldsymbol{\alpha})\) 是 working correlation matrix（是回归参数 \(\boldsymbol{\alpha}\) 的参数化形式，如 AR(1) 或 exchangeable）。
- \(\boldsymbol{\mu}_i(\boldsymbol{\beta}) = (\mu_{i1}, \dots, \mu_{im_i})^\top\)：个体 \(i\) 的边际均值向量。
- \(\mathbf{S}_i(\boldsymbol{\beta}) = \mathbf{D}_i^\top \mathbf{V}_i^{-1}(\boldsymbol{\beta}, \boldsymbol{\alpha}) (\mathbf{Y}_i - \boldsymbol{\mu}_i(\boldsymbol{\beta}))\)：个体 \(i\) 对 GEE 的贡献。其中 \(\mathbf{D}_i = \partial \boldsymbol{\mu}_i(\boldsymbol{\beta}) / \partial \boldsymbol{\beta}^\top\)（对于线性模型，\(\mathbf{D}_i = \mathbf{X}_i\)）。
- GEE 估计量 \(\hat{\boldsymbol{\beta}}_{\text{GEE}}\)：求解 \(\sum_{i=1}^n \mathbf{S}_i(\boldsymbol{\beta}) = 0\)。通常需要同时估计工作相关系数 \(\boldsymbol{\alpha}\)（例如通过 moment-based estimation）。
- QIF 估计量 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\)：基于二次推断函数的最小化估计，代替解方程。
模型：
- 数据生成机制 (DGP)：对于个体 \(i\)， \(\mathbf{Y}_i = \mathbf{X}_i \boldsymbol{\beta}_0 + \boldsymbol{\epsilon}_i\)，其中 \(\boldsymbol{\beta}_0\) 为真实系数，\(\boldsymbol{\epsilon}_i \sim (0, \boldsymbol{\Sigma}_i)\)，且不同个体的 \(\boldsymbol{\epsilon}_i\) 独立。\(\boldsymbol{\Sigma}_i\) 是真实且未知的组内协方差矩阵。工作模型 \(\mathbf{V}_i\) 可能不等于 \(\boldsymbol{\Sigma}_i\)。
- GEE 框架：在 GEE 中，我们解形如 \(\sum_i \mathbf{D}_i^\top \mathbf{V}_i^{-1} (\mathbf{Y}_i - \boldsymbol{\mu}_i) = 0\) 的方程。
- QIF 框架：在 QIF 中，将 working correlation 的逆矩阵 \( \mathbf{R}^{-1}(\boldsymbol{\alpha})\) 表示为已知基矩阵的线性组合：
  \[\mathbf{R}^{-1}(\boldsymbol{\alpha}) \approx \sum_{k=1}^K a_k(\boldsymbol{\alpha}) \mathbf{M}_k\]
  其中 \(\mathbf{M}_k\) 是已知的 \(m \times m\) 基矩阵（例如，时间滞后矩阵，单位矩阵等），\(a_k(\boldsymbol{\alpha})\) 是依赖于 \(\boldsymbol{\alpha}\) 的系数。Qu et al. 的一个关键技巧是：对于一类常见的 working correlation 结构（如 exchangeable, AR(1), M-dependent），\(\mathbf{R}^{-1}(\boldsymbol{\alpha})\) 恰好是这个线性组合，且系数 \(a_k\) 是回归参数 \(\boldsymbol{\beta}\) 和相关系数 \(\boldsymbol{\alpha}\) 的未知函数。QIF 的目标函数是：
  \[Q_n(\boldsymbol{\beta}) = \bar{g}_n^\top(\boldsymbol{\beta}) \, \hat{\mathbf{C}}_n^{-1}(\boldsymbol{\beta}) \, \bar{g}_n(\boldsymbol{\beta})\]
  其中 \(\bar{g}_n(\boldsymbol{\beta}) = \frac{1}{n} \sum_{i=1}^n \mathbf{g}_i(\boldsymbol{\beta})\)， \(\mathbf{g}_i(\boldsymbol{\beta}) = \begin{bmatrix} \mathbf{D}_i^\top \mathbf{A}_i^{-1/2} \mathbf{M}_1 \mathbf{A}_i^{-1/2} (\mathbf{Y}_i - \boldsymbol{\mu}_i) \\ \vdots \\ \mathbf{D}_i^\top \mathbf{A}_i^{-1/2} \mathbf{M}_K \mathbf{A}_i^{-1/2} (\mathbf{Y}_i - \boldsymbol{\mu}_i) \end{bmatrix}\)（一个 \(Kp \times 1\) 向量），而 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 是 \(\mathbf{g}_i(\boldsymbol{\beta})\) 的样本协方差矩阵。\(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 通过 \(\hat{\boldsymbol{\beta}}_{\text{QIF}} = \arg \min_{\boldsymbol{\beta}} Q_n(\boldsymbol{\beta})\) 得到。
可观测数据：
- 我们观测到： \(\{( \mathbf{Y}_i, \mathbf{X}_i ), i=1,\dots,n\}\)。每个个体 \(i\) 的多变量响应向量 \(\mathbf{Y}_i \in \mathbb{R}^m\)（假设平衡）和协变量矩阵 \(\mathbf{X}_i \in \mathbb{R}^{m \times p}\)。对于线性模型，这些数据就够了。
- 不可观测/需要假设的量：
  - 真实相关系数 \(\boldsymbol{\alpha}_0\)（若 working correlation 正确，则 \(\mathbf{R}(\boldsymbol{\alpha}_0)\) 是真实的相关阵）。
  - 真实的组内协方差矩阵 \(\boldsymbol{\Sigma}_i = Cov(\mathbf{Y}_i | \mathbf{X}_i)\) 完全未知，其结构只能通过模型假设去逼近。
  - 随机误差 \(\boldsymbol{\epsilon}_i\) 的真实分布。虽然这里用的拟似然理论不依赖于分布，但影响函数分析需要知道 \(\boldsymbol{\epsilon}_i\) 的分布或高阶矩。

第二步：最小内核——一个二值响应、0/1 group 的病例¶

为了解释核心思想，考虑一个极其简化的纵向数据例子：假设只有 \(m=2\) 个时间点（所以每个个体有两个测量），工作相关结构选择简单的 exchangeable（可交换相关）。那么 working correlation matrix \(\mathbf{R}(\alpha)\) 是 \(2 \times 2\) 矩阵：

\[\mathbf{R}(\alpha) = \begin{pmatrix} 1 & \alpha \\ \alpha & 1 \end{pmatrix}, \quad \mathbf{R}^{-1}(\alpha) = \frac{1}{1 - \alpha^2} \begin{pmatrix} 1 & -\alpha \\ -\alpha & 1 \end{pmatrix} = \frac{1}{1 - \alpha^2} \left[ \mathbf{I}_2 - \alpha \mathbf{J}_2^{\text{off}} \right]\]

其中 \(\mathbf{J}_2^{\text{off}} = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}\) 是“反对角”矩阵。所以，\(\mathbf{R}^{-1}(\alpha)\) 可以写作两个已知基矩阵 \(\mathbf{M}_1 = \mathbf{I}_2\) 和 \(\mathbf{M}_2 = \mathbf{J}_2^{\text{off}}\) 的线性组合，系数分别为 \(\frac{1}{1-\alpha^2}\) 和 \(\frac{-\alpha}{1-\alpha^2}\)。

现在，对于这个最简单的 exchangeable case，QIF 的核心是怎么 work 的？ 1. 构造扩展的矩条件向量：定义扩展的得分函数向量：

\[\bar{g}_n(\boldsymbol{\beta}) = \frac{1}{n} \sum_{i=1}^n \begin{bmatrix} \mathbf{X}_i^\top (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \\ \mathbf{X}_i^\top \mathbf{J}_2^{\text{off}} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \end{bmatrix}\]

这里第一个块就是 GEE 的得分（在 \(\mathbf{V}_i = \mathbf{I}_2\) 下），第二个块是加了权重的矩条件（权重为 \(\mathbf{J}_2^{\text{off}}\)，即对角互换）。

构造 QIF 目标函数：
\[Q_n(\boldsymbol{\beta}) = \bar{g}_n^\top(\boldsymbol{\beta}) \, \hat{\mathbf{C}}_n^{-1}(\boldsymbol{\beta}) \, \bar{g}_n(\boldsymbol{\beta})\]
其中 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 是这些得分的样本协方差。这一步的本质是：我们希望找到一个 \(\boldsymbol{\beta}\)，使得这些扩展的矩条件（所有个体的均值）同时尽可能接近 0，并且通过这个二次型的形式，我们不再需要显式估计 work correlation 中的 \(\alpha\) 参数（因为它已经被吸收到 \(\hat{\mathbf{C}}_n\) 的协方差结构里）。
最小内核的核心推理：
- 为什么 QIF 可以比 GEE 更有效？ 在 GEE 里，我们只用了第一个矩条件（对应 \(\mathbf{I}_2\)）。如果我们选的 \(\mathbf{I}_2\) 是坏的—即真实的组内相关是先正相关后负相关（比如时间点间的相关模式是 \(\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}\) 这样的正相关），那么假设 independence (working correlation = I) 就是低效的。QIF 通过加入第二个矩条件（对应 \(\mathbf{J}_2^{\text{off}}\)），实际上在“借用”了跨时间点协方差的信息，因此当真实相关是正相关时，\(\mathbf{J}_2^{\text{off}}\) 的矩条件能帮忙纠偏差异—这就像是做了两个不同权重的 IV 估计，最后用二次型去最优组合它们。
- 为什么 QIF 可能不存在？ 因为在极小化 \(Q_n(\boldsymbol{\beta})\) 时，要求 \(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 是正定的。如果数据生成的组内相关模式很奇怪（比如极端奇异），或者样本太小，\(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 可能对某些 \(\boldsymbol{\beta}\) 是奇异或非正定的，导致最小值不存在。一个极端例子：当所有个体的两个测量完全一样(\(\alpha = 1\))，则 \(\mathbf{R}^{-1}\) 不存在，那么矩条件之间几乎共线性，\(\hat{\mathbf{C}}_n\) 可能退化。作者给出一个简单例子：data 的相关系数为1时，QIF 无解。
- 这个特例下的核心数学困难：要证明“QIF 估计量不一定存在”，真正的困难不在于 exchangeable 情形本身（这个 case 下显然，因为 \(\mathbf{R}^{-1}\) 在 \(\alpha = 1\) 处退化了），而是要覆盖一般的 working correlation 结构（如 AR(1)），并证明问题不仅出在相关系数的边界，还可能出在基矩阵的选择不当——即使 chosen \(\mathbf{M}_k\) 本身是合适的，但有限样本中 real data 的 \(\hat{\mathbf{C}}_n\) 仍然可能退化。作者用一个构造性的例子（见原文第4节）说明，对于某个简单的 design，QIF 的对偶目标函数（类似 GMM）的 Hessian 可能是非正定的，因此不存在唯一最小值。
- 这个特例如何体现影响函数无界？ 在 exchangeable case 下，考虑一个极端离群点 \(i_0\)，其残差 \( \mathbf{Y}_{i_0} - \mathbf{X}_{i_0} \boldsymbol{\beta}\) 非常大。由于 \(\bar{g}_n\) 是残差的线性函数，而这个离群点的贡献会通过 \(\hat{\mathbf{C}}_n^{-1}\) 被平方地放大（因为 \(Q_n\) 是二次型 \(g^\top C^{-1} g\)），因此单个离群点可以任意地拖拽 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\)——这就是无界影响函数的本质。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题：系统地研究了纵向数据边际线性模型中二次推断函数 (QIF) 估计量的理论性质，特别是 working correlation 矩阵的选择如何影响 QIF 估计的存在性、稳健性（通过影响函数）和渐近相对效率 (ARE) 相对于广义估计方程 (GEE) 估计量。
2. 核心工具/方法：使用影响函数展开（influence function expansion）分析 QIF 估计量的稳健性；使用二次型最小化理论（类似于 GMM 的理论）推导其存在性和渐近行为；通过对偶函数（dual function）的凸性分析研究存在性。
3. 主要结论：① QIF 估计量并非总是存在的，且与工作相关矩阵的选择有关；② QIF 估计量具有无界的影响函数（unbounded influence function），因此不如某些有界影响的稳健估计量；③ QIF 估计量的渐近效率既可以高于也可以低于 GEE 估计量，具体取决于真实相关结构与 working correlation 的偏离程度；④ 提出一种基于正则化的修正方法来处理 QIF 无解的情形。
关键设定与假设

本文延续的是标准的纵向数据 GEE 设定（Liang & Zeger, 1986），其核心假设是： * M1 (Marginal Mean Model)： \(E[Y_{ij} | \mathbf{X}_{ij}] = \mathbf{X}_{ij}^\top \boldsymbol{\beta}\)。即协变量对响应边际均值的影响是线性的，且无链接函数（identity link）。这是一个很强的线性假设，它是被当作模型的正确规范。 * M2 (Independence across subjects)：不同个体的观测 \((\mathbf{Y}_i, \mathbf{X}_i)\) 之间是独立的。 * M3 (Working Correlation)：选择一个已知的 working correlation 结构 \(\mathbf{R}(\boldsymbol{\alpha})\)（如 exchangeable 或 AR(1)），该结构可以被参数化为有限个基矩阵的线性组合（这是 QIF 方法的关键）。

本文的贡献在于 不是引入新假设，而是放松了已有文献对 QIF 方法性质的未经检验的假设。具体来说： * 之前的工作（如 Qu et al., 2000）隐含地假设了 QIF 估计量总是存在的（因为 We are simply minimizing a quadratic form）。本文打破了这个隐性假设。 * 之前的工作未讨论影响函数的有界性。本文证明其无界性。 * 之前的工作隐含地认为 QIF 的效率总高于 GEE（因等价于最优 GMM）。本文证明其效率既可能高也可能低。 * 与基线 (GEE) 的比较：文中多数分析是与 GEE 估计量相比。GEE 的稳健性（沙箱估计量的 sandwich property）已被广泛了解，但本文首次在 QIF 框架下严格表述了这一比较。
主要结果

本文包含三个核心定理/命题。
- 定理 1 (存在性)：陈述了 QIF 估计量可能不存在（in some well-dened sense），并且给定一些条件（正定协方差矩阵等），才存在。作者构造了一个简单的 counterexample：取 \(m=2\) 且 exchangeable working correlation ，当数据中的样本相关系数 \(\hat{\alpha} \to 1\)（或 -1）时，\(\hat{\mathbf{C}}_n(\boldsymbol{\beta})\) 的秩下降，导致 QIF 目标函数在最小值处不存在或不可达。直觉：QIF 本质上是 GMM，求解一个二次型的极小点。而 GMM 的极小点存在的一个充分条件是矩条件的 Jacobian 满秩（即，目标函数是强凸的）。当 working correlation 结构选择过于极端（导致基矩阵几乎退化）或数据本身过于接近相关边界时，这个凸性条件被破坏，导致无解。技术难点：证明 QIF 的存在性问题是分析 \(Q_n(\beta)\) 的 Hessian 矩阵的谱性质，而不是通常的求解方程。
- 定理 2 (影响函数)：给出了 QIF 估计量的影响函数公式，并证明它是无界的。
  - 公式： \(\text{IF}(y, x; \hat{\boldsymbol{\beta}}_{\text{QIF}}) = [\mathbf{J}_n^\top \mathbf{C}_n^{-1} \mathbf{J}_n]^{-1} \, \mathbf{J}_n^\top \mathbf{C}_n^{-1} \, \mathbf{h}_n(y, x)\)，其中 \(\mathbf{J}_n = E[\nabla \bar{g}_n(\boldsymbol{\beta})]\)，\(\mathbf{h}_n\) 是与个体观测的残差相关的向量。
  - 为什么无界：因为 \(\mathbf{h}_n(y, x)\) 是残差 \((y - \mu)\) 的线性函数。对于离群点，当 \(\|y - \mu\| \to \infty\) 时，\(\|\text{IF}\| \to \infty\)。即，单个极端观测可以任意地拉动 QIF 估计量。与之对比：GEE 估计量的影响函数也是无界的（因为 GEE 基于 residuals），这一点被作者明确说明：“QIF estimators have unbounded influence functions, just like the GEE estimators.” 所以本文的贡献不是“QIF 比其他估计量更不稳健”，而是明确了它们都具有无界影响函数，推翻了 QIF 比 GEE 更稳健的潜在误解。
  - 技术难点：推导影响函数需要对 QIF 估计量进行一阶泰勒展开。由于 \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 是通过优化 \(\min_{\beta} Q_n(\beta)\) 定义的，影响函数需要通过向 \(Q_n(\beta)\) 的梯度方程 \(\nabla Q_n(\beta) = 0\) 中引入一个受干扰的观测来推导。作者的推导依赖于 Implicit Function Theorem，并抓住了 \(\bar{g}_n\) 是残差的线性函数这一关键特征。
- 定理 3 (渐近相对效率, ARE)：给出了 QIF 与 GEE 的 ARE 公式，并说明 ARE 既可能大于 1 也可能小于 1。
  - 公式 (期望渐近方差之比)： \(\text{ARE}(\boldsymbol{\beta}) = \frac{\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GEE}}^{\text{asymp}})}{\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}^{\text{asymp}})}\)，其中 \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}^{\text{asymp}}) = [\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J}]^{-1}\) （\(\mathbf{J}\) 是 E[\(\nabla \bar{g}\)]， \(\mathbf{C}\) = E[\(\bar{g} \bar{g}^\top\)]）， GEE 的方差是标准的沙箱方差。
  - 结论：ARE 不可能总是 ≥ 1。当 working correlation 结构相对于真实相关结构 扭曲严重 到一定程度（例如，假设 exchangeable 但实际 correlation structure 是 highly non-stationary），QIF 的二次型会“过度拟合”一个错误的模型，导致其方差大于简单的 GEE（假设 independence）。直觉：QIF “盲目地”使用更多的矩条件（比 GEE 多），如果这些矩条件与真实模型的信息内容不匹配（即 working correlation 的模型偏差大），那么过度参数化会加剧噪声，降低效率。而 GEE（简单假设 independence）虽然效率不高，但其方差大致随样本量稳定衰减。相反，当 working correlation 几乎正确时，QIF 显著优于 GEE，因为利用相关性信息。
证明路线与技术技巧
- 整体路线：
  1. 定义 QIF 估计量：formulate \(\hat{\boldsymbol{\beta}}_{\text{QIF}}\) 作为 \(Q_n(\beta)\) 的最小点。
  2. 存在性推导：利用凸分析证明 \(Q_n(\beta)\) 的强凸性（即 Hessian 的最小特征值远离零）。当样本协方差矩阵 \(\hat{\mathbf{C}}_n(\beta)\) 条件数有界时，该条件成立。然后，直接构建一个反例（用 exchangeable MSOAR matrix 和一个极端数据点）破坏这个条件，从而证明存在性不是普遍的。
  3. 影响函数推导：对一阶条件 \(\nabla Q_n(\hat{\beta}) = 0\) 进行泰勒展开。引入一个个体观测的污染点。用分块矩阵公式（Block matrix inversion lemma）求解影响函数。关键点：\(\tilde{\mathbf{g}}_n\) 是残差的线性函数，所以污染点在 \(\bar{g}\) 中引起一个线性扰动，最终导致 \(\|\text{IF}\| \propto \| \text{residual} \|\)。
  4. ARE 推导：
    - 直接写出 QIF 估计量的渐近方差公式： \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{QIF}}) = (\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J})^{-1}\) （这是最优 GMM 的方差公式）。
    - 写出 GEE 估计量的渐近方差公式： \(\mathrm{Var}(\hat{\boldsymbol{\beta}}_{\text{GEE}}) = (\mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D})^{-1} (\mathbf{D}^\top \mathbf{V}^{-1} \boldsymbol{\Sigma} \mathbf{V}^{-1} \mathbf{D}) (\mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D})^{-1}\) 。
    - 注意到，如果 \(\mathbf{C} = \mathrm{Var}(\bar{g})\) 被正确设定，那么 QIF 等同最优 GMM，通常 ARE ≥1。但作者通过构造一个矩阵不等式反例（引理 1）证明：当 working correlation 严重 misspecified 时，有 \(\mathbf{J}^\top \mathbf{C}^{-1} \mathbf{J} \leq \mathbf{D}^\top \mathbf{V}^{-1} \mathbf{D}\) 不成立，从而 \(\mathrm{ARE} < 1\)。换句话说，QIF 的矩条件集合相对于 GEE 而言，不是充分条件优越的。
- 关键跳跃点：
  - 存在性跳跃：从“QIF 最小化一个二次型”到“QIF 可能不存在”。这个跳跃的关键在于证明 Hessian 矩阵 \( \nabla^2 Q_n(\beta)\) 可能不正定——如果 \(\hat{\mathbf{C}}_n\) 是奇异的或 ill-conditioned。作者通过一个构造性的例子完成了这一步。
  - ARE 跳跃：从“广义矩估计 (GMM) 是渐近有效的”到“QIF 作为特殊 GMM，其效率并非总高于 GEE”。这个跳跃的关键在于证明“QIF 的矩条件集合不是 GEE 矩条件集合的超集（或 sufficient）”，因此无法保证 covariate adjustment 的绝对优势。作者是用一个满足某种结构的设计矩阵（比如组内协方差矩阵 \(\boldsymbol{\Sigma}\) 和 working correlation \(\mathbf{R}\) 的某种不匹配）来证明 \(\text{ARE} < 1\)。
- 技术技巧点名：
  - Influence function via Implicit Function theorem：用于推导 QIF 估计量的影响函数。
  - 二次型最小化下的分块矩阵求逆：在存在性论证中处理 Hessian。
  - 线性代数不等式 (Schur complement)：用于证明 ARE 可以 < 1。作者利用 Schur complement 将 GEE 方差与 QIF 方差之间的关系表达为某个矩阵的正定条件，然后构造反例。
  - Sandwich variance estimator：构造 GEE 的渐近方差。
真实例子与应用
- 使用的数据：文中包含一个基于模拟数据的实证部分。没有使用真实世界数据集。
- 如何应用：他们模拟了基于一个线性回归模型的纵向数据，其中组内相关系数有变化。他们展示了在不同 working correlation 假设（如 exchangeable 或 independence）下，QIF 和 GEE 估计量的方差和 ARE 随真实相关系数变化的模式。
- 结果：模拟结果与理论一致：当相关结构被正确指定时，QIF 优于 GEE；当误设严重时，QIF 的效率低于 GEE，这与定理 3 吻合。模拟也验证了影响函数的有界性结果：QIF 的估计值在加入离群点后比 GEE 更易发生大的偏移。
- 例子想说明什么：模拟直接验证了他们前面的三个理论结论（存在性、稳健性、ARE 可变）。他们用模拟作为一个“画图”工具，形象地展示了这些理论性质在实际有限样本中如何体现。
- 论文为纯理论/无实证例子：不，有模拟。但无真实数据例子。
🔎 结论是否比证明窄
- 存在性：结论（“QIF 估计量并非总是存在”）是严格的，并且精确地构造了反例。但论文并没有提供一个完整的存在性充要条件（比如，需要满足什么样的设计矩阵和 correlation 参数的组合），只给出了一个存在性不成立的反例。这段叙述是“窄”的：作者只证明了“存在性有时不成立”，而不是“存在性条件是什么”。
- 影响函数：结论（无界）是符合直觉且证明扎实的。但作者没有探讨 QIF 的 bounded influence function 的扩展（比如，可以通过对矩条件做 Mallows-type 截断实现有界影响）。他们的结论被泛化为“QIF 无界——说明它不稳健”，但并未考虑改进 QIF 使其更稳健的可能。
- ARE：结论（ARE 既 >1 又 <1）是严格证明的，但该结论仅适用于渐近方差的比较。文中未比较有限样本下的方差表现——在中等样本下，QIF 可能因为使用了 “flexible” 二次型而方差略大，但这种有限样本差异在推论中完全被忽略了。泛化地说“QIF 效率有的情况下不如 GEE”，忽略了有限样本的近似质量。

四、开放问题¶

问题 1 (存在性充要条件)：本文给出了 QIF 可能不存的单一反例，但没有提供一个充要条件来判定何时 QIF 存在。一个更系统的回答应该是：“对于给定的 working correlation 结构（如 exchangeable 或 AR(1)），当设计矩阵满足什么条件（如不平衡、高度相关协变量）时，QIF 在概率 1 下存在（或不存在）？” 文章明确指出：“We show that the QIF estimators do not always exist and propose a way to handle this. We conclude that the choice of working correlation can have dramatic effects…” 这一句蕴含了探索存在性充要条件的开放性。扎根：第一节‘existence’子节末尾的讨论。
问题 2 (有界影响 QIF)：既然 QIF 的影响函数是无界的，一个自然的后续是设计一个有界影响的 QIF 变体，类似于 Huber 型的稳健 GEE。扎根：影响函数的“unbounded”结论一段： “They have unbounded influence functions… and can be more or less asymptotically efficient…” 这句话打开了“改进稳健性”的可能。
问题 3 (更现实的 ARE 界)：论文证明了 ARE 可以小于 1，但没有给出一个 上界或下界（例如：在现实纵向数据的相关结构下，ARE 的最差情形是什么？相对于 GEE，QIF 的效率损失有什么最小保证？）。这类 minimax 式的效率分析可以提供一个实际选择方法的原则。扎根：定理3的公式和模拟部分(第5节)展示了 ARE 的模式。
问题 4 (高维 QIF)：本文工作完全聚焦于低维、固定 p 的情形。将 QIF 扩展到 高维纵向数据（p >> n，或 p 随 n 增长）的设定下，其存在性、稳健性和效率变化会如何？这对许多全基因组关联分析或高维生物标记物研究非常重要。扎根：介绍部分和结论部分明确给出研究的经典框架（fix p， moderate m），未涉及高维拓展。

Maintained by 陈星宇 · Homepage · Source on GitHub