Inverse-intensity weighted generalized estimating equations for longitudinal data subject to irregular observation: which variables should be included in the visit rate model?¶

作者: Eleanor M Pullenayegum, Di Shan
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: University of Toronto（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf128

一、领域脉络与小综述¶

这个方向是什么
纵向数据中个体访视时间往往是不规则且信息性（informative）的：访视时刻与观测到的结局或未观测因素相关。若直接用标准广义估计方程（GEE）忽略这种选择机制，估计会因缺失非随机（MNAR）而有偏。逆概率加权（IPW）思路已被引入：对每个观测到的（Y，X）对赋予权重，权重为访视率的倒数，称为逆强度加权广义估计方程（IIW-GEE）。该方向要解决的根本问题是：在何种条件下、用什么协变量构建访视率模型，才能得到无偏且高效的边际效应估计。

发展脉络（基于领域常识与摘要的推算，原文未给出intro）
- 奠基工作：Robins等人（1990s）将IPW引入缺失数据与纵向数据，提出用观测概率的逆权重校正选择偏倚。Lin等人（1997）提出用“逆强度”权重处理连续时间纵向数据中的不规则访视，奠定了IIW-GEE概念。
- 主要进展：Pullenayegum（2011）明确给出IIW-GEE估计量渐近无偏的条件—— 结局与访视时间在给定访视率模型中的协变量后条件独立（即“不可忽略的访视时间”假设）。此后，框架被用于抑郁研究、HIV队列等真实数据。
- 当前Frontier：标准建议是将所有与结局和访视可能相关的变量纳入访视率模型（类似倾向评分模型中的“无遗漏”原则），但此建议缺乏理论证据——特别是：加入仅与访视相关而与结局无关的变量，效率是升是降？此前没有渐近方差分析。本文系统回答了这一问题。
- 本文的位置：它是第一个从理论上推导IIW-GEE估计量方差如何随访视率模型协变量集合变化的论文，给出了明确的分类结果。

子线索聚类
1. IPW中的协变量选择理论：在缺失数据（非纵向）中，Brookhart等人（2006）研究了倾向评分模型包含不同变量对效率的影响（类似结论：加入预测结局变量降低方差，加入仅预测处理的变量可能增加方差）。本文将此线索扩展到纵向信息性访视。
2. 纵向数据中的GEE与边际模型：Liang & Zeger（1986）提出GEE，后来扩展至缺失数据场景（robust方差、加权GEE）。本文属于加权GEE分支。
3. 因果推断中时变混杂与访视机制：Hernán等人（2002）讨论逆概率权重在长期治疗中的使用，但权重模型的协变量选择多基于经验。本文未直接涉及时变治疗，但为处理时变访视提供了基础。

核心追问问题
- 条件独立性假设是否可检验？若违反，偏倚大小如何？
- 给出一个通用准则：在IIW-GEE中，哪些变量应进入访视率模型以最小化渐近方差，同时保持无偏性？
- 当前主流方法：仅凭“关联性”直觉加入所有可用协变量，但可能不必要地增大方差。
- 已知瓶颈：缺乏方差随协变量集变化的显式公式，因此无法预判选择。

⚠️ 作者的framing（从摘要推断）
作者将该缺口frame为：“当我们保持条件独立性时，加入不同变量不会影响渐近无偏性，但对方差的影响未知，且不可忽视。本文提供了分类结果并给出建议。”
- 作者淡化/回避了什么？未讨论条件独立性假设被违反时协变量选择的影响，也未处理访视率模型为高维或非参数时的情况。
- 明显缺失的引用：未提及Brookhart等人（2006）在单期IPW中的类似结果（这与摘要中的“新增变量关联结果/访视”分类高度相似）。若该论文存在，作者未在摘要中引用，可能意味着他们的结果在纵向IPW中首次确立。

张力
未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

设个体 \(i=1,\dots,n\)，每个个体可能在不规则时间点 \(t_{ij}\) 被观测，\(j=1,\dots,m_i\)（\(m_i\)可随\(i\)变）。记：

\(Y_{ij}\)：结局变量（响应），在访视时间被观测。
\(X_{ij}\)：\(p\times1\) 协变量向量（可能含时间相关成分），在访视时间被记录。
\(R_{ij} = I(\text{个体} i \text{在时间} t_{ij} \text{被观测})\)：实际访视指示器。由于访视是不规则且可能信息性的，\(R_{ij}\) 与 \(Y_{ij}\) 可能相关。
访视率（强度）函数：\(\lambda_i(t)\)，表示个体 \(i\) 在时刻 \(t\) 的瞬时访视概率，依赖于某些协变量 \(Z_i(t)\)（可能包含 \(X_{ij}\) 的一部分）。常用模型：\(\lambda_i(t) = \lambda_0(t) \exp(Z_i(t)^T \alpha)\)，其中 \(\lambda_0(t)\) 为基线强度，\(\alpha\) 为未知参数。
逆强度权重：\(w_{ij} = 1 / \lambda_i(t_{ij})\)（或某种拟合值）。
目标：估计结局边际回归模型中的系数 \(\beta\)，例如：
\[E[Y_{ij} \mid X_{ij}] = g^{-1}(X_{ij}^T \beta)\]
通过解加权GEE得到 \(\hat{\beta}\)：
\[\sum_{i=1}^n \sum_{j=1}^{m_i} w_{ij} D_{ij}^T V_{ij}^{-1} (Y_{ij} - \mu_{ij}) = 0\]
其中 \(D_{ij} = \partial \mu_{ij} / \partial \beta\)，\(V_{ij}\) 为工作协方差结构。

可观测数据：研究者看到 \(\{Y_{ij}, X_{ij}, R_{ij}=1, t_{ij}\}\) 以及可能用于构建 \(Z_i(t)\) 的其它协变量（如是否经治疗、人口学变量）。访视时间本身及权重模型中的所有 \(Z_i(t)\) 都是可观测或可由观测数据构造（如 \(t\) 时刻的协变量值）。

潜在/不可观测：若个体在 \(t\) 时刻未被观测，则该时刻的 \(Y(t)\) 未观测到。但IIW-GEE仅使用被观测时刻的数据，通过权重校正选择偏倚。

第二步：最小内核¶

将一般模型极度简化：假设
- 每个个体最多有两个访视时间，即 \(m_i \in \{1,2\}\)，且访视时间固定为 \(t_1, t_2\)（但个体可缺失一个）。
- 结局模型为线性：\(Y_{ij} = \beta_0 + \beta_1 X_{ij} + \varepsilon_{ij}\)，且 \(X_{ij} = X_i\) 不随时间变。
- 访视率模型仅包含两个协变量：\(X_i\) 和另一个二值变量 \(W_i\)（如性别）。设定条件独立性成立（给定 \(X_i\) 和 \(W_i\) 后，\(Y\) 与访视独立）。实际上相当于：访视缺失机制为给定 \(X_i,W_i\) 后的随机缺失（MAR）。

最小内核问题：当我们将 \(W_i\) 加入访视率模型（权重为 \(1/\lambda_i\)，\(\lambda_i(t)=\lambda_0(t)\exp(\alpha_1X_i+\alpha_2 W_i)\)）时，与仅包含 \(X_i\) 的模型相比，\(\hat{\beta}_1\) 的渐近方差如何变化？

根据本文结果：
- 若 \(W_i\) 与 \(Y\) 无关（给定 \(X_i\)），但与访视概率有关，则方差可能增大或减小，取决于 \(X\) 与 \(W\) 的相关结构。
- 若 \(W_i\) 与 \(Y\) 和访视均无关，方差不变。
- 若 \(W_i\) 仅与 \(Y\) 有关（给定 \(X_i\)），方差减小。

这个最小内核剥离了时间维度、多个协变量、非线性链接函数，只保留了一个额外变量 \(W\) 的添加，论证核心就是两个方差表达式之差的正负性。

三、这篇论文做了什么¶

三句话
①研究了在IIW-GEE框架下，给访视率模型添加不同性质的协变量（与结局无关/相关、与访视无关/相关）如何影响边际回归系数估计的渐近方差。
②工具：在条件独立性假设下，推导了加权估计方程估计量的渐近方差作为访视率模型协变量集的函数，并利用分块矩阵和Schur补分析方差变化的条件。
③主要结论：添加与结局和访视均无关的变量不改变方差；添加仅与结局相关的变量降低方差；添加仅与访视相关的变量可增可减，取决于协变量与结局的相关结构，实际应用中可能使方差翻倍。

关键设定与假设
- 条件独立性（核心假设）：\(Y_{ij}\) 与访视时间 \(t_{ij}\) 在给定访视率模型中的所有协变量 \(Z_i(t)\) 后条件独立。等价于：给定 \(Z\)，访视机制是“可忽略的”，即缺失为随机缺失（MAR）。此假设比一般纵向数据中的不可忽略访视要强。
- 边际模型：使用GEE，仅对结局均值建模，工作相关结构可任选（但理论推导假设工作相关结构正确？本文未要求，但方差鲁棒性成立）。
- 权重模型正确指定：访视率模型（Cox比例强度或Poisson）被假定为正确，否则权重模型误设定会引入偏倚（本文未讨论）。
- 相比于已有文献：其他IIW-GEE工作假设条件独立性但未分析不同变量集下的效率，本文是首次推导方差变化的显式条件。

主要结果
1. 定理1 / 命题形式：记 \(\hat{\beta}_1\) 和 \(\hat{\beta}_2\) 分别对应包含较小协变量集 \(Z_A\) 和较大协变量集 \(Z_B\) (\(Z_A \subset Z_B\)) 的权重模型。在条件独立性和正确权重模型下，\(\hat{\beta}_2\) 的渐近方差与 \(\hat{\beta}_1\) 的方差之差等于一个半正定矩阵（或不定），具体表现为：
- 若 \(Z_B\) 中新增变量是“结局预测器”（即与 \(Y\) 在给定 \(Z_A\) 后相关），则方差减少（差为半正定）。
- 若新增变量是“纯访视预测器”（与 \(Y\) 无关，但与访视相关），则方差变化符号取决于跨协变量的相关性结构。若新增变量与原有变量正交，方差不变；若相关，可能导致增大。
2. 实际案例（抑郁症研究）：使用真实数据，分别构建仅含结局预测协变量、含访视预测协变量、含两者、不含的权重模型。结果：含结局预测变量时方差相似或略优；含仅访视预测变量（如既往就诊次数）使某些系数的方差增大至2倍。
3. 建议：访视率模型应当优先纳入与结局有关的变量；与结局无关的变量（即使强烈预测访视）需谨慎，因其可能损害精度。

证明路线与技术技巧（理论型）
整体路线（推断，基于摘要可重构）：
1. 写出加权GEE估计量的一阶展开：\(\sqrt{n}(\hat{\beta}-\beta) = (n^{-1}\hat{\Omega})^{-1} n^{-1/2} \sum_i S_i + o_p(1)\)，其中 \(\hat{\Omega}\) 是信息矩阵或工作Fisher信息，\(S_i\) 为加权得分。
2. 渐近方差为 \(\text{Var}(\hat{\beta}) = (E[\Omega])^{-1} \text{Var}(\sum_i S_i) (E[\Omega])^{-1}\)。
3. 对于两个不同权重集（\(w_A\) 和 \(w_B\)），比较方差差异，核心是证明方差差等于某个由权重差异引起的协方差项的差。
4. 利用条件独立性：给定 \(Z\)，\(Y\) 与访视独立，因此权重与结局的交叉矩可分解。
5. 将方差差表为某些条件期望的矩阵之差，再利用分块矩阵公式或Schur补判定正定/不定。关键技术技巧：
- 分块矩阵逆（Woodbury）：处理协变量增加时 Fisher 信息矩阵的更新。
- 投影定理：将新增变量引起的变化解释为在已有变量空间上的正交投影的残差。
- 高阶协方差计算：可能涉及U-统计量形式的协方差展开（但本文可能未使用，实际中用了经验估计）。
6. 最终得到三种变量类型对应不同符号条件。

关键跳跃点：从“方差差表达式”到“正定性判断”需要利用加权得分函数中 \(Y\) 的条件均值和权重无关性，将一个复杂的协方差矩阵分解为若干项的乘积。作者依赖线性代数矩阵的正定条件，给出了一个可验证的充分条件（新增变量与 \(X\) 的相关结构）。

真实例子
- 数据：一项关于重度抑郁症（MDD）的多中心纵向研究，含多次访视（基线、2周、4周、8周、12周等），结局是抑郁严重度评分（HAM-D）。
- 如何应用：作者拟合了四个不同的访视率模型：
- 模型A：协变量 \([X]\)（结果预测因子，如基线严重度）
- 模型B：协变量 \([X] + [W]\)，其中 \(W\) 是仅访视预测因子（如过去一年就诊次数）
- 模型C：协变量 \([X] + [Z]\)，其中 \(Z\) 是结果和访视均预测的因子
- 模型D：协变量 \([W]\)（仅访视预测因子）
- 结果：比较 HAM-D 斜率估计的方差。模型B比模型A的方差在某些系数上增大接近2倍；模型C方差略小于模型A。
- 目的：直观展示“仅访视预测变量”的不良后果，支持理论判断。

🔎 结论是否比证明窄
- 作者声明结果在条件独立性假设下成立，但实际应用中该假设难以验证。论文并未给出条件独立性的检验方法，也未讨论违反时的Robustness。
- 理论推导假设正确的权重模型，但未考虑权重模型误设定时方差变化的模式（可能更复杂）。
- 结论只适用于边际GEE，未推广到条件模型或混合效应模型。
- 文中可能有限制：只分析了添加一个变量，若同时添加多个不同类型的变量，总方差变化可能非加法，需结合具体结构。

四、开放问题（扎根具体语句）¶

条件独立性检验：本文结论完全依赖条件独立性假设。如何设计检验该假设是否成立（扎根于摘要"provided that conditional independence is maintained"及作者未提供检验方法的事实）？一个可行的后续：利用高维U-统计量构造检验统计量，检验 \(Y\) 与访视时间在给定 \(Z\) 后的独立性。
权重模型误设定下的方差变化：本文假设权重模型正确指定；若访视率模型为Cox但真实机制不同，方差变化结论是否仍成立？（扎根于论文隐含地假设"correct specification of the visit rate model"）
高维协变量场景：当协变量个数 \(p\) 接近或超过 \(n\)，如何选择进入访视率模型的变量以最小化方差？本文的理论基于固定维、大样本，可尝试用高维正则化GEE推广方差分析的结论。
与时变治疗结合：若处理A(t)是时变的，且访视也信息性，逆概率加权需要同时估计两个权重。本文的方差分析能否扩展至联合权重模型？（扎根于论文仅涉及访视权重，未讨论时变治疗场景）

注意事项：上述问题1-3均需自行确认文献中是否存在平行工作；建议阅读近期同类论文（如Pullenayegum 2011后续工作、Seaman & White 2013等）看是否已被涵盖。

Maintained by 陈星宇 · Homepage · Source on GitHub