An efficient doubly-robust imputation framework for longitudinal dropout, with an application to an Alzheimer’s clinical trial¶

作者: Yuqi Qiu, Karen Messer
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的根本问题是：在纵向研究中，受试者因"失访"（dropout）而缺失后续观测值，且缺失机制可能依赖于已观测的数据（缺失随机，MAR）时，如何对总体参数（如各时间点的均值、处理效应、时变协变量效应）进行一致且高效的估计。当前的成熟度较高：已有IPW、MI和DR三类方法，但多数DR估计量计算昂贵、不便于后续的推断性分析（如子组分析或时变协变量分析），且对非单调缺失的处理较少。
发展脉络（history）：该方向的奠基与进展可分为三个层次。
1. 奠基工作：单一模型方法 (IPW / MI / GEE)。最早的方法如Paik (1997) 的工作采用序贯回归插补缺失结果。但这些方法依赖于一个模型（缺失机制或结果模型）的正确设定，一旦模型错误设定则估计不一致。
2. 核心进展：双重稳健（DR）思想引入。2000年代中后期，Seaman & Vansteelandt (2018) 的综述系统地阐述DR方法——它将缺失机制模型与结果模型结合，在任一模型正确时即可保持一致估计，这一综述为该领域奠定了概念基础。Tsiatis, Davidian & Cao (2010) 则直接针对纵向dropout这一特例（单调coarsened数据），提出了一个改善性能的DR估计量，并指出已有DR估计量在两个模型均轻微误设时可能表现灾难性的问题。该文被本文作者定位为"改进DR性能"的关键工作。
3. 当前前沿与本文位置：近年来的工作在DR框架下转向更灵活的插补与计算效率。Qi Long et al. (2012) 提出了一种基于核权重的DR非参数多重插补，Hsu et al. (2015) 延续了这一思路，将核方法与DR结合。这些方法虽具DR性，但计算负担重（尤其需对每个缺失观测计算核权重）。Xu et al. (2018) 开发了R包wgeesel，将WGEE与DR GEE的模型选择整合进来，聚焦于工具性而非方法论突破。 本文的位置：作者声称要填补一个缺口——已有的DR估计量（如Tsiatis的）在估计后需要为每个不同的目标参数重新跑一遍整个估计流程，且不自然地处理时变协变量。本文提出的DR插补框架先把缺失数据一次性地插补成完整数据集，之后任何想分析的模型（均值、子组、交互项）都可以用这个插补后的数据直接丢进标准软件求解，从而大幅降低计算负担，并允许方便的模型诊断。这是对现有方法的计算-实用性改进。
子线索聚类：被引文献大致落在三条子线索上：
- 子线索A：经典DR估计 (Tsiatis et al., 2010; 被本文在intro中作为背景引用)。核心是构造一个估计方程，结合结果模型与缺失模型。通常需要求解复杂的联合估计方程。
- 子线索B：DR多重/非参数插补 (Qi Long et al., 2012; Hsu et al., 2015)。强调用核/非参数方法建立插补集，但核权重的计算对高维协变量敏感，且插补过程本身不生成可复用的完整数据集。
- 子线索C：实用化/软件化 (Xu et al., 2018; Seaman & Vansteelandt, 2018综述)。侧重GEE框架下的DR实现与模型选择。本文属于这个子线索的延伸。
这个方向在追问的核心问题（2-4个）：
1. 双重稳健性的代价：DR的"双重稳健"在有限样本下（尤其两个模型都轻微误设）表现如何？Tsiatis等已提出过灾难性案例，但尚无统一理论刻画。
2. 计算效率 vs. 统计效率的权衡：能否在不牺牲太多统计效率的情况下大幅简化DR估计量的计算？特别是当研究者需要对同一个纵向数据集做多种不同的分析时（如子组分析、交互效应）。
3. 处理更复杂的效应（如时变协变量）：多数DR方法天然设计用于估计边际均值，对时间-处理交互这类时变参数的估计不够直接。
4. 对非单调缺失的推广：当前文献主要集中于单调缺失（即一旦缺失就不再出现），对更一般的非单调（如事后回到研究）缺失处理较少，且往往需要更强的假设。
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）： 作者把缺口 frame 成：① 已有DR方法在估计后不能"一次插补，多次使用"；② 计算负担大；③ 难以处理时变协变量。因此他们提出的框架是"显然的下一步"——一种更实用、计算更经济的DR方法。 被淡化或回避的竞争路线：
- 作者将AIPW-S视为其核心贡献，但未深入分析其效率损失的具体上界。他们只是提到"以一定的效率损失为代价"，并未尝试用半参效率界量化这一损失。
- 被淡化：多重插补（MI）在MAR下的广泛使用及其在大多数标准软件中的简易性。作者承认MI是流行的，但指出它需要敏感度分析或依赖强假设（如因变量正态）。然而，他们提出的方法也依赖自己的强假设（如AIPW-S的联合正态）。
- 回避：对非单调缺失（intermittent missingness）问题未作任何处理或讨论。框架只针对单调缺失。 什么明显该被引 / 该存在、却没出现在 intro 里？
- 该文未引用Robins, Rotnitzky, & Zhao (1995) 关于纵向数据半参数效率界和AIPW的奠基性论文。作为AIPW在纵向dropout上的应用，这是明显的遗漏。
- 也未引用Van der Laan & Robins (2003)《Unified Methods for Censored Longitudinal Data and Causality》，该书系统地统一了半参数方法，是本领域重要的综述/专著。
张力：未见明显对立引用。多数文献（Tsiatis, Qi Long, Hsu）一致认为DR在理论上是稳健的，但Tsiatis (2010) 特别提出了"两个模型均误设时灾难性"这个警告，这与其他文献（如Seaman）中"DR更稳健"的说法形成了微妙的张力——这种张力也是本领域仍在活跃研究的焦点之一。本文由于本质上提供的是一种计算捷径，并未直面这个张力，而是假设至少有一个模型是近似正确的。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1, \dots, n \)：个体编号。
- \( t = 0, 1, \dots, T \)：计划观测的时间点（包括基线 \( t=0 \)）。
- \( Y_t \)：在第 \( t \) 个时间点的结果变量（如ADAS-Cog评分）。\( Y_0 \) 是基线，总是观测到的。
- \( X_t \)：在第 \( t \) 个时间点的协变量向量，可能包括时变变量（如药量）和基线变量。\( X_0 \) 是基线协变量。
- \( R_t \)：缺失指示变量。\( R_t = 1 \) 表示在第 \( t \) 个时间点仍留在研究中（即 \( Y_t \) 被观测）；\( R_t = 0 \) 表示在第 \( t \) 个时间点之前已退出（dropout）。由于是单调缺失，一旦 \( R_t = 0 \)，则对所有 \( s > t \) 有 \( R_s = 0 \)。且 \( R_0 = 1 \)（基线全观测）。
- \( \mathcal{R}_i = (R_{i0}, \dots, R_{iT}) \)：个体 \( i \) 的完整缺失模式。
- \( \bar{Y}_t = (Y_0, \dots, Y_t) \)：截止到时间 \( t \) 的历史观测结果。
- \( \bar{X}_t = (X_0, \dots, X_t) \)：截止到时间 \( t \) 的协变量历史。
- \( \pi_t(\bar{X}_t, \bar{Y}_{t-1}) = P(R_{t}=1 | R_{t-1}=1, \bar{X}_t, \bar{Y}_{t-1}) \)：在给定过去所有可观测信息（直到 \( t-1 \) 的结果与直到 \( t \) 的协变量）的条件下，个体在时间 \( t \) 仍留在研究中的倾向（propensity）概率。
- \( \theta \)：感兴趣的有限维参数向量。例如，一个包含基线、时间和处理组的线性混合模型中的回归系数。
- \( \beta \)：特指 \( \theta \) 中与结果均值模型相关的部分，例如 \( E[Y_t | X_t; \beta] \)。
- \( \alpha \)：特指 \( \theta \) 中控制缺失机制的模型参数，例如 \( \logit(\pi_t) = \bar{X}_t' \alpha_1 + \bar{Y}_{t-1}' \alpha_2 \)。
模型（数据生成机制 / 统计模型）：
- 缺失机制（MAR假设）：在给定历史观测数据的情况下，个体的退出概率是条件独立的未来结果：\( P(R_t=1 | R_{t-1}=1, \bar{X}_t, \bar{Y}_{t-1}, \bar{Y}_T) = P(R_t=1 | R_{t-1}=1, \bar{X}_t, \bar{Y}_{t-1}) \)。这是缺失随机（MAR） 的版本，即缺失只依赖于已观测到的数据。缺失机制由参数模型 \( \pi_t(\bar{X}_t, \bar{Y}_{t-1}; \alpha) \) 描述。
- 结果模型：假设存在一个条件分布 \( p(Y_t | \bar{Y}_{t-1}, \bar{X}_t; \beta) \) 或一个边际均值模型 \( E[Y_t | X_t; \beta] \)。
- 目标：估计 \( \beta \)（例如，处理效应随时间的变化，\( \beta_{time*trt} \)）。
可观测数据：对于个体 \( i \)，我们观测到 \( (Y_{i0}, Y_{i1}, \dots, Y_{iD_i}, X_{i0}, \dots, X_{iD_i}) \) 以及她的dropout时间 \( D_i \)（最后一个被观测的时间点），其中 \( D_i \in \{0, 1, \dots, T\} \)。对于 \( t > D_i \)，\( Y_{it} \) 和 \( X_{it} \) 都是缺失的；而对于 \( t \le D_i \)，我们观测到 \( Y_{it} \) 和 \( X_{it} \)。
- 我们能观测到的：每个个体的 dropout 时间 \( D_i \) 和直到那一点的完整路径 \( (Y_0, \dots, Y_{D_i}, X_0, \dots, X_{D_i}) \)。\( X_{D_i} \) 是在dropout瞬间观测到的时变协变量（比如停药前的用药情况）。
- 我们想要但观测不到的：\( Y_{it} \) 对于 \( t > D_i \)（即个体退出后的结果）。我们只能通过模型和假设来估计这些值。

第二步：讲最小内核——核心思想在一维特例中的体现¶

最简特例：假设 \( T=2 \)（只有基线 \( Y_0 \) 和时间点1的结果 \( Y_1 \)），无时变协变量（只有基线协变量 \( X \)）。目标是估计 \( \theta = E[Y_1] \)（时间点1的边际均值）。缺失是单调的，即有人可能在时间点1退出，观测不到 \( Y_1 \)。

想象两个模型： 1. 倾向性模型（Propensity Model）：\( \pi(X, Y_0; \alpha) = P(R_1=1 | X, Y_0) \)。我们设定一个logit模型：\( \text{logit}(\pi) = \alpha_0 + \alpha_1 X + \alpha_2 Y_0 \)。 2. 结果模型（Outcome Model）：\( m(X, Y_0; \beta) = E[Y_1 | X, Y_0] \)。我们设定一个线性模型：\( m = \beta_0 + \beta_1 X + \beta_2 Y_0 \)。

标准AIPW估计量（用来估计 \( E[Y_1] \)）实际上是：

\[\hat{\theta}_{AIPW} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{R_i Y_{1i}}{\hat{\pi_i}} + \left(1 - \frac{R_i}{\hat{\pi_i}}\right) \hat{m_i} \right]\]

这里 R_i 是 \( Y_1 \) 是否观测到的指示。关键在于：它无法直接复用为完整数据集。

本文最小内核：如何变成一个"完整数据集"：本文的核心想法是，我们不直接估计一个参数，而是为每个个体（无论其是否缺失）创造一个插补结果：

\[Y_{1i}^{imp} = \frac{R_i Y_{1i}}{\hat{\pi_i}} + \left(1 - \frac{R_i}{\hat{\pi_i}}\right) \hat{m_i}\]

对于已完成个体（\( R_i=1 \)）：\( Y_{1i}^{imp} = Y_{1i} / \hat{\pi_i} \)。这通常 > \( Y_1 \)，相当于用倾向性得分加权了观测值。对于缺失个体（\( R_i=0 \)）：\( Y_{1i}^{imp} = \hat{m_i} \)，即直接用结果模型预测的值。

这样一来，我们就得到了一个"完整"的数据集 \( (Y_{0i}, X_i, Y_{1i}^{imp}) \)。现在，想估计 \( \theta = E[Y_1] \) 的话，只需对这个完整数据集直接计算样本均值 \( \frac{1}{n} \sum_i Y_{1i}^{imp} \)——这就是AIPW估计量！并且，这个"完整数据集"可以直接丢进任何标准软件（如lm、glm）去估计更复杂的模型，比如 \( E[Y_1 | X] = \beta_0 + \beta_1 X \)，因为卡方检验、t检验等诊断工具都能直接应用。这就是可复用性的由来：一次插补，多次分析。

AIPW-S的差别：AIPW-S为了简化计算，不采用这种对角化加权，而是用一种更弱的、基于联合正态假设的序列方法（具体见第三节），从而避免了构建复杂的倾向性得分加权项，但代价是需要更强的假设（如 \( Y_t \) 联合正态）且效率降低。

三、这篇论文做了什么¶

三句话： ① 研究了纵向单调dropout下如何用一次插补、再用标准软件进行任意后续分析这一问题，核心是提供计算上经济的DR方法。② 核心工具是AIPW估计量的一个巧妙变形，将缺失数据点逐一插补成"扩展观测值"，从而生成一个可用于标准软件输出的"完整"数据集。③ 主要结论：提出了AIPW-I和AIPW-S两个估计量，分别对应不同的效率与计算复杂度的权衡，理论上证明了它们的一致性和双重稳健性；模拟与ADCS临床试验的实证分析验证了其在处理时变协变量（如时间×处理的交互项）和子组分析方面的实用性。
关键设定与假设：在第二节最小记号的基础上，这里补全或明确论文的完整设定和假设。
- 设定：
  - 目标：估计参数向量 \( \theta \)，其来自于一个"全数据模型" \( S(\theta) = 0 \) 的方程，该方程对完整数据是有效的（例如，一个线性混合效应模型的积分方程）。由于dropout导致 \( S(\theta) \) 的某些项缺失，不能直接求解。
  - 核心想法：基于观测数据与缺失模型，为每个个体 \( i \) 构造一套插补后的完整数据 \( Y_{i}^{imp} = (Y_{i0}, Y_{i1}^{imp}, \dots, Y_{iT}^{imp}) \)，然后代入 full_data_model 方程求解 \( \theta \) 的估计量，即 S(Y^{imp}; \hat{\theta}) = 0。这就把问题转化成了一个在完整数据上运行标准软件的问题。
- 假设（按重要性）：
  1. 缺失随机（MAR）：这是所有结果模型与IPW估计的基础假设，也是双重稳健性的前件。它要求给定已观测历史，缺失概率与未来结果条件独立。
  2. 模型设定正确：对于DR，两个模型（倾向模型 \( \pi_t \) 和结果模型 \( m_t \)）中至少有一个必须正确设定以获得一致性。本文所有证明都基于此。
  3. AIPW-S的额外假设：为简化计算，AIPW-S假设给定协变量和过去的结果后，未来结果是联合正态的（即 \( Y_t | \bar{Y}_{t-1}, \bar{X}_t \) 是正态的）。这使得其条件均值 \( m_t \) 的计算可以用线性回归一步完成，而无需复杂的迭代拟合。这是相比一般性的DR框架更强的一个假设。
  4. 非干预性：虽然文中未明确强调，但隐含设定了个体的潜在结果不受他人治疗或缺失影响的假设（即SUTVA）。
- 相比已有文献的放宽或强化：
  - 放宽：对结果模型和缺失模型的形式没有强加联合正态或线性假定（AIPW-I），只要求可计算。
  - 强化：AIPW-S要求了结果的条件联合正态。
主要结果：
- 结果1（定理1）：AIPW-I的一致性。在该估计量下，若倾向模型或结果模型至少一个正确，则 \( \hat{\theta}_{AIPW-I} \to \theta \) 强一致。这是标准DR性质在插补框架中的展现。
- 结果2（定理2）：AIPW-S的一致性。在更强的假设（未来结果联合正态）下，AIPW-S同样满足双重稳健。证明的关键在于，在这个附加的正态假设下，计算结果的条件均值 \( m_t \) 等同于直接对观测数据做线性回归，因而AIPW-S虽然在边际上需要更强的模型设定，但计算上等价于一次性的线性回归。
- 结果3（定理3, 4）：AIPW-I的渐近正态性。证明了 \( \sqrt{n}(\hat{\theta}_{AIPW-I} - \theta) \to N(0, \Sigma) \)。推断时，方差 \( \Sigma \) 可通过sandwich estimator基于插补后的完整数据计算。
- 效率 vs. 计算：模拟结果显示，AIPW-S的估计量的方差通常大于AIPW-I（即效率损失）。AIPW-I在计算上略耗费（需正确定核权重），但AIPW-S可以几乎秒级完成大规模面板数据的估计，特别适合频繁的子组分析。
证明路线与技术技巧（理论型）：
- 整体路线（以AIPW-I为例，3步逻辑主干）：
  1. 构建AIPW插补：基于倾向得分 \( \hat{\pi}_t \) 和条件结果均值 \( \hat{m}_t \)（用核回归估计 \( m_t \)），构造插补值 \( Y_{t}^{imp} = (R_t / \hat{\pi}_t) Y_t + (1 - R_t / \hat{\pi}_t) \hat{m}_t \)。这一步是关键，它保留了AIPW的DR结构。
  2. 建立SCORE方程：对插补后的完整数据，定义一个基于观测但经过DR校正的score方程。并不是直接对插补数据做最大似然，而是构造一个估计方程，其解正好是AIPW估计量。
  3. 应用M-估计理论：证明这个估计方程的解是相合和渐近正态的。证明依赖于传统的M-估计理论（稳健方差估计），利用了大数定律和中心极限定理在M-估计（此处经过插补校正的估计方程）下的标准结论，再结合DR性质通过系列引理验证该方程的无偏性。由于双稳健性，即使一个模型误设，估计方程仍然无偏。
- 关键跳跃点：
  - 跳跃点：核心难点在于证明插补后的估计方程确实保持了无偏性，即 \( E[ \text{插补后的score方程} ] = 0 \)。由于插补本身是\( Y_{1}^{imp} \)的函数，它改变了分布。论文通过标准矩条件证明了这个E[.]=0，即通过总期望律。
  - 解决方式：论文详细检查了\( Y_{1}^{imp} \)的边际分布，证明其在双重稳健性下恰好是期望的结果，这就使得E[Y_{1}^{imp} | X]在MAR下等于\( E[Y_1 | X] \)。钟摆回到经典结果。
- 技术技巧点名：
  - 核回归（Kernel Regression）：用于估计\( m_t \)和\( \pi_t \)（AIPW-I）。这使得\( m_t \)可以是非参数的。
  - M-估计理论（M-estimation Theory）：整体证明框架是标准的M-估计理论。
  - Sandwich Estimator（杠杠估计）：用于推断的方差估计。
  - AIPW-S的线性代数捷径：其在联合正态假设下，未来条件均值可以用线性回归一步计算，无需求解非线性方程或进行核加权。
真实例子与应用：
- 使用的数据 / 场景：使用了阿尔茨海默病合作研究（ADCS）的多奈哌齐（donepezil）III期随机临床试验数据。这是一个单变量纵向结局（对认知功能的evaluation）。
- 怎么把方法用上去：
  1. 研究者已有对ADAS-cog（认知评分）的重复测量，但许多病人在后期dropout（因住进疗养院、死亡等）。
  2. 他们用AIPW-I和AIPW-S插补dropout后的评分。倾向模型：包含基线协变量和既往ADAS-Cog评分；结果模型：包含处理组、时间以及处理×时间交互项。
  3. 插补后，直接对插补后的"完整"数据运行线性混合效应模型（LMM）。
- 得到什么结果：
  - AIPW-I和AIPW-S得到的处理效应（donepezil vs. placebo）随时间下降的结论与完整的随机化/ANOVA分析一致，但置信区间通过DR插补变得更窄（即更高效）。
  - 最关键的是，他们能自然估计随时间变化的处理效应（时间×处理交互），并且通过插补后的数据直接做了子组分析（如基线严重程度亚组）。
  - 这个例子想说明什么： ① 验证了理论：DR插补得到的结论与传统的mITT分析（全分析集）定性一致，但效率更高。 ② 展示了实用性：一次插补即可输出完整的"完整数据集"；研究者无需自己实现复杂DR算法，只需将插补后的数据丢进标准LMM软件即可做各种提问（交互项、子组等）。这正是论文的核心论点。
🔎 结论是否比证明窄：
- 论文声称AIPW-S"具有显著减少的计算负担……以牺牲一些效率和需要更强的假设为代价"。但证明部分只证明了在联合正态假设下的相合性，并未量化效率损失的具体大小或上界。结论比证明更宽：效率损失的陈述是基于模拟，而非理论证明。读者需要自己核对文中具体的定理与模拟结果的覆盖范围。
- 此外，论文结论中"提高了对子组分析的一致性"是一个通用声明，但其证明仅在估计总参数（如边际均值）的框架内做了形式化。对子组分析的一致性和效率提升本质上是依赖于"插补值是正确的"这一假设，而不是有额外的定理支持。

四、开放问题（点到为止，扎根具体语句）¶

量化AIPW-S的效率损失：论文结论称AIPW-S"以牺牲一定效率为代价"，但这个代价是多少？是否存在一个确切的半参效率下界与AIPW-S实际渐近方差的比较？扎根于论文定理2和定理3的陈述，它们只证明了一致性但未给出效率损失的具体解析表达式或最优性条件。可行性：立即可做。只需计算在联合高斯-线性设定下，AIPW-S的渐近方差与标准半参有效下界的差值，给出显式界。
时变协变量的完全理论：论文在模拟中展示了处理\( \text{time} \times \text{treatment} \)交互项的能力，但定理的重心仍是估计不变参数。理论是否可以扩展到估计随时间变化的函数（如treatment effect curve）？扎根于论文中定理的假设条件，它们的"theta"仍是一个固定维度的有限向量，而非泛函。游刃有余：将此框架与半参数理论结合，允许theta是无限维。
与Higher-Order Influence Functions (HOIF)的结合：本文使用的是标准的一阶AIPW。如果研究者希望进一步校正因模型误设导致的残余偏差或超越\(\sqrt{n}\) 收敛，是否可以将HOIF的更高阶校正项嵌入到插补过程中？扎根于本文的一个未开发点——它只声称"双重稳健"，但更高阶的稳健性（如triple robustness）并未被探索。可做：这需要HOIF知识与本框架的嫁接，算中等难度。
对非单调缺失的计算-统计权衡：方法完全基于单调缺失。研究能否将AIPW-I的计算结构（无需迭代）的优势推广到非单调缺失或更一般的数据缺失模式？扎根于论文的局限性陈述（通常只在"总结"中提及单调性限制）。需要确认这个缺口是否真的开放（读约5篇近期的缺失数据综述）。

Maintained by 陈星宇 · Homepage · Source on GitHub