Mind the Gap: Addressing Missing Person Time When Estimating Outcome Incidence in Longitudinal Data¶

作者: Jacqueline E. Rudolph, Rachael K. Ross, Lauren C. Zalla, Shruti H. Mehta, Gregory D. Kirk et al.
来源: Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001958

一、领域脉络与小综述¶

这个方向是什么¶

本方向聚焦于纵向数据中因访视缺失、失访或中途退出造成的观测空白期的处理。在流行病学队列研究中，研究对象常在部分访视随访中未到场（间歇性缺失）或彻底失访，导致其健康结局在未观测时段内的发生时间/状态不明。核心统计问题是：当用这类不完整数据估计结局发生率（如风险、率、发病率）时，不同处理策略（删失、近事结转、逆概率加权、多重插补）在何种缺失机制下产生偏倚、偏倚多大、精度如何？这是一个偏向方法评估与比较的子领域，而非提出全新识别或估计理论。

发展脉络（history）¶

根据原文引言及参考文献，可按时间线梳理：

奠基工作（缺失数据分类学与标准方法）： - Rubin (1976)：提出缺失数据的经典分类（MCAR, MAR, MNAR），成为后续所有方法设计的理论基础。本文所有情景的缺失机制均以此分类为基础：独立缺失=MCAR；基线共同原因=MAR；时变共同原因=MAR（若纳入时变混杂）；结局影响未来缺失=MNAR。 - Robins, Rotnitzky, & Zhao (1995) 和 Robins & Finkelstein (2000)：提出逆概率删失加权（IPCW）处理纵向数据中的选择偏倚，将数据缺失视为一种删失机制，通过估计"被观测的可能性的倒数"对观测样本加权。本文的核心比较方法——IPCW——直接源于此。 - Cole & Hernán (2008)：在应用流行病学期刊上系统梳理了IPCW的实现步骤（定义删失、建模缺失概率、计算权重、加权估计），提供了标准实践指南。

主要进展——针对不同缺失模式的专门方法： - SAS Institute (2011)：商业软件中的多重插补（MI）程序成为缺失数据处理的"默认"方法。MI假定观测数据联合分布可建模（通常为 MAR + 正态性），将缺失值视为随机量，用贝叶斯方法填补多次，然后合并估计。 - Pullenayegum & Lim (2016) 和 Gromer et al. (2019)：讨论观测权重（inverse probability of observation weights, IPOW）的一种变体。与IPCW将缺失视为一次性删失不同， IPOW为每一次观察机会都赋予一个权重，允许个体在缺失后重新进入分析。这反映了实践中常见但理论上存疑的"允许返回"操作。 - Bristol et al. (2021)：讨论了假设检验在理解数据缺失机制中的作用——何种辅助分析可以帮助判断缺失是否"完全随机"。

当前 frontier： - 已有研究多聚焦于单一缺失模式（仅失访或仅间歇性缺失），或仅考虑连续监测的队列（如电子健康档案每个时刻都有记录）。但对于离散访视设计（如同定间隔的临床随访队列）且同时包含间歇性缺失与失访的数据，不同方法的相对表现在模拟研究中缺乏系统对比。 - 对结果类型（短暂、重复、永久） 如何影响方法偏倚的讨论几乎空白。

本文的位置：本文填补了上述模拟比较空白——在单一模拟框架下系统比较了四种缺失机制 × 四种处理策略（粗分析 + 删失、IPCW、IPOW、MI）× 三种结局类型，发现"允许返回"的粗分析在MCAR下即有偏，并推荐IPC加权或MI（MI更精确），而IPOW在永久结局下偏倚严重。这是一个实证导向的方法选择指导性论文。

子线索聚类¶

这些被引文献大致落在三条子线索上：

缺失数据处理的标准方法簇（Rubin, Cole & Hernán, SAS Institute）：聚焦于缺失数据的分类、加权（IPCW）及插补（MI）的基本理论与应用指南。这些是本文比较方法的"基准"与"工具箱"，不是本文创新的对象，而是被评估的对象。
针对纵向数据特定缺失模式的专门研究簇（Pullenayegum & Lim, Gromer et al.）：专门探讨观测权重的定义及其在"允许缺失后返回"设定下的表现。这些工作构成了本文"允许返回"粗分析及IPOW方法的理论基础，并暗示了这一做法可能带来的问题。
缺失机制检验与敏感性分析簇（Bristol et al.）：关注如何实证地判断缺失是否满足MCAR/MAR，为本文的敏感性分析（如情景4 结局影响缺失 = MNAR）提供了方法论背景。

核心追问¶

四种缺失机制（MCAR, MAR [基线/时变共同原因], MNAR）各自如何影响不同处理策略下的一阶偏倚？
对于短暂、重复、永久三种结局类型，上述偏倚模式是否一致？
在实际有限样本下（N=1000, 10次访视），不同方法的精度如何？

已知瓶颈：大多数关于缺失数据方法的理论结果（如无偏性、渐近正态性）依赖于特定的缺失机制（通常是MCAR或MAR）和模型正确说明；在实践中的数据可能同时包含间歇性缺失和失访、缺失机制可能随结局变化。理论无法覆盖所有真实场景——因此模拟比较成为必要。

⚠️ 作者的 framing（必须明确标注）¶

作者把缺口 frame 成："粗方法允许缺失后返回（例如，一个女性在访视1后缺失3次，第5次回来时被重新纳入风险集）是常见的做法，但这会引入偏倚——甚至在MCAR下也是如此。而IPCW和多重插补可以避免，但它们在多种结局类型和缺失机制下的相对表现尚未在单一模拟框架下被比较。"

竞争路线被淡化或回避：作者承认IPOW（观测权重）是"允许返回"的一种"调整"版本，并发现它在永久结局下有偏，但未深入讨论其原因（IPOW本质上是对每次观测的"到场"赋权，对同一个体多次赋权可能与永久结局的风险估计不兼容）。未被严格讨论的路线包括：基于似然的完整数据方法（如线性混合模型、生存模型的极大似然估计——当缺失为MAR时也能产生无偏估计，但需要正确的分布假设）以及基于GPU/现代计算的大规模推断方法。
什么明显该被引/该存在、却没出现在intro里？：
缺失数据的经典文献中，对"允许返回"之后的分析理论（如对风险集定义的偏倚影响）的正式讨论在时间事件分析中已被多次提及，如Klein & Moeschberger (2003) 的《生存分析》中对"late entry"与"return to risk set"的讨论。本文可能因篇幅限制或侧重流行病学科普受众而未引用，但这可能是探索"允许返回偏倚理论"的一个入口。
对多重插补与逆概率加权在缺失数据随机化试验中的对比性模拟工作（如Molenberghs et al. 2006, 2011）也未提及。

张力¶

被引的工作之间未见明显对立引用，但存在一种"方法论同领域内的焦点转移"：从20世纪末的缺失机制分类学和删失加权（Robins）转向21世纪的倍偿性插入（mi）和允许返回（integer/观测权重）。未见明确的矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \( i = 1,...,N \) ：研究对象索引， \( N = 1000 \) 。 - \( t = 1,...,T \) ：访视时间点， \( T=10 \) （假设每个时间点固定有访视机会）。 - \( Y_{it} \) ：个体 \( i \) 在访视 \( t \) 的结局状态（0=未发生，1=已发生）。注意，结局是"事件是否已经发生"的指示，一旦发生，该个体通常退出风险集。定义了三种结局： - 短暂：事件可以发生多次（如感冒发作），所以 \( Y_{it} \) 可回到0。 - 重复：事件易复发，但每次发作标记为独立事件（类似计数过程）；作者文中用"次"表示，实际模拟中每次事件后个体依然在风险集里。 - 永久：一旦发生（如死亡、确诊某病），后续再也回零（即标志从那时起致病率增加）。 - \( R_{it} \) ：个体 \( i \) 在访视 \( t \) 是否被观测到（1=是，0=否）。这是缺失指示。 - \( C_i \) ：个体是否被删失（1=是，即最后一次观测后不再观测；0=否）。用于IPCW。 - \( X \) 与 \( Z_t \) ：基线协变量（性别、年龄）与时变协变量（健康状况）——仅用作共同原因，不影响最终估计的目标参数。

模型（数据生成机制）： - 用逻辑回归生成模拟：给定 \( i \) 的完整数据路径（基线 \( X \) ，各期 \( Z_t \)），结局 \( Y_{it} \) 从 logistic 风险模型中产生。缺失指示 \( R_{it} \) 的生成依赖于四种机制： 1. 独立缺失（MCAR）：\( R_{it} \) 与 \( Y_{it} \) 完全独立，类似随机丢失； 2. 基线共同原因（MAR，条件于基线）：\( R_{it} \) 仅与基线 \( X \) 有关； 3. 时变共同原因（MAR，条件于时变协变量）：\( R_{it} \) 与时变 \( Z_t \) 有关； 4. 结局影响后续缺失（MNAR）：\( R_{it} \) 依赖于 \( Y_{it-1} \) 或 \( Y_{it} \)。 - 无完整待估参数，相反，模拟产出时，每个个体有一个潜在的、完全已知的"真实"发生时间（模拟的样本量下可计算参照全数据集下的事件发生率）。

可观测数据： - 研究者实际能观测到的是每次访视 \( t \) 中到场个体的 \( Y_{it} \) 与协变量 \( X, Z_t \)。 - 不可观测的是在未到场访视时段里个体是否发生了事件（是否 \( Y_{it}=1 \) 且未观测到）。从数据记录来看，该时段完全空白。 - 此外，对于永久结局：一旦某个体在缺失时间段内首次发生事件，可观测数据无法知道是何时发生的——只会在下次访视时看到它"已发生"（"后效应"）。这是偏倚的源头之一。

第二步：讲最小内核——"如果个体在第3次访视缺失了，该如何估计人群风险？"¶

为了清晰展示核心问题，我们考虑一个最简单的设定： - 只有永久结局（例如死亡）。 - 只关注第5次访视的风险（在第5次访视当天前的概率）。 - 个体在时间点1,2,4被观测到，但时间点为"3"缺失。 - 预期：在第5次访视时，我们想知道风险集是哪些"仍存活"的人；但数据允许返回的粗法会把缺失前（时间2）还在风险集的个体（假设它活着）在时间3后直接放入风险集——这样，个体时间3时可能死亡（但不能被观测到），便被"错误地"当做持续存活，直到时间5。 - 这直接导致：在时间3-5之间死亡的人数被低估，因此估计的发生率偏低（"被稀释"）。这个偏倚在永久结局下尤其严重。

最小内核的数学表述（省略真实人群细节）： - 设真实首事件发生时间 \( T_i^* \)。 - 观测到的删失/非删失指示：\( \delta_i = I( T_i^* \le C_i) \)，其中 \( C_i \) 是最后一次观测时间（创口）。 - 实际分析中，"允许返回"的粗法把缺失期间的个体加回风险集，相当于在条件于直到当前点之前是否被观测到——但不考虑缺失期间个体的"消失"。 - 这违反了"无信息删失"中的常见假设：即使缺失完全随机（MCAR），如果个体在缺失期间返回风险集，则其"在缺失期间没有死亡"这个信息实际上是从观测不到的路径里隐式借来的，从而直接扭曲风险集的构造。 - 本文核心发现：当 + Perm(run_in)，即使MCAR下也会导致偏倚。

三、这篇论文做了什么¶

三句话¶

① 研究了什么问题：比较了纵向数据中处理访视缺失/数据空白期的四种方法（粗分析、逆概率删失加权IPCW、逆概率观测加权IPOW、多重插补MI）在估计结果发生率时的偏倚与精度。
② 核心工具/方法：利用逻辑回归生成的模拟数据构建四种缺失机制 × 三种结局类型，采用标准流行病学风险/率估计量，并实现IPCW和MI的条件调整。
③ 主要结论：粗分析中允许个体在缺失后返回风险集会带来偏倚（即使是MCAR下）；IPCW和MI相对无偏（MI更精确）；IPOW在永久结局下偏倚且精度低于其他两者；推荐在纵向数据分析中避免"允许返回"的粗法，改用IPCW或MI。

关键设定与假设¶

数据生成机制：
- N=1000, T=10。
- 使用logistic回归生成结局和缺失指示。
分析策略：
- 定义了短期风险（首个事件的发生率，分别以transient/repeated/permanent三种模拟）则：
  1. 常用粗法（①单人-记录，允返；②单人-记录，删失）：不建模缺失，直接基于观测到的数据采样（不用加权）。
  2. IPCW：将缺失视为删失，用基于协变量的逻辑回归对删失概率建模，权重为删失概率倒数。
  3. IPOW：为每次访视的动态观测建模概率，赋权。
  4. MI：按多重插补（SAS Proc MI，m=5）直接插补缺失的结局变量（若此缺失为该时点以后的数据，则填补最近一次插值结果）。注意，在模拟中MI对间歇性缺失插补以下一次观测值作为条件？
假设：
- 对于IPCW和MI的"有效性"依赖于条件无偏性假设：
  - 给定观测的协变量（基线X + 时变Z_t_过去值），缺失的发生与未来结局独立（即条件不可忽略性，接近于MAR）。这是IPCW和MI获得无偏估计的理论基石。
- 本文为模拟研究，所以假设检验的是"如果真实缺失机制是MAR（如由时变协变量驱动），IPCW是否工作"，而非证明IPCW工作在任何真实数据中都。
- 假设模型正确设定：用于ipcw和mi的逻辑回归模型与真实数据生成机制一致。这是模拟的默认优势——它能评估在理想条件下方法的优越性。

主要结果¶

情景1（独立缺失，MCAR）：
- 粗法中的"允许返回"：短暂结局偏倚 ≈ +0.05（相对真值），重复 ≈ +0.02，永久 ≈ +0.12；（注：以"风险差"为单位；但原文中给出的偏差值的单位是"率差"——例如，对于永久结局，允许返回时偏倚高达5-12个百分点，可极大影响结论）。
- 粗法中的"删失"（缺失后剔除），不平等地删没了大量人群，但偏倚不大。
情景2-4：
- 所有粗法都存在偏倚（偏倚可达10-20个百分点），程度取决于缺失机制与结局类型的交互。
- IPCW和MI基本无偏（偏倚绝对值<0.01）。
- IPOW同样无偏（或偏倚很小）但精度最差（empirical standard error 较其他高约1.5-2倍，尤其是在永久结局+高缺失率下）。
精度（主要用empirical standard error）：
- MI几乎在所有情景下提供了最小的变动（比IPCW约小5-15%）。
- IPCW与MI接近但略差；IPOW明显更不精确（普遍为标准差的1.3 - 2.0倍）。

数值示例：在情景3（时变共同原因、短暂结局、允许返回的粗法估计的风险偏差为+0.063（即高估了约6.3%的累积风险），而IPCW和MI偏差均<0.001。

证明路线与技术技巧（本文无理论定理，故适用"方法/模拟路线"）¶

整体路线：
1. 数据生成：用逻辑回归生成一个包含1000个个体的10次访视的完整纵向数据集（包括所有结局、协变量、缺失指示）。
2. 施加缺失：依据4种机制给每个时间点打上"缺失与否"标签（删除了具体时段）。
3. 定义分析策略：对同一生成数据运行4种策略：
  - 粗法1（允许返回）：在删失前，为每个子集重新定义风险集；
  - 粗法2（删失后剔除）...
  - IPCW：基于现有协变量建模删失概率计算权重；
  - IPOW：基于每次观测建模到场概率；
  - MI：SAS PROC MI插补缺失的结局变量。
4. 估计针对每个缺失下的数据子集，做Kaplan-Meier（极简）/基于泊松或logistic回归估计每一类结局、特定时长风险差。
5. 重复1000次：比较偏倚（重复估计的平均值 - 完整数据的真实值）和empirical标准误。
关键跳跃点：在模拟设计上，为了保证不同的缺失机制在比较时是"公平"的，他们对所有机制的缺失概率进行了校准，使其在每个时间点上的总体缺失比例相同（观察数据缺失率近似）。否则，偏倚可能是缺失比重差异带来的。
技术技巧：
- 用同一套完整数据的"真实值"作为金标准。不是外部已知参数。
- 均衡缺失率：各机制的缺失率人为设为完全相等。

真实例子¶

本文没有真实数据应用。它完全基于模拟。作者明确说明目标是为应用流行病学家提供方法选择的模拟证据，因此未涉及真实数据。这是论文设计上的一个局限（亦可视为一个特点：纯度高的模拟研究）。

🔎 结论是否比证明窄？¶

是，存在结论泛化空间： - 例如，在摘要中明确"结果支持使用IPCW或MI"，但这取决于对模型正确设定的假设。作者在模拟中确保模型设置正确（logistic生成、logistic回归建模），因此在正文讨论中谨慎指出"需要小心模型设定"，但结论和图表中并未明确标记。本文的"无偏"仅在模型正确下的特定模拟参数下成立。 - 未讨论当缺失机制为MNAR（如结局影响缺失）时IPCW或MI的表现。作者承认这是未来工作。 - 对MI的精度提升未给出理论解释（如为什么会比IPCW更精确），这在统计理论中实际上可解释：多重插补利用了联合分布的更强假设，更有效利用了数据。但本文只是呈现模拟现象。

四、开放问题¶

模型错误设定下的表现如何？：当用于IPCW或MI的预测模型错误（例如真实缺失机制依赖于未测量的混杂变量）时，它们在偏倚和精度上的降级程度如何？这直接关乎真实数据分析的鲁棒性。（扎根于正文讨论段："这些方法依赖于对缺失机制的正确建模，如果模型错误，结果可能会有偏"）。
真实数据验证缺失：能否用一例实际观测数据（例如典型HIV队列[如ALIVE]）复现模拟结论？即，在已知真实结局的（多次模拟+部分缺失）数据中验证IPCW/MI的表现？这可能揭示模型设定误差的实际影响（扎根于：引言中说明该研究跨越急性队列ALIVE的数据模式；但未实施这样的验证）。
对复杂缺失模式的统一方法：本研究限于4种分离的缺失机制。但实践中，缺失往往混合多种模式（间歇性+失访+MNAR+MAR共存）。是否可开发一种统一的半参数方法（例如，将状态转移模型与逆概率加权结合，或使用分层模型处理个体缺失轨迹？）本文作者在结论中留白 "未来工作应包括对更复杂情景的模拟"。
间歇性缺失数据的正式假设：在永久结局下，允许个体在缺失时段中途返回风险集的偏倚定性研究很欠缺。是否存在一种可以明确设立带有缺失时间窗口的无信息删失版本的条件（"未发生事件的时间在缺失时段内独立于未来"），使粗法无偏？这是经典的生存分析中"中空风险集"的无偏性条件，尚未形式化在本文类型的数据上。（根植于：文中多次强调"允许返回"的偏倚在没有协变量调整的MCAR下已经存在，但并未触碰其严格的条件性反例）。

Maintained by 陈星宇 · Homepage · Source on GitHub