Smoking hot joint models for attrition bias—XMAR-ks the spot¶

作者: Michael E Griswold, Ravi Varadhan
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwag063

一、领域脉络与小综述¶

这个方向是什么：纵向研究中，个体因死亡、疾病等事件退出研究（失访/删失），若退出原因与结局变量相关，则产生信息性删失，导致选择偏倚。这个子方向要解决的根本统计问题是：在存在信息性删失时，如何对纵向轨迹的参数（如吸烟对认知衰退的效应）进行识别与估计，以及如何量化识别假设（如XMAR）偏离对因果/关联估计的影响。当前该方向在方法学上已有成熟的联合模型框架，但对识别假设的脆弱性及敏感性分析的标准化仍处于探索阶段。

发展脉络： - 奠基工作：Rubin (1976) 提出了缺失数据分类体系（MCAR, MAR, MNAR），为后续所有缺失/删失机制讨论设定了术语基础。 - 主要进展：Wu & Carroll (1988) 及 Diggle & Kenward (1994) 将信息性删失参数化，引入了联合建模的思路；随后 Henderson et al. (2000) 与 Tsiatis & Davidian (2004) 将共享参数模型与生存-纵向联合模型系统化，成为处理信息性删失的主流参数化框架。 - 当前 frontier：近期文献（如 Stuckwisch et al. 2025）开始将联合模型应用于流行病学具体场景（吸烟与认知衰退），但对其核心识别假设的审视不足；本文作者 Griswold & Varadhan 则将焦点从“应用联合模型”转移到“解剖联合模型的识别假设（XMAR）”与“量化其偏离的敏感性分析”。 - 本文的位置：本文是对 Stuckwisch et al. (2025) 的评论/延伸，不提出新估计量，而是将联合模型的 XMAR 假设显式化，将其嵌入一个扩大的四层缺失分类体系，并演示序贯敏感性分析。

子线索聚类： 1. 缺失机制分类体系：从 Rubin 的三层（MCAR/MAR/MNAR）到本文提出的四层体系（加入 XMAR）。这一簇在做概念上的精细区分，试图厘清联合模型到底依赖哪种缺失机制。 2. 联合建模估计路线：从共享参数模型到生存-纵向联合模型。这一簇提供在特定参数化假设下的可行估计量，但识别条件常被隐含处理。 3. 敏感性分析路线：从局部敏感性分析到序贯敏感性分析。这一簇承认 MNAR/XMAR 不可检验，转而量化假设偏离对估计的影响。

这个方向在追问的核心问题： 1. 联合模型（JM）的识别到底依赖什么假设？XMAR 与传统 MAR/MNAR 的边界在哪？ 2. 当 XMAR 不成立时，目标参数（如吸烟效应）的偏倚有多大？如何系统性地量化这种偏倚？ 3. 在四层缺失分类体系下，不同层次之间的距离是否可被参数化并纳入敏感性分析？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：现有联合模型应用（如 Stuckwisch et al.）隐含依赖 XMAR 假设，但未显式讨论其性质与脆弱性；因此，显式化 XMAR 并提供敏感性分析是“显然的下一步”。 - 被淡化/回避的竞争路线：作者未讨论半参数/非参数方法对信息性删失的处理（如 Robins 的 g-formula 或 inverse probability weighting），也未提及不依赖 XMAR 的其他识别策略（如边际结构模型）。这些路线在因果推断文献中是主流，但在此处被忽略。 - 明显该被引却未出现的：Robins (1986) 关于因果推断中信息性删失的 g-computation；Robins, Rotnitzky & Zhao (1995) 关于信息性删失的半参数效率界与 IPW；Scharfstein et al. (2003) 关于 MNAR 的非参数敏感性分析。这些工作是讨论信息性删失识别与敏感性分析的基石，缺失它们意味着本文的视角高度局限于参数化联合模型圈子内。建议研究者去核查这些文献与本文 XMAR 框架的张力。

张力：未见明显对立引用。但存在隐含张力：联合模型圈子通常认为参数化 XMAR 是处理信息性删失的实用路径；而因果推断圈子（Robins 体系）则认为应尽量减少参数化假设，用 g-estimation 或 IPW 处理。两者在“多少参数化是必要的”上立场不同，本文未触及这一分歧。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Y_i(t)\)：个体 \(i\) 在时间 \(t\) 的纵向结局（如认知得分）。这是我们要估其轨迹的量。
\(T_i\)：个体 \(i\) 的删失时间（如死亡或痴呆诊断时间）。这是事件时间。
\(C_i\)：个体 \(i\) 的行政 censoring 时间（如研究结束时间），非信息性。
\(X_i\)：个体 \(i\) 的基线协变量（如吸烟状态、年龄、教育等）。
\(R_i(t) = I(T_i \geq t, C_i \geq t)\)：示性函数，个体 \(i\) 在时间 \(t\) 是否仍在研究中（可观测）。\(R_i(t)=1\) 表示未失访，\(R_i(t)=0\) 表示已因 \(T_i\) 或 \(C_i\) 退出。
\(Y_i^{obs}(t) = R_i(t) \cdot Y_i(t)\)：实际观测到的结局。当 \(R_i(t)=0\) 时，\(Y_i(t)\) 不可观测。
潜在（不可观测）量：当 \(R_i(t)=0\) 时的 \(Y_i(t)\)，以及 \(Y_i(t)\) 与 \(T_i\) 之间的依赖结构（只能靠假设识别）。
可观测数据：对每个个体 \(i\)，观测到 \(X_i\)，以及在 \(R_i(t)=1\) 的那些时间点上的 \(Y_i(t)\)，以及若 \(T_i \leq C_i\) 则观测到 \(T_i\)，否则只知 \(T_i > C_i\)。
目标参数：\(\beta\)（如吸烟对 \(Y_i(t)\) 变化速率的效应），通常嵌在纵向子模型的线性混合模型中：\(Y_i(t) = X_i \beta + b_i + \epsilon_i(t)\)，其中 \(b_i\) 为随机效应，\(\epsilon_i\) 为测量误差。
模型：联合模型由两个子模型构成：
纵向子模型：\(Y_i(t)\) 依赖 \(X_i, b_i\)。
生存子模型：\(T_i\) 依赖 \(X_i, b_i\)（通过关联参数 \(\alpha\) 连接：\(h(t | X_i, b_i) = h_0(t) \exp(X_i \gamma + \alpha W_i(b_i))\)，\(W_i\) 是 \(b_i\) 的函数）。
关联参数 \(\alpha\) 刻画信息性删失的强度：\(\alpha=0\) 则 \(T_i\) 与 \(Y_i\) 独立（非信息性），\(\alpha \neq 0\) 则存在信息性删失。
要估的对象：\(\beta, \gamma, \alpha, b_i\) 等。

第二步：最小内核——XMAR 假设与识别条件

剥掉所有参数化细节（具体分布、线性结构等），联合模型识别的核心数学条件是：

XMAR（Extended Missing At Random）假设：

\[Y_i(t) \perp R_i(t) \mid X_i, b_i\]

直觉：一旦你知道了个体 \(i\) 的基线协变量 \(X_i\) 和随机效应 \(b_i\)（即其潜在的纵向轨迹），那么他在时间 \(t\) 是否退出研究（\(R_i(t)\)）就不再提供关于他此时认知得分 \(Y_i(t)\) 的额外信息。换句话说，删失机制的所有信息性都被 \(b_i\) 捕获了。

为什么这是最小内核： - 若 XMAR 成立，则观测数据的似然可分解为纵向部分与生存部分的联合似然（通过 \(b_i\) 耦合），且不遗漏 \(Y_i\) 的信息，从而 \(\beta\) 可识别。 - 若 XMAR 不成立（即 \(Y_i(t)\) 与 \(R_i(t)\) 之间有超出 \(X_i, b_i\) 的直接依赖），则联合模型的似然分解失效，\(\beta\) 不可识别。 - 整篇论文的概念框架与敏感性分析都围绕这一条条件展开：XMAR 是什么、它在四层体系中处于哪一层、当它不成立时偏倚多大。

最简特例：设 \(d=1\)（单个时间点），只有两个时间点 \(t=0, 1\)。\(X_i\) 为二值（吸烟=1/不吸烟=0）。\(b_i\) 为一维随机效应。\(Y_i(1) = X_i \beta + b_i + \epsilon_i\)。\(T_i\) 依赖 \(b_i\)（\(\alpha \neq 0\)）。若个体在 \(t=1\) 前死亡（\(T_i < 1\)），则 \(Y_i(1)\) 不可观测。XMAR 说：\(Y_i(1) \perp I(T_i \geq 1) \mid X_i, b_i\)。在这个特例下，只要 \(\alpha\) 被正确建模且 \(b_i\) 被积分出来，\(\beta\) 可从观测数据识别。敏感性分析则问：若 \(Y_i(1)\) 与 \(I(T_i \geq 1)\) 之间还有超出 \(X_i, b_i\) 的残余依赖（参数化为 \(\delta\)），\(\beta\) 的估计偏倚随 \(\delta\) 变化多少？

三、这篇论文做了什么¶

三句话： ①研究了纵向研究中信息性删失（失访）下联合模型的识别假设（XMAR）的性质与脆弱性； ②核心工具是扩大的四层缺失分类体系与序贯敏感性分析； ③主要结论是：XMAR 是联合模型识别的关键条件，介于 MAR 与 MNAR 之间，且对 XMAR 的偏离必须通过敏感性分析量化，否则联合模型的估计可能仍有严重偏倚。

关键设定与假设： - 四层缺失分类体系（本文核心概念贡献）： 1. MCAR：\(R \perp (Y, X)\)。缺失完全随机。 2. MAR：\(Y \perp R \mid Y^{obs}, X\)。给定已观测的纵向数据和协变量，缺失不依赖未观测的值。这是标准纵向模型（如线性混合模型）的识别条件。 3. XMAR：\(Y \perp R \mid X, b\)。给定协变量和随机效应，缺失不依赖结局。这是联合模型的识别条件。作者强调：XMAR 不同于 MAR，因为 \(b\) 是不可观测的潜在变量；XMAR 也不同于无约束的 MNAR，因为它施加了条件独立性（只是条件集合包含了不可观测的 \(b\)）。 4. MNAR：缺失依赖未观测的值，且无法被任何可观测/潜在变量条件化掉。这是最坏情况，不可识别。 - XMAR 的统计含义：XMAR 假设信息性删失的所有“信息性”都被纵向轨迹的随机效应 \(b\) 捕获。若 \(\alpha=0\)（生存子模型不依赖 \(b\)），XMAR 退化为非信息性删失；若 \(\alpha \neq 0\) 且 XMAR 成立，则联合模型可识别；若 XMAR 不成立（存在残余依赖），则联合模型不可识别。 - 相比已有文献的定位：作者指出，传统文献常将联合模型归为“处理 MNAR”的方法，但这是不精确的——联合模型实际上假设了 XMAR（一种受约束的 MNAR），而非无约束的 MNAR。本文显式化了这一区分。

主要结果：本文为评论/方法阐述型文章，无定理，核心结果为概念框架与实证演示： 1. XMAR 的定位：XMAR 是 MAR 的扩展（条件集合从 \(Y^{obs}\) 变为 \(X, b\)），但仍是 MNAR 的特例（施加了条件独立性）。联合模型在 XMAR 下可识别，但在无约束 MNAR 下不可识别。 2. 序贯敏感性分析：作者演示了如何量化 XMAR 假设偏离对 \(\beta\) 估计的影响。步骤： - 先在 \(\alpha=0\)（非信息性删失）下估 \(\beta\)（标准线性混合模型）； - 逐步增加 \(\alpha\)（引入信息性删失，即向 XMAR 靠拢），观察 \(\beta\) 估计的变化； - 进一步引入 \(\delta\)（XMAR 的偏离参数，刻画 \(Y\) 与 \(R\) 之间超出 \(X, b\) 的残余依赖），观察 \(\beta\) 随 \(\delta\) 的变化。 - 这构成了从 MCAR → MAR → XMAR → MNAR 的序贯敏感性分析路径。 3. 实证结论：在吸烟与认知衰退数据上，从标准模型（假设 MAR/非信息性）到联合模型（假设 XMAR），\(\beta\) 的估计有变化；但对 XMAR 假设的偏离（\(\delta\)）仍可导致 \(\beta\) 的显著偏倚，说明联合模型不是“万能药”，敏感性分析是必备。

证明路线与技术技巧：本文无数学证明，但概念阐述有清晰逻辑路线： 1. 从 Rubin 三层体系出发，指出 MAR 在信息性删失下不成立。 2. 引入联合模型，指出其隐含假设是 XMAR，而非无约束 MNAR。 3. 构建四层体系（MCAR, MAR, XMAR, MNAR），将 XMAR 显式定位为 MAR 与 MNAR 之间的中间站。 4. 参数化偏离：用 \(\alpha\) 刻画从 MAR 到 XMAR 的距离，用 \(\delta\) 刻画从 XMAR 到 MNAR 的距离。 5. 序贯敏感性分析：在实证数据上沿 \(\alpha\) 和 \(\delta\) 的网格计算 \(\beta\) 的变化，展示偏倚的敏感度。

技术技巧点名： - 共享参数模型：用 \(b\) 作为纵向与生存子模型的共享参数，实现 XMAR 的参数化。 - 敏感性参数化：引入 \(\delta\) 刻画 XMAR 的偏离，属于局部/全局敏感性分析的参数化技巧（类似 Rotnitzky et al. 2001 的 MNAR 敏感性参数）。

真实例子与应用： - 数据：吸烟与认知衰退的纵向数据（具体数据集未在摘要中点名，但根据上下文应为 Atherosclerosis Risk in Communities (ARIC) 研究或类似流行病学队列），存在因痴呆和死亡导致的失访。 - 怎么用上去：对同一数据分别拟合标准线性混合模型（假设 MAR/非信息性）和联合模型（假设 XMAR），比较 \(\beta\) 估计；然后在联合模型上叠加 \(\delta\) 参数，进行序贯敏感性分析。 - 得到什么结果：联合模型的 \(\beta\) 估计与标准模型有差异，说明信息性删失确实存在（\(\alpha \neq 0\)）；但 \(\beta\) 对 \(\delta\) 的变化敏感，说明 XMAR 假设的偏离会导致偏倚。 - 想说明什么：联合模型可部分缓解信息性删失偏倚（相比完全忽略它），但不能消除偏倚（因为 XMAR 本身可能不成立）；敏感性分析是必要的。

🔎 结论是否比证明窄：本文为概念阐述与实证演示，无严格证明。但有一条隐含的 claim 需注意：作者声称联合模型在 XMAR 下可识别，但未给出严格证明（依赖参数化模型的似然可积性条件）。在半参数视角下，XMAR 的可识别性可能需要更强的条件（如 \(b\) 的分布可被参数化识别），这一点未被讨论。

四、开放问题（点到为止，扎根具体语句）¶

XMAR 的半参数可识别性：在非参数/半参数设定下（不假设 \(b\) 的分布形式），XMAR 是否仍足以识别 \(\beta\)？本文的讨论完全依赖参数化联合模型，未触及半参数识别条件。扎根点：作者将 XMAR 定义为 \(Y \perp R \mid X, b\)，但 \(b\) 是不可观测的潜在变量，其分布的识别在半参数设定下可能需要额外条件（参考 Robins et al. 1995 的讨论）。
\(\delta\) 的参数化选择与稳健性：本文用 \(\delta\) 刻画 XMAR 的偏离，但 \(\delta\) 的具体参数化形式（线性、非线性、加在哪个子模型上）会影响敏感性分析的结论。扎根点：作者演示了序贯敏感性分析，但未讨论不同 \(\delta\) 参数化对结论的稳健性。
与因果推断框架的对接：本文的 \(\beta\) 是纵向子模型的回归系数，而非因果效应；在信息性删失下，\(\beta\) 的因果解释需要额外的假设（如无未测混杂）。本文未讨论如何将 XMAR 与因果识别假设（如 sequential exchangeability）结合。扎根点：作者将问题 frame 为“选择偏倚”，但未引用因果推断文献（如 g-formula/IPW），留下概念对接的缺口。
缺失的引用与视角：本文未引用 Robins 体系的信息性删失文献（Robins 1986, Robins et al. 1995），这些文献提供了不依赖 XMAR 的识别策略与半参数效率界。扎根点：intro 中只有 Rubin (1976) 与联合模型文献，缺失因果推断路线的引用，可能反映了作者视角的局限——建议研究者去核查 Robins 体系与 XMAR 的关系。

Maintained by 陈星宇 · Homepage · Source on GitHub