Smoking hot joint models for attrition bias—XMAR-ks the spot¶
作者: Michael E Griswold, Ravi Varadhan
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwag063
一、领域脉络与小综述¶
这个方向是什么: 纵向研究中,个体因死亡、疾病等事件退出研究(失访/删失),若退出原因与结局变量相关,则产生信息性删失,导致选择偏倚。这个子方向要解决的根本统计问题是:在存在信息性删失时,如何对纵向轨迹的参数(如吸烟对认知衰退的效应)进行识别与估计,以及如何量化识别假设(如XMAR)偏离对因果/关联估计的影响。当前该方向在方法学上已有成熟的联合模型框架,但对识别假设的脆弱性及敏感性分析的标准化仍处于探索阶段。
发展脉络: - 奠基工作:Rubin (1976) 提出了缺失数据分类体系(MCAR, MAR, MNAR),为后续所有缺失/删失机制讨论设定了术语基础。 - 主要进展:Wu & Carroll (1988) 及 Diggle & Kenward (1994) 将信息性删失参数化,引入了联合建模的思路;随后 Henderson et al. (2000) 与 Tsiatis & Davidian (2004) 将共享参数模型与生存-纵向联合模型系统化,成为处理信息性删失的主流参数化框架。 - 当前 frontier:近期文献(如 Stuckwisch et al. 2025)开始将联合模型应用于流行病学具体场景(吸烟与认知衰退),但对其核心识别假设的审视不足;本文作者 Griswold & Varadhan 则将焦点从“应用联合模型”转移到“解剖联合模型的识别假设(XMAR)”与“量化其偏离的敏感性分析”。 - 本文的位置:本文是对 Stuckwisch et al. (2025) 的评论/延伸,不提出新估计量,而是将联合模型的 XMAR 假设显式化,将其嵌入一个扩大的四层缺失分类体系,并演示序贯敏感性分析。
子线索聚类: 1. 缺失机制分类体系:从 Rubin 的三层(MCAR/MAR/MNAR)到本文提出的四层体系(加入 XMAR)。这一簇在做概念上的精细区分,试图厘清联合模型到底依赖哪种缺失机制。 2. 联合建模估计路线:从共享参数模型到生存-纵向联合模型。这一簇提供在特定参数化假设下的可行估计量,但识别条件常被隐含处理。 3. 敏感性分析路线:从局部敏感性分析到序贯敏感性分析。这一簇承认 MNAR/XMAR 不可检验,转而量化假设偏离对估计的影响。
这个方向在追问的核心问题: 1. 联合模型(JM)的识别到底依赖什么假设?XMAR 与传统 MAR/MNAR 的边界在哪? 2. 当 XMAR 不成立时,目标参数(如吸烟效应)的偏倚有多大?如何系统性地量化这种偏倚? 3. 在四层缺失分类体系下,不同层次之间的距离是否可被参数化并纳入敏感性分析?
⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:现有联合模型应用(如 Stuckwisch et al.)隐含依赖 XMAR 假设,但未显式讨论其性质与脆弱性;因此,显式化 XMAR 并提供敏感性分析是“显然的下一步”。 - 被淡化/回避的竞争路线:作者未讨论半参数/非参数方法对信息性删失的处理(如 Robins 的 g-formula 或 inverse probability weighting),也未提及不依赖 XMAR 的其他识别策略(如边际结构模型)。这些路线在因果推断文献中是主流,但在此处被忽略。 - 明显该被引却未出现的:Robins (1986) 关于因果推断中信息性删失的 g-computation;Robins, Rotnitzky & Zhao (1995) 关于信息性删失的半参数效率界与 IPW;Scharfstein et al. (2003) 关于 MNAR 的非参数敏感性分析。这些工作是讨论信息性删失识别与敏感性分析的基石,缺失它们意味着本文的视角高度局限于参数化联合模型圈子内。建议研究者去核查这些文献与本文 XMAR 框架的张力。
张力: 未见明显对立引用。但存在隐含张力:联合模型圈子通常认为参数化 XMAR 是处理信息性删失的实用路径;而因果推断圈子(Robins 体系)则认为应尽量减少参数化假设,用 g-estimation 或 IPW 处理。两者在“多少参数化是必要的”上立场不同,本文未触及这一分歧。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Y_i(t)\):个体 \(i\) 在时间 \(t\) 的纵向结局(如认知得分)。这是我们要估其轨迹的量。
- \(T_i\):个体 \(i\) 的删失时间(如死亡或痴呆诊断时间)。这是事件时间。
- \(C_i\):个体 \(i\) 的行政 censoring 时间(如研究结束时间),非信息性。
- \(X_i\):个体 \(i\) 的基线协变量(如吸烟状态、年龄、教育等)。
- \(R_i(t) = I(T_i \geq t, C_i \geq t)\):示性函数,个体 \(i\) 在时间 \(t\) 是否仍在研究中(可观测)。\(R_i(t)=1\) 表示未失访,\(R_i(t)=0\) 表示已因 \(T_i\) 或 \(C_i\) 退出。
- \(Y_i^{obs}(t) = R_i(t) \cdot Y_i(t)\):实际观测到的结局。当 \(R_i(t)=0\) 时,\(Y_i(t)\) 不可观测。
- 潜在(不可观测)量:当 \(R_i(t)=0\) 时的 \(Y_i(t)\),以及 \(Y_i(t)\) 与 \(T_i\) 之间的依赖结构(只能靠假设识别)。
- 可观测数据:对每个个体 \(i\),观测到 \(X_i\),以及在 \(R_i(t)=1\) 的那些时间点上的 \(Y_i(t)\),以及若 \(T_i \leq C_i\) 则观测到 \(T_i\),否则只知 \(T_i > C_i\)。
- 目标参数:\(\beta\)(如吸烟对 \(Y_i(t)\) 变化速率的效应),通常嵌在纵向子模型的线性混合模型中:\(Y_i(t) = X_i \beta + b_i + \epsilon_i(t)\),其中 \(b_i\) 为随机效应,\(\epsilon_i\) 为测量误差。
- 模型:联合模型由两个子模型构成:
- 纵向子模型:\(Y_i(t)\) 依赖 \(X_i, b_i\)。
- 生存子模型:\(T_i\) 依赖 \(X_i, b_i\)(通过关联参数 \(\alpha\) 连接:\(h(t | X_i, b_i) = h_0(t) \exp(X_i \gamma + \alpha W_i(b_i))\),\(W_i\) 是 \(b_i\) 的函数)。
- 关联参数 \(\alpha\) 刻画信息性删失的强度:\(\alpha=0\) 则 \(T_i\) 与 \(Y_i\) 独立(非信息性),\(\alpha \neq 0\) 则存在信息性删失。
- 要估的对象:\(\beta, \gamma, \alpha, b_i\) 等。
第二步:最小内核——XMAR 假设与识别条件
剥掉所有参数化细节(具体分布、线性结构等),联合模型识别的核心数学条件是:
XMAR(Extended Missing At Random)假设:
直觉:一旦你知道了个体 \(i\) 的基线协变量 \(X_i\) 和随机效应 \(b_i\)(即其潜在的纵向轨迹),那么他在时间 \(t\) 是否退出研究(\(R_i(t)\))就不再提供关于他此时认知得分 \(Y_i(t)\) 的额外信息。换句话说,删失机制的所有信息性都被 \(b_i\) 捕获了。
为什么这是最小内核: - 若 XMAR 成立,则观测数据的似然可分解为纵向部分与生存部分的联合似然(通过 \(b_i\) 耦合),且不遗漏 \(Y_i\) 的信息,从而 \(\beta\) 可识别。 - 若 XMAR 不成立(即 \(Y_i(t)\) 与 \(R_i(t)\) 之间有超出 \(X_i, b_i\) 的直接依赖),则联合模型的似然分解失效,\(\beta\) 不可识别。 - 整篇论文的概念框架与敏感性分析都围绕这一条条件展开:XMAR 是什么、它在四层体系中处于哪一层、当它不成立时偏倚多大。
最简特例: 设 \(d=1\)(单个时间点),只有两个时间点 \(t=0, 1\)。\(X_i\) 为二值(吸烟=1/不吸烟=0)。\(b_i\) 为一维随机效应。\(Y_i(1) = X_i \beta + b_i + \epsilon_i\)。\(T_i\) 依赖 \(b_i\)(\(\alpha \neq 0\))。若个体在 \(t=1\) 前死亡(\(T_i < 1\)),则 \(Y_i(1)\) 不可观测。XMAR 说:\(Y_i(1) \perp I(T_i \geq 1) \mid X_i, b_i\)。在这个特例下,只要 \(\alpha\) 被正确建模且 \(b_i\) 被积分出来,\(\beta\) 可从观测数据识别。敏感性分析则问:若 \(Y_i(1)\) 与 \(I(T_i \geq 1)\) 之间还有超出 \(X_i, b_i\) 的残余依赖(参数化为 \(\delta\)),\(\beta\) 的估计偏倚随 \(\delta\) 变化多少?
三、这篇论文做了什么¶
三句话: ①研究了纵向研究中信息性删失(失访)下联合模型的识别假设(XMAR)的性质与脆弱性; ②核心工具是扩大的四层缺失分类体系与序贯敏感性分析; ③主要结论是:XMAR 是联合模型识别的关键条件,介于 MAR 与 MNAR 之间,且对 XMAR 的偏离必须通过敏感性分析量化,否则联合模型的估计可能仍有严重偏倚。
关键设定与假设: - 四层缺失分类体系(本文核心概念贡献): 1. MCAR:\(R \perp (Y, X)\)。缺失完全随机。 2. MAR:\(Y \perp R \mid Y^{obs}, X\)。给定已观测的纵向数据和协变量,缺失不依赖未观测的值。这是标准纵向模型(如线性混合模型)的识别条件。 3. XMAR:\(Y \perp R \mid X, b\)。给定协变量和随机效应,缺失不依赖结局。这是联合模型的识别条件。作者强调:XMAR 不同于 MAR,因为 \(b\) 是不可观测的潜在变量;XMAR 也不同于无约束的 MNAR,因为它施加了条件独立性(只是条件集合包含了不可观测的 \(b\))。 4. MNAR:缺失依赖未观测的值,且无法被任何可观测/潜在变量条件化掉。这是最坏情况,不可识别。 - XMAR 的统计含义:XMAR 假设信息性删失的所有“信息性”都被纵向轨迹的随机效应 \(b\) 捕获。若 \(\alpha=0\)(生存子模型不依赖 \(b\)),XMAR 退化为非信息性删失;若 \(\alpha \neq 0\) 且 XMAR 成立,则联合模型可识别;若 XMAR 不成立(存在残余依赖),则联合模型不可识别。 - 相比已有文献的定位:作者指出,传统文献常将联合模型归为“处理 MNAR”的方法,但这是不精确的——联合模型实际上假设了 XMAR(一种受约束的 MNAR),而非无约束的 MNAR。本文显式化了这一区分。
主要结果: 本文为评论/方法阐述型文章,无定理,核心结果为概念框架与实证演示: 1. XMAR 的定位:XMAR 是 MAR 的扩展(条件集合从 \(Y^{obs}\) 变为 \(X, b\)),但仍是 MNAR 的特例(施加了条件独立性)。联合模型在 XMAR 下可识别,但在无约束 MNAR 下不可识别。 2. 序贯敏感性分析:作者演示了如何量化 XMAR 假设偏离对 \(\beta\) 估计的影响。步骤: - 先在 \(\alpha=0\)(非信息性删失)下估 \(\beta\)(标准线性混合模型); - 逐步增加 \(\alpha\)(引入信息性删失,即向 XMAR 靠拢),观察 \(\beta\) 估计的变化; - 进一步引入 \(\delta\)(XMAR 的偏离参数,刻画 \(Y\) 与 \(R\) 之间超出 \(X, b\) 的残余依赖),观察 \(\beta\) 随 \(\delta\) 的变化。 - 这构成了从 MCAR → MAR → XMAR → MNAR 的序贯敏感性分析路径。 3. 实证结论:在吸烟与认知衰退数据上,从标准模型(假设 MAR/非信息性)到联合模型(假设 XMAR),\(\beta\) 的估计有变化;但对 XMAR 假设的偏离(\(\delta\))仍可导致 \(\beta\) 的显著偏倚,说明联合模型不是“万能药”,敏感性分析是必备。
证明路线与技术技巧: 本文无数学证明,但概念阐述有清晰逻辑路线: 1. 从 Rubin 三层体系出发,指出 MAR 在信息性删失下不成立。 2. 引入联合模型,指出其隐含假设是 XMAR,而非无约束 MNAR。 3. 构建四层体系(MCAR, MAR, XMAR, MNAR),将 XMAR 显式定位为 MAR 与 MNAR 之间的中间站。 4. 参数化偏离:用 \(\alpha\) 刻画从 MAR 到 XMAR 的距离,用 \(\delta\) 刻画从 XMAR 到 MNAR 的距离。 5. 序贯敏感性分析:在实证数据上沿 \(\alpha\) 和 \(\delta\) 的网格计算 \(\beta\) 的变化,展示偏倚的敏感度。
技术技巧点名: - 共享参数模型:用 \(b\) 作为纵向与生存子模型的共享参数,实现 XMAR 的参数化。 - 敏感性参数化:引入 \(\delta\) 刻画 XMAR 的偏离,属于局部/全局敏感性分析的参数化技巧(类似 Rotnitzky et al. 2001 的 MNAR 敏感性参数)。
真实例子与应用: - 数据:吸烟与认知衰退的纵向数据(具体数据集未在摘要中点名,但根据上下文应为 Atherosclerosis Risk in Communities (ARIC) 研究或类似流行病学队列),存在因痴呆和死亡导致的失访。 - 怎么用上去:对同一数据分别拟合标准线性混合模型(假设 MAR/非信息性)和联合模型(假设 XMAR),比较 \(\beta\) 估计;然后在联合模型上叠加 \(\delta\) 参数,进行序贯敏感性分析。 - 得到什么结果:联合模型的 \(\beta\) 估计与标准模型有差异,说明信息性删失确实存在(\(\alpha \neq 0\));但 \(\beta\) 对 \(\delta\) 的变化敏感,说明 XMAR 假设的偏离会导致偏倚。 - 想说明什么:联合模型可部分缓解信息性删失偏倚(相比完全忽略它),但不能消除偏倚(因为 XMAR 本身可能不成立);敏感性分析是必要的。
🔎 结论是否比证明窄: 本文为概念阐述与实证演示,无严格证明。但有一条隐含的 claim 需注意:作者声称联合模型在 XMAR 下可识别,但未给出严格证明(依赖参数化模型的似然可积性条件)。在半参数视角下,XMAR 的可识别性可能需要更强的条件(如 \(b\) 的分布可被参数化识别),这一点未被讨论。
四、开放问题(点到为止,扎根具体语句)¶
- XMAR 的半参数可识别性:在非参数/半参数设定下(不假设 \(b\) 的分布形式),XMAR 是否仍足以识别 \(\beta\)?本文的讨论完全依赖参数化联合模型,未触及半参数识别条件。扎根点:作者将 XMAR 定义为 \(Y \perp R \mid X, b\),但 \(b\) 是不可观测的潜在变量,其分布的识别在半参数设定下可能需要额外条件(参考 Robins et al. 1995 的讨论)。
- \(\delta\) 的参数化选择与稳健性:本文用 \(\delta\) 刻画 XMAR 的偏离,但 \(\delta\) 的具体参数化形式(线性、非线性、加在哪个子模型上)会影响敏感性分析的结论。扎根点:作者演示了序贯敏感性分析,但未讨论不同 \(\delta\) 参数化对结论的稳健性。
- 与因果推断框架的对接:本文的 \(\beta\) 是纵向子模型的回归系数,而非因果效应;在信息性删失下,\(\beta\) 的因果解释需要额外的假设(如无未测混杂)。本文未讨论如何将 XMAR 与因果识别假设(如 sequential exchangeability)结合。扎根点:作者将问题 frame 为“选择偏倚”,但未引用因果推断文献(如 g-formula/IPW),留下概念对接的缺口。
- 缺失的引用与视角:本文未引用 Robins 体系的信息性删失文献(Robins 1986, Robins et al. 1995),这些文献提供了不依赖 XMAR 的识别策略与半参数效率界。扎根点:intro 中只有 Rubin (1976) 与联合模型文献,缺失因果推断路线的引用,可能反映了作者视角的局限——建议研究者去核查 Robins 体系与 XMAR 的关系。
Maintained by 陈星宇 · Homepage · Source on GitHub