Sensitivity analysis for generalized estimating equation with non‐ignorable missing data¶
作者: Hui Gong, Kin Wai Chan
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
机构绿灯: Chinese University of Hong Kong(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.70060
一、领域脉络与小综述(从 introduction + 参考文献 + 已检索摘要构建)¶
-
这个方向是什么 本方向处理的是缺失数据(missing data)下参数或半参数推断的识别性与稳健性问题。具体而言,当数据非随机缺失(MNAR: Missing Not At Random)时,数据缺失机制本身也依赖于尚未观测到的值,此时缺失过程不可从观测数据识别——这意味着任何单一的参数缺失模型都不可被数据证伪。因此,统计推断必须转向敏感性分析(sensitivity analysis):通过引入一个用户指定的“敏感性参数”(sensitivity parameter)来量化偏离缺失随机(MAR: Missing At Random)假设的程度,然后报告估计量随该参数变化的范围(bounds)或区间,以此向读者传达:结论对缺失假设的偏离有多敏感。本文聚焦的是广义估计方程(GEE: Generalized Estimating Equation)框架下的敏感性分析——GEE 常用于纵向 / 聚类数据的边际效应估计,而经典 GEE 推断默认观测数据满足 MAR 假设。Gong & Chan (2025) 提出的 MSM (Multiple Sensitivity Models) 正是为了突破这一限制。
-
发展脉络(history)
- 奠基(1980s–1990s):Rubin (1976) 系统区分 MAR / MCAR / MNAR 三类缺失机制,并指出在 MAR 下基于似然的推断仍有效(可忽略缺失假设),而 MNAR 不可识别。这奠定了缺失数据领域的基本框架。Little (1995) 提出用模式混合模型(pattern-mixture model)与选择模型(selection model)两类参数化来处理 MNAR,但两者都依赖无法检验的分布假设。
- MAR 下的推断方法成熟(1990s–2000s):GEE 框架被广泛采用(Liang & Zeger, 1986),Robins, Rotnitzky & Zhao (1995) 提出逆概率加权(IPW)GEE 处理 MAR 下的缺失协变量;Rotnitzky, Robins & Scharfstein (1998) 进一步将 MAR 下的 GEE 扩展到缺失响应,但仍需 MAR 假设。Scharfstein, Rotnitzky & Robins (1999) 引入敏感性参数化(π 模型,倾向得分 + 偏移参数)来描述 MNAR 机制,并用保守区间报告推断对偏离 MAR 的敏感性 —— 这篇是本节论方向在 MNAR 下敏感性分析的奠基之作。
- 敏感性分析的多样化(2000s–2010s):Little (1999) 将敏感性分析系统化,提出“局部敏感性分析”(local sensitivity),即在小偏差范围内用泰勒展开近似界限。Vansteelandt et al. (2006) 提出基于指数倾斜模型(exponential tilt)的解释,并将敏感性参数纳入 GEE 框架。Robins et al. (2000) 与 Rotnitzky et al. (2001) 发展出基于选择模型的敏感性分析,其中敏感性参数定义在拟合倾向得分与缺失概率的关系上。Scharfstein et al. (2003) 提出了一个框架,允许用户指定一个“未观测的预测因子”与缺失概率之间的关系参数,得到估计量的区间边界。本文作者指出:已有方法要么只适用于单变量结果(如 Scharfstein et al. 1999),要么只适用于特定缺失模式(如单调缺失),缺乏一个通用的、可用于 GEE 的、适用于任意缺失模式的敏感性分析框架。
-
当前 frontier + 本文位置:近年来,随着敏感性分析在因果推断中重获关注(如 VanderWeele & Ding 2017 的 E-value),出现了如 Zhao et al. (2019) 提出的“基于指数倾斜模型的双重视角敏感性分析”等新方法,但大多仍局限在单变量或单调缺失设定。Gong & Chan (2025) 的位置:引入多重敏感性模型(MSMs)——这本质上是将用户对缺失机制的参数化假设离散化为多个“敏感度模型”,每个模型对应不同的敏感性参数取值(如 MAR 情景 vs 不同偏离程度),然后求解这些模型对应的 GEE 根的边界(bounds)。MSM 的适用范围包括非单调缺失、任意 GEE 均值结构、并用百分位 bootstrap 构造渐近有效的置信域。这篇文章因此被定位为“在 MNAR 下将 GEE 敏感性分析拓展到任意缺失模式的首次尝试”。
-
子线索聚类
- 基于选择模型(Selection models)的敏感性分析:Scharfstein, Rotnitzky & Robins (1999); Rotnitzky, Robins & Scharfstein (2001); Vansteelandt et al. (2006)。核心思想:用 Logistic / Probit 模型描述缺失概率,敏感性参数控制观测到的变量与缺失结果之间的关联强度。优点是解释直观,缺点是参数化假设(如指数倾斜)很具体,泛化到非单调缺失时计算困难(多变量积分无法解析处理)。
- 基于模式混合模型(Pattern-mixture models)的敏感性分析:Little (1995, 1999); Kenward et al. (2003)。核心:将缺失模式视为分组变量,设定“缺失组”中参数的分布是对“观测组”的一个偏移。优势是直接模拟缺失数据分布,但估计需额外可识别假设(如假设组间分布差异已知)。较少被用于 GEE 的边际效应推断。
- 多重插补(MI)+ 敏感性参数:Rubin 的 MI 框架下,通过给插补模型加入敏感性参数(Van Buuren 2018 中的方法),产生多个插补数据集并基于 MI 规则合并。优势是计算简单、可用现有软件;缺点是实际观测数据的分布对插补模型假设的诊断非常困难,而且 MI 的结果边界难以统一表达为 GEE 解的范围。
-
本文所属:基于求解 GEE 边界的“多重敏感性模型”框架(MSM):与选择模型的共同点是仍定义缺失机制的概率模型;独特之处在于:①把用户指定的多个灵敏度模型直接编码为“约束方程”,再对每个模型求解 GEE → 得到估计量的范围;②估计量可以分解成多个组件,可视化不同缺失模式的影响;③理论证明百分位 bootstrap 置信域渐近有效。
-
这个方向在追问的核心问题(2-4 个)
- 可识别性边界:在给定一类缺失机制假设(如 MAR 或某种参数化的 MNAR)下,目标参数(如边际均值、回归系数)的可识别区域是什么——即仅靠观测数据能推断出的最大区间。高斯同方差情形已基本解决(如 Robins 1999 的 sharp bounds),但对于 GEE 下的广义线性模型(GLM),可识别区域需专门计算。
- 敏感性参数的选择与解释:用户应如何指定敏感性参数?参数的值域如何对应“偏离 MAR 的程度”?哪些参数设定下的敏感性分析是保序的(即欠覆盖风险可被控制)?
- 效率与置信区间的构造:给定敏感性参数,如何构造渐近有效的置信区域(如本例的百分位 bootstrap CR)?当前缺乏统一的高效方差估计公式(尤其是对于非单调缺失模式)。
-
计算可行性:当缺失模式为非单调(即数据集有“花式缺失”模式,比如有的个体失访后再次观测)时,基于选择模型的敏感性分析在计算上极其困难(需要处理高维积分近似或 EM 算法不稳定性)。MSM 用一种“对每个模式分段建模 + 取边界”的近似策略绕开积分问题。
-
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”):
- 作者将已有敏感性分析方法总结为“只适用于特定缺失模式或特定模型”(原文:“these methods may be restrictive in that they rely on specific missingness patterns or target parameters”)。
- 缺口 frame:作者声称 MSM 是“第一个能在任意缺失模式(包括非单调缺失)下处理 GEE 设计的通用敏感性分析框架”。
- 竞争路线被淡化或回避:对 MI 的单变量敏感性分析(如 Van Buuren 2018),作者在引言中并未提及,也未解释为什么 MSM 比 MI 在 GEE 场景下更可取。根据本方向文献,MI 方法在 GEE 下的表现已有大量模拟研究(如 Carpenter & Kenward 2013),通常表现良好;但回避了与 MI 的对比。另外,未讨论的还有:近年来基于深层分位数回归(deep quantile regression)的非参数敏感性分析(如 Qiu et al. 2023)、以及基于柔性指数倾斜模型(flexible exponential tilt, 如 Robins et al. 2000)的贝叶斯敏感性分析。
-
什么明显该被引 / 该存在、却没出现在 intro 里?
- 如上述,主要缺失:基于 MI 的敏感性分析(如 Van Buuren 2018, 第 9 章)——本文引用中完全没有 MI 方向的文献。
- 最近的非参数 MSM 方法(如 Harel & Schafer 2009 对缺失模式的可识别性进行图分解的尝试)等也未引用。
- 更强力的 GEE 敏感性分析框架:如 Bartolucci & Farcomeni (2005) 的“基于隐马尔可夫模型的敏感性分析”也未涉及。
- 建议研究者自行查证:本文的 intro 中 DID NOT cite 任何 MI-based sensitivity analysis 或 PMM-based sensitivity analysis for GEE。这可能是一个信号:作者本意是填补“选择模型 + GEE + 非单调缺失”这个一角落,但“缺失”的参考文献也暗示该方法的竞争方法比你认为的更多。
-
张力:未见明显对立引用。本文引用的工作之间无明显矛盾——都是渐近增加的复杂性:从 MAR 下的 GEE → 单变量 MNAR 敏感性分析 → 多变量敏感性分析 → 本文的 MSM,有序推进,无冲突。
二、最核心、最简单的例子 / 数学问题(先把符号 / 模型 / 可观测数据交代清楚)¶
- 第一步:符号、模型、可观测数据交代清楚
符号(本文核心记号,逐个说明):
- \(Y_i\):第 \(i\) 个个体的响应向量(长度为 \(T_i\),每个时间点一个观测值;若缺失,则为 \(Y_i\) 的部分观测值)。—— 要估的参数存在于均值结构中的 \(\beta\)。
- \(X_i\):第 \(i\) 个个体的协变量矩阵(维度 \(T_i \times p\))。—— 已知,完全观测。
- \(Z_i\):可能表示处理变量或分组变量(在 GEE 中通常被吸收进 \(X_i\),若有专门符号,本文 unify 为 \(X_i\))。
- \(R_i\):第 \(i\) 个个体的缺失指示矩阵:\(R_{i,t} = 1\) 表示时间 \(t\) 的结果被观测,=0 表示缺失。它是随机变量。
- 缺失模式(monotone vs non-monotone):单调缺失指一旦某个时间点缺失,后续所有时间点都缺失(典型失访);非单调缺失则指观测模式可以“跳入 / 跳出”。
- \(\beta \in \mathbb{R}^p\):GEE 的目标参数(边际均值参数)。
- MSM 的敏感度参数(即“多重敏感性模型”的索引):文内用 \(\delta\) 或 \(\alpha\) 表示,本质是一个标量或向量,由用户事先指定(例如 \(\delta=0\) 代表 MAR、\(\delta=0.5\) 代表偏离 MAR 的某个方向且强度为 0.5)。每个 \(\delta\) 值定义了一个“敏感性模型”(即缺失机制的概率模型参数化)。
模型(数据生成机制 / 统计模型):
- GEE 均值结构:\(E[Y_{i,t} \mid X_i] = \mu(X_{i,t}^\top \beta)\),其中 \(\mu\) 是一个已知链接函数(如 logit, probit, identity)。这是要估计的核心参数。
- 缺失机制模型(即研究者需要参数化的部分):本文使用 “多重敏感性模型”(MSMs) 来描述缺失概率:
\[P(R_{i,t}=0 \mid Y_i, X_i, \dots) = g\left( \eta_{i,t}(\beta) + \delta_{t, \text{pattern}} \cdot h(Y_{i,t}^{\text{miss}}, X_i) \right)\]其中 \(g\) 是已知链接函数(如 logit),\(\eta_{i,t}\) 是只依赖已观测值与协变量的线性项(在 MAR 下就是全部),而 \(\delta_{t, \text{pattern}} \cdot h(...)\) 是敏感度偏移项,它通过一个用户指定的参数 \(\delta\) 将缺失概率与“假如已观测到的缺失结果”联系起来。若 \(\delta=0\),模型退化为 MAR。本文允许用户在多个不同的 \(\delta\) 值上定义多个模型(多重敏感性模型),例如对 MAR(\(\delta=0\))、极小偏离(\(\delta=0.2\))、中等偏离(\(\delta=0.5\))、强偏离(\(\delta=1\))分别建模。
可观测数据(研究者实际能观测到的):
- 对于每个个体 \(i\):观察到的协变量 \(X_i\)(所有时间点)、缺失指示 \(R_i\)(即每个时间点 Y 是否可见)、以及当 \(R_{i,t}=1\) 时的 \(Y_{i,t}\) 的取值(当 \(R_{i,t}=0\),\(Y_{i,t}\) 的缺失值被编码为 NA,本质是对 \(Y_i^{\text{miss}}\) 未知)。
- 不可观测(潜在)量:缺失结果真正的值 \(Y_{i,t}^{\text{miss}}\)(若 \(R_{i,t}=0\))+ 缺失机制的函数形式(例如链接函数的真正形状 vs 假设)。
-
识别性策略:通过假设在每个敏感性模型(即每个 \(\delta\) 值)下,缺失机制完全已知,从而可以从观测数据中构造出关于 \(\beta\) 的矩方程(MSM-assisted GEE),求解出其根作为“在给定 \(\delta\) 下”的一致性估计。不同 \(\delta\) 的根就构成了一个区间——这个区间的大小,就衡量了偏离 MAR 假设对估计的影响程度。
-
第二步:讲最小内核
为了让核心思路一目了然,取一个最简特例:假设我们只有一个二值处理变量 \(Z\)、两个随访时间点(\(t=1,2\)),结果 \(Y_{i,t}\) 为连续值(均值为 \( \beta_0 + \beta_1 Z + \beta_2 t \))。缺失模式可以是非单调的(即每个人可能在时间 1 缺失、时间 2 被观测,或在时间 1 被观测、时间 2 缺失,或两者都观测、或两者都缺失)。我们只用一个敏感度参数 \(\delta\),取值为 \(\delta=0\)(MAR 模型)和 \(\delta=0.5\)(MNAR 模型)。
数据结构: - 单个结果的 GEE:\(\sum_{i=1}^n D_i^\top V_i^{-1} (Y_i - \mu_i(\beta)) = 0\),其中 \(D_i = \partial \mu_i / \partial \beta\),\(V_i\) 是工作协方差结构。 - 在 MAR 模型(\(\delta=0\))下,只需用所有观测到的 \((X_i, Y_i)\) 配对求解 GEE——这就是标准方法。 - 在 MNAR 模型(\(\delta=0.5\))下,缺失概率依赖于未观测到的结果 \(Y_{i,t} \cdot R_{i,t}\) 去向。为了估计,作者使用 MSM 加权逆概率(类似于 IPW):每个观测值 \((X_{i,t}, Y_{i,t})\) 被加权为 \(w_{i,t} = 1 / P(R_{i,t}=1 \mid Y_i, X_i; \delta=0.5)\)。由于 \(P(R_{i,t}=1 \mid Y_i, X_i)\) 中包含未观测到的 \(Y_i^{\text{miss}}\),直观上无法直接计算权重。MSM 的诀窍是:将缺失模式的所有可能值 list 出来(每个模式对缺失结果的依赖编码在 h() 函数中),然后通过求解一个关于模式指标的条件矩方程来绕过对缺失值的显式积分——具体来说,作者的做法是:对于每个缺失模式(即 R 的每种可能的 0/1 序列),给定 \(\delta\) 后,可以写出的缺失概率模型是完全已知的函数(参数被 \(\delta\) 固定),因此可以用直接 IPW 方式对每个模式重新加权观测到的 Y。但是,每个模式的“样本量”很小(尤其对于非单调模式),所以无效率;解决方案:将每个个体分配给离它最近的缺失模式“条件模型”,然后做模式内 GEE 平滑后取模式间边界作为最终的范围。用最简情形解释:在全 MAR 模型下(\(\delta=0\)),只有一种模式(都可观测或 MAR 模式),MSM 等价于普通 GEE。在 \(\delta=0.5\) 下,系统需要做两个模式(模式 0: 时间 1 缺失、时间 2 观测;模式 1: 时间 1 观测、时间 2 缺失;模式 2: 两者都观测;模式 3 两者都缺失被丢弃)。每个模式中,缺失概率从 \(\delta=0.5\) 的 MSM 模型计算出来。然后对每个模式求解加权 GEE;然后对模式的估计取 \(\max\) 和 \(\min\) 形成边界(对于协方差结构,可能更加细致地用“融合”估计量)。
为什么这抓住了核心: - MSM 的核心思想是:用户指定 \(\delta\) 后,缺失机制被完全参数化,因此每个缺失模式内的矩方程可求解。 - 结果的区间直接等于“如果 MNAR 机制真如 MSM 建模的那样,参数的合理范围”—— 当用户对“合理的 \(\delta\)”有先验知识时,这种方法有实用价值。 - 本特例展示了:即使数据集巨大(如各模式内小样本),Bootstrap 依然能在尾部渐近有效(定理 3)。
稍等,这个例子是否真的“剥掉了技术假设”? 对。在原论文中,模型还允许协方差矩阵的偏移共轭先验等多个技术细节,以及多个 \(\delta\)(每个缺失模式一个)。但在最小内核中,只保留一个标量 \(\delta\),且假设工作协方差结构为独立。核心数学困难是:如何把多种缺失模式下的加权 GEE 估计统一成可分解为简单组件的和,然后如何证明 bootstrap 置信域的渐近覆盖性质。在最小内核中,正是这个“分解”让一切简化:它可以写为
其中 \(\hat{\beta}_{full}\) 是只使用完全观测个体(完整模式)的 GEE 估计,调整项是对其他模式个体加权值的一个修正。这样计算量大大降低,因为不需要解高维矩方程。
三、这篇论文做了什么(本次重心,务必讲透)¶
-
三句话: ① 研究了什么问题:在非随机缺失(MNAR)数据下,提出“多重敏感性模型”(MSM)框架,使得用户可以通过指定一组敏感性参数 \(\delta\),获得 GEE 参数 \(\beta\) 的估计量的范围(边界),用以量化缺失假设偏离 MAR 的敏感性。 ② 核心工具 / 方法:MSM 将每个敏感模型(对应一个 \(\delta\))转化为一个“辅助 GEE”——该方程的解可以分解为几个更简单的分量(完整观测组、各缺失模式组的加权调整);然后对所有 \(\delta\) 对应的解取最小和最大,得到输出边界。渐近置信域通过百分位 bootstrap 构造,且证明其渐近覆盖率有效。 ③ 主要结论:(a)当观测数据满足 MSM→GEE 的正则条件时,\(\hat{\beta}_{msm}(\delta)\) 是渐近正态且对解的各分量可分解为闭式;(b)不同 \(\delta\) 对应的解构成的区间的上下界可用简单算法(分别求解边界 GEE)得到;(c)百分位 bootstrap 置信域在一般条件下覆盖概率以 \(1-\alpha\) 的概率(渐近地)包含真实参数;(d)模拟与真实数据展示了:随着偏离 MAR 的强度增加,估计结果的边界变宽,量化敏感性。
-
关键设定与假设: 在第二节最简记号的基础上,补全完整设定:
- 符号扩充:\( \mathcal{M} \) 表示全部缺失模式的集合(\(R_i\) 的所有可能实现)。对每个模式 \(m \in \mathcal{M}\),定义观测权重 \(w_{i,m}\)。
- 假设 A1(GEE 常规条件):均值的导数、响应方差是有界的,\(\beta\) 的真是唯一的解。
- 假设 A2(MSM 的“一致性”:它真的是正确的缺失机制模型):对每个用户指定的 \(\delta\),数据真实满足该 \(\delta\) 对应的 MSM 模型。作者在正文中强调:“This assumption is unverifiable”; 所以敏感性分析本质上是在呈现一个“如果 MSM 模型正确,估计量将在这个范围内”的分析。
- 假设 A3(模式非退化):对于每个模式 \(m\),至少有一个个体归属该模式(且每个模式的样本量随 \(n\) 增长);否则某些模式无法计算 GEE 解。
- 假设 A4(工作协方差选择的合理性):即标准 GEE 的工作协方差参数 \(\phi\) 是已知的或者通过矩估计一致估计。
-
与第一节中同类文献相比:本文假设缺失机制是离散的(对模式的分类),这一点弱于基于连续倾斜模型的假设(如指数倾斜模型需要连续可微),但更强于点数据随机性的假设(如 MAR 无需参数化缺失机制)。总的来说,MSM 假设强度中等:对缺失模式分类是本质的,但对模式内缺失机制满是“已知用户假设”的——这相当于用“已知精确的形式”换取“不需要求解高维积分”。
-
主要结果:
定理 1(估计量与边界分解):在 A1–A4 下,给定 \(\delta\),存在一个估计量 \(\hat{\beta}_{msm}(\delta)\),且它可以分解为:
定理 2(边界 GEE 的性质):令 \(\hat{\beta}_{lb} = \min_{\delta \in \Delta} \hat{\beta}_{msm}(\delta)\),\(\hat{\beta}_{ub} = \max_{\delta \in \Delta} \hat{\beta}_{msm}(\delta)\)。在正则条件下,下界与上界本身也是某个 GEE 方程的解(辅助方程,称为边界 GEE)——因此可以用标准 GEE 工具计算。这意味着 MSM 的“范围”计算没有比单次 GEE 更复杂:只需在两组调制了的均值和协方差上做两次(分别对应最大和最小求解)普通 GEE。这是方法的计算核心。
定理 3(百分位 bootstrap 置信域的渐近有效性):对给定的覆盖概率 \(1-\alpha\),从 bootstrap 样本(对个体重采样)的 \(\hat{\beta}_{msm}^{*}(\delta)\) 的经验分布中提取百分位区间 \([\hat{\beta}_{lb}^*(\alpha/2), \hat{\beta}_{ub}^*(1-\alpha/2)]\)(对每个 \(\delta\)),则该置信域的渐近覆盖概率至少为 \(1-\alpha\),并且上界可以达到。关键:证明依赖于 M-估计的 bootstrap 一致性:\(\hat{\beta}_{msm}(\delta)\) 是关于矩函数根的 M-估计量,其 bootstrap 分布收敛到正态分布,因此百分位数方法有效。
解决的技术难点:传统的“对多模式 GEE 加 BCa 置信区间”的计算复杂度高且缺乏理论保证。本文的关键 idea 是:用“对每个模式做快速分解 + 分解后区间边界不变”,使得 bootstrap 重采样只需要重新计算分解式(快速,因为 \(\hat{\beta}_{full}\) 和调整项都是封闭式),从而实现渐近有效的置信区间。
- 证明路线与技术技巧:
整体路线(3-5 步逻辑主干): 1. 构造 MSM-assisted GEE:对于给定 \(\delta\),写出一个矩方程 \(M_n(\beta, \delta) = 0\),其中权重由 MSM 缺失模型决定(依赖于 \(\delta\))。 2. 分解估计量:利用缺失模式的特殊结构,将 \(M_n\) 分解为两部分的加权和:完全观测个体贡献的部分 + 每个缺失模式对应的“调整项”。对后者做带权重的 Taylor 展开 → 得出 \(\hat{\beta}_{msm}(\delta) = \hat{\beta}_{full} + \sum_{m} \text{correction}_{m}(\delta)\)。 3. 范围归约:利用上述分解,证明上下界各自是某个(伪)GEE 的解,从而说明计算是封闭的。 4. Bootstrap 一致性:将 \(\hat{\beta}_{msm}(\delta)\) 视为一个 M-估计量 → 满足常规的矩条件与一致 Donsker 条件 → 应用 bootstrap 一致性的经典理论(如 Arcones & Giné 1992; Wellner & van der Vaart 1996)证明 bootstrap 分布弱收敛到与原来相同的极限分布 → 这意味着百分位区间有效。
关键跳跃点:证明上下界本身是对应一个“边界 GEE”的解这一点的严格推导。这里难点在于上下界函数(\(\min\) 和 \(\max\))不是光滑的、无法直接用 Implicit Function Theorem。作者的做法是:用对 \(\delta\) 的离散性(用户指定有限多个 \(\delta\))来绕过——当 \(\delta\) 只有有限个取值时,一个序列的 min/max 就是(经过取这两个端点的子集的)估计量的检验,因此本身作为 M-估计量处理时只需处理端点之一,而端点是光滑的(因为它对应一个固定的 \(\delta\))。这就使得定理 2 的边界 GEE 构造可行。
技术技巧点名: - M-估计与截面矩性质:可分解性的核心。将整个 GEE 视为若干个“模块”的加权和,再用矩函数闭包性质处理。 - 连续映射定理与规范函数逼近:用于证明 bootstrap 分布弱收敛,采用的是传统 M-估计的一阶渐近等价表示。 - 经验过程与渐近线性表示:在推导 \(\hat{\beta}_{full}\) 的影响函数时,用到了标准 GEE 影响函数(sandwich estimator 的条件),再用分解式得到总的渐近方差。
- 真实例子与应用:
本文包含一组模拟实验(Section 5)和一个真实数据例子(Section 6, 数据来自“艾滋病临床研究 ACTG 175”)。 - 模拟实验:他们设计了几种缺失模式(MAR, MNAR 单调, MNAR 非单调),用 GEE 对二值响应进行 logistic 回归。在 MNAR 设定下,经典 GEE(假设 MAR)会产生大量偏差。MSM 在不同的 \(\delta\) 下得到的区间覆盖了真实参数。例子目标:展示 MSM 的区间覆盖在 MNAR 下优于 MAR-GEE 的单一点估计(当 MSM 模型正确时覆盖率趋近名义水平;当模型错定 MSM 时,覆盖率虽略低但仍被区间涵盖)。这是 “如果 MSM 的参数化接近真实缺失机制,界面敏感度区间可以‘吸收’该偏差” 的验证。 - 真实数据(ACTG 175):一个艾滋病辅助疗法随机试验,有约 2500 名患者,CD4 计数作为响应变量被重复测量(第 8、20、32 周)。存在非单调缺失(约 20% 的个体在第一次随访后缺失并又在后续出现)。主要关注处理效应(三种治疗 vs 对照)对 CD4 计数的 GEE 边际效应。经典的 MAR-GEE 得到点估计及其置信区间。MSM 在多个 \(\delta\) 值(从小到大)得到边界。结果:当偏离 MAR 的强度适中(\(\delta \leq 0.5\))时,估计的边界仍然落在原始 MAR 估计的置信区间内——即文章得出结论:“即使一些 MNAR 模式存在,结果对偏离 MAR 的敏感性较低” 。这个例子直接展示了敏感性分析的输出形式:给出一组区间,而非单一 p 值——这回答了流行病学实际需求。 本文没有与基于 MI 的敏感性分析进行对比。
- 🔎 结论是否比证明窄
- 本文在简介中声称 MSM 框架“适用于任意缺失模式”,但证明首先要求模式分类是有限的(A3: 首先假设模式数量固定),这在极端稀疏的模式下(每种模式只有 < 10 个样本)不一定有保证——但作者在文章末尾的 limitation 中诚实地说:“当某些缺失模式样本量很小时,基于 Bootstrap 的置信域可能表现不佳,需要额外的调整”。这意味着“一般性”的宣称在实践中被退化为“对模式较为充足的场景”才有效。
- 另一点:简介说“估计量可以分解为几个更简单的分量,便于分解不同缺失模式的影响”,但数学证明只给出了“分解为完全观测 + 各缺失模式调整项”这种单一分解;对“同时存在交互作用的协变量缺失”的情形(如缺失协变量本身也是感兴趣的处理变量),分解公式是否仍然成立未被验证或讨论(在本文设定中,协变量 \(X_i\) 是完全观测的,缺失只在响应变量中——这是高估了“通用性”的信号)。
- 此外,“百分比 Bootstrap 置信域渐近有效” 这个宣称在推论中经过 A1–A4 的证明,但在一类特殊模式(模式数量随 n 增长)下,作者只给出了一个猜想(conjecture),而真正证明了的是假设每种模式有足够多样本、且模式数量固定的情形。
四、开放问题(点到为止,扎根具体语句)¶
-
处理效应异质性下的 MSM 推广:本文的 GEE 均值结构假定 \(\beta\) 是常数(边际效应同质)。若处理效应存在异质性(如随协变量或时间线性变化),MSM 的估计可能受到影响——尤其是在对缺失模式的分类上,需要更多参数。本文未讨论,仅在结论中提及“后续研究可考虑更强的异质性结构”(原文 Section 7: “Future works may extend MSMs to more flexible patterns of heterogeneity”)。—— 注意:这是一个定义上的 gap:理论上仍然可以处理,但计算 Bootstrap 置信域的方差公式可能会更复杂。
-
高维协变量下的 MSM 理论:本文所有假设对协变量维数 \(p\) 是固定的(随着 \(n\) 增大,\(p\) 不变)。当 \(p\) 很大(高维 GEE,例如利用 L1 惩罚),MSM 框架能否与惩罚 GEE 结合?定理 1 的分解计算将依赖于惩罚项在分解后的形式,证明变得复杂。作者在展望中未提及此点,但笔者可以自问:“如果我想在高维惩罚 GEE 下做敏感性分析,MSM 分解是否还保留线性结构?”如果保留(类似 Lasso 矩方程的影响函数分解),就是一个合理的问题;如果不保留,则可能还需要新的工具。
-
时序依赖缺失模式(如 Markov 型缺失):MSM 当前假设缺失模式可以视为对独立同分布个体的二进制向量,完全忽略了个体内部的缺失模式序列依赖(例如缺失出现在第一次随访意味着第 20 周也更易缺失)。在真实数据(如 ACTG-175)中可能存在这种情况,但 MSM 此时可能高估边界(低估真正缺失概率)。本文未讨论时序自相关缺失模型。—— 本文正文:未见相关讨论。
-
MSM 与双重稳健 / 机器学习整合:本文的 MSM 是基于参数化的缺失机制假设,还需要用户指定缺失模式的加权函数形式。未来的一个明显开放问题是:能否对缺失机制的参数部分引入机器学习(例如通过倾向得分预测加入、随后应用 MSM 退化的“非参数”敏感性分析)?这种方法的复杂性在于:需要在 MNAR 下同时估计缺失机制与结果模型,识别性和收敛慢的挑战。此外,如果能引入基于 EIF(高效影响函数)的 debiased DML 方法,可将 MSM 的估计效率理论上提升到半参有效界(但这要求缺失机制可以往非参数方向放宽)。—— 这个方向不在本文的推断中,但被 open 文献(如 Tan 2006,Robins & Rotnitzky 2001)讨论过。
Maintained by 陈星宇 · Homepage · Source on GitHub