Sensitivity analysis for generalized estimating equation with non‐ignorable missing data¶

作者: Hui Gong, Kin Wai Chan
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1111/sjos.70060

一、核心问题与贡献¶

①本文研究了纵向数据广义估计方程（GEE）在非随机缺失（MNAR）下的参数估计与敏感性分析问题。②核心工具是提出多重敏感性模型（MSMs）框架，通过求解带敏感性参数的MSM辅助GEE根界获得估计量集合，并推导估计量的分解表示。③主要贡献在于量化了不同缺失模式对估计的具体影响，并构造了渐近有效的百分位Bootstrap置信域，为不可验证的MAR假设提供了可操作的敏感性分析工具。

二、基础设定¶

核心概念与符号：
$GEE$：广义估计方程，用于纵向数据边际均值参数的半参数推断。
$MAR / MNAR$：随机缺失与非随机缺失，后者指缺失依赖未观测结果本身。
$MSMs$：多重敏感性模型，引入敏感性参数向量（如 $\delta$）以参数化偏离MAR的程度。
$Root\ bounds$：根界，指在给定敏感性参数下，MSM辅助GEE的解所构成的集合边界。
$CR$：置信域，用于覆盖敏感性参数空间下的参数集合。
关键假设：
MSM模型设定：假设MNAR机制可由MAR加上用户指定的敏感性参数 $\delta$ 的扰动来刻画。统计学含义：将不可识别的MNAR机制参数化，使其在给定 $\delta$ 下可识别；相比传统单一敏感性参数模型，放宽了对缺失机制单一形式的限制。
正则条件：为保证GEE解的渐近正态性与Bootstrap有效性，需假设矩条件及估计方程的平滑性。这是GEE推断的标准要求。
问题背景：传统GEE推断严重依赖MAR假设，而MAR在纵向研究中常因失访机制不可验证而失效。与经典MNAR敏感性分析（如模式混合模型或选择模型，通常针对单一缺失机制或截面数据）不同，本文针对纵向数据多重缺失模式（如不同时点的失访）同时进行敏感性扰动，并给出估计量的解析分解。

三、主要定理 / 核心结果¶

估计量分解表示：
原文陈述：提出的MSM-GEE估计量可分解为若干更简单估计量的线性组合，分别对应不同的缺失模式及敏感性参数。
直观解释：将总体偏差拆解为各时间点/各类缺失机制贡献的代数和，使得研究者能清晰看到“哪个阶段的缺失导致了最大的估计偏差”。
解决了什么技术难点：克服了MNAR下估计偏差难以归因的问题，将复杂的联合缺失机制影响解耦。
适用条件与局限：依赖于MSM设定的正确参数化形式；若缺失机制存在高阶交互或非参数形式，线性分解可能不再精确。
百分位Bootstrap置信域（CR）的渐近有效性：
原文陈述：基于MSM-GEE估计量集合构造的百分位Bootstrap CR具有渐近覆盖保证。
直观解释：在遍历敏感性参数空间时，通过重抽样构造的置信区域能以预设概率覆盖真实参数，无需复杂的解析方差估计。
解决了什么技术难点：避免了根界估计量复杂渐近分布的解析推导，特别是在多维敏感性参数下，解析协方差矩阵计算极为困难。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
识别：在MAR的基准上，引入敏感性参数 $\delta$ 构建MSM，将不可识别的缺失概率转化为给定 $\delta$ 下的可识别量。
估计：求解MSM辅助GEE，由于 $\delta$ 的引入，解不再唯一，形成根界，由此得到参数估计的区间集合。
核心假设的可信度分析：
敏感性参数 $\delta$ 的选择依赖专家先验，无法用观测数据验证（这是敏感性分析的固有特征）。但通过遍历 $\delta$ 的合理范围（如 $[-c, c]$），可评估结论对MAR偏离的稳健性。若微小 $\delta$ 即导致置信域包含0，则MAR下结论不可靠。
稳健性检验策略：
框架本身即为敏感性分析，通过改变 $\delta$ 的维度和取值范围，观察点估计和CR的变化轨迹。
计算/实现细节：
需在每次Bootstrap重抽样中，对多维敏感性参数网格上的每个点求解GEE的根界，计算复杂度为 $O(B \times |\Delta| \times \text{GEE solver})$，其中 $B$ 为重抽样次数，$|\Delta|$ 为参数网格大小。

五、与研究者兴趣的关联¶

连接子方向：Longitudinal causal inference 下的 sensitivity analysis（特别是 MNAR 缺失/删失机制）。
可借鉴的核心思路：
估计量分解技巧：将复杂的偏差拆解为不同缺失模式的贡献，这一思路可直接迁移至纵向因果推断中处理时变混杂与删失机制的解耦，例如在 g-estimation 或边际结构模型中量化不同时点删失对因果效应的单独影响。
根界的 Bootstrap 推断：在敏感性分析中，参数空间上的估计量集合（区间/区域）的推断通常缺乏解析分布，百分位 Bootstrap 置信域提供了一种避免复杂解析求导的计算型推断方案。
值得精读的关键参考文献：
Rotnitzky, A., & Robins, J. M. (1997). Analysis of semi-parametric regression models with non-ignorable non-response. Biometrika. （MNAR下半参数回归的奠基性工作，理解敏感性分析识别策略的必读文献）
Scharfstein, D. O., et al. (1999). Rejoinder to "Adjusting for nonignorable drop-out using semiparametric nonresponse models". JASA. （经典敏感性分析参数化框架，对比本文MSM框架的切入点）

六、延伸思考与练习¶

假设扰动：若缺失机制不仅依赖于当前未观测结果，还依赖于未来的未观测纵向结果（即非单调缺失机制下的序列MNAR），当前的MSM框架和分解表示是否仍然成立？技术上需要引入什么新工具（如序贯可忽略性或更复杂的模式混合约束）？
开放问题：如何在MSM框架下数据驱动地选择或约束敏感性参数 $\delta$ 的合理范围（而非完全主观指定），以避免置信域过度保守？
理解检测题：假设在纵向数据的三个时间点上有两种不同的缺失模式（如：模式A为仅在末次失访，模式B为间歇性缺失），请基于本文的分解表示思路，说明如何构造估计量以分离“仅由模式A导致的偏差”与“仅由模式B导致的偏差”？

Maintained by 陈星宇 · Homepage · Source on GitHub