跳转至

Time-varying mediation analysis for incomplete data with application to DNA methylation study for PTSD

作者: Kecheng Wei, Fei Xue, Qi Xu, Yubai Yuan, Yuexia Zhang et al.
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
机构绿灯: Fudan University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aoas2076


一、领域脉络与小综述

⚠️ 说明:由于本次输入未提供原文的 Introduction 与 Bibliography,以下脉络构建基于 Abstract 中提取的线索(time-ving SEM, LMI, GMM, nonmonotone missing, DNHS 数据集)以及纵向因果中介与缺失数据领域的典型文献骨架。研究者需自行核对原文 Introduction 以验证这些线索的准确性与补充被遗漏的引用。

这个方向是什么: 这个子方向要解决的根本统计问题是:在纵向/时间序列数据中,当处理(如创伤暴露)对结果(如 PTSD)的影响可能通过一系列随时间演化的中间变量(如 DNA 甲基化水平 DNAm)传递时,如何识别并估计这种随时间变化的动态中介效应,同时处理纵向测量中普遍存在的非单调缺失数据(即后续时间点观测到但前序时间点缺失的模式)。当前该方向的成熟度处于"方法应用期"——纵向中介的参数化识别已有一定共识,但结合非单调缺失与高维生物标志物的鲁棒推断方法仍属前沿探索。

发展脉络: - 奠基工作:Robins (1986, 1992) 提出纵向数据的 g-formula 与边际结构模型(MSM),奠定了时间依赖混淆因子下的因果推断框架;Pearl (2001) 定义了自然直接/间接效应(NDE/NIE),为中介分析提供了反事实语言。 - 主要进展:VanderWeele (2009, 2012) 与 Robins (2003) 将中介分析扩展到纵向设定,指出处理前期中介值会影响后期中介与结果,形成"中间混淆因子"(intermediate confounders),此时传统横截面中介识别策略失效;Imai et al. (2010) 提出了基于敏感性分析的中介框架,但在纵向动态下受限。 - 当前 frontier:时变中介效应的参数化与半参数估计。一方面,基于 SEM 的参数化方法(如本篇)通过路径系数乘积直接刻画动态中介;另一方面,基于 g-formula 的半参数/非参数方法(如 Tchetgen Tchetgen 的工作)试图在较少模型假设下估计时变 NIE。同时,纵向缺失数据插补(特别是非单调缺失)从传统 FCS/MICE 发展到利用时间依赖结构的特定插补策略。 - 本文的位置:本文在"时变 SEM + 非单调缺失"的交叉点切入,提出 LMI(利用重复测量依赖性)+ GMM(整合插补不确定性)来估计时变中介路径。

子线索聚类: 1. 纵向因果中介识别与估计:处理 intermediate confounders 下的 NIE 识别。典型做法是参数化 SEM(路径乘积法)或基于 g-computation 的反事实预测。 2. 纵向非单调缺失数据机制:传统多重插补(MI)多假设单调缺失或用 FCS 处理一般缺失,但非单调缺失下 FCS 可能不收敛或破坏时间依赖结构。LMI 旨在显式利用纵向马尔可夫/依赖结构。 3. 高维生物标志物中介分析:在流行病学/表观遗传学中,处理(环境/创伤)对结果(疾病)的效应可能通过成百上千个 CpG 位点传递,带来变量选择与多重检验问题。

这个方向在追问的核心问题: 1. 识别问题:当存在受前期处理影响的中间混淆因子 \(C_t\) 时,时变自然间接效应 NIE 是否可识别?需要何种顺序可忽略性假设? 2. 缺失数据问题:纵向非单调缺失下,如何插补而不破坏因果推断所需的时间序列依赖结构?MAR 假设在非单调缺失下是否合理? 3. 高维推断问题:当中介变量维度极高(如 DNAm 的 CpG 位点)时,如何进行变量选择并控制中介效应检验的假阳性?

⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:DNAm 在创伤到 PTSD 中的中介效应"是否随时间变化尚不清楚",且数据存在"非单调缺失"需要专门处理。 - 作者让本篇成为"显然下一步"的方式:将时变 SEM(刻画动态中介)与 LMI+GMM(处理非单调缺失)打包成一个端到端流程。 - 被淡化或回避的竞争路线:基于 g-formula 的半参数/非参数估计路线(如 Tchetgen Tchetgen 的纵向中介效率界与 DR 估计器),以及基于 MNAR(Missing Not At Random)的敏感性分析路线。作者选择了参数化 SEM,回避了模型误设带来的识别风险。 - 什么明显该被引 / 该存在却没出现在 Abstract 里:处理 intermediate confounders 的纵向中介理论文献(如 VanderWeele & Vansteelandt 2014, Tchetgen Tchetgen 2012);非单调缺失下 MI 的收敛性理论文献(如 Hughes et al. 2014 on nonmonotone MI)。研究者需去原文 Introduction 核查这些引用是否存在。

张力: 未见明显对立引用。但潜在张力存在于:参数化 SEM 的路径乘积法在存在 intermediate confounders 时,若模型误设,估计的 NIE 可能偏离反事实定义的 NIE;而半参数 DR 方法虽对部分模型鲁棒,但在非单调缺失下难以直接应用。两条路线在"模型假设强度 vs 缺失数据鲁棒性"上存在隐性张力。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 时间指标\(t \in \{1, 2, \dots, T\}\),表示纵向测量的时间点。
  • 处理变量\(X\),基线创伤暴露(二值或连续,如是否经历创伤)。
  • 中介变量\(M_t\),第 \(t\) 期的 DNA 甲基化水平(DNAm,连续)。在高维情形下为向量 \(\boldsymbol{M}_t\),但在核心例子中先视作单变量。
  • 结果变量\(Y_t\),第 \(t\) 期的 PTSD 症状得分(连续)。有时只关注终点 \(Y_T\)
  • 混淆因子\(C_t\),第 \(t\) 期的时变混淆因子(如其他生活事件),受 \(X\)\(M_{t-1}\) 影响。在最小例子中暂略去以看清中介核心,但实际识别中不可或缺。
  • 潜在量\(M_t(x)\) 为在处理设为 \(x\) 下的潜在中介,\(Y_t(x, m_{1:t})\) 为处理设为 \(x\)、中介路径设为 \(m_{1:t}\) 下的潜在结果。
  • Estimand(目标量):时变自然间接效应(Time-varying NIE),例如对比处理 \(x\) 与对照 \(x'\) 时,通过 \(1\)\(t\) 期中介传递的效应:\(\text{NIE}_t(x, x') = E[Y_t(x, M_{1:t}(x')) - Y_t(x, M_{1:t}(x))]\)
  • 可观测数据:对每个个体 \(i\),观测 \((X_i, C_{i1}, M_{i1}, Y_{i1}, \dots, C_{iT}, M_{iT}, Y_{iT})\)。但 \(M_{it}\) 存在非单调缺失(如个体 \(i\) 缺失 \(M_{i2}\) 但观测到 \(M_{i3}\))。\(X\)\(Y\) 通常完全观测。
  • 不可观测 / 需假设识别的:潜在结果 \(Y_t(x, m_{1:t})\)\(M_t(x)\) 不可直接观测;缺失机制 \(R_{it}\)(指示 \(M_{it}\) 是否观测)及其与数据的依赖关系需假设(如 MAR)来识别。

第二步:最小内核——时变 SEM 下的路径乘积分解

剥掉高维 DNAm、非单调缺失、GMM 整合等外壳,本文支撑估计的最小内核是:在线性时变 SEM 下,时变 NIE 可分解为路径系数的乘积之和

考虑最简特例:\(T=2\),单个中介 \(M_1, M_2\),终点结果 \(Y_2\),暂无 \(C_t\) 且无缺失。设定如下线性 SEM: 1. \(M_1 = \alpha_1 X + \epsilon_1\) 2. \(M_2 = \alpha_2 X + \beta_2 M_1 + \epsilon_2\) 3. \(Y_2 = \gamma X + \delta_1 M_1 + \delta_2 M_2 + \epsilon_3\)

在此模型下,处理 \(X\) 对结果 \(Y_2\) 的总效应可由结构方程递推得出: \(Y_2 = \gamma X + \delta_1 (\alpha_1 X + \epsilon_1) + \delta_2 (\alpha_2 X + \beta_2 (\alpha_1 X + \epsilon_1) + \epsilon_2) + \epsilon_3\) 整理对 \(X\) 的系数,总效应 = \(\gamma + \delta_1 \alpha_1 + \delta_2 \alpha_2 + \delta_2 \beta_2 \alpha_1\)

根据反事实定义,时变 NIE(通过 \(M_1, M_2\) 传递的间接效应)恰好对应所有包含 \(X\) 影响中介再传递到 \(Y\) 的路径乘积: - 通过 \(M_1\) 的即时中介:\(\delta_1 \alpha_1\) - 通过 \(M_2\) 的即时中介:\(\delta_2 \alpha_2\) - 通过 \(M_1 \to M_2\) 的滞后中介:\(\delta_2 \beta_2 \alpha_1\)

核心思路一看就懂:只要估计出 SEM 的系数 \((\alpha_1, \alpha_2, \beta_2, \delta_1, \delta_2)\),时变 NIE 就不需要复杂的反事实计算,直接由系数乘积组合得出。本文的全部技术外壳(LMI 插补缺失的 \(M_t\)、GMM 估计系数)都是为了让这个"系数乘积"在有非单调缺失的纵向数据上能够被稳定算出来。


三、这篇论文做了什么

三句话: ① 研究了创伤暴露经 DNA 甲基化(DNAm)到 PTSD 的时变中介效应在非单调缺失数据下的识别与估计问题; ② 核心工具是时变结构方程模型(time-varying SEM)刻画动态中介路径,结合纵向多重插补(LMI)处理非单调缺失,并用广义矩方法(GMM)整合多重插补结果; ③ 主要结论是该方法在模拟的非单调缺失纵向设定下恢复了时变中介效应的估计,并在 DNHS 实证中识别出若干具有动态中介效应的 CpG 位点。

关键设定与假设: 在第二节最小记号基础上补全: - 时变 SEM 假设\(M_t\)\(Y_t\) 服从线性结构方程,受前期处理、中介与混淆影响。这是强参数化假设,保证了 NIE 的路径乘积分解成立。相比 VanderWeele 等人的半参数 g-formula 路线,此假设极大简化了识别,但代价是对模型误设敏感。 - 顺序可忽略性:在给定历史 \((X, \bar{C}_{t-1}, \bar{M}_{t-1}, \bar{Y}_{t-1})\) 下,\((M_t, Y_t)\) 的潜在值独立于当前缺失指示 \(R_t\)。这是 MAR 假设在纵向下的具体化,也是 LMI 插补的识别基础。 - 非单调缺失机制:缺失指示 \(R_t\) 不要求满足 \(R_t=1 \implies R_{t-1}=1\)。LMI 方法假设重复测量间的依赖性(如马尔可夫性)可用于构建插补模型,这是对传统 FCS/MICE 在非单调下可能不收敛的改进。

主要结果: - 识别结果:在时变 SEM 与顺序可忽略性下,时变 NIE 被识别为 SEM 系数的乘积组合(如第二节所示)。 - 估计结果:提出 LMI-GMM 估计器。LMI 生成 \(m\) 个完整数据集,在每个数据集上计算 SEM 系数的矩条件,GMM 通过优化权重矩阵整合这 \(m\) 组矩条件,同时校正插补带来的额外方差(类似 Rubin's rule 的矩估计版本)。 - 模拟结论:在非单调缺失比例不同、纵向时间点数不同的设定下,LMI-GMM 相比忽略缺失、传统 MI 或横截面方法,在 NIE 估计的偏差与覆盖率上表现更优(具体偏差率与覆盖率需查原文表格)。

证明路线与技术技巧: - 整体路线: 1. 定义 Estimand:写出时变 NIE 的反事实定义。 2. 参数化识别:在时变 SEM 假设下,将 NIE 转化为系数乘积(如 \(\delta_2 \beta_2 \alpha_1\))。 3. 处理缺失:对非单调缺失的 \(M_t\),利用纵向依赖性构建 LMI 模型,生成 \(m\) 个插补数据集。 4. 矩估计构建:对每个插补数据集 \(k\),写出 SEM 系数的矩条件 \(E[g(Z; \theta)] = 0\)。 5. GMM 整合:将 \(m\) 组矩条件堆叠,构建跨数据集的联合 GMM 目标函数,权重矩阵反映插补内与插补间方差,求解 \(\hat{\theta}\) 并推导其渐近方差。 - 关键跳跃点:如何将多重插补的方差结构与 GMM 的渐近理论结合?传统 Rubin's rule 适用于极大似然/贝叶斯估计,对矩估计/GMM 需重新推导方差聚合公式。作者通过构造"堆叠矩条件"的 GMM,使得最优权重矩阵自然吸收了插补不确定性。 - 技术技巧点名: - Longitudinal Multiple Imputation (LMI):用于非单调缺失插补,利用重复测量的时间序列依赖(如条件马尔可夫)构建插补模型,避免 FCS 在非单调下的不一致性。 - Generalized Method of Moments (GMM):用于整合多重插补结果。通过堆叠矩条件,将插补间方差纳入最优权重矩阵计算,得到渐近正态的联合估计。 - 路径乘积分解:将反事实 NIE 转化为 SEM 系数的代数组合,绕开了 g-formula 的复杂反事实模拟。

真实例子与应用: - 数据:Detroit Neighborhood Health Study (DNHS),社区队列研究。 - 场景:创伤暴露 (\(X\)) \(\to\) DNA 甲基化 (DNAm, \(M_t\)) \(\to\) PTSD (\(Y_t\))。DNAm 测量了高维 CpG 位点,且存在非单调缺失。 - 怎么用上去:对每个 CpG 位点(或筛选出的位点),单独拟合时变 SEM,用 LMI 插补缺失的 DNAm 值,GMM 估计时变中介路径系数,计算 NIE 并进行假设检验。 - 得到什么结果:识别出若干 CpG 位点的 DNAm 对 PTSD 具有随时间变化的中介效应(某些位点在早期中介强,某些在晚期强)。部分位点对应的基因在已有 PTSD 文献中被报道。 - 想说明什么:验证 LMI-GMM 在真实高维非单调缺失数据下的可用性,并展示时变中介效应的生物学发现(动态中介路径比横截面中介更能揭示机制)。

🔎 结论是否比证明窄: - Abstract 声称方法"outperforms existing approaches",但此结论仅基于模拟实验的有限设定(具体设定需查原文 Section 4),缺乏在一般非单调缺失机制或模型误设下的渐近偏差/方差理论比较。理论证明可能仅覆盖"在 SEM 与 MAR 假设下 GMM 估计的渐近正态性",而"优于现有方法"的泛泛 claim 缺乏理论界支撑。 - 时变 NIE 的识别严格依赖线性 SEM 假设,若真实数据生成机制偏离线性(如存在交互或非线性),路径乘积不再等于反事实 NIE,此结论的适用范围比实际因果定义窄。


四、开放问题(点到为止)

  1. 时变中介效应的半参数/鲁棒估计:当前估计严格依赖线性 SEM 的路径乘积识别。若放宽 SEM 假设,在存在 intermediate confounders 的纵向设定下,如何构造时变 NIE 的双重鲁棒(DR)估计器或推导其半参数效率界?扎根点:本文依赖参数化 SEM 回避了模型误设风险,而 Tchetgen Tchetgen 等人的半参数纵向中介理论(未在 Abstract 中出现)是自然的理论对标。

  2. 高维 DNAm 中介的选择后推断:DNHS 数据中 CpG 位点极高维,本文逐个位点拟合 SEM 并检验。如何在进行位点筛选后,对时变 NIE 进行有效的选择后推断以控制假阳性?扎根点:Abstract 提到"identifies several CpG sites",但未提及多重检验校正或选择后推断的修正。

  3. 非单调缺失下的 MNAR 敏感性分析:LMI 依赖 MAR(顺序可忽略性)假设。在流行病学纵向数据中,重症 PTSD 患者更可能缺失后续 DNAm 测量(MNAR)。如何构建时变中介效应在 MNAR 下的敏感性分析框架?扎根点:Abstract 仅提"handle the nonmonotone missing",未讨论偏离 MAR 的后果。

  4. GMM 整合多重插补的理论极限:堆叠矩条件的 GMM 在插补次数 \(m \to \infty\) 时的渐近效率与传统 MI Rubin's rule 的效率关系如何?是否存在更优的权重矩阵构造?扎根点:本文将 GMM 与 MI 结合,但未对比此结合方式与基于似然的 MI 在效率上的理论差异。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论