Multivariate dynamic mediation analysis under a reinforcement learning framework¶

作者: Lan Luo, Chengchun Shi, Jitao Wang, Zhenke Wu, Lexin Li
来源: Annals of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：纵向多中介分析旨在将时间序列上的处理对结果的因果总效应，分解为经由不同中介变量传递的直接与间接效应。其根本统计难题在于：当存在多个相互依赖的中介且随时间演化时，上游中介对下游中介的跨期传导与同期依赖，使得中介路径的数量随时间与中介维度指数级增长，导致效应的识别与估计在非参数框架下遭遇维数灾难与路径纠缠。

发展脉络： - 奠基工作：Pearl 的 intervention calculus 与单中介/静态设定下的 mediation formula，为因果中介分析提供了反事实定义与 do-calculus 识别基础。 - 主要进展（纵向与多中介）：VanderWeele & Tchetgen Tchetgen (2016) 与 Zheng & van der Laan (2017) 将中介分析拓展至纵向设定。前者引入了 "mediational g-formula"，在存在受过去处理与中介影响的时间混杂时，通过随机干预定义了自然直接/间接效应的替代版本，解决了经典自然效应不可识别的问题；后者基于类似随机干预思路，在生存结局下推导了 efficient influence curve 并构建了 TMLE 估计量。Lin et al. (2017) 进一步将 mediational g-formula 拓展至生存数据。在多中介设定下，单中介的路径分解失效，需要处理中介间的条件依赖。 - 当前 frontier（结构方程与计算视角）：Maathuis et al. (2008) 与 Nandy et al. (2014) 从高维线性 SEM 与 DAG 出发，利用 intervention calculus 估计联合干预效应，避开了非参数识别的维数灾难，但局限于静态/单时间点。Peters & Bühlmann (2012) 证明了等方差高斯 SEM 的全局可识别性。Zheng et al. (2018) 的 NOTEARS 与 Pamfil et al. (2020) 的 DYNOTEARS 将 DAG 结构学习转化为连续优化问题，为时序 SEM 的计算开辟了新路线。 - 本文的位置：本文站在纵向多中介与线性 SEM 的交叉点，引入 RL 的 MDP 框架来组织时序状态-中介-处理-结果的动态依赖，在时变线性 SEM 下利用 simultaneous interventions 给出闭式中介效应分解与迭代估计。

子线索聚类： 1. 纵向随机干预中介：VanderWeele & Tchetgen Tchetgen (2016)、Zheng & van der Laan (2017)、Lin et al. (2017)。这一簇在非参数或半参数框架下，通过随机干预定义可识别的纵向中介效应，推导 influence function 或 g-formula，但未显式处理多中介间的同期路径纠缠。 2. 高维 SEM 与联合干预效应：Maathuis et al. (2008)、Nandy et al. (2014)、Peters & Bühlmann (2012)。这一簇在静态线性 SEM 下，利用局部结构或等方差假设实现 DAG 识别与联合干预效应估计，但未延伸至时变与纵向。 3. 时序 DAG 连续优化学习：NOTEARS (2018)、DYNOTEARS (2020)、DAGMA (2022)。这一簇提供时序 SEM 结构学习的计算工具，与本文的模型假设（已知时变线性 SEM 结构）互补。 4. RL 与 mHealth 离线策略评估：Luckett et al. (2020)、Shi et al. (2020)、Liao et al. (2020)、Kallus & Uehara (2019)。这一簇为本文的 MDP 建模与 mHealth 应用提供了 RL 视角，但聚焦于策略值估计而非中介分解。

这个方向在追问的核心问题： 1. 在存在受过去处理与中介影响的时间混杂下，纵向中介效应如何定义与识别？（当前主流：随机干预替代自然效应；瓶颈：多中介间的同期路径纠缠仍未有显式闭式分解） 2. 多中介间的条件依赖如何纳入分解？（当前主流：假设中介独立或仅考虑单中介；瓶颈：多中介路径纠缠导致非参数识别维数灾难） 3. 纵向中介效应的半参数有效估计如何实现？（当前主流：TMLE/IPW；瓶颈：多中介纵向下 influence function 维数极高，实际估计困难）

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有纵向中介方法未显式处理"多中介间的条件依赖"与"跨期 carryover 效应"，导致路径纠缠无法分解；本文通过 MDP 与时变线性 SEM 给出闭式分解。 - 被淡化的竞争路线：非参数/半参数随机干预框架（Zheng & van der Laan 2017 的 TMLE）——作者未讨论在更一般模型下是否可通过 orthogonalization / cross-fitting 达到 semiparametric efficiency bound，而是直接依赖线性 SEM 的闭式解。 - 明显该被引却未出现的：Imai et al. 的纵向中介辨识框架、Robins 的 g-estimation 与 longitudinal SEM 的因果解释经典文献、以及近期高维纵向中介的降维/选择方法（如 Bi et al. 2017 的多中介 GWAS 或 Sampson et al. 2018 的 FWER/FDR 控制）。这些是研究者应去查的缺口。

张力：未见明显对立引用。VanderWeele (2016) 与 Zheng (2017) 在"自然效应不可识别时应转向随机干预效应"上一致，与本文的 simultaneous interventions 思路兼容；但本文的线性 SEM 假设比前两者的非参数设定窄得多，这一窄化是否牺牲了稳健性，需研究者自行判断。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(t\)：时间点，\(t = 1, \dots, T\)。
\(A_t\)：第 \(t\) 期的处理变量（二值或连续，如 mHealth 中的干预发送与否）。
\(M_t\)：第 \(t\) 期的中介向量，\(M_t = (M_{t1}, \dots, M_{tp})^\top \in \mathbb{R}^p\)，\(p\) 为中介维度。各分量可同期相互依赖。
\(R\)：最终结局变量（如 \(T\) 期末的健康指标），仅在终端观测。
\(S_t\)：第 \(t\) 期的状态向量（包含除 \(A_t, M_t\) 外的时变混杂、基线协变量等），\(S_t \in \mathbb{R}^q\)。
\(\theta\)：时变线性 SEM 的全部参数集合（包含状态转移矩阵、中介系数矩阵、处理效应系数等），为待估参数/estimand。
可观测数据：从 \(n\) 条独立轨迹中观测 \((S_1, A_1, M_1, S_2, A_2, M_2, \dots, S_T, A_T, M_T, R)\)。每条轨迹是一个 MDP 序列。
不可观测/潜在量：反事实中介 \(M_t(a_{1:t})\)（若在第 \(1\) 到 \(t\) 期强制设定处理为 \(a_{1:t}\) 时中介的取值）、反事实结局 \(R(a_{1:T}, m_{1:T})\)。这些只能通过 SEM 与因果假设识别。

模型（时变线性 SEM + MDP）：数据生成遵循 Markov 决策过程：

\[S_{t+1} = \Gamma_t S_t + \Phi_t M_t + \Psi_t A_t + \epsilon_{S,t},\]

\[M_t = B_t S_t + C_t A_t + D_t M_{t-1} + \epsilon_{M,t},\]

\[R = \beta_S S_T + \beta_M M_T + \beta_A A_T + \epsilon_R,\]

其中 \(\Gamma_t, \Phi_t, \Psi_t, B_t, C_t, D_t, \beta_S, \beta_M, \beta_A\) 为参数矩阵/向量，\(\epsilon\) 为独立噪声。\(M_t\) 依赖于同期状态 \(S_t\)、同期处理 \(A_t\)、上一期中介 \(M_{t-1}\)（carryover），且 \(M_t\) 各分量间的依赖通过 \(D_t\) 的非对角元与噪声协方差隐含。此模型的关键结构是：中介既受上游处理影响，又受自身过去与其他中介过去影响，且影响后续状态与结局。

第二步：最小内核——\(T=2, p=2\) 的闭式中介效应分解

剥离一般性，取 \(T=2\)（两个时间点）、\(p=2\)（两个中介 \(M_{1}, M_{2} = (M_{21}, M_{22})^\top\)），状态 \(S_t\) 简化为标量。此时要分解的核心问题是：处理 \(A_1\) 对结局 \(R\) 的总效应中，有多少是经由 \(M_{21}\) 传递的？

在时变线性 SEM 下，\(A_1\) 对 \(M_{21}\) 的影响有两条路径： 1. 直接路径：\(A_1 \to M_{21}\)（系数 \(C_{2,1}\)，即 \(C_2\) 的第一行）。 2. 上游中介路径：\(A_1 \to M_1 \to M_{21}\)（\(A_1\) 影响 \(M_1\)（系数 \(C_1\)），\(M_1\) 影响 \(M_{21}\)（系数 \(D_{2,1}\)））。

同时，\(M_{21}\) 对 \(R\) 的影响也有直接与间接路径（经由 \(S_2\) 等）。

闭式分解的关键：在 simultaneous interventions 下，将 \(A_1\) 对 \(R\) 经由 \(M_{21}\) 的中介效应定义为：固定 \(A_1\) 为 \(a_1\) 与 \(a_1'\)，同时强制设定 \(M_{21}\) 为其自然值（即不干预 \(M_{21}\)），而将其他中介（\(M_1, M_{22}\)）干预为在 \(A_1=a_1\) 下的反事实值。利用线性 SEM 的叠加性，这一反事实差分可闭式表达为系数乘积的求和：

\[\text{Mediation effect via } M_{21} = \left( C_{2,1} + D_{2,1} C_1 \right) \times \left( \text{effect of } M_{21} \text{ on } R \right),\]

其中 \(C_{2,1} + D_{2,1} C_1\) 是 \(A_1\) 对 \(M_{21}\) 的总效应（直接 + 经由 \(M_1\) 的上游），而 \(M_{21}\) 对 \(R\) 的效应同样可闭式递推计算（包含经由 \(S_2\) 的间接路径）。整个分解无需非参数反事实权重，仅依赖 SEM 参数的线性组合。

为什么成立：线性 SEM 的反事实等于观测值的线性外推（噪声期望为零），simultaneous interventions 下非干预中介的反事实值可由 SEM 递推生成，路径纠缠被矩阵乘积的链式规则自动展开。一般情形（\(T>2, p>2\)）只是此递推的嵌套，闭式表达变为参数矩阵的迭代乘积。

三、这篇论文做了什么¶

三句话： ① 研究了纵向多中介设定下，多变量条件依赖中介的动态中介效应如何定义与闭式分解； ② 核心工具是 Markov mediation process（MDP 结构）+ 时变线性 SEM + simultaneous interventions 与 intervention calculus； ③ 主要结论：在该模型下，个体中介效应有闭式表达，提出的迭代估计量具有 CAN（一致且渐近正态）性质。

关键设定与假设： - Markov mediation process：将纵向中介数据建模为 MDP，状态 \(S_t\) 包含时变混杂，满足 \((S_{t+1}, M_t)\) 仅依赖 \((S_t, A_t, M_{t-1})\)，即 Markov 性。 - 时变线性 SEM：如第二节所列，所有关系为线性加法噪声，噪声独立且均值为零。参数矩阵 \(\theta\) 随时间变化但结构已知（哪些边存在已知，待估的是系数值）。 - Simultaneous interventions：定义中介效应时，对目标中介不干预（让其随处理自然变化），对非目标中介与处理同时干预，以隔离目标中介的传导路径。 - 因果假设：隐含了顺序可忽略性（sequential ignorability）的变体——处理分配 \(A_t\) 在给定历史下无未观测混杂；同时 SEM 的线性与 Markov 结构确保了反事实的闭式生成。 - 与已有文献的对比：相比 VanderWeele (2016) 与 Zheng (2017) 的非参数随机干预框架，本文假设了线性 SEM 与已知图结构，大幅缩小了模型空间，换取了闭式解；相比 Maathuis et al. (2008) 的静态联合干预，本文拓展至时变与 carryover。

主要结果： 1. 定理 1（闭式中介效应表达）：在 Markov mediation process 与时变线性 SEM 下，任意中介 \(M_{tk}\) 的个体中介效应（处理 \(A_s\) 对结局 \(R\) 经由 \(M_{tk}\) 的间接效应）可闭式表达为 SEM 参数矩阵的迭代乘积组合。直觉：线性 SEM 的反事实是参数的线性函数，simultaneous interventions 将路径纠缠转化为矩阵链式乘积，carryover 效应被 \(D_t\) 矩阵的跨期乘积捕获。必要条件：图结构已知、线性 SEM、Markov 性、噪声独立。 2. 定理 2-3（迭代估计量的 CAN 性质）：提出基于观测轨迹的迭代估计程序（逐时间点回归 SEM 参数，再代入闭式表达计算中介效应），证明估计量 \(\hat{\delta}\) 满足 \(\sqrt{n}(\hat{\delta} - \delta) \to N(0, \Sigma)\)，其中 \(\Sigma\) 可由影响函数推导。直觉：每期回归是标准线性 M-估计，迭代代入后由 delta method / M-估计理论保证渐近性。技术难点：多期参数的联合估计与中介效应的非线性（矩阵乘积）代入，需追踪误差的跨期传播。

证明路线与技术技巧： - 整体路线： 1. 在 SEM 下定义 simultaneous interventions 的反事实中介与结局，利用线性叠加写出反事实期望。 2. 将中介效应的反事实差分表达为 SEM 参数矩阵的乘积求和（闭式表达定理）。 3. 对每期 SEM 参数分别用 OLS / 线性回归估计，得到 \(\hat{\theta}\)。 4. 将 \(\hat{\theta}\) 代入闭式表达，得中介效应估计 \(\hat{\delta}\)。 5. 用 M-估计理论（逐期回归的估计方程联合）+ delta method 证明 \(\hat{\delta}\) 的 CAN 性质，推导渐近方差。 - 关键跳跃点：从逐期回归的参数估计到中介效应估计的渐近分布——难点在于中介效应是多期参数的非线性组合（矩阵乘积），需精确计算影响函数以避免跨期误差累积导致渐近方差失真。作者通过将中介效应视为参数的函数，对逐期估计方程的联合应用 M-估计理论，推导出影响函数的闭式。 - 技术技巧点名： - Intervention calculus (Pearl)：用于定义 simultaneous interventions 下的反事实与路径消除，是闭式分解的基础。 - M-estimation theory：用于证明迭代估计量的 CAN 性质，将逐期回归的估计方程打包为联合 M-估计问题。 - Delta method：用于从参数估计的渐近分布推导中介效应（参数的非线性函数）的渐近分布。 - Markov decision process (MDP)：用于组织时序依赖与状态转移，确保递推的合法性。

真实例子与应用： - 数据/场景：mHealth（移动健康）数据，来自微随机化试验，目标是通过手机推送干预改善患者体力活动。 - 怎么用上去：将患者的时变状态（如过去步数、时间、位置等）作为 \(S_t\)，干预发送与否作为 \(A_t\)，中介（如步数、心情等）作为 \(M_t\)，长期健康指标作为 \(R\)。在时变线性 SEM 下估计参数，计算不同中介（步数 vs 心情）在不同时间点的中介效应闭式值。 - 得到什么结果：量化了干预经由步数与心情的间接效应比例，揭示了跨期 carryover 效应（前一天的步数影响后一天的心情中介路径）的贡献。 - 想说明什么：验证闭式中介效应在实际纵向多中介数据中的可计算性与解释力，展示 MDP 建模如何捕捉动态依赖。

🔎 结论是否比证明窄： - 闭式中介效应表达严格依赖线性 SEM 与已知图结构，但作者在讨论中泛泛暗示该方法可拓展至非线性或半参数设定，未给出证明或具体条件——这是超出证明范围的 claim。 - CAN 性质证明假设了每期回归的参数估计误差独立或可联合控制，但在高维或强混杂下此条件可能不满足，作者未显式讨论此边界。

四、开放问题（点到为止，扎根具体语句）¶

非线性 / 半参数拓展：作者在讨论中提及可拓展至非线性 SEM，但闭式表达与迭代估计均依赖线性叠加。要证什么：在半参数模型（仅假设 Markov 与部分线性结构）下，中介效应是否仍可识别，能否通过 orthogonalization / cross-fitting 构造达到 semiparametric efficiency bound 的估计量？扎根点：讨论段 "future work could extend to nonlinear models"。
图结构未知时的联合学习与估计：本文假设图结构已知，实际中结构需从数据学习。要估什么：在时变线性 SEM 下，先用 DYNOTEARS/DAGMA 学习图结构，再估计中介效应，联合估计的渐近性质（结构学习误差对中介效应估计的影响）如何？扎根点：设定段 "we assume the graph structure is known"。
高维中介下的路径选择与多重检验：当 \(p\) 很大时，中介效应数量指数级增长，哪些路径显著？要算什么：对闭式中介效应的多重检验程序（FWER/FDR 控制），或基于稀疏假设的路径选择。扎根点：引言段 "the number of paths increases exponentially" 与未引用的 Sampson et al. (2018) / Bi et al. (2017)。
与随机干预框架的统一：本文的 simultaneous interventions 与 VanderWeele (2016) 的 interventional effects 在线性 SEM 下是否等价？要证什么：在一般模型下两者的识别条件差异，以及线性 SEM 是否是两者重合的特例。扎根点：定义段 "built upon simultaneous interventions" 与 VanderWeele (2016) 的 mediational g-formula。

提醒：要确认第 1 条是否真 gap，去读近 5 篇 longitudinal mediation 的 intro——若都指向"非线性/半参数下闭式解不可得需依赖 influence function"，则为共识真 gap；若已有半参数解法，则为机会（可比较效率）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Multivariate dynamic mediation analysis under a reinforcement learning framework¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论