Identification and estimation of mediational effects of longitudinal modified treatment policies¶

作者: Brian Gilbert, Katherine Hoffman, Nicholas Williams, Kara Rudolph, Edward J Schenck et al.
来源: Biostatistics
主题: 因果推断
相关性: 10/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：因果中介分析旨在将处理对结局的总效应分解为直接效应与间接效应（通过中介变量起作用），以揭示因果路径。当处理、混杂与中介随时间纵向演变，且处理为连续或多值变量时，传统基于确定性干预（如将处理固定为某一值）的自然直接/间接效应面临两大根本障碍：一是存在受处理影响的中间混杂时，自然效应依赖跨世界反事实独立性而不可识别；二是连续处理的确定性干预违反正性假设且缺乏实际可操作性。纵向修正处理政策下的中介分析，通过引入随机/依赖自然值的干预与纵向非参数结构方程模型（NPSEM），试图在非参数设定下解决识别与 \(\sqrt{n}\)-一致渐近正态（CAN）估计问题。

发展脉络： - 奠基工作：Robins et al. [2004] 首次引入了依赖处理自然值的干预概念（即后来所称的 MTP），为连续/纵向处理的可行干预奠定基础。VanderWeele et al. [2014] 明确指出了传统自然效应在存在中间混杂时的识别死结，并提出了替代性的干预性直接/间接效应分解。 - 主要进展：Haneuse & Rotnitzky [2013] 与 Muñoz & van der Laan [2011] 分别在单时间点连续处理设定下，形式化了修正处理政策与随机干预，给出了 IPTW 与双稳健估计器。VanderWeele & Tchetgen [2016] 将干预性中介效应推广至纵向设定，提出了中介 g-公式，但依赖参数模型。Díaz & Hejazi [2020] 及 Hejazi et al. [2023] 在单时间点随机干预下发展了非参数中介分析，给出了效率界与多稳健估计器。Zheng & van der Laan [2017] 提出了基于条件分布的纵向随机干预中介框架及 TMLE 估计器。 - 当前 frontier：Díaz et al. [2021] 正式定义了纵向修正处理政策（LMTP），给出了纵向序列回归识别公式与序列双稳健（SDR）估计器，但未涉及中介分解。Kennedy [2018] 提出了增量倾向得分干预以彻底避开正性假设，但未触及纵向中介路径。 - 本文的位置：本文填补了“纵向 + 连续/MTP 处理 + 中介分解 + 非参数双稳健/高效估计”的交汇空白。作者将 Díaz et al. [2021] 的 LMTP 识别与估计框架，与 Díaz & Hejazi [2020] 的单时间点随机干预中介分解合流，给出了完整的纵向 MTP 中介理论。

子线索聚类： 1. 修正处理政策 / 随机干预（MTP / Stochastic / Incremental）：关注连续/多值处理下确定性干预的不可行性，转向依赖自然值或仅改变倾向得分的干预。核心文献：Robins [2004], Haneuse & Rotnitzky [2013], Muñoz & van der Laan [2011], Díaz et al. [2021], Kennedy [2018]。 2. 中间混杂下的中介分解：关注跨世界独立性的失效，转向干预性或随机性中介效应定义。核心文献：VanderWeele et al. [2014], VanderWeele & Tchetgen [2016], Díaz & Hejazi [2020], Zheng & van der Laan [2017]。 3. 非参数双稳健 / 高效估计与 DML：关注在弱正性或高维下利用机器学习估计干扰参数，通过交叉拟合与伪结局实现 \(\sqrt{n}\)-CAN 与效率。核心文献：Kennedy [2024], Benkeser & Van Der Laan [2016], Bickel et al. [2009]。

这个方向在追问的核心问题： 1. 在存在受处理影响的纵向中间混杂时，如何定义具有因果解释且非参数可识别的直接/间接效应？ 2. 对于连续/多值纵向处理，何种干预政策既满足正性假设又具有实际科学意义？ 3. 在非参数设定下，如何构造估计器，使其在干扰参数以 \(n^{-1/4}\) 或更慢速率收敛时仍保持 \(\sqrt{n}\)-CAN 与半参数有效？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有纵向中介方法要么依赖参数模型（VanderWeele & Tchetgen [2017], Tai et al. [2022]），要么未处理连续/MTP 处理（Zheng & van der Laan [2017]），而 LMTP 框架虽解决了纵向连续处理的识别与估计，但未提供中介分解。因此，将 LMTP 与单时间点中介分析合流是“显然的下一步”。 - 被淡化或回避的竞争路线：Kennedy [2018] 的增量倾向得分干预路线完全避开了正性假设，本文仅提及其“标准 \(\sqrt{n}\) 速率不可能”的缺点，但未深入比较 MTP 与增量干预在中介设定下的优劣；Zheng & van der Laan [2017] 的 TMLE 路线被提及，但本文选择了伪结局 + 交叉拟合路线，未讨论 TMLE 在此处是否具有计算或理论优势。 - 明显该被引却未出现的：Proximal causal inference 近年在纵向混杂与不可测混杂上有突破（如 Ying et al. 2023 的 proximal mediation），本文假设了无不可测混杂（NPSEM 的随机化假设），intro 中未提及此替代路线，这是一个值得研究者去查的缺口。

张力：未见明显对立引用。但存在概念层面的张力：VanderWeele et al. [2014] 与 Díaz & Hejazi [2020] 对“干预性中介效应”的定义与分解路径在数学形式上不同（前者基于边际分布，后者基于条件分布），本文采用了后者（随机干预）的分解逻辑，并声称其更优（无需特定跨世界独立性），但这并非数学矛盾，而是因果解释的选择。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

符号与参数：
\(\tau\)：时间点总数。
\(Z = (L_1, A_1, L_2, A_2, \dots, L_\tau, A_\tau, Y)\)：纵向数据结构，\(L_k\) 为时间 \(k\) 的混杂与中介变量，\(A_k\) 为处理，\(Y\) 为结局。
\(M_k \subset L_{k+1}\)：被指定为时间 \(k+1\) 的中介变量子集（如 \(L_2\) 中的急性肾损伤 AKI）。
\(d(a, l)\)：修正处理政策函数，将实际处理值 \(a\) 与历史 \(l\) 映射为干预下的处理值。例如 \(d(a) = a - \delta\)（若 \(a > \delta\)，否则 \(a\)）。
\(Z^d\)：在 MTP \(d\) 下的反事实数据轨迹。
\(\theta_{\text{total}}, \theta_{\text{direct}}, \theta_{\text{indirect}}\)：目标因果 estimand，分别为总效应、直接效应与间接效应。
\(Q^d_k(L_k)\)：序列回归函数，即在 MTP 下给定历史 \(L_k\) 的反事实结局期望。
\(g_k(A_k | L_k)\)：处理机制，即给定历史的处理密度/概率。
\(n\)：样本量；\(p\)：协变量维数。
模型（NPSEM）：数据由非参数结构方程模型生成：\(L_k = f_{L_k}(L_{<k}, A_{<k}, U_{L_k})\), \(A_k = f_{A_k}(L_{\leq k}, A_{<k}, U_{A_k})\), \(Y = f_Y(L_{\leq \tau}, A_{\leq \tau}, U_Y)\)。其中 \(U\) 为外生误差项，彼此独立（隐含了纵向无不可测混杂假设）。干预 \(d\) 替换了 \(f_{A_k}\)，生成反事实 \(Z^d\)。
可观测数据：研究者观测到 \(n\) 个 i.i.d. 复制 \(Z_1, \dots, Z_n\)。不可观测的是反事实轨迹 \(Z^d\) 及误差 \(U\)，只能靠 NPSEM 的因子分解与随机化假设将 \(\theta\) 映射为可观测分布的泛函。

第二步：最小内核（两时间点、连续处理位移、单中介）

剥掉所有纵向递归与高维一般性，考虑 \(\tau=2\)，最小数据结构 \(Z = (L_1, A_1, M, A_2, Y)\)，其中 \(M \subset L_2\) 为中介，\(A_1, A_2\) 为连续处理。 - MTP 定义：\(d(A_k) = A_k - \delta\)（向下位移 \(\delta\)）。 - 总效应：\(\theta_{\text{total}} = E[Y^{d(A_1), d(A_2)}] - E[Y]\)。 - 中介分解的核心困难：在连续处理与中间混杂下，自然间接效应 \(E[Y^{A_1, A_2}] - E[Y^{A_1, d(A_2)}]\) 不可识别（因 \(M\) 受 \(A_1\) 影响，且混杂 \(L_2\) 同时受 \(A_1, M\) 影响）。本文采用随机干预分解： - 直接效应：干预 \(A\) 但让 \(M\) 取其在干预 \(d\) 下自然分布的值。在 \(\tau=2\) 时，退化为：\(\theta_{\text{direct}} = E[Y^{d(A_1), d(A_2), M^{d(A_1), A_2}}] - E[Y^{d(A_1), d(A_2)}]\)（此处简化表述，实质是对比 \(A\) 全干预 vs 仅干预 \(A\) 但保留 \(M\) 路径）。 - 间接效应：\(\theta_{\text{indirect}} = \theta_{\text{total}} - \theta_{\text{direct}}\)。 - 识别的最小内核：利用 NPSEM 因子分解，\(E[Y^d]\) 退化为序列期望： \(Q^d_2(L_2) = E[Y | A_2 = d(A_2), L_2]\)（在 \(A_2\) 位移下回归 \(Y\)） \(Q^d_1(L_1) = E[Q^d_2(L_2) | A_1 = d(A_1), L_1]\)（在 \(A_1\) 位移下回归伪结局） \(\theta_{\text{total}} = E[Q^d_1(L_1)]\)。中介效应的识别则需在 \(Q^d_k\) 的递归中，对 \(M\) 的分布进行积分（随机干预），而非固定 \(M\)。 - 估计的最小内核：构造双稳健伪结局 \(\tilde{Y}_k\)。在最后一步，伪结局 \(\tilde{Y}_2 = Y\)；向前推，\(\tilde{Y}_1 = Q^d_1(L_1) + \frac{I(A_1=d(A_1))}{g_1(A_1|L_1)}(\tilde{Y}_2 - Q^d_2(L_2))\)。最终估计量 \(\hat{\theta} = \frac{1}{n}\sum \tilde{Y}_1\)。若 \(Q\) 或 \(g\) 之一正确，估计量一致；若两者均以 \(n^{-1/4}\) 收敛且交叉拟合，则 \(\sqrt{n}\)-CAN 且半参数有效。

三、这篇论文做了什么¶

三句话： ① 在纵向连续处理与中间混杂设定下，研究了修正处理政策（MTP）的因果中介效应识别与估计问题； ② 核心工具是非参数结构方程模型（NPSEM）下的纵向因子分解、双稳健伪结局与交叉拟合序列回归； ③ 主要结论是给出了非参数可识别的干预性直接/间接效应分解，并构造了序列双稳健、\(\sqrt{n}\)-CAN 且半参数有效的估计器，实证揭示了“不一致中介”现象。

关键设定与假设： - NPSEM 与独立外生误差：假设 \(Z\) 由 NPSEM 生成，且误差项 \(U\) 相互独立。统计含义：隐含了纵向无不可测混杂假设（sequential randomization），即 \(A_k \perp\!\!\!\perp (Z^d, U) | L_{\leq k}, A_{<k}\)。相比参数模型设定（如 VanderWeele & Tchetgen [2017]），本文完全非参数；相比 Proximal CI 路线，本文假设了更强的可测混杂。 - MTP 定义：干预 \(d(a, l)\) 依赖处理的自然值与历史。统计含义：放宽了标准正性假设，仅需 \(P(A_k = d(a, l) | L_k = l) > 0\) 对 \(a\) 的支撑集成立，避免了连续处理下确定性干预 \(P(A=a|L)>0\) 对所有 \(a\) 的严苛要求。 - 随机干预中介分解：直接效应定义为在干预 \(A\) 但保留 \(M\) 的条件分布下的效应。统计含义：绕开了跨世界反事实独立性，使得在中间混杂 \(L_k\) 存在时仍可识别。

主要结果： 1. 识别定理（Theorem 1 / 递归公式）：给出了纵向 MTP 下干预性直接与间接效应的非参数识别公式。核心是推广了 Díaz et al. [2021] 的序列回归，在递归期望中对中介 \(M\) 的分布进行边际化，而对非中介部分 \(L \setminus M\) 保持条件化。直觉：将 \(M\) 视为随机分配的“通道”，而非固定值。 2. 效率界与影响函数（Theorem 2）：推导了目标 estimand 的非参数效率界与有效影响函数（EIF）。EIF 包含两部分：序列回归残差项与处理机制加权项。证明了 EIF 的条件期望等于条件效应（方程 6 的推广），这是构造伪结局的基石。 3. 序列双稳健估计器（Theorem 3 / Algorithm 1）：构造了基于交叉拟合序列回归的估计器。必要条件：在每个时间点 \(k\)，要么结局回归 \(Q_k\) 正确，要么处理机制 \(g_k\) 正确，估计量即一致；若两者均以 \(n^{-1/4}\) 速率收敛且使用交叉拟合，估计量达到 \(\sqrt{n}\)-CAN 与半参数有效。解决的技术难点：在纵向设定下，伪结局的构造是递归的，误差会随时间累积；通过交叉拟合与 EIF 的特定中心化，消除了经验过程项，使得即使使用慢速率收敛的 ML 估计器，累积误差仍可被控制。

证明路线与技术技巧： - 整体路线： 1. 定义 MTP 下的反事实与干预性中介 estimand； 2. 利用 NPSEM 因子分解与随机化假设，将 estimand 映射为可观测分布的递归泛函（识别）； 3. 在 tangent space 中推导 EIF，计算效率界； 4. 利用 EIF 的条件期望性质，构造递归伪结局 \(\tilde{Y}_k\)； 5. 对伪结局取样本均值，并引入交叉拟合消除经验过程条件。 - 关键跳跃点： - 伪结局的递归构造：从 \(k=\tau\) 到 \(k=1\)，\(\tilde{Y}_k\) 不仅包含当前步的残差加权，还嵌套了后续步的伪结局。难点在于证明此递归构造在 \(Q\) 或 \(g\) 错误时仍能抵消偏差（序列双稳健性）。作者利用了 Díaz et al. [2021] 的引理，证明条件期望的迭代在错估下仍收敛至真实识别泛函。 - 技术技巧点名： - Efficient Influence Function (EIF)：用于计算效率界与构造伪结局的中心化项，保证半参数有效性。 - Sequential Doubly Robust Pseudo-outcomes：递归构造伪结局，使得估计量在每一步都具有局部双稳健性，整体具有序列双稳健性。 - Cross-fitting (DML)：样本二分或 K 分，在一半上估计干扰参数，在另一半上计算伪结局。用于切断干扰参数估计与伪结局计算的相关性，杀死经验过程项，允许 \(n^{-1/4}\) 收敛的 ML 估计器。 - Conditional Expectation of EIF (Equation 6)：将 EIF 的条件期望与条件效应挂钩，这是伪结局递归能够“自校准”的关键代数性质。

真实例子与应用： - 数据 / 场景：COVID-19 重症患者的临床数据（Goyal et al. 2020），393 名患者。处理 \(A\) 为有创机械通气（IMV），中介 \(M\) 为急性肾损伤（AKI），结局 \(Y\) 为死亡。纵向设定简化为单时间点（因数据限制），但理论适用纵向。 - 怎么用上去：定义 MTP 为“延迟/避免插管”（将 IMV 概率向低位移），估计 IMV 对死亡的直接效应与通过 AKI 的间接效应。使用交叉拟合序列回归（具体使用了 Highly Adaptive LASSO 估计 \(Q\) 与 \(g\)）。 - 得到什么结果：总效应显示 IMV 增加死亡风险；分解后发现，直接效应（IMV 直接保护肺功能）是负向（降低死亡）的，而间接效应（IMV 导致 AKI 从而增加死亡）是正向的。两者方向相反，形成“不一致中介”。 - 想说明什么：验证了理论框架在连续/二元处理混合下的可行性；展示了中介分析的科学价值——若只看总效应，会认为 IMV 完全有害，但分解后发现 IMV 的直接呼吸支持是有益的，有害的是其引发的 AKI，这为临床干预（如保护肾脏的通气策略）提供了直接证据。

🔎 结论是否比证明窄： - 作者在讨论中泛泛 claim 估计器对“多种灵活机器学习算法”有效，但严格证明仅依赖于 \(n^{-1/4}\) 收敛速率的条件。对于随机森林或神经网络，作者承认“though we have not verified”其是否满足此速率（引用了 Wager & Walther, Chen & White），此处证明窄于结论。 - “不一致中介”是实证发现，作者未在理论上探讨其产生的条件或边界，仅作为现象报告。

四、开放问题（点到为止，扎根具体语句）¶

不可测混杂下的纵向中介识别：本文依赖 NPSEM 的无不可测混杂假设。Proximal CI 近年已处理了纵向不可测混杂，但未触及 MTP 中介。扎根点：Intro 中未提及 Proximal 文献，且假设列表中明确假设了顺序随机化。
慢速率干扰参数下的高阶修正：当 \(Q\) 与 \(g\) 均以慢于 \(n^{-1/4}\) 收敛时，本文的 \(\sqrt{n}\)-CAN 失效。扎根点：Theorem 3 的必要条件与 Kennedy [2024] 的 DML 综述，均指明 \(n^{-1/4}\) 是硬门槛；HOIF（高阶影响函数）是已知突破此门槛的路线，但本文未采用。
增量干预 vs MTP 在中介设定下的比较：Kennedy [2018] 的增量干预完全避开正性，本文 MTP 仍需弱正性。扎根点：Intro 提及 Kennedy [2018] 时仅指出其条件平均效应估计的 \(\sqrt{n}\) 速率困难，但未比较两者在中介分解下的因果解释力与正性优势。
纵向多时间点下的计算与优化：交叉拟合序列回归在 \(\tau\) 大时，递归拟合 \(Q\) 与 \(g\) 的计算树呈指数增长。扎根点：Algorithm 1 的实现细节，以及研究者自身在 U-statistics 计算复杂度上的兴趣，可追问此递归交叉拟合的算法复杂度界。

Maintained by 陈星宇 · Homepage · Source on GitHub

Identification and estimation of mediational effects of longitudinal modified treatment policies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论