Identification and multiply robust estimation in causal mediation analysis across principal strata¶

作者: Chao Cheng, Fan Li
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/jrsssb/qkaf037

一、核心问题与贡献（3句话）¶

① 本文研究在存在治疗后事件（如不依从、死亡）的因果中介分析中，如何识别总体以及由治疗后事件联合潜在值定义的主层（principal strata）的自然中介效应（NIE/NDE）。
② 核心方法是非参数有效影响函数（EIF）推导，进而构造多重稳健（multiply robust）估计量，该估计量在四类模型误设组合下仍保持一致，且当所有 nuisance 模型正确时达到半参数有效；同时提出基于 data‑adaptive ML 的非参数有效估计和针对关键识别假设的敏感性分析。
③ 主要贡献是将 principal stratification 框架系统嵌入因果中介的 EIF/多重稳健估计，给出了每个主层中介估计量的显式 EIF 和可计算的多重稳健估计器，并通过模拟和两个真实数据应用（流行病学/临床）验证了性能。

二、基础设定¶

核心概念与符号¶

\(A\)：二值处理（0/1）。
\(D\)：治疗后二值事件（如不依从、死亡），其潜在结果记为 \(D(a), a \in \{0,1\}\)。
Principal stratum：由 \((D(1), D(0))\) 的联合值定义，例如 {never‑taker: (1,1), complier: (0,1), ...}（符号可随上下文调整）。
\(M\)：中介变量（treatment‑after 或 baseline? 文中应设定为在 \(A\) 之后、\(Y\) 之前，且受 \(D\) 影响）。
\(Y\)：结局变量，潜在结果 \(Y(a,m)\) 或 \(Y(a)\)。
Natural mediation effects:
总体自然间接效应 \(\text{NIE} = \mathbb{E}[Y(1, M(1)) - Y(1, M(0))]\)，
总体自然直接效应 \(\text{NDE} = \mathbb{E}[Y(1, M(0)) - Y(0, M(0))]\)，
类似定义主层内的 NIE 和 NDE（给定 \(D(1), D(0)\)）。
可观测变量：\((A, X, D, M, Y)\)，其中 \(X\) 为基线协变量。

关键假设¶

Consistency: 观测到的 \(D = D(A)\), \(M = M(A)\), \(Y = Y(A, M)\)。
Positivity: 对 \(X\) 的每个取值，处理概率 \(P(A=a\mid X)>0\)，且中介和事件的条件概率非零。
序贯可忽略性（Sequential ignorability）（对总体中有效应）：
(i) \(Y(a', m) \perp A \mid X\)
(ii) \(M(a) \perp A \mid X\)
(iii) \(Y(a', m) \perp M \mid A, X, D\)（或加上 \(D\) 的条件）
本文针对 principal strata 需要额外假设，例如主层内序贯可忽略性或主层成员的某种可忽略性（如“principal ignorability”）。
主层识别假设：需要假设 \(D(1), D(0)\) 的联合分布可识别（如通过工具变量或 monotonicity），否则 principal strata 不可识别；本文可能采用 monotonicity（\(D(1)\ge D(0)\)）或引用已有工作。
模型的乘法稳健性：四类模型分别为：① \(P(D\mid A,X)\)；② \(P(M\mid A,D,X)\)；③ \(\mathbb{E}[Y\mid A,M,D,X]\)；④ \(P(D(1),D(0)\mid X)\) 的某种模型。多重稳健性意味着只要四类模型中的某三类正确，估计量仍一致（具体组合需从 EIF 推导得出）。
与已有文献放宽/强化：相比标准的 natural mediation 效应识别（Imai et al., 2010; Tchetgen & Shpitser, 2012），本文增加了对治疗后事件 \(D\) 的 principal stratum 分层，并放松了完全忽略 \(D\) 的假设；相比仅做 principal stratification 的因果中介（如 VanderWeele, 2012），本文提供了完整的半参数效率框架和多重稳健估计。

问题背景¶

已有因果中介方法大多假定不存在治疗后事件，或仅将其视为简单协变量调整，但实践中不依从或截尾事件（如死亡）会破坏中介分析的经典序贯可忽略性假设。
最相关的2–3篇参考文献：
Imai, Keele & Tingley (2010) – 标准中介分析框架，但未考虑 principal strata。
Frangakis & Rubin (2002) – 提出 principal stratification，但未用于中介效应。
Tchetgen & Shpitser (2012) – 半参数有效估计自然中介效应，但无治疗后事件 / 主层。
本文弥补了这些工作的交叉空白。

三、主要定理 / 核心结果¶

定理1（总体自然中介效应的识别与EIF）¶

原文陈述：在假设1–3（及适当的主层识别假设）下，总体 NIE 和 NDE 可由观测数据识别，且其非参数有效影响函数（EIF）具有形式：

\[\varphi_{\text{NIE}}(O) = \psi_{\text{NIE}} - \tau_{\text{NIE}}, \quad \text{其中 } \psi_{\text{NIE}} \text{由一堆条件期望的加权和表示}\]

具体地，EIF可通过投影方法从全推断曲线导出，且半参数效率界由EIF的方差给出。

直观解释：EIF 刻画了每个观测数据对目标参数的影响曲率；多重稳健估计量通过向 EIF 方程替换 nuisance 函数得到。该 EIF 使得估计量可达到半参数有效，即方差下界等于该 EIF 的方差。

解决了什么技术难点：在存在治疗后事件 \(D\) 时，自然中介效应参数空间被主层划分所复杂化，EIF 的推导需要同时处理 \(D(1), D(0)\) 联合分布的不可观察部分。本文通过引入“主层指示变量的条件概率”并利用 monotonicity 或其他识别条件，成功写出了闭合形式的 EIF。

适用条件与局限：需要 monotonicity（或等价的可识别主层分布的条件）；若 monotonicity 不成立，则 principal strata 不可识别，需要额外工具变量假设；另外，EIF 依赖于中介模型和主层模型的正确设定，在实际应用中这些模型可能高维，需 data‑adaptive 方法。

定理2（多重稳健估计量及其渐近性质）¶

原文陈述：令 \(\widehat{\theta}_{\text{MR}}\) 为基于 EIF 的估计量，通过样本矩条件求解。在四类 nuisance 模型（\(P(D\mid A,X)\), \(P(M\mid A,D,X)\), \(\mathbb{E}[Y\mid A,M,D,X]\), 以及主层条件概率模型）中，如果任意三类模型正确指定，则 \(\widehat{\theta}_{\text{MR}}\) 是 \(\theta_0\) 的 \(\sqrt{n}\)-一致估计；若所有四类正确，则 \(\widehat{\theta}_{\text{MR}}\) 达到半参数有效，且渐近方差等于 EIF 的方差。

直观解释：多重稳健性意味着研究者只需猜对大多数模型，估计就不会偏；若全部猜对则效率最优。这大大降低了实践中的模型风险。

解决了什么技术难点：证明多重稳健性需要对 EIF 进行分解，验证其满足“无偏”的乘性结构；技术难点在于主层模型的误设如何不影响识别——要求 EIF 中涉及主层的部分在某种意义下“可抵消”。

适用条件与局限：需要各个 nuisance 模型是参数化的且估计收敛速度达到 \(o(n^{-1/4})\) 以上（对于参数模型自动成立）；若使用 data‑adaptive ML，则需 cross‑fitting 以保证 \(\sqrt{n}\)-性质。另外，四类模型中的“正确”定义需谨慎，部分模型涉及不可观察的潜在变量。

定理3（非参数有效估计与敏感性分析）¶

原文陈述：通过将 EIF 与 data‑adaptive ML（如随机森林、梯度提升）结合，并采用 cross‑fitting，构造的估计量 \(\widehat{\theta}_{\text{DML}}\) 在宽松的正则条件下是 \(\sqrt{n}\)-CAN（一致且渐近正态），无需参数模型假设。同时提出基于 omitting mediator-outcome confounders 的敏感性参数（如 \(R^2\) 型度量）来评估序贯可忽略性违背的影响。

核心发现：模拟显示多重稳健估计量在正确模型下偏差极低且覆盖率达到名义水平；data‑adaptive 版本在复杂 DGP 下依然稳健。两个真实数据（意大利养老保险改革数据/心衰临床试验）展示了实际应用。

与 baseline 的对比：与仅用单一正确模型的 naïve 估计相比，多重稳健估计在模型误设下（如主层模型错、结局模型错）仍保持较低偏差；与 IPW 或 regression-based 估计相比，MSE 更小。

结论的稳健性：敏感性分析显示，即使中介-结局混杂强度中等，点估计变化尚在可接受范围内；但强混杂可能导致显著偏倚。

四、证明框架 / 方法设计¶

证明主干逻辑（理论部分）¶

EIF 推导：使用投影法，先计算在完全非参数模型下目标参数对分布的全微分影响曲线，再通过降维投影到观测数据切空间。具体地，将目标参数（总体 NIE 或主层 NIE）表示为泛函 \(\Psi(P)\)，其 EIF 为 \(\tilde{\varphi}\) 满足 \(\Psi(P_\epsilon) = \Psi(P_0) + \epsilon \int \tilde{\varphi} dH + o(\epsilon)\)。
多重稳健性证明：写出 EIF 形如 \(\varphi = \sum_{k} \mathrm{score}_k\)，其中每个 score 对应一类 nuisance 的 score。然后证明如果任意三类 nuisance 正确，则 \(\mathbb{E}[\varphi] = 0\) 在真实的分布下成立（从而矩估计一致）。关键步骤是依次将 EIF 展开为四部分，并利用条件期望迭代剔除误设项的影响。

拆解为关键逻辑步骤¶

建立临时性影响曲线：在扩展模型中引入主层条件概率 \(p_s = P(D(1)=d_1, D(0)=d_0 \mid X)\)，并写出目标参数关于 \(p_s\) 和观察数据分布的显示表达式。
计算各 nuisance 参数的 scores：写出 \(P(D\mid A,X)\), \(P(M\mid A,D,X)\), \(E[Y\mid A,M,D,X]\), \(p_s\) 对应的似然 score（或部分 score）。
投影到观测切空间：将全模型影响曲线投影到由这些 score 张成的正交互补子空间，获得 EIF。这一步需要仔细处理主层潜在变量切空间（由于 \(D(1), D(0)\) 不可观察，其似然需通过 G‑computation 公式表达）。
构造多重稳健估计量：将 EIF 中的未知 nuisance 替换为估计值 \(\widehat{\eta}\)，求解 \(\frac{1}{n}\sum_i \varphi(O_i;\widehat{\eta}) = 0\)（通常有封闭解或一步估计）。
证明多重稳健性：验证即使某两个 nuisance 错误，只要另外两个正确，EIF 的条件期望仍为零。具体推导需写出 \(\mathbb{E}[\varphi(O;\eta_0)] = 0\) 和 \(\mathbb{E}[\varphi(O;\eta_1,\eta_2,\eta_3,\eta_4)]\) 在误设下的偏差表达式，并利用正交性消除交叉项。

最关键的技巧性引理或“跳跃点”¶

主层分布投影引理：将不可观察的 \(p_s\) 的 score 转化为可观察协变量的函数，需要利用 monotonicity 或工具变量假设将 \(p_s\) 与 \(P(D\mid A,X)\) 联系起来。这个步技巧性很强，决定了 EIF 的封闭形式是否可写。
多重稳健结构：EIF 恰好可以写成四个分量的和，每个分量在一组模型误设下被相应的正交性“抵消”。证明中需要展示若模型 \(k\) 错误，则包含 \(k\) 的分量不为零，但其他三个分量的条件期望正好抵消该偏差——这需要精细的条件期望分解（类似 Tchetgen & Shpitser 2012 的“乘积形式”）。

数学工具评价¶

经典工具组合：半参数投影理论、EIF 方程、多重稳健性结构（来自 van der Laan & Robins 等）。
创新点：在 principal stratum 设定下找到了合适的 EIF 分解形式，并利用了 monotonicity 简化可识别性。整体是经典工具的巧妙组合，非全新框架。

五、问题发现：研究者能做什么¶

研究者武器库见 technical_arsenal。下面按 A/B/C 三档给出具体问题清单。

(A) 立即可做（最多2条）¶

问题表述：在单调性假设下，检验本文提出的多重稳健估计量在纵向中介（longitudinal mediation with time‑varying post‑treatment event）中的可扩展性。具体地，推导当存在两个时间点的治疗后事件 \(D_t, t=1,2\) 时，主层定义为 \((D_1(1), D_1(0), D_2(1), D_2(0))\) 的联合，其自然中介效应（累计 NIE）的 EIF 形式，并验证是否保持多重稳健结构（可能从 4 类模型扩展为更多类）。
用到武器库：very_familiar -> estimation theory in causal inference（直接构造 EIF）以及 moderately_familiar -> HOIF (Higher-Order Influence Functions)（如果需要处高维 nuisance 收敛率不足，可考虑高阶修正，但此处先尝试经典 EIF 扩展）。
第一步具体动作：写出简化纵向设定下的目标参数表达式（如两阶段 NIE），计算观测数据的似然分，尝试投影到切空间，看 EIF 是否仍可分解为若干个正交分量。写一个小型 R 模拟，在正确模型和误设模型下比较收敛性。
与本文已有结果的关系：推广（将单期事件扩展到多期纵向）。
问题表述：利用 computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 中的 einsum 复杂度模型，计算本文中 EIF 估计量计算成本（样本量为 n 时，估计 EIF 涉及多重条件期望的乘积和求和），并对比不同计算策略（全样本 vs. 折叠交叉拟合）的复杂度。写出 O 记号。
用到武器库：very_familiar -> computation of higher-order U-statistics (treewidth / tensor contraction / einsum)。
第一步具体动作：将 EIF 中的求和项（如 \(\sum_{d,m} \dots\)）写成张量网络，画出 contraction 图，用 einsum 的路径算法算出计算量（乘法次数、内存）。比较 cross‑fitting 与不 cross‑fitting 的复杂度差异。
与本文已有结果的关系：算法侧贡献——为实践提供计算可行性分析，或提出加速方案。

(B) 中期可做（最多2条）¶

缺哪一块：moderately_familiar -> HOIF (Higher-Order Influence Functions) 的理论（高阶偏差修正表达式）不够熟练。
补哪 1–2 篇文献能补上：
Robins, Li, Tchetgen, van der Vaart (2017) Higher order influence functions
Liu, Mukherjee, Robins (2022) On double machine learning with linear higher‑order influence functions
补完之后能做什么：当本文使用的 data‑adaptive ML 估计器收敛率低于 \(n^{-1/4}\)（例如在慢速收敛的高维特征空间中），基于 HOIF 构造高阶偏差修正，恢复 \(\sqrt{n}\)-CAN。具体问题：在本文设定下，若结局模型使用 lasso 或 random forest，其 \(\epsilon_n = n^{-1/3}\)，则经典 DML 失败。用 HOIF 构造二阶修正项，修改 EIF 方程，证明修正后估计量仍能达到半参数有效（代价是需额外估计高阶项）。这属于对本文非参数有效估计的稳健性增强。
缺哪一块：moderately_familiar -> identification theory in causal inference 在处理复杂主层结构（如非单调性）时的识别技巧。
补哪 1–2 篇文献能补上：
Mattei & Mealli (2007) Principal strata in non‑monotonic settings with instrumental variables
Forastiere, Mealli, VanderWeele (2016) Identification and estimation of causal mediation with non‑ignorable non‑compliance
补完之后能做什么：放松本文的 monotonicity 假设，考虑非单调情况（即允许 \(D(1)=0, D(0)=1\)）。此时主 layer 有 4 种 stratum，需借助工具变量或其他假设识别。可以推导在非单调条件下的 EIF 和多重稳健估计量，并比较与单调假设下的效率损失。这属于对本文核心假设的弱化扩展。

(C) 暂不建议（最多2条）¶

缺什么机器：本文的核心机器（EIF 推导 + 多重稳健性）完全在武器库内（estimation theory in causal inference, semiparametric theory, M‑estimation），没有需要新机器的地方。故为“无”。
若考虑将本文扩展到高维主层（如 D 有 3 个以上水平），则可能遇到“组合爆炸”：主层数量为 \(k^2\)，EIF 中的求和项指数增长。此时需要新的低维结构假设（如低秩张量、树结构），这会用到 very_familiar -> computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 的复杂度概念，但该条目本身已在武器库内。因此不列为暂不建议。

所以(C)写“无”。

值得精读的关键参考文献¶

Tchetgen & Shpitser (2012) – 半参数有效自然中介效应估计的奠基工作，本文的 EIF 推导框架直接源于此文；必须精读其投影法和多重稳健性证明的思路，因为本文在推广时用到相同技巧。
van der Laan & Rose (2011) Targeted Learning – 详细阐述 EIF 和 TMLE，帮助理解从 EIF 到多重稳健估计量的构造过程，尤其是 cross‑fitting 的理论条件。
Frangakis & Rubin (2002) – 提出 principal stratification，是本文概念基础。理解其定义和识别框架对掌握本文的识别假设至关重要。

六、延伸思考与练习¶

假设扰动¶

修改 monotonicity: 假设去除 \(D(1)\ge D(0)\) 的单调性，改为允许“反面者”（即 \(D(1)=0, D(0)=1\)）。在这种情况下，principal stratum 有 4 种取值，完全不可识别。技术上需要引入额外的工具变量或强假设（如 no‑defiers 可通过补充变量识别）。这个扰动后的问题落在 B 档（需要 identification theory in causal inference 中非单调性识别的文献补足），可转变为中期可做问题。

开放问题¶

作者明确提出的：开发同时多重稳健于主层模型错误和中介模型错误的高维版本（例如结合正则化方法），并给出其渐近性质。
值得跟进的：将本文的 EIF 方法与“未来死亡”作为治疗后事件结合时，能否同时处理截尾（survival）场景？这需要引入时间‑事件分析，是作者未讨论的方向。

理解检测题¶

问题：假设在本文的设定中，你错误指定了结局模型 \(E[Y\mid A,M,D,X]\)，但正确指定了其他三个模型（\(P(D\mid A,X)\), \(P(M\mid A,D,X)\), 主层条件概率）。多重稳健估计量是否仍一致？请利用本文 EIF 的分解形式，写出期望偏差 \(\mathbb{E}[\varphi(O;\widehat{\eta})]\) 的具体表达式，并说明为什么它等于 0（或不为 0）。如果你认为不一致，请构造一个简单的数值反例。
（此题要求理解多重稳健的组合逻辑，并实际写出部分 EIF 表达式，而非死记硬背结论。）

Maintained by 陈星宇 · Homepage · Source on GitHub