Robust Estimation of Population Attributable Fractions in the Presence of Multiple Ordered Mediators¶

作者: Han‐Chi Peng, Woojoo Lee, An‐Shun Tai
来源: Statistics in Medicine
主题: 因果推断
相关性: 8/10
机构绿灯: Seoul National University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70636

一、领域脉络与小综述¶

这个方向是什么：人口归因分数是流行病学中量化某风险因素对疾病负担贡献比例的核心指标。当暴露不仅直接影响结局，还通过多个有序中介变量（如 \(X \to M_1 \to M_2 \to Y\)）产生间接效应时，传统 PAF 无法拆解各中介路径的归因占比。本子方向要解决的根本统计问题是：在存在多中介、中介间交互及混杂的复杂因果图下，如何定义、识别并稳健估计路径特异性的归因分数。当前该方向处于从“单中介/无交互的参数识别”向“多中介/有交互的半参数稳健估计”过渡的阶段。

发展脉络： - 奠基工作：传统 PAF 的定义与参数估计（Walter-1978, Levin-1953），仅处理 \(X \to Y\) 的直接归因，未涉及中介路径拆解。 - 中介分解的引入：Robins & Greenland (1992) 将因果图与反事实引入流行病学，提出了直接与间接效应的概念框架，但未给出 PAF 的路径分解公式；VanderWeele (2013) 建立了单中介下 PAF 的路径特异性定义（path-specific PAF），但依赖强参数假设且未处理多中介交互。 - 稳健估计的进展：Tchetgen Tchetgen (2012) 在单中介设定下利用影响函数构造了双重稳健 PAF 估计量；随后 Bang & Robins (2005) 与 Vansteelandt et al. (2007) 发展了基于 M-estimation 的多重稳健方法，但均未推广至多中介 PAF。 - 当前 frontier 与本文位置：多中介 PAF 的识别与估计长期缺乏多重稳健框架。本文填补了这一口子，将 VanderWeele 的定义推广至多中介有序情形，并基于 M-estimation 构造了至少两个模型正确即可一致估计的多重稳健估计量。

子线索聚类： 1. PAF 的因果定义与分解：从 Levin 的粗关联指标，到 VanderWeele 的反事实 PAF，再到本文的 mPAF（处理多中介与交互）。 2. 半参数稳健估计理论：从 Robins 的 g-estimation，到 Tchetgen Tchetgen 的双重稳健 PAF，再到本文针对三类模型（暴露、中介、结局）的多重稳健 M-estimator。 3. 流行病学中的中介应用：基因-环境交互（VanderWeele 2010）与癌症归因分析，本文将其推至 TCGA 肺癌多基因中介路径。

这个方向在追问的核心问题： 1. 识别问题：多中介路径的 PAF 在何种因果图（混杂结构、中介间因果方向）下可由可观测数据识别？ 2. 稳健估计问题：当暴露、中介、结局模型均可能误设时，能否构造只需部分模型正确的多重稳健估计量？ 3. 交互与负贡献问题：中介间交互作用及负中介效应（如抑癌基因的负 mPAF）如何被正确量化与解释？

⚠️ 作者的 framing： - 作者将缺口 frame 为：传统 PAF 无法处理“多中介交互与混杂”，且现有稳健估计仅限单中介，因此 mPAF 与多重稳健估计是“显然的下一步”。 - 被淡化的竞争路线：作者未讨论基于 g-formula 的纯参数迭代估计（若全模型正确，参数估计可能更高效），也未提及不依赖 M-estimation 的半参数效率界方法（如一步估计 one-step estimator）。 - 缺失的引用：Intro 未见近期关于 longitudinal mediation 或 time-varying confounder 的 PAF 讨论（如 VanderWeele 2019 之后的纵向中介 PAF），也未引用高维中介变量筛选的文献（如 mediation screening）——这是研究者可以去查的缺口：本文方法能否扩展至高维中介？

张力：未见明显对立引用。但存在隐含张力：VanderWeele (2013) 的单中介 PAF 定义依赖无交互假设，而本文的 mPAF 允许中介间交互，二者在定义的因果语义上是否完全等价（当交互项为零时退化为前者）需在数学上严格核验（本文定理 1 保证了这一点）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X\)：二值暴露变量（如吸烟：1=是，0=否），要评估其对疾病负担的归因。
\(M_1, M_2\)：两个有序中介变量（如基因表达 TTK, MAD2L1），可为连续或二值，因果序为 \(X \to M_1 \to M_2 \to Y\)。
\(Y\)：二值结局变量（如死亡：1=发生，0=未发生）。
\(C\)：混杂变量集合（同时影响 \(X, M_1, M_2, Y\)）。
\(Y_x, M_{1x}, M_{2x}\)：潜在反事实变量，如 \(Y_x\) 为强制 \(X=x\) 时的潜在结局。
\(Y_{x, M_{1x'}, M_{2x''}}\)：交叉反事实，如 \(Y_{1, M_{10}, M_{20}}\) 表示暴露设为 1，但两中介均设为无暴露时的自然值，此为直接效应的反事实。
可观测数据：\((C_i, X_i, M_{1i}, M_{2i}, Y_i)\)，\(i=1,\dots,n\)，为独立同分布样本。
不可观测量：交叉反事实 \(Y_{x, M_{1x'}, M_{2x''}}\) 无法对同一个体同时观测，需靠因果假设识别。
目标参数：mPAF，定义为 \(1 - \frac{E[Y_{0, M_{10}, M_{20}}]}{E[Y]}\)（总 PAF），以及路径特异性 mPAF（如仅通过 \(M_1\) 的路径：\(1 - \frac{E[Y_{0, M_{11}, M_{20}}]}{E[Y]}\)）。

第二步：最小内核——两个有序中介、二值暴露与结局的最简特例

剥掉一般性设定，考虑最简特例：\(X, Y\) 为二值，\(M_1, M_2\) 为连续，无中介间交互（\(M_2\) 不依赖 \(M_1\)），且无混杂 \(C\)。

此时，总 PAF 的识别公式退化为：

\[PAF_{total} = 1 - \frac{E[Y_{0, M_{10}, M_{20}}]}{E[Y]} = 1 - \frac{\int E[Y \mid 0, m_1, m_2] f(m_1 \mid 0) f(m_2 \mid 0) dm_1 dm_2}{E[Y]}\]

直接路径的 mPAF（不经过任何中介）退化为：

\[mPAF_{direct} = 1 - \frac{E[Y_{0, M_{11}, M_{21}}]}{E[Y]} = 1 - \frac{\int E[Y \mid 0, m_1, m_2] f(m_1 \mid 1) f(m_2 \mid 1) dm_1 dm_2}{E[Y]}\]

核心数学困难：识别公式中包含嵌套的密度乘积积分（如 \(f(m_1 \mid 0) f(m_2 \mid 0)\)），若直接代入参数模型估计，一旦中介模型误设，估计量不一致。若用非参估计，高维积分的收敛率极慢。

本文的破局想法：构造 M-estimator 的无偏估计函数，利用 Robins 的 g-formula 与影响函数技巧，将嵌套积分转化为条件期望的迭代求期望（iterative conditional expectation），并引入三个 nuisance models（暴露模型 \(P(X=1|C)\)、中介模型 \(f(M|X,C)\)、结局模型 \(E[Y|X,M,C)\)）。通过巧妙组合这三类模型的预测值，构造出只需至少两类模型正确即可消除残差项的多重稳健估计函数。

三、这篇论文做了什么¶

三句话： ① 研究了多中介有序路径下 PAF 的定义、识别与稳健估计问题。 ② 核心工具是 M-estimation 与迭代条件期望，构造了依赖三类 nuisance models 的多重稳健估计函数。 ③ 主要结论：只要暴露、中介、结局模型中至少两个正确指定，mPAF 估计量即为一致且渐近正态，模拟与 TCGA 数据验证了其稳健性与对负中介效应的捕捉。

关键设定与假设： - 因果图假设：\(X \to M_1 \to M_2 \to Y\)，且 \(C\) 为 \(X, M_1, M_2, Y\) 的共同混杂，无其他混杂路径。 - 有序中介假设：\(M_1\) 先于 \(M_2\)，且 \(M_2\) 可依赖 \(M_1\)（允许中介间交互）。 - 无中间混杂：不存在仅影响 \(M_2\) 且受 \(X\) 或 \(M_1\) 影响的混杂（即无 time-varying confounder 受前序变量影响）。 - ** positivity 假设：\(P(X=x \mid C)\) 与 \(f(M \mid X=x, C)\) 在支撑集上大于 0。 - 相比已有文献**：放宽了 VanderWeele (2013) 的无中介交互假设，并将 Tchetgen Tchetgen (2012) 的双重稳健推广至三重模型的多重稳健（至少两个正确）。

主要结果： 1. 定理 1（识别）：在上述因果假设下，路径特异性 mPAF 可由可观测数据的条件密度与条件期望识别，给出了包含嵌套积分的 g-formula 识别公式。 2. 定理 2（多重稳健估计函数）：构造了 mPAF 的 M-estimation 估计函数 \(\psi(O; \eta, \theta)\)，其中 \(\eta\) 为三类 nuisance 模型参数，\(\theta\) 为 mPAF。证明：当暴露模型与中介模型正确，或暴露模型与结局模型正确，或中介模型与结局模型正确时，\(E[\psi(O; \eta^*, \theta^*)] = 0\)，其中 \(\eta^*\) 为真实 nuisance 参数，\(\theta^*\) 为真实 mPAF。 3. 定理 3（渐近正态性）：在至少两个 nuisance 模型正确的条件下，\(\sqrt{n}(\hat{\theta} - \theta^*) \to_d N(0, V)\)，其中 \(V\) 为影响函数的方差，给出了 \(V\) 的显式公式。

证明路线与技术技巧： - 整体路线： 1. 从反事实定义出发，利用因果图假设（序贯可忽略性 sequential ignorability）将交叉反事实期望转化为可观测的 g-formula 嵌套积分。 2. 对 g-formula 中的嵌套积分，利用迭代条件期望技巧，将其分解为层层嵌套的条件期望差（如 \(E[Y \mid X=1, M, C] - E[Y \mid X=0, M, C]\)）。 3. 构造 M-estimator 的估计函数：将迭代条件期望的残差项与 nuisance 模型的预测值组合，形成三类残差项的线性组合。 4. 证明该组合在至少两个 nuisance 模型正确时，残差项的期望为零，从而估计函数无偏。 5. 应用 M-estimation 的标准渐近理论（Van der Vaart 1998）推导 \(\sqrt{n}\)-收敛与渐近正态性。 - 关键跳跃点：从嵌套积分到多重稳健估计函数的构造。难点在于如何组合三类模型的残差使得“任意两个正确即无偏”。作者借鉴了 Bang & Robins (2005) 的增广逆概率加权（AIPW）思路，但需处理多中介的嵌套结构：在迭代条件期望中，每一步引入一个残差项，最终形成三个残差项的加权和。 - 技术技巧点名： - 迭代条件期望：将 \(E[Y_{0, M_{11}, M_{21}}]\) 分解为 \(E[E[E[Y \mid 0, M_1, M_2, C] \mid M_1, X=1, C] \mid X=0, C]\)，用于从 g-formula 构造可估的统计量。 - AIPW / 增广逆概率加权：在迭代期望的每一步引入逆概率加权项（如 \(I(X=x)/P(X=x \mid C)\)）与结局模型预测的差，构造残差。 - M-estimation 理论：利用估计函数的零均值性质与 nuisance 参数的 \(\sqrt{n}\)-收敛假设，应用 Delta 方法与 Sandwich 公式推导渐近方差。

真实例子与应用： - 数据：TCGA 肺癌队列（肺腺癌 LUAD 与肺鳞癌 LUSC），暴露为吸烟，结局为死亡，中介为基因表达 TTK 与 MAD2L1。 - 方法应用：对 LUAD 与 LUSC 分别拟合三类 nuisance 模型（暴露模型用 logistic 回归，中介模型用线性回归，结局模型用 Cox 模型），计算总 PAF 与路径特异性 mPAF。 - 结果： - LUAD：总 PAF = 4.45%，直接效应 mPAF = 1.82%，TTK 路径 mPAF = -1.95%（负贡献，即吸烟通过上调 TTK 降低死亡风险），MAD2L1 路径 mPAF = 0.68%。 - LUSC：总 PAF = 10.43%，直接效应 mPAF = 10.22%，中介路径贡献极小。 - 说明什么：验证了多重稳健估计量在真实数据中的可行性，展示了 mPAF 能捕捉负中介效应（TTK 在 LUAD 中的负贡献），且揭示了中介路径在不同癌症亚型中的异质性。

🔎 结论是否比证明窄： - 作者在定理 3 的渐近正态性证明中，假设 nuisance 参数的估计为 \(\sqrt{n}\)-一致且渐近正态（如使用参数 MLE）。但若 nuisance 模型使用高维半参数方法（如机器学习），此假设可能不满足，此时渐近方差公式需修正（如引入 cross-fitting）。作者在讨论部分提及了这一局限，但未给出修正后的理论保证——这是一个被泛泛 claim 但未严格证明的延伸。

四、开放问题（点到为止）¶

高维/半参数 nuisance 估计下的渐近性质：当暴露、中介、结局模型使用数据驱动的机器学习方法（如随机森林、DML）时，如何通过 cross-fitting 与 Neyman 正交性保证 mPAF 的 \(\sqrt{n}\)-收敛与渐近正态？（扎根于本文讨论部分对 nuisance 估计 \(\sqrt{n}\)-一致假设的局限陈述）
时变混杂与纵向中介的 mPAF：当存在受暴露或前序中介影响的时变混杂（即 \(X \to C_2 \to M_2\)）时，g-formula 识别公式失效，如何结合 g-estimation 或 SNMM 识别 mPAF？（扎根于本文假设 3“无中间混杂”的排除，以及 Intro 对 VanderWeele 纵向中介的缺失引用）
半参数效率界：本文的多重稳健估计量是否达到 mPAF 在半参数模型下的效率界？若未达到，如何构造基于影响函数的一步估计量以实现渐近有效？（扎根于本文定理 3 的方差公式未与效率界比较，且 Intro 未引用 HOIF 或半参数效率理论文献）
负 mPAF 的因果语义与流行病学解释：当 mPAF 为负（如 LUAD 中 TTK 路径的 -1.95%），其流行病学解释是否为“暴露通过该路径降低疾病负担”？如何在不违反 PAF 传统定义（归因比例应在 0-1 间）下重新 frame 负贡献？（扎根于本文应用部分对负 mPAF 的报告，但理论部分未讨论负值的语义约束）

Maintained by 陈星宇 · Homepage · Source on GitHub

Robust Estimation of Population Attributable Fractions in the Presence of Multiple Ordered Mediators¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论