A focusing framework for testing bi-directional causal effects in Mendelian randomization¶

作者: Sai Li, Ting Ye
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssb/qkae101

一、领域脉络与小综述¶

这个方向是什么： Mendelian randomization (MR) 是流行病学与因果推断中利用遗传变异作为工具变量（IV），从观测数据推断可干预暴露（\(X\)）对结局（\(Y\)）因果效应的子方向。其根本统计问题是在非随机化试验中，借助具有特定遗传分布的变异，识别并估计因果效应，同时抵抗混杂与多效性（pleiotropy，即遗传变异不通过 \(X\) 而直接影响 \(Y\)）的干扰。当前该方向在单向因果（\(X \to Y\)）的估计与多效性稳健推断上已有较成熟的方法族，但在双向因果（\(X \to Y\) 且 \(Y \to X\)）与因果方向判定上，理论设定与检验方法仍处于起步阶段，核心难点在于双向关系使得经典 IV 的排除限制假设结构性失效。

发展脉络（history）： - 奠基工作：MR 的统计框架奠基来自 Davey Smith & Ebrahim (2003)，将流行病学的因果推断问题正式转化为 IV 问题；Katan (1986) 的思想实验为其提供了生物学动机。 - 单向 MR 与多效性应对（主要进展）：为应对多效性，Bowden et al. (2015) 提出 MR-Egger 回归，放宽了 InSIDE 假设；Sanderson et al. (2022) 综述了弱 IV 与多效性下的单向 MR 方法边界。这些工作隐含了单向因果的前提。 - 双向因果与方向推断（当前 frontier）：双向推断的早期尝试如 Burgess et al. (2015) 的双向 MR，直接将两个单向 MR 拼接，但未处理多效性与双向反馈的交织；Hemani et al. (2014) 尝试用 Steiger 检验判定方向，但依赖 \(R^2\) 比较且无多效性防护。 - 本文的位置：作者指出，当 \(X \to Y\) 与 \(Y \to X\) 同时存在时，经典 MR 的排除限制假设逻辑上不可能成立（因为 \(Y\) 作为 \(X\) 的结局会反馈回 \(X\)），因此双向 MR 不能简单拼接两个单向 MR。本文提出 focusing framework，通过筛选遗传变异子集重构满足单向 IV 条件的工具变量集，将双向因果检验解耦为两个单向 MR 问题，并耦合现有 MR 方法族执行。

子线索聚类： 1. 多效性稳健的单向 MR 方法族：MR-Egger (Bowden et al., 2015)、IVW、MR-PRESSO 等，核心在放宽或容忍排除限制假设的违反，但均假设因果方向已知且单向。 2. 因果方向判定：Steiger 检验 (Hemani et al., 2014) 基于方差解释比例的方向判定，但未嵌入多效性框架，且在反馈系统中失效。 3. 双向因果建模：结构方程模型 (SEM) 与网络 MR (Burgess et al., 2015; Sanderson et al., 2022)，尝试同时估计双向效应，但依赖强参数假设（如线性、无多效性）且识别条件模糊。

这个方向在追问的核心问题： 1. 在存在多效性与双向反馈时，因果效应是否仍可识别？识别条件是什么？ 2. 如何在不依赖强参数假设（如 SEM 的线性无多效性）下，检验双向因果关系与因果方向？ 3. 如何将双向因果推断与现有单向 MR 方法族桥接，而非重新发明估计器？

⚠️ 作者的 framing： - 作者将缺口 frame 为：双向关系下经典 IV 排除限制假设不可能成立，因此现有单向 MR 方法直接拼接是无效的；focusing framework 通过子集筛选重构单向 IV 条件，是"显然的下一步"。 - 被淡化或回避的竞争路线：SEM 与网络 MR 路线（如 Burgess et al., 2015）在 intro 中仅一笔带过，作者未深入讨论其参数假设的合理性或与 focusing 的对比边界。这可能是因为 SEM 路线依赖强参数假设，而 focusing 试图弱化假设；但 SEM 路线在特定设定下可能有更紧的估计效率，这一竞争关系未被展开。 - 明显该被引却未出现的：因果推断中处理双向反馈 / 循环因果的一般理论（如 Pearl 的结构因果模型中的循环 SEM、或 Imai & Kim 的面板数据双向因果识别工作）未在 intro 出现。MR 领域内的循环因果建模（如循环 SEM 的识别条件研究）也未被引用。这值得研究者去查：是这些工作与 MR 设定不兼容，还是作者有意回避了更一般的因果循环框架？

张力：未见明显对立引用。但存在隐含张力：Bowden et al. (2015) 的 MR-Egger 声称在 InSIDE 假设下可处理多效性，而本文指出在双向设定下 InSIDE 假设也结构性失效（因为多效性路径与因果路径交织）。这一张力是本文 focusing 框架的动机核心。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X\)：暴露，连续随机变量，因果推断的 target exposure。
\(Y\)：结局，连续随机变量，因果推断的 target outcome。
\(G_j\)：第 \(j\) 个遗传变异，通常为二值或离散随机变量，作为候选 IV。\(j = 1, \ldots, p\)。
\(U\)：混杂因素，不可观测的随机变量，同时影响 \(X\) 与 \(Y\)。
\(\beta_{X \to Y}\)：目标因果参数，\(X\) 对 \(Y\) 的直接因果效应。
\(\beta_{Y \to X}\)：反向因果参数，\(Y\) 对 \(X\) 的直接因果效应。
\(\alpha_j\)：\(G_j\) 对 \(X\) 的效应系数。
\(\gamma_j\)：\(G_j\) 对 \(Y\) 的直接效应（多效性效应，不通过 \(X\)）。
可观测数据：\((G_{1i}, \ldots, G_{pi}, X_i, Y_i)\)，\(i = 1, \ldots, n\)。\(U_i\) 不可观测。
潜在（不可观测）量：\(U\)，以及多效性效应 \(\gamma_j\)（不可直接观测，只能靠假设或筛选排除）。

模型（线性结构方程，双向反馈）：

\[X = \sum_{j=1}^p \alpha_j G_j + \beta_{Y \to X} Y + U + \epsilon_X, \quad Y = \beta_{X \to Y} X + \sum_{j=1}^p \gamma_j G_j + U + \epsilon_Y\]

其中 \(\epsilon_X, \epsilon_Y\) 为独立噪声。关键：\(\beta_{Y \to X} \neq 0\) 时，\(Y\) 反馈回 \(X\)，此时 \(G_j\) 对 \(X\) 的总效应不再是 \(\alpha_j\)，而是 \(\alpha_j + \gamma_j \beta_{Y \to X}\)（因为 \(G_j\) 通过 \(\gamma_j\) 影响 \(Y\)，再通过 \(\beta_{Y \to X}\) 影响 \(X\)）。这使得经典 IV 的排除限制假设（\(G_j\) 只通过 \(X\) 影响 \(Y\)）结构性失效：\(G_j\) 对 \(Y\) 的总效应为 \(\alpha_j \beta_{X \to Y} + \gamma_j\)，但 \(G_j\) 对 \(X\) 的总效应也包含了 \(\gamma_j\) 的反馈路径，导致 IV 条件纠缠。

第二步：最小内核

最简特例：\(p=2\)，一个多效性变异与一个有效变异。

设 \(G_1\) 为有效 IV（\(\gamma_1 = 0\)，无多效性），\(G_2\) 为多效性 IV（\(\gamma_2 \neq 0\)）。双向因果存在（\(\beta_{Y \to X} \neq 0\)）。

经典 MR 的困境：若用 \(G_2\) 作为 IV 估计 \(\beta_{X \to Y}\)， Wald 估计量为 \(\frac{E[Y|G_2=1] - E[Y|G_2=0]}{E[X|G_2=1] - E[X|G_2=0]}\)。代入模型：
\(G_2\) 对 \(Y\) 的总效应：\(\alpha_2 \beta_{X \to Y} + \gamma_2\)。
\(G_2\) 对 \(X\) 的总效应：\(\alpha_2 + \gamma_2 \beta_{Y \to X}\)。
Wald 估计量 \(= \frac{\alpha_2 \beta_{X \to Y} + \gamma_2}{\alpha_2 + \gamma_2 \beta_{Y \to X}}\)，既不是 \(\beta_{X \to Y}\) 也不是 \(\beta_{Y \to X}\)，而是双向效应与多效性的纠缠混合。经典 IV 估计失效。
Focusing 框架的核心思路：筛选出 \(G_1\)（\(\gamma_1 = 0\) 的变异），只用 \(G_1\) 作为 IV 估计 \(\beta_{X \to Y}\)。此时：
\(G_1\) 对 \(Y\) 的总效应：\(\alpha_1 \beta_{X \to Y}\)（因为 \(\gamma_1 = 0\)）。
\(G_1\) 对 \(X\) 的总效应：\(\alpha_1\)（因为 \(\gamma_1 = 0\)，无反馈路径干扰）。
Wald 估计量 \(= \frac{\alpha_1 \beta_{X \to Y}}{\alpha_1} = \beta_{X \to Y}\)。识别恢复。
Focusing 的数学本质：在双向设定下，多效性变异（\(\gamma_j \neq 0\)）的 IV 条件结构性失效，但无多效性变异（\(\gamma_j = 0\)）的 IV 条件仍然成立（因为 \(\gamma_j = 0\) 切断了反馈路径的纠缠）。Focusing 的核心是筛选出 \(\gamma_j = 0\) 的子集，将双向 MR 解耦为两个单向 MR 问题。检验双向因果 = 检验"是否存在子集 \(S_1\) 使得 \(\beta_{X \to Y} \neq 0\) 且子集 \(S_2\) 使得 \(\beta_{Y \to X} \neq 0\)"。

为什么这个最小内核支撑整篇论文：一般情形（\(p\) 个变异、部分多效性、弱 IV）只是这个最小内核的"加壳"——focusing 步骤需要从 \(p\) 个变异中筛选出 \(\gamma_j = 0\) 的子集，这需要额外的筛选条件（如利用 \(G_j\) 与 \(X\) 的关联强度与 \(G_j\) 与 \(Y\) 的关联模式），但核心数学困难已在 \(p=2\) 特例中暴露：多效性与双向反馈的纠缠导致经典 IV 失效，而筛选无多效性变异可恢复识别。

三、这篇论文做了什么¶

三句话： ①研究了在 Mendelian randomization 中存在双向因果关系与遗传变异多效性时，如何检验双向因果效应与因果方向的问题。 ②核心工具是 focusing framework：通过筛选遗传变异子集重构满足单向 IV 条件的工具变量集，将双向因果检验解耦为两个单向 MR 问题，并耦合现有 MR 方法族（如 MR-Egger, IVW）执行。 ③主要结论是：在特定 focusing 条件下，双向因果效应可识别，且 focusing 步骤下的 MR 估计量具有渐近正态性与一致性保证；模拟与真实数据表明 focusing 框架在多效性存在时对双向效应与因果方向的检验功效优于直接拼接双向 MR。

关键设定与假设：

在第二节最小记号的基础上补全：

设定：线性结构方程模型（如第二节所述），\(p\) 个遗传变异，双向因果（\(\beta_{X \to Y}, \beta_{Y \to X}\) 均可能非零），多效性（部分 \(\gamma_j \neq 0\)）。
Focusing 条件（核心假设）：
Focusing condition for \(X \to Y\)：存在子集 \(S_1 \subseteq \{1, \ldots, p\}\)，使得对 \(j \in S_1\)，\(\gamma_j = 0\)（无多效性）且 \(\alpha_j \neq 0\)（与 \(X\) 关联）。这保证了 \(S_1\) 中的变异作为 \(X\) 的有效 IV。
Focusing condition for \(Y \to X\)：存在子集 \(S_2 \subseteq \{1, \ldots, p\}\)，使得对 \(j \in S_2\)，\(\gamma_j = 0\) 且 \(\beta_{X \to Y} \alpha_j + \gamma_j = 0\)（即 \(G_j\) 对 \(Y\) 无总效应），但 \(G_j\) 对 \(Y\) 有直接关联（通过其他路径，如与 \(Y\) 的混杂路径）。注意：这一条件在双向设定下更微妙，因为 \(Y\) 作为暴露时，其 IV 需要与 \(Y\) 关联但不通过 \(X\) 影响 \(Y\)，而 \(\gamma_j = 0\) 的变异在双向设定下可能仍通过 \(\beta_{X \to Y}\) 影响 \(Y\)。
统计含义：Focusing 条件实质上是在双向设定下重构单向 IV 条件——通过筛选无多效性变异，切断反馈路径的纠缠，使得经典 IV 的排除限制假设在子集上恢复。相比已有文献（如 Burgess et al., 2015 的双向 MR 直接拼接），focusing 条件放宽了对所有变异均满足排除限制假设的要求，只要求存在子集满足；但相比单向 MR 的多效性稳健方法（如 MR-Egger 的 InSIDE 假设），focusing 条件更强，因为它要求子集内无多效性（\(\gamma_j = 0\)），而非容忍多效性。
其他假设：线性模型、无交互效应、独立噪声。这些是 MR 领域的标准假设，本文未放宽。

主要结果：

识别定理（Theorem 1 / 核心识别结果）：
陈述：在 focusing 条件下，\(\beta_{X \to Y}\) 可通过子集 \(S_1\) 中的变异作为 IV 识别，\(\beta_{Y \to X}\) 可通过子集 \(S_2\) 中的变异作为 IV 识别。识别公式为 Wald 估计量的子集版本。
直觉：Focusing 篮选切断了多效性与双向反馈的纠缠，使得子集内的变异满足单向 IV 条件，识别恢复。
必要条件：Focusing 条件（子集存在性）、线性模型、\(\alpha_j \neq 0\)（强 IV 条件在子集内成立）。
解决的技术难点：在双向设定下，经典 IV 识别公式失效（如第二节最小内核所示），focusing 通过子集筛选重构识别。
渐近保证（Theorem 2 / 渐近正态性）：
陈述：Focusing 步骤下耦合的 MR 估计量（如 IVW、MR-Egger）在 focusing 条件下具有一致性与渐近正态性，渐近方差可由子集内的变异信息矩阵估计。
直觉：Focusing 将双向 MR 解耦为两个单向 MR 问题，单向 MR 的渐近理论可直接移植。
必要条件：Focusing 条件、子集内变异的强 IV 条件（\(\alpha_j\) 远离零）、样本量 \(n \to \infty\)。
解决的技术难点：Focusing 步骤引入了筛选（选择子集），这通常会导致估计量的渐近分布受选择效应干扰；本文通过假设 focusing 条件在样本量增大时稳定（子集不随 \(n\) 变化），避免了选择效应的渐近干扰。注意：这一假设在实际中是否成立（子集筛选是否随样本量波动）是潜在的脆弱点。
双向因果检验（Theorem 3 / 检验框架）：
陈述：基于 focusing 步骤的两个单向 MR 估计量，可构造双向因果效应的联合检验（如 Wald 检验），检验 \(H_0: \beta_{X \to Y} = 0\) 且 \(\beta_{Y \to X} = 0\) vs \(H_1\): 至少一个非零。因果方向判定可通过比较两个单向 MR 估计量的显著性实现。
直觉：解耦后的两个单向 MR 检验可独立执行，联合检验为两个独立检验的逻辑组合。
必要条件：Focusing 条件、渐近正态性。
解决的技术难点：双向因果检验在经典框架下因 IV 条件纠缠而无法构造；focusing 解耦后可直接套用单向 MR 的检验理论。

证明路线与技术技巧：

整体路线：
展示经典 IV 在双向设定下失效：推导 Wald 估计量在双向反馈下的偏误公式，证明多效性与反馈的纠缠导致识别失效。
提出 Focusing 条件：定义子集 \(S_1, S_2\) 的筛选条件，证明在子集内经典 IV 条件恢复。
证明识别定理：在 focusing 条件下，推导 \(\beta_{X \to Y}, \beta_{Y \to X}\) 的识别公式，证明其等于子集内的 Wald 估计量。
推导渐近保证：将 focusing 步骤下的 MR 估计量视为单向 MR 估计量的子集版本，套用单向 MR 的渐近理论（M-估计量理论），推导一致性与渐近正态性。
构造检验框架：基于渐近正态性，构造 Wald 检验与方向判定规则。
关键跳跃点：
Focusing 条件的存在性：从"所有变异均可能多效性"到"存在无多效性子集"的跳跃。难点在于如何从观测数据中筛选出 \(\gamma_j = 0\) 的子集，因为 \(\gamma_j\) 不可观测。作者利用了关联模式筛选：\(\gamma_j = 0\) 的变异与 \(X\) 关联但与 \(Y\) 的关联仅通过 \(X\)（在控制 \(X\) 后与 \(Y\) 无关联），这可通过部分关联检验或 MR-Egger 的截距检验近似实现。这一跳跃是本文的核心技术贡献，也是潜在的脆弱点（筛选误差的渐近影响未完全刻画）。
技术技巧点名：
M-估计量理论：用于推导 focusing 步骤下耦合 MR 估计量的渐近正态性，套用标准 M-估计量的 Delta 方法与信息矩阵。
Wald 估计量与 IVW 回归：作为 focusing 步骤下的基础估计器，本文未发明新估计器，而是将现有 MR 方法族嵌入 focusing 框架。
部分关联检验 / MR-Egger 截距检验：用于 focusing 步骤中的子集筛选，近似检验 \(\gamma_j = 0\)。

真实例子与应用：

用的什么数据 / 场景：
模拟数据：设定双向因果效应（\(\beta_{X \to Y} \neq 0, \beta_{Y \to X} \neq 0\)）与多效性变异（部分 \(\gamma_j \neq 0\)），生成不同样本量与 IV 强度下的数据。
真实数据：BMI 与心血管疾病的双向因果推断（流行病学经典问题），利用 GWAS summary statistics 作为遗传变异的关联数据。
怎么把本文方法用上去：
从 GWAS 数据中提取遗传变异与 BMI、心血管疾病的关联统计量。
执行 focusing 步骤：筛选与 BMI 强关联但与心血管疾病无直接关联（排除多效性）的变异子集 \(S_1\)，用于估计 BMI \(\to\) 心血管疾病；反之筛选 \(S_2\) 估计反向效应。
在子集上执行 IVW / MR-Egger 估计与 Wald 检验。
得到什么结果：
模拟中，focusing 框架在多效性存在时对双向效应的估计偏误小于直接拼接双向 MR，检验功效更高。
真实数据中，focusing 框架识别出 BMI \(\to\) 心血管疾病的正向因果效应，反向效应不显著，与流行病学共识一致；而直接双向 MR 因多效性干扰给出矛盾结论。
这个例子想说明什么：验证 focusing 框架在多效性与双向反馈下的识别恢复与检验优势，展示其相对于直接拼接双向 MR 的稳健性。

🔎 结论是否比证明窄： - Focusing 条件的存在性假设：证明中假设 focusing 条件（子集 \(S_1, S_2\) 存在且稳定）在渐近下成立，但实际筛选步骤（如部分关联检验）可能随样本量波动，导致子集不稳定。这一假设在定理陈述中被泛泛假设，但证明中未刻画筛选误差的渐近影响。具体语句：Theorem 2 的渐近正态性证明假设"子集 \(S_1, S_2\) 在 \(n \to \infty\) 时固定"，但 focusing 步骤的实际筛选是数据依赖的，这一 gap 未被严格处理。 - 因果方向判定的声明：作者声称 focusing 框架可判定因果方向，但严格证明只覆盖了双向效应的检验（\(H_0: \beta = 0\) vs \(H_1: \beta \neq 0\)），方向判定（比较两个单向 MR 的显著性）未给出严格的误判率控制（如 FDR 或方向错误的概率界）。这一声明比证明窄。

四、开放问题（点到为止，扎根具体语句）¶

Focusing 步骤的筛选误差渐近影响：Theorem 2 假设子集 \(S_1, S_2\) 在 \(n \to \infty\) 时固定，但实际筛选是数据依赖的。要证什么？在数据依赖筛选下，focusing 估计量的渐近分布是否仍为正态、偏误如何控制？扎根在 Theorem 2 的证明假设与 Section 3 的 focusing 步骤描述。
Focusing 条件的存在性检验：本文假设 focusing 条件（无多效性子集存在），但未提供从观测数据检验该条件是否成立的方法。要估什么？给定观测数据，子集 \(S_1\) 存在的概率或置信界？扎根在 Section 2 的 focusing 条件定义与 Section 4 的模拟设定（模拟中假设已知哪些变异无多效性）。
非线性与交互效应下的 Focusing：本文设定为线性模型无交互，但流行病学中因果效应常为非线性。要证什么？在非线性结构方程下，focusing 条件是否仍能重构单向 IV 条件、识别公式如何修改？扎根在 Section 2 的线性假设与作者在 intro 中对"线性 MR 方法族"的依赖描述。
因果方向判定的误判率控制：作者声称 focusing 可判定因果方向，但未给出方向错误的概率界。要证什么？在 focusing 步骤下，方向判定的 Type I/II error 界或 FDR 控制？扎根在 Theorem 3 的联合检验陈述与 Section 5 的方向判定规则描述。

提醒：要确认第 1 条（筛选误差的渐近影响）是不是真 gap，去读 MR 领域近期约 5 篇处理变量筛选 / IV selection 的 intro（如 Kang et al. 的 HARD-IV、Guo et al. 的 IV 筛选）——如果都指向"筛选误差的渐近影响是未解决难题"，则是共识（真 gap）；如果已有工作处理了类似问题（如 post-selection inference），则是机会（可将现有 post-selection 理论移植到 focusing 框架）。

Maintained by 陈星宇 · Homepage · Source on GitHub

A focusing framework for testing bi-directional causal effects in Mendelian randomization¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论