Selecting invalid instruments to improve Mendelian randomization with two-sample summary data¶

作者: Ashish Patel, Francis J. DiTraglia, Verena Zuber, Stephen Burgess
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么： Mendelian Randomization (MR) 是一种利用遗传变异作为工具变量来推断观察性数据中因果关系的统计方法。其核心统计问题在于：当工具变量（IV）假设可能被违背（尤其是排他性假设，即遗传变异通过非暴露-结局因果路径影响结局，称为 horizontal pleiotropy）时，如何稳健地估计因果效应。本文所在的子方向是 "在 IV 可能无效时的工具变量选择与推断"，具体聚焦于两样本汇总数据设定，核心张力是：严格剔除所有可疑 IV 会损失精度，而保留轻微无效 IV 会引入偏差——如何在 bias-variance trade-off 下做出最优选择。该方向目前处于方法快速演进期，已有大量处理无效 IV 的稳健方法，但大多聚焦于"识别/一致性"，而非"最优估计/均方误差"。

发展脉络：

奠基与经典框架（IV 假设与两样本 MR）： MR 的统计基础是经典工具变量理论。在两样本汇总数据设定下，Burgess et al. (2015) 系统阐述了如何利用公开的 GWAS 汇总数据进行因果推断，奠定了该领域的基础设施。此时主流假设所有选定的遗传变异都是有效 IV。
问题凸显：Pleiotropy 的普遍性：随着 GWAS 数据激增，人们发现"所有 IV 都有效"这一假设在现实中极难满足。Hemani et al. (2018) 与 Verbanck et al. (2018) 通过大规模实证与模拟揭示，horizontal pleiotropy 在 MR 中广泛存在（Verbanck 发现超过 48% 的显著 MR 关系存在 pleiotropy），可能导致因果效应估计严重偏差甚至虚假因果。Solovieff et al. (2013) 从遗传学角度综述了 pleiotropy 的普遍性，为这一统计问题提供了生物学背景。
主流应对路线 A：稳健估计（允许部分无效）：为应对 pleiotropy，一系列"即使存在无效 IV 也能保持一致性"的稳健估计方法被提出：
- MR-Egger (Bowden et al., 2015)：将 pleiotropy 视为小研究偏差的类比，利用 Egger 回归在 InSIDE 假设下给出一致估计。
- Weighted Median (Bowden et al., 2016)：只要少于 50% 的信息来自无效 IV，加权中位数估计即一致。
- MR-PRESSO (Verbanck et al., 2018)：通过检测并剔除异常值来校正 pleiotropy。
- Contamination Mixture / Mode-based (Slob & Burgess, 2019)：在模拟中表现优异。这些方法的核心目标是 一致性，即在大样本下消除偏差，但代价通常是方差增大（效率损失）。
主流应对路线 B：Many Weak Instruments 问题：另一条线索关注"大量弱工具变量"带来的统计问题。Davies et al. (2014) 指出，使用大量弱 IV 会导致 2SLS 估计偏差、标准误低估。Ye et al. (2019) 提出了 debiased IVW 估计量，Zhao et al. (2018) 则提出了 robust adjusted profile score，在 many weak 设定下给出有效推断。本文作者明确指出，他们的设定正是 "many weak and locally invalid instruments"，即这两条线索的交汇点。
本文的切入点：从"一致性"转向"MSE 最优"：上述主流方法均以"一致性"为首要目标，隐含着"偏差是坏事，应尽可能消除"的预设。然而，DiTraglia (2014) 在 GMM 框架下提出了一个反直觉的观点：在有限样本下，使用轻微无效但高度相关的工具变量可能降低均方误差（MSE）。他提出了 Focused Moment Selection Criterion (FMSC)，以目标参数的 MSE 为准则选择矩条件。本文将这一思想引入 MR 汇总数据设定，并解决了两个新问题：(1) MR 特有的 many weak instruments 设定下的 MSE 估计；(2) Post-selection inference 的置信区间构造。

子线索聚类：

聚类 1：Pleiotropy-Robust Methods（一致性导向）：Bowden et al. (2015, 2016), Verbanck et al. (2018), Slob & Burgess (2019)。目标是在部分 IV 无效时仍得一致估计。本文作者认为这些方法可能过于保守，牺牲了效率。
聚类 2：Many Weak Instruments（效率与推断导向）：Davies et al. (2014), Zhao et al. (2018), Ye et al. (2019)。关注大量弱 IV 时的偏差校正与有效推断。本文继承了这一线索的设定，但引入了 invalid IV 的考量。
聚类 3：Bias-Variance Trade-off in IV Selection（MSE 导向）：DiTraglia (2014)。这是本文最直接的理论前身。本文将其从 GMM 拓展至 MR 两样本汇总数据设定。

这个方向在追问的核心问题：

识别与估计的权衡：当 IV 可疑时，是严格剔除以保一致性，还是适度保留以换效率？传统文献（如 Leeb & Pötscher, 2007）警告 post-selection inference 的风险，本文试图在特定设定下给出可行方案。
无效 IV 的界定：是"非黑即白"（有效/无效），还是"连续谱"（轻微偏差 vs 严重偏差）？本文采用后者视角，引入 "locally invalid" 概念。
Post-selection inference 的有效性：在基于数据选择 IV 后，如何构造置信区间使其覆盖率仍能保证？这是本文的理论贡献点。

⚠️ 作者的 framing：

作者如何定位缺口：作者将现有方法框架化为"追求一致性"（consistency-oriented），并指出这可能导致"worst case risk unbounded"（引用 Leeb & Pötscher, 2007）。作者将本文定位为"追求估计精度"（MSE-oriented），主张在 many weak and locally invalid 设定下，最优选择往往包含大量潜在无效 IV。
淡化的竞争路线：作者未深入讨论 MR-Egger 或 Weighted Median 在 MSE 意义下的表现，也未与 Zhao et al. (2018) 的 robust adjusted profile score 在效率上进行直接对比。作者主要将对比对象设为"仅使用核心 IV"（Core-only）和"使用全部 IV"（All）。
缺失的引用/视角：Intro 中未提及 Stein shrinkage 类方法（如 Rosenman et al., 2020，虽在 bibliography 中出现但未在 intro 深入讨论），这类方法同样以 MSE 为目标，通过收缩偏差估计来改善精度。本文的"选择"思路与"收缩"思路是否有联系或优劣？这是值得研究者去查的 gap。此外，对于 High-dimensional IV selection（如基于 Lasso 的 MR 方法），作者也着墨不多。

张力：

未见明显对立引用：被引文献之间更多是互补关系（处理不同类型的 pleiotropy 或不同设定），而非直接结论冲突。但存在一个隐含张力：DiTraglia (2014) 的 FMSC 理论基于固定维数/强 IV 设定，而 Davies et al. (2014) 证明了 many weak IV 会导致传统方法失效。本文试图在"many weak"设定下复活 FMSC 的思想，这是一个技术上的张力点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据

符号：
- \(j = 1, \dots, p\)：第 \(j\) 个遗传变异（候选工具变量）。
- \(\theta_0\)：目标因果效应（exposure \(X\) 对 outcome \(Y\) 的因果效应）。
- \(\beta_{Xj}\)：遗传变异 \(j\) 对 exposure \(X\) 的效应（工具变量强度）。
- \(\beta_{Yj}\)：遗传变异 \(j\) 对 outcome \(Y\) 的总效应。
- \(\tau_j\)：遗传变异 \(j\) 对 outcome 的直接效应（pleiotropic effect，即违背排他性假设的部分）。
- \(\hat{\beta}_{Xj}, \hat{\beta}_{Yj}\)：样本估计值（来自两个独立的 GWAS 汇总数据）。
- \(\sigma_{Xj}, \sigma_{Yj}\)：估计值的标准误。
- \(n_X, n_Y\)：两个样本的样本量。
模型：
- 真实数据生成机制：\(\beta_{Yj} = \theta_0 \beta_{Xj} + \tau_j\)。这是 MR 的核心方程。若 \(\tau_j = 0\)，则 IV 有效；若 \(\tau_j \neq 0\)，则 IV 无效。
- 观测模型：\(\hat{\beta}_{Xj} \sim N(\beta_{Xj}, \sigma_{Xj}^2)\)，\(\hat{\beta}_{Yj} \sim N(\beta_{Yj}, \sigma_{Yj}^2)\)。两样本独立。
- Many weak instruments 设定：\(p\) 很大（甚至 \(p \to \infty\)），但每个 \(\beta_{Xj}\) 很小（弱工具变量），即 \(\beta_{Xj} = O(1/\sqrt{n})\)。
- Locally invalid 设定：\(\tau_j\) 很小，\(O(1/\sqrt{n})\) 量级。
可观测数据：
- 研究者实际观测到的是汇总统计量 \(\{ \hat{\beta}_{Xj}, \hat{\beta}_{Yj}, \sigma_{Xj}, \sigma_{Yj} \}_{j=1}^p\)。
- 不可观测：真实的 \(\beta_{Xj}, \tau_j, \theta_0\)。
- 核心困难：我们不知道哪些 \(j\) 对应 \(\tau_j = 0\)（有效 IV），哪些 \(\tau_j \neq 0\)（无效 IV）。传统方法试图剔除后者，但本文试图保留它们以降低 MSE。

第二步：最小内核

最简特例：两个候选 IV 的选择问题

假设只有两个候选工具变量 \(j=1, 2\)。我们要估计 \(\theta_0\)。

候选估计量：
- \(\hat{\theta}_1 = \hat{\beta}_{Y1} / \hat{\beta}_{X1}\)（Wald ratio，仅用第 1 个 IV）。
- \(\hat{\theta}_2 = \hat{\beta}_{Y2} / \hat{\beta}_{X2}\)（Wald ratio，仅用第 2 个 IV）。
- \(\hat{\theta}_{12}\)：使用两个 IV 的 IVW 估计量。
偏差-方差权衡：
- 假设 IV 1 是"核心 IV"（biologically plausible，大概率 \(\tau_1 \approx 0\)），但可能较弱（\(\beta_{X1}\) 小），导致 \(\hat{\theta}_1\) 方差很大。
- 假设 IV 2 是"可疑 IV"（\(\beta_{X2}\) 大，强 IV），但可能有轻微直接效应（\(\tau_2 \neq 0\)），导致 \(\hat{\theta}_2\) 有偏差。
- 核心问题：是只用 IV 1（大方差，无偏），还是加入 IV 2（方差减小，但引入偏差）？
MSE 准则：
- \(\text{MSE}(\hat{\theta}) = \text{Bias}^2 + \text{Variance}\)。
- 若 \(\tau_2\) 很小，加入 IV 2 带来的方差下降可能超过偏差平方的上升，此时 \(\text{MSE}(\hat{\theta}_{12}) < \text{MSE}(\hat{\theta}_1)\)。
- 本文的最小内核：构造一个准则，估计 \(\widehat{\text{MSE}}\)，选择使 \(\widehat{\text{MSE}}\) 最小的 IV 组合。
技术难点：
- 如何估计 \(\text{Bias}\)？我们不知道 \(\tau_j\)。
- 本文利用残差 \(\hat{\tau}_j = \hat{\beta}_{Yj} - \hat{\theta} \hat{\beta}_{Xj}\) 来估计偏差项。
- 在 many weak 设定下，传统的方差估计失效，需要引入修正项（如 Zhao et al. (2018) 的方差分量）。

一句话总结：本文在"大量弱且局部无效工具变量"设定下，将 DiTraglia (2014) 的 FMSC 思想具体化，通过估计并最小化渐近 MSE 来选择 IV，并构造了保守的 post-selection 置信区间。

三、这篇论文做了什么¶

三句话： 1. 研究了什么问题：在两样本汇总数据 MR 中，当存在大量弱且局部无效的工具变量时，如何选择工具变量以实现因果效应估计的均方误差（MSE）最小化。 2. 核心工具/方法：提出了 Focused Instrument Selection (FIS) 方法，基于估计的渐近 MSE（AMSE）选择 IV 子集，并提出了针对 post-selection 估计量的置信区间构造策略。 3. 主要结论：理论证明了在 many weak 设定下 AMSE 估计的一致性，提出了覆盖率有保证的置信区间；实证分析表明，最优 IV 选择往往包含大量潜在无效 IV，而非仅依赖少数核心 IV。

关键设定与假设：

Two-sample summary data MR：仅使用 GWAS 汇总统计数据 \(\{ \hat{\beta}_{Xj}, \hat{\beta}_{Yj}, \text{SE}_j \}\)。
Many weak instruments：工具变量数量 \(p\) 大，且强度 \(\beta_{Xj}\) 弱（\(O(1/\sqrt{n})\) 量级）。这区别于传统固定 \(p\) 或强 IV 设定。
Locally invalid instruments：允许部分 IV 存在直接效应 \(\tau_j\)，但假设 \(\tau_j\) 较小（\(O(1/\sqrt{n})\) 量级），即"局部"违背排他性假设。
Instrument strength independent of direct effect (InSIDE) 假设的放宽：作者指出，虽然 InSIDE 假设（Bowden et al., 2015）对某些方法必要，但本文的 FIS 方法在 \(\tau_j\) 与 \(\beta_{Xj}\) 相关时（即违背 InSIDE）仍能通过 MSE 准则自动权衡偏差与方差，虽然此时估计的是"有偏但 MSE 最优"的量，而非无偏的因果效应。（注：这是作者的说法，需注意此时估计目标的解释发生变化）。
核心 IV (Core instruments)：假设存在一个子集 \(C\)，其 \(\tau_j = 0\)（严格有效），且该子集足以识别 \(\theta_0\)。这是 post-selection inference 的安全网。

主要结果：

AMSE 估计的一致性（Theorem 1）：
- 在 many weak instruments 设定下，作者推导了 IVW 估计量的渐近 MSE 表达式。
- 该 MSE 包含三项：方差项、偏差平方项、以及 many weak 带来的额外方差项（引用 Zhao et al., 2018）。
- 作者构造了 AMSE 的估计量 \(\widehat{\text{AMSE}}\)，并证明了其一致性。这是 FIS 方法的基础：我们能够可靠地估计不同 IV 子集对应的 MSE。
Focused Instrument Selection (FIS) 方法：
- 对于所有可能的 IV 子集 \(S\)（或通过贪心/前向选择等算法搜索），计算 \(\widehat{\text{AMSE}}(S)\)。
- 选择使 \(\widehat{\text{AMSE}}(S)\) 最小的子集 \(\hat{S}\)。
- 最终估计量为 \(\hat{\theta}_{\hat{S}}\)。
Post-selection Inference（Theorem 2 & 3）：
- 问题：基于数据选择 IV 后，传统的置信区间（如 \(\hat{\theta}_{\hat{S}} \pm 1.96 \hat{\sigma}\)）覆盖率会失效（Leeb & Pötscher, 2007）。
- 策略：作者提出构造置信区间，使其覆盖"最坏情况下的目标值"（worst-case coverage）。
- 具体而言，作者构造了一个区间，保证其覆盖"真实因果效应 \(\theta_0\)"的概率不低于名义水平，即使选择过程可能引入偏差。这通过放大置信区间的宽度来实现，宽度取决于"核心 IV"估计的不确定性以及"非核心 IV"可能引入的最大偏差估计。
- 1-step vs 2-step CI：作者提出了两种置信区间构造方法。1-step 区间更短但计算复杂；2-step 区间更保守但易于计算。模拟显示 1-step 区间在 coverage 和 length 上表现更好。

证明路线与技术技巧：

整体路线：
- Step 1: 渐近展开。在 many weak 设定下（\(p/n \to \infty\) 或 \(p\) fixed but \(\beta_{Xj} \to 0\)），对 IVW 估计量进行渐近展开。这不同于经典强 IV 设定。
- Step 2: 偏差-方差分解。将估计误差分解为偏差项和方差项。关键在于识别 many weak 设定下特有的方差项（Zhao et al., 2018 的 \(\varsigma\) 项）。
- Step 3: 估计不可观测项。偏差项依赖于未知的 \(\tau_j\)。作者利用残差 \(\hat{\tau}_j\) 构造估计量，并证明其一致性。
- Step 4: Post-selection 推断。利用 Leeb & Pötscher (2007) 的框架，分析选择估计量的分布。通过构造"最坏情况"区间来保证覆盖率。
关键跳跃点：
- Many weak 下的方差估计：传统 IVW 方差公式在 many weak 下失效。作者引入了修正项 \((\eta_C + \eta_S)^{-2}(\varsigma_C + \varsigma_S)\)，其中 \(\eta\) 是强度参数，\(\varsigma\) 是与 many weak 相关的额外方差参数。这一修正直接来自 Zhao et al. (2018) 的理论。
- 偏差的估计：\(\tau_j\) 不可观测。作者巧妙地利用了"核心 IV"（Core IVs）作为基准，假设核心 IV 无偏，从而估计非核心 IV 带来的偏差。
技术技巧点名：
- Empirical Process / Asymptotic Theory：用于处理 \(p \to \infty\) 时估计量的渐近性质。
- Post-selection Inference：直接引用并拓展了 Leeb & Pötscher (2008) 的理论，处理选择带来的分布不确定性。
- Method of Moments / GMM：本文的 IVW 估计量本质上是 GMM 的特例，FIS 方法是 DiTraglia (2014) FMSC 在 MR 汇总数据上的特例化。

真实例子与应用：

本文包含两个实证分析，均使用公开 GWAS 汇总数据。

Example 1: Lipid drug target validation（血脂药物靶点验证）：
- 数据：以 LDL-cholesterol 为 exposure，Coronary Artery Disease (CAD) 为 outcome。使用 PCSK9 和 HMGCR 基因区域的 SNP 作为 IV。
- 目的：验证降脂药物靶点的因果效应。
- 结果：FIS 方法选择的 IV 数量远多于"仅核心 IV"策略。估计出的因果效应与 RCT 结果一致，且标准误更小（相比仅用核心 IV）。这支持了"保留轻微无效 IV 可提高精度"的论点。
Example 2: Vitamin D effects on multiple outcomes（维生素 D 的因果效应）：
- 数据：以 Vitamin D 为 exposure，多种疾病为 outcome。
- 背景：观察性研究显示 Vitamin D 与多种疾病相关，但 RCT 未证实因果（Barbarawi et al., 2019）。MR 研究结果不一。
- 结果：FIS 方法发现，对于多数 outcome，最优 IV 选择包含大量非核心 IV。然而，FIS 构造的置信区间往往更宽，覆盖了零点，提示许多观察性关联可能由偏差导致。这展示了 FIS 方法在"权衡偏差与方差"后的保守性（置信区间更宽但更可靠）。

🔎 结论是否比证明窄：

Claim：作者声称 FIS 方法在 MSE 意义下优于传统方法。
Proof：理论证明依赖于 many weak 和 locally invalid 的渐近设定。在有限样本下，尤其是 IV 强度中等或偏差较大时，AMSE 估计的准确性可能下降，导致选择错误。
Gap：理论结果主要针对 IVW 估计量。对于其他稳健估计量（如 MR-Egger, Weighted Median），FIS 准则是否适用？作者在文中提到可以拓展，但未给出严格证明。此外，post-selection CI 的"保守性"在实际应用中可能过宽，导致检验功效过低，这一点在理论中有保证，但在实证中可能成为问题。

四、开放问题（点到为止）¶

High-dimensional IV Selection：本文处理 \(p\) 较大的情况，但选择策略仍是基于搜索子集。当 \(p\) 极大（如全基因组 \(p \sim 10^6\)）时，如何高效进行 FIS？是否可以结合 Lasso 或其他稀疏惩罚项来定义 MSE 最优？（扎根于第三节"计算复杂度"讨论）。
Non-local invalidity：本文假设 \(\tau_j = O(1/\sqrt{n})\)。若存在个别 IV 具有较大直接效应（\(\tau_j\) 较大），FIS 方法是否 robust？是否会因"偏差主导"而错误剔除所有 IV？（扎根于第二节"Locally invalid"假设）。
与 Shrinkage 方法的对比：Rosenman et al. (2020) 提出的 shrinkage 方法同样以 MSE 为目标。FIS（选择）与 Shrinkage（收缩）在理论上有何联系？在有限样本下何者更优？（扎根于 Intro 缺失的引用视角）。
Dependent IVs：本文假设 IVs 独立或弱相关（LD pruning 后）。若 IVs 间存在较强相关性（如未完全 LD pruning），FIS 的方差估计与选择准则如何修正？（扎根于第三节"LD matrix"假设）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Selecting invalid instruments to improve Mendelian randomization with two-sample summary data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论