Debiased Multivariable Mendelian Randomization¶

讲者: Ting Ye
讨论人: Neil Davies
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-13
主题: 因果推断
视频: https://youtu.be/HjQ0nuq1l0M

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向：多变量孟德尔随机化（MVMR）中的弱工具变量（weak IV）偏差与偏差校正。

这条工作线追问的是：在利用多个暴露变量、大量遗传变异作为工具变量（IVs）的孟德尔随机化（MR）研究中，当IV强度很弱时，如何正确估计各个暴露对结局的因果效应？ （你熟悉因果推断中的IV方法，这里的 MVMR 是单变量MR在多暴露场景下的直接推广——估计每个暴露的“直接效应”，即不受其他暴露中介的路径。）

奠基与主流路线：单变量MR 中，弱IV偏差是经典问题，逆方差加权估计量（IVW）会偏向零（保守），已有各种偏差校正方法（如MR-Egger、加权中位数、MR-PRESSO）。但在多变量的MVMR 中，问题更为复杂：
1. IVW 的弱IV偏差可以偏离零或朝向零，方向取决于暴露间的相关结构（[0:30:00]附近讲者强调，这是MVMR 相较于单变量MR 更严重的问题）。
2. 主流的MVMR 方法（如常用的MV-IVW）默认所有暴露都被强IV支持，但现实中两个强关联的暴露（如成年BMI与儿童BMI）的高遗传相关会导致条件弱IV——即一个暴露在控制了另一个后与IV的关联变得很弱。
当前的Frontier：已有方法如MR-Egger（放宽排他性约束）、GRAPPLE（基于似然的鲁棒方法）试图处理异常IV，但对所有方向均弱IV的问题仍乏力。2021年Sanderson等人的工作（如 Sanderson et al., 2021, Int J Epidemiol）引入了条件F统计量检测弱IV，但没有提供理论一致的偏差校正。讲者的工作填补了弱IV 下MVMR 的通用渐近理论与可操作校正方法的空白。
这场报告的站位：它提出了一个灵活的、允许不同线性组合的暴露具有不同IV强度（即不同收敛速率）的许多弱IV渐近框架，在此框架下：(a) 严格刻画了MV-IVW的偏差行为；(b) 提出了去偏逆方差加权（DIVW）和调整去偏逆方差加权（ADIW）两类估计量，并证明了在比IVW 弱得多的条件下（最小IV强度 µ_min ≫ √P 而非IVW 需要的 µ_min ≫ P），它们是一致且渐近正态的**。报告还讨论了向水平多效性和重叠样本的扩展。

关键文献（从幻灯片和转写提取，不确定的名字已标注）： - 基础渐近框架：Newey & Windmeijer, 2009, "Generalized method of moments with many weak moment conditions", Econometrica - 单变量去偏IVW：讲者团队的前工作 Ye et al., 2021 or 2023（演讲中提及）。 - 弱IV条件F统计量：Sanderson et al., 2021, Int J Epidemiol - 密度依赖MR：Burgess et al., 2017 (MR-PRESSO), Wang et al., 2021 (GRAPPLE)

与研究者兴趣的连接： - 直接相关：因果推断中的IV方法、M估计理论、最小极大界、高维渐近。 - 工具性连接：MVMR 的渐近框架本质上是逆问题：从 Γ̂ = G'β + noise 估计β，其中G是p×K的IV-暴露关联矩阵。当G是弱IV时，该逆问题是病态的。报告中的ADIW使用了特征值调整来稳定矩阵求逆，这与你在高维随机矩阵和计算约束统计中对病态问题的兴趣有重叠。 - 潜在计算映射：报告没有深入探讨，但MVMR在大k（很多暴露）下遇到维度灾难。你熟悉的高阶U-统计量和张量网络（einsum）复杂度模型，也许能在更高维的MVMR（比如蛋白质组学中k>10）的算法效率问题上找到切入点——虽然报告主要关注k固定。

二、最小内核 / 一个最简例子¶

符号与模型：

可观测数据（来自K个GWAS摘要统计）：
- Γ̂_j ∈ ℝ^K：第j个遗传变异（IV）对K个暴露的边际效应估计（方阵Σ̂_xj）。
- γ̂_j ∈ ℝ：该IV对结局的边际效应估计（方差σ̂_yj²）。
- 假设所有p个IV相互独立，且暴露样本与结局样本不重叠（报告后段放宽）。
潜在不可观测量与参数：
- β ∈ ℝ^K：关注的因果效应向量（param of interest / estimand）。
- Γ_j ∈ ℝ^K：IV对暴露的真实边际效应。
- γ_j：IV对结局的真实边际效应（= Γ_j'β 若排除限制成立）。
- U_j：未测混杂（在单样本IV中是已知问题，在双样本摘要中通过独立性假设回避）。
核心方程： γ̂_j ≈ γ_j = Γ_j'β (基于IV假设：排除限制 + 独立性 + 相关性) 由于测量误差：Γ̂_j = Γ_j + ε̂_j (测量误差)，γ̂_j = Γ_j'β + η̂_j。将第一式代入第二式：γ̂_j = (Γ̂_j - ε̂_j)'β + η̂_j = Γ̂_j'β + (η̂_j - ε̂_j'β) —— 测量误差与估计量相关，导致经典IVW有偏。

一个最简特例（k=2, p很大）：

暴露1：成年BMI，暴露2：儿童BMI。我们想知道β₁和β₂（分别的“直接效应”）。第j个SNP对这两个暴露的影响分别为Γ_{j1}和Γ_{j2}。
关键：由于两个BMI的遗传相关性很高，很多SNP的 (Γ_{j1}, Γ_{j2}) 几乎是共线的——即存在一个方向 (1, -c) 使得该线性组合几乎与所有IV无关。此时IV强度矩阵 Σ Γ_j Γ_j' 的最小特征值 λ_min 很小。
IVW估计量（风险版本）：β̂_IVW = (∑ Γ̂_j Γ̂_j')⁻¹ ∑ Γ̂_j γ̂_j。
- 偏差来源：分母中的 ∑ Γ̂_j Γ̂_j' 多出了测量误差项 ∑ ε̂_j ε̂_j'，该误差项是正定的，膨胀了矩阵的某些方向。当最小特征值很小（弱IV方向）时，这个膨胀会系统地拉偏或甚至反转β的估计。在特例中，如果θ = β₁ - cβ₂的方向很弱，那么IVW对这个θ的估计会强烈偏向零，同时可能扭曲β₁和β₂的个别估计（如演讲中的模拟：第三个暴露偏差远离零）。
DIVW修正：只需做的改动是：β̂_DIVW = (∑ Γ̂_j Γ̂_j' - Σ̂)⁻¹ ∑ Γ̂_j γ̂_j，其中Σ̂ = diag(σ̂_xj1², …, σ̂_xjK²)。这个减法是减去测量误差的正定贡献，从而恢复分母的期望。当IV真的很弱（特征值接近零）时，∑ Γ̂_j Γ̂_j' - Σ̂ 可能非正定，需要（ADIW）做特征值调整：(S + λ I)^{-1} 其中S = ∑ Γ̂_j Γ̂_j' - Σ̂，λ选择为最小化某个残差。

通俗理解：IVW的偏差就像用一把有凹痕的尺子量距离，凹痕处会“卡住”——弱IV方向对应凹痕。DIVW是补上凹痕，ADIW是补上后再用砂纸打磨掉剩余的毛刺（特征值调整），使得任意方向都能被可靠测量。

三、报告主体：讲者讲了什么¶

（时间标注基于转写；ASR名词可能有误，待对应幻灯片核实）

[0:00–0:10] 开场与背景 - 介绍了MVMR: 用遗传变异作为IV同时研究K个暴露对结局的直接效应。 - 动机：两个BMI的例子——成年和儿童BMI对乳腺癌风险（[0:08:50]）。通过GWAS摘要数据（边际效应+标准误）可以来自完全不重叠的三个人群，方便。 - 重申IV的三个关键假设：相关性、独立性（基于孟德尔遗传定律）、排除限制（[0:05:45]–[0:07:05]）。

[0:10–0:17] 摘要数据模型与两个核心假设 - 假设1: 正态测量误差模型（[0:13:42]）。Γ̂_j ~ N(Γ_j, Σ_xj), γ̂_j ~ N(γ_j, σ_yj²), 且跨SNP独立（经LD-clumping）。方差视为已知（GWAS样本大时近似成立）。 - 假设2: 许多弱IV 的渐近框架（[0:17:15]）。这是理论核心。它是Newey & Windmeijer (2009) 多矩条件的弱IV 框架在MVMR 摘要数据场景的适配。 - 将IV强度矩阵 M = ∑ Γ_j Γ_j' 分解为 M = S_n * H * S_n'，其中S_n = diag(√µ_{n1}, …, √µ_{nK}) * L（L是K×K满秩有界矩阵）。µ_{nk} 量化了第k个线性组合（方向）的IV强度收敛速率。 - µ_min = min(µ_{nk}) 是最弱方向的速率。 - 该框架比Stock-Yogo（所有µ ~ n）和Sanderson（µ只在某一方向突变）更通用，允许多个暴露的不同线性组合有完全不同的弱IV行为——这一点在MVMR中极其重要（[0:19:40]）。

[0:17–0:20] 提问省略（关于线性假设）

[0:20–0:36] MV-IVW的偏差理论与DIVW/ADIW估计 - MV-IVW 估计量（[0:20:40]）: β̂_IVW = (∑ Γ̂_j Γ̂_j')⁻¹ ∑ Γ̂_j γ̂_j。 - 弱IV偏差的内在机制（[0:22:00]）: 由于 ∑ Γ̂_j Γ̂_j' ≈ ∑ Γ_j Γ_j' + ∑ Σ_xj，分母多了一个正定的测量误差矩阵∑ Σ_xj。当IV弱（∑ Γ_j Γ_j'小）时，这个冗余项导致期望的偏差近似为 E[β̂_IVW] ≈ (∑ Γ_j Γ_j' + ∑ Σ_xj)^{-1} ∑ Γ_j Γ_j' β ≠ β。 - 结果：即使β≠0，IVW也可能有偏，且方向不确定（[0:29:00]）。在最小µ_min < P的尺度下，IVW不再一致。 - 当β=0时，IVW是作为检验假设 H0: β=0 的工具是有效的（检验尺度正确），因为此时偏差消失（[0:28:50]）。 - DIVW（去偏IVW）（[0:31:30]）: β̂_DIVW = (∑ Γ̂_j Γ̂_j' - ∑ Σ̂_xj)^{-1} ∑ Γ̂_j γ̂_j。减去∑ Σ̂_xj（已知）的目的是恢复分母的无偏性。 - ADIW（调整去偏IVW）（[0:32:45]）: 当IV非常弱（最小特征值接近于零），∑ Γ̂_j Γ̂_j' - ∑ Σ̂_xj 可能非正定或病态。ADIW 的做法是特征值调整：计算 S = ∑ Γ̂_j Γ̂_j' - ∑ Σ̂_xj，将 S 的奇异值 λ_j 替换为 λ_j + φ/λ_j（[0:33:00]），其中φ是一个真实数据驱动的超参数（[0:35:00]: 在区间[0, 30 × (min_eigenvalue / √p)^{-1}]内选择最小化某种残差平方和）。 - 理论结果（[0:34:10]）: 在条件µ_min / √p → ∞下，DIVW 和 ADIW 均一致且渐近正态，且渐近等价（ADIW 的φ按所述速率选择时）。条件是IVW所需条件 µ_min / p → ∞ 的大幅放宽，在实际MR 研究中更容易满足。

[0:36–0:42] 扩展与应用 - 水平多效性（[0:36:06]–[0:36:55]）: 模型加入随机多效性项α_j（IV对结局的直接影响），若α_j与IV强度不相关，DIVW/ADIW 仍一致（但方差增大）。 - 重叠样本（[0:37:00]–[0:37:50]）: 当暴露和结局 GWAS 样本重叠，γ̂_j 和 Γ̂_j 相关，需要在分子 ∑ Γ̂_j γ̂_j 中减去相关矩阵 C_j 的项。C_j 可以从非显著的SNP估计。 - 模拟（[0:37:50]–[0:39:18]）: K=3, p=145, µ_min/√p=7.4。 - IVW: 明显偏倚，前两个暴露偏近零，第三个偏离零（方向性反转），覆盖率差。 - MR-Egger: 偏大方差。 - GRAPPLE: 表现好但有轻度欠覆盖。 - DIVW: 在弱方向仍有小偏，标准差大。 - ADIW: 偏最小，覆盖率好（接近0.95），标准差最小。 - 真实数据应用（[0:39:21]–[0:41:27]）: 6个HDL亚组分对冠心病（CAD）的因果效应，调整三个传统血脂。ADIW 结果与 GRAPPLE 类似，但更精确。IVW 的估计全部向零收缩（一致偏保守）。

[0:42–0:59] 讨论环节 - Neil Davies 的评论: 强调了MVMR应用（有上万篇论文）的严重性——大量使用IVW做出的结果可能是虚假的（[0:49:00]–[0:51:00]）。Dy 建议需要报告条件F统计量（[0:52:20]）。 - 主讲人回应 ([0:55:00]–[0:56:30]): 同意IVW在MVMR中比单变量更危险（只能检验联合零假设，不能用于单个暴露的估计），强调应报告IV强度度量，并使用鲁棒方法；对IV2假设（独立性）的讨论——承认它脆弱，需要更多敏感性分析。

四、对应论文与开放问题¶

（a）对应论文¶

报告基于的论文已发表于 arXiv（[0:01:54] 讲者提及），推测arXiv ID 包含在幻灯片中。合作者为 Yin Shan（讲者的博士生，UW Biostats）和 Han Sun / Hanbang Sun（UW Madison，ASR 听成 "hansan Kung" 或 "hansan K"）。 - 可能的arXiv 标题： Debiased Multivariable Mendelian Randomization，作者 Ting Ye, Yin Shan, Hansan Sun (确认听写)。 - 相关前作：Ting Ye 及其团队在 univariable MR 的 de-biased IVW 论文（Ye et al., 推断为 Biometrika 或 JRSS-B，可在她的页面上核实）。 - 软件包：ADIW 的R 实现可能在 官方代码仓库。演讲未涵盖公开代码网站（但 [0:52:50] 调提了 Tim Morris 的模拟报告指南，暗示作者可能有代码）。

（b）开放问题（每条扎根于转写中的具体引用）¶

[来自讨论，~0:48:00] 许多暴露（k大）下的MVMR 问题。Neil Davies 指出当k很大（如蛋白质组学、代谢组学）时，弱IV偏差会“用尽所有信息”。问题：如何将ADIW 框架扩展到高维k（k ≥ 30 或更多）？那时 S = ∑ Γ̂_j Γ̂_j' - Σ̂ 的估计本身就不一致（需要稀疏性或结构化假设）。这正好是高维统计与计算约束的经典场景。
[来自讨论，~0:52:20] IV2 假设（独立性）的违反。Neil 提到人口结构、间接效应（dynastic effects）、选型婚配（assortative mating）都会破坏遗传变异的随机分配。问题：这些偏静能在MVMR 框架中被建模（如通过基于family的IV）或通过敏感性分析（类似于E-value的推广）量化吗？这对你熟悉的因果推断敏感性方法是个入口。
[来自转写，~0:57:30] 水平多效性的扩展。主讲人只涵盖了随机多效性情形（与IV强度不相关）。问题：当存在相关水平多效性（即α_j 与 Γ_j' 相关，这在实际中更常见）时，MVMR的偏差是什么？DIVW/ADIW 还能一致吗？如果不一致，需要哪些调整（如引入第二组IV，类似于近端因果推断）？
[模拟结果，~0:39:00] ADIW 的有限样本表现。模拟中挖IVW 在某些方向偏差远离零（类别），但在DIVW 中仍有轻度偏。问题：ADIW 的最小特征值调整（φ 的选择）是否能从理论上达到最优（如对应某个 oracle spectral shrinkage）？能否将这一调整与随机矩阵理论（你对这个工具熟悉）的协方差矩阵估计中的最优收缩联系起来？这可能是你 计算约束统计兴趣中的一个切入点——最优的调整等于一个计算稳定的多项式时间估计。
[来自验证框架] 计算复杂度。现有MVMR 方法要求p（IV数量）很大（通常>100），但k很小。问题：如果我们将k扩大到中等规模（如k=50, p=5000），ADIW的矩阵求逆运算（O(K³)）仍然可接受。但若进一步利用 IV-暴露关联的稀疏性或低秩结构（例如许多IV只影响少数几个暴露），可以通过张量网络压缩（如你对 einsum 复杂度模型）来加速计算吗？这可能是 计算统计 和 高维统计 的直接连接。

注意：上述开放问题并不是评估报告的“意义”，而是为研究者（以你目前的武器库）发现可操作的下游问题。每个问题都扎根于演讲中提到的具体技术或场景，不做可行性判断。

Maintained by 陈星宇 · Homepage · Source on GitHub