Dissecting the colocalized GWAS and eQTLs with mediation analysis for high-dimensional exposures and confounders¶

作者: Qi Zhang, Zhikai Yang, Jinliang Yang
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: https://doi.org/10.1093/biomtc/ujae050

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在基因组学中，如何利用共定位的GWAS（全基因组关联分析）和eQTL（表达数量性状位点）数据，来识别那些通过转录调控影响表型的因果变异。这本质上是一个高维中介分析问题：将遗传变异（如SNP）视为暴露，基因表达量视为中介变量，表型视为结局，目标是估计每个暴露通过所有中介变量传递的总体间接效应（Overall Indirect Effect, IE）。该方向当前处于“方法从低维向高维扩展”的活跃期，但高维暴露、高维混杂和高维中介同时存在时的识别与推断仍是瓶颈。

发展脉络¶

奠基工作：经典中介分析与共定位分析
- Baron & Kenny (1986)：提出了经典的“三步法”中介分析框架，奠定了“总效应 = 直接效应 + 间接效应”的分解思路。这是所有后续工作的概念起点。
- Imai et al. (2010)：将中介分析置于潜在结果框架下，给出了非参数识别条件（序贯可忽略性），并提出了基于敏感性分析的方法。这为因果解释提供了严格基础。
- Plagnol et al. (2009) 与 Giambartolomei et al. (2014)：提出了共定位分析（colocalization）的贝叶斯方法，用于判断GWAS和eQTL信号是否由同一个因果变异驱动。这些方法识别“共定位”信号，但并未量化中介效应的大小。
主要进展：从低维到高维中介分析
- Zhang et al. (2016)：首次将高维中介分析引入基因组学，提出了HIMA（High-dimensional Mediation Analysis）方法。它使用Lasso筛选中介变量，然后对筛选出的中介进行Sobel检验。留下的口子：该方法只处理了高维中介，但暴露和混杂仍是低维的；且第一步筛选可能遗漏弱信号中介。
- Zhou et al. (2020)：提出了基于“difference-in-coefficients”的高维中介分析方法，通过比较有无中介变量时暴露系数的变化来估计总体IE。留下的口子：该方法假设暴露是低维的，且需要所有中介变量可观测，未考虑高维混杂。
- Guo et al. (2022)：提出了一个处理高维暴露和高维中介的框架，但假设混杂是低维的或可忽略。留下的口子：未解决高维混杂带来的混淆问题。
当前Frontier：高维暴露、高维中介与高维混杂并存
- 当前文献中，同时处理这三者（高维暴露、高维中介、高维混杂）的通用方法非常有限。大多数方法要么假设暴露低维，要么假设混杂低维，要么依赖强筛选假设。
- 本文的位置：本文直接切入这个最困难的设定——高维暴露、高维中介、高维混杂同时存在。它提出的MedDiC方法，通过两阶段回归和Lasso正则化，试图在“difference-in-coefficients”框架下解决这一问题，并声称在功效、置信区间长度和计算速度上优于现有方法。

子线索聚类¶

基于“乘积系数”的路径特定效应估计：这类方法（如经典的Sobel检验、HIMA）先分别估计暴露到中介的路径（a路径）和中介到结局的路径（b路径），然后检验乘积a*b。它们擅长识别单个或少数几个强中介，但在高维下需要多重检验校正，且难以估计总体IE。
基于“系数差异”的总体间接效应估计：这类方法（如本文的MedDiC、Zhou et al. 2020）通过比较两个回归模型中暴露系数的差异来估计总体IE。它们天然适用于估计所有中介的联合效应，但需要处理高维回归中的估计和推断问题。
共定位与中介分析的结合：这类方法（如Plagnol et al. 2009, Giambartolomei et al. 2014）专注于识别共享因果变异的信号，但不量化效应大小。本文的MedDiC则是在识别出共定位信号后，进一步量化其通过转录组的中介效应。

这个方向在追问的核心问题¶

识别问题：在存在高维未观测混杂（尤其是暴露-中介、中介-结局之间的混杂）时，总体IE是否可识别？需要什么假设？
估计与推断问题：在高维（p >> n）设定下，如何对总体IE进行一致估计并构造有效的置信区间？Lasso等正则化方法会引入偏差，如何校正？
计算问题：当暴露、中介和混杂的维度都很大时，如何设计可扩展的算法？
生物学解释：如何将统计上的“总体IE”分解为有生物学意义的路径，并验证其合理性？

⚠️ 作者的Framing¶

作者的缺口Frame：作者将缺口明确表述为“现有方法无法同时处理高维暴露、高维中介和高维混杂”。他们通过引用Zhou et al. (2020)和Guo et al. (2022)等文献，指出这些方法要么假设暴露低维，要么假设混杂低维，从而将本文定位为“显然的下一步”——即填补这个三高维并存的空白。
被淡化或回避的竞争路线：
- 基于乘积系数的方法（如HIMA）：作者在引言中提及了HIMA，但将其定位为“需要多重检验校正，且难以估计总体IE”，从而淡化了这条路线。实际上，HIMA在识别特定中介方面有其优势，而MedDiC更侧重于总体效应。
- 基于工具变量（IV）的方法：作者完全没有讨论使用遗传变异作为工具变量的孟德尔随机化（MR）方法。MR是因果推断中处理混杂的另一种主流框架，但通常假设暴露低维。作者回避了这条路线，可能是因为MR的假设（如排他性约束）在多个暴露和中介并存时难以满足。
什么明显该被引/该存在、却没出现在intro里？
- 高维中介分析中的debiased Lasso方法：例如，van de Geer et al. (2014) 或 Zhang & Zhang (2014) 提出的用于高维线性模型推断的debiased Lasso方法。MedDiC的推断部分（置信区间构造）依赖于Lasso估计的渐近正态性，但Lasso本身是有偏的。作者没有引用或讨论如何通过debiased Lasso来校正这种偏差，这是一个值得研究者去查的潜在缺口。
- 关于“序贯可忽略性”假设在高维下的讨论：作者在方法部分假设了“给定暴露和混杂后，中介变量是外生的”，这本质上是序贯可忽略性。在高维设定下，这个假设是否合理、如何检验，作者没有深入讨论。这是一个重要的识别假设，值得研究者去查相关文献（如Imai et al. 2010的敏感性分析在高维下的扩展）。

张力¶

未见明显对立引用。所有被引工作基本沿着“从低维到高维”的渐进路线发展，彼此之间没有根本性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( X \)：暴露变量（Exposure）。在本文中，\( X \) 是一个 \( p \)-维向量，代表 \( p \) 个不同的遗传变异（如SNP）。参数/estimand。
- \( M \)：中介变量（Mediator）。在本文中，\( M \) 是一个 \( q \)-维向量，代表 \( q \) 个基因的表达量。随机变量。
- \( Y \)：结局变量（Outcome）。在本文中，\( Y \) 是一个标量，代表某个表型（如玉米的株高）。随机变量。
- \( C \)：混杂变量（Confounder）。在本文中，\( C \) 是一个 \( r \)-维向量，代表 \( r \) 个可能同时影响 \( X, M, Y \) 的变量（如群体结构、环境因素）。随机变量。
- \( n \)：样本量。
- \( p, q, r \)：分别为暴露、中介、混杂的维度。本文设定 \( p, q, r \) 都可能远大于 \( n \)（高维）。
- \( \beta \)：暴露 \( X \) 对结局 \( Y \) 的总效应（Total Effect, TE）的系数向量。参数。
- \( \alpha \)：暴露 \( X \) 对中介 \( M \) 的效应系数矩阵（\( p \times q \)）。参数。
- \( \gamma \)：中介 \( M \) 对结局 \( Y \) 的效应系数向量（\( q \)-维）。参数。
- \( \theta \)：暴露 \( X \) 对结局 \( Y \) 的直接效应（Direct Effect, DE）的系数向量。参数。
- \( IE_j \)：第 \( j \) 个暴露的总体间接效应（Overall Indirect Effect）。\( IE_j = \beta_j - \theta_j \)。目标estimand。
模型：本文假设一个线性结构方程模型：
\[M = X\alpha + C\Phi_M + \epsilon_M\]

\[Y = X\theta + M\gamma + C\Phi_Y + \epsilon_Y\]
其中 \( \Phi_M \) 和 \( \Phi_Y \) 是混杂 \( C \) 对 \( M \) 和 \( Y \) 的效应系数矩阵/向量，\( \epsilon_M \) 和 \( \epsilon_Y \) 是均值为0的随机误差项。这个模型假设了线性和可加性，并且假设没有暴露-中介交互作用。
可观测数据：研究者实际能观测到的是 \( n \) 个独立同分布的样本：\( \{X_i, M_i, Y_i, C_i\}_{i=1}^n \)。其中 \( X_i \) 是 \( p \)-维，\( M_i \) 是 \( q \)-维，\( C_i \) 是 \( r \)-维，\( Y_i \) 是标量。想要但观测不到的是潜在结果（如 \( Y(X, M) \)），以及误差项 \( \epsilon_M, \epsilon_Y \)。识别依赖于模型假设和序贯可忽略性。

第二步：讲最小内核¶

本文的核心思路是“difference-in-coefficients”。为了看清它，我们考虑一个最简特例：只有一个暴露（\( p=1 \)），一个中介（\( q=1 \)），没有混杂（\( r=0 \)）。

模型退化：
\[M = \alpha X + \epsilon_M\]

\[Y = \theta X + \gamma M + \epsilon_Y\]
其中 \( \alpha, \theta, \gamma \) 都是标量。
总效应模型：将 \( M \) 的表达式代入 \( Y \) 的方程，得到：
\[Y = \theta X + \gamma (\alpha X + \epsilon_M) + \epsilon_Y = (\theta + \alpha\gamma) X + (\gamma\epsilon_M + \epsilon_Y)\]
因此，总效应 \( \beta = \theta + \alpha\gamma \)。
核心思路：
1. 第一步：用 \( Y \) 对 \( X \) 做回归，估计总效应 \( \hat{\beta} \)。
2. 第二步：用 \( Y \) 对 \( X \) 和 \( M \) 做回归，估计直接效应 \( \hat{\theta} \)。
3. 第三步：计算总体间接效应 \( \widehat{IE} = \hat{\beta} - \hat{\theta} \)。
为什么成立：在这个线性、无混杂、无交互的设定下，\( \beta - \theta = \alpha\gamma \)，这正是经典的“乘积系数”形式的间接效应。所以“difference-in-coefficients”方法等价于估计 \( \alpha\gamma \)。
高维下的困难：当 \( p, q, r \) 都很大时，上述三步中的每一步都变成了高维回归问题：
- 第一步：\( Y \) 对 \( X \) 和 \( C \) 做高维回归，估计 \( \beta \)。Lasso等正则化方法会引入偏差。
- 第二步：\( Y \) 对 \( X, M, C \) 做高维回归，估计 \( \theta \)。同样有偏差。
- 第三步：\( \widehat{IE} = \hat{\beta} - \hat{\theta} \)。两个有偏估计的差，偏差可能不会抵消，导致推断失效。
本文的关键想法：MedDiC的核心就是直接处理这个“偏差累积”问题。它通过两阶段回归来分离直接和间接效应，并利用Lasso正则化来同时处理高维暴露、中介和混杂。其推断部分（置信区间）依赖于Lasso估计的渐近性质，但作者没有采用debiased Lasso，而是直接使用Lasso估计量，并声称在特定条件下其偏差可忽略或可通过bootstrap校正。这个“直接使用Lasso估计量做推断”的做法，是本文最值得研究者仔细审视的技术跳跃点。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对GWAS与eQTL共定位分析中，高维暴露（SNP）、高维中介（基因表达）和高维混杂（群体结构等）同时存在时的因果推断问题，提出了一个估计每个暴露的总体间接效应（IE）的方法MedDiC。
核心工具/方法：基于“difference-in-coefficients”框架，通过两阶段高维线性回归（使用Lasso正则化）来估计总效应和直接效应，其差即为总体IE。
主要结论：模拟研究表明，MedDiC在检验功效、置信区间长度和计算速度上优于现有方法（如HIMA、基于乘积系数的方法）。在两个真实数据集（玉米和小鼠）上的应用结果与外部生物学证据一致。

关键设定与假设¶

设定：在第二节最小记号的基础上，补全为：\( p, q, r \) 都可能远大于 \( n \)。模型为线性结构方程模型，且假设没有暴露-中介交互作用。
关键假设：
1. 线性与可加性：\( M \) 和 \( Y \) 的模型都是线性的，且没有交互项。
2. 序贯可忽略性（Sequential Ignorability）：给定暴露 \( X \) 和混杂 \( C \) 后，中介 \( M \) 的分配是随机的（即 \( M \) 相对于 \( Y \) 是外生的）。这是中介分析的核心识别假设。
3. 稀疏性（Sparsity）：真实的效应系数（\( \alpha, \theta, \gamma \)）是稀疏的，即只有少数暴露、中介和混杂对结果有非零效应。这是Lasso等正则化方法有效的前提。
4. 无测量误差：假设 \( X, M, C, Y \) 都被精确测量。
相比已有文献的强化/放宽：
- 强化：相比Zhou et al. (2020) 假设暴露低维，本文允许暴露高维。
- 放宽：相比Guo et al. (2022) 假设混杂低维，本文允许混杂高维。
- 未变：仍然依赖线性模型和序贯可忽略性，这是中介分析领域的常见假设。

主要结果¶

估计量：MedDiC的估计量 \( \widehat{IE}_j = \hat{\beta}_j - \hat{\theta}_j \)，其中 \( \hat{\beta}_j \) 和 \( \hat{\theta}_j \) 分别来自两个Lasso回归。
- 回归1（总效应模型）：\( Y \sim X + C \)，得到 \( \hat{\beta} \)。
- 回归2（直接效应模型）：\( Y \sim X + M + C \)，得到 \( \hat{\theta} \)。
推断：作者使用bootstrap方法来构造 \( \widehat{IE}_j \) 的置信区间。具体地，对原始数据重采样B次，每次重采样后重新运行MedDiC，得到B个 \( \widehat{IE}_j \) 的估计值，然后取这些值的2.5%和97.5%分位数作为置信区间。
模拟结果：
- 功效（Power）：MedDiC在检测非零IE时，功效显著高于HIMA和基于乘积系数的方法，尤其是在信号较弱或中介数量较多时。
- 置信区间长度：MedDiC的置信区间比竞争方法更短，表明其估计更精确。
- 计算速度：MedDiC的计算时间远快于HIMA（后者需要进行多重检验校正和bootstrap），因为MedDiC只需要运行两次Lasso和一次bootstrap。
真实数据结果：
- 玉米数据集：识别出多个与株高、开花时间等农艺性状相关的SNP，其IE通过已知的候选基因表达介导。结果与已有的QTL图谱和基因功能注释一致。
- 小鼠数据集：识别出多个与体重、脂肪含量等代谢性状相关的“cis-driver基因”，其IE通过调控下游的“trans-regulated基因”实现。结果与已知的基因调控网络一致。

证明路线与技术技巧¶

本文是应用/方法型论文，没有严格的渐近理论证明。其“证明”主要体现在模拟实验和真实数据应用中。

整体路线：作者通过精心设计的模拟实验来验证MedDiC的性能。模拟实验覆盖了不同的样本量、维度、信号强度和稀疏度水平，并与多个基线方法（HIMA、乘积系数法）进行比较。评价指标包括：功效、置信区间覆盖率、置信区间长度、计算时间。
关键跳跃点：最大的技术跳跃是直接使用Lasso估计量做推断。Lasso估计量是有偏的，其渐近分布通常不是正态的，因此直接使用bootstrap构造的置信区间可能不覆盖真实值。作者在模拟中展示了置信区间覆盖率接近名义水平（如95%），但这依赖于模拟设定的具体参数。在更一般的条件下，这个做法是否有效，是一个开放问题。
技术技巧点名：
- Lasso正则化：用于在高维回归中进行变量选择和系数估计。
- Bootstrap：用于构造置信区间，避免了对Lasso估计量渐近分布的复杂推导。
- Difference-in-coefficients：核心估计框架，将复杂的中介效应估计转化为两个高维回归问题。

真实例子与应用¶

数据/场景：
1. 玉米（Maize）：来自一个玉米多样性面板的GWAS数据。暴露是约100万个SNP，中介是约3万个基因的表达量，结局是多个农艺性状（如株高、开花时间）。混杂包括群体结构主成分。
2. 小鼠（Mouse）：来自一个小鼠遗传参考群体（如BXD重组自交系）的数据。暴露是约5万个SNP，中介是约2万个基因的表达量，结局是代谢性状（如体重、脂肪含量）。混杂包括性别、年龄等。
如何应用：对每个SNP（暴露），运行MedDiC，估计其通过所有基因表达（中介）对表型（结局）的总体IE。然后，根据IE的置信区间是否包含0来判断该SNP是否具有显著的中介效应。
结果：
- 玉米：MedDiC识别出的SNP富集在已知的QTL区间内，且其介导的基因富集在已知的生物学通路中（如与开花时间相关的光周期通路）。
- 小鼠：MedDiC识别出的cis-driver基因与已知的代谢调控网络中的关键节点重合。
例子想说明什么：这些例子旨在验证MedDiC的实用性和生物学合理性。它们表明，MedDiC不仅能在模拟中表现良好，还能在真实数据中发现有生物学意义的信号，且这些信号与已有的知识一致。

🔎 结论是否比证明窄¶

是。作者在摘要和引言中声称MedDiC能处理“高维暴露、高维中介和高维混杂”，并在模拟中展示了其优势。然而，其推断方法（bootstrap on Lasso）的渐近有效性并没有得到理论证明。模拟中的良好表现可能依赖于特定的数据生成机制（如稀疏性、信噪比）。在更一般的条件下，bootstrap置信区间可能不覆盖真实值。作者在讨论部分也承认了这一点，指出“理论性质需要进一步研究”。因此，本文的结论（MedDiC有效）比其证明（模拟+应用）要宽。这是一个值得研究者去查的潜在缺口：能否为MedDiC提供严格的渐近理论？

四、开放问题（点到为止，扎根具体语句）¶

理论推断：能否为MedDiC的bootstrap置信区间提供严格的渐近理论保证？例如，在什么稀疏性条件和信噪比下，bootstrap置信区间是渐近有效的？扎根点：作者在讨论部分提到“The theoretical properties of MedDiC, such as the consistency and asymptotic distribution of the estimator, warrant further investigation.”
识别假设的放松：如何放松线性、无交互和序贯可忽略性假设？例如，能否将MedDiC扩展到非线性模型（如广义线性模型）或允许暴露-中介交互作用？扎根点：模型设定部分明确假设了“linear and additive effects without interaction”。
高维混杂的敏感性分析：序贯可忽略性假设在高维下难以验证。能否开发一种针对高维中介分析的敏感性分析方法，来评估未观测混杂对IE估计的影响？扎根点：识别依赖于序贯可忽略性，但作者没有讨论其在高维下的敏感性。
计算效率的进一步优化：当 \( p, q, r \) 都达到数万甚至数十万时，运行两次Lasso和一次bootstrap的计算成本可能很高。能否利用更高效的优化算法（如坐标下降的并行化、随机梯度下降）或近似推断方法（如变分贝叶斯）来加速？扎根点：作者在模拟中比较了计算时间，但真实数据集的维度可能更大。

Maintained by 陈星宇 · Homepage · Source on GitHub