Dissecting the colocalized GWAS and eQTLs with mediation analysis for high-dimensional exposures and confounders¶
作者: Qi Zhang, Zhikai Yang, Jinliang Yang
来源: Biometrics
主题: 因果推断
相关性: 7/10
链接: https://doi.org/10.1093/biomtc/ujae050
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的核心问题是:在基因组学中,如何利用共定位的GWAS(全基因组关联分析)和eQTL(表达数量性状位点)数据,来识别那些通过转录调控影响表型的因果变异。这本质上是一个高维中介分析问题:将遗传变异(如SNP)视为暴露,基因表达量视为中介变量,表型视为结局,目标是估计每个暴露通过所有中介变量传递的总体间接效应(Overall Indirect Effect, IE)。该方向当前处于“方法从低维向高维扩展”的活跃期,但高维暴露、高维混杂和高维中介同时存在时的识别与推断仍是瓶颈。
发展脉络¶
-
奠基工作:经典中介分析与共定位分析
- Baron & Kenny (1986):提出了经典的“三步法”中介分析框架,奠定了“总效应 = 直接效应 + 间接效应”的分解思路。这是所有后续工作的概念起点。
- Imai et al. (2010):将中介分析置于潜在结果框架下,给出了非参数识别条件(序贯可忽略性),并提出了基于敏感性分析的方法。这为因果解释提供了严格基础。
- Plagnol et al. (2009) 与 Giambartolomei et al. (2014):提出了共定位分析(colocalization)的贝叶斯方法,用于判断GWAS和eQTL信号是否由同一个因果变异驱动。这些方法识别“共定位”信号,但并未量化中介效应的大小。
-
主要进展:从低维到高维中介分析
- Zhang et al. (2016):首次将高维中介分析引入基因组学,提出了HIMA(High-dimensional Mediation Analysis)方法。它使用Lasso筛选中介变量,然后对筛选出的中介进行Sobel检验。留下的口子:该方法只处理了高维中介,但暴露和混杂仍是低维的;且第一步筛选可能遗漏弱信号中介。
- Zhou et al. (2020):提出了基于“difference-in-coefficients”的高维中介分析方法,通过比较有无中介变量时暴露系数的变化来估计总体IE。留下的口子:该方法假设暴露是低维的,且需要所有中介变量可观测,未考虑高维混杂。
- Guo et al. (2022):提出了一个处理高维暴露和高维中介的框架,但假设混杂是低维的或可忽略。留下的口子:未解决高维混杂带来的混淆问题。
-
当前Frontier:高维暴露、高维中介与高维混杂并存
- 当前文献中,同时处理这三者(高维暴露、高维中介、高维混杂)的通用方法非常有限。大多数方法要么假设暴露低维,要么假设混杂低维,要么依赖强筛选假设。
- 本文的位置:本文直接切入这个最困难的设定——高维暴露、高维中介、高维混杂同时存在。它提出的MedDiC方法,通过两阶段回归和Lasso正则化,试图在“difference-in-coefficients”框架下解决这一问题,并声称在功效、置信区间长度和计算速度上优于现有方法。
子线索聚类¶
- 基于“乘积系数”的路径特定效应估计:这类方法(如经典的Sobel检验、HIMA)先分别估计暴露到中介的路径(a路径)和中介到结局的路径(b路径),然后检验乘积a*b。它们擅长识别单个或少数几个强中介,但在高维下需要多重检验校正,且难以估计总体IE。
- 基于“系数差异”的总体间接效应估计:这类方法(如本文的MedDiC、Zhou et al. 2020)通过比较两个回归模型中暴露系数的差异来估计总体IE。它们天然适用于估计所有中介的联合效应,但需要处理高维回归中的估计和推断问题。
- 共定位与中介分析的结合:这类方法(如Plagnol et al. 2009, Giambartolomei et al. 2014)专注于识别共享因果变异的信号,但不量化效应大小。本文的MedDiC则是在识别出共定位信号后,进一步量化其通过转录组的中介效应。
这个方向在追问的核心问题¶
- 识别问题:在存在高维未观测混杂(尤其是暴露-中介、中介-结局之间的混杂)时,总体IE是否可识别?需要什么假设?
- 估计与推断问题:在高维(p >> n)设定下,如何对总体IE进行一致估计并构造有效的置信区间?Lasso等正则化方法会引入偏差,如何校正?
- 计算问题:当暴露、中介和混杂的维度都很大时,如何设计可扩展的算法?
- 生物学解释:如何将统计上的“总体IE”分解为有生物学意义的路径,并验证其合理性?
⚠️ 作者的Framing¶
- 作者的缺口Frame:作者将缺口明确表述为“现有方法无法同时处理高维暴露、高维中介和高维混杂”。他们通过引用Zhou et al. (2020)和Guo et al. (2022)等文献,指出这些方法要么假设暴露低维,要么假设混杂低维,从而将本文定位为“显然的下一步”——即填补这个三高维并存的空白。
- 被淡化或回避的竞争路线:
- 基于乘积系数的方法(如HIMA):作者在引言中提及了HIMA,但将其定位为“需要多重检验校正,且难以估计总体IE”,从而淡化了这条路线。实际上,HIMA在识别特定中介方面有其优势,而MedDiC更侧重于总体效应。
- 基于工具变量(IV)的方法:作者完全没有讨论使用遗传变异作为工具变量的孟德尔随机化(MR)方法。MR是因果推断中处理混杂的另一种主流框架,但通常假设暴露低维。作者回避了这条路线,可能是因为MR的假设(如排他性约束)在多个暴露和中介并存时难以满足。
- 什么明显该被引/该存在、却没出现在intro里?
- 高维中介分析中的debiased Lasso方法:例如,van de Geer et al. (2014) 或 Zhang & Zhang (2014) 提出的用于高维线性模型推断的debiased Lasso方法。MedDiC的推断部分(置信区间构造)依赖于Lasso估计的渐近正态性,但Lasso本身是有偏的。作者没有引用或讨论如何通过debiased Lasso来校正这种偏差,这是一个值得研究者去查的潜在缺口。
- 关于“序贯可忽略性”假设在高维下的讨论:作者在方法部分假设了“给定暴露和混杂后,中介变量是外生的”,这本质上是序贯可忽略性。在高维设定下,这个假设是否合理、如何检验,作者没有深入讨论。这是一个重要的识别假设,值得研究者去查相关文献(如Imai et al. 2010的敏感性分析在高维下的扩展)。
张力¶
未见明显对立引用。所有被引工作基本沿着“从低维到高维”的渐进路线发展,彼此之间没有根本性的矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- \( X \):暴露变量(Exposure)。在本文中,\( X \) 是一个 \( p \)-维向量,代表 \( p \) 个不同的遗传变异(如SNP)。参数/estimand。
- \( M \):中介变量(Mediator)。在本文中,\( M \) 是一个 \( q \)-维向量,代表 \( q \) 个基因的表达量。随机变量。
- \( Y \):结局变量(Outcome)。在本文中,\( Y \) 是一个标量,代表某个表型(如玉米的株高)。随机变量。
- \( C \):混杂变量(Confounder)。在本文中,\( C \) 是一个 \( r \)-维向量,代表 \( r \) 个可能同时影响 \( X, M, Y \) 的变量(如群体结构、环境因素)。随机变量。
- \( n \):样本量。
- \( p, q, r \):分别为暴露、中介、混杂的维度。本文设定 \( p, q, r \) 都可能远大于 \( n \)(高维)。
- \( \beta \):暴露 \( X \) 对结局 \( Y \) 的总效应(Total Effect, TE)的系数向量。参数。
- \( \alpha \):暴露 \( X \) 对中介 \( M \) 的效应系数矩阵(\( p \times q \))。参数。
- \( \gamma \):中介 \( M \) 对结局 \( Y \) 的效应系数向量(\( q \)-维)。参数。
- \( \theta \):暴露 \( X \) 对结局 \( Y \) 的直接效应(Direct Effect, DE)的系数向量。参数。
- \( IE_j \):第 \( j \) 个暴露的总体间接效应(Overall Indirect Effect)。\( IE_j = \beta_j - \theta_j \)。目标estimand。
-
模型: 本文假设一个线性结构方程模型:
\[M = X\alpha + C\Phi_M + \epsilon_M\]\[Y = X\theta + M\gamma + C\Phi_Y + \epsilon_Y\]其中 \( \Phi_M \) 和 \( \Phi_Y \) 是混杂 \( C \) 对 \( M \) 和 \( Y \) 的效应系数矩阵/向量,\( \epsilon_M \) 和 \( \epsilon_Y \) 是均值为0的随机误差项。这个模型假设了线性和可加性,并且假设没有暴露-中介交互作用。 -
可观测数据: 研究者实际能观测到的是 \( n \) 个独立同分布的样本:\( \{X_i, M_i, Y_i, C_i\}_{i=1}^n \)。其中 \( X_i \) 是 \( p \)-维,\( M_i \) 是 \( q \)-维,\( C_i \) 是 \( r \)-维,\( Y_i \) 是标量。想要但观测不到的是潜在结果(如 \( Y(X, M) \)),以及误差项 \( \epsilon_M, \epsilon_Y \)。识别依赖于模型假设和序贯可忽略性。
第二步:讲最小内核¶
本文的核心思路是“difference-in-coefficients”。为了看清它,我们考虑一个最简特例:只有一个暴露(\( p=1 \)),一个中介(\( q=1 \)),没有混杂(\( r=0 \))。
-
模型退化:
\[M = \alpha X + \epsilon_M\]\[Y = \theta X + \gamma M + \epsilon_Y\]其中 \( \alpha, \theta, \gamma \) 都是标量。 -
总效应模型:将 \( M \) 的表达式代入 \( Y \) 的方程,得到:
\[Y = \theta X + \gamma (\alpha X + \epsilon_M) + \epsilon_Y = (\theta + \alpha\gamma) X + (\gamma\epsilon_M + \epsilon_Y)\]因此,总效应 \( \beta = \theta + \alpha\gamma \)。 -
核心思路:
- 第一步:用 \( Y \) 对 \( X \) 做回归,估计总效应 \( \hat{\beta} \)。
- 第二步:用 \( Y \) 对 \( X \) 和 \( M \) 做回归,估计直接效应 \( \hat{\theta} \)。
- 第三步:计算总体间接效应 \( \widehat{IE} = \hat{\beta} - \hat{\theta} \)。
-
为什么成立:在这个线性、无混杂、无交互的设定下,\( \beta - \theta = \alpha\gamma \),这正是经典的“乘积系数”形式的间接效应。所以“difference-in-coefficients”方法等价于估计 \( \alpha\gamma \)。
-
高维下的困难:当 \( p, q, r \) 都很大时,上述三步中的每一步都变成了高维回归问题:
- 第一步:\( Y \) 对 \( X \) 和 \( C \) 做高维回归,估计 \( \beta \)。Lasso等正则化方法会引入偏差。
- 第二步:\( Y \) 对 \( X, M, C \) 做高维回归,估计 \( \theta \)。同样有偏差。
- 第三步:\( \widehat{IE} = \hat{\beta} - \hat{\theta} \)。两个有偏估计的差,偏差可能不会抵消,导致推断失效。
-
本文的关键想法:MedDiC的核心就是直接处理这个“偏差累积”问题。它通过两阶段回归来分离直接和间接效应,并利用Lasso正则化来同时处理高维暴露、中介和混杂。其推断部分(置信区间)依赖于Lasso估计的渐近性质,但作者没有采用debiased Lasso,而是直接使用Lasso估计量,并声称在特定条件下其偏差可忽略或可通过bootstrap校正。这个“直接使用Lasso估计量做推断”的做法,是本文最值得研究者仔细审视的技术跳跃点。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:针对GWAS与eQTL共定位分析中,高维暴露(SNP)、高维中介(基因表达)和高维混杂(群体结构等)同时存在时的因果推断问题,提出了一个估计每个暴露的总体间接效应(IE)的方法MedDiC。
- 核心工具/方法:基于“difference-in-coefficients”框架,通过两阶段高维线性回归(使用Lasso正则化)来估计总效应和直接效应,其差即为总体IE。
- 主要结论:模拟研究表明,MedDiC在检验功效、置信区间长度和计算速度上优于现有方法(如HIMA、基于乘积系数的方法)。在两个真实数据集(玉米和小鼠)上的应用结果与外部生物学证据一致。
关键设定与假设¶
- 设定:在第二节最小记号的基础上,补全为:\( p, q, r \) 都可能远大于 \( n \)。模型为线性结构方程模型,且假设没有暴露-中介交互作用。
- 关键假设:
- 线性与可加性:\( M \) 和 \( Y \) 的模型都是线性的,且没有交互项。
- 序贯可忽略性(Sequential Ignorability):给定暴露 \( X \) 和混杂 \( C \) 后,中介 \( M \) 的分配是随机的(即 \( M \) 相对于 \( Y \) 是外生的)。这是中介分析的核心识别假设。
- 稀疏性(Sparsity):真实的效应系数(\( \alpha, \theta, \gamma \))是稀疏的,即只有少数暴露、中介和混杂对结果有非零效应。这是Lasso等正则化方法有效的前提。
- 无测量误差:假设 \( X, M, C, Y \) 都被精确测量。
- 相比已有文献的强化/放宽:
- 强化:相比Zhou et al. (2020) 假设暴露低维,本文允许暴露高维。
- 放宽:相比Guo et al. (2022) 假设混杂低维,本文允许混杂高维。
- 未变:仍然依赖线性模型和序贯可忽略性,这是中介分析领域的常见假设。
主要结果¶
- 估计量:MedDiC的估计量 \( \widehat{IE}_j = \hat{\beta}_j - \hat{\theta}_j \),其中 \( \hat{\beta}_j \) 和 \( \hat{\theta}_j \) 分别来自两个Lasso回归。
- 回归1(总效应模型):\( Y \sim X + C \),得到 \( \hat{\beta} \)。
- 回归2(直接效应模型):\( Y \sim X + M + C \),得到 \( \hat{\theta} \)。
- 推断:作者使用bootstrap方法来构造 \( \widehat{IE}_j \) 的置信区间。具体地,对原始数据重采样B次,每次重采样后重新运行MedDiC,得到B个 \( \widehat{IE}_j \) 的估计值,然后取这些值的2.5%和97.5%分位数作为置信区间。
- 模拟结果:
- 功效(Power):MedDiC在检测非零IE时,功效显著高于HIMA和基于乘积系数的方法,尤其是在信号较弱或中介数量较多时。
- 置信区间长度:MedDiC的置信区间比竞争方法更短,表明其估计更精确。
- 计算速度:MedDiC的计算时间远快于HIMA(后者需要进行多重检验校正和bootstrap),因为MedDiC只需要运行两次Lasso和一次bootstrap。
- 真实数据结果:
- 玉米数据集:识别出多个与株高、开花时间等农艺性状相关的SNP,其IE通过已知的候选基因表达介导。结果与已有的QTL图谱和基因功能注释一致。
- 小鼠数据集:识别出多个与体重、脂肪含量等代谢性状相关的“cis-driver基因”,其IE通过调控下游的“trans-regulated基因”实现。结果与已知的基因调控网络一致。
证明路线与技术技巧¶
本文是应用/方法型论文,没有严格的渐近理论证明。其“证明”主要体现在模拟实验和真实数据应用中。
- 整体路线:作者通过精心设计的模拟实验来验证MedDiC的性能。模拟实验覆盖了不同的样本量、维度、信号强度和稀疏度水平,并与多个基线方法(HIMA、乘积系数法)进行比较。评价指标包括:功效、置信区间覆盖率、置信区间长度、计算时间。
- 关键跳跃点:最大的技术跳跃是直接使用Lasso估计量做推断。Lasso估计量是有偏的,其渐近分布通常不是正态的,因此直接使用bootstrap构造的置信区间可能不覆盖真实值。作者在模拟中展示了置信区间覆盖率接近名义水平(如95%),但这依赖于模拟设定的具体参数。在更一般的条件下,这个做法是否有效,是一个开放问题。
- 技术技巧点名:
- Lasso正则化:用于在高维回归中进行变量选择和系数估计。
- Bootstrap:用于构造置信区间,避免了对Lasso估计量渐近分布的复杂推导。
- Difference-in-coefficients:核心估计框架,将复杂的中介效应估计转化为两个高维回归问题。
真实例子与应用¶
- 数据/场景:
- 玉米(Maize):来自一个玉米多样性面板的GWAS数据。暴露是约100万个SNP,中介是约3万个基因的表达量,结局是多个农艺性状(如株高、开花时间)。混杂包括群体结构主成分。
- 小鼠(Mouse):来自一个小鼠遗传参考群体(如BXD重组自交系)的数据。暴露是约5万个SNP,中介是约2万个基因的表达量,结局是代谢性状(如体重、脂肪含量)。混杂包括性别、年龄等。
- 如何应用:对每个SNP(暴露),运行MedDiC,估计其通过所有基因表达(中介)对表型(结局)的总体IE。然后,根据IE的置信区间是否包含0来判断该SNP是否具有显著的中介效应。
- 结果:
- 玉米:MedDiC识别出的SNP富集在已知的QTL区间内,且其介导的基因富集在已知的生物学通路中(如与开花时间相关的光周期通路)。
- 小鼠:MedDiC识别出的cis-driver基因与已知的代谢调控网络中的关键节点重合。
- 例子想说明什么:这些例子旨在验证MedDiC的实用性和生物学合理性。它们表明,MedDiC不仅能在模拟中表现良好,还能在真实数据中发现有生物学意义的信号,且这些信号与已有的知识一致。
🔎 结论是否比证明窄¶
- 是。作者在摘要和引言中声称MedDiC能处理“高维暴露、高维中介和高维混杂”,并在模拟中展示了其优势。然而,其推断方法(bootstrap on Lasso)的渐近有效性并没有得到理论证明。模拟中的良好表现可能依赖于特定的数据生成机制(如稀疏性、信噪比)。在更一般的条件下,bootstrap置信区间可能不覆盖真实值。作者在讨论部分也承认了这一点,指出“理论性质需要进一步研究”。因此,本文的结论(MedDiC有效)比其证明(模拟+应用)要宽。这是一个值得研究者去查的潜在缺口:能否为MedDiC提供严格的渐近理论?
四、开放问题(点到为止,扎根具体语句)¶
- 理论推断:能否为MedDiC的bootstrap置信区间提供严格的渐近理论保证?例如,在什么稀疏性条件和信噪比下,bootstrap置信区间是渐近有效的?扎根点:作者在讨论部分提到“The theoretical properties of MedDiC, such as the consistency and asymptotic distribution of the estimator, warrant further investigation.”
- 识别假设的放松:如何放松线性、无交互和序贯可忽略性假设?例如,能否将MedDiC扩展到非线性模型(如广义线性模型)或允许暴露-中介交互作用?扎根点:模型设定部分明确假设了“linear and additive effects without interaction”。
- 高维混杂的敏感性分析:序贯可忽略性假设在高维下难以验证。能否开发一种针对高维中介分析的敏感性分析方法,来评估未观测混杂对IE估计的影响?扎根点:识别依赖于序贯可忽略性,但作者没有讨论其在高维下的敏感性。
- 计算效率的进一步优化:当 \( p, q, r \) 都达到数万甚至数十万时,运行两次Lasso和一次bootstrap的计算成本可能很高。能否利用更高效的优化算法(如坐标下降的并行化、随机梯度下降)或近似推断方法(如变分贝叶斯)来加速?扎根点:作者在模拟中比较了计算时间,但真实数据集的维度可能更大。
Maintained by 陈星宇 · Homepage · Source on GitHub