PathGPS: discover shared genetic architecture using GWAS summary data¶
作者: Zijun Gao, Qingyuan Zhao, Trevor Hastie
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: University of Southern California(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae060
一、领域脉络与小综述¶
这个方向是什么¶
本文的核心问题是:如何从大尺度生物样本库(如UK Biobank)的全基因组关联研究(GWAS)摘要统计量(summary statistics)中,探索性地发现多个性状之间共享的遗传结构?具体而言,是要识别出一组低维的“遗传路径”(genetic pathways),这些路径共同调控多个性状,并且将它们与环境和随机噪声分离开来。当前状态的成熟度处于方法开发与验证阶段——已有多种多变量GWAS方法和因子分析方法,但大多是假设驱动或高度参数化,且在处理GWAS摘要数据的特殊统计结构(非独立样本、强噪声、高维)时各有局限。
发展脉络(history)¶
-
奠基工作:GWAS 的单变量范式。 最早的GWAS分析逐性状扫描SNP,得到每个SNP-性状关联的p值或Z统计量。这为后续多变量分析提供了最原始的“数据基”——即GWAS摘要统计量。
- 常见引用:Visscher et al. (2012) 的“Five years of GWAS discovery”,总结了早期GWAS的范式。
- 作者引用句:文中提到“GWAS summary statistics are widely available”时,隐含承认其基础性。
-
主要进展:多变量/多性状分析方法。 开始有方法试图利用多个GWAS的摘要统计量,来探索跨性状的遗传相关性。
- LD Score Regression (LDSC):Bulik-Sullivan et al. (2015) 提出,利用连锁不平衡(LD)的结构,从GWAS摘要统计量中估计遗传相关(genetic correlation,即两个性状之间遗传组分的协方差)。留下的口子:它只给出两两之间的标量遗传相关,而非一个低维的、可解释的共享结构(路径/因子)。作者将其定位为“a well-established method for estimating genetic correlation”,并视为自己的一个基准(baseline)。
- MTAG:Turley et al. (2018) 提出了多性状分析,整合多个GWAS摘要统计量来提升单个性状关联信号的发现能力。留下的口子:同样不提供共享结构;其核心假设是各性状的遗传效应高度相似,其模型(所有性状的SNP效应来自一个共同的遗传效应+各自的项)隐式地假设共享结构是“全连接”的,而非低秩稀疏的。
- PCA-based GRS:Ge et al. (2019) 等使用主成分分析(PCA)从多个性状的遗传关联得分(GRS)中提取共享因子。留下的口子:这是与PathGPS最接近的路线,但作者指出,该方法直接应用PCA于噪声污染严重的单SNP-单性状GWAS效应估计(即β_hat),其PCA结果会受环境/随机噪声严重干扰,从而偏离真实的共享遗传结构。
- 作者引用句:作者强调,这些方法的共同缺陷是“do not decouple genetic and environmental components before factor analysis”,导致提取的因子是“susceptible to measurement noise and residual confounding”。
-
当前frontier:解耦遗传与环境成分的探索性因子分析。 PathGPS在此处切入。它遵循“先解耦、再降维”的路线,通过对比“信号基因”(真SNP)和“噪音基因”(非真SNP)的GWAS关联,来估计和剥离SNP对性状的环境/随机效应,获得相对纯净的遗传成分的估计,然后再进行PCA和因子分析。
- 这是绘制共享遗传架构的探索性工具,区别于LDSC和MTAG这类假设检验/推断型工具。
-
本文的位置:本文是这篇论文的其中一篇,Positioned as the first exploratory method that both (i) decouples the genetic and environmental components from GWAS summary data using a contrastive strategy, and (ii) extracts low-rank and sparse genetic pathways for multiple traits simultaneously.
子线索聚类¶
被引文献大致落在以下2-3条子线索上:
- 簇1:多变量GWAS方法,估计遗传相关/协方差。 代表:LDSC (Bulik-Sullivan et al., 2015),MTAG (Turley et al., 2018)。思想是以方差/协方差分量的形式度量遗传共享(标量或张量),但不生成可解释的低维因子。
- 簇2:遗传关联的降维方法。 代表:PCA-based GRS (e.g., Ge et al., 2019)。思想是通过PCA直接压降性状的遗传效应矩阵,但其主要瓶颈是直接在受噪声污染的输出上做PCA,结果不稳定且生物可解释性差。
- 簇3:稳健/集成估计与降维的统计方法。 这是方法层面的子线索,包括bagging与稳健PCA。PathGPS中使用的bagging(Bootstrap Aggregating)和因子分析算法是对簇2方法的增强,试图解决噪音和稳定性问题。
这个方向在追问的核心问题¶
- 如何严格分离(decouple)可观测的GWAS关联统计量中的遗传成分与环境/噪声成分? 这是最根本的问题。现有方法要么回避(直接降维,导致噪声主导结果),要么做很强的参数假设(如MTAG假设各性状的效应是同一群体的变异)。
- 如何解释“共享遗传因子”的生物学意义? 当因子被提取出来后,如何验证其对应真实的遗传路径(pathway)而不是统计假象?这要求方法输出稳定且可解释的结果。
- 如何在不依赖个体水平数据(只有摘要统计量)的情况下,稳健地估计遗传相关矩阵并进行降维? 这是方法可行性的实际瓶颈——噪声、LD、样本重叠、通道效应等如何被处理。
⚠️ 作者的framing¶
- 作者的缺口frame:作者把缺口设定为“缺失一种既能解耦遗传和环境成分,又能进行低秩稀疏探索性分析的GWAS摘要统计量工具”。这样,PathGPS就成为了“显然的下一步”。
- 被淡化/回避的竞争路线:
- 结构方程模型(SEM)的生物学应用:作者强调“linear structural equation model where traits are regulated by both genetic and environmental pathways.” 但该领域的SEM应用非常广泛,如Mx/OpenMx用于双生子模型,或经典的Maternal/Offspring效应模型。作者并未深入对比与其在GWAS语境下的直接差异。回避的是:如何在这些复杂SEM框架下(如Mom-Offspring模型)处理GWAS摘要数据,而非简化成路径图。
- 其他基于summary statistics的降维方法:文中未提及 recent work on exGaussian (exact Gaussian) PCA for GWAS 或 Bayesian factor analysis for summary statistics (e.g., BOLT-LMM like approaches)。这些可能直接处理噪声结构。
- 什么明显该被引/该存在,却没出现在intro里?
- 一个明显的缺失是:Proxy causal inference / Mendelian randomization (MR) 在解耦遗传效应时的角色。MR本身是用来估计暴露对结局的因果效应,但它的核心假设和工具变量结构(遗传变异作为IV)与文中“decoupling genetic and environmental components”的思想高度相关。引用一篇经典的MR方法论文(如Bowden et al., 2015, Nature Communications),可以更清晰地把PathGPS与因果推断的正统方法联系起来。这值得研究者去查一下。
张力¶
未见明显对立引用。所有被引工作大致在同一方向(多性状遗传分析),只是技术路径和精确目标不同。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号:
k:性状(trait)索引,k = 1,...,K(如K=10种代谢物)。j:遗传变异(SNP)索引,j = 1,...,J(如J=1e6)。Z_{k,j}:GWAS摘要统计量,表示SNPj对性状k的Z统计量(常用于衡量关联强度)。这是可观测数据。β_{k,j}:SNPj对性状k的真实遗传效应(固定、未知的标量)。σ_{k,j}^2:SNPj对性状k的效应估计的标准误差(由GWAS软件给出)。U_k:性状k的环境成分(随机变量,包含随机误差、环境暴露等)。V = [v_1, ..., v_K]:K x r的载荷矩阵(loadings),其第k行对应性状k对r个共享遗传因子Q的权重。Q:r x J的共享遗传因子,Q_t中的元素表示SNPj对因子t的效应。它是低秩和稀疏的。B = V Q:K x J的遗传效应矩阵,其中B_{k,j} = β_{k,j}。S:信号基因集(Signal genes),作者假设其SNP效应值β_j是“大”的(真实效应可被检测)。N:噪音基因集(Noise genes),作者假设其SNP效应值β_j是“小”的(接近于0,主要是噪声)。E_j:SNPj对K个性状的环境/噪声效应向量(K维)。Z_j:SNPj对K个性状的GWAS关联Z统计量向量(K维),是对B_{.,j} + E_j的一个有偏/噪声版本。
- 模型:PathGPS假设一个线性结构方程模型:
其中,遗传效应用因子模型表示:
Trait_k = (Genetic Effect from all SNPs)_k + U_k这意味着所有B = V QK个性状的遗传效应共享一个r维的低维空间(r << K, J),其生成机制是:r个共享遗传因子Q被载荷V组合成具体性状的遗传效应。 环境成分U_k与遗传变异是不相关的(关键假设)。而且,U_k的效应在GWAS摘要统计量中表现为一种随机噪声,对信号SNP和噪声SNP都是一致的。这个假设是PathGPS解耦的基础。 - 可观测数据:研究者实际能观测到的,是来自不同GWAS研究(或同一个GWAS研究的不同性状)的摘要统计量:对每个SNP
j和每个性状k,观测值Z_{k,j}及其标准误差σ_{k,j}。注意:个体水平的基因型数据 (X) 是不可见的(这是GWAS摘要数据的基本设定)。也看不到环境成分U_k的直接样本。我们需要从Z_{k,j}中识别出B的成分(遗传)和U的成分(环境/噪声)。
第二步:讲最小内核——双变量+双SNP例子¶
剥去所有一般性假设,我们看一个最简单的例子,以揭示PathGPS的核心思想——通过对比信号和噪音SNP的GWAS关联统计量,来解耦遗传和环境成分。
最简特例:
- 共有K=2个因果性状(e.g., 代谢物A和B)。
- 共有J=2个SNP:SNP1是信号基因(其对两个性状的真实遗传效应β_{A,1}, β_{B,1}都非0);SNP2是噪音基因(其对两个性状的真实遗传效应β_{A,2}=β_{B,2}=0,只受环境/随机效应影响)。
- 低秩参数r=1,即假设只有一个共享遗传因子Q。
在这个特例下,模型退化为:
- 实际遗传效应 B 是 K x J 矩阵。根据因子模型:
- B = v Q,这里v是2 x 1的载荷向量 (v_A, v_B)^T,Q是1 x 2的因子向量 (q_1, q_2)。
- 即对SNP 1:β_{A,1} = v_A q_1,β_{B,1} = v_B q_1;
- 对SNP 2:β_{A,2} = v_A q_2,β_{B,2} = v_B q_2。
- 真实的B矩阵是秩为1的。
- 可观测的数据:对每个SNP
j,我们有K=2个Z统计量,它们是对β_j + e_j的有偏/缩放后加噪声的版本。为简化,我们直接假设已对GWAS结果的估计量(通常是hat{β})进行标准化,得到:- SNP 1 (信号):
Z_{A,1} = β_{A,1} + ε_{A,1},Z_{B,1} = β_{B,1} + ε_{B,1}(ε是独立同分布的高斯噪声,代表残差和环境效应)。 - SNP 2 (噪音):
Z_{A,2} = 0 + ε_{A,2},Z_{B,2} = 0 + ε_{B,2}(这里真实遗传效应为0,所以全是环境/随机噪声)。
- SNP 1 (信号):
核心思路(这篇论文在数学上到底干了一件什么事):
作者想识别出v和q(或等价地,识别出β_j中的遗传协方差结构)。其关键的、也是整个方法的核心想法是:
-
用噪音SNP来校准噪声的水平:因为SNP2的均值是纯环境/噪声,我们可以用
Z_{A,2}, Z_{B,2}来估计环境噪声的协方差结构。例如,这个协方差矩阵Cov(ε_{A,·}, ε_{B,·})可以近似为SNP2上Z_{A,2}与Z_{B,2}的样本协方差。由于噪音SNP数量巨大,这个估计非常稳定。 -
将信号SNP的“遗传相关”与“环境相关”剥离:对于SNP1,其观测量
Z_{A,1}, Z_{B,1}包含了遗传和环境成分。其协方差矩阵为:Cov(Z_{A,1}, Z_{B,1}) = β_{A,1}β_{B,1} + Cov(ε_{A,1}, ε_{B,1})(假设ε独立同分布)。 我们知道β_{A,1}β_{B,1} = (v_A q_1)(v_B q_1) = v_A v_B q_1^2。这正是我们想要的遗传协方差部分。PathGPS的“去偏”步骤,就是用信号SNP的样本协方差矩阵减去从噪音SNP估计来的环境协方差矩阵。在这个双变量例子里,减法操作近似于:
text Estimated V = estimated(遗传协方差) = Sample Cova(Z_{·,1}) - (Estimated Noise Cov from SNP2)这个减完后的矩阵V近似于v^T v q_1^2,它正好是秩为1的矩阵,其主成分就是v的估计。
结论:这个双变量双SNP的特例,完美演示了PathGPS的核心机制:通过噪音SNP来估计并减去环境噪声的协方差结构,从而实现从观测到的GWAS关联中解耦出纯净的遗传协方差结构。之后对V进行PCA,提取出的主成分就是共享遗传因子Q的载荷v。论文的一般情形(K大,J大,r << K)只是这个特例的“加壳”——利用多个信号SNP聚合信息、利用稀疏因子模型提升解释性、利用Bagging提高稳定性。
三、这篇论文做了什么¶
三句话¶
① 研究了什么问题:提出并实现了一个名为PathGPS的探索性数据分析框架,能够从GWAS摘要统计量中发现并展示多个性状之间共享的低秩稀疏遗传架构(路径)。② 核心工具/方法:该方法基于一个线性结构方程模型,核心是一种新颖的“去偏”(debiasing)步骤——通过GWAS摘要统计量中“信号基因”和“噪音基因”的对比,估计并剥离环境/随机噪声对遗传协方差矩阵的影响;然后采用基于eigenvalue ratio和Bagging的集成策略进行稳健的因子分析,提取共享因子。③ 主要结论:在模拟与真实数据(代谢组学、UK Biobank)应用中,PathGPS能够稳定地识别出已知的基因-性状集群和共享结构,并生成多个可在后续研究中验证的生物假设。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 核心模型:沿用B = V Q。关键假设:低秩性(rank(B) = r << K, J)和稀疏成分(Q的列(因子)是稀疏的,仅影响少数SNP,对应生物通路上的关键调控节点)。
- 可观测数据:GWAS摘要统计量包括Z_{k,j}及其标准误,以及SNP之间的连锁不平衡(LD)结构(通常来自一个参考面板)。
- “信号基因”与“噪音基因”的区分:这是一个探索性定义,不是严格的理论假设。PathGPS的实验性方法是:对每个性状,最显著的m%(如1%)的SNP被定义为该性状的“信号基因”;其余为“噪音基因”。这个定义对结果稳健,但理论上并没有假设存在一个完美的分离。作者用Bagging来抵消因这个定义不完美而导致的不稳定性。
- 关键假设:
- 线性结构方程模型:与标准SEM一致。
- 环境与遗传效应独立:环境效应U_k与所有遗传信号(包括信号SNP和噪音SNP的效应)不相关。这是一条强假设,但通过“噪音SNP”,作者实际上是在利用这条假设来识别环境结构——因为噪音SNP的遗传效应为0,其观测到的关联全部来自环境。
- LD结构的可估计性:LD结构被假定为已知(从参考面板估计或来自GWAS软件)。PathGPS在估计协方差矩阵时考虑了LD的影响,但这增加了计算的复杂性。
- 因子模型的低秩、稀疏性:这是降维和因子提取的先决条件。作者通过模拟和真实例子验证了其在某些生物学场景下的合理性。
主要结果(核心量化结论与与baseline对比)¶
本文为方法论文,无严格定理(理论型),结果以模拟和真实应用为主。
-
核心方法(两个子程序):
- 去偏(Debiasing):算法步骤“PathGPS-DEB”。给定GWAS摘要统计量、信号基因集
S、噪音基因集N、LD矩阵L,算法输出一个去偏后的遗传协方差矩阵D(K x K)。这个D的估计方式是先估计遗传效应矩阵B(即Z的变换矩阵)在S上的主成分,然后减去噪音SNP上Z的协方差。 - 因子提取(Pathways):算法步骤“PathGPS-PATH”。输入
D,通过如下方式提取因子:- PCA:对
D做PCA,用eigenvalue ratio(特征值比值)来决定因子个数r。具体地说,是求max_{t} (λ_t / λ_{t+1}),取t为因子数。 - Factor Analysis with Rotation:基于PCA得到的
r个主成分输入到因子分析(FA)中,并进行稀疏旋转(如varimax),获得可解释的载荷矩阵V和因子得分Q。 - Bagging:将上述“去偏-因子提取”过程重复
T次,每次独立Bootstrap抽样信号/噪音SNP集(保持比例不变)并添加小随机扰动。最终输出所有bootstrap runs的因子载荷的中位数和后验选择频率,作为鲁棒性度量。
- PCA:对
- 一个关键增量:作者提出了一种“FactorSelection”的方法,通过“Bagging Gap”(即因子在不同bootstrap run中被抽出次数的差异)来帮助选择因子个数。
- 去偏(Debiasing):算法步骤“PathGPS-DEB”。给定GWAS摘要统计量、信号基因集
-
结果(模拟):PathGPS在多种模拟设定下:
- 与PCA-based GRS对比,PathGPS的去偏过程显著降低了噪声造成的虚假共享结构,并且因子结构更接近真实结构(以因子载荷间的相关系数来衡量)。
- Bagging显著提高了结果的稳定性:在重复模拟中,Bagging之后因子载荷的方差显著小于单次运行。
- 对超参数(如信号基因阈值)的选择不那么敏感,特别是结合Bagging后。
-
结果(真实应用:代谢组学与UK Biobank):
- 代谢组学数据:应用于约100种代谢物的GWAS摘要数据。PathGPS识别出约7个共享因子。其中,已知的脂质组学分类(如脂肪酸、甘油三酯、高/低密度脂蛋白)的聚类效果清晰可见。作者展示了一个因子载荷的热图,利用Bagging选择稳定因子。例如,因子1主要富集“甘油三酯”类物质,与已知的代谢通路一致。PathGPS还提出了一些新的跨类别聚类(如几种氨基酸和某些脂质在同一个因子上有高载荷),暗示了暂时未知的共调控机制。作者验证了这些“新假设”的SNP在已知代谢基因位点处的富集情况(如与FADS, LPL等基因区域的共定位)。
- UK Biobank:应用于约200个性状(包括身高、体重指数(BMI)、血压、多种疾病)。PathGPS识别出约15个因子。最明显的结构是体格测量与代谢类性状的聚类。另一个因子特殊地绑定了不同类型的精神神经(如抑郁症、焦虑、神经质)。与已知的GWAS catalog和遗传相关研究高度一致。
证明路线与技术技巧(无严格理论证明;这里拆解方法的构建逻辑)¶
由于这是方法/应用型论文,没有严格的证明,但有“方法合理性”的构造逻辑。
-
整体路线(方法论构建的3-5步):
- 设定目标:构建一个可观测统计量到
V Q(低秩)的映射。Z ~ B + Noise。 - 去偏的关键跳跃:传统PCA
Z Z^T会受到环境噪声Noise Noise^T的显著污染。作者的核心跳跃点:用噪音SNP的Z值在Noise成分上的支持来估计Noise Noise^T。其合理性在于:如果某个SNP对任一性状都无效(噪音),它的Z统计量纯粹来自环境/随机因素,这些因素与真实遗传结构无关。因此,噪音SNP的协方差矩阵的期望就是环境噪声的协方差。因此,D = (信号SNP协方差) - (噪音SNP协方差)是B B^T的无偏估计。这就是整方法的核心技巧。 - 处理漏报(False Negative):但现实中,一个基因可能在某个性状上是信号、在另一个上是噪音。如何避免“去偏”过程错误地将信号的遗传结构抵消?PathGPS的解决办法是:对每个Bootstrap样本,随机选取SNP来定义信号/噪音集。通过Bagging,那个在单次run中被错误归类为“噪音”的遗传信号在多次run中的贡献会被平均掉。所以,Bagging不仅是提高稳定性,更是一种处理分类错误的技术手段。
- 降维与因子提取:在得到
D后,直接执行PCA和因子分析。
- 设定目标:构建一个可观测统计量到
-
关键跳跃点:就是上述的第2点——利用噪音SNP的Z值直接减掉环境协方差。这是将经典的“双样本”差分法(如差分隐私、双重稳健估计)思想代入GWAS语境。
-
技术技巧点名:
- 因子模型: 使用的因子分析(FA)是经典的线性统计模型。分解后的
V Q结构。 - eigenvalue ratio: 用于因子数选择。这是TIMME (Tipping & Bishop, 1999; 在马氏距离背景下的一个技巧)的变体,但在因子模型中较常见。
- Bagging: Bootstrap Aggregating。核心目的是降低方差、提高稳定性、并允许超参数的自适应选择。
- 稀疏旋转(varimax): 提高载荷矩阵
V的可解释性,使得得到的因子更容易与具体生物学通路相关联。 - LD调整: 在计算协方差时,加入了LD矩阵的逆(Moore-Penrose广义逆)进行Whiten,以校正连锁不平衡对SNP效应估计的相关性(但论文中是采用
Z_corrected = L^{-1/2} Z的思想,一个标准技巧)。但路径提取时回到原空间会再乘上L^{1/2},确保因子是可解释的。
- 因子模型: 使用的因子分析(FA)是经典的线性统计模型。分解后的
真实例子与应用(已在上文详细列出)¶
已经在主要结果的最后部分详细描述了。这里再概括: - 数据:代谢组学数据(~100种代谢物)和UK Biobank数据(~200个性状和疾病)。 - 应用方式:输入这些性状的GWAS摘要统计量,运行PathGPS的R包。 - 结果:稳定复现已知聚类(如脂质、代谢组),并生成许多“新假设”(新的跨类聚类、疾病-性状共享结构)。 - 这个例子想说明:PathGPS在真实数据环境下,不仅是“能够工作”,而且是有效的探索性工具,能生成可操作性的新生物学假设,而非只在模拟数据下漂亮。
🔎 结论是否比证明窄¶
由于PathGPS是一个探索性工具,其结论就是“发现了这些共享结构”。它本身不声称因果性或唯一性,因此“比证明窄”的问题不突出。但有一点值得注意:作者在结论里说“PathGPS suggests new hypotheses for future investigations”,这严格来说是对的。作者并没有声称这些结构是“真实存在的唯一结构”。所以,结论的陈述与方法的构造(探索性)是一致的,没有被过度泛化。不过,利用Bagging Gap选择因子数的方法,其理论性质(如拒绝原假设的准确率)未被正式证明,仅靠模拟验证了其有效性。因此,结论的性质(探索性的)比某条具体定理的证明(如p值的控制)要“宽”,但论文本身在这个结论下是诚实的。
四、开放问题¶
-
识别性问题与理论化:
B = V Q的分解在无假设下是不唯一的(旋转不变性)。PathGPS通过稀疏旋转来强制唯一性,但因子模型何时是可识别的? 即,在可观测Z统计量的约束下(Z = B Q + Noise),在已知Noise协方差结构的情况下,V和Q的Procrustes误差界是什么?还是只有经典因子模型的旋转技巧(V列正交 + sparsity)。这扎根于论文的方法构造本身(第二节“Pathways”)。 -
信号/噪音SNP集的构造与定义:这是PathGPS所有方法成功的基石。但:“信号基因”和“噪音基因”的这种经验划分如何影响因子估计的偏差和方差? 是个需要严格处理的问题。通常的真实效应分布是连续的(polygenic),而非离散的。当遗传具有高度多基因性(每个SNP效应都很小)时,信号的方差会被噪音“吃掉”多少——这等价于一个半参数或去偏M估计中的“模型异议”(misspecification)问题。作者用Bagging替代了理论分析。这是一个开放问题。
-
因子的生物学解释的统计保证:PathGPS提取出的因子载荷,可以被解释为“共享遗传通路”。但这只是统计上的聚类和定性。如何从机制上严格验证这些统计因子是明确的生物学通路(如特定的代谢通路、转录因子结合位点)?目前只能通过遗传共定位(colocalization)的富集分析作为验证。这是一个统计学到生物学的桥梁问题,对于任何探索性方法都存在。文中第4节“Application”结尾有相关讨论。
-
与因果推断的直接结合:GWAS数据本身就是一个巨大的工具变量集。PathGPS可以提炼出共享因子
Q,而Q对性状的载荷V本质上反映了SNP对性状的间接效应(通过共享因子)。这可以自然地切入因果中介分析或MR中介分析:比如,我们可以问,某个共享因子(如氨基酸代谢)是否介导了BMI对血压的遗传效应?将PathGPS的因子作为中介变量,利用GWAS摘要数据进行中介分析,是一个直接的延伸(可能需要类似Mediation MR的方法,但结合了PathGPS的非参数结构)。这个问题扎根于论文最后一句对潜在应用的暗示。
Maintained by 陈星宇 · Homepage · Source on GitHub