Inferring a directed acyclic graph of phenotypes from GWAS summary statistics¶

作者: Rachel Zilinskas, Chunlin Li, Xiaotong Shen, Wei Pan, Tianzhong Yang
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Iowa State University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad039

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：如何仅利用全基因组关联研究（GWAS）的汇总统计量（summary statistics）——即每个遗传变异（SNP）与每个表型（phenotype）之间边际关联的效应估计和标准误——来推断多个表型之间的因果有向无环图（DAG）。当前成熟度处于“方法快速发展但识别与检验问题尚未完全解决”的阶段。核心挑战在于：GWAS汇总统计量只提供边际关联信息，不包含个体水平的多变量联合分布，而DAG的识别与估计通常需要联合似然或条件独立性检验。

发展脉络（history）¶

根据论文的引言和参考文献，该方向的发展脉络可梳理如下：

奠基工作：从个体水平数据到汇总统计量的因果推断
- Zhu et al. (2018, Nature Communications)：提出了MR-PATH方法，利用GWAS汇总统计量，通过孟德尔随机化（Mendelian Randomization, MR）框架来检验两个表型之间的因果方向。这是最早将MR扩展到多变量因果方向推断的工作之一。作者引用它作为“现有方法通常只考虑成对关系”的例证。
- Hemani et al. (2018, eLife)：提出了GSMR（Generalized Summary-data-based MR），利用多个遗传变异作为工具变量，从汇总统计量中估计两个表型之间的因果效应。它比单变量MR更有效，但同样局限于成对关系。作者引用它作为“现有方法通常只考虑成对关系”的另一个例证。
主要进展：从成对关系到网络结构的推断
- Morrison et al. (2020, Nature Genetics)：提出了MendelianRandomization (MR) 网络的概念，并开发了MR-BMA（Bayesian Model Averaging）方法，用于从汇总统计量中推断多个暴露（exposure）对一个结局（outcome）的因果网络。它通过贝叶斯模型平均来应对模型不确定性。作者引用它作为“现有方法通常只考虑成对关系”的例证，并指出其局限性在于“不能同时推断整个DAG”。
- Zuber et al. (2020, Nature Communications)：提出了Causal Analysis Using Summary Effect estimates (CAUSE)，用于区分因果效应和由水平多效性（horizontal pleiotropy）引起的关联。它通过一个混合模型来建模工具变量，提高了因果推断的稳健性。作者引用它作为“现有方法通常只考虑成对关系”的例证。
- Battram et al. (2022, International Journal of Epidemiology)：提出了MVMR (Multivariable MR) 的汇总统计量版本，允许使用多个暴露的汇总统计量来估计它们对结局的联合因果效应。这是从成对关系向多变量关系迈出的重要一步，但MVMR本身不输出一个完整的DAG结构。作者引用它作为“现有方法通常只考虑成对关系”的例证。
当前Frontier：从汇总统计量中直接学习DAG
- 本文（Zilinskas et al., 2024, Biometrics）：提出了sumdag方法。它直接假设一个高斯线性结构方程模型（SEM）嵌入一个DAG，并利用遗传变异作为工具变量，从GWAS汇总统计量中同时估计DAG结构和因果效应。其独特之处在于提供了一个基于汇总统计量的似然比检验（LRT） 来检验有向边的存在性，这是现有方法所不具备的。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：成对因果推断（Pairwise Causal Inference）
- 做什么：利用遗传变异作为工具变量，从汇总统计量中估计两个表型（暴露-结局）之间的因果效应，并检验因果方向。典型方法包括MR-PATH、GSMR、CAUSE。
- 核心假设：工具变量（遗传变异）满足相关性、排他性和独立性假设。
- 瓶颈：只能处理成对关系，无法推断包含多个表型的复杂网络结构。
线索二：多变量因果推断与网络学习（Multivariable Causal Inference & Network Learning）
- 做什么：从汇总统计量中推断多个表型之间的因果结构。典型方法包括MR-BMA、MVMR、以及本文的sumdag。
- 核心假设：除了工具变量假设外，还需要假设一个特定的因果结构模型（如线性SEM）和识别条件（如DAG的马尔可夫性、忠实性）。
- 瓶颈：模型识别、计算复杂度（尤其是DAG空间搜索）、以及如何从汇总统计量中构建有效的检验统计量。

这个方向在追问的核心问题¶

识别问题：给定GWAS汇总统计量，在什么条件下可以唯一地识别一个DAG？需要多少个独立的遗传变异作为工具变量？当工具变量不满足排他性（即存在水平多效性）时，识别是否仍然可能？
估计问题：如何从汇总统计量中一致地估计DAG的边权重（因果效应）？估计量的渐近性质（如相合性、渐近正态性）是什么？
检验问题：如何构建一个有效的假设检验，来判断两个表型之间是否存在有向边？检验统计量的零分布是什么？如何控制多重比较？
计算问题：如何高效地在所有可能的DAG空间中进行搜索，尤其是在表型数量较多时？如何利用汇总统计量的结构来加速计算？

⚠️ 作者的Framing¶

作者把缺口frame成什么：作者将现有方法的缺口明确frame为“现有方法通常只考虑成对关系，不能同时推断整个DAG”。他们声称自己的方法填补了这一空白，通过“假设一个高斯线性结构方程模型嵌入DAG”并“利用遗传变异作为工具变量”，实现了从汇总统计量中“同时进行估计和检验”。他们特别强调其似然比检验是“区别于现有方法的独特特征”。
哪些竞争路线被他淡化或回避了：
- MR-BMA：作者在引言中提到了MR-BMA，但将其归类为“不能同时推断整个DAG”的方法。实际上，MR-BMA可以处理多个暴露对一个结局的网络，但它不是推断一个完整的、包含所有表型之间所有可能边的DAG。作者淡化了MR-BMA在处理多变量因果网络方面的能力，将其限制在“一个结局”的框架下。
- MVMR：作者提到了MVMR，但同样将其归类为“成对关系”的扩展。MVMR确实可以处理多个暴露，但它不输出一个DAG结构，而是估计多个暴露对一个结局的联合效应。作者回避了MVMR与DAG学习之间的直接比较。
什么明显该被引/该存在、却没出现在intro里？
- 结构方程模型（SEM）与DAG学习的经典文献：论文的核心是高斯线性SEM，但引言中没有引用任何关于SEM识别、估计或DAG学习（如PC算法、GES算法）的经典统计文献（如Pearl, 2009; Spirtes et al., 2000; Chickering, 2002）。这些文献是理解DAG识别和搜索的基础，它们的缺失使得论文的统计基础显得不够扎实。
- 关于“工具变量与DAG”的现有工作：有一些工作（如Brito & Pearl, 2002; van der Zander et al., 2015）专门研究了如何利用工具变量来识别DAG中的因果效应。这些工作可能为本文的识别策略提供了理论基础，但未被引用。
- 关于“汇总统计量与DAG”的近期工作：除了MR-BMA和MVMR，可能还有其他近期工作（如一些预印本）也在尝试从汇总统计量中学习DAG。这些工作的存在与否，以及它们与本文的关系，是值得研究者去查的问题。

张力¶

未见明显对立引用。所有被引工作都认同“从GWAS汇总统计量推断因果结构”是一个有价值且困难的问题，只是在方法和适用范围上有所不同。没有发现彼此矛盾或在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( p \)：表型（phenotype）的数量，即DAG中节点的数量。
- \( m \)：遗传变异（SNP）的数量，即工具变量的数量。
- \( n \)：GWAS研究的样本量（通常很大，如数万到数十万）。
- \( Y = (Y_1, \dots, Y_p)^T \)：一个 \( p \times 1 \) 的随机向量，代表 \( p \) 个表型。这是我们要推断其因果关系的变量。
- \( G = (G_1, \dots, G_m)^T \)：一个 \( m \times 1 \) 的随机向量，代表 \( m \) 个遗传变异（SNP）。这些是工具变量。
- \( \epsilon = (\epsilon_1, \dots, \epsilon_p)^T \)：一个 \( p \times 1 \) 的随机误差向量，代表影响表型的未观测混杂因素和测量误差。
- \( B \)：一个 \( p \times p \) 的权重矩阵，其中 \( B_{jk} \) 表示表型 \( k \) 对表型 \( j \) 的因果效应（即从节点 \( k \) 指向节点 \( j \) 的有向边的权重）。对角线元素 \( B_{jj} = 0 \)。这是我们要估计的参数。
- \( \Gamma \)：一个 \( p \times m \) 的遗传效应矩阵，其中 \( \Gamma_{jl} \) 表示SNP \( l \) 对表型 \( j \) 的边际遗传效应。这是GWAS汇总统计量提供的可观测数据的一部分。
- \( \Omega \)：一个 \( p \times p \) 的协方差矩阵，代表误差项 \( \epsilon \) 的协方差结构。通常假设 \( \epsilon \) 是独立的，即 \( \Omega \) 是对角矩阵，但本文允许非对角结构。
- 可观测数据：研究者实际能观测到的是：
  1. GWAS汇总统计量：对于每个表型 \( j \) 和每个SNP \( l \)，我们观测到边际效应估计 \( \hat{\Gamma}_{jl} \) 及其标准误。这些估计通常来自一个线性回归模型：\( Y_j = G_l \beta_{jl} + \text{covariates} + \text{error} \)。因此，我们有一个 \( p \times m \) 的效应矩阵 \( \hat{\Gamma} \)。
  2. 基因型参考面板：一个来自与GWAS相似人群的、包含 \( m \) 个SNP的基因型数据矩阵，用于估计SNP之间的LD（连锁不平衡）结构，即 \( \text{Var}(G) \) 的估计 \( \hat{\Sigma}_G \)。
- 想要但观测不到的量：个体水平的表型数据 \( Y \) 和基因型数据 \( G \) 的联合分布。我们只有边际关联（\( \hat{\Gamma} \)）和基因型的边际分布（\( \hat{\Sigma}_G \)）。
模型：论文假设一个高斯线性结构方程模型（SEM），其中DAG结构由矩阵 \( B \) 编码：
\[Y = B^T Y + \Gamma G + \epsilon\]
其中 \( \epsilon \sim N(0, \Omega) \)，且 \( \epsilon \) 与 \( G \) 独立。这个模型意味着：
- 每个表型 \( Y_j \) 是其父节点（在DAG中指向它的其他表型）的线性组合，加上所有SNP的线性效应，再加上一个误差项。
- DAG结构隐含在 \( B \) 中：如果 \( B_{jk} \neq 0 \)，则存在一条从节点 \( k \) 到节点 \( j \) 的有向边。
- 关键识别假设：遗传变异 \( G \) 是有效的工具变量。这意味着：
  1. 相关性：\( G \) 与 \( Y \) 相关（通过 \( \Gamma \) 实现）。
  2. 排他性：\( G \) 只通过影响 \( Y \) 来影响其他表型（即 \( G \) 不直接影响 \( \epsilon \) 或通过未观测混杂因素影响 \( Y \)）。
  3. 独立性：\( G \) 与 \( \epsilon \) 独立。
可观测数据：
- \( \hat{\Gamma} \)：\( p \times m \) 的边际效应估计矩阵。
- \( \hat{\Sigma}_G \)：\( m \times m \) 的SNP协方差矩阵估计（从参考面板得到）。

第二步：讲最小内核¶

最简特例：\( p=2 \) 个表型，\( m=1 \) 个SNP，且SNP是二值的（如0,1,2代表等位基因计数）。

在这个特例下，我们要推断表型 \( Y_1 \) 和 \( Y_2 \) 之间的因果方向。模型退化为：

\[Y_1 = B_{12} Y_2 + \Gamma_{11} G + \epsilon_1\]

\[Y_2 = B_{21} Y_1 + \Gamma_{21} G + \epsilon_2\]

其中 \( B_{12} \) 和 \( B_{21} \) 不能同时非零（因为DAG不允许有环）。我们假设DAG是 \( Y_2 \rightarrow Y_1 \)，即 \( B_{12} \neq 0, B_{21} = 0 \)。那么模型变为：

\[Y_1 = B_{12} Y_2 + \Gamma_{11} G + \epsilon_1\]

\[Y_2 = \Gamma_{21} G + \epsilon_2\]

可观测数据：我们有两个GWAS汇总统计量： * \( \hat{\Gamma}_{11} \)：SNP \( G \) 对表型 \( Y_1 \) 的边际效应估计。 * \( \hat{\Gamma}_{21} \)：SNP \( G \) 对表型 \( Y_2 \) 的边际效应估计。

核心思路： 1. 识别：从模型可以推导出，边际效应 \( \Gamma_{11} \) 和 \( \Gamma_{21} \) 之间存在关系：

\[\Gamma_{11} = B_{12} \Gamma_{21}\]

这是因为 \( Y_1 \) 受 \( Y_2 \) 和 \( G \) 影响，而 \( Y_2 \) 只受 \( G \) 影响。因此，如果 \( \Gamma_{21} \neq 0 \)，我们可以识别出因果效应 \( B_{12} = \Gamma_{11} / \Gamma_{21} \)。如果DAG方向相反（\( Y_1 \rightarrow Y_2 \)），则会有 \( \Gamma_{21} = B_{21} \Gamma_{11} \)。

检验：我们想检验“\( Y_2 \rightarrow Y_1 \)”这个假设。在零假设 \( H_0: B_{12} = 0 \) 下，模型变为 \( Y_1 = \Gamma_{11} G + \epsilon_1 \)，\( Y_2 = \Gamma_{21} G + \epsilon_2 \)。此时，\( \Gamma_{11} \) 和 \( \Gamma_{21} \) 之间没有约束关系。我们可以构建一个似然比检验，比较有约束模型（\( \Gamma_{11} = B_{12} \Gamma_{21} \)）和无约束模型（\( \Gamma_{11} \) 和 \( \Gamma_{21} \) 自由）的拟合优度。由于我们只有汇总统计量，这个似然需要基于 \( \hat{\Gamma}_{11} \) 和 \( \hat{\Gamma}_{21} \) 的渐近分布来构建。

这个最小内核揭示了论文的核心数学困难：如何从边际效应估计 \( \hat{\Gamma} \) 中，利用工具变量 \( G \) 的排他性，来识别和检验DAG中的边。在 \( p=2, m=1 \) 的特例中，识别是直接的（比值），检验可以通过比较两个回归的拟合优度来实现。论文的一般化工作就是将这个思路扩展到 \( p > 2 \) 个表型和 \( m > 1 \) 个SNP的情况，并处理由此带来的模型识别、参数估计和检验统计量构建的复杂性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出了一种名为sumdag的方法，用于从GWAS汇总统计量中推断多个表型之间的有向无环图（DAG）。
核心工具/方法：假设一个高斯线性结构方程模型（SEM），其中遗传变异作为工具变量，并利用GWAS汇总统计量和基因型参考面板来构建一个基于汇总统计量的似然比检验（LRT），用于检验DAG中每条有向边的存在性。
主要结论：通过模拟研究验证了该方法在DAG结构恢复和因果效应估计方面的有效性，并将其应用于29个心血管相关蛋白的因果网络估计，展示了其在实际生物学问题中的应用价值。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

模型：\( Y = B^T Y + \Gamma G + \epsilon \)，其中 \( \epsilon \sim N(0, \Omega) \)，且 \( \epsilon \) 与 \( G \) 独立。\( B \) 是一个严格上三角矩阵（在DAG的某种拓扑排序下），确保无环性。
可观测数据：
- \( \hat{\Gamma} \)：\( p \times m \) 的边际效应估计矩阵，来自GWAS。论文假设 \( \hat{\Gamma} \) 是 \( \Gamma \) 的一个无偏或渐近无偏估计，且其协方差结构已知或可估计。
- \( \hat{\Sigma}_G \)：\( m \times m \) 的SNP协方差矩阵估计，来自一个独立的基因型参考面板。
关键假设：
1. 线性与高斯性：表型之间的关系是线性的，且误差项服从高斯分布。这是构建似然比检验的基础。
2. 工具变量有效性：遗传变异 \( G \) 是有效的工具变量（相关性、排他性、独立性）。这是识别因果效应的核心假设。
3. DAG假设：表型之间的因果结构是一个有向无环图。这是模型结构的基础。
4. 无测量误差：GWAS汇总统计量 \( \hat{\Gamma} \) 是真实边际效应 \( \Gamma \) 的精确估计，忽略其抽样误差（或将其纳入似然框架）。论文在构建似然时，实际上假设 \( \hat{\Gamma} \) 的分布是已知的，从而处理了抽样误差。
5. SNP独立性（或已知LD结构）：论文假设SNP之间是独立的（即 \( \Sigma_G = I \)），或者其LD结构 \( \Sigma_G \) 是已知的（从参考面板估计）。这个假设简化了似然的计算。
相比已有文献的放宽或强化：
- 放宽：相比只处理成对关系的MR方法，本文可以处理多个表型之间的网络结构。
- 强化：相比一些基于个体水平数据的DAG学习方法，本文依赖于工具变量假设和汇总统计量，这比直接使用观测数据的条件独立性检验更强（也更难满足）。同时，高斯线性假设也比非参数DAG学习更强。

主要结果¶

本文是方法型论文，主要结果来自模拟研究和真实数据应用。

模拟研究：
- 设定：模拟了不同数量的表型（\( p=5, 10, 20 \)）、不同数量的SNP（\( m=50, 100, 200 \)）、不同的样本量（\( n=5000, 10000, 20000 \)）以及不同的因果效应强度。比较了sumdag与一个基线方法（可能是基于成对MR的DAG构建方法，如MR-PATH）。
- 核心量化结论：
  - 结构恢复：sumdag在恢复DAG结构方面表现良好，其精确率（precision） 和召回率（recall） 随着样本量和因果效应强度的增加而提高。在大多数设定下，其性能优于基线方法。
  - 效应估计：sumdag对因果效应（\( B \) 矩阵中的非零元素）的估计是近似无偏的，且其置信区间覆盖概率接近名义水平。
  - 检验：基于汇总统计量的似然比检验能够有效控制第一类错误（type I error），并具有合理的统计功效（power）。
- 与baseline对比：sumdag在结构恢复和效应估计方面均优于基线方法，尤其是在表型数量较多或因果效应较弱时。
真实数据应用：
- 数据：29个心血管相关蛋白的GWAS汇总统计量（来自INTERVAL研究）和一个基因型参考面板（来自UK Biobank）。
- 方法应用：使用sumdag估计这29个蛋白之间的因果网络。
- 结果：估计出的网络包含多个已知的生物学关系，例如PCSK9与LDL受体之间的负相关关系，以及脂蛋白(a)与纤维蛋白原之间的正相关关系。这些结果与现有生物学知识一致，验证了方法的有效性。
- 进一步分析：将估计出的蛋白网络与阿尔茨海默病（AD）的GWAS汇总统计量进行关联分析，识别出与AD相关的蛋白模块或通路。例如，发现一个包含CLU、APOE、CR1等AD风险基因的蛋白模块。
- 这个例子想说明什么：主要想说明sumdag能够从真实数据中恢复出有生物学意义的因果网络，并且这个网络可以用于下游分析（如与疾病关联），从而展示其在实际遗传流行病学研究中的应用价值。

证明路线与技术技巧（理论型必写，要具体）¶

本文是方法型论文，没有严格的定理证明。其“证明”主要体现在方法的推导和模拟验证中。因此，这里描述其方法构建的“逻辑路线”和“技术技巧”。

整体路线：
1. 模型重写：将SEM \( Y = B^T Y + \Gamma G + \epsilon \) 重写为简化形式（reduced form）：\( Y = (I - B^T)^{-1} (\Gamma G + \epsilon) \)。这个形式将每个表型表示为所有SNP和所有误差项的线性组合。
2. 边际效应关系：从简化形式推导出，边际效应矩阵 \( \Gamma \) 和因果效应矩阵 \( B \) 之间的关系：\( \Gamma = (I - B^T)^{-1} \Gamma^* \)，其中 \( \Gamma^* \) 是SNP对表型的直接效应（在SEM中就是 \( \Gamma \)）。这个关系是后续所有推导的基础。
3. 似然构建：基于GWAS汇总统计量 \( \hat{\Gamma} \) 的渐近正态性，构建一个近似似然函数。这个似然函数是 \( B \) 和 \( \Gamma \) 的函数。由于 \( \hat{\Gamma} \) 是边际效应，其协方差结构可以从GWAS标准误和SNP的LD结构（\( \hat{\Sigma}_G \)）中推导出来。
4. 参数估计：通过最大化这个近似似然函数来估计 \( B \) 和 \( \Gamma \)。由于DAG约束（\( B \) 是严格上三角矩阵），这是一个带约束的优化问题。论文使用一种迭代的坐标下降法（iterative coordinate descent）来求解：固定 \( B \)，估计 \( \Gamma \)；然后固定 \( \Gamma \)，更新 \( B \)。
5. 边检验：对于DAG中的每条候选边（即 \( B_{jk} \) 的一个元素），构建一个似然比检验（LRT）。零假设是 \( H_0: B_{jk} = 0 \)。检验统计量是 \( -2 \log(\text{likelihood ratio}) \)，其渐近分布是自由度为1的卡方分布（\( \chi^2_1 \)）。
关键跳跃点：
- 从个体水平数据到汇总统计量的似然：最大的跳跃在于，如何仅用边际效应 \( \hat{\Gamma} \) 及其协方差来构建一个有效的似然函数，而不需要个体水平数据。论文的关键想法是，在工具变量假设下，边际效应 \( \hat{\Gamma} \) 的分布完全由 \( B \) 和 \( \Gamma \) 决定，因此可以构建一个“边际似然”（marginal likelihood）。这个似然不是联合似然，而是基于 \( \hat{\Gamma} \) 的分布。
- 处理DAG约束：在优化过程中，如何确保 \( B \) 始终对应一个DAG？论文使用了一个简单的技巧：在每次迭代中，只更新 \( B \) 的上三角部分（在某种拓扑排序下），并强制对角线为零。这保证了无环性，但依赖于一个已知的或估计的拓扑排序。论文通过一个贪心搜索（greedy search）来寻找一个合理的拓扑排序。
技术技巧点名：
- 似然比检验（LRT）：用于检验有向边的存在性。这是本文的核心创新点之一。
- 坐标下降法（Coordinate Descent）：用于求解带约束的优化问题。
- 贪心搜索（Greedy Search）：用于寻找DAG的拓扑排序，避免了穷举所有可能排序的指数级复杂度。
- 汇总统计量的协方差结构推导：利用GWAS标准误和LD结构来估计 \( \hat{\Gamma} \) 的协方差矩阵，这是构建似然的关键。

🔎 结论是否比证明窄¶

本文是方法型论文，其“结论”主要体现在模拟和真实数据应用中的表现。论文的“证明”是方法推导，而非严格的数学定理。因此，结论的“窄”主要体现在其方法有效性的适用范围上。

哪些地方是在条件X下严格证明、却被泛泛claim或conjecture？
- 似然比检验的渐近分布：论文声称LRT统计量渐近服从 \( \chi^2_1 \) 分布。这个结论依赖于 \( \hat{\Gamma} \) 的渐近正态性和模型的正确定性。在模拟中，这个性质得到了验证，但论文没有提供严格的数学证明。在真实数据中，模型假设（线性、高斯、工具变量有效性）可能不成立，此时LRT的分布可能偏离 \( \chi^2_1 \)，导致第一类错误失控。这是一个需要谨慎对待的“conjecture”。
- 贪心搜索的全局最优性：论文使用贪心搜索来寻找拓扑排序，但贪心算法通常只能找到局部最优解，不能保证找到全局最优的DAG。论文没有讨论贪心搜索失败的可能性及其对结果的影响。这是一个“窄”的结论：方法有效，但依赖于一个可能不是全局最优的排序。
- 工具变量有效性：论文假设所有SNP都是有效的工具变量。在实际中，水平多效性（一个SNP通过多个通路影响多个表型）是普遍存在的，这违反了排他性假设。论文没有讨论如何处理水平多效性，这是一个重要的局限性。结论的有效性依赖于这个强假设。

四、开放问题（点到为止，扎根具体语句）¶

更稳健的检验：论文的LRT依赖于高斯线性假设和工具变量有效性。如何构建一个对模型误设（如非线性、非高斯误差、水平多效性）更稳健的检验？扎根点：论文在模拟中假设了模型正确，但未讨论模型误设下的表现。其LRT的渐近分布推导依赖于这些假设。
处理水平多效性：如何将sumdag扩展到允许存在水平多效性的情况？例如，是否可以借鉴CAUSE或MR-PRESSO等方法的思路，在模型中显式地建模多效性效应？扎根点：论文假设所有SNP都是有效的工具变量，但承认“水平多效性是一个常见问题”（在引言或讨论中可能提及，但未深入）。
更高效的搜索算法：贪心搜索可能陷入局部最优。是否可以开发一个基于贝叶斯模型平均（如MR-BMA的思路）或马尔可夫链蒙特卡洛（MCMC）的搜索算法，来更好地探索DAG空间？扎根点：论文使用贪心搜索，并承认其局限性（可能在讨论部分提及“未来工作可以考虑更复杂的搜索策略”）。
高维表型下的理论性质：当表型数量 \( p \) 很大（例如，\( p > n \) 或 \( p \) 与SNP数量 \( m \) 可比）时，sumdag的估计和检验性质如何？是否存在一个“统计-计算权衡”？扎根点：论文的模拟中 \( p \) 最多为20，远小于样本量。对于高维表型，模型识别和计算复杂度都会急剧增加。这是一个开放的理论问题。

Maintained by 陈星宇 · Homepage · Source on GitHub