Causal Inference in Genetic Trio studies¶
讲者: Stephen Bates
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-01-26
主题: 因果推断
视频: https://youtu.be/FLDT6T52Kcc · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告的工作线是 利用随机化进行因果推断 在遗传学中的应用,具体地,通过父母-子代三人家组(trio)数据中蕴含的 孟德尔随机化 来检测基因组区域对表型的因果效应。
该子方向的核心追问是:在观察性研究中,如何利用已知的基因型分布(给定父母后子代基因型的随机生成过程)来构造条件独立性检验,从而得到因果保证,而不需对表型-基因型关系做任何参数假设。
奠基与主流路线:
- Fisher(1925, 1951)提出随机化是推断的基础,并指出减数分裂(meiosis)本质上是一种随机化过程。
- Spielman, McGinnis & Ewens(1996)提出 传输不平衡检验(TDT),利用杂合父母向患病子代传递等位基因的随机性(二项分布)来检验单个位点的关联,但 TDT 不利用基因组上其他位点的信息,且只能处理二元表型。
- Candès, Fan, Janson & Lv(2016)提出 条件随机化检验(CRT),利用已知的 X 分布进行条件采样,可检验任意特征 j 是否与 Y 条件独立,但要求了解 X | X_{-j} 的分布。
- 孟德尔随机化(Davey Smith & Ibrahim, 2003)通常利用遗传变异作为工具变量,但较少直接利用 trio 内部的随机性。
当前 frontier:当 X 的分布可精确建模时(如遗传三人家组中的 Haldane 隐马尔可夫模型),可以将 CRT 的思路扩展到高维基因型数据,同时获得有限样本的 FDR 控制和无假设的因果解释。Bates 等人的工作正是这一路线的典型:Digital Twin Test(DTT),它是 CRT 在 trio 数据上的特化,同时整合外部 GWAS 数据以提高功效,并且通过条件于父母(A)自动控制所有不影响重组的混杂(外部混杂)。
这场报告站位:它解决的是“给定 trio 数据(父母+子代基因型),如何从整条染色体到局部区域逐步定位因果变异,并给出有限样本下的因果解释和错误发现率控制”的问题。它与传统 GWAS 的关系是互补——GWAS 可发现大量关联,而 DTT 提供对这些关联的因果确认(代价是需要 trio 数据,样本量通常比普通 GWAS 小)。
二、最小内核 / 一个最简例子¶
符号与模型¶
可观测数据:对于第 i 个家庭(trio),有
- 母亲的两条单体型 \( M_i^a, M_i^b \)(均为 \(\{0,1\}^p\) 向量,p 为 SNP 位点数)
- 父亲的两条单体型 \( F_i^a, F_i^b \)
- 子代基因型 \( X_i = X_i^m + X_i^f \),其中 \( X_i^m \)(来自母亲)和 \( X_i^f \)(来自父亲)分别是从父母单体型中通过重组拼接得到。记祖先信息 \( A_i = (M_i^a, M_i^b, F_i^a, F_i^b) \)。
- 表型 \( Y_i \)(可以是连续或二元)。
已知分布:\( X_i \mid A_i = a_i \) 的分布由 Haldane 隐马尔可夫模型精确描述(重组事件为泊松过程,突变率极低)。即给定父母单体型和遗传距离,可以精确计算 / 采样子代的可能基因型。
未知分布:\( Y_i \mid X_i, A_i, Z_i \) 完全未指定(Z 为外部混杂)。
目标 estimand:对于某个染色体区域(一组连续的 SNP 位点)G,检验因果零假设
其中 \( X_{-G} \) 为区域外的所有 SNP。根据报告定理,该检验自动控制所有“外部混杂”(定义:不影响重组的混杂,即 \( X \mid A, Z \stackrel{d}{=} X \mid A \) 的 Z)。因此拒绝 \( H_0 \) 等价于发现 \( X_G \) 对 Y 有因果效应,且不受未测量混杂 Z 的影响。
最简特例(单个二值 SNP,二元表型,单亲考虑)¶
设置:只考虑一个位点 j,且母亲在该位点为杂合(\( M_j^a = 0, M_j^b = 1 \)),父亲纯合(无关)。子代从母亲继承的一个等位基因是 0 还是 1 由减数分裂的随机分离决定,概率各 1/2(无重组,因为只关心一个位点)。祖先信息 A 即为母亲的单体型状态(0/1)。Y 是二元疾病状态。
TDT 做法:在患病子代(\( Y=1 \))中,计数从母亲继承到 0 和 1 的人数;若该位点无因果效应,则继承 0 或 1 的概率应服从 binomial(1/2)(条件于 A)。若偏离,则拒绝。
DTT(数字双胞胎)做法:
1. 对每个患病子代,根据 A 和 Haldane 模型(此时简化为均匀随机),采样一个合成子代 \( \tilde{X}_j \sim X_j \mid A \)(即随机指定 0 或 1)。
2. 定义统计量 \( T = \sum_{i: Y_i=1} X_{i,j} \)(病例组中继承的等位基因之和)。在观测数据上计算 \( T^* \)。
3. 在 K 次合成采样中,每次计算 \( T^{(k)} \),得到 null 分布。
4. p 值 = \( \frac{1 + \#\{k: T^* \le T^{(k)}\}}{K+1} \)。
若真实子代继承的等位基因分布明显偏离随机性(即 TDT 原理),则 p 值显著。当引入其他协变量或整个染色体时,DTT 的优势在于可通过模型(如 Lasso)调整环境效应和人口结构,从而提高功效。
此例的核心思想:已知 \( X \mid A \) 的精确分布,从而可以构建一个 perfect null 的随机化检验,无需对 Y∣X 做任何假设。这也是整场报告方法论的根基。
三、报告主体:讲者讲了什么¶
[0:01:06–0:01:40] 开场:Stephen Bates(UC Berkeley)介绍报告主题——遗传三人家组中的因果推断,随机化检验与高维基因型,合作者 Emmanuel Candès, Matteo Sesia, Chiara Sabatti。
[0:01:40–0:03:40] 研究范式背景:现代科学从假设驱动转向数据驱动(先收集数据再提问)。以 GWAS 为例,同时检测大量位点与表型的关联,需考虑“look-everywhere effect”。仍希望得到因果结论,能用于药物靶点等。
[0:03:40–0:05:35] 问题形式化:目标为条件独立性检验。设 \( X \in \mathbb{R}^d \) 为特征(基因型),Y 为表型。检验 \( X_j \perp\!\!\!\perp Y \mid X_{-j} \)。若拒绝,则 X_j 在给定其他特征下有唯一信号。在因果图中,这对应直接边(Markov 毯条件)。举图例说明:X_{164} 和 X_5 与 Y 有直接边,X_{52} 相关性可通过 X_5 阻断,故属于 null。
[0:05:35–0:06:30] 关键假设:已知 X 的分布(除 Y 外所有关于 X 的信息已知),但对 Y∣X 完全非参数。这为后续 conditional randomization test (CRT) 奠定基础。
[0:06:30–0:08:30] 条件随机化检验(CRT)介绍:采样合成变量 \( \tilde{X}_j \sim X_j \mid X_{-j} \),然后通过比较真实数据 \((X_j, X_{-j}, Y)\) 与合成数据 \((\tilde{X}_j, X_{-j}, Y)\) 的分布是否相同来判断。若分布不同,则 X_j 与 Y 直接相关。给出图示说明 null 情形(分布相同)和非 null 情形(分布不同)。计算 p 值:用 K 次合成副本,统计 (T(obs) <= T(synth)) 的比例。
[0:08:30–0:09:30] 简短 Q&A(无问题),继续。
[0:09:30–0:12:30] 从条件检验到因果推断:随机化实验是因果金标准;GWAS 数据非随机,但遗传继承本身就是一个高维随机实验。展示 trio 数据:父母各有两条单体型(a/b),子代获得一条来自母亲、一条来自父亲,由减数分裂中的重组(断点随机)决定。定义祖先信息 \( A \) 为父母的四条单体型,子代基因型 X = X^m + X^f。强调:Nature has given us a high-dimensional randomized experiment!
[0:12:30–0:14:20] 精细描述重组模型:Haldane 隐马尔可夫模型(1919)。沿基因组行走,潜在变量 U_j 表示正在拷贝哪条母本单体型(a or b)。转移概率依赖于遗传距离 d_j:\( P(U_j = u_j \mid U_{j-1} = u_{j-1}) = \frac{1}{2}(1 + e^{-2 d_j}) \)。发射概率约等于 1 减突变率(\( \epsilon \approx 10^{-6} \))。这个模型给出了 X∣A 的精确分布,用于后续 digital twin 的生成。
[0:14:20–0:16:50] 外部混杂(external confounder)定义:Z 满足 X∣A=a, Z=z 与 X∣A=a, Z=z' 同分布(即 Z 不影响重组)。例子:所有环境条件(出生后因素)、人口结构、隐匿亲缘关系、利他基因、偏性婚配。关键定理[0:16:05–0:16:50]:任何在 H_0: Y ⟂ X_j ∣ (X_{-j}, A) 下的有力检验,自动也是 H_0': Y ⟂ X_j ∣ (X_{-j}, A, Z) 下的有力检验(对任意外部混杂 Z 成立)。证明源于 Z ⟂ X_j ∣ (X_{-j}, A)。因此,条件于 A 可阻断所有外部混杂的路径。
[0:16:50–0:18:40] 结构方程模型视角:A→X(已知模型),X→Y(未知),Z 可能同时影响 A、X、Y,但 A 作为后门调整集(backdoor criterion)可阻断 Z 到 X 的非因果路径。注意与常规后门准则不同:这里 A→X 的机制完全已知,而 Y→X 的反向关系不存在(Y 不能影响基因型)。
[0:18:40–0:20:30] 未测量变异的问题:实际 GWAS 只测量部分 SNP(约 1M),而真实因果变异可能未被测量。此时,未测 SNP 不是外部混杂(因为它们影响重组推断)。解决方案:分区域(上百个区段)测试,每个区段包含多个 SNP。若某区域被拒绝,只能说明该区域内存在因果变异,但无法精确到单个 SNP。展示分区图(g1, g2, g3 区域)。
[0:20:30–0:21:30] 小 Q&A 环节(Kai Yang 提问与 PC 算法关系)。Bates 回答:这是因果发现,但利用了额外结构,比通用算法更定制。
[0:21:30–0:26:00] Digital Twin Test (DTT) 正式描述:
1. 对每个家庭 i,给定祖先 A_i,根据 Haldane HMM 采样一个合成子代 \( \tilde{X}_i \)(数字双胞胎)。
2. 计算统计量 \( T^* = T(\{X_i, A_i, Y_i\}_{i=1}^n) \)(观测数据得分)。
3. 对 k=1..K,用合成数据计算 \( T^{(k)} = T(\{\tilde{X}_i^{(k)}, A_i, Y_i\}) \)。
4. p-value = \( (1 + \#\{k: T^* \le T^{(k)}\})/(K+1) \)。
这个测试针对整条染色体(全染色体 DTT)。结论:若能区分真实子代与其数字双胞胎,则染色体存在因果效应。因果保证:由前文定理,DTT 自动控制所有外部混杂。统计量具体可选预测残差:用外部 GWAS 数据拟合模型(如 Lasso),得到预测 \( \hat{Y} = X \hat{\beta} \),然后统计量 \( T(X, A, Y) = \| Y - X \hat{\beta} \|^2 \)(或二项偏差)。这里的核心思想是:若真实基因型能显著减小预测误差,而数字双胞胎不能,则说明因果效应存在。
[0:26:00–0:28:20] 历史联系:传输不平衡检验(TDT)是 DTT 的一个特例(单一位点、二元表型、统计量为病例组遗传计数)。Bates 说明 TDT 也可用类似条件推理,但其仅使用单个位点且无法整合模型。演示模拟对比:基于真实基因型数据(n=2500 trios + 7500 外部 GWAS),10 个因果变异,染色体 20(p=6820 SNP)。比较 DTT(用 Lasso 拟合后残差)、TDT(单点 Bonferroni)、Screen+TDT(先用 Lasso 选 100 个位点,再 TDT)。结果显示:DTT 在三种患病率(50%、20%、5%)下效果均显著高于其他方法。解释:DTT 通过模型回归掉了大部分已知变异,从而能检测较弱信号。
[0:28:20–0:30:00] 暂停,回答 Panos 关于条件分布估计的问题。Bates 承认 CRT 要求在 X 分布已知下才精确,但在遗传 trio 中 Haldane 模型是高质量近似;若非如此(如从数据学习 X 分布)则不可行。对比 Y∣X 的建模:若对 Y 做线性假设同样面临高维挑战,两者各有优劣,但本方法优势在于 X 分布已知。
[0:30:00–0:32:30] 定位因果区域(Isolating causal regions)。动机:相邻 SNP 由于连锁不平衡(LD)相关,检测到的关联可能来自邻近的因果变异。DTT 定位方法:条件于区域外的所有基因型 \( X_{-G} \)(强迫数字双胞胎在区域外与真实子代相同),仅允许区域 G 内发生重组。此时,测试 \( H_0: Y \perp X_G \mid (X_{-G}, A) \)。这样任何显著差异必须源自 G 内部,而非 LD 传递。但代价:区域越小,发生重组的可能性越小,有效样本量下降,功效降低。
[0:32:30–0:34:00] 多区域测试与 FDR 控制:通过精心设计不重叠区域,可使各区域的 p 值独立(因为条件于不同区域外的剩余变量)。然后用 Benjamini-Hochberg 控制 FDR。给出 Manhattan 图示例(TDT p-values vs site),显示 DTT 区域检测结果。
[0:34:00–0:37:00] 总结:
- 父母-子代 trio 是随机实验的记录;
- DTT 是随机化检验,可使用任何黑箱模型,获得有限样本下的 FDR 和因果控制;
- 对 Y∣X 无假设;所有模型假设放在 X 的生成过程(Haldane 模型);
- 可整合外部 GWAS 数据和生物学注释;
- 弱点:需要 trio 数据,样本量通常小于普通 GWAS。
未来方向:冰岛、芬兰等国家已有数十万 trio;从因果视角看,此方法可用于其他部分分布已知的场景。
[0:37:00–0:50:00] 讨论环节:Qingyuan Zhao 的评论(详细 DAG 解释 DTT 与其他方法的区别,包括 TDT、GWAS、多重回归、knockoffs)。提出三个问题:
1. 与标准 GWAS 的功率与样本量比较(何时该用 DTT vs GWAS?)
2. 定位精度与功效的权衡。
3. 重组模型 misspecification(如用 gamma renewal 过程替代 Haldane)的影响。
[0:50:00–0:54:30] Stephen Bates 回应:
- 问题 1:DTT 不试图比 GWAS 更灵敏(GWAS 样本量更大),而是确认 GWAS 发现。与 TDT 比,DTT 总是更优。
- 问题 2:区域越小,功效越低,因为需要重组事件;更精细的定位可能需要其他方法(如精密定位,fine-mapping)而不只是条件化。
- 问题 3:可容易扩展至更精细的重组模型(如 gamma renewal),不影响方法本质。
四、对应论文与开放问题¶
(a) 对应论文¶
这场报告对应的论文极可能是:
- 标题:幻灯片同时使用“Causal Inference in Genetic Trio Studies”和“A Randomization Test for High-Dimensional Genotypes”,后者更像论文主标题。
- 作者:Stephen Bates, Matteo Sesia, Chiara Sabatti, Emmanuel Candès(报告及幻灯片署名)。
- 预印本/发表:转写未提及具体 arXiv 编号或期刊。根据报告时间(2021 年 1 月)和后续发展,该工作很可能发表在 Journal of the American Statistical Association 或 Annals of Statistics,但需要核查。
- 请研究者搜索:Bates, Sesia, Sabatti, Candès, “A randomization test for high-dimensional genotypes with application to trio studies” 或类似关键词。
给出此信息时标注:(幻灯片标题为“A Randomization Test for High-Dimensional Genotypes”,但未提供 arXiv/DOI,建议直接从作者网页查找定稿版本。)
(b) 开放问题(扎根于报告具体语句)¶
- 与标准 GWAS 的功率-样本量权衡 (Qingyuan Zhao 提出,Stephen 回应 [0:51:00–0:51:30]:DTT 不旨在超越 GWAS,但何时样本量足够使 DTT 具有实用价值?可具体计算需多少 trio 才能检测到给定效应大小的因果信号。
- 定位精度与功效的权衡 (Qingyuan Zhao 提问 [0:52:00]):区域越小,功效越低。报告指出“仅有的方法是条件于区域外”,但是否有其他非条件化途径可实现高分辨率因果定位? Stephen 表示不清楚,可能需其他方法(如 fine-mapping)。
- 重组模型的稳健性 (Qingyuan Zhao 提问 [0:53:00]):真实基因组重组存在正干扰(crossover interference),使重组事件更均匀而非泊松。若用 Haldane 模型采样数字双胞胎但真实数据由 gamma renewal 过程生成,对检验的 size 和 power 影响多大?Stephen 认为可扩展但未深入讨论。
- 外部混杂类别的边界:报告定义外部混杂为不影响重组 [0:15:30–0:16:50],但某些遗传因素(如性染色体、线粒体、表观遗传修饰)是否可能影响重组?这需要更精细的生物模型界定。
- 计算可行性:生成数字双胞胎需有效算法(Haldane HMM 正向算法/后向采样),对于全基因组百万 SNP 和数万 trio,计算复杂度如何?报告未提供运行时间或代码可用性。
- 扩展到非二分表型与连续暴露:报告主要讨论二元疾病,但也可用于连续表型(如胆固醇)。在统计量构造上如何优化?报告提及“用任何模型”,但未给出通用指导([0:21:30–0:24:00])。
(以上每条均已标明在转写中出现的具体位置;研究者可回看视频对应段落进一步核实。)
Maintained by 陈星宇 · Homepage · Source on GitHub