Causal Inference in Genetic Trio studies¶

讲者: Stephen Bates
讨论人: Qingyuan Zhao
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-01-26
主题: 因果推断
视频: https://youtu.be/FLDT6T52Kcc · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的工作线是 利用随机化进行因果推断 在遗传学中的应用，具体地，通过父母-子代三人家组（trio）数据中蕴含的 孟德尔随机化 来检测基因组区域对表型的因果效应。

该子方向的核心追问是：在观察性研究中，如何利用已知的基因型分布（给定父母后子代基因型的随机生成过程）来构造条件独立性检验，从而得到因果保证，而不需对表型-基因型关系做任何参数假设。

奠基与主流路线：
- Fisher（1925, 1951）提出随机化是推断的基础，并指出减数分裂（meiosis）本质上是一种随机化过程。
- Spielman, McGinnis & Ewens（1996）提出 传输不平衡检验（TDT），利用杂合父母向患病子代传递等位基因的随机性（二项分布）来检验单个位点的关联，但 TDT 不利用基因组上其他位点的信息，且只能处理二元表型。
- Candès, Fan, Janson & Lv（2016）提出 条件随机化检验（CRT），利用已知的 X 分布进行条件采样，可检验任意特征 j 是否与 Y 条件独立，但要求了解 X | X_{-j} 的分布。
- 孟德尔随机化（Davey Smith & Ibrahim, 2003）通常利用遗传变异作为工具变量，但较少直接利用 trio 内部的随机性。

当前 frontier：当 X 的分布可精确建模时（如遗传三人家组中的 Haldane 隐马尔可夫模型），可以将 CRT 的思路扩展到高维基因型数据，同时获得有限样本的 FDR 控制和无假设的因果解释。Bates 等人的工作正是这一路线的典型：Digital Twin Test（DTT），它是 CRT 在 trio 数据上的特化，同时整合外部 GWAS 数据以提高功效，并且通过条件于父母（A）自动控制所有不影响重组的混杂（外部混杂）。

这场报告站位：它解决的是“给定 trio 数据（父母+子代基因型），如何从整条染色体到局部区域逐步定位因果变异，并给出有限样本下的因果解释和错误发现率控制”的问题。它与传统 GWAS 的关系是互补——GWAS 可发现大量关联，而 DTT 提供对这些关联的因果确认（代价是需要 trio 数据，样本量通常比普通 GWAS 小）。

二、最小内核 / 一个最简例子¶

符号与模型¶

可观测数据：对于第 i 个家庭（trio），有
- 母亲的两条单体型 \( M_i^a, M_i^b \)（均为 \(\{0,1\}^p\) 向量，p 为 SNP 位点数）
- 父亲的两条单体型 \( F_i^a, F_i^b \)
- 子代基因型 \( X_i = X_i^m + X_i^f \)，其中 \( X_i^m \)（来自母亲）和 \( X_i^f \)（来自父亲）分别是从父母单体型中通过重组拼接得到。记祖先信息 \( A_i = (M_i^a, M_i^b, F_i^a, F_i^b) \)。
- 表型 \( Y_i \)（可以是连续或二元）。

已知分布：\( X_i \mid A_i = a_i \) 的分布由 Haldane 隐马尔可夫模型精确描述（重组事件为泊松过程，突变率极低）。即给定父母单体型和遗传距离，可以精确计算 / 采样子代的可能基因型。

未知分布：\( Y_i \mid X_i, A_i, Z_i \) 完全未指定（Z 为外部混杂）。

目标 estimand：对于某个染色体区域（一组连续的 SNP 位点）G，检验因果零假设

\[H_0: Y \perp\!\!\!\perp X_G \mid (X_{-G}, A)\]

其中 \( X_{-G} \) 为区域外的所有 SNP。根据报告定理，该检验自动控制所有“外部混杂”（定义：不影响重组的混杂，即 \( X \mid A, Z \stackrel{d}{=} X \mid A \) 的 Z）。因此拒绝 \( H_0 \) 等价于发现 \( X_G \) 对 Y 有因果效应，且不受未测量混杂 Z 的影响。

最简特例（单个二值 SNP，二元表型，单亲考虑）¶

设置：只考虑一个位点 j，且母亲在该位点为杂合（\( M_j^a = 0, M_j^b = 1 \)），父亲纯合（无关）。子代从母亲继承的一个等位基因是 0 还是 1 由减数分裂的随机分离决定，概率各 1/2（无重组，因为只关心一个位点）。祖先信息 A 即为母亲的单体型状态（0/1）。Y 是二元疾病状态。

TDT 做法：在患病子代（\( Y=1 \)）中，计数从母亲继承到 0 和 1 的人数；若该位点无因果效应，则继承 0 或 1 的概率应服从 binomial(1/2)（条件于 A）。若偏离，则拒绝。

DTT（数字双胞胎）做法：
1. 对每个患病子代，根据 A 和 Haldane 模型（此时简化为均匀随机），采样一个合成子代 \( \tilde{X}_j \sim X_j \mid A \)（即随机指定 0 或 1）。
2. 定义统计量 \( T = \sum_{i: Y_i=1} X_{i,j} \)（病例组中继承的等位基因之和）。在观测数据上计算 \( T^* \)。
3. 在 K 次合成采样中，每次计算 \( T^{(k)} \)，得到 null 分布。
4. p 值 = \( \frac{1 + \#\{k: T^* \le T^{(k)}\}}{K+1} \)。

若真实子代继承的等位基因分布明显偏离随机性（即 TDT 原理），则 p 值显著。当引入其他协变量或整个染色体时，DTT 的优势在于可通过模型（如 Lasso）调整环境效应和人口结构，从而提高功效。

此例的核心思想：已知 \( X \mid A \) 的精确分布，从而可以构建一个 perfect null 的随机化检验，无需对 Y∣X 做任何假设。这也是整场报告方法论的根基。

三、报告主体：讲者讲了什么¶

[0:01:06–0:01:40] 开场：Stephen Bates（UC Berkeley）介绍报告主题——遗传三人家组中的因果推断，随机化检验与高维基因型，合作者 Emmanuel Candès, Matteo Sesia, Chiara Sabatti。

[0:01:40–0:03:40] 研究范式背景：现代科学从假设驱动转向数据驱动（先收集数据再提问）。以 GWAS 为例，同时检测大量位点与表型的关联，需考虑“look-everywhere effect”。仍希望得到因果结论，能用于药物靶点等。

[0:03:40–0:05:35] 问题形式化：目标为条件独立性检验。设 \( X \in \mathbb{R}^d \) 为特征（基因型），Y 为表型。检验 \( X_j \perp\!\!\!\perp Y \mid X_{-j} \)。若拒绝，则 X_j 在给定其他特征下有唯一信号。在因果图中，这对应直接边（Markov 毯条件）。举图例说明：X_{164} 和 X_5 与 Y 有直接边，X_{52} 相关性可通过 X_5 阻断，故属于 null。

[0:05:35–0:06:30] 关键假设：已知 X 的分布（除 Y 外所有关于 X 的信息已知），但对 Y∣X 完全非参数。这为后续 conditional randomization test (CRT) 奠定基础。

[0:06:30–0:08:30] 条件随机化检验（CRT）介绍：采样合成变量 \( \tilde{X}_j \sim X_j \mid X_{-j} \)，然后通过比较真实数据 \((X_j, X_{-j}, Y)\) 与合成数据 \((\tilde{X}_j, X_{-j}, Y)\) 的分布是否相同来判断。若分布不同，则 X_j 与 Y 直接相关。给出图示说明 null 情形（分布相同）和非 null 情形（分布不同）。计算 p 值：用 K 次合成副本，统计 (T(obs) <= T(synth)) 的比例。

[0:08:30–0:09:30] 简短 Q&A（无问题），继续。

[0:09:30–0:12:30] 从条件检验到因果推断：随机化实验是因果金标准；GWAS 数据非随机，但遗传继承本身就是一个高维随机实验。展示 trio 数据：父母各有两条单体型（a/b），子代获得一条来自母亲、一条来自父亲，由减数分裂中的重组（断点随机）决定。定义祖先信息 \( A \) 为父母的四条单体型，子代基因型 X = X^m + X^f。强调：Nature has given us a high-dimensional randomized experiment!

[0:12:30–0:14:20] 精细描述重组模型：Haldane 隐马尔可夫模型（1919）。沿基因组行走，潜在变量 U_j 表示正在拷贝哪条母本单体型（a or b）。转移概率依赖于遗传距离 d_j：\( P(U_j = u_j \mid U_{j-1} = u_{j-1}) = \frac{1}{2}(1 + e^{-2 d_j}) \)。发射概率约等于 1 减突变率（\( \epsilon \approx 10^{-6} \)）。这个模型给出了 X∣A 的精确分布，用于后续 digital twin 的生成。

[0:14:20–0:16:50] 外部混杂（external confounder）定义：Z 满足 X∣A=a, Z=z 与 X∣A=a, Z=z' 同分布（即 Z 不影响重组）。例子：所有环境条件（出生后因素）、人口结构、隐匿亲缘关系、利他基因、偏性婚配。关键定理[0:16:05–0:16:50]：任何在 H_0: Y ⟂ X_j ∣ (X_{-j}, A) 下的有力检验，自动也是 H_0': Y ⟂ X_j ∣ (X_{-j}, A, Z) 下的有力检验（对任意外部混杂 Z 成立）。证明源于 Z ⟂ X_j ∣ (X_{-j}, A)。因此，条件于 A 可阻断所有外部混杂的路径。

[0:16:50–0:18:40] 结构方程模型视角：A→X（已知模型），X→Y（未知），Z 可能同时影响 A、X、Y，但 A 作为后门调整集（backdoor criterion）可阻断 Z 到 X 的非因果路径。注意与常规后门准则不同：这里 A→X 的机制完全已知，而 Y→X 的反向关系不存在（Y 不能影响基因型）。

[0:18:40–0:20:30] 未测量变异的问题：实际 GWAS 只测量部分 SNP（约 1M），而真实因果变异可能未被测量。此时，未测 SNP 不是外部混杂（因为它们影响重组推断）。解决方案：分区域（上百个区段）测试，每个区段包含多个 SNP。若某区域被拒绝，只能说明该区域内存在因果变异，但无法精确到单个 SNP。展示分区图（g1, g2, g3 区域）。

[0:20:30–0:21:30] 小 Q&A 环节（Kai Yang 提问与 PC 算法关系）。Bates 回答：这是因果发现，但利用了额外结构，比通用算法更定制。

[0:21:30–0:26:00] Digital Twin Test (DTT) 正式描述：
1. 对每个家庭 i，给定祖先 A_i，根据 Haldane HMM 采样一个合成子代 \( \tilde{X}_i \)（数字双胞胎）。
2. 计算统计量 \( T^* = T(\{X_i, A_i, Y_i\}_{i=1}^n) \)（观测数据得分）。
3. 对 k=1..K，用合成数据计算 \( T^{(k)} = T(\{\tilde{X}_i^{(k)}, A_i, Y_i\}) \)。
4. p-value = \( (1 + \#\{k: T^* \le T^{(k)}\})/(K+1) \)。

这个测试针对整条染色体（全染色体 DTT）。结论：若能区分真实子代与其数字双胞胎，则染色体存在因果效应。因果保证：由前文定理，DTT 自动控制所有外部混杂。统计量具体可选预测残差：用外部 GWAS 数据拟合模型（如 Lasso），得到预测 \( \hat{Y} = X \hat{\beta} \)，然后统计量 \( T(X, A, Y) = \| Y - X \hat{\beta} \|^2 \)（或二项偏差）。这里的核心思想是：若真实基因型能显著减小预测误差，而数字双胞胎不能，则说明因果效应存在。

[0:26:00–0:28:20] 历史联系：传输不平衡检验（TDT）是 DTT 的一个特例（单一位点、二元表型、统计量为病例组遗传计数）。Bates 说明 TDT 也可用类似条件推理，但其仅使用单个位点且无法整合模型。演示模拟对比：基于真实基因型数据（n=2500 trios + 7500 外部 GWAS），10 个因果变异，染色体 20（p=6820 SNP）。比较 DTT（用 Lasso 拟合后残差）、TDT（单点 Bonferroni）、Screen+TDT（先用 Lasso 选 100 个位点，再 TDT）。结果显示：DTT 在三种患病率（50%、20%、5%）下效果均显著高于其他方法。解释：DTT 通过模型回归掉了大部分已知变异，从而能检测较弱信号。

[0:28:20–0:30:00] 暂停，回答 Panos 关于条件分布估计的问题。Bates 承认 CRT 要求在 X 分布已知下才精确，但在遗传 trio 中 Haldane 模型是高质量近似；若非如此（如从数据学习 X 分布）则不可行。对比 Y∣X 的建模：若对 Y 做线性假设同样面临高维挑战，两者各有优劣，但本方法优势在于 X 分布已知。

[0:30:00–0:32:30] 定位因果区域（Isolating causal regions）。动机：相邻 SNP 由于连锁不平衡（LD）相关，检测到的关联可能来自邻近的因果变异。DTT 定位方法：条件于区域外的所有基因型 \( X_{-G} \)（强迫数字双胞胎在区域外与真实子代相同），仅允许区域 G 内发生重组。此时，测试 \( H_0: Y \perp X_G \mid (X_{-G}, A) \)。这样任何显著差异必须源自 G 内部，而非 LD 传递。但代价：区域越小，发生重组的可能性越小，有效样本量下降，功效降低。

[0:32:30–0:34:00] 多区域测试与 FDR 控制：通过精心设计不重叠区域，可使各区域的 p 值独立（因为条件于不同区域外的剩余变量）。然后用 Benjamini-Hochberg 控制 FDR。给出 Manhattan 图示例（TDT p-values vs site），显示 DTT 区域检测结果。

[0:34:00–0:37:00] 总结：
- 父母-子代 trio 是随机实验的记录；
- DTT 是随机化检验，可使用任何黑箱模型，获得有限样本下的 FDR 和因果控制；
- 对 Y∣X 无假设；所有模型假设放在 X 的生成过程（Haldane 模型）；
- 可整合外部 GWAS 数据和生物学注释；
- 弱点：需要 trio 数据，样本量通常小于普通 GWAS。
未来方向：冰岛、芬兰等国家已有数十万 trio；从因果视角看，此方法可用于其他部分分布已知的场景。

[0:37:00–0:50:00] 讨论环节：Qingyuan Zhao 的评论（详细 DAG 解释 DTT 与其他方法的区别，包括 TDT、GWAS、多重回归、knockoffs）。提出三个问题：
1. 与标准 GWAS 的功率与样本量比较（何时该用 DTT vs GWAS？）
2. 定位精度与功效的权衡。
3. 重组模型 misspecification（如用 gamma renewal 过程替代 Haldane）的影响。

[0:50:00–0:54:30] Stephen Bates 回应：
- 问题 1：DTT 不试图比 GWAS 更灵敏（GWAS 样本量更大），而是确认 GWAS 发现。与 TDT 比，DTT 总是更优。
- 问题 2：区域越小，功效越低，因为需要重组事件；更精细的定位可能需要其他方法（如精密定位，fine-mapping）而不只是条件化。
- 问题 3：可容易扩展至更精细的重组模型（如 gamma renewal），不影响方法本质。

四、对应论文与开放问题¶

(a) 对应论文¶

这场报告对应的论文极可能是：
- 标题：幻灯片同时使用“Causal Inference in Genetic Trio Studies”和“A Randomization Test for High-Dimensional Genotypes”，后者更像论文主标题。
- 作者：Stephen Bates, Matteo Sesia, Chiara Sabatti, Emmanuel Candès（报告及幻灯片署名）。
- 预印本/发表：转写未提及具体 arXiv 编号或期刊。根据报告时间（2021 年 1 月）和后续发展，该工作很可能发表在 Journal of the American Statistical Association 或 Annals of Statistics，但需要核查。
- 请研究者搜索：Bates, Sesia, Sabatti, Candès, “A randomization test for high-dimensional genotypes with application to trio studies” 或类似关键词。

给出此信息时标注：（幻灯片标题为“A Randomization Test for High-Dimensional Genotypes”，但未提供 arXiv/DOI，建议直接从作者网页查找定稿版本。）

(b) 开放问题（扎根于报告具体语句）¶

与标准 GWAS 的功率-样本量权衡 (Qingyuan Zhao 提出，Stephen 回应 [0:51:00–0:51:30]：DTT 不旨在超越 GWAS，但何时样本量足够使 DTT 具有实用价值？可具体计算需多少 trio 才能检测到给定效应大小的因果信号。
定位精度与功效的权衡 (Qingyuan Zhao 提问 [0:52:00])：区域越小，功效越低。报告指出“仅有的方法是条件于区域外”，但是否有其他非条件化途径可实现高分辨率因果定位？ Stephen 表示不清楚，可能需其他方法（如 fine-mapping）。
重组模型的稳健性 (Qingyuan Zhao 提问 [0:53:00])：真实基因组重组存在正干扰（crossover interference），使重组事件更均匀而非泊松。若用 Haldane 模型采样数字双胞胎但真实数据由 gamma renewal 过程生成，对检验的 size 和 power 影响多大？Stephen 认为可扩展但未深入讨论。
外部混杂类别的边界：报告定义外部混杂为不影响重组 [0:15:30–0:16:50]，但某些遗传因素（如性染色体、线粒体、表观遗传修饰）是否可能影响重组？这需要更精细的生物模型界定。
计算可行性：生成数字双胞胎需有效算法（Haldane HMM 正向算法/后向采样），对于全基因组百万 SNP 和数万 trio，计算复杂度如何？报告未提供运行时间或代码可用性。
扩展到非二分表型与连续暴露：报告主要讨论二元疾病，但也可用于连续表型（如胆固醇）。在统计量构造上如何优化？报告提及“用任何模型”，但未给出通用指导（[0:21:30–0:24:00]）。

（以上每条均已标明在转写中出现的具体位置；研究者可回看视频对应段落进一步核实。）

Maintained by 陈星宇 · Homepage · Source on GitHub