跳转至

Causal Inference in the Light of Drug Repurposing for SARS-CoV-2

讲者: Caroline Uhler
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-07-07
主题: 因果推断
视频: https://www.youtube.com/watch?v=e-xUUdTIFeU · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告的目标是回应一个问题:在缺乏足够随机对照试验时,如何利用已有的观测数据和干预数据来高效地筛选、预测并解释药物(尤其是针对SARS-CoV-2)的作用。 它并没有尝试提出一个统一框架,而是把这个问题拆解成了两个独立又互补的“因果迁移”问题,并分别用两种方法论路径去处理。

第一个问题:跨干预的因果迁移。
- 追问:手头有对基因A、B、C的敲除(knockout)实验数据,能否预测对基因D(还未做过实验)进行敲除后的基因表达变化?
- 奠基与主流路线:这是一个经典的因果结构学习(causal structure discovery)与推断的结合问题。标准做法是先用观测数据(+部分干预数据)推断出基因调控网络(一个DAG),然后通过 do-calculus 从图中读出任意的干预效果。这个方向的奠基工作是 Pearl 的因果图框架 [Pearl 2009];主流算法包括约束基(PC算法, Spirtes et al. 2000)和评分基(GES算法, Chickering 2002)。
- 当前 frontier 之一:如何高效地、在非参数假设下、并利用混合(观测+干预)数据进行一致的结构学习?以及如何通过 Batch 实验设计(选择下一个最有效的干预)来加速学习?
- 报告站在哪:报告提出的 Greedy Sparsest Permutation (GSP) 算法及其干预版本 [Solus, Wang & Uhler, 2018; Yang, Katcoff & Uhler, 2018; Hauser & Bühlmann, 2012] 正是针对这个 frontier。它另辟蹊径,把 DAG 学习问题转化为在排列空间上的贪心搜索,简化了搜索空间、允许非参数依赖、并首次证明了(在一定的假设下)对干预数据的一致学习(而当时主流的干预版 GES 被证明是不一致的——[报告人自己的结果显示])。

第二个问题:跨环境的因果迁移。
- 追问:手头有大量药物(比如FDA批准的~800种)在一个细胞系(如肺癌细胞A549)上的治疗效果数据(基因表达谱),能否预测同一种药物在另一个细胞系(如肺上皮细胞AT2,与COVID-19更相关)上的效果?
- 奠基与主流路线:这是经典的“因果迁移性”(causal transportability)问题。Bareinboim 和 Pearl 及其合作者 (e.g., [Bareinboim & Pearl, 2012, 2013]) 给出了在图模型框架下,从源环境目标环境进行因果效应迁移的充要条件(通常需要知道完整的因果图、知道哪些变量/机制的差异是环境间变化的)。
- 当前 frontier 之一:当因果图未知,或知识不完整时,是否还有更“黑箱”、但数据驱动的迁移方法?
- 报告站在哪:报告提出了一种完全不需要显式因果图的迁移方法:用过参数化的自编码器(overparameterized autoencoder)把药物表达谱对齐到一个通用潜空间中,并发现药物在同一潜空间中在不同细胞系下的“效果向量”是高度对齐的。这直接挑战了传统因果迁移性对图知识的依赖。报告人将此现象归因于过参数化自编码器的一种“自正则化”特性——它倾向于将输入映射到训练数据(即原有的药物响应)作为吸引子 [Radhakrishnan, Yang, Belkin & Uhler, 2019; Belyaeva et al., 2020],从而使同一药物的不同细胞系版本在潜空间中“自动对齐”。

二、最小内核 / 一个最简例子

为了理解这两种迁移,我们构造两个最简场景。

场景一:跨干预迁移(GSP核心思想)

  • 模型:三个基因 {X, Y, Z}。真实的因果DAG为 X → Y → Z
  • 可观测数据
  • 观测数据:(X_obs, Y_obs, Z_obs),满足联合分布 P(X, Y, Z)
  • 干预数据:(do(X=x0), Y_int, Z_int),即人为将X固定为常数 x0(硬干预)。
  • Estimation target:预测 do(Z)(对Z进行干预)对整个系统的影响。
  • GSP思路
  • 把学习DAG转化为学习一个变量顺序(permutation)和一个无向骨架
  • 对一个给定的顺序(比如 (X, Y, Z)),我们“假设”祖先关系由顺序决定(即,顺序中靠前的变量可能指向靠后的变量)。
  • 然后构建一个“最稀疏”的图:对于每对变量 (i, j)(i在顺序中比j靠前),如果在给定所有比j更靠前的变量时,ij 条件依赖,就保留一条 i → j 的边。
  • 定理 [Solus, Wang & Uhler, 2018]:在所有排列中,能够产生最稀疏、且与所有观测和干预条件独立关系一致的幸存顺序,恰好是真实的因果顺序(的某个Markov等价类代表)。
  • 算法在这个排列空间(一个permutahedron组成的凸多面体)上做贪心搜索,并证明不会陷入局部最小值
  • 跨干预迁移:一旦学习到DAG,读取 do(Z) 的效果就直接对应于图结构。

场景二:跨环境迁移(过参数化自编码器核心思想)

  • 模型:一个药物 D,两种细胞系 C1C2
  • 可观测数据
  • C1 中:观测到给药前的基线表达谱 E_{C1}^baseline,和给D药后的表达谱 E_{C1}^{drug}
  • C2 中:只观测到基线 E_{C2}^baseline
  • Estimation target:预测 E_{C2}^{drug}(即在C2上用了D的效果)。
  • 过参数化自编码器方案
  • 用一个大宽度的自编码器(输入维度d,潜层维度 k >> d)同时训练所有数据(来自两种细胞系的所有基线 + C1的给药)。
  • 关键发现:在学好的潜空间中,定义药物D的“效果向量”为 v_C1 = encode(E_{C1}^{drug}) - encode(E_{C1}^{baseline})
  • 经验事实(报告所述针对多药物所做的大量实验):v_C1v_C2(如果C2有数据的话)在潜空间中几乎平行,且方向与数据维度中的结构噪声无关。
  • 迁移:对于只有基线数据的C2,其药物D的预测表达谱为 decode( encode(E_{C2}^{baseline}) + v_C1 )
  • 为什么行? 报告人使用了一个直觉:过参数化自编码器有一种“自正则化”倾向,会把映射学成在训练点处是收缩映射(contractive);训练数据点(包括C1给药且C1基线等)成为迭代映射的不动点。这使得同一药物在不同细胞系上的效应向量在潜空间中倾向于对齐,而不是相互正交。

三、报告主体:讲者讲了什么

[0:00–0:04] 开场与动机
- 讲者感谢主办方,并立即点出:高通量扰动数据(CRISPR/Cas9敲除、数十万个药物筛选) 正使基因组的因果推断变得可行,且这是“新问题”的来源。幻灯片也列出了“单细胞CRISPR干预”和“小分子药物实验”两种数据源。
- 幻灯片强调:“Randomized controlled trials are often impractical… Interaction between genetics and causal inference could be particularly beneficial。”

[0:05–0:15] 两个不同的“因果迁移”问题
- 问题1(跨干预):给定敲除实验数据,预测未做敲除的基因的敲除效果。方法路径是:先学DAG,再从图中读取干预效果
- 问题2(跨环境/跨细胞):给定同一药物在一个细胞系的数据,预测它在另一个细胞系的效果。方法路径是:用自编码器做潜空间风格迁移
- 讲者特意对比:敲除是“已知目标且目标少的干预”,而药物是“目标多且未知的干预”——这意味着两者的方法论不可能相同,不能用图方法处理后者。

[0:15–0:27] 结构方程模型与可用于DAG学习的干预类
- 讲者介绍非参数结构方程模型(不假设噪声形式、不假设线性)。
- 区分硬干预(hard intervention)和软干预(soft intervention):硬干预切断所有父边(如敲除),软干预不切断(如过表达)。
- 关键引用 [Hauser & Bühlmann, JMLR 2012] 和 [Yang, Katcoff & Uhler, ICML 2018]:硬/软干预产生的干预Markov等价类(Interventional Markov equivalence class)是一样的,因此研究软干预(更易做多个)与硬干预在辨识意义上没有损失。

[0:27–0:28] 观测DAG学习的两种经典范式:约束基 vs 评分基
- 约束基(如PC算法):非参数、可检验直接条件独立,但错误积累且不可纠正。
- 评分基(如GES算法):可纠正、更稳定,但搜索空间(Markov等价类的大小)极大(n=10时约有 ~10^19,此数据引自报告的幻灯片)。
- 讲者总结:需要既能非参数、又能避免巨大搜索空间的算法。PPT特别列出了GSP的算法核心 [Solus, Wang & Uhler, 2018; also Freddie Eberhardt's slide] 。

[0:28–0:37] 提出 GSP 算法(Greedy Sparsest Permutation)及其扩展

  • 核心思路(方程/不等式级别复原):
  • π表示变量的一个排列,D(π)表示“依据顺序π、利用条件独立性”构造的DAG。
  • 构造方式:对于π中i在j前,如果 X_i ⟂̸ X_j | { X_k : k precedes j and k ≠ i},则在D(π)中加入X_i → X_j
  • 命题:对正确的排列π*D(π*)正是真实DAG的某个Markov等价类代表性DAG。
  • 算法:贪心搜索排序(邻居为交换顺序中相邻两个变量的顺序)。
  • 主要定理 [Spiral, Solus, Wang & Uhler, under weak assumptions 强于faithfulness?转写中讲者说“比faithfulness更弱”]:每一步贪心选择后,每个局部最小值都是全局最小值(证明成立)。
  • PPT展示了通过Permutahedron上的邻接(相邻顺序交换)贪心搜索。
  • 扩展到干预数据(iGSP):对硬干预的干预节点,在贪心搜索中屏蔽指向该节点的边(因为硬干预切断了所有父边)。这既缩小搜索空间(计算加速),又给出更精细的干预等价类(更强的identifiability)。
  • 扩展到潜变量(lGSP):当存在未观测潜变量时,不能用全排序。讲者团队首次定义了从偏序集(poset)到DAG的类似映射,并证明了稀疏对应的正确性。但贪心局部最优等于全局最优的证明尚缺失(尽管已测试30000个图无反例)。
  • 性能演示(PPT + 转写提到):在Sachs蛋白数据 [Sachs et al., 2005] 的上使用留一ROC曲线;iGSP显著优于其他方法(特别是在核条件独立检验下胜出);并已用到Dixit et al. (2016)的CRISPR敲除大数据上。
  • 自研Python包(causaldag?未明确,但转写提到 causaled packages),已可在n~1000的DAG上运行并快于某些无向图算法(bib)。

[0:37–0:39] Q&A时段1:处理统计不确定性 + 实验设计开放问题
- Q1 (来自主持人?):如何处理样本量小导致的不确定性(排序不稳定)?
- A:使用稳定性选择(bootstrap resample,仅保留重复出现多次的边)。
- Q2 (Vito Perugia?):关于主动选择干预来最优地学习整个图(或最优地达到target状态),是否与多臂老虎机/强化学习有关?
- A:答案是“是”,强调当前文献 [一篇标注的会议论文?] 只限于硬干预且假设很多,软干预下的主动学习是“完全开放”问题。区分了两种目标:学全图 vs 驱动到目标状态,后者可能不需要全图。

[0:40–0:48] 第二部分:跨细胞系的药物表达迁移(自编码器方法)
- 讲者比较了标准因果迁移性(基于图的充要条件,如Bareinboim & Pearl的工作)与标准风格迁移(image-to-image的潜向量算术)。
- 关键直觉:如果将药物在细胞系A上的效果向量 v_A 直接加到细胞系B的基线上,是否就能得到B上药物效果?传统方法需要图,而风格迁移思想不需要。
- 数据:CMap数据集1.2M个表达样本(1000维),覆盖“~800 FDA药物 + 许多敲除/过表达”以及约100种细胞系。
- 核心结果:过参数化自编码器(从1000维 -> >1000维潜层 -> 1000维输出)显著对齐了同一药物在两种细胞系中的效应向量(在潜空间中)。而标准(低维瓶颈)自编码器或PCA无法做到。
- 定量证据:PPT所示三张散点图——原始空间下药物跨细胞系相关低;标准自编码器略微改善;过参数自编码器下几乎全部+1/-1
- 为什么工作(讲者的直觉/理论):
- 过参数自编码器 + L2重建损失 + ReLU激活逐渐将输入映射到训练数据的吸引子(训练点是 iterated map 的不动点)[Radhakrishnan et al., 2019]。
- 在这种吸引子约束下,同一药物的两种细胞系效果向量会自然平行(因为它们被吸引到类似“药物工作点”)。
- 这个现象是“经验发现的”,讲者团队还没有完整的定理证明。

[0:48–0:57] COVID-19应用与结论
- 应用:
- 用已公开的Blanco-Melo COVID-19 RNA-seq 数据生成“疾病表达谱”。
- 用上述自编码器迁移对所有~800药预测在肺上皮AT2细胞的作用。
- 将预测的药物效果向量与疾病向量做点积打分(越低越好)。
- 对得分高药物,再用前述因果图方法(GSP从单细胞RNA-seq数据学得的网络)发现其靶点RIPK1可能是关键的下游调控因子,并联系到与衰老通路。
- 讲者最后回到元概念:“药物本身就是一场干预,做药物重定位必须放在因果框架中思考。”

四、对应论文与开放问题

(a) 对应论文(部分已标注,部分基于幻灯片/转录推测)

  1. GSP 算法与理论
  2. Solus, Wang & Uhler, 2018, Permutation-based Causal Structure Discovery(从报告幻灯片推测,应如:Wang, Solus, Yang & Uhler, Towards a Unified Framework for Causal Structure Learning, 可能为Preprint/ICML)
  3. Hauser & Bühlmann, Journal of Machine Learning Research, 2012(干预等价类基础)
  4. 干预GSP / iGSP
  5. Yang, Katcoff & Uhler, 2018, ICML(软干预等价类 + 干预GSP算法)
  6. 潜变量GSP / lGSP:讲者明确说“最近才做”,ArXiv号未知。
  7. 过参数自编码器理论
  8. Radhakrishnan, Yang, Belkin & Uhler, 2019, On Self-Regularization of Overparameterized Autoencoders, arXiv:1909.12362。
  9. 药物重定位应用
  10. Belyaeva, Cammarata, Radhakrishnan, Squires, Yang, Shivashankar & Uhler, 2020, Causal Analysis of Drug Repurposing for SARS-CoV-2, arXiv:2006.03735。

(b) 开放问题(基于内容 + 标注的讲者语言)

  1. 潜变量GSP的全局最优性证明
  2. 讲者在 [0:31–0:32] 明确:“我们还没证明(偏序集贪心)不会陷入局部最优点”,尽管在30000张图上无反例。
  3. 挑战:Wagner-type的保形性分析是否适用于偏序空间?或需要新的拓扑/遍历性技巧?
  4. 主动实验设计(Batch active learning of causal graphs)
  5. [0:36] “整个领域仍然非常开放——只一篇论文,假设强,还未涉及软干预”。
  6. 具体:给定多轮预算(如20个批次的CRISPR敲除),选择哪些干预能最大化图恢复准确率;需要与先验信息、成本、时间线整合。
  7. 自编码器对齐现象的理论解释
  8. [0:49–0:52] “这是经验发现,我们还缺少理论(prove)”。
  9. 具体:过参数化自编码器 + 训练后为什么会使跨细胞系的药物向量平行?能否与幼稚互信息最大化(infomax principle)或所谓的“隐式拉普拉斯正则化”相关?
  10. 将迁移性方法扩展至“预测未知干预”
  11. 第一部分预测已知细胞中未知干预(图方法 / 需要图),第二部分预测同一干预对未知细胞的效果(无图 / 需自编码器)。是否有统一的双向整合框架(即从跨细胞药物响应中同时进行图学习和跨环境迁移)?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论