Learning causal cellular programs from large-scale perturbations¶
讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-09-23
主题: 因果推断
视频: https://youtu.be/fGCPabNMkh0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2307.06250 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告定位在 因果表示学习(Causal Representation Learning, CRL)与因果结构发现 的交叉点,其核心抱负是:用潜变量模型来刻画高维生物学测量中的“因果程序”,并用干预数据推断这些程序之间的因果关系。
-
子方向的核心追问:当观测数据(如基因表达、细胞图像)是高维且冗余的,应当如何定义“因果变量”?(是对每个基因画箭头,还是聚合为少数几个有解释力的潜变量?)一旦定义了潜变量,能否仅凭对观测变量的“软干预”数据(即改变潜变量的机制而非直接观测到的变量)来唯一地恢复这些潜变量和它们之间的因果图?这个框架能否用于预测“未见过的干预组合”的效果?
-
奠基与主流路线:传统的因果结构学习直接在每个观测变量之间画边(如 PC、GES)。该方法面临维度灾难和可识别性困难。另一个主流是“可解耦表示学习”(Disentangled Representation Learning),通常假设潜变量是独立的,这回避了变量间因果关系的建模。本工作直接挑战了独立性假设,要求潜变量自身构成一个有向无环图(DAG)的因果模型。
-
当前 frontier:近年来,因果表示学习(CRL)领域发展迅速。代表性工作包括:
- Locatello et al. (2019) – Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations:证明无额外监督(如干预标签)时,解耦不可识别。
- Ahuja et al. (2021) – Causal Representation Learning:在“硬干预”下探索可识别性,但假设潜变量图是固定的或所有干预的目标位置已知。
- Schoelkopf et al. (2021) – Toward Causal Representation Learning:为领域提供了概念蓝图,但未给出具体的可识别性定理。
- 本报告的工作(Zhang et al., 2023)开创性地在“软干预”且干预目标未知的设置下,给出了潜变量及其因果结构的可识别性定理。这在领域内被认为是一个重要的理论进展。应用方面,将CRL与单细胞CRISPR扰动数据结合,是解决“预测组合扰动效应”这个生物信息学核心挑战的新尝试。
-
这场报告的两条腿:
- 理论(第一个工作):建立了一个可识别性框架。给定观测数据(来自控制组和至少每个潜变量一个“软干预”组),在做了“多项式/线性混合”(对于非线性情况有近似可识别)、干预有效性(faithfulness)等假设后,证明可以唯一地(至多置换)恢复潜变量和它们之间的因果结构。对应的论文为 Zhang et al. (2023) – Identifiability Guarantees for Causal Disentanglement from Soft Interventions (NeurIPS 2023,arXiv:2307.06250)。
- 应用(第二个工作):提出了一个名为 MORPH 的模块化预测框架。它不刻意去学习潜变量因果图,而是直接利用先验知识(如基因功能、来自其他实验的廉价功能筛选数据)来编码扰动信息,进而预测未见过的单基因扰动效果。这是利用了“功能相似基因有相似效应”这个生物学先验,从而绕开了“每个新基因都对应一个新类别”的零样本学习问题。该工作正在审稿中。
二、最小内核 / 一个最简例子¶
问题设定:我们有观测到的基因表达数据 \( X \in \mathbb{R}^p \),\( p \) 是基因数(可上千)。我们认为这些观测数据的生成是由少量(比如 \( d \ll p \))个不可观测的潜变量 \( U \in \mathbb{R}^d \) 控制,且这些潜变量之间存在因果关系(构成一个DAG)。我们会施加一些“软干预”(比如通过CRISPR敲除一个基因),但这些干预不是直接作用在潜变量上的(我们不知道干预具体影响了哪个潜变量),而是通过改变潜变量的因果机制来实现的。
核心目标和基本符号: - 可观测数据:\( X \) (基因表达向量), \( I \) (二进制或类别指标,表明施加了哪种扰动,比如“敲除基因G”) - 潜变量(目标参数): - \( U \):d维的因果潜变量向量。每个维度对应一个“基因程序”。 - \( \mathcal{G} \):一个定义在 \( U \) 上的有向无环图(DAG),定义了潜变量之间的因果关系,以及干预(通常是对一个父节点的扰动)如何通过图传播到所有后代。 - \( \text{Target}(I) \):每个扰动 \( I \) 真正“靶向”了哪个潜变量维度(是未知的!)。 - 潜在不可观测量:\( U \) 和 \( \mathcal{G} \) 都是不可直接观测的。我们只能看到 \( X \) 和 \( I \),并知道 \( X = m(U) \) 是一个未知的非线性混合函数。
一个最简特例(d=2, 二值基因表达, 一个干预):
想象一个细胞只有两个基因(基因A和基因B),它们构成两个基因程序,\( U = (U_1, U_2) \)。因果假设 \( \mathcal{G} \) 是 \( U_1 \rightarrow U_2 \),即程序1调控程序2。例如,程序1是“应激响应”,程序2是“凋亡”。
-
数据(观测 \( X \) 和干预标签 \( I \)):
- 控制组:我们测量大量未受扰动的细胞,得到两个基因的表达值(\( X_A, X_B \))。
- 干预组(例如 \( I_{gene-C} \),敲除基因C):我们敲除了基因C。我们有一个基因C的敲除实验,但并不知道C属于程序1还是程序2。
-
我们想发现什么?
- 潜变量:\( U_1 \) 和 \( U_2 \) 是什么?在观测到的基因表达数据中,哪些基因是“一起成簇”的?即,哪些基因总是同时上升/下降(比如,所有应激相关基因构成 \( U_1 \),所有凋亡相关基因构成 \( U_2 \))。
-
如何从数据中识别?
- 第一步(线性可识别性):通过观测数据,我们只能在“线性变换” \( \tilde{U} = U \Gamma \) 下识别潜变量。\( \Gamma \) 是一个未知的 \( d \times d \) 可逆矩阵。
- 第二步(利用拓扑顺序):因为潜变量 \( U \) 之间有顺序(\( U_1 \) 先于 \( U_2 \)),我们可以通过某种方式(比如施加一个约束)强制我们恢复的 \( \tilde{U} \) 符合这个顺序。这使得 \( \Gamma \) 变为一个上三角矩阵。
- 第三步(利用干预的稀疏性):当我们对基因C进行干预时,这个干预只会直接改变其所属的潜变量(比如 \( U_1 \)),但不会直接改变 \( U_2 \)。这个信息编码在数据的“因果效应”中。通过强制我们恢复的 \( \tilde{U} \) 在干预下的变化是“稀疏”的(即干预只直接影响 \( \Gamma \) 的某个列向量,而因为 \( \Gamma \) 是上三角,这个列向量的非零模式就暗示了它对应哪个维度),我们就能唯一地将 \( \tilde{U} \) 恢复为 \( U \)。具体来说,与干预相关的变化只出现在 \( \tilde{U} \) 的某些维度上,这种稀疏性迫使 \( \Gamma \) 中的列与潜变量的真实靶向关系匹配,从而我们可以恢复整个因果图 \( \mathcal{G} \)。
-
核心结论:通过比对干预组和控制组数据分布的差异(MMD),可以恢复出潜变量 \( U \) 和因果图 \( \mathcal{G} \)。例如,能发现敲除基因C(应激响应程序)会导致程序1活动的减弱,进而观察到程序2(凋亡)活动的变化,从而推断出 \( U_1 \rightarrow U_2 \)。
三、报告主体:讲者讲了什么¶
Part 1: 动机与问题设定 [0:01:44 - 0:05:40] - [0:01:44-0:02:55] 讲解从干细胞分化为多种细胞类型,以及T细胞从“前体”到“终末衰竭”等功能状态的变化作为motivation。核心问题是:如何理解和工程化细胞命运。 - [0:02:56-0:03:25] 指出两大核心挑战:(1) 需要一个概念性因果框架来解释复杂的细胞行为(发现);(2) 需要一个可推广的预测模型来预测扰动效应,以指导细胞工程(预测)。 - [0:03:27-0:04:55] 提出“大规模扰动”(large-scale perturbations)是当前的一种独特机遇。介绍了两个典型的高通量实验技术 (a) Perturb-seq: 通过CRISPR敲除特定基因后,测量单细胞的全转录组(基因表达矩阵,行是细胞,列是基因);(b) Optical pooled screens: 测量细胞表型(形态、蛋白质定位)。引用了Dixit、Adamson、Feldman等人的里程碑式实验。提及了Replogle et al. (2019) 的全基因组Perturb-seq(约9000个基因被扰动,涉及百万细胞)。 - [0:04:57-0:05:32] 用一个经典的3节点因果图例子(\( Z_1, Z_2, Z_3 \),关系为 \( Z_1 \rightarrow Z_2 \leftarrow Z_3 \))说明:单靠观测数据(由于没有V结构)无法定向边,但通过干预 \( Z_2 \),观察哪些下游变量(这里是 \( Z_3 \))变化,就能识别出边方向。
Part 2: 将因果程序定义为潜变量 [0:05:40 - 0:07:40] - [0:05:40-0:06:30] 评论传统方法:在单个基因层面(每个基因一个节点)构建全因果图(gold-standard gene regulatory network)是极其困难且需要大量先验知识的(引用Davidson, 2006的海胆例子)。 - [0:06:30-0:07:40] 提出核心论点:在测定了成千上万扰动的大规模数据面前,不应该把每个基因(或像素)当作独立的因果变量。数据中普遍存在“共表达”(co-expression)现象(基因同升同降),表明应该将它们聚合为少数“基因程序”作为因果变量。并给出直观原则:应将受扰动后效应相似、且对不同扰动反应相似的变量聚合起来。幻灯片上给出了明确的表述:“Principle: aggregate variables (e.g., genes) with 1) similar effect when you intervene on them, and 2) similar response under interventions”。
Part 3: 理论核心——可识别性 [0:07:40 - 0:10:55] - [0:07:40-0:08:05] 明确问题:学习潜变量在ML和统计中是经典问题(ICA,Disentanglement),但通常假设潜变量独立。这里,我们需要能处理潜变量之间具有因果关系的情况。 - [0:08:55-0:10:00] 引入核心理论问题:可识别性(Identifiability)。即,给定观测数据,能否唯一地恢复潜变量 \( U \) 和因果图 \( \mathcal{G} \)?讲者给出了一个针对软干预(干预改变潜变量的机制而非直接作用到观测变量)的通用可识别性定理(未给出精确叙述)。关键假设(参考幻灯片,括号内容为讲者口头表述的补充): 1. 混合函数 \( f \) 满足特定形式(poly mixing,多项式混合?)、或某种分布族假设。 2. Faithfulness:干预必须“有效”,不能退化为观测分布。 3. 足够的干预数:每个潜变量节点至少有一个干预。 - 结论:在假设下,可识别出潜变量、干预靶向、因果结构(至多置换)。 - [0:10:00-0:10:55] 简要提供证明sketch(幻灯片与口头叙述结合): 1. 第一步:首先,我们能识别出潜变量的一个线性变换:\( \tilde{U} = U \Gamma \)。(这利用了某种“线性可识别性”结果,可能利用了数据在高维空间的结构)。 2. 第二步:通过强制拓扑顺序(enforce topological order),即让 \( \tilde{U} \) 的维度也符合DAG的因果顺序,迫使 \( \Gamma \) 变成上三角矩阵。 3. 第三步:通过对干预效应的稀疏性施加约束(即,一个干预只影响其靶向的潜变量及其后代,这在恢复出的 \( \tilde{U} \) 中表现为变化只出现在少数条目),可以唯一地恢复出 \( \Gamma \) 和因果图 \( \mathcal{G} \)。
Part 4: 算法设计与实证 [0:10:55 - 0:14:00](对应第一个工作,NeurIPS 2023) - [0:10:55-0:12:00] 算法架构:一个基于散度的生成模型(Discrepancy-based VAE)。讲者解释:数据是未配对的(控制组 \( X \) 和干预组 \( X_I \) 不是一一对应的反事实对)。因此,目标不是最小化点对点重构误差,而是最小化生成分布和目标分布之间的“差异”。具体模型: - 用VAE处理控制数据,学习观测数据和潜变量。 - 一个扰动编码器(Perturbation Encoder)将扰动标签 \( I \) 编码,并与潜变量 \( U \) 相互作用(遵循因果图 \( \mathcal{G} \)),生成“干预后”的潜变量 \( U^I \)。 - 损失函数:标准VAE的ELBO + 分布匹配项(MMD,Maximum Mean Discrepancy)+ 稀疏性正则项。 - [0:12:00-0:12:40] 理论保证:讲者声称(口头,有保留地):在无限数据、零训练损失、正确的先验假设下,该算法能正确识别 \( U \) 和 \( \mathcal{G} \)。这与前述一般可识别性定理一致。 - [0:12:40-0:13:31] 实证验证:使用来自 Norman et al. (Science, 2019) 的Perturb-seq数据(约100种单基因扰动,100种双基因扰动)。只使用单基因扰动进行训练。结果:学习到一个有结构的潜变量因果图,节点由代表性基因标注。报告指出,图中一些关系(如USP9-MAPK1-ETS2模块)与原始论文发现的“表位”(epistasis)等生物学现象一致,起到sanity check作用。 - [0:13:31-0:14:00] 组合扰动预测:利用推断出的潜变量图 \( \mathcal{G} \),模型可以预测单个扰动的组合效应。具体来说,对一个共同的后代节点,其效应为各干预的效应之和(在潜空间中是加性的)。这个加性效应后来被作者称为“加法性”,而它们在被观测变量的空间中(由于混合非线性)可能呈现出非加性(如“表位”)。报告展示了对3个双基因扰动的预测可视化(用UMAP投影),显示在某些案例下(如KLF1 + CEBPA)预测准确,在另一些案例下(如某个有交互作用的案例)预测失败。
Part 5: MORPH模型 [0:16:00 - 0:23:00](对应第二个工作,正在审稿) - [0:16:00-0:16:45] 新问题:如何预测未见过的新基因的单次扰动效果?之前用one-hot向量编码扰动,对未见过的基因会失效(因one-hot给新基因分配一个从未出现的索引值,导致预测任意)。 - [0:16:45-0:17:16] MORPH 的核心思想:用先验知识的嵌入(embedding)来代替one-hot向量。因为功能相似的基因(即使没见过)会有相似的先验嵌入,从而可借助训练过的数据做“零样本”推广。讲者强调其模块化设计:先验知识来源可互换。 - [0:17:30-0:18:34] 先验来源举例(使用不同prior): - 文本嵌入(GenePT):用GPT等模型从文献中得到的基因功能描述嵌入。 - 功能筛选数据(DepMap):通过CRISPR筛查阅人的必需性,产生一个廉价但高信息量的向量。 - 单细胞基础模型嵌入(Geneforge, scVI等)。 - [0:18:34-0:20:52] 实证结果: - 训练和测试在不同基因集上进行(训练用数千个基因的扰动数据,测试用另一组),在 K562细胞系 的Replogle et al. (Cell, 2022) 全基因组扰动数据集上测试。 - MORPH(对不同的priors)在MMD(分布差异)和Pearson相关系数(与真实效应向量的相关性)等指标上,始终优于线性回归基线(讲者称线性回归在当时也是SOTA)。其优势显著,且结果稳定。 - 特别强调:DepMap(一种廉价的、仅测量细胞存活率的prior)表现最好,因为它直接测量了基因功能,比文本嵌入更有“生物依据”。 - [0:20:52-0:23:00] 拓展至其他模态:展示MORPH在光学池屏数据(图像,Carlson et al., Nature Microbiology 2025)上的应用。模型提取图像特征并进行预测,依旧优于baseline。证明了其模块化和跨模态的适用性。
Part 6: 结论与开放问题 [0:23:00 - 0:24:35] - 总结:第一个工作给出了一个定义和学习细胞因果程序的框架;第二个工作提出了一个利用先验知识、模块化的预测模型来推广到未见过的扰动。 - 开放问题(报告末尾列出,讲者口头补充): 1. 放松假设:CRL方法的假设(混合函数形式、最少干预数)能否放松?许多后续工作已经在做,甚至包括他们自己的工作——仅用观测数据(observational)进行因果表示学习。 2. 更真实场景:如何建模组织微环境中的细胞间干扰(interference,细胞之间会通信,打破独立同分布假设)?如何处理时间序列动态数据? 3. 实验设计(闭环):如何将这些方法用于主动实验设计(Active Learning / Experimental Design),即选择最有信息量的下一组实验,从而减少实验成本、加速发现?
问答环节 [0:24:48 - 0:29:08] - Q (Brad Kulko): 先验是软约束(soft probabilistic bias)还是硬约束(hard bias)? - A: 更偏向硬约束(hard bias),因为先验被直接作为向量输入编码器;不过编码器会学习到基于观测数据的变换,因此最终表示是两者结合的结果(softmax? 讲者未完全说清)。 - Q (观众): 是否可以用环境变化(distribution shifts)代替干预来应用这个方法? - A: 是的,已经在一个任务“跨细胞系转移扰动效应”中使用。结果是否成功取决于扰动效应在两个环境下是否一致(即是否存在强烈的不对称性)。幻灯片中部分结果可能涉及这个任务。 - Q (观众): 为什么在第一个工作的实证中只用了单基因扰动训练? - A: 因为可识别性定理假设每个干预只靶向单个潜变量节点。他们然后利用定理来预测组合(双基因)效果。报告明确表示,如果目标是提取最多信息,应该使用全部数据(包括双基因数据)。
四、对应论文与开放问题¶
对应论文¶
-
第一个工作(理论 + 算法 + 应用):
- 标题:Identifiability Guarantees for Causal Disentanglement from Soft Interventions
- 作者:Jiaqi Zhang, Chandler Squires, Kristjan Greenewald, Akash Srivastava, Karthikeyan Shanmugam, Caroline Uhler.
- 发表会议:NeurIPS 2023.
- arXiv: 2307.06250 (已在你的上下文材料中给出,确认无误)。
- 报告中的时间:[0:09:00 - 0:12:00] 以及 [0:12:40 - 0:14:00] 和末尾致谢。
- 注意:转写中讲者名字被ASR误写为 "Jesse Jung"。真实身份为 Jiaqi Zhang (MIT)。
-
第二个工作(预测模型MORPH):
- 标题:讲者仅说“paper is on bioRxiv”,标题未在幻灯片和转录中明确写明。根据幻灯片:“MORPH predicts the single-cell outcome of genetic perturbations across various data modalities (Under review)”。可能是 “MORPH: A Modular Framework for Predicting Responses to Perturbational Changes” 或类似。
- 作者:Jiaqi Zhang, Chujun He, Munzer Dahlel, Nir Hacohen, Caroline Uhler等。
- 状态:预印本 (bioRxiv),正在审稿中。时间未知,需要查找。报告中时间 [0:16:00 - 0:23:00] 和末尾致谢。
开放问题(扎根于转写内容和幻灯片)¶
-
放松CRL的假设:
- 来源:[0:23:01-0:23:29] 和 [0:23:30-0:23:36]。“there are various assumptions as including mixing function as well as number of interventions ... is there a way to relax the assumptions there? ... we actually also did one paper where we only look at the cases where we can identify from observational data.”
- [具体开放问题]:
- (a) 能否在放弃“每个潜变量至少有一个干预”的条件下实现可识别性?
- (b) 能否在完全无干预(仅观测数据)但利用更强的结构假设(如非线性 ICA 的假设)下做到可识别?(他们已有后续工作)
- (c) 目前在crl中要求混合函数是“多项式混合/线性”或满足特定分布族。能否在通用非线性混合函数下得到类似结论?
-
处理非独立同分布与干扰(Interference):
- 来源:[0:23:40-0:24:10] “we’re actually treating cells as i.i.d. samples... This is not going to be effective if we actually consider a tissue environment where the cells neighboring each other and they might communicate with each other which introduce interference between them. How can we actually model this?”
- [具体开放问题]:如何在CRL或预测框架中,纳入细胞邻近的网络效应?这与空间转录组学和细胞间通讯研究直接相关,技术上可能需要处理空间相依性。
-
动态数据/时间序列:
- 来源:[0:24:06-0:24:12] “the system is actually dynamic and we have time series measurements, how do we model that?”
- [具体开放问题]:如何扩展CRL方法来分析时间序列的扰动数据?这涉及干预效应随时间演化的动态因果模型。
-
主动实验设计(Active Learning / Closed-loop Experiment):
- 来源:[0:24:15-0:24:30] “how do this approaches ... perform in an experimental design setting where we’re doing actual experiments... hopefully I can talk about the experimental design in a future iteration”。
- [具体开放问题]:MORPH模型(或CRL框架)如何指导哪一组实验应该在下一步做,以最大化对未知扰动的预测能力?例如,在已有数千种基因扰动效果中,哪些新扰动最能提供信息?这涉及到统计-计算-成本之间的tradeoff,对你(用户)的计算约束统计学兴趣可能尤其相关。
Maintained by 陈星宇 · Homepage · Source on GitHub