Learning causal cellular programs from large-scale perturbations¶

讲者: Young researchers' seminar
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-09-23
主题: 因果推断
视频: https://youtu.be/fGCPabNMkh0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2307.06250 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告定位在 因果表示学习（Causal Representation Learning, CRL）与因果结构发现 的交叉点，其核心抱负是：用潜变量模型来刻画高维生物学测量中的“因果程序”，并用干预数据推断这些程序之间的因果关系。

子方向的核心追问：当观测数据（如基因表达、细胞图像）是高维且冗余的，应当如何定义“因果变量”？（是对每个基因画箭头，还是聚合为少数几个有解释力的潜变量？）一旦定义了潜变量，能否仅凭对观测变量的“软干预”数据（即改变潜变量的机制而非直接观测到的变量）来唯一地恢复这些潜变量和它们之间的因果图？这个框架能否用于预测“未见过的干预组合”的效果？
奠基与主流路线：传统的因果结构学习直接在每个观测变量之间画边（如 PC、GES）。该方法面临维度灾难和可识别性困难。另一个主流是“可解耦表示学习”（Disentangled Representation Learning），通常假设潜变量是独立的，这回避了变量间因果关系的建模。本工作直接挑战了独立性假设，要求潜变量自身构成一个有向无环图（DAG）的因果模型。
当前 frontier：近年来，因果表示学习（CRL）领域发展迅速。代表性工作包括：
- Locatello et al. (2019) – Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations：证明无额外监督（如干预标签）时，解耦不可识别。
- Ahuja et al. (2021) – Causal Representation Learning：在“硬干预”下探索可识别性，但假设潜变量图是固定的或所有干预的目标位置已知。
- Schoelkopf et al. (2021) – Toward Causal Representation Learning：为领域提供了概念蓝图，但未给出具体的可识别性定理。
- 本报告的工作（Zhang et al., 2023）开创性地在“软干预”且干预目标未知的设置下，给出了潜变量及其因果结构的可识别性定理。这在领域内被认为是一个重要的理论进展。应用方面，将CRL与单细胞CRISPR扰动数据结合，是解决“预测组合扰动效应”这个生物信息学核心挑战的新尝试。
这场报告的两条腿：
1. 理论（第一个工作）：建立了一个可识别性框架。给定观测数据（来自控制组和至少每个潜变量一个“软干预”组），在做了“多项式/线性混合”（对于非线性情况有近似可识别）、干预有效性（faithfulness）等假设后，证明可以唯一地（至多置换）恢复潜变量和它们之间的因果结构。对应的论文为 Zhang et al. (2023) – Identifiability Guarantees for Causal Disentanglement from Soft Interventions (NeurIPS 2023，arXiv:2307.06250)。
2. 应用（第二个工作）：提出了一个名为 MORPH 的模块化预测框架。它不刻意去学习潜变量因果图，而是直接利用先验知识（如基因功能、来自其他实验的廉价功能筛选数据）来编码扰动信息，进而预测未见过的单基因扰动效果。这是利用了“功能相似基因有相似效应”这个生物学先验，从而绕开了“每个新基因都对应一个新类别”的零样本学习问题。该工作正在审稿中。

二、最小内核 / 一个最简例子¶

问题设定：我们有观测到的基因表达数据 \( X \in \mathbb{R}^p \)，\( p \) 是基因数（可上千）。我们认为这些观测数据的生成是由少量（比如 \( d \ll p \)）个不可观测的潜变量 \( U \in \mathbb{R}^d \) 控制，且这些潜变量之间存在因果关系（构成一个DAG）。我们会施加一些“软干预”（比如通过CRISPR敲除一个基因），但这些干预不是直接作用在潜变量上的（我们不知道干预具体影响了哪个潜变量），而是通过改变潜变量的因果机制来实现的。

核心目标和基本符号： - 可观测数据：\( X \) (基因表达向量), \( I \) (二进制或类别指标，表明施加了哪种扰动，比如“敲除基因G”) - 潜变量（目标参数）： - \( U \)：d维的因果潜变量向量。每个维度对应一个“基因程序”。 - \( \mathcal{G} \)：一个定义在 \( U \) 上的有向无环图（DAG），定义了潜变量之间的因果关系，以及干预（通常是对一个父节点的扰动）如何通过图传播到所有后代。 - \( \text{Target}(I) \)：每个扰动 \( I \) 真正“靶向”了哪个潜变量维度（是未知的！）。 - 潜在不可观测量：\( U \) 和 \( \mathcal{G} \) 都是不可直接观测的。我们只能看到 \( X \) 和 \( I \)，并知道 \( X = m(U) \) 是一个未知的非线性混合函数。

一个最简特例（d=2, 二值基因表达, 一个干预）：

想象一个细胞只有两个基因（基因A和基因B），它们构成两个基因程序，\( U = (U_1, U_2) \)。因果假设 \( \mathcal{G} \) 是 \( U_1 \rightarrow U_2 \)，即程序1调控程序2。例如，程序1是“应激响应”，程序2是“凋亡”。

数据（观测 \( X \) 和干预标签 \( I \)）：
- 控制组：我们测量大量未受扰动的细胞，得到两个基因的表达值（\( X_A, X_B \)）。
- 干预组（例如 \( I_{gene-C} \)，敲除基因C）：我们敲除了基因C。我们有一个基因C的敲除实验，但并不知道C属于程序1还是程序2。
我们想发现什么？
- 潜变量：\( U_1 \) 和 \( U_2 \) 是什么？在观测到的基因表达数据中，哪些基因是“一起成簇”的？即，哪些基因总是同时上升/下降（比如，所有应激相关基因构成 \( U_1 \)，所有凋亡相关基因构成 \( U_2 \)）。
如何从数据中识别？
- 第一步（线性可识别性）：通过观测数据，我们只能在“线性变换” \( \tilde{U} = U \Gamma \) 下识别潜变量。\( \Gamma \) 是一个未知的 \( d \times d \) 可逆矩阵。
- 第二步（利用拓扑顺序）：因为潜变量 \( U \) 之间有顺序（\( U_1 \) 先于 \( U_2 \)），我们可以通过某种方式（比如施加一个约束）强制我们恢复的 \( \tilde{U} \) 符合这个顺序。这使得 \( \Gamma \) 变为一个上三角矩阵。
- 第三步（利用干预的稀疏性）：当我们对基因C进行干预时，这个干预只会直接改变其所属的潜变量（比如 \( U_1 \)），但不会直接改变 \( U_2 \)。这个信息编码在数据的“因果效应”中。通过强制我们恢复的 \( \tilde{U} \) 在干预下的变化是“稀疏”的（即干预只直接影响 \( \Gamma \) 的某个列向量，而因为 \( \Gamma \) 是上三角，这个列向量的非零模式就暗示了它对应哪个维度），我们就能唯一地将 \( \tilde{U} \) 恢复为 \( U \)。具体来说，与干预相关的变化只出现在 \( \tilde{U} \) 的某些维度上，这种稀疏性迫使 \( \Gamma \) 中的列与潜变量的真实靶向关系匹配，从而我们可以恢复整个因果图 \( \mathcal{G} \)。
核心结论：通过比对干预组和控制组数据分布的差异（MMD），可以恢复出潜变量 \( U \) 和因果图 \( \mathcal{G} \)。例如，能发现敲除基因C（应激响应程序）会导致程序1活动的减弱，进而观察到程序2（凋亡）活动的变化，从而推断出 \( U_1 \rightarrow U_2 \)。

三、报告主体：讲者讲了什么¶

Part 1: 动机与问题设定 [0:01:44 - 0:05:40] - [0:01:44-0:02:55] 讲解从干细胞分化为多种细胞类型，以及T细胞从“前体”到“终末衰竭”等功能状态的变化作为motivation。核心问题是：如何理解和工程化细胞命运。 - [0:02:56-0:03:25] 指出两大核心挑战：(1) 需要一个概念性因果框架来解释复杂的细胞行为（发现）；(2) 需要一个可推广的预测模型来预测扰动效应，以指导细胞工程（预测）。 - [0:03:27-0:04:55] 提出“大规模扰动”（large-scale perturbations）是当前的一种独特机遇。介绍了两个典型的高通量实验技术 (a) Perturb-seq: 通过CRISPR敲除特定基因后，测量单细胞的全转录组（基因表达矩阵，行是细胞，列是基因）；(b) Optical pooled screens: 测量细胞表型（形态、蛋白质定位）。引用了Dixit、Adamson、Feldman等人的里程碑式实验。提及了Replogle et al. (2019) 的全基因组Perturb-seq（约9000个基因被扰动，涉及百万细胞）。 - [0:04:57-0:05:32] 用一个经典的3节点因果图例子（\( Z_1, Z_2, Z_3 \)，关系为 \( Z_1 \rightarrow Z_2 \leftarrow Z_3 \)）说明：单靠观测数据（由于没有V结构）无法定向边，但通过干预 \( Z_2 \)，观察哪些下游变量（这里是 \( Z_3 \)）变化，就能识别出边方向。

Part 2: 将因果程序定义为潜变量 [0:05:40 - 0:07:40] - [0:05:40-0:06:30] 评论传统方法：在单个基因层面（每个基因一个节点）构建全因果图（gold-standard gene regulatory network）是极其困难且需要大量先验知识的（引用Davidson, 2006的海胆例子）。 - [0:06:30-0:07:40] 提出核心论点：在测定了成千上万扰动的大规模数据面前，不应该把每个基因（或像素）当作独立的因果变量。数据中普遍存在“共表达”（co-expression）现象（基因同升同降），表明应该将它们聚合为少数“基因程序”作为因果变量。并给出直观原则：应将受扰动后效应相似、且对不同扰动反应相似的变量聚合起来。幻灯片上给出了明确的表述：“Principle: aggregate variables (e.g., genes) with 1) similar effect when you intervene on them, and 2) similar response under interventions”。

Part 3: 理论核心——可识别性 [0:07:40 - 0:10:55] - [0:07:40-0:08:05] 明确问题：学习潜变量在ML和统计中是经典问题（ICA，Disentanglement），但通常假设潜变量独立。这里，我们需要能处理潜变量之间具有因果关系的情况。 - [0:08:55-0:10:00] 引入核心理论问题：可识别性（Identifiability）。即，给定观测数据，能否唯一地恢复潜变量 \( U \) 和因果图 \( \mathcal{G} \)？讲者给出了一个针对软干预（干预改变潜变量的机制而非直接作用到观测变量）的通用可识别性定理（未给出精确叙述）。关键假设（参考幻灯片，括号内容为讲者口头表述的补充）： 1. 混合函数 \( f \) 满足特定形式（poly mixing，多项式混合？）、或某种分布族假设。 2. Faithfulness：干预必须“有效”，不能退化为观测分布。 3. 足够的干预数：每个潜变量节点至少有一个干预。 - 结论：在假设下，可识别出潜变量、干预靶向、因果结构（至多置换）。 - [0:10:00-0:10:55] 简要提供证明sketch（幻灯片与口头叙述结合）： 1. 第一步：首先，我们能识别出潜变量的一个线性变换：\( \tilde{U} = U \Gamma \)。（这利用了某种“线性可识别性”结果，可能利用了数据在高维空间的结构）。 2. 第二步：通过强制拓扑顺序（enforce topological order），即让 \( \tilde{U} \) 的维度也符合DAG的因果顺序，迫使 \( \Gamma \) 变成上三角矩阵。 3. 第三步：通过对干预效应的稀疏性施加约束（即，一个干预只影响其靶向的潜变量及其后代，这在恢复出的 \( \tilde{U} \) 中表现为变化只出现在少数条目），可以唯一地恢复出 \( \Gamma \) 和因果图 \( \mathcal{G} \)。

Part 4: 算法设计与实证 [0:10:55 - 0:14:00]（对应第一个工作，NeurIPS 2023） - [0:10:55-0:12:00] 算法架构：一个基于散度的生成模型（Discrepancy-based VAE）。讲者解释：数据是未配对的（控制组 \( X \) 和干预组 \( X_I \) 不是一一对应的反事实对）。因此，目标不是最小化点对点重构误差，而是最小化生成分布和目标分布之间的“差异”。具体模型： - 用VAE处理控制数据，学习观测数据和潜变量。 - 一个扰动编码器（Perturbation Encoder）将扰动标签 \( I \) 编码，并与潜变量 \( U \) 相互作用（遵循因果图 \( \mathcal{G} \)），生成“干预后”的潜变量 \( U^I \)。 - 损失函数：标准VAE的ELBO + 分布匹配项（MMD，Maximum Mean Discrepancy）+ 稀疏性正则项。 - [0:12:00-0:12:40] 理论保证：讲者声称（口头，有保留地）：在无限数据、零训练损失、正确的先验假设下，该算法能正确识别 \( U \) 和 \( \mathcal{G} \)。这与前述一般可识别性定理一致。 - [0:12:40-0:13:31] 实证验证：使用来自 Norman et al. (Science, 2019) 的Perturb-seq数据（约100种单基因扰动，100种双基因扰动）。只使用单基因扰动进行训练。结果：学习到一个有结构的潜变量因果图，节点由代表性基因标注。报告指出，图中一些关系（如USP9-MAPK1-ETS2模块）与原始论文发现的“表位”（epistasis）等生物学现象一致，起到sanity check作用。 - [0:13:31-0:14:00] 组合扰动预测：利用推断出的潜变量图 \( \mathcal{G} \)，模型可以预测单个扰动的组合效应。具体来说，对一个共同的后代节点，其效应为各干预的效应之和（在潜空间中是加性的）。这个加性效应后来被作者称为“加法性”，而它们在被观测变量的空间中（由于混合非线性）可能呈现出非加性（如“表位”）。报告展示了对3个双基因扰动的预测可视化（用UMAP投影），显示在某些案例下（如KLF1 + CEBPA）预测准确，在另一些案例下（如某个有交互作用的案例）预测失败。

Part 5: MORPH模型 [0:16:00 - 0:23:00]（对应第二个工作，正在审稿） - [0:16:00-0:16:45] 新问题：如何预测未见过的新基因的单次扰动效果？之前用one-hot向量编码扰动，对未见过的基因会失效（因one-hot给新基因分配一个从未出现的索引值，导致预测任意）。 - [0:16:45-0:17:16] MORPH 的核心思想：用先验知识的嵌入（embedding）来代替one-hot向量。因为功能相似的基因（即使没见过）会有相似的先验嵌入，从而可借助训练过的数据做“零样本”推广。讲者强调其模块化设计：先验知识来源可互换。 - [0:17:30-0:18:34] 先验来源举例（使用不同prior）： - 文本嵌入（GenePT）：用GPT等模型从文献中得到的基因功能描述嵌入。 - 功能筛选数据（DepMap）：通过CRISPR筛查阅人的必需性，产生一个廉价但高信息量的向量。 - 单细胞基础模型嵌入（Geneforge, scVI等）。 - [0:18:34-0:20:52] 实证结果： - 训练和测试在不同基因集上进行（训练用数千个基因的扰动数据，测试用另一组），在 K562细胞系 的Replogle et al. (Cell, 2022) 全基因组扰动数据集上测试。 - MORPH（对不同的priors）在MMD（分布差异）和Pearson相关系数（与真实效应向量的相关性）等指标上，始终优于线性回归基线（讲者称线性回归在当时也是SOTA）。其优势显著，且结果稳定。 - 特别强调：DepMap（一种廉价的、仅测量细胞存活率的prior）表现最好，因为它直接测量了基因功能，比文本嵌入更有“生物依据”。 - [0:20:52-0:23:00] 拓展至其他模态：展示MORPH在光学池屏数据（图像，Carlson et al., Nature Microbiology 2025）上的应用。模型提取图像特征并进行预测，依旧优于baseline。证明了其模块化和跨模态的适用性。

Part 6: 结论与开放问题 [0:23:00 - 0:24:35] - 总结：第一个工作给出了一个定义和学习细胞因果程序的框架；第二个工作提出了一个利用先验知识、模块化的预测模型来推广到未见过的扰动。 - 开放问题（报告末尾列出，讲者口头补充）： 1. 放松假设：CRL方法的假设（混合函数形式、最少干预数）能否放松？许多后续工作已经在做，甚至包括他们自己的工作——仅用观测数据（observational）进行因果表示学习。 2. 更真实场景：如何建模组织微环境中的细胞间干扰（interference，细胞之间会通信，打破独立同分布假设）？如何处理时间序列动态数据？ 3. 实验设计（闭环）：如何将这些方法用于主动实验设计（Active Learning / Experimental Design），即选择最有信息量的下一组实验，从而减少实验成本、加速发现？

问答环节 [0:24:48 - 0:29:08] - Q (Brad Kulko): 先验是软约束（soft probabilistic bias）还是硬约束（hard bias）？ - A: 更偏向硬约束（hard bias），因为先验被直接作为向量输入编码器；不过编码器会学习到基于观测数据的变换，因此最终表示是两者结合的结果（softmax? 讲者未完全说清）。 - Q (观众): 是否可以用环境变化（distribution shifts）代替干预来应用这个方法？ - A: 是的，已经在一个任务“跨细胞系转移扰动效应”中使用。结果是否成功取决于扰动效应在两个环境下是否一致（即是否存在强烈的不对称性）。幻灯片中部分结果可能涉及这个任务。 - Q (观众): 为什么在第一个工作的实证中只用了单基因扰动训练？ - A: 因为可识别性定理假设每个干预只靶向单个潜变量节点。他们然后利用定理来预测组合（双基因）效果。报告明确表示，如果目标是提取最多信息，应该使用全部数据（包括双基因数据）。

四、对应论文与开放问题¶

对应论文¶

第一个工作（理论 + 算法 + 应用）：
- 标题：Identifiability Guarantees for Causal Disentanglement from Soft Interventions
- 作者：Jiaqi Zhang, Chandler Squires, Kristjan Greenewald, Akash Srivastava, Karthikeyan Shanmugam, Caroline Uhler.
- 发表会议：NeurIPS 2023.
- arXiv: 2307.06250 (已在你的上下文材料中给出，确认无误)。
- 报告中的时间：[0:09:00 - 0:12:00] 以及 [0:12:40 - 0:14:00] 和末尾致谢。
- 注意：转写中讲者名字被ASR误写为 "Jesse Jung"。真实身份为 Jiaqi Zhang (MIT)。
第二个工作（预测模型MORPH）：
- 标题：讲者仅说“paper is on bioRxiv”，标题未在幻灯片和转录中明确写明。根据幻灯片：“MORPH predicts the single-cell outcome of genetic perturbations across various data modalities (Under review)”。可能是 “MORPH: A Modular Framework for Predicting Responses to Perturbational Changes” 或类似。
- 作者：Jiaqi Zhang, Chujun He, Munzer Dahlel, Nir Hacohen, Caroline Uhler等。
- 状态：预印本 (bioRxiv)，正在审稿中。时间未知，需要查找。报告中时间 [0:16:00 - 0:23:00] 和末尾致谢。

开放问题（扎根于转写内容和幻灯片）¶

放松CRL的假设：
- 来源：[0:23:01-0:23:29] 和 [0:23:30-0:23:36]。“there are various assumptions as including mixing function as well as number of interventions ... is there a way to relax the assumptions there? ... we actually also did one paper where we only look at the cases where we can identify from observational data.”
- [具体开放问题]：
  - (a) 能否在放弃“每个潜变量至少有一个干预”的条件下实现可识别性？
  - (b) 能否在完全无干预（仅观测数据）但利用更强的结构假设（如非线性 ICA 的假设）下做到可识别？（他们已有后续工作）
  - (c) 目前在crl中要求混合函数是“多项式混合/线性”或满足特定分布族。能否在通用非线性混合函数下得到类似结论？
处理非独立同分布与干扰（Interference）：
- 来源：[0:23:40-0:24:10] “we’re actually treating cells as i.i.d. samples... This is not going to be effective if we actually consider a tissue environment where the cells neighboring each other and they might communicate with each other which introduce interference between them. How can we actually model this?”
- [具体开放问题]：如何在CRL或预测框架中，纳入细胞邻近的网络效应？这与空间转录组学和细胞间通讯研究直接相关，技术上可能需要处理空间相依性。
动态数据/时间序列：
- 来源：[0:24:06-0:24:12] “the system is actually dynamic and we have time series measurements, how do we model that？”
- [具体开放问题]：如何扩展CRL方法来分析时间序列的扰动数据？这涉及干预效应随时间演化的动态因果模型。
主动实验设计（Active Learning / Closed-loop Experiment）：
- 来源：[0:24:15-0:24:30] “how do this approaches ... perform in an experimental design setting where we’re doing actual experiments... hopefully I can talk about the experimental design in a future iteration”。
- [具体开放问题]：MORPH模型（或CRL框架）如何指导哪一组实验应该在下一步做，以最大化对未知扰动的预测能力？例如，在已有数千种基因扰动效果中，哪些新扰动最能提供信息？这涉及到统计-计算-成本之间的tradeoff，对你（用户）的计算约束统计学兴趣可能尤其相关。

Maintained by 陈星宇 · Homepage · Source on GitHub