Causal Inference in the Light of Drug Repurposing for SARS-CoV-2¶

讲者: Caroline Uhler
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-07-07
主题: 因果推断
视频: https://www.youtube.com/watch?v=e-xUUdTIFeU · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的目标是回应一个问题：在缺乏足够随机对照试验时，如何利用已有的观测数据和干预数据来高效地筛选、预测并解释药物（尤其是针对SARS-CoV-2）的作用。 它并没有尝试提出一个统一框架，而是把这个问题拆解成了两个独立又互补的“因果迁移”问题，并分别用两种方法论路径去处理。

第一个问题：跨干预的因果迁移。
- 追问：手头有对基因A、B、C的敲除（knockout）实验数据，能否预测对基因D（还未做过实验）进行敲除后的基因表达变化？
- 奠基与主流路线：这是一个经典的因果结构学习（causal structure discovery）与推断的结合问题。标准做法是先用观测数据（+部分干预数据）推断出基因调控网络（一个DAG），然后通过 do-calculus 从图中读出任意的干预效果。这个方向的奠基工作是 Pearl 的因果图框架 [Pearl 2009]；主流算法包括约束基（PC算法, Spirtes et al. 2000）和评分基（GES算法, Chickering 2002）。
- 当前 frontier 之一：如何高效地、在非参数假设下、并利用混合（观测+干预）数据进行一致的结构学习？以及如何通过 Batch 实验设计（选择下一个最有效的干预）来加速学习？
- 报告站在哪：报告提出的 Greedy Sparsest Permutation (GSP) 算法及其干预版本 [Solus, Wang & Uhler, 2018; Yang, Katcoff & Uhler, 2018; Hauser & Bühlmann, 2012] 正是针对这个 frontier。它另辟蹊径，把 DAG 学习问题转化为在排列空间上的贪心搜索，简化了搜索空间、允许非参数依赖、并首次证明了（在一定的假设下）对干预数据的一致学习（而当时主流的干预版 GES 被证明是不一致的——[报告人自己的结果显示]）。

第二个问题：跨环境的因果迁移。
- 追问：手头有大量药物（比如FDA批准的~800种）在一个细胞系（如肺癌细胞A549）上的治疗效果数据（基因表达谱），能否预测同一种药物在另一个细胞系（如肺上皮细胞AT2，与COVID-19更相关）上的效果？
- 奠基与主流路线：这是经典的“因果迁移性”（causal transportability）问题。Bareinboim 和 Pearl 及其合作者 (e.g., [Bareinboim & Pearl, 2012, 2013]) 给出了在图模型框架下，从源环境到目标环境进行因果效应迁移的充要条件（通常需要知道完整的因果图、知道哪些变量/机制的差异是环境间变化的）。
- 当前 frontier 之一：当因果图未知，或知识不完整时，是否还有更“黑箱”、但数据驱动的迁移方法？
- 报告站在哪：报告提出了一种完全不需要显式因果图的迁移方法：用过参数化的自编码器（overparameterized autoencoder）把药物表达谱对齐到一个通用潜空间中，并发现药物在同一潜空间中在不同细胞系下的“效果向量”是高度对齐的。这直接挑战了传统因果迁移性对图知识的依赖。报告人将此现象归因于过参数化自编码器的一种“自正则化”特性——它倾向于将输入映射到训练数据（即原有的药物响应）作为吸引子 [Radhakrishnan, Yang, Belkin & Uhler, 2019; Belyaeva et al., 2020]，从而使同一药物的不同细胞系版本在潜空间中“自动对齐”。

二、最小内核 / 一个最简例子¶

为了理解这两种迁移，我们构造两个最简场景。

场景一：跨干预迁移（GSP核心思想）¶

模型：三个基因 {X, Y, Z}。真实的因果DAG为 X → Y → Z。
可观测数据：
观测数据：(X_obs, Y_obs, Z_obs)，满足联合分布 P(X, Y, Z)。
干预数据：(do(X=x0), Y_int, Z_int)，即人为将X固定为常数 x0（硬干预）。
Estimation target：预测 do(Z)（对Z进行干预）对整个系统的影响。
GSP思路：
把学习DAG转化为学习一个变量顺序（permutation）和一个无向骨架。
对一个给定的顺序（比如 (X, Y, Z)），我们“假设”祖先关系由顺序决定（即，顺序中靠前的变量可能指向靠后的变量）。
然后构建一个“最稀疏”的图：对于每对变量 (i, j)（i在顺序中比j靠前），如果在给定所有比j更靠前的变量时，i 和 j 条件依赖，就保留一条 i → j 的边。
定理 [Solus, Wang & Uhler, 2018]：在所有排列中，能够产生最稀疏、且与所有观测和干预条件独立关系一致的幸存顺序，恰好是真实的因果顺序（的某个Markov等价类代表）。
算法在这个排列空间（一个permutahedron组成的凸多面体）上做贪心搜索，并证明不会陷入局部最小值。
跨干预迁移：一旦学习到DAG，读取 do(Z) 的效果就直接对应于图结构。

场景二：跨环境迁移（过参数化自编码器核心思想）¶

模型：一个药物 D，两种细胞系 C1 和 C2。
可观测数据：
在 C1 中：观测到给药前的基线表达谱 E_{C1}^baseline，和给D药后的表达谱 E_{C1}^{drug}。
在 C2 中：只观测到基线 E_{C2}^baseline。
Estimation target：预测 E_{C2}^{drug}（即在C2上用了D的效果）。
过参数化自编码器方案：
用一个大宽度的自编码器（输入维度d，潜层维度 k >> d）同时训练所有数据（来自两种细胞系的所有基线 + C1的给药）。
关键发现：在学好的潜空间中，定义药物D的“效果向量”为 v_C1 = encode(E_{C1}^{drug}) - encode(E_{C1}^{baseline})。
经验事实（报告所述针对多药物所做的大量实验）：v_C1 和 v_C2（如果C2有数据的话）在潜空间中几乎平行，且方向与数据维度中的结构噪声无关。
迁移：对于只有基线数据的C2，其药物D的预测表达谱为 decode( encode(E_{C2}^{baseline}) + v_C1 )。
为什么行？ 报告人使用了一个直觉：过参数化自编码器有一种“自正则化”倾向，会把映射学成在训练点处是收缩映射（contractive）；训练数据点（包括C1给药且C1基线等）成为迭代映射的不动点。这使得同一药物在不同细胞系上的效应向量在潜空间中倾向于对齐，而不是相互正交。

三、报告主体：讲者讲了什么¶

[0:00–0:04] 开场与动机
- 讲者感谢主办方，并立即点出：高通量扰动数据（CRISPR/Cas9敲除、数十万个药物筛选） 正使基因组的因果推断变得可行，且这是“新问题”的来源。幻灯片也列出了“单细胞CRISPR干预”和“小分子药物实验”两种数据源。
- 幻灯片强调：“Randomized controlled trials are often impractical… Interaction between genetics and causal inference could be particularly beneficial。”

[0:05–0:15] 两个不同的“因果迁移”问题
- 问题1（跨干预）：给定敲除实验数据，预测未做敲除的基因的敲除效果。方法路径是：先学DAG，再从图中读取干预效果。
- 问题2（跨环境/跨细胞）：给定同一药物在一个细胞系的数据，预测它在另一个细胞系的效果。方法路径是：用自编码器做潜空间风格迁移。
- 讲者特意对比：敲除是“已知目标且目标少的干预”，而药物是“目标多且未知的干预”——这意味着两者的方法论不可能相同，不能用图方法处理后者。

[0:15–0:27] 结构方程模型与可用于DAG学习的干预类
- 讲者介绍非参数结构方程模型（不假设噪声形式、不假设线性）。
- 区分硬干预（hard intervention）和软干预（soft intervention）：硬干预切断所有父边（如敲除），软干预不切断（如过表达）。
- 关键引用 [Hauser & Bühlmann, JMLR 2012] 和 [Yang, Katcoff & Uhler, ICML 2018]：硬/软干预产生的干预Markov等价类（Interventional Markov equivalence class）是一样的，因此研究软干预（更易做多个）与硬干预在辨识意义上没有损失。

[0:27–0:28] 观测DAG学习的两种经典范式：约束基 vs 评分基
- 约束基（如PC算法）：非参数、可检验直接条件独立，但错误积累且不可纠正。
- 评分基（如GES算法）：可纠正、更稳定，但搜索空间（Markov等价类的大小）极大（n=10时约有 ~10^19，此数据引自报告的幻灯片）。
- 讲者总结：需要既能非参数、又能避免巨大搜索空间的算法。PPT特别列出了GSP的算法核心 [Solus, Wang & Uhler, 2018; also Freddie Eberhardt's slide] 。

[0:28–0:37] 提出 GSP 算法（Greedy Sparsest Permutation）及其扩展

核心思路（方程/不等式级别复原）：
用π表示变量的一个排列，D(π)表示“依据顺序π、利用条件独立性”构造的DAG。
构造方式：对于π中i在j前，如果 X_i ⟂̸ X_j | { X_k : k precedes j and k ≠ i}，则在D(π)中加入X_i → X_j。
命题：对正确的排列π*， D(π*)正是真实DAG的某个Markov等价类代表性DAG。
算法：贪心搜索排序（邻居为交换顺序中相邻两个变量的顺序）。
主要定理 [Spiral, Solus, Wang & Uhler, under weak assumptions 强于faithfulness？转写中讲者说“比faithfulness更弱”]：每一步贪心选择后，每个局部最小值都是全局最小值（证明成立）。
PPT展示了通过Permutahedron上的邻接（相邻顺序交换）贪心搜索。
扩展到干预数据（iGSP）：对硬干预的干预节点，在贪心搜索中屏蔽指向该节点的边（因为硬干预切断了所有父边）。这既缩小搜索空间（计算加速），又给出更精细的干预等价类（更强的identifiability）。
扩展到潜变量（lGSP）：当存在未观测潜变量时，不能用全排序。讲者团队首次定义了从偏序集（poset）到DAG的类似映射，并证明了稀疏对应的正确性。但贪心局部最优等于全局最优的证明尚缺失（尽管已测试30000个图无反例）。
性能演示（PPT + 转写提到）：在Sachs蛋白数据 [Sachs et al., 2005] 的上使用留一ROC曲线；iGSP显著优于其他方法（特别是在核条件独立检验下胜出）；并已用到Dixit et al. (2016)的CRISPR敲除大数据上。
自研Python包（causaldag？未明确，但转写提到 causaled packages），已可在n~1000的DAG上运行并快于某些无向图算法（bib）。

[0:37–0:39] Q&A时段1：处理统计不确定性 + 实验设计开放问题
- Q1 (来自主持人?)：如何处理样本量小导致的不确定性（排序不稳定）？
- A：使用稳定性选择（bootstrap resample，仅保留重复出现多次的边）。
- Q2 (Vito Perugia?)：关于主动选择干预来最优地学习整个图（或最优地达到target状态），是否与多臂老虎机/强化学习有关？
- A：答案是“是”，强调当前文献 [一篇标注的会议论文？] 只限于硬干预且假设很多，软干预下的主动学习是“完全开放”问题。区分了两种目标：学全图 vs 驱动到目标状态，后者可能不需要全图。

[0:40–0:48] 第二部分：跨细胞系的药物表达迁移（自编码器方法）
- 讲者比较了标准因果迁移性（基于图的充要条件，如Bareinboim & Pearl的工作）与标准风格迁移（image-to-image的潜向量算术）。
- 关键直觉：如果将药物在细胞系A上的效果向量 v_A 直接加到细胞系B的基线上，是否就能得到B上药物效果？传统方法需要图，而风格迁移思想不需要。
- 数据：CMap数据集：1.2M个表达样本（1000维），覆盖“~800 FDA药物 + 许多敲除/过表达”以及约100种细胞系。
- 核心结果：过参数化自编码器（从1000维 -> >1000维潜层 -> 1000维输出）显著对齐了同一药物在两种细胞系中的效应向量（在潜空间中）。而标准（低维瓶颈）自编码器或PCA无法做到。
- 定量证据：PPT所示三张散点图——原始空间下药物跨细胞系相关低；标准自编码器略微改善；过参数自编码器下几乎全部+1/-1。
- 为什么工作（讲者的直觉/理论）：
- 过参数自编码器 + L2重建损失 + ReLU激活逐渐将输入映射到训练数据的吸引子（训练点是 iterated map 的不动点）[Radhakrishnan et al., 2019]。
- 在这种吸引子约束下，同一药物的两种细胞系效果向量会自然平行（因为它们被吸引到类似“药物工作点”）。
- 这个现象是“经验发现的”，讲者团队还没有完整的定理证明。

[0:48–0:57] COVID-19应用与结论
- 应用：
- 用已公开的Blanco-Melo COVID-19 RNA-seq 数据生成“疾病表达谱”。
- 用上述自编码器迁移对所有~800药预测在肺上皮AT2细胞的作用。
- 将预测的药物效果向量与疾病向量做点积打分（越低越好）。
- 对得分高药物，再用前述因果图方法（GSP从单细胞RNA-seq数据学得的网络）发现其靶点RIPK1可能是关键的下游调控因子，并联系到与衰老通路。
- 讲者最后回到元概念：“药物本身就是一场干预，做药物重定位必须放在因果框架中思考。”

四、对应论文与开放问题¶

(a) 对应论文（部分已标注，部分基于幻灯片/转录推测）¶

GSP 算法与理论：
Solus, Wang & Uhler, 2018, Permutation-based Causal Structure Discovery（从报告幻灯片推测，应如：Wang, Solus, Yang & Uhler, Towards a Unified Framework for Causal Structure Learning, 可能为Preprint/ICML）
Hauser & Bühlmann, Journal of Machine Learning Research, 2012（干预等价类基础）
干预GSP / iGSP：
Yang, Katcoff & Uhler, 2018, ICML（软干预等价类 + 干预GSP算法）
潜变量GSP / lGSP：讲者明确说“最近才做”，ArXiv号未知。
过参数自编码器理论：
Radhakrishnan, Yang, Belkin & Uhler, 2019, On Self-Regularization of Overparameterized Autoencoders, arXiv:1909.12362。
药物重定位应用：
Belyaeva, Cammarata, Radhakrishnan, Squires, Yang, Shivashankar & Uhler, 2020, Causal Analysis of Drug Repurposing for SARS-CoV-2, arXiv:2006.03735。

(b) 开放问题（基于内容 + 标注的讲者语言）¶

潜变量GSP的全局最优性证明：
讲者在 [0:31–0:32] 明确：“我们还没证明（偏序集贪心）不会陷入局部最优点”，尽管在30000张图上无反例。
挑战：Wagner-type的保形性分析是否适用于偏序空间？或需要新的拓扑/遍历性技巧？
主动实验设计（Batch active learning of causal graphs）：
[0:36] “整个领域仍然非常开放——只一篇论文，假设强，还未涉及软干预”。
具体：给定多轮预算（如20个批次的CRISPR敲除），选择哪些干预能最大化图恢复准确率；需要与先验信息、成本、时间线整合。
自编码器对齐现象的理论解释：
[0:49–0:52] “这是经验发现，我们还缺少理论（prove）”。
具体：过参数化自编码器 + 训练后为什么会使跨细胞系的药物向量平行？能否与幼稚互信息最大化（infomax principle）或所谓的“隐式拉普拉斯正则化”相关？
将迁移性方法扩展至“预测未知干预”：
第一部分预测已知细胞中未知干预（图方法 / 需要图），第二部分预测同一干预对未知细胞的效果（无图 / 需自编码器）。是否有统一的双向整合框架（即从跨细胞药物响应中同时进行图学习和跨环境迁移）？

Maintained by 陈星宇 · Homepage · Source on GitHub