跳转至

Cyclic graphical models and causal learning

讲者: Niels Richard Hansen
讨论人: Patrick Forré
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-04-11
主题: 因果推断
视频: https://youtu.be/BgEE1_7Id1U · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

全局定位:处理「循环因果图」的统计与因果推断问题,并将其与动态系统(连续时间随机过程)联系起来。

  1. 这个方向在追问什么:传统的因果图(DAG)假设变量之间是单向、无环的因果流。但很多真实系统(如蛋白质调控网络、神经元发放)存在自激/互激的反馈回路(cycles)。核心问题在于:

    • 因果结构表示:如何用图模型刻画这些循环?当图中有环时,d-分离还是正确的条件独立性判据吗?(已知对非线性SEM不行。)
    • 模型的动态根基:循环的因果方程从何而来?它们仅仅是代数方程,还是动力系统(微分方程)的稳态?
    • 可学习性:基于这些模型,我们能从观测数据中学到什么?能否用于因果发现?
  2. 奠基与主流路线

    • 经典奠基(90s):Spirtes、Richardson和Koster的开创性工作表明,对于高斯线性循环SEM,d-分离仍然给出了全局马尔可夫性质;也刻画了循环图的马尔可夫等价类。但关键局限是:「对非线性SEM,d-分离不再足以判定条件独立性」。
    • 近期突破(2021):Bongers, Forré, Peters & Mooij 的《Foundations of structural causal models with cycles and latent variables》(Annals of Statistics) 是个里程碑。它系统建立了循环SCM的数学基础,提出了σ-分离(sigma-separation)作为d-分离在循环情境下的替代方案,并解决了唯一的可解性问题(original model和干预后)。
    • 并行线1:图Lyapunov模型(此报告没有着重讲,但背景介绍中提到):如果数据来自动力系统的平稳断面分布,那么即便局部依赖图(local independence graph)很稀疏,这个断面分布的协方差也对应任何条件独立性(除非系数阵对称),而是服从Lyapunov方程给出的代数约束。Hansen与Drton等人围绕此发展了“图连续Lyapunov模型”的一系列UAI/arXiv工作。
    • 并行线2:基于计数过程的动态模型:此报告的主体。它不做稳态假设,而是把观测视为连续时间计数过程,其动态由强度(intensity)刻画,强度由图决定。这种方法天然地允许循环(反馈),并且能定义非对称的条件独立性概念。
  3. 这场报告站在哪里

    • 报告站在并行线2上。它把因果图与连续时间随机微分方程(SDE)霍克斯过程(Hawkes process)这类动态模型挂钩,而不是经典的代数SEM。
    • 报告的核心贡献是给出了一个完整的套路谱:(a) 动态模型→(b) 局部独立图(定义)→(c) μ-分离(mu-separation,一个非对称的图示条件独立性判据,与σ-分离类似但用于动态模型)→(d) 全局马尔可夫性质 →(e) 隐变量投影 →(f) 马尔可夫等价类(通过“最大有向混合图DMG”刻画)→(g) 条件局部独立性检验(非参数,根n收敛)。这本质上是一套为动态系统量身定制的“因果发现工具箱”。

二、最小内核 / 一个最简例子

核心模型:一个有两个神经元的点过程系统。

  1. 符号与模型

    • 可观测数据:在时间窗口[0, T]内观测到两个计数过程 N₁(t)N₂(t)Nᵢ(t) 表示神经元 i 在时刻 t 之前总共发放了多少次脉冲(spike)。每次发放对应一个离散事件。幻灯片3展示了这种数据(6个神经元,5个重复)。
    • 潜在过程 / 参数
      • 强度过程 (Intensity) λᵢ(t):它是给定t之前所有历史(包括两个神经元的全部历史,用自然滤波 Fₜ⁻ 表示)后,在无穷小时间间隔 [t, t+dt) 内发生一个事件的条件概率密度。即 E[dNᵢ(t) | Fₜ⁻] = λᵢ(t) dt
      • 局部独立图 (Local Independence Graph):这是一个有向图(可以含自环和cycle),节点是神经元。如果 λᵢ(t) 的表达式显式地依赖于神经元j的历史Nⱼt之前的所有取值),则在图中画一条边 j → i
      • 霍克斯过程 (Hawkes Process):一个常用的参数化模型,λᵢ(t) = μᵢ + Σⱼ ∫₀^∞ κᵢⱼ(s) dNⱼ(t-s)κᵢⱼ(s) 是一个核函数(比如指数衰减),刻画了神经元j的一次历史发放如何影响神经元i当前的发放率。如果 κᵢⱼ 非零,则图中存在边 j → i
  2. 最简特例(d=2 神经元)

    • 假设只有神经元1和2。神经元1当其历史有事件发生时,会完全阻断对神经元2的影响(比如抑制)。我们想检验“神经元1是神经元2的格兰杰原因(Granger causal)吗?”即,λ₂(t) 是否依赖于 N₁ 的历史?
    • 核心思想(以一个非常简单的例子阐明)
      • 假设霍克斯核都是二值的:一次发放的影响是瞬间的。
      • 考虑一个极小的、时间离散化的近似:观察一个极短的时间窗 [t, t+Δ)
      • 如果真实图是 1 → 22 → 2(自激):那么 λ₂(t) 依赖于 N₁(t⁻)N₂(t⁻)
      • 条件局部独立性: 问题是:λ₂(t) 的预测,在仅仅知道 N₂ 的历史(C={2})与同时知道 N₁N₂ 的历史(A={1}, C={2})相比,是否一样?
      • μ-分离的作用:这相当于在局部独立图上检查集合 B={2} 是否 μ-分离了 A={1} 给定 C={2}。在图中,从节点1到节点2有一条直接边(1→2)。要阻断这条路,我们需要知道节点2的整个历史(C={2})。但一个关键点:路径必须以“箭头→(头)”结束才能是传递信息的;如果路径以“尾巴→”结束,则被阻断。这个微妙的区别使得μ-分离成为非对称的(1 ⊥ₘ 2 | {2} 为假,但 2 ⊥ₘ 1 | {1} 可能为真)。
      • 总结:在这个例子中,如果「1→2」的边存在,那么 1 ⊥ₘ 2 | {2} 的声明就不会被μ-分离所证实(路径被 1→2 打开了,并以箭头结束)。这就提供了一个基于图论的精确条件独立性检验,即所谓的格兰杰非因果性(Granger non-causality)的连续时间版本。
  3. 可估量:我们的推断目标局部独立图本身(或其马尔可夫等价类)。报告中的两个方法都试图估计它:参数化的霍克斯模型(检验核函数是否非零)或非参数的本地协方差量(检验一个特定的积分是否为零)。

三、报告主体:讲者讲了什么

[0:00] - [0:40] 引论与动机 * [0:01:11] - [0:03:40] 两个动机: * 分子网络 (Hill et al. 2016, Nature Methods):一个大的实验,有循环网络,直觉上需要数学模型。 * 神经元发放数据:展示了神经脉冲的时间序列,循环是固有的。 * [0:03:40] - [0:08:10] 数学形式化与挑战: * 回顾了经典的 λ(X, E) = 0 形式,以及线性SEM X = (I+B)X + E。 * 历史结果:Spirtes等人用d-分离处理高斯循环线性SEM,但不适用于非线性。 * 近期里程碑:Bongers, Forré, Peters, Mooij (2021, AoAS) 提出了σ-分离,并解决了循环模型中的唯一可解性问题。 * [0:08:10] - [0:11:00] 动态根基: * 将λ(X,E)=0解释为随机微分方程 dXᵢ/ dt = λᵢ(X, E) (幻灯片5)的稳态,作为循环SEM的合理性论证。 * 然后引入了动态模型(SDE),即 dXᵢ = λᵢ(X) dt + dMᵢ,其中M是一个鞅(如布朗运动)。这个模型保留了时间信息,并在局部独立图中自然产生边。

关键转折点(最重要): * [0:11:00] - [0:12:05]明确区分了两种不同的因果模型: 1. 均衡结构方程模型 (Equilibrium SEM)(例如Bongers等人的工作):产生条件独立性,用σ-分离。 2. 动态结构方程模型 (Dynamic SEM)(本报告聚焦):隐含着没有简单的条件独立性(除非秩特别)(见[0:12:05] - [0:12:12])。报告的其余部分只讨论动态路。

动态模型的核心理论与分离 (μ-分离): * [0:12:15] - [0:14:10] 模型:介绍计数过程 Nᵢ(t) 及其强度 λᵢ(t)。其依赖性决定了局部独立图。 * [0:15:10] - [0:18:30] 概率独立性概念: * 条件局部独立性 (CLI):B 在给定 C 下条件局部独立于 A。其定义基于将强度投影到不同过滤上的比较(λᵢ^{A∪C}(t) vs λᵢ^{C}(t))。 * 非对称性:CLI是不对称的,这与标准条件独立性不同。 * 注释与澄清(重要):到[0:18:30],Hansen回答了关于“因果图”与“强度干预”的听众问题,强调此部分仅涉及概率模型,而非因果干预。这在[0:19:15] - [0:21:00]的Q&A中得到呼应。 * [0:21:00] - [0:33:25] μ-分离理论: * 定义了μ-分离(mu-separation),一种针对有向(循环/混合)图的分离准则,用于从图的拓扑读出CLI。它类似于d-分离,但有一个关键规则变化:路径必须以箭头(→, hit)结束,而不能以尾巴(-, tail)结束。这导致了非对称性。 * 用例子说明了这一点,并展示了自环(self-loop)如何打破对称性。 * 声明:μ-分离完全刻画了有向混合图(DMG)(包含有向边←→(作为隐变量投影的结果))的马尔可夫等价类。 * [0:25:00] - [0:28:00] 主要结果(定理): * 对于计数过程扩散过程全局马尔可夫性质成立:图的μ-分离 ⇒ 概率的CLI。 * 隐变量投影:μ-分离在隐变量投影下被保留。 * 等价类表征:存在一个「最大有向混合等价图(DMEG)」来表示等价类,并解释了如何获取“确定性边”和“不稳定性边”(虚线边)。

实际的学习与检验方法: * [0:28:00] - [0:41:30] 因果学习的Oracle算法: * 展示了如何从所有CLI查询中重建最大DMG(假设忠实的概率分布)。 * 介绍了一种类似FCI(Fast Causal Inference)的或acle算法。注意:这是一个理论算法,需要能完美回答CLI的Oracle。 * [0:41:30] - 结束:CLI的实践检验: * 参数法:使用霍克斯过程模型。在[0:43:45] - [0:44:00],他解释了其局限性(不闭合于边际化下),但通过Volterra级数展开进行纠偏(包括高阶交互项以近似真实强度)。 * [0:44:00] - [0:47:30] 非参数法 (Local Covariance Measure - LCM): * 核心构思:定义一个功能性参数 γ(t, C),它量化了强度依赖于 A 的程度。在零假设(A ⊥ₘ B | C)下,该量为零。 * 他们提出的局部协方差量E[ (λᵢ^{A∪C}(t) - λᵢ^{C}(t) ) dNₜ ] 的积分。如果推断正确,它就是一个角谷量(以√n速度收敛)。 * 重要链接至用户兴趣:Hansen指出,可以通过对条件强度(λᵢ^{A∪C}(t)λᵢ^{C}(t) 等)进行(灵活的机器学习)建模,构造出一个根号n一致、渐近正态的估计量,进而得到一个渐近有效的条件独立性检验。这直接应用了半参数导向的、去偏的机器学习(DML)思想([0:47:00] - [0:48:16])。 * [0:41:08] - [0:48:30] 应用:将CLI检验(基于霍克斯)应用于神经元数据,展示了使用二阶沃尔泰拉展开能有效减少虚假边。这指明参数模型误设会导致密图,而更灵活(或更完整)的模型会得到更稀疏的图。

[0:49:20] - [0:50:30] 讨论,Patrick Forré * 双方确认了该理论的适用范围(SDEs 和 计数过程),以及向更一般随机过程推广的困难。 * Forré 问到:这个框架如何处理干预(intervention)。Hansen 提到了Didelez的近期工作[arXiv, 多时],表明可以通过解释SDE为结构方程并用改变某个方程的方式建模干预。

四、对应论文与开放问题

(a) 对应论文(标注不确定性) 这场报告在OCIS举办,讲者直接引用了以下关键论文(可查):

  1. Hansen的该动态图论核心工作
    • 主要理论结果(μ-分离,DMEG,隐变量投影):很可能出自他的两篇论文:Didelez, V. (2008). Graphical models for dependent data... (J. R. Statist. Soc. B) 和 Hansen, N.R., & Sokol, P. (2015/2018?) (UAI 2018 or 类似)。报告中提到这些显著结果(全局马尔可夫、隐变量投影、等价类)是“我们的”(Hansen的合作者)。与用户:这在用户眼中是一套完整、自洽的因果发现理论体系
  2. 条件局部独立性检验
    • 参数 / Volterra 法Hansen, N.R., Reynaud-Bouret, P., & Rivoirard, V. (2022?) (“Local independence testing for point processes”, 可能是40分钟时的参考文献,未公开,但在Youtube视频描述中可见)。
    • 非参 / 本地协方差量法Hansen, N.R., Mikkelsen, F.S., & Reenberg, A. (2023) (arXiv, 可能“close to finished” - 报告结束)。与用户:这是DML思想在CLI检验中的应用,极具吸引力。
  3. 循环SCM的独特基础Bongers, Forré, Peters & Mooij (2021). Foundations of structural causal models with cycles and latent variables. Annals of Statistics.
  4. 图Lyapunov模型(背景):Varando & Hansen (UAI 2020). Graphical continuous Lyapunov models. 注意:用户不应将此作品与动态CLI工作线混淆。

(b) 开放问题(★——扎根于转写)

  • 1. 因果关系与动态干预的正式衔接(Patric Forré 在 [0:49:20] - [0:50:00] 提出):He said : “How do you deal / can you model interventions like soft intervention or hard intervention ... causal semantics?”
    • 扎根:在讨论中回答如何对SDE进行干预时,Hansen提到尚未完全在框架中处理这个“如何做因果推断”的最终步骤(他引用了Didelez的一篇新预印本 [arXiv])。这是一个核心开放问题:逻辑线路是 动态图(CLI)→ 因果干预,这对因果学习者是一大步。但将干预形式化并弄清其与CLI的关系,仍是最开放的挑战。
  • 2. 非马尔可夫/更一般的噪声 (观众提问 [0:19:20]):Audience: “Can random noise be of any type, say Lévy or any other stochastic motion?”
    • 扎根:Hansen的回答是:“它必须是一个鞅”。开放:对于广泛用于金融、物理的Lévy过程(非鞅随机性的大类),这个框架是否崩溃?他能处理吗?至少在纯CLI/SDE理论中是无所作为的。这使得该框架在更一般的随机积分上变得不完整。
  • 3. 对时间非均匀性(没有平稳强度)的鲁棒性 (Patric Forré在[0:52:30]):He asks : “How restrictive is this assumption of time-homogeneous intensities?”
    • 扎根:关于CLI定义,它依赖于一个时间齐次的真实强度。Hansen承认这是一个合理的弱点,但表示不清楚如何处理非平稳的、随时间变化的图结构开放:是否可以发展一个局部时变的CLI检验或图推断,以适应像神经元状态随时间变化这样的任务?这是统计学+动态系统领域的一个巨大开放问题。
  • 4. 非参数测试的严格大样本理论 (报告后半部分 [0:47:00])He says : “We can do this root-n rate ML estimator and we can get uniform level and power results for a test based on this estimator of the local covariance measure.”
    • 扎实:Hansen承诺了基于根号n收敛的局部协方差量的非参数CLI检验是有效的。但“均匀(uniform)结果”需要仔细验证。开放:非参数类型测试的粗略确界(minimax rate)是什么?当强度是连续的(而非点过程)时,这个理论是否会失效/如何调整?这是个有挑战的高维/半参数问题。
  • 5. 超越点过程的Non-Markovian(非马氏)系统的推广 (Hansen 回答 [0:51:30]的Q&A):
    • 扎根:提问关于将此框架扩展到“更一般的过程”(不仅仅是SDE)。Hansen的回答是,全局马尔可夫性质的关键在于鞅需要具有正交的坐标(对于点过程,这等价于“无同步事件”)。开放:能否证明对于极其一般的非正交鞅过程,μ-分离何时失效?这是理论统计的一个非常深的开放问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论