Cyclic graphical models and causal learning¶

讲者: Niels Richard Hansen
讨论人: Patrick Forré
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-04-11
主题: 因果推断
视频: https://youtu.be/BgEE1_7Id1U · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

全局定位：处理「循环因果图」的统计与因果推断问题，并将其与动态系统（连续时间随机过程）联系起来。

这个方向在追问什么：传统的因果图（DAG）假设变量之间是单向、无环的因果流。但很多真实系统（如蛋白质调控网络、神经元发放）存在自激/互激的反馈回路（cycles）。核心问题在于：
- 因果结构表示：如何用图模型刻画这些循环？当图中有环时，d-分离还是正确的条件独立性判据吗？（已知对非线性SEM不行。）
- 模型的动态根基：循环的因果方程从何而来？它们仅仅是代数方程，还是动力系统（微分方程）的稳态？
- 可学习性：基于这些模型，我们能从观测数据中学到什么？能否用于因果发现？
奠基与主流路线：
- 经典奠基（90s）：Spirtes、Richardson和Koster的开创性工作表明，对于高斯线性循环SEM，d-分离仍然给出了全局马尔可夫性质；也刻画了循环图的马尔可夫等价类。但关键局限是：「对非线性SEM，d-分离不再足以判定条件独立性」。
- 近期突破（2021）：Bongers, Forré, Peters & Mooij 的《Foundations of structural causal models with cycles and latent variables》(Annals of Statistics) 是个里程碑。它系统建立了循环SCM的数学基础，提出了σ-分离（sigma-separation）作为d-分离在循环情境下的替代方案，并解决了唯一的可解性问题（original model和干预后）。
- 并行线1：图Lyapunov模型（此报告没有着重讲，但背景介绍中提到）：如果数据来自动力系统的平稳断面分布，那么即便局部依赖图（local independence graph）很稀疏，这个断面分布的协方差也不对应任何条件独立性（除非系数阵对称），而是服从Lyapunov方程给出的代数约束。Hansen与Drton等人围绕此发展了“图连续Lyapunov模型”的一系列UAI/arXiv工作。
- 并行线2：基于计数过程的动态模型：此报告的主体。它不做稳态假设，而是把观测视为连续时间计数过程，其动态由强度（intensity）刻画，强度由图决定。这种方法天然地允许循环（反馈），并且能定义非对称的条件独立性概念。
这场报告站在哪里：
- 报告站在并行线2上。它把因果图与连续时间随机微分方程（SDE）或霍克斯过程（Hawkes process）这类动态模型挂钩，而不是经典的代数SEM。
- 报告的核心贡献是给出了一个完整的套路谱：(a) 动态模型→(b) 局部独立图（定义）→(c) μ-分离（mu-separation，一个非对称的图示条件独立性判据，与σ-分离类似但用于动态模型）→(d) 全局马尔可夫性质 →(e) 隐变量投影 →(f) 马尔可夫等价类（通过“最大有向混合图DMG”刻画）→(g) 条件局部独立性检验（非参数，根n收敛）。这本质上是一套为动态系统量身定制的“因果发现工具箱”。

二、最小内核 / 一个最简例子¶

核心模型：一个有两个神经元的点过程系统。

符号与模型：
- 可观测数据：在时间窗口[0, T]内观测到两个计数过程 N₁(t) 和 N₂(t)。Nᵢ(t) 表示神经元 i 在时刻 t 之前总共发放了多少次脉冲（spike）。每次发放对应一个离散事件。幻灯片3展示了这种数据（6个神经元，5个重复）。
- 潜在过程 / 参数：
  - 强度过程 (Intensity) λᵢ(t)：它是给定t之前所有历史（包括两个神经元的全部历史，用自然滤波 Fₜ⁻ 表示）后，在无穷小时间间隔 [t, t+dt) 内发生一个事件的条件概率密度。即 E[dNᵢ(t) | Fₜ⁻] = λᵢ(t) dt。
  - 局部独立图 (Local Independence Graph)：这是一个有向图（可以含自环和cycle），节点是神经元。如果 λᵢ(t) 的表达式显式地依赖于神经元j的历史（Nⱼ在t之前的所有取值），则在图中画一条边 j → i。
  - 霍克斯过程 (Hawkes Process)：一个常用的参数化模型，λᵢ(t) = μᵢ + Σⱼ ∫₀^∞ κᵢⱼ(s) dNⱼ(t-s)。κᵢⱼ(s) 是一个核函数（比如指数衰减），刻画了神经元j的一次历史发放如何影响神经元i当前的发放率。如果 κᵢⱼ 非零，则图中存在边 j → i。
最简特例（d=2 神经元）：
- 假设只有神经元1和2。神经元1当其历史有事件发生时，会完全阻断对神经元2的影响（比如抑制）。我们想检验“神经元1是神经元2的格兰杰原因（Granger causal）吗？”即，λ₂(t) 是否依赖于 N₁ 的历史？
- 核心思想（以一个非常简单的例子阐明）：
  - 假设霍克斯核都是二值的：一次发放的影响是瞬间的。
  - 考虑一个极小的、时间离散化的近似：观察一个极短的时间窗 [t, t+Δ)。
  - 如果真实图是 1 → 2 且 2 → 2（自激）：那么 λ₂(t) 依赖于 N₁(t⁻) 和 N₂(t⁻)。
  - 条件局部独立性： 问题是：λ₂(t) 的预测，在仅仅知道 N₂ 的历史（C={2}）与同时知道 N₁和 N₂ 的历史（A={1}, C={2}）相比，是否一样？
  - μ-分离的作用：这相当于在局部独立图上检查集合 B={2} 是否 μ-分离了 A={1} 给定 C={2}。在图中，从节点1到节点2有一条直接边（1→2）。要阻断这条路，我们需要知道节点2的整个历史（C={2}）。但一个关键点：路径必须以“箭头→（头）”结束才能是传递信息的；如果路径以“尾巴→”结束，则被阻断。这个微妙的区别使得μ-分离成为非对称的（1 ⊥ₘ 2 | {2} 为假，但 2 ⊥ₘ 1 | {1} 可能为真）。
  - 总结：在这个例子中，如果「1→2」的边存在，那么 1 ⊥ₘ 2 | {2} 的声明就不会被μ-分离所证实（路径被 1→2 打开了，并以箭头结束）。这就提供了一个基于图论的精确条件独立性检验，即所谓的格兰杰非因果性（Granger non-causality）的连续时间版本。
可估量：我们的推断目标是局部独立图本身（或其马尔可夫等价类）。报告中的两个方法都试图估计它：参数化的霍克斯模型（检验核函数是否非零）或非参数的本地协方差量（检验一个特定的积分是否为零）。

三、报告主体：讲者讲了什么¶

[0:00] - [0:40] 引论与动机 * [0:01:11] - [0:03:40] 两个动机： * 分子网络 (Hill et al. 2016, Nature Methods)：一个大的实验，有循环网络，直觉上需要数学模型。 * 神经元发放数据：展示了神经脉冲的时间序列，循环是固有的。 * [0:03:40] - [0:08:10] 数学形式化与挑战： * 回顾了经典的 λ(X, E) = 0 形式，以及线性SEM X = (I+B)X + E。 * 历史结果：Spirtes等人用d-分离处理高斯循环线性SEM，但不适用于非线性。 * 近期里程碑：Bongers, Forré, Peters, Mooij (2021, AoAS) 提出了σ-分离，并解决了循环模型中的唯一可解性问题。 * [0:08:10] - [0:11:00] 动态根基： * 将λ(X,E)=0解释为随机微分方程 dXᵢ/ dt = λᵢ(X, E) (幻灯片5)的稳态，作为循环SEM的合理性论证。 * 然后引入了动态模型（SDE），即 dXᵢ = λᵢ(X) dt + dMᵢ，其中M是一个鞅（如布朗运动）。这个模型保留了时间信息，并在局部独立图中自然产生边。

关键转折点（最重要）： * [0:11:00] - [0:12:05]：明确区分了两种不同的因果模型： 1. 均衡结构方程模型 (Equilibrium SEM)（例如Bongers等人的工作）：产生条件独立性，用σ-分离。 2. 动态结构方程模型 (Dynamic SEM)（本报告聚焦）：隐含着没有简单的条件独立性（除非秩特别）（见[0:12:05] - [0:12:12]）。报告的其余部分只讨论动态路。

动态模型的核心理论与分离 (μ-分离)： * [0:12:15] - [0:14:10] 模型：介绍计数过程 Nᵢ(t) 及其强度 λᵢ(t)。其依赖性决定了局部独立图。 * [0:15:10] - [0:18:30] 概率独立性概念： * 条件局部独立性 (CLI)：B 在给定 C 下条件局部独立于 A。其定义基于将强度投影到不同过滤上的比较（λᵢ^{A∪C}(t) vs λᵢ^{C}(t)）。 * 非对称性：CLI是不对称的，这与标准条件独立性不同。 * 注释与澄清（重要）：到[0:18:30]，Hansen回答了关于“因果图”与“强度干预”的听众问题，强调此部分仅涉及概率模型，而非因果干预。这在[0:19:15] - [0:21:00]的Q&A中得到呼应。 * [0:21:00] - [0:33:25] μ-分离理论： * 定义了μ-分离(mu-separation)，一种针对有向（循环/混合）图的分离准则，用于从图的拓扑读出CLI。它类似于d-分离，但有一个关键规则变化：路径必须以箭头（→, hit）结束，而不能以尾巴（-, tail）结束。这导致了非对称性。 * 用例子说明了这一点，并展示了自环（self-loop）如何打破对称性。 * 声明：μ-分离完全刻画了有向混合图（DMG）（包含有向边←→（作为隐变量投影的结果））的马尔可夫等价类。 * [0:25:00] - [0:28:00] 主要结果（定理）： * 对于计数过程和扩散过程，全局马尔可夫性质成立：图的μ-分离 ⇒ 概率的CLI。 * 隐变量投影：μ-分离在隐变量投影下被保留。 * 等价类表征：存在一个「最大有向混合等价图（DMEG）」来表示等价类，并解释了如何获取“确定性边”和“不稳定性边”（虚线边）。

实际的学习与检验方法： * [0:28:00] - [0:41:30] 因果学习的Oracle算法： * 展示了如何从所有CLI查询中重建最大DMG（假设忠实的概率分布）。 * 介绍了一种类似FCI（Fast Causal Inference）的或acle算法。注意：这是一个理论算法，需要能完美回答CLI的Oracle。 * [0:41:30] - 结束：CLI的实践检验： * 参数法：使用霍克斯过程模型。在[0:43:45] - [0:44:00]，他解释了其局限性（不闭合于边际化下），但通过Volterra级数展开进行纠偏（包括高阶交互项以近似真实强度）。 * [0:44:00] - [0:47:30] 非参数法 (Local Covariance Measure - LCM)： * 核心构思：定义一个功能性参数 γ(t, C)，它量化了强度依赖于 A 的程度。在零假设（A ⊥ₘ B | C）下，该量为零。 * 他们提出的局部协方差量是 E[ (λᵢ^{A∪C}(t) - λᵢ^{C}(t) ) dNₜ ] 的积分。如果推断正确，它就是一个角谷量（以√n速度收敛）。 * 重要链接至用户兴趣：Hansen指出，可以通过对条件强度（λᵢ^{A∪C}(t)、λᵢ^{C}(t) 等）进行（灵活的机器学习）建模，构造出一个根号n一致、渐近正态的估计量，进而得到一个渐近有效的条件独立性检验。这直接应用了半参数导向的、去偏的机器学习（DML）思想（[0:47:00] - [0:48:16]）。 * [0:41:08] - [0:48:30] 应用：将CLI检验（基于霍克斯）应用于神经元数据，展示了使用二阶沃尔泰拉展开能有效减少虚假边。这指明参数模型误设会导致密图，而更灵活（或更完整）的模型会得到更稀疏的图。

[0:49:20] - [0:50:30] 讨论，Patrick Forré * 双方确认了该理论的适用范围（SDEs 和计数过程），以及向更一般随机过程推广的困难。 * Forré 问到：这个框架如何处理干预（intervention）。Hansen 提到了Didelez的近期工作[arXiv, 多时]，表明可以通过解释SDE为结构方程并用改变某个方程的方式建模干预。

四、对应论文与开放问题¶

(a) 对应论文（标注不确定性） 这场报告在OCIS举办，讲者直接引用了以下关键论文（可查）：

Hansen的该动态图论核心工作：
- 主要理论结果（μ-分离，DMEG，隐变量投影）：很可能出自他的两篇论文：Didelez, V. (2008). Graphical models for dependent data... (J. R. Statist. Soc. B) 和 Hansen, N.R., & Sokol, P. (2015/2018?) (UAI 2018 or 类似)。报告中提到这些显著结果（全局马尔可夫、隐变量投影、等价类）是“我们的”（Hansen的合作者）。与用户：这在用户眼中是一套完整、自洽的因果发现理论体系。
条件局部独立性检验：
- 参数 / Volterra 法：Hansen, N.R., Reynaud-Bouret, P., & Rivoirard, V. (2022?) (“Local independence testing for point processes”, 可能是40分钟时的参考文献，未公开，但在Youtube视频描述中可见)。
- 非参 / 本地协方差量法：Hansen, N.R., Mikkelsen, F.S., & Reenberg, A. (2023) (arXiv, 可能“close to finished” - 报告结束)。与用户：这是DML思想在CLI检验中的应用，极具吸引力。
循环SCM的独特基础：Bongers, Forré, Peters & Mooij (2021). Foundations of structural causal models with cycles and latent variables. Annals of Statistics.
图Lyapunov模型（背景）：Varando & Hansen (UAI 2020). Graphical continuous Lyapunov models. 注意：用户不应将此作品与动态CLI工作线混淆。

(b) 开放问题（★——扎根于转写）

1. 因果关系与动态干预的正式衔接（Patric Forré 在 [0:49:20] - [0:50:00] 提出）：He said : “How do you deal / can you model interventions like soft intervention or hard intervention ... causal semantics?”
- 扎根：在讨论中回答如何对SDE进行干预时，Hansen提到尚未完全在框架中处理这个“如何做因果推断”的最终步骤（他引用了Didelez的一篇新预印本 [arXiv]）。这是一个核心开放问题：逻辑线路是动态图（CLI）→ 因果干预，这对因果学习者是一大步。但将干预形式化并弄清其与CLI的关系，仍是最开放的挑战。
2. 非马尔可夫/更一般的噪声 (观众提问 [0:19:20])：Audience: “Can random noise be of any type, say Lévy or any other stochastic motion?”
- 扎根：Hansen的回答是：“它必须是一个鞅”。开放：对于广泛用于金融、物理的Lévy过程（非鞅随机性的大类），这个框架是否崩溃？他能处理吗？至少在纯CLI/SDE理论中是无所作为的。这使得该框架在更一般的随机积分上变得不完整。
3. 对时间非均匀性（没有平稳强度）的鲁棒性 (Patric Forré在[0:52:30])：He asks : “How restrictive is this assumption of time-homogeneous intensities?”
- 扎根：关于CLI定义，它依赖于一个时间齐次的真实强度。Hansen承认这是一个合理的弱点，但表示不清楚如何处理非平稳的、随时间变化的图结构。开放：是否可以发展一个局部时变的CLI检验或图推断，以适应像神经元状态随时间变化这样的任务？这是统计学+动态系统领域的一个巨大开放问题。
4. 非参数测试的严格大样本理论 (报告后半部分 [0:47:00])He says : “We can do this root-n rate ML estimator and we can get uniform level and power results for a test based on this estimator of the local covariance measure.”
- 扎实：Hansen承诺了基于根号n收敛的局部协方差量的非参数CLI检验是有效的。但“均匀（uniform）结果”需要仔细验证。开放：非参数类型测试的粗略确界（minimax rate）是什么？当强度是连续的（而非点过程）时，这个理论是否会失效/如何调整？这是个有挑战的高维/半参数问题。
5. 超越点过程的Non-Markovian（非马氏）系统的推广 (Hansen 回答 [0:51:30]的Q&A)：
- 扎根：提问关于将此框架扩展到“更一般的过程”（不仅仅是SDE）。Hansen的回答是，全局马尔可夫性质的关键在于鞅需要具有正交的坐标（对于点过程，这等价于“无同步事件”）。开放：能否证明对于极其一般的非正交鞅过程，μ-分离何时失效？这是理论统计的一个非常深的开放问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

Cyclic graphical models and causal learning¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论