Causal inference on process graphs: Causal structure and effect identification¶
作者: Nicolas-Domenic Reiter, Jonas Wahl, Andreas Gerhardus, Jakob Runge
来源: Bernoulli
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本子方向的核心问题是:在时间序列依赖下,如何从观测数据中识别并估计变量间的因果关系?具体而言,当数据来自一个结构向量自回归(SVAR)过程(即线性、平稳、离散时间的因果时间序列模型)时,能否从频域表示——谱密度矩阵——中恢复因果结构(图)和量化因果效应,尤其是当存在未观测的潜在混淆变量时。当前成熟度:这是一个交叉领域,融合了结构方程模型(SEM)的图识别理论、时间序列的频域分析和代数统计方法,但已有工作大多在时域处理时间序列图(节点多、复杂度高),频域路径相对新且不成熟。
发展脉络(history)¶
- 奠基工作:图模型因果识别的基础框架(~1990s-2000s)。
因果推断的图模型基础由Judea Pearl等人建立,其中d-分离刻画了贝叶斯网络中条件独立性的图论对应。对于线性高斯SEM,Wright的路径规则(path-rule)给出了协方差对参数的显式参数化。Trek分离(Sullivant et al., 2008, [3])进一步推广了d-分离,刻画了混合图(含双向边表示潜在混淆)中协方差矩阵子矩阵的秩条件。这是代数因果推断的支柱。Drton等(2010, [16])和Foygel等(2011, [17])系统研究了线性SEM的全局/通用可识别性,其中half-trek准则(HTC)给出了判定边系数可识别性的充分性条件。这些工作奠定了“从协方差矩阵代数性质反推因果关系”的路线。
- 主要进展:时间序列因果图与条件独立性方法(~2010s-2020s)。
时间序列的因果推断大量采用“时间序列图”(time series graph),其中每个时间点每个变量的值都以一个节点表示,边表示滞后或同期依赖。Runge等(2017, [8];2019, [2]; 2020, [11])发展了基于条件独立性的因果发现算法(PCMCI, PCMCI+),并在地球系统科学中广泛验证。Gerhardus & Runge(2020, [14])将其扩展到存在潜在混淆的场景。Eichler & Didelez(2009, [15])将图干预理论与Granger因果结合。但这些方法都在时域操作、节点数随时间窗增加而爆炸,且平滑地依赖强faithfulness假设。
- 当前Frontier:频域路径与代数方法(~2022-)。
本文作者系列工作(Reiter et al., 2023, Part I, [6])提出“过程图”(process graph)——将每个整条时间序列过程压缩成一个节点,边表示在同一或不同时间点的依赖关系,从而获得有限图。这利用了SVAR的频域等价表述。本文(当前论文)在此之上,证明过程图的d-和t-分离信息可被谱密度矩阵上的代数约束(低秩/零子行列式)完整表征,并借鉴Barber等(2022, [5])的半跋涉(half-trek)准则的“潜在因子”推广版本(LF-HTC)到频域,判断受潜在混淆的频域因果效应是否可通过谱密度的有理运算识别。
- 本文的位置:本文是将经典SEM的代数识别理论(trek分离、half-trek准则)从时域协方差矩阵迁移到频域谱密度矩阵的首次系统尝试,开辟了“频域图识别”的子路线。它填补了“从谱密度矩阵而非协方差矩阵进行因果识别”的理论空白。
子线索聚类¶
-
线索A(条件独立性/时域方法):Runge等(2017, 2019, 2020, [8, 2, 11])、Gerhardus & Runge(2020, [14])、Assaad等(2022, [13])。以条件独立性检验为工具,在时域时间序列图上发现因果结构。不考虑或仅局部处理潜在混淆,计算量大、依赖faithfulness假设。本文的竞争/补充:本文称频域方法更紧凑、计算更简洁且能处理全局潜在效应。
-
线索B(代数图识别理论,i.i.d.设定):Drton等(2010-2018, [16, 18])、Foygel等(2011, [17])、Sullivant等(2007-2008, [4, 3])、Weihs等(2017, [19])、Barber等(2022, [5])。在i.i.d.线性高斯SEM中研究边系数的可识别性,核心工具是trek规则、half-trek准则。本文的直接前驱:本文直接扩展了[5]的LF-HTC到频域过程图。
-
线索C(频域/过程图/代数方法):Reiter等(2023, Part I, [6])、当前论文。利用谱密度矩阵和谱trek规则(spectral trek rule)建立频域参数化与过程图的对应关系。当前论文在这之上加入分离判断与识别性准则。是线索B的“时间序列频域版本”。
这个方向在追问的核心问题¶
- Q1 结构恢复:如何从谱密度矩阵的代数约束唯一恢复过程图的结构(哪些边存在/方向)?
- Q2 识别问题:在过程图中,当一个频域因果效应被潜在变量混淆时,如何判断它能否从谱密度矩阵中唯一识别?
- Q3 计算可行性:识别的判据是否可多项式时间检验?对应的估计量是否有一致性或收敛速度保证?
- Q4 与经典时域方法的关系:频域识别的条件比时域时间序列图的条件更弱还是更强?两者是否存在非平凡的信息差距?
⚠️ 作者的 framing(必须明确标注为作者说法)¶
- 作者把缺口frame成:“时域时间序列图因无限节点而复杂,过程图作为紧凑表示+频域处理是更原则性且简洁的选择。”
- 作者淡化了什么:时域方法(线索A)在实践中的成功(已经大量的实证验证)、时域识别的渐近性质的扎实理论(许多工作给出了一致性和收敛率)。作者也未对比频域估计的统计误差——从有限样本谱密度估计(可能需cut-off、平滑)出发,识别性的代数条件是否在估计中有实际意义,本文全是确定性代数结果。
- 什么明显该被引/该存在、却没出现在intro里?:没有引用经典“谱分析”教材(如Brockwell & Davis)来补足读者对谱密度估计的统计特性了解。未引用任何非高斯频域因果推断工作(如高阶累积量方法,虽然[22]做了非Gaussian i.i.d.的拓展),这可能是一个故意的clustering选择——本文始终在Gaussian线性框架内。另外,没有引用任何针对高频金融数据使用谱密度做动态因果推断的工作,这些应用的读者很可能好奇本文的假设在它们上是否满足。
张力¶
未见明显对立引用。线索B与线索C之间是“i.i.d. vs. 时间序列/时域 vs. 频域”的互补关系,无结论冲突。线索A与方法B/C之间在“识别的充分条件”上可能隐含张力(时域条件独立性是否需要更多数据假设 vs.频域代数条件更简洁),但本文未直接讨论,属于可深查的机会。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号:
- \( p \): 过程个数(每个过程是一条完整的时间序列,例如“降水量”或“GDP”)。
- \( T \): 离散时间点索引(过去到现在,无穷延伸)。
- \( X_t = (X_{1,t}, \ldots, X_{p,t})^\top\): \( p \)维随机向量,在时间 \(t\) 的可观测值。
- \( B_0, B_1, B_2, \ldots \): \( p \times p \) 实系数矩阵。\( B_0\) 的主对角线为0(因为 \(B_0\) 描述同期效应,变量不能同时是自己的原因;但\([B_0]_{ij}, i\neq j\) 表示变量\(j\)在同期对变量\(i\)的直接效应)。\( B_\tau\)(\(\tau \ge 1\)) 是滞后\(\tau\)时刻的系数矩阵。
- \(\varepsilon_t\): \(p\)维白噪声向量,\(\mathbb E[\varepsilon_t] = 0\),\(\mathrm{Cov}(\varepsilon_t) = \Sigma_\varepsilon\)(对角或非对角?若允许潜在混淆则非对角)。\(\varepsilon_t\)与所有过去值\(X_{t-\tau}, \tau>0\)独立。
- SVAR(\(\infty\))模型(结构向量自回归,无限阶):
\[X_t = B_0 X_t + B_1 X_{t-1} + B_2 X_{t-2} + \cdots + \varepsilon_t,\]移项得:\((I - B_0) X_t = \sum_{\tau=1}^\infty B_\tau X_{t-\tau} + \varepsilon_t\)。假设\(I - B_0\)可逆,则有简化形式。
- 过程图 \(G\):一个有向图(可含自环,表示滞后效应),顶点集为\([p] = \{1,\ldots,p\}\)。边 \(j \to i\)存在当且仅当存在某个滞后\(\tau \ge 0\)使得\([B_\tau]_{ij} \neq 0\)(若\(\tau=0\)即为同期边)。注意:过程图不记录滞后长度信息(只关心有无影响)。
- 频域传递函数:\(\Phi(z) = [I - B_0 - \sum_{\tau\ge 1} B_\tau z^\tau]^{-1}\)(对复数\(z\)),其中\(z\)是单位圆上的复数(Freuqency variable)。
- 谱密度矩阵:\( S(\omega) = \frac{1}{2\pi} \Phi(e^{-i\omega}) \Sigma_\varepsilon \Phi(e^{-i\omega})^*\),\(\omega \in [-\pi, \pi]\)。是所有频率上\(p \times p\)正定Hermitian矩阵。
- 频域因果效应(frequency-domain causal effect) \(\Lambda(\omega)\):传递函数的特定子矩阵,解释为在频域\(\omega\)上从变量\(j\)到变量\(i\)的直接效应(具体定义见论文)。
模型: 线性SVAR过程(可无限阶、平稳、因果可逆,即\(\det(I-B_0) >0\)且多项式可逆所有根在单位圆外)。过程图上每一条边对应某个\(B_\tau\)项中的非零系数。潜在外生过程:未观测的\(q\)个额外过程(节点\(p+1,\ldots,p+q\))也可能通过向可观测过程节点发射边而产生混淆,它们在谱密度里表现为误差非对角。
可观测数据:研究者只有谱密度矩阵 \(S(\omega)\)(在每个频率\(\omega\)上的一个\(p\times p\)矩阵),且是在渐近意义上“已知”或在无限长时间序列下能以任意精度估计的。不可观测的是:\(B_\tau\)系数矩阵、\(\Sigma_\varepsilon\)、潜在过程的数量与结构、边的符号等等,都需要从\(S(\omega)\)推断。
第二步:最小内核——最简特例¶
这不是一个“先有特例再推广”的内部技术结构,其核心困难是:
最小命题(核心困难):给定一个过程图 \(G\)(有向图,可能有潜在节点),判定从谱密度矩阵 \(S(\omega)\) 出发,是否存在一种算法(仅仅涉及有理运算:加、乘、除、取子行列式、矩阵求逆)来唯一求解某个给定的频域因果效应 \(\Lambda_{i\leftarrow j}(\omega)\)。
关键想法:将谱密度矩阵\(S(\omega)\) 写成谱trek乘积的矩阵形式(类似协方差矩阵的trek rule在谱域版本)。然后,d-和t-分离信息就转化为谱密度子矩阵的秩条件(某子矩阵的行列式是否恒为零;某一参数化是否使子矩阵的秩小于满秩)。识别性则是:利用谱密度的一部分子矩阵,构造有理方程系统解出\(\Lambda_{i\leftarrow j}(\omega)\);如果这一方程系统中总可以被“逐步消去未知参数”且解唯一(在几乎全体参数上),就说此效应是“有理可识别”。
最简例子(取自论文,用记号说明):
设 \(p=2\)(两个可观测过程节点1、2),且过程图为:
即:只有从过程1指向过程2的(可能同期或滞后)直接效应。无潜在过程。误差向量 \(\varepsilon_t\) 有对角协方差矩阵(无混淆)。此时,频域因果效应 \(\Lambda_{2\leftarrow 1}(\omega)\) 是多少?在简化模型中:\(\Phi(z)\)是下三角矩阵(因为只有1→2,没有2→1),具体求逆可知\(\Lambda_{2\leftarrow 1}(\omega)\)是谱密度比\(\frac{S_{21}(\omega)}{S_{11}(\omega)}\)的一个简单有理函数(实际上就是传递函数中对应项)。由于谱密度所有元素都可观测,这一识别通过有理运算(除法)直接成立。此处有理可识别性等于:效应可以由谱密度有理表示——且它是唯一的。这对应“无混淆过程图中,无阻布的路径”由此链式法则得到识别(古典IV特例也可看成一个源极节点的协整回归)。
更复杂的最小困难例:若在过程图上节点1和2都连接至一个潜在混淆因子H(由误差相关表示,无单独节点节点)。则在协方差简图中(过程图已合并潜在混淆为双向边),要从\(S(\omega)\)恢复一个被混淆的直接效应,就需要求解一个隐含着H贡献的结构方程,唯一性的获得需要H对其他变量的边际独立性,或杠杆变量instrumental变量。这正是半跋涉准则(half-trek)在频域下的角色:判断是否存在足够的“湍流路径”可以逐块恢复边的系数。
读者现在握有所有记号:过程图\(G\)、谱密度\(S(\omega)\)、频域因果效应\(\Lambda\)。困难和想法是:从\(S(\omega)\)的代数约束(行列式、子矩阵秩)中,找到过程图的结构信息(分离),再通过有理方程的解确定效应。
三、这篇论文做了什么(重心,≥45%)¶
三句话¶
- 研究问题:对于SVAR过程(时间序列图压缩为过程图),研究从谱密度(频域)进行因果结构发现(过程图的d-和t-分离)和因果效应识别(频域效应的有理可识别性)的充分性条件。
- 核心工具:谱TreK规则(将谱密度参数化与过程图节点间路径求和联系起来),和潜在因子半跋涉准则(LF-HTC,一种图论算法,通过在过程图上检查“半跋涉系统”的存在性来判定可识别性)。
- 主要结论:(a) 过程图的d-和t-分离信息可以由谱密度矩阵上的代数约束(具体的子矩阵行列式恒为零的条件)完整刻画;(b) 将LF-HTC从i.i.d.线性SEM推广到过程图并证明,如果过程图上存在一个LF-HTC,则被潜在过程混淆的频域因果效应可通过谱密度有理运算唯一识别(generic identifiability)。
关键设定与假设¶
在第二节最小内核基础上补全全套设定:
- 过程图 \(G\):有限有向图,顶点集\(V = V_O \cup V_L\),其中\(V_O\)是\(p\)个可观测过程节点,\(V_L\)是\(q\)个潜在过程节点。边集\(E\)包含有向边\(j\to i\)(表示存在直接因果效应)以及残差协方差指示的潜在混淆结构(隐性节点通过双向边表示,标准技巧)。
- 时间序列图 vs. 过程图:一个时间序列图是无限扩展的(每个时间点一个节点),过程图是将所有时间点上的同一个过程聚为一个节点,边代表跨任意滞后的效应。作者引用自己的Part I工作[6]证明了:d-分离和t-分离(t-separation,处理不可分离性的混合图分离准则)在过程图上可以忠实地对应时间序列图上的对应分离。
- 可观测量假设:研究者已知谱密度矩阵\(S(\omega)\)对所有\(\omega\)(取无穷长时间序列\(T\to\infty\))。但未知的\(B_\tau\)系数、\(\Sigma_\varepsilon\)潜在节点等是待推断的。这个设定等价于已知全频域协方差信息(即已知所有自协方差序列\(\Gamma(h)\))。
- 参数假设:(a) 模型为线性高斯;(b) 平稳且因果可逆(所有零点单位圆外,保证谱密度正定);(c) 参数满足generic条件(即参数取值一般性地避开代数子集)。作者强调generic identifiability——识别性在参数几乎全体处成立,虽不能排除退化解。
- 假设关于导出图的“边际化”:过程图与时间序列图之间通过一种代数投影(来自[25])相互转换,保证分离关系一致。本文假设过程图是给定的(或从谱密度通过后者代数约束恢复得到,不过恢复的充分性在定理中给出)。
- 对比已有文献:相比[5]的LF-HTC,本文的要求是过程图可以包含自环(因为滞后效应),并且必须依赖谱密度而非协方差。相比时域识别工作[15,21],本文利用谱密度绕过时间图无限节点的复杂性,但没有要求任何faithfulness假设,而是用代数秩条件。
主要结果¶
结果1:d-和t-分离由谱密度代数约束刻画(定理3)。
陈述:设\(G\)是过程图(含潜在节点),\(A,B,C \subseteq V_O\) 是可观测节点子集。如果\(A\)和\(B\)被\(C\)在图中d-分离(或t-分离,针对混合图),则谱密度矩阵的子矩阵\(S_{A\cup C, B\cup C}(\omega)\)的某一行列式函数恒等于零(作为\(\omega\)的函数)——更具体说是它的“合理子矩阵”的秩小于满秩。反之,在一类普遍性假设下,若某行列式恒为零,则必须在图上存在对应的分离。作者称之为“谱密度约束与图分离的完备对应”。
直觉:d-分离在协方差矩阵下的代数等价是经典trek分离(子矩阵秩条件)。谱密度是全频域的协方差,trek rule搬移到频域依然成立(谱trek rule, [37]),因此同样的线性代数分解在每一频率\(\omega\)上成立。但\(\omega\)是连续变量,约束以恒为零的函数形式出现,而不是在某个离散点上相等。在每个频率上的恒等零约束给出图结构信息——判别两个节点间是否无d-连接路径。
技术难点:需证明“恒为零”这一条件的代数等价性与“分离”对应的充分必要条件。这避不开代数几何(map的代数独立性)和graph isomorphism。
结果2:频域因果效应的有理可识别性准则(定理4 / LF-HTC 拓展)。
陈述:对过程图上任何一个可观测节点\(i\)和其父节点集合\(\mathrm{pa}(i)\),若存在一个LF-HTC(潜在因子半跋涉准则),则从过程\(j\)到\(i\)的频域因果效应\(\Lambda_{i\leftarrow j}(\omega)\)是可识别的(即存在一个仅用谱密度矩阵元素的有理运算表达的估计量)。LF-HTC在此的表述是:(a) 对每个父节点\(j \in \mathrm{pa}(i)\),存在一个半跋涉(half-trek)\(\tau\)(这是一条从\(j\)到某个辅助节点的路径,不经过特定节点集)、不经过潜在混淆节点、且满足与残差矩阵约束的线性独立条件的一组合集。
直觉:核心机制与[5]相似:利用“半跋涉”构造出可观测协方差之外的线性方程组,逐一解出系数。在频域中,每一个频率是一个独立“视图”;解方程则是逐频域进行。若某频率下方程条件数差,整体参数map仍为唯一,属于generic。
必要条件:需要有父节点与子节点间的足够单调且“主题清醒”的半跋涉来产生线性独立的方程,其中潜在节点的贡献可被消除。
证明路线与技术技巧(理论型)¶
整体路线(以定理3为例):
- 步骤1:谱trek规则。利用[6]已证明的谱trek规则:\( S(\omega) = \sum_{\text{paths } \pi \text{ from } a \to b} \text{product of coeffs} \times \text{some factor}\)。将谱密度写成一个多项式/有理函数的生成矩阵。
- 步骤2:矩阵分解。通过图分解引入节点排序,把\(S(\omega)\)写成\((\text{Diag}^{-1}) \cdot \Upsilon \cdot \Gamma\)的矩阵乘积形式(类似于下三角×对角×上三角)。其中\(\Upsilon,\Gamma\)中的条目是路径和。
- 步骤3:子矩阵秩等价于。从子矩阵\(S_{A\cup C,B\cup C}\)中提取的子块,其行列式是多项式(在自由参数上),零维条件是某些系数组合消失(即:路径的接管被阻塞)。经典代数图论(Sullivant[3])的trek分离论证可直接迁移到频域版本,每个频率的局部trek分离条件与参数化一致,零约束在所有频率成立等价于图上的阻塞。
- 步骤4:方向性。反之,若某行列式恒为零,则必须对应路径数量不足——除非图中存在潜在图关系导致“意料之外”的零。作者引用代数几何中关于投射簇维数的经典引理,说明generic条件下不会出现意外的零,从而得出分离。
关键跳跃点: - 从离散时间点上的trek对应到连续频率上“所有\(\omega\)上成立”的条件。这是利用传递函数的解析性完成的:非常数的解析函数只能有孤立零点,而非恒零。所以若某多项式(在参数空间中)在每一频率都等于零,则多项式必须是恒零,即对应图约束。 - “generic”带彩色细节:本文用parametric代数集合之外的普遍性,但未说明当参数落入非通有子集(退化)时边系数不可识别的精确概率或测量零点。每个frequency点可能放大辖域,但整体参数数有限,这是一个小心使用“generic”的隐性代价。
技术技巧点名: - 谱TreK规则:从Wright路径规则和[3]的trek rule推广到频域(利用Z变换)。用在路线Step1。 - 矩阵秩分解:写成三角分解形式(步骤2),用Gauss消元标记。 - 代数几何维数论证(generic set = Zariski开集)用于分离/逆推充分性(步骤3-4)。 - 半跋涉系统:应用Berge lemma与图论中的嫁接定理构建半跋涉系统的存在性,是References [5]的直接延伸。
真实例子与应用¶
本文为纯理论(无实证例子)。无真实数据实验或模拟案例。作者在引言中提到方法“在仿真数据上可试验”,但论文正文内未包含任何数值结果。这是常见于首篇理论论文(建框架)的模式:仅设代数条件,估计量的一致性与有限样本性质留待后续工作。
🔎 结论是否比证明窄¶
有多处:定理3(关于d/t-分离的代数刻画)的“反之”方向(若代数约束成立则图分离)作者仅在补充充分假设(generic no excess zero conditions)下声明为“可证但稍繁”或仅引用[3,48]论证,未给出本设置下完整的新证明。文末明确写:第4节的LF-HTC推广直接应用了Barber等[5]未变动引理,来适应“频域”需要的核心论证实际上完全等价(参数矩阵的结构仅将协方差替换为谱密度,不同频率下均成立——但频域传递函数的矩阵结构不同(可能无穷阶),严谨性取决于[6]的谱trek rule在有无潜在节点时都适用,作者此处严谨引用旧工作,无新论证低频域特有困难。
四、开放问题(点到为止,扎根具体语句)¶
-
非高斯/非线性情形的频域刻画。作者在结论称“线性高斯假设可弱化为独立噪音”,但未证明。本文定理3和定理4的代数证明完全依赖谱密度多项式/有理参数化,非高斯可能失去/改变代数结构(高频矩须包含额外信息,参见[22]的i.i.d.案例),是一个明确缺口。
-
充分性与必要性的gap。LF-HTC是有理可识别的充分条件,非必要。引言指出“gap进一步缩小是活跃方向”,但正文未量化频域下的gap。研究者可从[17](原i.i.d.情形)关于HTC的gap模拟入手,在过程图上做类似模拟,寻找频域下新的必要条件。
-
从谱密度估计到实施。识别性为代数后,实际估计需估谱密度(需cut-off、平滑或窗宽选择),引入估计误差,当前完全无理论——没有给出一个识别后的估计量、它的rate或置信区间。这扎根于作者明确提出的future work部分。
-
非参数SVAR(核方法) 或时变参数,核在频域是否仍有“代数约束”编码的分离性?无文章讨论。离当前设定较远,但若研究者熟悉RKHS,该处可能打开新路线。
-
计算可行性:多项式时间的LF-HTC算法在过程图上的部署与原本在i.i.d. SEM是相同的(图规模为节点数p+t节点数,但过程图节点数只有p+ q,且潜在节点图规模可指数级?大图上的半跋涉检查是否NP-hard?[17]论文对图规模多项式,但被引[5]的LF-HTC直接是用多项式动态规划在图上实现的,所以此路不堵。但本文未实现这一算法,是作者自己的future work。
Maintained by 陈星宇 · Homepage · Source on GitHub