Bayesian learning of network structures from interventional experimental data¶

作者: F Castelletti, S Peluso
来源: Biometrika
主题: 因果推断
相关性: 7/10
链接: https://doi.org/10.1093/biomet/asad032

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么¶

本子方向研究的根本问题是：如何从观测数据（observational data）和干预数据（interventional data）的混合中，学习因果关系的结构——即一个描述变量间有向因果关系的有向无环图（DAG）。当只有观测数据时，由于条件独立性模式的等价性，只能将 DAG 识别到一个马尔可夫等价类（Markov equivalence class），无法区分因果方向一致的图。干预数据通过人为强制改变某些变量的分布，打破了这种等价性，从而能唯一确定（或至少缩减等价类）真实网络。该子方向当前的核心挑战包括：如何在干预机制多样（随机干预、特定值干预、soft/hard干预）的情况下设计高效的推断方法；如何对混合数据类型给出理论上的结构可识别性与一致性的保证；以及如何处理高维（变量数远大于样本量）设定下的计算与统计权衡。论文作者给出的语言是"interventional data improve directed acyclic graph identifiability and enhance causal effect estimation"，这很精准。

发展脉络（history）¶

从论文的引言出发，可将被引工作串成以下脉络：

奠基工作（1990s-2000s）：
- Pearl (2000) 与 Spirtes, Glymour & Scheines (2000)：建立了因果图模型的理论基础，包括d-分离（d-separation）作为条件独立性的图准则，以及通过do-算子（do-operator）定义干预分布。这些奠定了在观测数据下，结构学习只能达到等价类的认知。
- Heckerman, Geiger & Chickering (1995)：提出了贝叶斯DAG学习的经典框架，并为高斯（BGe）和多分类（BDe）模型给出了闭式边际似然（closed-form marginal likelihood），并证明了它满足分数等价性（score equivalence：等价类的DAG有相同分数）。这构成了本文技术策略的直接前人——即用闭式似然做贝叶斯推理。
主要进展（2000s-2010s）：
- 约束性方法 (Constraint-based) 与基于分数的方法 (Score-based) 的困境：Chickering (2002) 提出的贪婪等价搜索（GES）从空的等价类开始，利用BDe分数，通过贪心添加/删除边来学习等价类。但该方法依赖观测数据，始终无法区分等价类内的图。
- 干预数据进入：Eaton & Murphy (2007)、Hauser & Bühlmann (2012)、Yang et al. (2018) 等同时或先后指出：即使只有部分干预数据（即干预仅施加在某些变量上），干预后的等价性（post-intervention equivalence）也会比观测的马尔可夫等价性更细（即等价类更小），因此可识别性大大提高。他们认为这是一个决定性的进步。其中Hauser & Bühlmann (2012) 系统地发展了干预DAG（表示干预目标）和干预等价类的概念，给出了一个现代约束性方法的框架。
- 贝叶斯方法的空白：本文作者指出，在Eaton & Murphy等人的工作之后，针对混合干预/观测数据的贝叶斯框架 "has so far received limited attention"，且之前的尝试（如引入一个不一定合理的序先验）并不能令人满意。作者评价说："...the literature proposing a Bayesian approach to causal structure learning from interventional data is limited and generally refers to the case of perfect interventions."
当前 frontier 与本文的位置：
- 当前的理论前沿在于：在随机干预（stochastic intervention，干预变量值来自一个分布，而非固定为一个常数）或软干预（soft intervention，只改变节点的条件分布但保留其与父节点的依赖）设定下，讨论非参数可识别性（如想到Pearl (2001) 的do-算子的推广）以及参数模型下的一致性速率（如 minimax rate）。
- 当前的计算前沿正在尝试将贝叶斯MCMC的灵活性扩展到高维干预数据，因为基于分数的启发式搜索（如GES）在干预后等价类更小的设定下可能比穷举性MCMC更有优势。
- 本文的位置：作者填补了"针对随机干预（stochastic intervention）的贝叶斯框架"这个缺口。他们不仅仅是把Eaton & Murphy的方法推广到高斯模型，而是：1) 引入了新的先验使得边际似然有闭式解且在干预后马尔可夫等价类内满足分数等价性；2) 在理论上证明了后验比例一致性（posterior ratio consistency），即真实网络的后验概率在样本量足够大时趋近于1；3) 分析了这一致性不依赖干预变量的具体分布，也不依赖观测与干预数据的相对样本量。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上：

约束性 (Constraint-based) vs. 基于分数 (Score-based) 的结构学习：
- 做什么：对比两类经典方法。约束性方法通过条件独立性检验逐步构建图（如PC算法），而基于分数的方法为每个候选DAG赋予一个分数（如BDe/BGe边际似然），再通过搜索找到最优。
- 关键代表：Spirtes, Glymour & Scheines (2000)（约束性奠基）、Chickering (2002)（GES分数）、Heckerman, Geiger & Chickering (1995)（贝叶斯分数奠基）。
干预数据下的结构学习：
- 做什么：研究如何利用干预（完美/随机/软）来提升DAG可识别性、给出理论一致性与计算方法。
- 关键代表：Eaton & Murphy (2007)（早期贝叶斯尝试）、Hauser & Bühlmann (2012, 2015)（干预等价类理论）、Yang et al. (2018)（在soft干预下的可识别性与方法）。本文是这条线索的贝叶斯升级版。
贝叶斯先验与分数等价性：
- 做什么：专门研究如何设计共轭先验（如高斯 Wishart）以保证边际似然能够闭式计算，同时维持分数等价性这一统计学准则（等价类内的图有相同分数）。
- 关键代表：Heckerman, Geiger & Chickering (1995)（BGe/BDe分数）、Geiger & Heckerman (2002)（给出分数等价性成立的必要条件：函数模型与先验需满足特定属性）。本文也是这条线索的直接继承者：其核心贡献之一就是为干预后的图设计了保持分数等价性的先验。

核心问题¶

这个方向在追问的核心问题有 2-3 个：

结构可识别性的充分条件：在给定哪些类型的干预（完美/软/随机）、哪些变量被干预的条件下，真实DAG能否被唯一（或在一个很小的等价类内）识别？当前的主流可识别性条件多数假设干预目标是已知的且系统是线性高斯的；非参数可识别性（例如利用Tian & Pearl (2001) 的ID算法）仍在发展中，且通常要求非常强的干预目标覆盖性。
混合数据的后验/频率一致性：当样本量（的观测部分和干预部分）趋于无穷时，贝叶斯方法或频率检验能否保证恢复真实结构？速率如何？已知的瓶颈在于分数等价性对一致性分析造成困难，且干预数据的分布（干预值的分布）改变时，一致性是否稳健？当前主流答案仅在高斯线性模型下给出，且尚未触及minimax最优速率。
高维计算可行性：当变量数 \(p\) 远大于样本量 \(n\) 时，如何在p个变量上搜索空间（大小为超指数 \(2^{\Omega(p^2)}\) 的DAG空间）并一致地估计图？当前主流方法是通过排序搜索（如Bühlmann的pcalg包里的CAM算法）或贪婪搜索（如GES），但其在干预数据下的性能尚不明确。贝叶斯MCMC在高维设定下几乎无法保证收敛到全局最优。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者将缺口框架成：

"In many contexts, however, observational measurements are supplemented by interventional data...We propose a Bayesian framework for multivariate data partially generated after stochastic interventions...we show that the true network will be asymptotically recovered, regardless of the specific distribution of the intervened variables and of the relative asymptotic dominance between observational and interventional measurements."

作者淡化了（却依赖的）是什么：他们假设干预的目标变量是已知的。在引言及后续设定中，他们假设观测数据中的每一行来自一个被观察的记录，而干预数据中的每一行来自一个已知某个/某些变量被干预的实验。这忽略了干预目标未知时的更困难（但更现实）设定。作者在Method部分也明确指出 "we consider data that are partially generated after stochastic interventions; i.e., some of the observations are pure observational, while others are interventional... Those data are assumed to be produced by possibly different, known intervention regimes."
他回避了什么竞争路线：朴素地混合观测和干预数据会怎样？如果无视干预的存在、单纯地将所有数据视为观测并使用BGe分数，其后果就是不一致——因为干预数据的联合分布与观测数据不同。作者的闭式分数是专门考虑了这一差异的，但他们没有详细比较这种"无视干预"方法的失效程度（仅在模拟中略有涉及）。
值得研究者去查的问题： 作者没有引用 Rothenhäusler et al. (2015) 的 "Anchor regression: a framework for causal inference with invalid instruments" [认可Anchor regression在干预目标未知时处理结构学习的思路] 或 Bühlmann et al. (2014) 的 "CAM" 方法。CAM（Causal Additive Model）基于非参数加性噪声从观测数据就能识别结构，根本不需要干预数据。这暗示，在某些非高斯/非线性条件下，观测数据本身已经足够。作者回避了这一问题，这是否意味着他们的工作仅适用于不能利用非线性的高斯线性模型？此外，作者也没引用Tian & Pearl (2001) 关于通用不变性（General identification）的理论，这可能是因为那更偏重于因果效应而非结构，但仍是重要缺失。

张力¶

未见明显对立引用。所有被引工作都一致赞同：干预数据提升可识别性。主要的张力在于分数等价性在不同干预设定下是否仍然成立（Eaton & Murphy的早期贝叶斯尝试并未维持它），以及干预下 MCMC 的效率是否比 greedy search 差（作者通过模拟支持MCMC的竞争力）。不存在根本性的方法对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \( G = (V, E) \)：一个 DAG，节点集 \( V = \{1, \dots, p\} \)，有向边集 \( E \)。每个节点对应一个随机变量 \( X_j \)。
- \( \text{pa}_G(j) \)：在DAG G中节点 \( j \) 的父节点集合。
- \( \mathcal{G} \)：所有可能的DAG的集合（巨大）。
- \( \Theta = (\theta, \Sigma) \)：模型参数。在高斯线性模型下，\( \theta \) 包括各节点的线性系数（结构方程权重），\( \Sigma \) 是噪声的协方差矩阵（通常是各节点的相互独立的误差项的方差的函数）。作者用标准BGe参数化：每个节点的条件分布为 \( X_j | x_{\text{pa}_G(j)} \sim N(\mu_j + \sum_{i \in \text{pa}_G(j)} \beta_{ij} x_i, \sigma_j^2) \)，且误差项独立。
- \( M = \{G, \Theta\} \)：一个包含图结构和参数的完整模型。
- \( \mathcal{D} = \{D_0, D_1, \dots, D_K\} \)：可观测数据集。\( D_0 \) 是观测样本，大小为 \( n_0 \)；对于每个干预 \( k = 1, \dots, K \)，干预目标为 \( I_k \subset V \)，\( D_k \) 是从该干预分布中抽取的样本，大小为 \( n_k \)。总样本量 \( N = n_0 + \sum_{k=1}^K n_k \)。
- 对于干预数据：在干预 \( I_k \) 下，受干预的节点 \( j \in I_k \) 的分布被随机干预（stochastic intervention）替代：\( X_j \sim g_k(x_j) \)，其中 \( g_k \) 是某个与原本模型无关的分布；未受干预节点 \( j \notin I_k \) 的条件分布 \( X_j | x_{\text{pa}_G(j)} \) 保持不变。
- 作者的主要目标 estimand：真值DAG \( G^* \)。
模型：
- 数据生成机制 (高斯线性模型)：观测数据 \( D_0 \) 来自一个标准的线性高斯 SEM：\( X_j = \sum_{i \in \text{pa}_{G^*}(j)} \beta_{ij}^* X_i + \epsilon_j, \quad \epsilon_j \sim N(0, \sigma_j^2), \quad j=1,\dots,p \)，且误差独立。
- 随机干预模型：对于干预数据集 \( D_k \)，采样过程是：首先从分布 \( g_k(\cdot) \) 随机抽取受干预节点 \( j \in I_k \) 的取值，然后以那些值为条件，按照原SEM的条件分布依次抽取其他节点的值。这本质上是在原有SEM中将受干预节点从其父节点断开（去掉来自父节点的影响），并将其设为随机噪声生成的数。该模型假设了干预的可忽略性（ignorability of intervention assignment）：干预目标与待学习参数独立，因此干预可以被视为缺失数据机制（MAR），只需要在似然中正确建模即可。
- 哪些当作已知：已知的结构是每个观测属于哪个实验（观测或干预k）以及该实验的干预目标集I_k。未知的是：图结构 \( G^* \)、参数 \( \Theta^* \)、干预分布 \( g_k \)。
可观测数据：
- 观测数据 \( D_0 \)：研究者能够直接观测到 \( p \) 个变量的联合分布样本 \( (X_1, \dots, X_p) \)。
- 干预数据 \( D_k \)：研究者同样能观测到 \( p \) 个变量的联合分布样本。但其生成机制与观测数据不同，因为干预分布 \( g_k \) 被叠加了。研究者知道对于每个 \( D_k \)，哪些变量被干预了（即 \( I_k \) 已知）。
- 想要但观测不到的量（潜在量）：
  1. 真实的图 \( G^* \)：这是我们要推断的因果结构。
  2. 干预分布 \( g_k(\cdot) \)：具体如何生成干预值的分布是未知的（实际实验中，干预可能是通过药物敲除基因、或者强制施加某种政策，其分布可能不可控、不可建模）。作者巧妙地将 \( g_k \) 视为一个完全任意的、与模型参数无关的分布，并将其作为辅助参数从似然中整合掉（integrated out），这使得我们能避开对其建模的困难。这是算法的关键。
  3. 未干预时的"反事实"值：对于干预数据中的被干预节点，假如没有施加干预 \((do)\)，它们原本的取值是多少？这在识别中是典型的因果推断问题。

第二步：讲最小内核¶

最简特例：p=2 个节点（X→Y），单次干预（K=1），干预X（X被随机化）

完全设定的简化问题：
- 变量：X 和 Y。真值图是 \( X \rightarrow Y \)。
- 模型：
  - 观测数据 \( D_0 = (x_1, y_1), \dots, (x_{n_0}, y_{n_0}) \) 来自：\( X \sim N(\mu_X, \sigma_X^2) \), \( Y = \beta X + \epsilon, \epsilon \sim N(0, \sigma_Y^2) \)。
  - 干预数据 \( D_1 = (x'_1, y'_1), \dots, (x'_{n_1}, y'_{n_1}) \) 来自：先从某个未知分布 \( g(x') \) 随机抽取 \( x' \)（例如，某些实验体被强制置于特定剂量，其剂量分布我们不知道）；然后 \( y' \) 由 \( Y' = \beta X' + \epsilon' \) 生成（误差项独立于观测数据）。
- 可观测：我们有 \( n_0 \) 个观测数据对，和 \( n_1 \) 个干预数据对（且已知第一对是观测，第二对是干预，干预的目标是X）。
- 候选图：只有两个 DAG：\( G_1: X\rightarrow Y\) 和 \( G_2: Y\rightarrow X \)。
在正确图 \(G_1\) 下的联合似然（含边际化）：
1. 由于干预分布 \( g(x') \) 未知且和参数无关，在 \( G_1 \) 下，对观测数据，似然是 \( L_1^0 = \prod_{i=1}^{n_0} f_X(x_i) f_{Y|X}(y_i|x_i;\beta,\sigma_Y^2) \)。
2. 对干预数据，在 \( G_1 \) 下，联合似然是 \( L_1^1 = \prod_{i=1}^{n_1} [g(x'_i) \cdot f_{Y|X}(y'_i|x'_i;\beta,\sigma_Y^2)] \)。
3. 核心技巧：由于 \( g \) 是辅助参数且不进入参数 \( (\beta, \sigma^2) \) 的后验，我们可以直接将 \( g \) 从联合似然中除去（integrate out with a noninformative prior）。这等价于说，在 \( G_1 \) 下，观测和干预数据的似然贡献中，只有条件分布 \( f_{Y|X} \) 携带关于参数的信息，而边际分布 \( f_X(x) \) 和 \( g(x') \) 是不相关的。因此，完整的 marginal likelihood for \( G_1 \) 只依赖于条件密度部分：
  \[L(G_1 | \mathcal{D}) \approx \prod_{i=1}^{n_0} f_{Y|X}(y_i|x_i;\beta,\sigma_Y^2) \cdot \prod_{i=1}^{n_1} f_{Y|X}(y'_i|x'_i;\beta,\sigma_Y^2)\]
  即，模型认为无论是来自观测还是干预，给定X后Y的条件分布是相同的。这正是干预不改变结构（只是替换了X的分布）的假设。
在错误图 \(G_2\)（Y→X）下的联合似然（含边际化）：
1. 在 \( G_2 \) 下，模型是 \( Y = some distribution; X | Y = ... \)。然而，干预X 这一事实意味着：在干预数据中，X的分布由 \( g \) 取代，而与Y无关。
2. 因此在 \( G_2 \) 下，干预数据很好地遵循：模型的似然会认为 \( f_{X|Y}(x'|y') \) 由原模型给出。但这是错误的，因为X的生成完全绕过Y。因此，在 \( G_2 \) 下，根据干预数据计算出的条件密度估计（\( \hat{f}_{X|Y} \)）会与观测数据得到的估计极端不一致，从而导致 \( L(G_2 | D_{obs}, D_{int}) \) 非常低。
结论：
- 在最小例子中，后验比 \( \frac{P(G_1|D)}{P(G_2|D)} \) 随着 \( n_0, n_1 \) 的增大而趋向无穷。原因是：在正确图 \( G_1 \) 下，干预仅改变边际分布，整个似然的"信息部分"（条件分布）保持不变；而在错误图 \( G_2 \) 下，干预违反结构假设，导致似然急剧下降。
- 这就是后验比例一致性的直观基础。作者的工作是将这个直观推广到了一般的高斯DAG，并证明了其渐近性。这也解释了文中的"regardless of the specific distribution of the intervened variables"——因为干预分布本身不进入模型之间的区分（因为其不携带结构信息）。

三、这篇论文做了什么（重心，讲透）¶

三句话：
1. 研究了什么问题：提出了一个从混合观测数据与随机干预数据中学习高斯DAG结构的贝叶斯框架，并给出了结构恢复的理论一致性保证（后验比例一致性）。
2. 核心工具/方法：利用了标准BGe模型的拓展：通过对每个节点设定一个先验概率到其父节点集上，以及一个令边际似然闭式可算的 Wishart 共轭先验。关键创新在于：存在干预数据时，通过在似然中直接去除干预节点的边际分布似然贡献（视为辅助参数并积分掉），使得边际似然在干预后马尔可夫等价DAG上仍然保持分数等价性。推断则通过可逆跳转MCMC (reversible jump MCMC) 在DAG空间上进行采样。
3. 主要结论：在高斯线性模型下且干预目标已知的前提下，这个框架的后验概率具有一致性：即，无论干预变量的分布具体如何，无论观测与干预数据的相对样本量如何，真实DAG的后验概率在样本量趋于无穷时收敛到1。
关键设定与假设：
- 设定：\( p \) 个高斯变量，数据分为1个观测集（样本量 \( n_0 \)）和K个干预集（样本量 \( n_1,\dots,n_K\)），每个干预集对应的干预目标是已知的。模型是高斯线性SEM。
- 假设1：随机干预与干预目标已知。干预目标集合 \( I_k \) 是已知的；而且干预是随机的，即干预变量的值来自一个分布（在作者的处理中，这个分布完全不重要，因为它被积分掉了）。这替代了Eaton & Murphy (2007)的“完美干预”（将变量设定为常数），并更贴合实际。
- 假设2：参数先验（定义于第2.2节）：作者借用BGe的参数化，针对每个节点 \( j \) 及其可能的父节点集，定义一个正常-逆Wishart共轭先验。这个先验的选择经过精心设计，使得最终边际似然只依赖于拟合优度和DAG的复杂度（通过先验惩罚）。比已有文献更强/更特殊之处：作者在观测和干预数据上使用了同样的先验，且将干预目标视为额外的先验信息（即干预变量的父节点集对该节点的似然贡献被部分“忽略”）。这使得边际似然公式能够在干预目标已知下简单调整。
- 假设3：分数等价性（第2.3节引理1）：作者证明，对于任意两个在共同的干预后条件下是马尔可夫等价的DAG（即在所有干预目标下，反映出相同的条件独立性模式），它们享有的边际似然是相同的。这性质在经典的BGe中被称为分数等价性，对于贝叶斯模型平均和MCMC收敛是重要的。比已有文献更弱/放宽之处：在经典BGe中，分数等价性要求所有未观测的密度都满足一个积分条件（即分布属于某些指数族）。作者通过对干预数据的特殊处理（积分掉干预分布），巧妙地确保了这个性质依然成立。
- 假设4：高斯线性、无违反因子。图模型中的误差是独立同分布的高斯，且不会出现非凸牛顿-拉夫逊难以收敛的问题。
主要结果：
1. 定理1（后验比例一致性，第3节）：这是论文的核心理论贡献。条件是：
  - 真实DAG \( G^* \) 在所有干预下（已知 \( I_1, \dots, I_K \)）可以从等价类中被唯一识别（这通常成立，除非干预目标集太小）。
  - 似然函数和先验满足一定正则性条件。
  - 数据来自指定的模型。结论： \( \text{pr}(G = G^* | D) \xrightarrow[N \to \infty]{} 1 \) 几乎必然成立。即随着总样本量 \( N \) 增大，真实图的后验概率收敛到1。需要强调的关键点：这个结果只要求 \( N \to \infty \)；不要求 \( n_0 \) 或 \( n_1 \) 单独趋于无穷；不要求干预分布 \( g \) 的具体形式（即使它是严重有偏的，只要样本量大，仍能恢复）。这说明干预的作用主要是打破等价类，而具体的干预值分布不重要，只要干预目标已知。
2. 引理1（分数等价性）：确保了MCMC在不同DAG间跳跃时，分数不会因图的排列而任意变化。这增强了MCMC的收敛稳定性。
3. (次要结果) MCMC采样： 描述了一个具体的可逆跳转MCMC算法，包括三种提议（加边、减边、反转边），其中反转边需要额外小心。鉴于空间庞大，作者使用随机化的提议分布（random order proposal），这在高维下有助于探索。
证明路线与技术技巧：
- 整体路线：证明后验比例一致性，其基本思路是指出：后验概率 \( P(G^*|D) \to 1 \) 等价于对于任意其他图 \( G \)，
  \[\frac{P(G | D)}{P(G^* | D)} \xrightarrow{} 0.\]
  这个比值称为贝叶斯因子乘以先验鳌。
- 步骤1：写出似然比。利用BGe模型的闭式边际似然，将后验比转化为一个简单表达式。它由两个部分组成：一个与图的复杂度（即估计的参数数目）有关的惩罚项；一个是拟合优度项，它体现了数据对 \( G \) 和 \( G^* \) 的偏好。证明过程主要集中于估计拟合优度项。
- 步骤2：关键跳跃点：处理干预数据。在经典BGe（仅观测数据）的证明中，这是一个常规的BIC型论证，利用信息准则的一致性（Schwarz criterion）。然而，这里涉及干预数据。
  - 难点所在：经典BGe的边际似然等价于在一个隐变量分布（即共享的先验） 下的BIC近似。但这里的干预数据引入了不同的边际分布（由 \( g \) 产生），使得这个标准BIC论证不能直接应用于整个数据集。
  - 作者的办法：作者证明，在正确模型 \( G^* \) 下，观测和干预数据的边际似然是乘积形式，且每一部分（观测、干预）单独地都满足一个类似BIC的渐近展开。对于错误图 \( G \)，误差会显著更大。关键在于将干预数据似然中的干预分布部分（\( g \)）积分掉——这等价于在联合似然中将数据的部分边际分布视为辅助参数并忽略它。因此，无论 \( g \) 是什么形式，它在边际似然中的体现都是一个与模型结构和参数不相关的因子，不会影响模型间的比较。这使得他们可以部分应用BIC标准。
  - 具体技术技巧：
    1. 巧妙地对贡献进行分解：模型的边际似然可以写成两个部分：一个只与特定干预集有关的部分（被视作辅助参数积分掉），一个与所有观测和干预共同的参数有关的部分（依赖于图结构\( G \)）。
    2. 利用大数定律：拟合优度项最终可以表示为两个项的和：一个是模型参数的KL散度，另一个是 \( O_p(\sqrt{\log N/N}) \) 的随机项。证明中采取了标准方法，需要用到经验过程理论（但作者避开了高阶展开，直接使用最大似然估计的渐近正态性）。
    3. 利用permanently inconsistent condition：作者证明，任何不同于\( G^* \)的图\( G \)与真实模型在条件分布上的Kullback-Leibler散度是一个严格正数，从而确保了比值的衰减率是指数（而非多项式），因此后验比以速度 \( \exp(-cN) \) 趋于0，支持了"无论相对样本量"的鲁棒性。
真实例子与应用：
- 模拟验证（第5节）：
  - 用的什么数据/场景：利用\( p=8 \)和\( p=20 \)的随机DAG生成数据，干预设置模拟了两种典型的实验设计：1) 对每个变量单独干预一次（这效果好）；2) 只对一部分变量做干预（效果稍弱差）。生成了各种相对样本量 (\( n_0: n_1\) 比值)。
  - 怎么把方法用上去：作者实现并运行了他们设计的MCMC采样器。将"忽略干预"（reaBGe）和"正确利用干预"的方法进行对比。
  - 得到什么结果：1) 相比"忽略干预"的BGe方法，本文提出的方法（称为"intBGe"）在结构恢复率（结构汉明距离、SHD）上显著更好，尤其是当有足够干预数据时；2) 当只有极少的干预变量时（干预目标集很小），intBGe也能通过信息共享提升性能；3) MCMC对Mixing的表现比较满意，未出现极端不收敛情况。
  - 例子想说明什么：验证了后验比例一致性在有限样本下的直接体现：干预数据的确能提升识别，且方法对干预次数和样本量比例相对不敏感。
- 实际数据（蛋白表达数据）（第6节）：
  - 用的什么数据/场景：Saccharomyces cerevisiae 蛋白表达数据（Sachs et al., 2005）。这是一个经典的因果推断基准数据集：它既包含观测数据（未刺激的细胞），也包含多个干预实验数据（如通过药物干预特定蛋白）。
  - 怎么把方法用上去：选择了p=11个已知功能关键的蛋白节点。定义了已知的干预目标（即药物干预的蛋白）。使用intBGe进行后验MCMC采样。
  - 得到什么结果：1) intBGe能恢复出文献中比较公认的因果链（如RAF→MEK→ERK）；2) 与仅使用观测数据的方法对比，intBGe的边集合与已知生物知识符合得更好；3) 干预数据有助于发现一些观测数据下难以确定的边缘（如某种激酶的下游效应），增强了结构的生物解释性。
  - 例子想说明什么：展示了实际干预数据在结构推断上的优势，尤其突出了干预可辅助区分等价类的价值。
🔎 结论是否比证明窄：
- 定理1（后验一致性）的陈述与证明强度存在不匹配：作者在引言中声称“regardless of the specific distribution of the intervened variables...”。实际上，这个结论需要依赖于一个关键事实，即证明中依赖于\( g_k \)被积分掉这一事实。但对定量研究人员而言，这个论证需要应用贝叶斯因子一致性的一般理论，其速率（rate）以及何时这种速率可以保持（例如，当\( N \)很大但其中一个样本组（如\( n_1 \)）固定时，一致性是否仍然成立？）。定理1的证明似乎需要\( N \)整体趋于无穷，但没有要求单一组别趋于无穷。这比它日常用语的"任意相对样本量"弱吗？是的，定理标题暗示了"无论相对比例"，但证明引理中可能隐含了\( n_k \to \infty \)或至少在一个温和意义上\( N \to \infty \)。如果真实的实验设计是许多次小干预（每个实验\( n_k \)很小）但总实验数\( K \)很大（形成真正的多实验、小样本场景），一致性可能依赖于正则条件，例如是否存在一个"主干的"足够大样本的干预。因此，"无论相对比例"这句话的数学条件尚不清晰——应回到论文第3节的证明来核验对\( n_0/n_1 \)的刻画。
- 另一个窄化的点：方法只在点对点恢复（model selection）上给出了一致性证明，而没有涉及有向边的发生率（如通过贝叶斯模型平均） 的一致性。对于一个频率派严谨的统计学家而言，贝叶斯一致性是一个相对弱的性质——它主要保证了点后验众数的恢复，但高维下的贝叶斯模型平均（BMA）还需更多的假设。结论并未证明在不确定性量化（uncertainty quantification）上的一致性，例如后验包含真实图的概率是否趋近于1。这在因果推断中是更严格的标准。
- 关于MCMC：作者仅通过模拟检查了MCMC的收敛（Geweke统计量等），但未给出理论上的混合时间保证。在\( p \)较大时，MCMC混合性能是贝叶斯方法的常见瓶颈。结论隐含地假设了MCMC能在合理时间内找到高后验区域，这在\( p=20 \)时也许成立，但可以在\( p=1000 \)的真实蛋白质组学数据中是否成立，是没有保证的。

四、开放问题（点到为止，扎根具体语句）¶

后验一致性的速率（rate of consistency）：定理1证明了后验比例一致，但未给出收敛速率。它是否接近BIC的最优收敛速率（即 \( \exp(-cN) \)）？或是受限于较慢的速率（如适用于稀疏的Lasso型收缩方法）？扎根于定理1的证明，它使用了极大似然估计的渐近正态性，但未涉及参数误差的高概率界（non-asymptotic bounds）。研究者可以去检查证明中KL散度是否是 \( \Omega(1) \) 量级，并尝试给出一个有限样本的指数率，这将是极其直接的扩展——只需要借用标准的BIC一致性证明即可。
高维（p >> n）下的表现：论文仅在p=8和p=20上做了模拟。当p远大于样本量（例如p>1000，n<100）时，该方法是否还能保持一致性？ 此时的贝叶斯先验很可能需要强制稀疏，但该文章未探索。扎根于第2.2节的假设：他们使用的BGe先验实际上是关于每个节点的父节点数量的惩罚。但这在p=n太大时，任何固定的先验都会导致后验分布集中在过度复杂的模型上。研究这个问题需要用到高维贝叶斯一致性的理论（如让先验的复杂度惩罚随p增长），这是一个有吸引力的方向。
未知干预目标时的识别：论文最关键的外部有效性短板是假设干预目标已知。在许多真实实验中（如CRISPR筛选或环境暴露研究，你施加了扰动但不知道具体影响了哪个蛋白/基因），干预目标是未知的。如何联合学习干预目标与图结构？这个识别问题在理论上是困难的（存在一个未标记的干预域），但可以研究在某些较弱的假设下（如干预目标非稀疏或每个干预只影响一个变量）的贝叶斯方法。扎根于作者在引言中承认的“已知干预目标”的假设，也来自MCMC算法中对干预目标作为已知定点的依赖。
分数等价性的精细分析：作者证明了他们的边际似然满足干预后等价类的分数等价性。这个性质在多大程度上限制了模型的可识别性？ 例如，是否存在某些干预后仍无法区分的拓扑结构（post-intervention equivalence classes of a certain kind）？作者在引理1中给出了定义，但未给出这些等价类的完整图解（例如与Hauser & Bühlmann (2012) 的干预等价类有何区别）。建议研究者去读一下Hauser & Bühlmann (2012) 和Chickering (2002)，比较这三种等价类的"粗细"，看看是否有标签互换（label switching）导致的不可识别图。这会是一个理论性较强的开放问题。

Maintained by 陈星宇 · Homepage · Source on GitHub