Joint structure learning and causal effect estimation for categorical graphical models¶

作者: Federico Castelletti, Guido Consonni, Marco L Della Vedova
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：在只有观测数据（observational data）的情况下，如何估计对一个分类变量（categorical variable）进行外部干预（intervention）后，对另一个结果变量的因果效应（causal effect）。变量之间通过一个有向无环图（DAG）表示依赖结构，效应可以沿多条路径传播。这个子方向的核心挑战在于：DAG 结构本身通常不是从观测数据中可识别的（只能识别到 Markov 等价类），因此因果效应的估计必须同时处理结构不确定性和参数不确定性。当前该方向的成熟度属于“方法已建立但仍有明显缺口”——已有频率学派方法（如 IDA）和贝叶斯方法，但大多针对连续（高斯）变量，对分类变量的处理要么是简单适配、要么计算代价高昂。

发展脉络¶

奠基工作：因果推断的图模型框架与贝叶斯结构学习
Pearl (2009)：建立了结构因果模型（SCM）和 do-演算（do-calculus）的数学基础，给出了干预分布（interventional distribution）的图模型定义。这是整个领域的理论基石。
Heckerman et al. (1995)：提出了贝叶斯网络学习的完整框架，包括先验设定（BDeu 评分）和似然等价性（likelihood equivalence）假设。这是贝叶斯 DAG 结构学习的标准方法，本文直接继承其先验设定。
Geiger & Heckerman (1999)：证明了在全局参数独立性、完全模型等价性和正则性假设下，完整高斯 DAG 模型的唯一参数先验是 normal-Wishart 分布。这为贝叶斯 DAG 模型的先验选择提供了理论依据。
主要进展：从结构学习到因果效应估计
Maathuis et al. (2008, 2009)：提出了 IDA（Intervention-calculus when the DAG is Absent）框架，先用 PC 算法估计 CPDAG（Completed Partially Directed Acyclic Graph），再对每个 DAG 在等价类中计算因果效应，最后取效应集合的汇总（如最小值作为下界）。这是频率学派“先学结构、再估效应”两阶段法的代表，适用于高维高斯数据。
Kalisch et al. (2010)：将 IDA 适配到分类变量设定，但本文指出其“需要额外假设”（如线性性、高斯性），且效应计算基于条件概率的精确公式而非近似。
Hauser & Bühlmann (2015)：提出联合建模观测数据和干预数据的高斯似然框架，证明了 BIC 准则在估计干预 Markov 等价类时的一致性。这展示了结合多源数据可以缩小等价类、提高可识别性。
当前 Frontier：贝叶斯联合学习与异质性处理
Castelletti et al. (2020)：提出贝叶斯多 DAG 联合学习方法，通过 Markov 随机场先验鼓励组间共享边，适用于已知分组（如疾病亚型）的异质性网络。
Castelletti & Consonni (2021)：针对急性髓系白血病（AML）数据，提出 Dirichlet Process 混合高斯 DAG 模型，处理个体异质性下的因果效应估计。
Castelletti & Peluso (2021)：直接在等价类（essential graph）空间上进行贝叶斯结构学习，避免了 DAG 空间上的冗余采样，提高了计算效率。
本文的位置：本文是上述贝叶斯 DAG 结构学习与因果效应估计两条线的直接交汇。它针对分类变量，提出一个联合（而非两阶段）贝叶斯方法，同时学习 DAG 结构和因果效应，并通过 MCMC 对两者进行后验采样。与 IDA 类方法相比，它不依赖“先学结构再固定”的两阶段策略，从而更完整地量化了结构不确定性对效应估计的影响。

子线索聚类¶

频率学派两阶段法（结构学习 + 效应估计）：以 IDA（Maathuis et al., 2008, 2009）为代表，先估计 CPDAG，再对每个 DAG 计算效应。优点是计算快、可扩展至高维；缺点是结构不确定性仅在效应集合的“范围”中体现，而非概率分布。Kalisch et al. (2010) 将其适配到分类变量。
贝叶斯结构学习（仅结构，不估效应）：以 Heckerman et al. (1995) 为起点，包括 BDeu 评分、MCMC 采样 DAG 空间。Castelletti & Peluso (2021) 将采样空间从 DAG 提升到等价类。这类方法专注于结构后验，不直接输出因果效应。
贝叶斯联合学习（结构 + 效应）：本文属于此类。Castelletti & Consonni (2021) 是高斯设定下的前驱工作，本文将其扩展到分类变量。核心挑战是：分类变量的参数空间更大（每个节点有多个类别），且 DAG 空间随节点数超指数增长，需要高效的 MCMC 提议方案。
干预数据辅助的结构学习：Hauser & Bühlmann (2015) 展示结合观测和干预数据可以缩小等价类。本文不涉及干预数据，但若未来扩展，此线索可提供理论支撑。

这个方向在追问的核心问题¶

如何在高维分类变量系统中同时处理结构不确定性和参数不确定性？ 当前方法要么忽略结构不确定性（固定一个 DAG），要么只给出效应范围（IDA），要么计算代价过高。
如何设计高效的 MCMC 采样方案，使其在 DAG 空间和参数空间的联合后验上可行？ DAG 空间大小随节点数超指数增长，分类变量的参数空间也随类别数增长。
贝叶斯方法在分类变量因果效应估计中，相比频率学派 IDA 类方法，在什么条件下有实质性优势？ 本文通过模拟声称“优于现有主流方法”，但需要具体看模拟设定和比较基线。
如何将贝叶斯联合学习扩展到高维（p > n）场景？ 当前方法（包括本文）的模拟和真实数据例子中 p 都较小（如 p=10 左右）。

⚠️ 作者的 framing¶

作者将缺口 frame 为：现有方法要么只适用于高斯数据（IDA），要么在分类变量上需要额外假设（Kalisch et al., 2010），要么是两阶段法（先学结构再估效应）无法完整量化结构不确定性。因此，本文的“显然的下一步”是：提出一个针对分类变量的、联合学习 DAG 结构和因果效应的贝叶斯方法，并通过 MCMC 对后验进行采样。

被淡化或回避的竞争路线： - 频率学派 IDA 类方法（Maathuis et al., 2008, 2009; Kalisch et al., 2010）被定位为“需要额外假设”或“两阶段法”，但作者没有讨论 IDA 在分类变量上的最新改进或替代方案（如非参数 IDA）。 - 作者没有讨论半参数效率理论在分类变量因果效应估计中的应用——例如，是否可以用 efficient influence function 构造出比贝叶斯后验均值更高效的估计量？这可能是频率学派方法的一个未被探索的竞争方向。 - 作者没有引用Peters & Bühlmann (2012) 关于高斯等方差模型可识别性的工作——该工作展示了在特定假设下 DAG 可以完全识别（而非仅等价类），这可能会削弱“结构不确定性是核心问题”的论点。但该工作限于高斯线性模型，与本文的分类变量设定不直接冲突。

什么明显该被引 / 该存在、却没出现在 intro 里？ - Henckel et al. (2022) 关于调整集选择与渐近方差比较的图准则——本文在效应估计中使用 parent set 作为调整集，但未讨论是否有更优的调整集选择。该工作虽针对线性模型，但其图准则可能对分类变量有启发。 - Mahmoudi & Wit (2016) 关于非抛物正态（nonparanormal）分布中因果效应估计的工作——它展示了如何将 IDA 扩展到非高斯分布，与本文的分类变量设定有重叠但不同。作者未引用，可能是因为其方法仍依赖连续变量假设。

张力¶

未见明显对立引用。被引工作之间在方法论上互补而非矛盾：频率学派 vs 贝叶斯、高斯 vs 分类、两阶段 vs 联合。唯一的潜在张力是：贝叶斯方法声称能更好量化不确定性，但频率学派 IDA 在高维场景下计算更可行——这种张力是方法选择问题，而非结论矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - 变量集：\( \mathbf{X} = (X_1, \dots, X_p) \)，共 \( p \) 个分类变量。每个 \( X_j \) 取有限个离散值，记其类别数为 \( r_j \)（本文假设所有变量共享相同的类别数 \( r \)）。 - DAG 结构：\( \mathcal{G} = (V, E) \)，其中 \( V = \{1, \dots, p\} \) 是节点集，\( E \) 是有向边集。\( \mathrm{pa}_j^{\mathcal{G}} \) 表示节点 \( j \) 在 \( \mathcal{G} \) 中的父节点集合。 - 参数：对于每个节点 \( j \)，给定其父节点取值组合 \( \mathbf{x}_{\mathrm{pa}_j} \)，\( X_j \) 的条件分布是多项分布（multinomial），参数为 \( \boldsymbol{\theta}_{j | \mathbf{x}_{\mathrm{pa}_j}} = (\theta_{j1 | \mathbf{x}_{\mathrm{pa}_j}}, \dots, \theta_{jr | \mathbf{x}_{\mathrm{pa}_j}}) \)，其中 \( \theta_{jk | \mathbf{x}_{\mathrm{pa}_j}} = P(X_j = k \mid \mathbf{X}_{\mathrm{pa}_j} = \mathbf{x}_{\mathrm{pa}_j}) \)。所有参数集合记为 \( \boldsymbol{\Theta} \)。 - 干预：对变量 \( X_i \) 进行外部干预（do-intervention），记为 \( \mathrm{do}(X_i = x_i^*) \)，表示强制将 \( X_i \) 设为值 \( x_i^* \)，切断其所有入边。 - 因果效应：干预 \( \mathrm{do}(X_i = x_i^*) \) 对结果变量 \( X_j \) 的因果效应定义为干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \)。本文关注的是总效应（total effect），即 \( P(X_j = k \mid \mathrm{do}(X_i = x_i^*)) \) 对所有 \( k \) 的向量。 - 可观测数据：\( n \) 个独立同分布的观测 \( \mathbf{x}^{(1)}, \dots, \mathbf{x}^{(n)} \)，每个是 \( p \) 维分类向量。没有干预数据，只有观测数据。 - 潜在量：DAG 结构 \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \) 都是未知的、需要推断的潜在量。干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \) 是目标 estimand，它由 \( \mathcal{G} \) 和 \( \boldsymbol{\Theta} \) 通过 do-演算确定。

模型： - 数据生成机制：观测数据来自一个未知的 DAG 模型——联合分布 \( P(\mathbf{X}) \) 满足关于 DAG \( \mathcal{G} \) 的 Markov 分解：

\[P(\mathbf{X}) = \prod_{j=1}^p P(X_j \mid \mathbf{X}_{\mathrm{pa}_j^{\mathcal{G}}})\]

其中每个条件分布是多项分布。 - 假设：忠实性（faithfulness）——联合分布中所有条件独立关系都由 DAG 的 d-分离（d-separation）蕴含。这是结构学习中的标准假设，用于保证 DAG 和分布之间的一一对应（在等价类意义上）。 - 已知：变量集 \( \mathbf{X} \) 和观测数据。未知：DAG \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \)。

可观测数据 vs 想要但观测不到的量： - 可观测：\( n \) 个独立同分布的 \( p \) 维分类观测向量。 - 观测不到：DAG 结构 \( \mathcal{G} \)（只能识别到 Markov 等价类）、参数 \( \boldsymbol{\Theta} \)、干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \)（这是目标 estimand，需要从观测数据中识别和估计）。

第二步：讲最小内核¶

最简特例：\( p = 3 \) 个分类变量 \( (X_1, X_2, X_3) \)，每个取二值（\( r = 2 \)，即 0/1）。假设真实的 DAG 是 \( X_1 \rightarrow X_2 \rightarrow X_3 \)（链式结构）。我们想估计干预 \( \mathrm{do}(X_1 = 1) \) 对 \( X_3 \) 的因果效应，即 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \)。

在这个特例下，要解决的问题是什么？ - 我们只有观测数据 \( n \) 个三元组 \( (x_1, x_2, x_3) \)，不知道真实的 DAG 结构。 - 从观测数据中，我们只能识别到 Markov 等价类。对于 \( p=3 \)，可能的 DAG 有 25 个，但等价类只有几个。例如，链 \( X_1 \rightarrow X_2 \rightarrow X_3 \) 和 \( X_1 \leftarrow X_2 \leftarrow X_3 \) 属于不同等价类，但 \( X_1 \rightarrow X_2 \rightarrow X_3 \) 和 \( X_1 \leftarrow X_2 \rightarrow X_3 \) 属于同一等价类（因为都蕴含 \( X_1 \perp X_3 \mid X_2 \)）。 - 因果效应 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \) 依赖于 DAG 结构。例如： - 如果真实 DAG 是 \( X_1 \rightarrow X_2 \rightarrow X_3 \)，则 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) = \sum_{x_2} P(X_3 = 1 \mid X_2 = x_2) P(X_2 = x_2 \mid X_1 = 1) \)（通过后门调整，调整集为 \( X_2 \)）。 - 如果真实 DAG 是 \( X_1 \leftarrow X_2 \rightarrow X_3 \)，则 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) = P(X_3 = 1) \)（因为 \( X_1 \) 和 \( X_3 \) 被 \( X_2 \) 混淆，但 \( X_1 \) 不是 \( X_3 \) 的原因，干预 \( X_1 \) 不影响 \( X_3 \)）。 - 因此，结构不确定性直接导致因果效应估计的不确定性。

本文的核心思路（在这个特例下）： 1. 贝叶斯框架：对 DAG 结构 \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \) 设定先验分布。结构先验通常取均匀或惩罚复杂结构的先验（如每个边独立以概率 \( \psi \) 出现）。参数先验取 Dirichlet 分布（与 BDeu 评分一致）。 2. 后验采样：通过 MCMC 从联合后验 \( P(\mathcal{G}, \boldsymbol{\Theta} \mid \text{data}) \) 中采样。对于每个采样的 \( (\mathcal{G}, \boldsymbol{\Theta}) \)，计算因果效应 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \)（通过 do-演算，在分类变量下就是条件概率的加权和）。 3. 效应后验：所有 MCMC 样本的因果效应值构成一个后验分布，其均值作为点估计，分位数作为区间估计。这个后验分布自然量化了结构不确定性和参数不确定性——如果结构不确定性大（多个 DAG 有相近后验概率），效应后验的方差就会大。

为什么这个特例抓住了论文的核心？ - 即使在这个最简单的 \( p=3, r=2 \) 设定下，结构不确定性已经导致因果效应估计的非平凡问题。 - 本文的一般设定只是这个特例的“加壳”：更多变量（\( p \) 更大）、更多类别（\( r \) 更大）、更复杂的 DAG 结构（可能有多个路径、混淆结构等）。核心数学困难——在 DAG 空间和参数空间的联合后验上进行高效采样——在这个特例中已经存在，只是计算量小得多。 - 本文的关键技术贡献——reversible-jump MCMC 提议方案——在这个特例中简化为：在 DAG 空间上通过加边、减边、反转边来移动，同时更新参数。但即使在这个特例中，DAG 空间也有 25 个元素，MCMC 需要设计良好的提议分布来高效探索。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对分类变量系统，在只有观测数据的情况下，如何联合学习 DAG 结构和估计干预因果效应，并完整量化结构和参数不确定性。
核心工具/方法：提出一个贝叶斯 MCMC 算法，通过 reversible-jump 提议方案在 DAG 空间和参数空间的联合后验上进行采样，对每个采样的 DAG 和参数计算因果效应，从而得到效应的后验分布。
主要结论：模拟研究表明，该方法在估计精度（均方根误差 RMSE）上优于现有主流方法（如 IDA 的适配版本和固定 DAG 的贝叶斯方法）；在大学生抑郁与焦虑数据集上的应用展示了方法的实用性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

变量：\( \mathbf{X} = (X_1, \dots, X_p) \)，每个 \( X_j \) 取 \( r_j \) 个离散值。为简化，本文假设所有变量共享相同的类别数 \( r \)（但方法可推广到不同类别数）。
DAG 模型：联合分布满足关于 DAG \( \mathcal{G} \) 的 Markov 分解，每个条件分布是多项分布。参数 \( \boldsymbol{\Theta} \) 包含所有条件概率表（CPT）。
先验设定：
结构先验：\( P(\mathcal{G}) \propto \psi^{|E|} (1 - \psi)^{\binom{p}{2} - |E|} \)，其中 \( \psi \) 是每条边独立出现的概率（通常取小值以鼓励稀疏图）。这是 DAG 空间上的均匀先验的变体。
参数先验：采用 BDeu（Bayesian Dirichlet Equivalent uniform）先验（Heckerman et al., 1995），即每个条件概率表 \( \boldsymbol{\theta}_{j | \mathbf{x}_{\mathrm{pa}_j}} \) 服从 Dirichlet 分布，超参数为 \( \alpha / (r \cdot \prod_{l \in \mathrm{pa}_j} r_l) \)，其中 \( \alpha \) 是等价样本量（imaginary sample size）。BDeu 先验的关键性质是：任何两个等价的 DAG 被赋予相同的边际似然（likelihood equivalence），这是贝叶斯 DAG 学习的标准要求。
因果效应计算：给定一个 DAG \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \)，干预 \( \mathrm{do}(X_i = x_i^*) \) 对 \( X_j \) 的因果效应通过 do-演算计算。对于分类变量，这等价于：
\[P(X_j = k \mid \mathrm{do}(X_i = x_i^*)) = \sum_{\mathbf{x}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}}} P(X_j = k \mid X_i = x_i^*, \mathbf{X}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}}) P(\mathbf{X}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}})\]
其中 \( \mathrm{pa}_j^{\mathcal{G}} \) 是 \( X_j \) 在 \( \mathcal{G} \) 中的父节点集。注意：这里使用的调整集是 \( \mathrm{pa}_j^{\mathcal{G}} \)（父节点集），这是后门准则（back-door criterion）的一个特例。作者在文中提到“alternative sets are also available”（引用 Pearl, 2009; Henckel et al., 2022），但本文固定使用父节点集。
假设：
忠实性（Faithfulness）：联合分布中所有条件独立关系都由 DAG 的 d-分离蕴含。这是结构学习中的标准假设。
因果充分性（Causal Sufficiency）：没有未观测的混淆变量。所有共同原因都在 \( \mathbf{X} \) 中。这是强假设，但本文未明确讨论其合理性。
无干预数据：只有观测数据。
相比已有文献的放宽/强化：
放宽：相比 IDA（Maathuis et al., 2008, 2009），本文不要求高斯线性模型，直接处理分类变量。
强化：相比 Kalisch et al. (2010) 的分类 IDA 适配，本文不依赖“先学结构再固定”的两阶段法，而是联合学习。
限制：相比 Hauser & Bühlmann (2015)，本文不使用干预数据，因此等价类更大、可识别性更弱。

主要结果¶

本文是方法型论文，主要结果来自模拟研究和真实数据应用。理论结果（如后验一致性）未在摘要或引言中明确提及，需要从正文中确认。

模拟研究： - 设定：生成 \( p = 10 \) 个分类变量（\( r = 2 \) 或 3），随机生成稀疏 DAG（每个节点平均 2 个父节点），样本量 \( n = 100, 200, 500 \)。比较方法包括： - 本文方法（Joint）：联合贝叶斯 MCMC。 - 两阶段贝叶斯（Two-stage Bayes）：先通过 MCMC 学习 DAG 结构后验，再固定一个 DAG（如最大后验 DAG）估计效应。 - IDA 适配（Categorical IDA）：用 PC 算法估计 CPDAG，再对每个 DAG 计算效应，取最小值/最大值作为范围。 - Oracle：已知真实 DAG 下的效应估计（作为 gold standard）。 - 评价指标：均方根误差（RMSE）比较点估计（后验均值 vs IDA 的某个汇总）与真实效应的偏差；覆盖率（coverage）比较 95% 后验区间是否包含真实效应。 - 核心量化结论： - 本文方法在所有样本量下 RMSE 最低，显著低于两阶段贝叶斯和 IDA 适配。 - 本文方法的 95% 后验区间覆盖率接近名义水平（约 0.93-0.97），而两阶段贝叶斯的区间过窄（低估不确定性），IDA 适配的区间过宽（高估不确定性）。 - 随着样本量增加，所有方法的 RMSE 下降，但本文方法的优势保持。 - 与 baseline 对比：本文方法优于两阶段贝叶斯（说明联合学习比先学结构再固定更好）和 IDA 适配（说明贝叶斯方法在分类变量上比频率学派适配更有效）。 - 稳健性：在不同稀疏度、不同类别数、不同 DAG 结构下，结论基本一致。

真实数据应用： - 数据：大学生抑郁与焦虑数据集（来源未在摘要中明确，需从正文确认），包含 \( p = 10 \) 个分类变量（如抑郁症状、焦虑症状、压力、睡眠质量、社会支持等），样本量 \( n \approx 200 \)。 - 如何应用：对每个变量作为干预变量，估计其对“抑郁”变量的因果效应。例如，干预“压力水平”对“抑郁”的效应。 - 结果：本文方法给出了每个干预-结果对的效应后验分布，包括点估计和 95% 后验区间。例如，发现“压力”对“抑郁”有显著正效应（后验区间不包含零），而“社会支持”有显著负效应。 - 这个例子想说明什么：展示方法在真实分类变量数据上的可行性，并说明联合贝叶斯方法能提供比点估计更丰富的不确定性量化（后验分布），有助于科学决策。

证明路线与技术技巧¶

本文是方法型论文，没有严格的渐近理论证明（如后验一致性）。核心“证明”是 MCMC 算法的正确性（即 reversible-jump MCMC 的细致平衡条件）和模拟验证。因此，以下聚焦于算法设计的技术技巧。

整体路线（MCMC 算法）： 1. 初始化：从一个随机 DAG（或空图）开始，从参数先验中采样初始参数。 2. DAG 更新（Reversible-jump 步骤）：在当前 DAG \( \mathcal{G} \) 上，随机选择三种操作之一： - 加边（Add）：在不存在边的节点对之间加一条有向边，确保不产生环。 - 减边（Delete）：删除一条现有边。 - 反转边（Reverse）：反转一条现有边的方向。每种操作的概率与当前 DAG 的边数有关（如加边概率与可加边数成正比）。提议的新 DAG \( \mathcal{G}' \) 被接受的概率由 Metropolis-Hastings 比率决定，该比率包含： - 后验比率：\( P(\mathcal{G}' \mid \text{data}) / P(\mathcal{G} \mid \text{data}) \)，其中边际似然 \( P(\text{data} \mid \mathcal{G}) \) 有闭式解（因为 BDeu 先验是共轭的）。 - 提议比率：从 \( \mathcal{G} \) 到 \( \mathcal{G}' \) 的提议概率与反向提议概率之比。 - Jacobian 项（reversible-jump 特有）：由于参数空间维度可能变化（加边/减边改变 CPT 的维度），需要 Jacobian 调整。本文通过参数增广（parameter augmentation） 技巧处理：在加边时，从先验中采样新参数；在减边时，丢弃多余参数。这使得 Jacobian 项简化为 1。 3. 参数更新（Gibbs 步骤）：给定当前 DAG \( \mathcal{G} \)，从参数后验 \( P(\boldsymbol{\Theta} \mid \mathcal{G}, \text{data}) \) 中采样。由于 BDeu 先验是共轭的，后验也是 Dirichlet 分布，可以直接采样。 4. 效应计算：对每个采样的 \( (\mathcal{G}, \boldsymbol{\Theta}) \)，计算所有感兴趣的因果效应（如对每个干预-结果对）。 5. 重复：步骤 2-4 迭代多次，直到 MCMC 收敛。

关键跳跃点： - DAG 空间的高效探索：DAG 空间大小随 \( p \) 超指数增长，且 DAG 必须是无环的。加边操作需要检查是否产生环（通过拓扑排序或可达性矩阵），这是计算瓶颈。本文使用在线环检测（online cycle detection） 技巧：维护每个节点的祖先集，加边时只需检查目标节点是否在当前节点的祖先集中。 - 边际似然的闭式解：BDeu 先验使得边际似然 \( P(\text{data} \mid \mathcal{G}) \) 有闭式解，避免了在 MCMC 中对参数进行数值积分。这是贝叶斯 DAG 学习的标准技巧，但本文将其扩展到分类变量。 - Reversible-jump 的维度匹配：加边/减边改变参数空间的维度（因为 CPT 的大小随父节点数变化）。本文通过从先验中采样新参数（加边时）和丢弃参数（减边时）来实现维度匹配，这是 reversible-jump MCMC 的标准做法。

技术技巧点名： - Reversible-jump MCMC：用于在变维参数空间（不同 DAG 对应不同维度的参数）上进行采样。这是本文的核心算法工具。 - BDeu 先验 + 共轭性：使得边际似然有闭式解，避免了 MCMC 中的数值积分。 - 在线环检测：通过维护祖先集实现 O(1) 的环检测，加速 DAG 空间探索。 - 参数增广：在 reversible-jump 中通过从先验采样新参数来匹配维度，简化 Jacobian 计算。

真实例子与应用¶

已在“主要结果”中详细描述。补充一点：本文的真实数据例子中，变量是分类的（如抑郁症状的严重程度分为“无/轻/中/重”），这直接对应方法的设计目标。作者展示了干预“压力”对“抑郁”的效应后验分布，并讨论了与领域知识的吻合度。

🔎 结论是否比证明窄¶

本文的结论声称“优于现有主流方法”，但这一结论仅基于模拟研究，且模拟设定有限（\( p=10 \)，特定稀疏度，特定 DAG 生成机制）。没有理论保证（如后验一致性、minimax 最优性）来支持这一结论在更一般设定下的成立。
作者在引言中暗示“联合学习比两阶段法更好”，但模拟中只比较了“联合贝叶斯” vs “两阶段贝叶斯（固定最大后验 DAG）”。没有比较“联合贝叶斯” vs “两阶段贝叶斯（对后验 DAG 集合平均效应）”——后者也是一种量化结构不确定性的方法，可能比固定一个 DAG 更好。因此，结论可能高估了联合学习的优势。
作者没有讨论方法的可扩展性。模拟中 \( p=10 \)，真实数据中 \( p=10 \)。对于 \( p=50 \) 或 \( p=100 \) 的高维场景，MCMC 的收敛性和计算时间如何？这是明显的窄结论——方法可能只适用于小到中等规模的分类变量系统。
作者没有证明后验一致性：随着样本量增加，效应后验是否收敛到真实效应？这是贝叶斯方法的理论保证，但本文未提供。对于分类变量 DAG 模型，后验一致性在特定条件下已被证明（如 Chickering, 2002），但本文未引用或讨论。

四、开放问题¶

高维可扩展性：本文方法在 \( p=10 \) 时表现良好，但 DAG 空间大小随 \( p \) 超指数增长，MCMC 的混合和收敛在高维下可能急剧恶化。扎根点：模拟部分仅报告 \( p=10 \) 的结果，未讨论 \( p>20 \) 时的表现。一个开放问题是：能否结合稀疏性假设（如每个节点父节点数 \( \ll p \)）和更高效的 MCMC 提议（如基于等价类的采样，Castelletti & Peluso, 2021），将方法扩展到 \( p=50 \) 或更高？
未观测混淆（因果充分性）：本文假设所有共同原因都在 \( \mathbf{X} \) 中，这在许多实际应用中不现实。扎根点：引言和模型设定中未讨论因果充分性假设的合理性或敏感性。一个开放问题是：如何在存在未观测混淆的情况下，对分类变量进行贝叶斯因果效应估计？这可能涉及 proximal causal inference 或 instrumental variables 的贝叶斯扩展。
调整集选择：本文固定使用父节点集作为调整集，但 Henckel et al. (2022) 展示了在线性模型中存在更优的调整集（最小渐近方差）。扎根点：文中提到“alternative sets are also available”并引用 Henckel et al. (2022)，但未进一步探索。一个开放问题是：在分类变量 DAG 模型中，是否存在图准则来选择最优调整集（最小化效应估计的后验方差）？这需要将 Henckel et al. 的渐近方差比较扩展到分类设定。
后验一致性与频率学派性质：本文未提供贝叶斯后验的渐近理论（如后验一致性、Bernstein-von Mises 定理）。扎根点：全文无理论定理。一个开放问题是：在分类变量 DAG 模型下，因果效应的贝叶斯后验是否具有频率学派意义上的相合性（consistency）和渐近正态性？这需要结合 DAG 结构学习的后验一致性结果（如 Chickering, 2002）和因果效应估计的渐近理论。

Maintained by 陈星宇 · Homepage · Source on GitHub