Joint structure learning and causal effect estimation for categorical graphical models¶
作者: Federico Castelletti, Guido Consonni, Marco L Della Vedova
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的根本问题是:在只有观测数据(observational data)的情况下,如何估计对一个分类变量(categorical variable)进行外部干预(intervention)后,对另一个结果变量的因果效应(causal effect)。变量之间通过一个有向无环图(DAG)表示依赖结构,效应可以沿多条路径传播。这个子方向的核心挑战在于:DAG 结构本身通常不是从观测数据中可识别的(只能识别到 Markov 等价类),因此因果效应的估计必须同时处理结构不确定性和参数不确定性。当前该方向的成熟度属于“方法已建立但仍有明显缺口”——已有频率学派方法(如 IDA)和贝叶斯方法,但大多针对连续(高斯)变量,对分类变量的处理要么是简单适配、要么计算代价高昂。
发展脉络¶
- 奠基工作:因果推断的图模型框架与贝叶斯结构学习
- Pearl (2009):建立了结构因果模型(SCM)和 do-演算(do-calculus)的数学基础,给出了干预分布(interventional distribution)的图模型定义。这是整个领域的理论基石。
- Heckerman et al. (1995):提出了贝叶斯网络学习的完整框架,包括先验设定(BDeu 评分)和似然等价性(likelihood equivalence)假设。这是贝叶斯 DAG 结构学习的标准方法,本文直接继承其先验设定。
-
Geiger & Heckerman (1999):证明了在全局参数独立性、完全模型等价性和正则性假设下,完整高斯 DAG 模型的唯一参数先验是 normal-Wishart 分布。这为贝叶斯 DAG 模型的先验选择提供了理论依据。
-
主要进展:从结构学习到因果效应估计
- Maathuis et al. (2008, 2009):提出了 IDA(Intervention-calculus when the DAG is Absent)框架,先用 PC 算法估计 CPDAG(Completed Partially Directed Acyclic Graph),再对每个 DAG 在等价类中计算因果效应,最后取效应集合的汇总(如最小值作为下界)。这是频率学派“先学结构、再估效应”两阶段法的代表,适用于高维高斯数据。
- Kalisch et al. (2010):将 IDA 适配到分类变量设定,但本文指出其“需要额外假设”(如线性性、高斯性),且效应计算基于条件概率的精确公式而非近似。
-
Hauser & Bühlmann (2015):提出联合建模观测数据和干预数据的高斯似然框架,证明了 BIC 准则在估计干预 Markov 等价类时的一致性。这展示了结合多源数据可以缩小等价类、提高可识别性。
-
当前 Frontier:贝叶斯联合学习与异质性处理
- Castelletti et al. (2020):提出贝叶斯多 DAG 联合学习方法,通过 Markov 随机场先验鼓励组间共享边,适用于已知分组(如疾病亚型)的异质性网络。
- Castelletti & Consonni (2021):针对急性髓系白血病(AML)数据,提出 Dirichlet Process 混合高斯 DAG 模型,处理个体异质性下的因果效应估计。
-
Castelletti & Peluso (2021):直接在等价类(essential graph)空间上进行贝叶斯结构学习,避免了 DAG 空间上的冗余采样,提高了计算效率。
-
本文的位置:本文是上述贝叶斯 DAG 结构学习与因果效应估计两条线的直接交汇。它针对分类变量,提出一个联合(而非两阶段)贝叶斯方法,同时学习 DAG 结构和因果效应,并通过 MCMC 对两者进行后验采样。与 IDA 类方法相比,它不依赖“先学结构再固定”的两阶段策略,从而更完整地量化了结构不确定性对效应估计的影响。
子线索聚类¶
-
频率学派两阶段法(结构学习 + 效应估计):以 IDA(Maathuis et al., 2008, 2009)为代表,先估计 CPDAG,再对每个 DAG 计算效应。优点是计算快、可扩展至高维;缺点是结构不确定性仅在效应集合的“范围”中体现,而非概率分布。Kalisch et al. (2010) 将其适配到分类变量。
-
贝叶斯结构学习(仅结构,不估效应):以 Heckerman et al. (1995) 为起点,包括 BDeu 评分、MCMC 采样 DAG 空间。Castelletti & Peluso (2021) 将采样空间从 DAG 提升到等价类。这类方法专注于结构后验,不直接输出因果效应。
-
贝叶斯联合学习(结构 + 效应):本文属于此类。Castelletti & Consonni (2021) 是高斯设定下的前驱工作,本文将其扩展到分类变量。核心挑战是:分类变量的参数空间更大(每个节点有多个类别),且 DAG 空间随节点数超指数增长,需要高效的 MCMC 提议方案。
-
干预数据辅助的结构学习:Hauser & Bühlmann (2015) 展示结合观测和干预数据可以缩小等价类。本文不涉及干预数据,但若未来扩展,此线索可提供理论支撑。
这个方向在追问的核心问题¶
- 如何在高维分类变量系统中同时处理结构不确定性和参数不确定性? 当前方法要么忽略结构不确定性(固定一个 DAG),要么只给出效应范围(IDA),要么计算代价过高。
- 如何设计高效的 MCMC 采样方案,使其在 DAG 空间和参数空间的联合后验上可行? DAG 空间大小随节点数超指数增长,分类变量的参数空间也随类别数增长。
- 贝叶斯方法在分类变量因果效应估计中,相比频率学派 IDA 类方法,在什么条件下有实质性优势? 本文通过模拟声称“优于现有主流方法”,但需要具体看模拟设定和比较基线。
- 如何将贝叶斯联合学习扩展到高维(p > n)场景? 当前方法(包括本文)的模拟和真实数据例子中 p 都较小(如 p=10 左右)。
⚠️ 作者的 framing¶
作者将缺口 frame 为:现有方法要么只适用于高斯数据(IDA),要么在分类变量上需要额外假设(Kalisch et al., 2010),要么是两阶段法(先学结构再估效应)无法完整量化结构不确定性。因此,本文的“显然的下一步”是:提出一个针对分类变量的、联合学习 DAG 结构和因果效应的贝叶斯方法,并通过 MCMC 对后验进行采样。
被淡化或回避的竞争路线: - 频率学派 IDA 类方法(Maathuis et al., 2008, 2009; Kalisch et al., 2010)被定位为“需要额外假设”或“两阶段法”,但作者没有讨论 IDA 在分类变量上的最新改进或替代方案(如非参数 IDA)。 - 作者没有讨论半参数效率理论在分类变量因果效应估计中的应用——例如,是否可以用 efficient influence function 构造出比贝叶斯后验均值更高效的估计量?这可能是频率学派方法的一个未被探索的竞争方向。 - 作者没有引用Peters & Bühlmann (2012) 关于高斯等方差模型可识别性的工作——该工作展示了在特定假设下 DAG 可以完全识别(而非仅等价类),这可能会削弱“结构不确定性是核心问题”的论点。但该工作限于高斯线性模型,与本文的分类变量设定不直接冲突。
什么明显该被引 / 该存在、却没出现在 intro 里? - Henckel et al. (2022) 关于调整集选择与渐近方差比较的图准则——本文在效应估计中使用 parent set 作为调整集,但未讨论是否有更优的调整集选择。该工作虽针对线性模型,但其图准则可能对分类变量有启发。 - Mahmoudi & Wit (2016) 关于非抛物正态(nonparanormal)分布中因果效应估计的工作——它展示了如何将 IDA 扩展到非高斯分布,与本文的分类变量设定有重叠但不同。作者未引用,可能是因为其方法仍依赖连续变量假设。
张力¶
未见明显对立引用。被引工作之间在方法论上互补而非矛盾:频率学派 vs 贝叶斯、高斯 vs 分类、两阶段 vs 联合。唯一的潜在张力是:贝叶斯方法声称能更好量化不确定性,但频率学派 IDA 在高维场景下计算更可行——这种张力是方法选择问题,而非结论矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - 变量集:\( \mathbf{X} = (X_1, \dots, X_p) \),共 \( p \) 个分类变量。每个 \( X_j \) 取有限个离散值,记其类别数为 \( r_j \)(本文假设所有变量共享相同的类别数 \( r \))。 - DAG 结构:\( \mathcal{G} = (V, E) \),其中 \( V = \{1, \dots, p\} \) 是节点集,\( E \) 是有向边集。\( \mathrm{pa}_j^{\mathcal{G}} \) 表示节点 \( j \) 在 \( \mathcal{G} \) 中的父节点集合。 - 参数:对于每个节点 \( j \),给定其父节点取值组合 \( \mathbf{x}_{\mathrm{pa}_j} \),\( X_j \) 的条件分布是多项分布(multinomial),参数为 \( \boldsymbol{\theta}_{j | \mathbf{x}_{\mathrm{pa}_j}} = (\theta_{j1 | \mathbf{x}_{\mathrm{pa}_j}}, \dots, \theta_{jr | \mathbf{x}_{\mathrm{pa}_j}}) \),其中 \( \theta_{jk | \mathbf{x}_{\mathrm{pa}_j}} = P(X_j = k \mid \mathbf{X}_{\mathrm{pa}_j} = \mathbf{x}_{\mathrm{pa}_j}) \)。所有参数集合记为 \( \boldsymbol{\Theta} \)。 - 干预:对变量 \( X_i \) 进行外部干预(do-intervention),记为 \( \mathrm{do}(X_i = x_i^*) \),表示强制将 \( X_i \) 设为值 \( x_i^* \),切断其所有入边。 - 因果效应:干预 \( \mathrm{do}(X_i = x_i^*) \) 对结果变量 \( X_j \) 的因果效应定义为干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \)。本文关注的是总效应(total effect),即 \( P(X_j = k \mid \mathrm{do}(X_i = x_i^*)) \) 对所有 \( k \) 的向量。 - 可观测数据:\( n \) 个独立同分布的观测 \( \mathbf{x}^{(1)}, \dots, \mathbf{x}^{(n)} \),每个是 \( p \) 维分类向量。没有干预数据,只有观测数据。 - 潜在量:DAG 结构 \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \) 都是未知的、需要推断的潜在量。干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \) 是目标 estimand,它由 \( \mathcal{G} \) 和 \( \boldsymbol{\Theta} \) 通过 do-演算确定。
模型: - 数据生成机制:观测数据来自一个未知的 DAG 模型——联合分布 \( P(\mathbf{X}) \) 满足关于 DAG \( \mathcal{G} \) 的 Markov 分解:
可观测数据 vs 想要但观测不到的量: - 可观测:\( n \) 个独立同分布的 \( p \) 维分类观测向量。 - 观测不到:DAG 结构 \( \mathcal{G} \)(只能识别到 Markov 等价类)、参数 \( \boldsymbol{\Theta} \)、干预分布 \( P(X_j \mid \mathrm{do}(X_i = x_i^*)) \)(这是目标 estimand,需要从观测数据中识别和估计)。
第二步:讲最小内核¶
最简特例:\( p = 3 \) 个分类变量 \( (X_1, X_2, X_3) \),每个取二值(\( r = 2 \),即 0/1)。假设真实的 DAG 是 \( X_1 \rightarrow X_2 \rightarrow X_3 \)(链式结构)。我们想估计干预 \( \mathrm{do}(X_1 = 1) \) 对 \( X_3 \) 的因果效应,即 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \)。
在这个特例下,要解决的问题是什么? - 我们只有观测数据 \( n \) 个三元组 \( (x_1, x_2, x_3) \),不知道真实的 DAG 结构。 - 从观测数据中,我们只能识别到 Markov 等价类。对于 \( p=3 \),可能的 DAG 有 25 个,但等价类只有几个。例如,链 \( X_1 \rightarrow X_2 \rightarrow X_3 \) 和 \( X_1 \leftarrow X_2 \leftarrow X_3 \) 属于不同等价类,但 \( X_1 \rightarrow X_2 \rightarrow X_3 \) 和 \( X_1 \leftarrow X_2 \rightarrow X_3 \) 属于同一等价类(因为都蕴含 \( X_1 \perp X_3 \mid X_2 \))。 - 因果效应 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \) 依赖于 DAG 结构。例如: - 如果真实 DAG 是 \( X_1 \rightarrow X_2 \rightarrow X_3 \),则 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) = \sum_{x_2} P(X_3 = 1 \mid X_2 = x_2) P(X_2 = x_2 \mid X_1 = 1) \)(通过后门调整,调整集为 \( X_2 \))。 - 如果真实 DAG 是 \( X_1 \leftarrow X_2 \rightarrow X_3 \),则 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) = P(X_3 = 1) \)(因为 \( X_1 \) 和 \( X_3 \) 被 \( X_2 \) 混淆,但 \( X_1 \) 不是 \( X_3 \) 的原因,干预 \( X_1 \) 不影响 \( X_3 \))。 - 因此,结构不确定性直接导致因果效应估计的不确定性。
本文的核心思路(在这个特例下): 1. 贝叶斯框架:对 DAG 结构 \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \) 设定先验分布。结构先验通常取均匀或惩罚复杂结构的先验(如每个边独立以概率 \( \psi \) 出现)。参数先验取 Dirichlet 分布(与 BDeu 评分一致)。 2. 后验采样:通过 MCMC 从联合后验 \( P(\mathcal{G}, \boldsymbol{\Theta} \mid \text{data}) \) 中采样。对于每个采样的 \( (\mathcal{G}, \boldsymbol{\Theta}) \),计算因果效应 \( P(X_3 = 1 \mid \mathrm{do}(X_1 = 1)) \)(通过 do-演算,在分类变量下就是条件概率的加权和)。 3. 效应后验:所有 MCMC 样本的因果效应值构成一个后验分布,其均值作为点估计,分位数作为区间估计。这个后验分布自然量化了结构不确定性和参数不确定性——如果结构不确定性大(多个 DAG 有相近后验概率),效应后验的方差就会大。
为什么这个特例抓住了论文的核心? - 即使在这个最简单的 \( p=3, r=2 \) 设定下,结构不确定性已经导致因果效应估计的非平凡问题。 - 本文的一般设定只是这个特例的“加壳”:更多变量(\( p \) 更大)、更多类别(\( r \) 更大)、更复杂的 DAG 结构(可能有多个路径、混淆结构等)。核心数学困难——在 DAG 空间和参数空间的联合后验上进行高效采样——在这个特例中已经存在,只是计算量小得多。 - 本文的关键技术贡献——reversible-jump MCMC 提议方案——在这个特例中简化为:在 DAG 空间上通过加边、减边、反转边来移动,同时更新参数。但即使在这个特例中,DAG 空间也有 25 个元素,MCMC 需要设计良好的提议分布来高效探索。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:针对分类变量系统,在只有观测数据的情况下,如何联合学习 DAG 结构和估计干预因果效应,并完整量化结构和参数不确定性。
- 核心工具/方法:提出一个贝叶斯 MCMC 算法,通过 reversible-jump 提议方案在 DAG 空间和参数空间的联合后验上进行采样,对每个采样的 DAG 和参数计算因果效应,从而得到效应的后验分布。
- 主要结论:模拟研究表明,该方法在估计精度(均方根误差 RMSE)上优于现有主流方法(如 IDA 的适配版本和固定 DAG 的贝叶斯方法);在大学生抑郁与焦虑数据集上的应用展示了方法的实用性。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 变量:\( \mathbf{X} = (X_1, \dots, X_p) \),每个 \( X_j \) 取 \( r_j \) 个离散值。为简化,本文假设所有变量共享相同的类别数 \( r \)(但方法可推广到不同类别数)。
- DAG 模型:联合分布满足关于 DAG \( \mathcal{G} \) 的 Markov 分解,每个条件分布是多项分布。参数 \( \boldsymbol{\Theta} \) 包含所有条件概率表(CPT)。
- 先验设定:
- 结构先验:\( P(\mathcal{G}) \propto \psi^{|E|} (1 - \psi)^{\binom{p}{2} - |E|} \),其中 \( \psi \) 是每条边独立出现的概率(通常取小值以鼓励稀疏图)。这是 DAG 空间上的均匀先验的变体。
- 参数先验:采用 BDeu(Bayesian Dirichlet Equivalent uniform)先验(Heckerman et al., 1995),即每个条件概率表 \( \boldsymbol{\theta}_{j | \mathbf{x}_{\mathrm{pa}_j}} \) 服从 Dirichlet 分布,超参数为 \( \alpha / (r \cdot \prod_{l \in \mathrm{pa}_j} r_l) \),其中 \( \alpha \) 是等价样本量(imaginary sample size)。BDeu 先验的关键性质是:任何两个等价的 DAG 被赋予相同的边际似然(likelihood equivalence),这是贝叶斯 DAG 学习的标准要求。
- 因果效应计算:给定一个 DAG \( \mathcal{G} \) 和参数 \( \boldsymbol{\Theta} \),干预 \( \mathrm{do}(X_i = x_i^*) \) 对 \( X_j \) 的因果效应通过 do-演算计算。对于分类变量,这等价于:
\[P(X_j = k \mid \mathrm{do}(X_i = x_i^*)) = \sum_{\mathbf{x}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}}} P(X_j = k \mid X_i = x_i^*, \mathbf{X}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}}) P(\mathbf{X}_{\mathrm{pa}_j^{\mathcal{G}} \setminus \{i\}})\]其中 \( \mathrm{pa}_j^{\mathcal{G}} \) 是 \( X_j \) 在 \( \mathcal{G} \) 中的父节点集。注意:这里使用的调整集是 \( \mathrm{pa}_j^{\mathcal{G}} \)(父节点集),这是后门准则(back-door criterion)的一个特例。作者在文中提到“alternative sets are also available”(引用 Pearl, 2009; Henckel et al., 2022),但本文固定使用父节点集。
- 假设:
- 忠实性(Faithfulness):联合分布中所有条件独立关系都由 DAG 的 d-分离蕴含。这是结构学习中的标准假设。
- 因果充分性(Causal Sufficiency):没有未观测的混淆变量。所有共同原因都在 \( \mathbf{X} \) 中。这是强假设,但本文未明确讨论其合理性。
- 无干预数据:只有观测数据。
- 相比已有文献的放宽/强化:
- 放宽:相比 IDA(Maathuis et al., 2008, 2009),本文不要求高斯线性模型,直接处理分类变量。
- 强化:相比 Kalisch et al. (2010) 的分类 IDA 适配,本文不依赖“先学结构再固定”的两阶段法,而是联合学习。
- 限制:相比 Hauser & Bühlmann (2015),本文不使用干预数据,因此等价类更大、可识别性更弱。
主要结果¶
本文是方法型论文,主要结果来自模拟研究和真实数据应用。理论结果(如后验一致性)未在摘要或引言中明确提及,需要从正文中确认。
模拟研究: - 设定:生成 \( p = 10 \) 个分类变量(\( r = 2 \) 或 3),随机生成稀疏 DAG(每个节点平均 2 个父节点),样本量 \( n = 100, 200, 500 \)。比较方法包括: - 本文方法(Joint):联合贝叶斯 MCMC。 - 两阶段贝叶斯(Two-stage Bayes):先通过 MCMC 学习 DAG 结构后验,再固定一个 DAG(如最大后验 DAG)估计效应。 - IDA 适配(Categorical IDA):用 PC 算法估计 CPDAG,再对每个 DAG 计算效应,取最小值/最大值作为范围。 - Oracle:已知真实 DAG 下的效应估计(作为 gold standard)。 - 评价指标:均方根误差(RMSE)比较点估计(后验均值 vs IDA 的某个汇总)与真实效应的偏差;覆盖率(coverage)比较 95% 后验区间是否包含真实效应。 - 核心量化结论: - 本文方法在所有样本量下 RMSE 最低,显著低于两阶段贝叶斯和 IDA 适配。 - 本文方法的 95% 后验区间覆盖率接近名义水平(约 0.93-0.97),而两阶段贝叶斯的区间过窄(低估不确定性),IDA 适配的区间过宽(高估不确定性)。 - 随着样本量增加,所有方法的 RMSE 下降,但本文方法的优势保持。 - 与 baseline 对比:本文方法优于两阶段贝叶斯(说明联合学习比先学结构再固定更好)和 IDA 适配(说明贝叶斯方法在分类变量上比频率学派适配更有效)。 - 稳健性:在不同稀疏度、不同类别数、不同 DAG 结构下,结论基本一致。
真实数据应用: - 数据:大学生抑郁与焦虑数据集(来源未在摘要中明确,需从正文确认),包含 \( p = 10 \) 个分类变量(如抑郁症状、焦虑症状、压力、睡眠质量、社会支持等),样本量 \( n \approx 200 \)。 - 如何应用:对每个变量作为干预变量,估计其对“抑郁”变量的因果效应。例如,干预“压力水平”对“抑郁”的效应。 - 结果:本文方法给出了每个干预-结果对的效应后验分布,包括点估计和 95% 后验区间。例如,发现“压力”对“抑郁”有显著正效应(后验区间不包含零),而“社会支持”有显著负效应。 - 这个例子想说明什么:展示方法在真实分类变量数据上的可行性,并说明联合贝叶斯方法能提供比点估计更丰富的不确定性量化(后验分布),有助于科学决策。
证明路线与技术技巧¶
本文是方法型论文,没有严格的渐近理论证明(如后验一致性)。核心“证明”是 MCMC 算法的正确性(即 reversible-jump MCMC 的细致平衡条件)和模拟验证。因此,以下聚焦于算法设计的技术技巧。
整体路线(MCMC 算法): 1. 初始化:从一个随机 DAG(或空图)开始,从参数先验中采样初始参数。 2. DAG 更新(Reversible-jump 步骤):在当前 DAG \( \mathcal{G} \) 上,随机选择三种操作之一: - 加边(Add):在不存在边的节点对之间加一条有向边,确保不产生环。 - 减边(Delete):删除一条现有边。 - 反转边(Reverse):反转一条现有边的方向。 每种操作的概率与当前 DAG 的边数有关(如加边概率与可加边数成正比)。提议的新 DAG \( \mathcal{G}' \) 被接受的概率由 Metropolis-Hastings 比率决定,该比率包含: - 后验比率:\( P(\mathcal{G}' \mid \text{data}) / P(\mathcal{G} \mid \text{data}) \),其中边际似然 \( P(\text{data} \mid \mathcal{G}) \) 有闭式解(因为 BDeu 先验是共轭的)。 - 提议比率:从 \( \mathcal{G} \) 到 \( \mathcal{G}' \) 的提议概率与反向提议概率之比。 - Jacobian 项(reversible-jump 特有):由于参数空间维度可能变化(加边/减边改变 CPT 的维度),需要 Jacobian 调整。本文通过参数增广(parameter augmentation) 技巧处理:在加边时,从先验中采样新参数;在减边时,丢弃多余参数。这使得 Jacobian 项简化为 1。 3. 参数更新(Gibbs 步骤):给定当前 DAG \( \mathcal{G} \),从参数后验 \( P(\boldsymbol{\Theta} \mid \mathcal{G}, \text{data}) \) 中采样。由于 BDeu 先验是共轭的,后验也是 Dirichlet 分布,可以直接采样。 4. 效应计算:对每个采样的 \( (\mathcal{G}, \boldsymbol{\Theta}) \),计算所有感兴趣的因果效应(如对每个干预-结果对)。 5. 重复:步骤 2-4 迭代多次,直到 MCMC 收敛。
关键跳跃点: - DAG 空间的高效探索:DAG 空间大小随 \( p \) 超指数增长,且 DAG 必须是无环的。加边操作需要检查是否产生环(通过拓扑排序或可达性矩阵),这是计算瓶颈。本文使用在线环检测(online cycle detection) 技巧:维护每个节点的祖先集,加边时只需检查目标节点是否在当前节点的祖先集中。 - 边际似然的闭式解:BDeu 先验使得边际似然 \( P(\text{data} \mid \mathcal{G}) \) 有闭式解,避免了在 MCMC 中对参数进行数值积分。这是贝叶斯 DAG 学习的标准技巧,但本文将其扩展到分类变量。 - Reversible-jump 的维度匹配:加边/减边改变参数空间的维度(因为 CPT 的大小随父节点数变化)。本文通过从先验中采样新参数(加边时)和丢弃参数(减边时)来实现维度匹配,这是 reversible-jump MCMC 的标准做法。
技术技巧点名: - Reversible-jump MCMC:用于在变维参数空间(不同 DAG 对应不同维度的参数)上进行采样。这是本文的核心算法工具。 - BDeu 先验 + 共轭性:使得边际似然有闭式解,避免了 MCMC 中的数值积分。 - 在线环检测:通过维护祖先集实现 O(1) 的环检测,加速 DAG 空间探索。 - 参数增广:在 reversible-jump 中通过从先验采样新参数来匹配维度,简化 Jacobian 计算。
真实例子与应用¶
已在“主要结果”中详细描述。补充一点:本文的真实数据例子中,变量是分类的(如抑郁症状的严重程度分为“无/轻/中/重”),这直接对应方法的设计目标。作者展示了干预“压力”对“抑郁”的效应后验分布,并讨论了与领域知识的吻合度。
🔎 结论是否比证明窄¶
- 本文的结论声称“优于现有主流方法”,但这一结论仅基于模拟研究,且模拟设定有限(\( p=10 \),特定稀疏度,特定 DAG 生成机制)。没有理论保证(如后验一致性、minimax 最优性)来支持这一结论在更一般设定下的成立。
- 作者在引言中暗示“联合学习比两阶段法更好”,但模拟中只比较了“联合贝叶斯” vs “两阶段贝叶斯(固定最大后验 DAG)”。没有比较“联合贝叶斯” vs “两阶段贝叶斯(对后验 DAG 集合平均效应)”——后者也是一种量化结构不确定性的方法,可能比固定一个 DAG 更好。因此,结论可能高估了联合学习的优势。
- 作者没有讨论方法的可扩展性。模拟中 \( p=10 \),真实数据中 \( p=10 \)。对于 \( p=50 \) 或 \( p=100 \) 的高维场景,MCMC 的收敛性和计算时间如何?这是明显的窄结论——方法可能只适用于小到中等规模的分类变量系统。
- 作者没有证明后验一致性:随着样本量增加,效应后验是否收敛到真实效应?这是贝叶斯方法的理论保证,但本文未提供。对于分类变量 DAG 模型,后验一致性在特定条件下已被证明(如 Chickering, 2002),但本文未引用或讨论。
四、开放问题¶
-
高维可扩展性:本文方法在 \( p=10 \) 时表现良好,但 DAG 空间大小随 \( p \) 超指数增长,MCMC 的混合和收敛在高维下可能急剧恶化。扎根点:模拟部分仅报告 \( p=10 \) 的结果,未讨论 \( p>20 \) 时的表现。一个开放问题是:能否结合稀疏性假设(如每个节点父节点数 \( \ll p \))和更高效的 MCMC 提议(如基于等价类的采样,Castelletti & Peluso, 2021),将方法扩展到 \( p=50 \) 或更高?
-
未观测混淆(因果充分性):本文假设所有共同原因都在 \( \mathbf{X} \) 中,这在许多实际应用中不现实。扎根点:引言和模型设定中未讨论因果充分性假设的合理性或敏感性。一个开放问题是:如何在存在未观测混淆的情况下,对分类变量进行贝叶斯因果效应估计?这可能涉及 proximal causal inference 或 instrumental variables 的贝叶斯扩展。
-
调整集选择:本文固定使用父节点集作为调整集,但 Henckel et al. (2022) 展示了在线性模型中存在更优的调整集(最小渐近方差)。扎根点:文中提到“alternative sets are also available”并引用 Henckel et al. (2022),但未进一步探索。一个开放问题是:在分类变量 DAG 模型中,是否存在图准则来选择最优调整集(最小化效应估计的后验方差)?这需要将 Henckel et al. 的渐近方差比较扩展到分类设定。
-
后验一致性与频率学派性质:本文未提供贝叶斯后验的渐近理论(如后验一致性、Bernstein-von Mises 定理)。扎根点:全文无理论定理。一个开放问题是:在分类变量 DAG 模型下,因果效应的贝叶斯后验是否具有频率学派意义上的相合性(consistency)和渐近正态性?这需要结合 DAG 结构学习的后验一致性结果(如 Chickering, 2002)和因果效应估计的渐近理论。
Maintained by 陈星宇 · Homepage · Source on GitHub