Joint structure learning and causal effect estimation for categorical graphical models¶

作者: Federico Castelletti, Guido Consonni, Marco L Della Vedova
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是结构不确定下的因果效应估计问题。经典因果推断通常假设因果图（DAG）已知或已通过预处理完美识别，但在高维、观测数据场景下，DAG 本身只能被部分识别（等价类），且结构学习的不确定性会传导至因果效应估计。该方向的核心问题是：如何在 DAG 结构未知的条件下，对干预效应进行统计推断，并正确量化由结构不确定性带来的额外方差。目前该方向已从高斯情形发展至更一般的离散 / 混合变量系统，方法上分为频率学派（IDA 及其变体）与贝叶斯学派（BMA / DAG 后验平均）两条主线，成熟度中等——理论结果主要集中在高斯情形，分类变量情形的理论与计算工具相对匮乏。

发展脉络： 1. 奠基：贝叶斯网络结构学习与因果语言（1990s–2000s）。Heckerman et al. (1995) 建立了从先验知识数据学习贝叶斯网络的方法论，提出了满足"似然等价性"的 BDeu 评分，保证了 Markov 等价的 DAG 具有相同的边际似然，成为贝叶斯结构学习的基石。Pearl (2009) 则系统化了因果图模型语言，定义了干预分布 \(P(Y \mid do(X))\) 与 do-演算，为从概率图模型过渡到因果推断提供了形式框架。 2. 主要进展：高维结构学习与 IDA 方法（2000s–2010s）。随着高维数据兴起，Kalisch & Bühlmann (2005) 证明了 PC 算法在高维稀疏高斯 DAG 的一致性，使得结构学习可扩展至数千变量。Maathuis et al. (2008) 提出了 IDA 方法，核心思想是：既然观测数据只能识别 DAG 的等价类，则对等价类中每个 DAG 估计因果效应，再汇总（如取最小绝对值），从而在结构未知时给出因果效应的界。这成为频率学派处理结构不确定性的标准范式。 3. 当前 Frontier：贝叶斯结构不确定性与异质性因果（2010s–至今）。 频率学派的 IDA 类方法通常点估计图结构或等价类，难以自然地量化结构不确定性。贝叶斯学派提出直接对 DAG 后验分布进行推断。Castelletti et al. (2020) 在多组异质性数据下联合学习多个 DAG；Castelletti & Consonni (2023) 进一步引入 Dirichlet Process 混合处理个体异质性。同时，针对分类变量，Castelletti & Peluso (2021) 给出了 Essential Graph（等价类图）的边际似然闭式解，为本文的分类变量结构学习打下基础。另一条线索是利用干预数据缩小等价类，如 Hauser & Bühlmann (2015) 联合建模观测与干预数据，证明了干预数据可缩小 Markov 等价类从而收紧因果效应界。 4. 本文的位置：本文填补了"分类变量系统 + 贝叶斯联合推断"的空白。现有贝叶斯因果推断多集中于高斯或连续变量，而分类变量（如问卷数据、疾病分级）在流行病学与社会科学中极为常见。本文将 Castelletti & Peluso (2021) 的分类变量结构学习与因果效应估计整合，提出 RJMCMC 算法在 DAG 空间与参数空间联合采样，首次在分类变量框架下实现了"结构学习不确定性"与"参数不确定性"的联合量化。

子线索聚类： - 线索 A：频率学派的结构不确定因果推断。以 PC 算法 + IDA 为代表。先估计等价类（CPDAG），再基于等价类计算因果效应集合。优点是计算快、理论清楚；缺点是难以给出因果效应的后验置信区间，且对结构学习错误敏感。 - 线索 B：贝叶斯结构学习与模型平均。以 Heckerman (1995) 为源头，通过 DAG 后验分布自然量化结构不确定性。近期向高维、异质性、非参数扩展。本文属于此线索。 - 线索 C：可识别性增强与干预数据。Peters & Bühlmann (2012) 证明等方差假设下高斯 DAG 可识别；Hauser & Bühlmann (2015) 利用干预数据缩小等价类。这条线索关注"什么条件下结构可识别"，与本文互补（本文假设结构不可识别，通过后验平均处理）。

核心追问与瓶颈： 1. 结构不确定性如何传导至因果效应估计？ IDA 类方法给出的是"可能效应集合"，而非一个带有置信区间的估计量。贝叶斯方法通过后验分布可以给出区间估计，但计算代价高昂（DAG 空间随变量指数增长）。 2. 分类变量情形的理论与计算工具缺失。高斯情形有 Wishart 分布的共轭性，边际似然有闭式解；分类变量虽有多项分布-Dirichlet 共轭，但参数空间维数随父节点配置指数增长，计算与理论更难。 3. 调整集选择与效率。即使 DAG 已知，选择哪个调整集估计因果效应方差最小？Henckel et al. (2019) 在线性模型给出了图标准，但分类变量情形尚无类似结果。

⚠️ 作者的 framing：作者将缺口 frame 为：现有方法（IDA、BMA）在分类变量因果效应估计中，要么忽略结构不确定性（IDA 基于点估计的图），要么分别处理结构与参数（两步法），导致不确定性低估。本文提出的"联合后验推断"是"显然的下一步"，因为它完整保留了不确定性传播。 被淡化的竞争路线：作者未深入讨论频率学派的 debiased / double robust 方法在结构不确定下的表现，也未对比基于 Essential Graph（而非 DAG）的贝叶斯方法（如 Castelletti & Peluso 2021 直接在 EG 空间采样，可能比 DAG 空间更高效）。缺失的引用：Intro 未引用任何关于"因果发现错误对因果效应估计影响"的频率学派理论结果（如半参数效率界在图估计误差下的表现），这可能是作者刻意将问题局限在贝叶斯框架内。

张力：未见明显对立引用。但有一条隐含张力：频率学派（IDA）强调"最坏情况界"（minimax 思想），而贝叶斯学派（本文）强调"后验平均"（期望损失）。在因果推断中，这两种哲学可能导致截然不同的决策——作者未讨论这一分歧。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号：
\(X = (X_1, \dots, X_p)\)：\(p\) 维分类随机向量，每个变量取有限个值（如二值或有序分类）。
\(\mathcal{G}\)：有向无环图（DAG），节点集为 \(\{1, \dots, p\}\)，边集表示变量间的直接依赖关系。
\(\text{Pa}(i, \mathcal{G})\)：在图 \(\mathcal{G}\) 中节点 \(i\) 的父节点集合。
\(\theta\)：DAG 模型的参数向量。对于分类变量，\(\theta\) 包含每个节点 \(i\) 在给定父节点配置下的条件概率 \(\theta_{ijk} = P(X_i = k \mid \text{Pa}(i, \mathcal{G}) = j)\)，其中 \(j\) 遍历父节点的所有可能配置。
\(D = \{x^{(1)}, \dots, x^{(n)}\}\)：\(n\) 个独立同分布的观测样本。
\(do(X_r = x_r')\)：对变量 \(X_r\) 施加外部干预，将其值固定为 \(x_r'\)。
\(\tau\)：因果效应 estimand。本文关注 total causal effect，定义为干预后结果变量 \(X_s\) 的分布变化，例如 \(\tau = P(X_s = 1 \mid do(X_r = 1)) - P(X_s = 1 \mid do(X_r = 0))\)（二值情形）。
模型：
数据生成机制：假设存在一个真实的 DAG \(\mathcal{G}^*\) 和真实参数 \(\theta^*\)，观测数据 \(D\) 由 \(P(X \mid \mathcal{G}^*, \theta^*)\) 生成。
因果假设：采用 Pearl 的结构因果模型（SCM）框架。DAG \(\mathcal{G}\) 编码了条件独立性 \(P(X \mid \mathcal{G}, \theta) = \prod_{i=1}^p P(X_i \mid \text{Pa}(i, \mathcal{G}), \theta_i)\)。干预分布通过截断因子化定义：\(P(X \mid do(X_r = x_r'), \mathcal{G}, \theta) = \mathbb{I}(X_r = x_r') \prod_{i \neq r} P(X_i \mid \text{Pa}(i, \mathcal{G}), \theta_i)\)。
贝叶斯模型：对 DAG 和参数赋予先验 \(P(\mathcal{G}, \theta) = P(\mathcal{G}) P(\theta \mid \mathcal{G})\)。参数先验采用 Dirichlet 分布（多项分布的共轭先验），图先验通常假设边独立或均匀。
可观测数据：
研究者只能观测到观测数据 \(D\)（无干预数据）。
不可观测 / 需识别：真实的因果结构 \(\mathcal{G}^*\) 不可识别——观测数据只能识别 DAG 的 Markov 等价类。真实的参数 \(\theta^*\) 也未知。因果效应 \(\tau\) 依赖于 \(\mathcal{G}^*\) 和 \(\theta^*\)，因此也是不可识别的，只能通过假设与数据进行推断。

第二步：最小内核

考虑最简特例：\(p=3\) 个二值变量，样本量 \(n\) 有限，目标是估计 \(X_1\) 对 \(X_3\) 的因果效应。

设定：变量 \(X_1, X_2, X_3 \in \{0, 1\}\)。可能的 DAG 有 25 个（3 节点无环有向图总数），但其中许多是 Markov 等价的。例如，\(X_1 \rightarrow X_2 \rightarrow X_3\) 与 \(X_1 \leftarrow X_2 \leftarrow X_3\) 在观测数据下不可区分（若无额外假设）。
核心困难：因果效应 \(\tau\) 的定义依赖于因果方向。若真实结构是 \(X_1 \rightarrow X_3\)（直接因果），则 \(\tau = P(X_3=1 \mid do(X_1=1)) - P(X_3=1 \mid do(X_1=0))\) 可通过调整空集计算（直接效应）。若真实结构是 \(X_1 \leftarrow X_2 \rightarrow X_3\)（混淆），则 \(X_1\) 与 \(X_3\) 独立，\(\tau = 0\)，但观测关联 \(P(X_3 \mid X_1) \neq P(X_3)\)。观测数据无法区分这两种情形。
本文的最小内核：
不试图"识别"唯一的真图，而是承认不确定性。
联合后验推断：计算每个 DAG \(\mathcal{G}\) 的后验概率 \(P(\mathcal{G} \mid D) \propto P(D \mid \mathcal{G}) P(\mathcal{G})\)，其中边际似然 \(P(D \mid \mathcal{G})\) 对分类变量有闭式解（Dirichlet 积分）。
因果效应的后验分布：对每个 \(\mathcal{G}\)，计算条件因果效应 \(\tau(\mathcal{G}, \theta)\)，然后对参数 \(\theta\) 积分并对图 \(\mathcal{G}\) 加权平均：
\[P(\tau \mid D) = \sum_{\mathcal{G}} \int \tau(\mathcal{G}, \theta) P(\theta \mid \mathcal{G}, D) P(\mathcal{G} \mid D) d\theta\]
直觉：若数据强烈支持 \(X_1 \rightarrow X_3\)，则后验概率 \(P(\mathcal{G}: X_1 \rightarrow X_3 \in E \mid D)\) 接近 1，因果效应估计接近直接效应；若数据对因果方向模糊，则后验分布分散，因果效应的置信区间自动变宽——不确定性通过后验方差自然体现。
为什么这个内核吃劲：
DAG 空间巨大：即使 \(p=3\)，也需要遍历多个 DAG 计算边际似然。\(p\) 大时，精确计算不可行，必须用 MCMC。
参数空间随父节点配置指数增长：对于分类变量，若某节点有 \(k\) 个父节点，每个二值，则需估计 \(2^k\) 个条件概率。高维时参数先验的设置敏感。
可逆跳跃 MCMC 的必要性：不同 DAG 的参数空间维数不同（父节点数不同），标准 MCMC 无法在维数变化的空问间跳转，必须用 RJMCMC。

三、这篇论文做了什么¶

三句话： 1. 研究了在分类变量系统中，当因果图（DAG）结构未知时，如何估计干预效应并量化不确定性。 2. 核心方法是贝叶斯联合推断：提出可逆跳跃 MCMC（RJMCMC）算法，在 DAG 空间与参数空间联合采样，直接逼近因果效应的后验分布。 3. 主要结论是：相比现有的两步法（先学图再估效应）或模型平均方法，本文方法在模拟实验中给出了更准确的因果效应估计与更可靠的置信区间覆盖率，并在大学生抑郁焦虑数据中验证了实用性。

关键设定与假设： - 分类变量 DAG 模型：每个变量 \(X_i\) 取值于有限集 \(\{1, \dots, c_i\}\)。给定父节点配置，\(X_i\) 服从多项分布，参数为 \(\theta_i\)。 - 参数先验：采用独立 Dirichlet 先验 \(P(\theta_i \mid \mathcal{G}) = \text{Dirichlet}(\alpha_{i1}, \dots, \alpha_{ic_i})\)。关键假设是参数模块化与全局参数独立性：\(\theta_i\) 仅依赖于 \(\text{Pa}(i, \mathcal{G})\)，且不同节点的参数先验独立。这保证了边际似然可分解。 - 图先验：假设边独立或均匀先验。实际计算中常限制父节点数上限（如 \(|\text{Pa}(i, \mathcal{G})| \leq K\)）以控制计算复杂度。 - 因果效应定义：采用 Pearl 的干预公式。对于二值干预变量 \(X_r\) 和结果 \(X_s\)，定义平均因果效应（ACE）为：

\[\tau = E[X_s \mid do(X_r = 1)] - E[X_s \mid do(X_r = 0)]\]

利用调整公式，\(\tau\) 可通过条件概率的函数表示（依赖于 DAG 结构确定调整集）。 - 核心假设（隐含）： - 因果充分性：无未观测混淆。 - Markov 性与忠实性：观测分布 \(P(X)\) 相对于真实 DAG \(\mathcal{G}^*\) 满足 Markov 性与忠实性，保证结构学习的可能性。 - 无干预数据：仅用观测数据推断因果效应。

主要结果： - 定理 1：边际似然的闭式解。在上述设定下，DAG \(\mathcal{G}\) 的边际似然有闭式解：

\[P(D \mid \mathcal{G}) = \prod_{i=1}^p \prod_{j=1}^{q_i} \frac{\Gamma(\alpha_{ij\cdot})}{\Gamma(\alpha_{ij\cdot} + n_{ij\cdot})} \prod_{k=1}^{c_i} \frac{\Gamma(\alpha_{ijk} + n_{ijk})}{\Gamma(\alpha_{ijk})}\]

其中 \(q_i\) 是父节点配置数，\(n_{ijk}\) 是样本中 \(X_i = k\) 且父节点配置为 \(j\) 的频数，\(\alpha_{ijk}\) 是 Dirichlet 先验的超参数。统计含义：这是 BDeu 评分在分类变量情形的推广，闭式解使得无需数值积分即可计算图的后验得分。 - 算法：RJMCMC 结构学习。设计可逆跳跃 MCMC 在 DAG 空间采样。每步提议：加边、删边、反向边。接受率由 Metropolis-Hastings 比率决定，涉及边际似然比与先验比。关键技巧：利用边际似然闭式解，避免在参数空间显式采样，大幅提升效率。 - 因果效应估计：基于 MCMC 样本 \(\{\mathcal{G}^{(t)}, \theta^{(t)}\}_{t=1}^T\)，因果效应的后验均值与方差估计为：

\[\hat{\tau} = \frac{1}{T} \sum_{t=1}^T \tau(\mathcal{G}^{(t)}, \theta^{(t)}), \quad \hat{V}(\tau) = \frac{1}{T-1} \sum_{t=1}^T (\tau(\mathcal{G}^{(t)}, \theta^{(t)}) - \hat{\tau})^2\]

统计含义：后验方差 \(\hat{V}(\tau)\) 自动包含了结构不确定性（不同 \(\mathcal{G}^{(t)}\) 对应不同因果效应）与参数不确定性（同一 \(\mathcal{G}^{(t)}\) 下 \(\theta^{(t)}\) 的变异）。 - 模拟实验结果： - 在多种设定（变量数 \(p\)、样本量 \(n\)、图稀疏度）下，本文方法的因果效应估计均方误差（MSE）低于 IDA 类方法与基于 BGe 的贝叶斯方法。 - 覆盖率：本文 95% 后验置信区间的覆盖率接近名义水平，而两步法（先点估计图，再估计效应）的置信区间覆盖率显著偏低（因低估了结构不确定性）。 - 真实数据分析：应用于大学生抑郁与焦虑数据（\(p=11\) 个分类变量，包括生活方式、风险因素、抑郁/焦虑评分）。估计了多个风险因素对抑郁的因果效应，给出了后验均值与 95% 置信区间。结果显示某些生活方式因素（如睡眠质量）对抑郁有显著因果效应，验证了方法的实用性。

证明路线与技术技巧： - 整体路线： 1. 边际似然推导：利用 Dirichlet 先验的共轭性，对参数 \(\theta\) 积分，得到边际似然闭式解。 2. RJMCMC 设计：构造马尔可夫链，状态空间为所有 DAG。提议分布包括加边、删边、反向边。计算接受率时，利用边际似然比，无需显式计算参数后验。 3. 因果效应计算：对于每个采样的 DAG \(\mathcal{G}^{(t)}\)，根据调整公式计算因果效应 \(\tau(\mathcal{G}^{(t)}, \theta^{(t)})\)。由于分类变量的条件概率可直接从后验采样，因果效应计算为简单的概率求和。 4. 收敛性：MCMC 理论保证样本均值收敛到后验均值（遍历定理）。 - 关键跳跃点： - 维数跳跃问题：加边提议会增加参数空间维数（新增父节点对应新的条件概率参数）。RJMCMC 通过设计双射映射，在当前参数与提议参数间建立一一对应，保证细致平衡条件。本文利用边际似然方法，避免了显式处理参数维数跳跃——这是计算效率的关键。 - 计算复杂度：边际似然计算需遍历所有父节点配置，复杂度为 \(O(\prod_{i \in \text{Pa}(j)} c_i)\)。当父节点数多时计算爆炸。本文通过限制父节点数上限（稀疏性假设）控制复杂度。 - 技术技巧点名： - Reversible-jump MCMC (Green, 1995)：核心计算工具，处理状态空间维数变化的 MCMC。 - BDeu 评分：贝叶斯结构学习的标准评分函数，本文将其应用于分类变量。 - 调整公式：因果效应计算的核心公式，将干预分布转化为观测分布的条件概率组合。 - 后验模型平均：通过 MCMC 样本平均实现贝叶斯模型平均，量化模型不确定性。

真实例子与应用： - 数据：大学生抑郁与焦虑数据集，包含 \(p=11\) 个分类变量（如性别、睡眠质量、学业压力、抑郁评分、焦虑评分），样本量 \(n\) 约数百。 - 应用方式：将抑郁评分作为结果变量，其他变量作为潜在原因或混淆。对每个潜在原因变量，计算其对抑郁的因果效应后验分布。 - 结果：发现睡眠质量、学业压力对抑郁有显著正因果效应（后验均值显著大于 0，95% 置信区间不包含 0），而某些人口学变量效应不显著。 - 说明什么：展示了方法在真实观测数据中的应用价值，特别是能够给出因果效应的置信区间，为决策提供不确定性量化。

🔎 结论是否比证明窄： - 论文的理论结果主要是边际似然的闭式解与 MCMC 算法的收敛性（遍历性）。因果效应估计的频率学派性质（如一致性、渐近正态性）未严格证明。作者在模拟中验证了覆盖率，但未给出理论保证。这是一个潜在的 gap：贝叶斯后验区间在结构不确定下是否具有频率学派的覆盖性质？

四、开放问题¶

频率学派性质：本文方法给出的后验置信区间，在频率学派意义下是否具有一致性覆盖？即，若真实 DAG 为 \(\mathcal{G}^*\)，样本量 \(n \to \infty\) 时，后验区间是否收敛到真值？扎根点：第三节模拟实验显示覆盖率接近名义水平，但未给出理论证明。
高维情形的可扩展性：RJMCMC 在变量数 \(p\) 较大时（如 \(p > 50\)）收敛极慢，因 DAG 空间指数增长。能否结合稀疏性假设或变分推断加速？扎根点：第二节提到限制父节点数上限，但未讨论高维 \(p \gg n\) 的理论保证。
未观测混淆的敏感性分析：本文假设无未观测混淆。若存在潜在混淆变量，因果效应识别需借助工具变量或代理变量。能否在本文的贝叶斯框架下引入敏感性分析或 proximal causal inference？扎根点：Intro 提到"无未观测混淆"是核心假设，但未讨论违反时的后果。
与频率学派方法的比较：本文主要与 IDA 类方法比较。能否与基于 debiased Lasso 或 double machine learning 的因果推断方法比较？后者在高维线性模型下有理论保证，而本文方法在非线性（分类变量）情形的表现尚缺理论支撑。扎根点：Intro 提到 IDA 的局限，但未深入讨论频率学派半参数方法。

Maintained by 陈星宇 · Homepage · Source on GitHub

Joint structure learning and causal effect estimation for categorical graphical models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论