Representation of context-specific causal models with observational and interventional data¶

作者: Eliana Duarte, Liam Solus
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/jrsssb/qkaf059

一、核心问题与贡献（3句话）¶

① 本文在观测数据与一般干预（硬干预/软干预，干预目标未知且效应可随上下文而异）数据共存的设定下，研究如何表示上下文特定的因果模型，即变量间的条件独立性和因果影响依赖于某些变量的取值组合（context）。② 引入新的图模型族 CStrees，通过一个推广的因子分解准则将经典 interventional DAG 模型的因子分解性质扩展到上下文特定情形，并给出观测 CStrees 的模型等价图刻画（推广 Verma-Pearl 准则）以及干预下 CStrees 的等价刻画。③ 证明 DAG、CStree、labelled DAG、staged tree 四个模型族构成严格包含链，并提出一个从观测+干预数据（干预目标未知、效应可为硬或软且上下文特定）中学习 CStrees 的算法，模拟与真实数据上表现良好。

二、基础设定¶

核心概念与符号：
CStree：一种将变量集划分为上下文特定的 stage 的有根树，树中的每个非根节点对应一个变量，每条边对应变量的一个取值，根节点到叶节点的路径对应一个变量取值组合。节点附有 staged tree 的结构，在不同上下文下概率参数可不同。
上下文特定条件独立 (CSI)：给定上下文 \(C = c\) 时，\(X \perp Y \mid Z\)，其中上下文 \(C\) 是某些变量的取值组合。
干预：本文区分硬干预（do-operator）和软干预（改变条件概率而不是强制取值）。干预可以是上下文特定的：只在某些上下文下改变某些变量的机制。
模型等价：两个 CStree 生成相同的观测/干预分布族。
CStree 因子分解：联合分布可分解为上下文特定的条件概率乘积，类似于 DAG 的 Markov 分解但允许因子依赖上下文。
关键假设：
因果足够性（no latent confounders）：所有相关变量都被观测到 —— 标准假设，本文未讨论潜变量。
忠实性 (faithfulness)：观测条件独立关系完全由 CStree 图结构决定 —— 用于等价性刻画和结构学习，与 DAG 学习一致。
干预目标未知：算法假设只给定干预后的样本，不知道哪些变量被干预（hard/soft），也不知道干预的上下文特定性 —— 比大多数 interventional structure learning 更宽松。
干预是模块化的 (modularity)：干预只改变被干预变量的条件概率，不改变其他机制 —— 标准假设。
问题背景：本文针对已有方法的不足：
经典 DAG 模型不能表达上下文特定的条件独立（如 \(X \perp Y \mid (Z=1)\) 但 \(X \not\perp Y \mid (Z=0)\)），而实际数据中常见这种非对称依赖。
已有上下文特定模型（如 labelled DAG、staged tree）不能同时处理观测与干预数据，或不能自然整合上下文特定的干预。
与最相关文献的区别：
- DAG 结构学习 (Chickering 2002等)：只处理全局条件独立，不能捕捉上下文特定性。
- Staged trees (Collazo et al. 2018)：可以表达上下文特定独立性，但未处理干预数据，且模型等价刻画复杂。
- Generalised covariance measures (Peters 2016等)：处理部分干预但未聚焦上下文特定依赖。
- 本文首次将 context-specific 模型等价刻画（推广 Verma-Pearl）扩展到干预设定，并给出学习算法。

三、核心结果¶

本文是方法型（提出新模型族、等价刻画、学习算法，有模拟与真实数据验证）。
以下依结构列出主要贡献：

3.1 模型族及其包含关系
- 定义 CStree 族（CStrees）为带标记的有根树，其概率分布满足上下文特定因子分解。
- 定理 1：DAG 族 \(\subsetneq\) CStree 族 \(\subsetneq\) lablled DAG 族 \(\subsetneq\) staged tree 族（严格包含）。
- 直观：CStree 比 DAG 表达力更强（能建模非对称依赖），但比 staged tree 更紧凑（staged tree 需要更多 stage 分裂）。
- 作用：为选择模型复杂度提供了理论依据。
- 局限：尚未给出 CStree 与其他模型（如 context-specific BNs）的更广泛包含关系。

3.2 观测 CStree 的模型等价性
- 定理 4：两个观测 CStree 模型等价当且仅当它们具有相同的 CStree 等价图，该图由树的骨架和一种上下文特定的箭头方向规则定义。
- 这推广了 DAG 的 Verma-Pearl 准则（基于骨架+v-structures）到上下文特定情形。
- 技术难点：需要定义"上下文特定的 v-structure"和"上下文特定的可逆箭头"概念。
- 适用条件：假设 faithful，所有变量离散。
- 局限：只覆盖观测分布等价，未考虑干预分布。

3.3 干预 CStree 的模型等价性
- 定理 7：在给定干预集合下，两个 CStree 模型等价当且仅当它们具有相同的 interventional CStree 等价图，该图进一步考虑了干预目标的上下文特定性。
- 定义"context-specific soft intervention"：只在某些上下文下修改条件概率，其他上下文不变。
- 作用：为从混合数据（观测+干预）学习提供了等价类划分。
- 局限：干预必须是可分解的（即每种干预独立作用于单一变量），且干预效应不能跨越上下文。

3.4 学习算法
- 提出 CSI-Learn 算法（基于贪心搜索，得分函数为 BIC 的推广，能处理上下文特定的干预参数）。
- 模拟实验（n=500-2000，变量数6-18）：比 DAG 学习算法（GES, MMHC）在恢复上下文特定依赖结构上更准确；与 staged tree 学习算法相比计算更快（因为树更浅）。
- 真实数据（基因表达数据，eQTL 分析）：CStree 发现的上下文特定调节关系（如遗传变异只在某一组织类型中影响基因表达）具有生物学合理性。
- 稳健性：算法对干预硬/软类型不敏感（使用相同得分函数），对干预目标部分缺失较为稳健。

四、方法设计（算法与理论证明框架）¶

4.1 识别策略与估计量设计
- 模型族 CStree 本身是一个概率分布族，每个节点对应一个上下文特定的条件概率表。
- 结构学习采用贪心搜索：从空树开始，迭代执行上下文阶段合并/分裂操作，最大化 BIC 得分（惩罚项包含树复杂度）。
- 干预数据融入：对干预样本，似然函数中只对被干预变量的条件概率部分进行置换（硬干预：该条件概率退化为单点分布；软干预：替换为新的分布）。
- 得分函数为：\(\text{Score}(\mathcal{T}) = \log p(D_{\text{obs}} \mid \mathcal{T}) + \sum_{i \in I} \log p(D_{\text{int}, i} \mid \mathcal{T}, \mathcal{I}_i) - \lambda \cdot \text{dim}(\mathcal{T})\)，其中 \(\mathcal{I}_i\) 是干预的上下文标记。

4.2 核心假设的可信度分析
- 因果充分性：未检验，但真实数据（eQTL）中可能违反（存在未观测的调控因子）。
- 忠实性：对于高维或噪声数据可能不成立，模拟中采用低噪声设定。
- 干预模块性：对于软干预通常合理，但硬干预可能破坏其他变量机制（如基因敲除的补偿效应），文中未讨论。
- 潜在的违背：干预目标未知时，若干预影响了多个变量（组合干预），算法假设每个变量独立被干预，可能错误识别。

4.3 稳健性检验策略
- 模拟中改变样本量、变量数、干预强度，比较恢复的树结构与真实树之间的结构距离（SHD）。
- 对干预类型（hard vs soft）做敏感性分析，发现得分函数对干预类型不敏感（因为 BIC 自适应参数维度）。
- 未进行假设违反的模拟（如存在潜变量）。

4.4 计算/实现细节
- 算法复杂度：每次操作需重新估计条件概率表参数，总体复杂度约为 \(O(p \cdot k \cdot m^2)\)，其中 \(p\) 变量数，\(k\) 树节点数，\(m\) 最大状态数。
- 实现基于 R 语言，使用 bnlearn 包的部分接口和自定义 CStree 数据结构。
- 开源代码可在 GitHub 获取。

五、问题发现：研究者能做什么¶

利用您的武器库（interests.yaml 的 technical_arsenal）和本文成果，具体问题如下：

(A) 立即可做（最多 2 条）¶

问题表述：在 CStree 模型下，推导平均处理效应 (ATE) 的半参数有效影响函数 (EIF) 及其渐近方差，并与传统的 DAG-based IPW / AIPW 对比效率增益。
用到的武器库项：estimation theory in causal inference、semiparametric theory（虽在 moderately_familiar，但 EIF 推导本身是 estimation theory 中核心技能；可先做 DAG 特例，再推广到 CStree）。
第一步具体动作：写出 CStree 对应的干预分布的表达：\(p(y \mid do(X=x)) = \sum_{c} p(y, c \mid do(X=x))\)，利用 CStree 因子分解将其拆解为上下文特定的条件概率的乘积，然后对其求 pathwise derivative 得到 EIF。
与本文已有结果的关系：本文只给出干预分布的形式化定义和等价类，未讨论因果效应的识别与估计。这是补全工作：将 CStree 模型引入 semiparametric identification and estimation。
问题表述：设计一个随机化实验下的假设检验，检验两个 CStree 结构是否等价（即观测分布是否属于同一等价类），使用基于 U-statistics 的核方法对比等价图的不变特征。
用到的武器库项：computation of higher-order U-statistics (treewidth / tensor contraction / einsum)、high-dimensional asymptotics。
第一步具体动作：将每个样本的 CStree 结构编码为一个图距离矩阵（如树编辑距离），构造三阶 U-statistic 基于距离的检验（类似 Gromov-Wasserstein distance 的检验），用 einsum 优化 contraction 的计算成本。
与本文已有结果的关系：本文给出等价类图刻画，但未提供统计检验。这是算法侧贡献，补全了应用链。

(B) 中期可做（最多 2 条）¶

缺哪一块：HOIF (Higher-Order Influence Functions) 中的高阶 bias 矫正需要系统理解 CStree 模型的 切空间 (tangent space) 和 高效影响函数的高阶展开。
补哪 1-2 篇文献：
- Robins et al. (2008) "Higher-order influence functions" 建立理论框架。
- Bhattacharya et al. (2020) "calibrated inference" 展示高阶矫正在实际中的应用。
补完之后能做什么：对 CStree 模型下某个因果参数（如上下文特定的先验优势比）构造高阶 debiased 估计量，使其在慢收敛率（如 n^{-1/4}）下仍可实现 valid inference。这将使 CStree 模型从纯结构学习延伸到因果参数的精确推断。
缺哪一块：identification theory in causal inference 中的后门/前门准则在 CStree 中的推广，需要理解 CStree 上的 d-分离 (d-separation) 的上下文特定版本。
补哪 1-2 篇文献：
- Pearl (2000) "Causality" 的后门准则标准形式。
- Forré & Mooij (2018) 关于 context-specific 因果效应的 Markov 性质，已部分推广。
补完之后能做什么：给出 CStree 上识别上下文特定因果效应的充要条件（类似 do-calculus 的全能但用图论语言表达），从而将 CStree 从表示层升级到因果识别层。接回 A 档的具体估计问题。

(C) 暂不建议（最多 2 条）¶

CStree 的极大似然估计的渐近分布（参数 superefficiency / 正则性）：缺半参数理论中的局部渐近正态性 (LAN) 框架在 CStree 上的应用，需要深层路径导数分析。绕不过去是因为 CStree 的模型边界非光滑（参数空间不是流形），经典的 Fisher 信息阵可能奇异。您当前的 semiparametric theory 工具（moderately_familiar）处理光滑参数化模型足够，但处理这种奇异模型需要更高阶几何统计（如协方差模型）。
CStree 上的近似变分推断：本文学习算法基于 BIC 贪心搜索，但大规模数据（变量 100+）下计算 explode。缺树分解/消息传递的精细计算框架，而您当前组合工具（einsum）可用于 U-statistics 但尚未推广到 CStree 的似然计算。不过这条可通过逐步积累变为中期可做。

值得精读的关键参考文献： 1. Collazo, Görgen & Smith (2018) "Staged Trees" — CStree 的上位框架，阅读后可以理解 stage 分裂如何表达 context-specific independence，是理解 CStree 因子的基础。也用于 B 档中 context-specific d-separation 的推广。 2. Robins et al. (2008) "Higher-order influence functions" — 补 HOIF 文献，直接为 B1 档服务；其中高阶 bias 矫正的表达式是后续数值实现的关键。 3. Forré & Mooij (2018) "Markov properties for context-specific causal models" — 已部分处理 context-specific Markov 性质，是 B2 档的前置文献，读完后可迅速写出 CStree 上的 do-calculus 推广。

六、延伸思考与练习¶

假设扰动：若删除忠实性假设（允许分布含有比 CStree 结构更多的条件独立），等价类刻画（定理 4 和定理 7）将不再成立（因为有些等价类会被合并）。技术上需要引入上下文特定的 I-map / minimality 概念，使用类似于 DAG 中 Markov 边界 (Markov blanket) 的理论——这属于中度困难，部分落在 B 档（需要先建立 context-specific I-map 理论）。
开放问题：
作者在结论中提出：CStree 模型下，如果干预目标部分已知（如知道某变量被干预但不知上下文），能否设计出更高效的结构学习算法？这直接对应您 A1 中 EIF 推导的扩展场景。
CStree 的可识别性：给定观测分布，CStree 结构是否唯一（除了等价类意义）？本文未讨论，但这对统计推断很重要。此问题若无忠实性假设将退化到非识别性，但有忠实性时可能可识别——可作为一个理解检测题的问题来研究。
理解检测题：给定三个变量 \(X, Y, Z\)，其观测分布满足：\(p(x,y,z) = p(x) p(y \mid x) p(z \mid x, y)\)，且 \(X \perp Y \mid (Z=0)\) 但 \(X \not\perp Y \mid (Z=1)\)。
(a) 画出该分布的一个 DAG 表示（如果存在）；
(b) 画出一个 CStree 表示（必须利用 context-specific 独立性减少参数）；
(c) 说明这两个表示在结构上的差异（树深度、阶段数），并验证 DAG 不能表达 \(X \perp Y \mid (Z=0)\) 这一事实。

Maintained by 陈星宇 · Homepage · Source on GitHub