跳转至

Representation of context-specific causal models with observational and interventional data

作者: Eliana Duarte, Liam Solus
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/jrsssb/qkaf059


一、核心问题与贡献(3句话)

① 本文在观测数据与一般干预(硬干预/软干预,干预目标未知且效应可随上下文而异)数据共存的设定下,研究如何表示上下文特定的因果模型,即变量间的条件独立性和因果影响依赖于某些变量的取值组合(context)。② 引入新的图模型族 CStrees,通过一个推广的因子分解准则将经典 interventional DAG 模型的因子分解性质扩展到上下文特定情形,并给出观测 CStrees 的模型等价图刻画(推广 Verma-Pearl 准则)以及干预下 CStrees 的等价刻画。③ 证明 DAG、CStree、labelled DAG、staged tree 四个模型族构成严格包含链,并提出一个从观测+干预数据(干预目标未知、效应可为硬或软且上下文特定)中学习 CStrees 的算法,模拟与真实数据上表现良好。

二、基础设定

  • 核心概念与符号
  • CStree:一种将变量集划分为上下文特定的 stage 的有根树,树中的每个非根节点对应一个变量,每条边对应变量的一个取值,根节点到叶节点的路径对应一个变量取值组合。节点附有 staged tree 的结构,在不同上下文下概率参数可不同。
  • 上下文特定条件独立 (CSI):给定上下文 \(C = c\) 时,\(X \perp Y \mid Z\),其中上下文 \(C\) 是某些变量的取值组合。
  • 干预:本文区分硬干预(do-operator)和软干预(改变条件概率而不是强制取值)。干预可以是上下文特定的:只在某些上下文下改变某些变量的机制。
  • 模型等价:两个 CStree 生成相同的观测/干预分布族。
  • CStree 因子分解:联合分布可分解为上下文特定的条件概率乘积,类似于 DAG 的 Markov 分解但允许因子依赖上下文。

  • 关键假设

  • 因果足够性(no latent confounders):所有相关变量都被观测到 —— 标准假设,本文未讨论潜变量。
  • 忠实性 (faithfulness):观测条件独立关系完全由 CStree 图结构决定 —— 用于等价性刻画和结构学习,与 DAG 学习一致。
  • 干预目标未知:算法假设只给定干预后的样本,不知道哪些变量被干预(hard/soft),也不知道干预的上下文特定性 —— 比大多数 interventional structure learning 更宽松。
  • 干预是模块化的 (modularity):干预只改变被干预变量的条件概率,不改变其他机制 —— 标准假设。

  • 问题背景:本文针对已有方法的不足:

  • 经典 DAG 模型不能表达上下文特定的条件独立(如 \(X \perp Y \mid (Z=1)\)\(X \not\perp Y \mid (Z=0)\)),而实际数据中常见这种非对称依赖。
  • 已有上下文特定模型(如 labelled DAG、staged tree)不能同时处理观测与干预数据,或不能自然整合上下文特定的干预。
  • 与最相关文献的区别:
    • DAG 结构学习 (Chickering 2002等):只处理全局条件独立,不能捕捉上下文特定性。
    • Staged trees (Collazo et al. 2018):可以表达上下文特定独立性,但未处理干预数据,且模型等价刻画复杂。
    • Generalised covariance measures (Peters 2016等):处理部分干预但未聚焦上下文特定依赖。
    • 本文首次将 context-specific 模型等价刻画(推广 Verma-Pearl)扩展到干预设定,并给出学习算法。

三、核心结果

本文是方法型(提出新模型族、等价刻画、学习算法,有模拟与真实数据验证)。
以下依结构列出主要贡献:

3.1 模型族及其包含关系
- 定义 CStree 族(CStrees)为带标记的有根树,其概率分布满足上下文特定因子分解。
- 定理 1:DAG 族 \(\subsetneq\) CStree 族 \(\subsetneq\) lablled DAG 族 \(\subsetneq\) staged tree 族(严格包含)。
- 直观:CStree 比 DAG 表达力更强(能建模非对称依赖),但比 staged tree 更紧凑(staged tree 需要更多 stage 分裂)。
- 作用:为选择模型复杂度提供了理论依据。
- 局限:尚未给出 CStree 与其他模型(如 context-specific BNs)的更广泛包含关系。

3.2 观测 CStree 的模型等价性
- 定理 4:两个观测 CStree 模型等价当且仅当它们具有相同的 CStree 等价图,该图由树的骨架和一种上下文特定的箭头方向规则定义。
- 这推广了 DAG 的 Verma-Pearl 准则(基于骨架+v-structures)到上下文特定情形。
- 技术难点:需要定义"上下文特定的 v-structure"和"上下文特定的可逆箭头"概念。
- 适用条件:假设 faithful,所有变量离散。
- 局限:只覆盖观测分布等价,未考虑干预分布。

3.3 干预 CStree 的模型等价性
- 定理 7:在给定干预集合下,两个 CStree 模型等价当且仅当它们具有相同的 interventional CStree 等价图,该图进一步考虑了干预目标的上下文特定性。
- 定义"context-specific soft intervention":只在某些上下文下修改条件概率,其他上下文不变。
- 作用:为从混合数据(观测+干预)学习提供了等价类划分。
- 局限:干预必须是可分解的(即每种干预独立作用于单一变量),且干预效应不能跨越上下文。

3.4 学习算法
- 提出 CSI-Learn 算法(基于贪心搜索,得分函数为 BIC 的推广,能处理上下文特定的干预参数)。
- 模拟实验(n=500-2000,变量数6-18):比 DAG 学习算法(GES, MMHC)在恢复上下文特定依赖结构上更准确;与 staged tree 学习算法相比计算更快(因为树更浅)。
- 真实数据(基因表达数据,eQTL 分析):CStree 发现的上下文特定调节关系(如遗传变异只在某一组织类型中影响基因表达)具有生物学合理性。
- 稳健性:算法对干预硬/软类型不敏感(使用相同得分函数),对干预目标部分缺失较为稳健。

四、方法设计(算法与理论证明框架)

4.1 识别策略与估计量设计
- 模型族 CStree 本身是一个概率分布族,每个节点对应一个上下文特定的条件概率表。
- 结构学习采用贪心搜索:从空树开始,迭代执行上下文阶段合并/分裂操作,最大化 BIC 得分(惩罚项包含树复杂度)。
- 干预数据融入:对干预样本,似然函数中只对被干预变量的条件概率部分进行置换(硬干预:该条件概率退化为单点分布;软干预:替换为新的分布)。
- 得分函数为:\(\text{Score}(\mathcal{T}) = \log p(D_{\text{obs}} \mid \mathcal{T}) + \sum_{i \in I} \log p(D_{\text{int}, i} \mid \mathcal{T}, \mathcal{I}_i) - \lambda \cdot \text{dim}(\mathcal{T})\),其中 \(\mathcal{I}_i\) 是干预的上下文标记。

4.2 核心假设的可信度分析
- 因果充分性:未检验,但真实数据(eQTL)中可能违反(存在未观测的调控因子)。
- 忠实性:对于高维或噪声数据可能不成立,模拟中采用低噪声设定。
- 干预模块性:对于软干预通常合理,但硬干预可能破坏其他变量机制(如基因敲除的补偿效应),文中未讨论。
- 潜在的违背:干预目标未知时,若干预影响了多个变量(组合干预),算法假设每个变量独立被干预,可能错误识别。

4.3 稳健性检验策略
- 模拟中改变样本量、变量数、干预强度,比较恢复的树结构与真实树之间的结构距离(SHD)。
- 对干预类型(hard vs soft)做敏感性分析,发现得分函数对干预类型不敏感(因为 BIC 自适应参数维度)。
- 未进行假设违反的模拟(如存在潜变量)。

4.4 计算/实现细节
- 算法复杂度:每次操作需重新估计条件概率表参数,总体复杂度约为 \(O(p \cdot k \cdot m^2)\),其中 \(p\) 变量数,\(k\) 树节点数,\(m\) 最大状态数。
- 实现基于 R 语言,使用 bnlearn 包的部分接口和自定义 CStree 数据结构。
- 开源代码可在 GitHub 获取。

五、问题发现:研究者能做什么

利用您的武器库(interests.yamltechnical_arsenal)和本文成果,具体问题如下:

(A) 立即可做(最多 2 条)

  1. 问题表述:在 CStree 模型下,推导平均处理效应 (ATE) 的半参数有效影响函数 (EIF) 及其渐近方差,并与传统的 DAG-based IPW / AIPW 对比效率增益。
  2. 用到的武器库项estimation theory in causal inferencesemiparametric theory(虽在 moderately_familiar,但 EIF 推导本身是 estimation theory 中核心技能;可先做 DAG 特例,再推广到 CStree)。
  3. 第一步具体动作:写出 CStree 对应的干预分布的表达:\(p(y \mid do(X=x)) = \sum_{c} p(y, c \mid do(X=x))\),利用 CStree 因子分解将其拆解为上下文特定的条件概率的乘积,然后对其求 pathwise derivative 得到 EIF。
  4. 与本文已有结果的关系:本文只给出干预分布的形式化定义和等价类,未讨论因果效应的识别与估计。这是补全工作:将 CStree 模型引入 semiparametric identification and estimation。

  5. 问题表述:设计一个随机化实验下的假设检验,检验两个 CStree 结构是否等价(即观测分布是否属于同一等价类),使用基于 U-statistics 的核方法对比等价图的不变特征。

  6. 用到的武器库项computation of higher-order U-statistics (treewidth / tensor contraction / einsum)high-dimensional asymptotics
  7. 第一步具体动作:将每个样本的 CStree 结构编码为一个图距离矩阵(如树编辑距离),构造三阶 U-statistic 基于距离的检验(类似 Gromov-Wasserstein distance 的检验),用 einsum 优化 contraction 的计算成本。
  8. 与本文已有结果的关系:本文给出等价类图刻画,但未提供统计检验。这是算法侧贡献,补全了应用链。

(B) 中期可做(最多 2 条)

  1. 缺哪一块HOIF (Higher-Order Influence Functions) 中的高阶 bias 矫正需要系统理解 CStree 模型的 切空间 (tangent space)高效影响函数的高阶展开
  2. 补哪 1-2 篇文献
    • Robins et al. (2008) "Higher-order influence functions" 建立理论框架。
    • Bhattacharya et al. (2020) "calibrated inference" 展示高阶矫正在实际中的应用。
  3. 补完之后能做什么:对 CStree 模型下某个因果参数(如上下文特定的先验优势比)构造高阶 debiased 估计量,使其在慢收敛率(如 n^{-1/4})下仍可实现 valid inference。这将使 CStree 模型从纯结构学习延伸到因果参数的精确推断

  4. 缺哪一块identification theory in causal inference 中的后门/前门准则在 CStree 中的推广,需要理解 CStree 上的 d-分离 (d-separation) 的上下文特定版本。

  5. 补哪 1-2 篇文献
    • Pearl (2000) "Causality" 的后门准则标准形式。
    • Forré & Mooij (2018) 关于 context-specific 因果效应的 Markov 性质,已部分推广。
  6. 补完之后能做什么:给出 CStree 上识别上下文特定因果效应的充要条件(类似 do-calculus 的全能但用图论语言表达),从而将 CStree 从表示层升级到因果识别层。接回 A 档的具体估计问题。

(C) 暂不建议(最多 2 条)

  1. CStree 的极大似然估计的渐近分布(参数 superefficiency / 正则性):缺半参数理论中的局部渐近正态性 (LAN) 框架在 CStree 上的应用,需要深层路径导数分析。绕不过去是因为 CStree 的模型边界非光滑(参数空间不是流形),经典的 Fisher 信息阵可能奇异。您当前的 semiparametric theory 工具(moderately_familiar)处理光滑参数化模型足够,但处理这种奇异模型需要更高阶几何统计(如协方差模型)。
  2. CStree 上的近似变分推断:本文学习算法基于 BIC 贪心搜索,但大规模数据(变量 100+)下计算 explode。缺树分解/消息传递的精细计算框架,而您当前组合工具(einsum)可用于 U-statistics 但尚未推广到 CStree 的似然计算。不过这条可通过逐步积累变为中期可做。

值得精读的关键参考文献: 1. Collazo, Görgen & Smith (2018) "Staged Trees" — CStree 的上位框架,阅读后可以理解 stage 分裂如何表达 context-specific independence,是理解 CStree 因子的基础。也用于 B 档中 context-specific d-separation 的推广。 2. Robins et al. (2008) "Higher-order influence functions" — 补 HOIF 文献,直接为 B1 档服务;其中高阶 bias 矫正的表达式是后续数值实现的关键。 3. Forré & Mooij (2018) "Markov properties for context-specific causal models" — 已部分处理 context-specific Markov 性质,是 B2 档的前置文献,读完后可迅速写出 CStree 上的 do-calculus 推广。

六、延伸思考与练习

  • 假设扰动:若删除忠实性假设(允许分布含有比 CStree 结构更多的条件独立),等价类刻画(定理 4 和定理 7)将不再成立(因为有些等价类会被合并)。技术上需要引入上下文特定的 I-map / minimality 概念,使用类似于 DAG 中 Markov 边界 (Markov blanket) 的理论——这属于中度困难,部分落在 B 档(需要先建立 context-specific I-map 理论)。
  • 开放问题
  • 作者在结论中提出:CStree 模型下,如果干预目标部分已知(如知道某变量被干预但不知上下文),能否设计出更高效的结构学习算法?这直接对应您 A1 中 EIF 推导的扩展场景。
  • CStree 的可识别性:给定观测分布,CStree 结构是否唯一(除了等价类意义)?本文未讨论,但这对统计推断很重要。此问题若无忠实性假设将退化到非识别性,但有忠实性时可能可识别——可作为一个理解检测题的问题来研究。

  • 理解检测题:给定三个变量 \(X, Y, Z\),其观测分布满足:\(p(x,y,z) = p(x) p(y \mid x) p(z \mid x, y)\),且 \(X \perp Y \mid (Z=0)\)\(X \not\perp Y \mid (Z=1)\)
    (a) 画出该分布的一个 DAG 表示(如果存在);
    (b) 画出一个 CStree 表示(必须利用 context-specific 独立性减少参数);
    (c) 说明这两个表示在结构上的差异(树深度、阶段数),并验证 DAG 不能表达 \(X \perp Y \mid (Z=0)\) 这一事实。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论