Hierarchical Causal Models¶

作者: Eli N. Weinstein, David M. Blei
来源: JMLR
主题: 因果推断
相关性: 8/10
链接: https://www.jmlr.org/papers/v27/25-0899.html

一、核心问题与贡献¶

①本文研究了嵌套层级数据（如学校-学生、患者-细胞）下的因果识别与估计问题。②核心工具是引入内层板以扩展结构因果模型与图模型，并发展了推广 do-演算的图形化识别准则。③主要贡献是证明了层级结构能在非层级数据无法识别时（如仅有单元级汇总变量可用）实现因果识别，并提供了相应的层级贝叶斯估计策略。

二、基础设定¶

核心概念与符号：
Inner plates（内层板）：图模型中的方框记号，表示嵌套的子单元结构，板内变量在给定单元级变量下独立同分布。
Unit-level variables（$V$）：单元级变量（如学校预算），在板外。
Subunit-level variables（$U$）：子单元级变量（如学生成绩），在板内。
Aggregation（聚合）：子单元变量到单元变量的映射函数（如均值 $\bar{U}$），构成跨层级因果流的关键。
Hierarchical SCM：包含内层板机制的 SCM，子单元机制在板内共享参数或同分布。
关键假设：
Subunit exchangeability（子单元可交换性）：给定单元级变量，子单元的机制是可交换的（对应板内的 i.i.d. 或 exchangable 假设）。统计学含义：允许参数共享与聚合统计量的似然函数构建。相比传统扁平 SCM，这是新增的结构假设，也是层级识别的基石。
Aggregation sufficiency（聚合充分性）：单元级变量的因果机制仅依赖于子单元变量的聚合统计量，而非子单元的完整集合。统计学含义：信息降维，使得在仅观测到汇总数据时推断成为可能。
Causal sufficiency / No hidden confounding at specific levels：特定层级（单元级或子单元级）无隐藏混杂。相比传统设定，本文允许跨层级的混杂通过聚合路径被显式建模。
问题背景：传统因果图与 do-演算假设数据是扁平的，无法处理嵌套结构中的聚合与跨层级因果作用，导致在仅有汇总数据时面临识别死局。与最相关的文献区别：Pearl 的 do-演算及 Tian & Pearl 的 ID 算法仅适用于扁平 DAG；本文将图结构从标准 DAG 扩展至带板的 DAG（Plate DAG），并给出了对应的识别算法。

三、主要定理 / 核心结果¶

原文陈述：层级因果模型中的因果效应 $P(Y | do(X))$ 可识别，当且仅当层级 ID 算法（基于推广的层级 do-演算三条规则）成功返回一个以观测分布表达的公式；若算法失败，则存在反例模型使得观测分布相同而干预分布不同。
直观解释：在带内层板的 DAG 中，do-演算的插入/删除观测、动作交换、动作删除规则依然成立，但作用域扩展到了层级变量和聚合变量。层级结构提供了额外的条件独立性（如给定单元级变量下子单元的独立性），从而打通了扁平结构下被阻断的识别路径。
解决了什么技术难点：解决了跨层级（单元到子单元，子单元聚合到单元）的因果流与混杂路径的图论表征问题，特别是聚合变量作为中间节点时的 d-分离判定与 do-演算规则适用性。
适用条件与局限：必须满足子单元可交换性假设；聚合函数的形式需要已知；目前理论主要针对离散或参数化设定，半参数/非参数下的聚合识别边界尚不明确。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法与图论归纳，将 Tian & Pearl 的 ID 算法推广到带板的图。
拆解为 3-5 个关键逻辑步骤：
层级图 C-组件分解：将带板的 DAG 分解为包含层级变量的混杂组件（C-components），识别子单元级条件概率。
聚合算子的图论处理：在 d-分离和 do-演算规则中，将聚合变量视为具有特定父节点集的确定性节点，推导层级 do-演算的三条规则。
递归降维：模仿 ID 算法，通过移除无关节点、处理局部结构（如子单元局部独立性），将识别问题递归化为更小的子图识别问题。
不可识别构造：当算法失败时，构造具有相同观测分布但不同干预分布的层级模型对（反例构造），证明不可识别性。
最关键的技巧性引理或"跳跃点"：Aggregation d-separation（聚合 d-分离）。在扁平图中，聚合变量（如均值）的引入会破坏原有的 d-分离性质，因为聚合变量可能同时依赖于多个子单元。作者通过引入"plate-level"的分离准则，证明了在给定单元级变量下，板内子单元的独立性如何转化为聚合变量的独立性，这是推广 do-演算的核心跳跃点。
数学工具评价：是经典图论因果识别工具（do-calculus, ID algorithm）与概率程序/图模型中 plate notation 的巧妙组合，并非全新的分析框架，但填补了层级因果识别的空白。

五、与研究者兴趣的关联¶

连接到哪个子方向：因果推断的 identification 理论，特别是带有嵌套/层级结构的图模型识别与半参数估计。
可借鉴的核心思路或技术工具：将聚合变量视为确定性节点并修改 d-分离准则的思路，可迁移到 longitudinal causal inference 中处理时间片聚合或 cluster-level treatment 的识别问题；层级贝叶斯估计框架可结合 debiased ML，用于构建半参数层级模型的有效推断。
值得精读的关键参考文献：
Tian, J., & Pearl, J. (2002). On the identification of causal effects.（ID 算法的基础，理解本文算法递归逻辑的必读）
Shpitser, I., & Pearl, J. (2006). Identification of joint interventional distributions in recursive semi-Markovian causal models.（do-演算完备性证明，本文层级推广的理论基石）

六、延伸思考与练习¶

假设扰动：若修改"子单元可交换性"假设为存在隐藏的子单元级混杂（即板内机制非 i.i.d.，存在板内网络溢出效应），结论会如何变化？技术上需要引入板内潜在变量与空间自回归结构，图结构的 d-分离将失效，可能需要全新的可识别性边界条件。
开放问题：在半参数/非参数设定下，若聚合函数未知（如仅知为某种泛函），层级因果效应的半参数有效界如何推导？
理解检测题：考虑一个简单层级模型：学校预算 $B$ 影响学生辅导时间 $T$，$T$ 影响学生成绩 $Y$，学校平均成绩 $\bar{Y}$ 影响下一年预算 $B'$。假设我们只有学校级数据 $(B, \bar{T}, \bar{Y}, B')$，没有个体学生数据。请用层级 do-演算说明 $P(\bar{Y} | do(B))$ 是否可识别，并写出识别公式（假设无其他混杂）。

Maintained by 陈星宇 · Homepage · Source on GitHub