Hierarchical Causal Models¶

作者: Eli N. Weinstein, David M. Blei
来源: JMLR
主题: 因果推断
相关性: 9/10
链接: https://www.jmlr.org/papers/v27/25-0899.html

一、核心问题与贡献（3句话）¶

本文研究嵌套数据（如学生嵌套于学校）中单位级变量对子单位级结果（或反之）的因果效应识别与估计问题。
核心工具是提出层级因果模型，通过在结构因果图中引入"inner plates"表示嵌套结构，并发展了一套广义do-calculus图化识别规则。
主要贡献是证明层级数据（甚至仅有单位级汇总统计量时）能够实现非层级数据下不可识别的因果效应，并给出了具体识别条件与层级贝叶斯估计策略。

二、基础设定¶

核心概念与符号¶

层级因果模型（Hierarchical Causal Model, HCM）：一个三元组 \(M = (U, V, F)\)，其中 \(U\) 为外生变量（满足层级独立性假设），\(V\) 为内生变量（包括单位级变量与子单位级变量），\(F\) 为结构方程集合。通过图 \(\mathcal{G}\) 表示，包含 inner plates（即虚线框，表示重复的子单位副本）以刻画嵌套数据。
路径图（Path Diagram）：带 inner plates 的有向无环图，其中节点分为层级。单位级变量（如学校政策）作用于子单位级变量（如学生成绩），子单位级特征可通过聚合成为单位级变量（如平均成绩）。
广义do-calculus：在标准do-calculus三条规则基础上，引入涉及inner plates内变量的操作规则，允许对部分副本进行干预。

关键假设¶

层级独立性（Hierarchical Independence）：不同单位的外生变量相互独立；同一单位内子单元之间外生变量在给定单位级变量条件下独立。这相当于假设干扰（interference）仅通过层级结构建模，与标准单位级独立性假设不同。
一致性（Consistency）：观察到的潜在结果等于对应干预下的结果（SUTVA的层级版本）。
图模型马尔可夫条件：每个变量独立于其非后代变量在给定其父变量条件下（适用于层级图模型）。
默认无隐藏混淆（除非图中标明），但本文也讨论了部分可观测的情况。与已有文献相比：相比于假设独立同分布数据的标准因果图模型，本文放宽了对独立性的要求，允许嵌套依赖；相比于带干扰项的因果图，本文通过层级结构而非显式干扰图建模，更贴合实际问题。

问题背景¶

已有因果推断方法（如Pearl的do-calculus）假设数据独立同分布，无法处理嵌套依赖；使用汇总统计量会损失个体信息。本文旨在利用层级结构本身作为识别资源。
最相关文献：（1）Pearl (2009) 的标准因果图与do-calculus；（2）Tchetgen Tchetgen & VanderWeele (2012) 关于因果干扰的工作，但该框架处理的是个体间干扰而非层级嵌套；（3）Hernán & Robins (2020) 中关于层次数据的讨论，但缺乏系统识别理论。本文首次将do-calculus推广至层级数据。

三、主要定理 / 核心结果¶

定理1（层级do-calculus完备性）¶

陈述：对于层级因果模型 \(\mathcal{G}\)，任何因果效应 \(P(Y|do(X))\) 可由观察分布识别当且仅当可通过反复应用推广的do-calculus规则（Rule 1-3加上涉及inner plates的规则4）转化为不包含do算子的表达式。
直观解释：该定理刻画了层级因果图下可识别性的充要条件，表明图捜索算法可以判定给定因果效应是否可识别。
技术难点：inner plates打破了DAG的标准结构，需要定义新的条件独立性关系与介入操作，并证明规则完备性。
适用条件：要求图满足层级独立性假设；若存在隐藏混淆，需增加规则。

定理2（汇总统计量的识别增益）¶

陈述：考虑一个层级图，其中子单位级变量 \(Y\) 可观察但单位级变量 \(T\) 只能以汇总统计量（如均值） \(\bar{Y}\) 形式获得。若在非层级图中效应 \(T\to Y\) 不可识别，则在层级图中仅使用 \(\bar{Y}\) 也可能识别，当且仅当满足指定的图条件（如存在工具变量或分层后门准则）。
直观解释：即使无法观测个体子单位的结果，聚合数据也可能提供因果识别所需的条件独立性，这得益于单位间变异与层级独立性。
技术难点：需要在图上刻画汇总统计量如何影响条件独立性关系，这超出了标准图模型范畴。
适用条件：要求单位间足够多样本使得汇总统计量是有效估计；若单位内样本量很小，可能弱识别。

命题3（层级后门准则）¶

陈述：若存在一个变量集合 \(Z\)（可以跨层级）满足：①\(Z\) 阻断所有从 \(X\) 到 \(Y\) 的后门路径；② \(Z\) 不包含 \(X\) 的后代；③在层级图中，\(Z\) 与 \(X\) 之间无由inner plates引入的干扰路径，则 \(P(Y|do(X))\) 可识别为 \(\sum_Z P(Y|X,Z)P(Z)\)。
直观解释：这是标准后门准则的层级推广，指出调整的变量需要同时考虑层级结构带来的额外路径。
技术难点：条件③需在图上定义“干扰路径”，涉及通过inner plate复制变量的依赖。
适用条件：要求所有后门变量都可观测且满足 positivity。

四、证明框架 / 方法设计¶

证明主干逻辑（以定理1为例）¶

采用归纳法：对图中节点个数归纳。首先证明基础情况下（单个单位）规则等价于标准do-calculus。
然后归纳步骤：利用层级独立性将嵌套图分解为外层（单位级）与内层（子单位级），分别应用广义规则。
关键步骤：①定义inner plates内的条件互信息操作；②通过图变换（如删除inner plate后连接条件）将识别问题归约为标准图；③证明新规则的 soundness 与 completeness（通过构造反例图证明必要性）。
最关键的技巧性引理：引理4——“层级图压缩引理”，说明对inner plate进行 marginalization 后，因果效应保持不变当且仅当满足某个图分离条件。该引理是连接识别规则与实际可观测分布的核心。
数学工具评价：本质上是对 Pearl do-calculus 的图论扩展，但借助概率图模型的 d-分离技术与条件独立性代数，属经典工具的巧妙组合；没有引入新的概率理论，但组合方式新颖。

估计方法设计¶

核心估计策略：层级贝叶斯模型，对每个单位随机效应建模，采用MCMC或变分推断。
识别策略：利用图识别结果写出生起的似然，并编码为概率图模型。
稳健性：在模拟中检验了识别假设违背时的偏差，但与半参数方法相比未提供double robustness或交叉拟合。
计算实现：使用Stan进行贝叶斯推断，复杂度随单位数与子单位样本量线性增长。

五、问题发现：研究者能做什么¶

(A) 立即可做（2条）¶

问题表述：对层级因果模型下的特定因果效应（如单位级干预对子单位级结果的平均因果效应），推导其半参数效率界，并构造基于Neyman正交的 DML 估计量，实现双重稳健估计。
武器库：estimation theory in causal inference（very_familiar）；methodology方面可用semiparametric theory（moderately_familiar但已具备基础）。
第一步动作：先从本文定理2（汇总统计量识别）出发，选择最简单的层级图（一个单位级变量 \(T\)、若干子单位级结果 \(Y_{ij}\)、无混淆），写出 moment condition 和 efficient influence function，并比较贝叶斯估计与 DML 的有限样本性质。
与本文已有结果的关系：本文只提供了贝叶斯估计，没有探讨半参数效率。这是补充估计侧贡献，且可直接沿用其识别结果。
问题表述：在高维单位数（单位数远大于内样本量）的设定下，推导层级因果图的 minimax 识别/估计下界，并与贝叶斯估计的 rate 对比。
武器库：minimax bounds for estimation problems（very_familiar）；high-dimensional asymptotics（very_familiar）。
第一步动作：定义参数空间（层级独立性假设下，单位级效应大小、子单位级噪声方差），计算稀疏或 dense 情形下的 minimax rate；使用 Fano 或 Le Cam 方法。
与本文已有结果的关系：本文未讨论渐近下界，因此可提供理论 benchmark，可直接回答“层级结构带来多少效率增益”。

(B) 中期可做（2条）¶

缺哪一块：HOIF（Higher-Order Influence Functions）的工具；具体需要掌握HOIF如何用于非光滑泛函（如拐点效应等）。在当前识别框架下，有些因果泛函可能不是路径光滑的，需要高阶修正。
补哪1-2篇文献：Kennedy (2022) "Semiparametric doubly robust targeted double machine learning" 中关于HOIF的部分；或 Robins et al. (2008) 关于高阶 influence functions 的工作。
补完之后能做什么：能够对层级因果模型中更复杂的泛函（如单位级效应与子单位级效应的交互项）构造 rate-doubly robust 估计量，并分析其收敛速度。
缺哪一块：identification theory in causal inference（moderately_familiar）的深层理解，特别是与图模型替换（single world intervention graphs）的联系。
补哪1-2篇文献：Richardson & Robins (2013) "Single World Intervention Graphs"；Pearl (2009) 第3章 do-calculus 完整性证明。
补完之后能做什么：可以验证本文的层级 do-calculus 规则是否完备，或发现遗漏规则；进而为更复杂的层级图（如跨层反馈）发展新的识别准则。

(C) 暂不建议（2条）¶

缺什么机器：本文核心识别理论建立在图论和 do-calculus 公理体系上，不依赖高维统计复杂性或计算复杂度定义。若想研究层级因果模型的统计计算折中（如是否有些效应多项式时间可识别但指数时间才能估计），需要低度似然比（low-degree likelihood ratio）或 SOS hierarchy 等工具，这些不在武器库中。
为何不易绕过去：此类问题需要从计算复杂度角度刻画 identification-estimation gap，涉及平均情况算法下界，与现有工具（minimax bound、U统计量）距离甚远。
缺什么机器：本文估计部分使用贝叶斯方法，若想转化为非参数极大似然或经验似然方法，需要渐近理论中的非参数 M-估计（如 sieve MLE）。当前 moderately_familiar 有 M-estimation theory，但非参数 sieve MLE 对嵌套结构的分析复杂度高，且需要鞅差工具。不是无法做，但投入产出比可能不高，不如先专注半参数 DML 路径（A1）。

值得精读的关键参考文献： 1. Pearl (2009) Causality, 第3-4章 — 需对照标准 do-calculus 图识别原则，是理解本文推广的基础。 2. Tchetgen Tchetgen & VanderWeele (2012) "On causal inference in the presence of interference" — 对于干扰问题的另一个图范式，可与本文层级独立性假设对比异同。 3. Kennedy (2022) "Semiparametric doubly robust targeted double machine learning" — 若计划做(A1)中的 DML 估计量，该文提供了 HOIF 与正交矩的现代处理。

六、延伸思考与练习¶

假设扰动：若放松层级独立性假设，允许单位间通过有限大小的网络相互依赖（如空间结构），则层级图方法失效。技术上需要引入“网络干扰”的识别策略，如 Aronow & Samii (2017) 的随机化推断。这个扰动后问题落入(A)领域内吗？——不算，因为网络中缺乏层级树的嵌套结构，但若网络有分块结构，可能用近似层级图。目前属(B)中期可做，需先在 identification theory 上熟悉网络干扰文献。
开放问题：
本文的层级do-calculus是否完全（即是否具有 completeness）？作者暗示了，但未给出与标准 do-calculus 一样的严谨完备性证明（后者由 Shpitser & Pearl 2006 证明）。一个值得跟进的方向是证明完备性，或发现额外的识别规则。
在非参数模型中，层级因果效应可能无法通过条件期望直接表示，但可用混合模型（如线性随机效应）做参数假设。那么在什么条件下层级结构能提供非参数识别？
理解检测题：考虑一个简单的两层层级图：学校变量 \(X\)（政策）影响学生成绩 \(Y_{ij}\)，同时学校内学生背景 \(C_{ij}\)（可观测）也影响成绩，且 \(C_{ij}\) 影响 \(X\)（学校根据学生平均背景制定政策）。画出同一图的标准非层级版本，并说明为何在非层级图中效应 \(X \to Y\) 不可识别，但在层级图中（利用跨学校变异）可能识别。然后写出识别公式。

Maintained by 陈星宇 · Homepage · Source on GitHub