Causal effects in maximally oriented partially directed acyclic graphs (MPDAGs): Identification and efficient estimation¶
讲者: Emilija Perkovic
讨论人: Thomas Richardson
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-09-29
主题: 因果推断
视频: https://www.youtube.com/watch?v=jY0nH3oVu4w · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2008.03481 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
方向:因果效应在部分有向图(MPDAG)中的识别与有效估计。
核心追问:当因果结构只能被部分地(从一个马尔可夫等价类中)获知时——即我们只能学到CPDAG或加入背景知识后的MPDAG,而非确切的DAG——如何从观测数据中识别并高效估计总因果效应?
奠基与主流路线:
- 在已知因果DAG下,G-formula(Robins, 1986)给出识别总因果效应的充要条件,但需要完整DAG。
- 在实际中,从数据无法唯一识别DAG,只能学到代表等价类的CPDAG(Spirtes et al., 1993; Chickering, 2002)。此时如何判断效应是否可识别?Perković et al.(2015, 2017, 2018)给出了基于广义调整(generalized adjustment)的充分条件,但其对识别不是必要的,且对联合干预不完整。
- 对只有一个处理和一个结果的情形,广义调整几乎完备;但对多个处理/结果,它可能找不到有效的调整集,而效应仍可通过G-formula的一种推广来识别。
- 在线性SEM假设下,为估计效应,有基于路径追迹的plug-in MLE(Hoshi & Hirano ?, 可能指的是Hayashi & Horike? 转写中提到“Hayashi and Hiraki”,但未找到确切引用,暂照转写;需核实)和基于调整的OLS(如最优调整集选择,Henckel et al., 2019? 转写中“Hankel at all”应为Henckel et al.)。这些方法在已知DAG时有效率优劣;在CPDAG/MPDAG下,调整集不一定存在,且即使存在,其估计效率低于基于G-formula推广的plug-in。
当前前沿与这场报告的站位:
这篇报告(对应论文Guo & Perković, 2020, arXiv:2008.03481)有两个贡献:
1. 因果识别公式(Perković, 2020):将G-formula推广到MPDAG,提供充要的图准则(所有可能的因果路径必须以有向边从处理出发),且识别公式通过将节点按“桶”(最大无向连通分量)分组,仅对桶间结构做乘积分解。这统一了DAG、CPDAG、MPDAG三种情形。
2. 有效线性估计的G-回归:在线性SEM且无隐藏变量假设下,将该识别公式转化为一个递归最小二乘plug-in估计量,并证明它在所有基于样本协方差的规则估计量中(含调整估计、joint-IDA的递归回归与修正Cholesky分解)是渐近最有效的。关键技巧是块递归重参数化(block recursive reparameterization),利用MPDAG的“限制性”(restrictive property):同桶内所有节点有相同的桶外父集。这避免了估计桶内方向的不确定性,从而得到有效估计。
与你(研究者)的连接:该工作直接落在你的核心兴趣——因果推断(识别与有效估计)与半参数理论(效率界)。报告第二部分在非高斯误差下仍成立(仅依赖二阶矩),这与你的高效率理论兴趣高度吻合。你熟悉的工具(如M-estimation、识别理论)足以阅读该论文,而其中的线性重参数化技巧与你的半参数经验可能有交叉。
二、最小内核 / 一个最简例子¶
符号设定:
- 可观测数据: \( V = (X_1, X_2, \dots, X_p) \),每个变量是实值。
- 因果图是一个MPDAG \( G \),节点集为 \( V \)。边可以是定向(→)或未定(—)。G代表一个DAG等价类。
- 我们关心总因果效应 \(\tau_{X \to Y}\),即 \( \frac{\partial}{\partial x} \mathbb{E}[Y \mid do(X=x)] \)(线性情形下),或更一般地,\( \mathbb{E}[Y \mid do(X=x+1)] - \mathbb{E}[Y \mid do(X=x)] \)。
- 观测分布 \( f(v) \) 已知;干预分布 \( f(v \mid do(x)) \) 由因果结构决定。
- 无隐藏变量假设,误差独立(或线性SEM中误差独立且均值为零)。
- 集合定义:\( S = an(Y, G_{V \setminus X}) \setminus Y \),即去掉X后,Y的所有祖先(不包含Y)。
- “桶”:\( S \cup Y \) 在G的诱导无向子图中的最大连通分量(maximal undirected connected components),记为 \( S_1, \dots, S_k \)。这些桶按G的部分拓扑序排列(定向边定义了桶间的偏序)。
最简特例:只有三个变量 \( X, Y, Z \),MPDAG \( G \) 为 \( X \rightarrow Z \rightarrow Y \) 且 \( X \) 与 \( Z \) 之间无未定向边(即定向全知)。这是一个DAG,识别平凡。为了演示MPDAG的挑战,我们考虑稍微复杂但仍是二维的例子:
设 \( V = \{X, Y, A\} \),G为:\( X — A \rightarrow Y \)(即X和A之间有未定向边,A到Y有定向边)。此时: - 条件:从X到Y的“可能的因果路径”是 \( X — A \rightarrow Y \),它以未定向边开始,因此条件不满足,效应不可识别。直观原因:在等价类中,真实DAG可能是 \( X \rightarrow A \rightarrow Y \)(A是中介)或 \( X \leftarrow A \rightarrow Y \)(A是混杂)。两种情形下总效应不同,无法从观测数据唯一确定。
现在考虑可识别的例子:设 \( V = \{X, Y, A, B\} \),G为:\( X \rightarrow A — B \rightarrow Y \)(X到A定向,A和B未定向,B到Y定向)。
- 检查条件:所有可能因果路径是 \( X \rightarrow A — B \rightarrow Y \),以定向边开始,满足条件,效应可识别。
- 计算 \( S = an(Y, G_{V \setminus \{X\}}) \setminus \{Y\} \)。去掉X后,Y的祖先为 \( A, B \)(因为 \( B \rightarrow Y \),\( A — B \) 意味着在等价类中A可能是B的祖先或后代,但在去掉X后的图中,A仍可能在某个DAG中作为B的祖先;定义中 \( an(Y, G_{V\setminus X}) \) 包含通过任何可能定向路径可达的节点)。所以 \( S = \{A, B\} \)。
- \( S \cup \{Y\} = \{A, B, Y\} \)。在G的诱导无向子图中,这些节点都连通(A—B,B—Y),所以只有一个桶 \( S_1 = \{A, B, Y\} \)。
- 因果识别公式给出:
但需注意:桶内无定向关系未知,公式要求按桶分组。实际上,对于单个桶,公式退化为:
然后利用链式法则和干预操作:由于X是桶外变量且是A的父节点,桶内用联合分布。在线性情形下,这导致 \( \tau = \beta_{Y \sim A, B} \times \beta_{A \sim X} + \beta_{Y \sim B} \times \beta_{B \sim X?} \) 实际上需要具体计算。在此仅说明原理:通过桶分解,只估计桶间的系数(从X到桶的定向边系数、从桶到Y的定向边系数),避免估计桶内方向。
核心思想:当因果图中有未定向边时,识别需要判断所有可能因果路径是否都以定向边从处理出发;若是,则通过将图中节点按无向连通分量(桶)分组,将干预分布表示为桶间因子的乘积(类似于G-formula但因子是桶的条件分布),从而识别。在线性模型中,这转化为递归最小二乘:只回归桶外父集即可,无需估计桶内结构。
三、报告主体:讲者讲了什么¶
[0:00:06–0:01:45]
开场与目标介绍。Emilija Perković(UW)介绍讲座分为两部分:第一部分是因果效应在MPDAG中的识别(基于个人工作Perković, 2020),第二部分是有效估计(与F. Richard Guo合作,对应arXiv:2008.03481)。
[0:01:46–0:03:35]
回顾总因果效应的定义与do-操作。演示一个简单DAG例子:节点B是混杂,干预通过切断指向X的边实现。强调干预分布与条件分布的区别。
[0:03:36–0:05:20]
因果DAG的定义:观测分布与所有干预分布都按DAG因式分解。以三变量图 \( X \rightarrow Y, B \rightarrow X, B \rightarrow Y \) 为例,展示G-formula:\( f(y \mid do(x)) = \int f(y \mid b, x) f(b) db \)。导出总效应可识别。
[0:05:21–0:06:20]
正式定义总因果效应为某个函数(期望差、导数等)。当可观测数据计算出的 \( f(y \mid do(x)) \) 唯一确定时,称效应可识别。给定因果DAG,所有总效应都可识别(通过G-formula)。
[0:06:21–0:08:55]
问题:真实DAG未知,只能从数据学得CPDAG(如右侧图)。展示从DAG \( X \rightarrow A \rightarrow Y \) 等可能等价类推导出的CPDAG含未定边。之后引入背景知识可得到MPDAG(附加定向边后仍保留部分未定边)。框架:从观测数据+背景知识学习因果图,然后识别并估计效应。报告聚焦第二步。
[0:08:56–0:14:00]
现有识别准则总结表(见图):
- G-formula(Robins, 1986):对DAG充要。
- 广义调整(Shpitser et al., 2010; Perković et al., 2015, 2017, 2018):在CPDAG、MPDAG中充分但不必要(尤其多重处理/结果时)。
- 因果识别公式(Perković, 2020):对MPDAG充要,统一概括前两者。
[0:14:01–0:19:30]
因果识别公式定理(幻灯片第15页):若且仅若从X到Y的所有可能因果路径都以定向边从X出发,则
其中S = an(Y, G_{V\setminus X}) \setminus Y,(S_1,…,S_k)为S ∪ Y在G的诱导无向子图中的最大连通分量(桶)。直觉解释:若存在路径 \( X — A \rightarrow Y \),则效应不可识别(因不知该路径是因果还是混杂)。公式需要先找到桶,再按部分拓扑序因式分解。
[0:19:31–0:21:50]
例子:将前图E改为X2,考虑联合干预 \((X1, X2) \rightarrow Y\)。发现无调整集可用(因为A既是X1的后代/中介,又是X2的混杂),但G-formula仍适用(因DAG可识别)。然后展示对应的MPDAG版本(X1与A之间未定向?具体见图)。演示如何应用因果识别公式:
- 检查条件:X1、X2邻接边均为定向,通过。
- 计算S = an(Y, G_{V\setminus{X1,X2}}) \setminus {Y} = {A,B,C,D}。
- 桶分解:在移除X1、X2后的无向子图中,{B,C,D}连通,{A}孤立,{Y}孤立,故桶为({B,C,D}, {A}, {Y})。
- 得公式:\( f(y \mid do(x1,x2)) = \int f(y \mid pa(Y,G)) f(A \mid pa(A,G)) f(B,C,D) \, dA\,dB\,dC\,dD \)。其中 \( pa(Y,G) = \{A, X2\} \),\( pa(A,G) = \{B, D, X1? 或 B? \}\) 因A桶内无其他点,其父集仅为桶外父集(B、D、X1?需核对)。随后证明sktech:先写联合干预密度,链式分解,利用桶内条件独立去掉非父节点,最后将do(x)转为观测。
[0:21:51–0:23:55]
证明sktech:从干预密度出发,按部分拓扑序(桶序)逐项写链式法则;利用桶内节点有相同外部父集的性质,简化;最后仅保留观测分布中的条件项。
[0:23:56–0:28:00]
转入第二部分:线性SEM下的有效估计。假设线性、无隐藏变量、误差独立。重新定义符号(X为随机向量,节点用下标)。介绍线性结构方程模型:\( X_j = \sum_{i \in pa(j)} \gamma_{ij} X_i + \epsilon_j \)。总效应可表示为路径边缘权重的和(权重乘积沿因果路径)。自然估计方法:回归每个节点于其父集得到 \(\hat\gamma\),然后plug-in(路径追踪估计量)。另一方法是调整:通过回归Y于处理X和选定的调整集Z得到系数。
[0:28:01–0:30:30]
现有文献:对DAG,路径追踪MLE比任何调整集更有效(Hayashi & Hiraki?);对CPDAG/MPDAG,Henckel et al. 给出了最优调整集选择方法(最优,但仍是调整估计量)。问题:我们的推广的因果识别公式对应的plug-in估计量(G-回归)是否比最优调整更有效?答案:是的。
[0:30:31–0:34:20]
问答环节(Dominique提问):计算复杂度?讲者答:只需一次桶分解(DFS)和一次祖先集计算,复杂度低。另问:线性假设是否改变调整集?答:因果识别公式本身就是非参数结果,但在线性模型下证明同样充要,不增加新调整集。
[0:34:21–0:41:00]
回到MPDAG下的线性SEM例子。展示MPDAG与原DAG的gamma矩阵不可识别(因桶内方向未知)。利用因果识别公式的桶分解,发现桶间方向可识别,且每个桶内所有节点共享相同的桶外父集(限制性性质)。由此得到块递归重参数化:每一桶视为一个“块”,其依赖于桶外父集和一个桶内误差向量(可能相关)。从而新参数矩阵λ是块上三角的,且只涉及桶间系数。此λ可通过最小二乘一一估计(回归每个桶的所有变量于其桶外父集,给出系数矩阵的MLE——高斯假设下等价于OLS)。从而G-回归估计量将因果识别公式中的参数替换为这些OLS系数。
[0:41:01–0:46:30]
主要理论结果(幻灯片第37页附近):对于任何基于样本协方差的规则估计量(包括协变量调整、joint-IDA的递归回归与修正Cholesky分解),G-回归估计量的渐近方差小于等于该估计量。证明不假设高斯误差(仅依赖二阶矩)。解释:G-回归利用了完整图结构,而调整等方法只能利用部分信息。
[0:46:31–0:50:00]
模拟结果:在DAG设定下,G-回归 vs 最优调整、joint-IDA两种方法。显示在单处理时收益不大,多处理时收益明显;在CPDAG设定下(图结构不能完全确定),收益变小但仍为正。讨论:调整与G-回归在单处理时几乎等价,因为广义调整在单处理时已接近完备。但在联合干预时调整可能不可用,而G-回归始终可用(只要可识别)。
[0:50:01–0:53:30]
总结与R包(GitHub)。提及非参数效率工作(如Ernest & Smucler?)可能扩展方向。
[0:53:31–结束]
讨论者Thomas Richardson评论:
- 连接IDA与joint-IDA工作:IDA在CPDAG下通过所有可能父集做调整;joint-IDA给出两种基于父集的方法(递归回归和修正Cholesky)。当前G-回归提供一个统一且有效的方法。
- “限制性”不是额外假设,而是CPDAG/MPDAG的固有性质:同一桶内节点有相同的桶外父集。这保证了重参数化的块结构。
- G-回归无需估计桶内参数,因此若桶内结构不同但桶间结构相同,估计量不变(例如去掉某些定向边)。
- 进一步问题:若只加入最少的背景知识(如只定向处理节点出发的边),是否足以识别?讲者回应:他们正在做相关工作,最小背景知识可能保证识别且G-回归结果相同(因Cochran公式,数值上相同,但大样本下可能因有限样本不同)。
- 线性假设很关键,非参数推广需谨慎。
四、对应论文与开放问题¶
对应论文:
- 第一部分识别理论:Perković (2020). "Causal effects in maximally oriented partially directed acyclic graphs: Identification." 未提供arXiv号,但在转写中被称为自己的独立工作。
- 第二部分有效估计:Guo & Perković (2020). "Efficient least squares for estimating total effects under linearity and causal sufficiency." arXiv:2008.03481. (对应摘要已提供)
- R包:可能为 causalEffect 或 gRegression,GitHub链接需从讲者处查找(未在转写中明确给出)。
开放问题(每条扎根于转写):
-
非参数/半参数效率:线性模型下的效率结论能否推广至非/半参数?讲者提到“Ernest Can Smucler”的工作可能相关([0:47:40–0:47:50]:“there is work on adjustment and on efficiency beyond the linear sem setting, that by Ernest Can Smucler and that is perhaps also worth considering applying to our own estimator”)。因此探索在非参数模型下,基于因果识别公式的半参数有效估计是一个自然延伸。
-
最小背景知识:Thomas提出一个开放的实用问题([0:55:30–0:56:30]):在MPDAG中,哪些额外定向边是识别/估计所必需的?是否只需要定向从处理节点出发的可能因果路径上的边?讲者确认正在做相关项目([1:00:10–1:00:30])。这引出的问题是:对于给定的处理-结果对,确定最小定向边集使得效应可识别,并探讨G-回归的估计是否保持不变(理论相等但有限样本可能差异)。
-
隐藏变量:Thomas指出当前假设无隐藏变量是强的([0:59:00–0:59:15]:“assuming that there's a dag with no hidden variables is maybe appropriate in some settings but that seems to be quite a strong assumption”)。扩展至存在未观测混杂的情形,即从CPDAG/MAG(最大祖先图)出发,如何识别和有效估计总效应。
-
桶内误差相关性:Thomas提到在线性假设下允许桶内误差相关([0:54:55–0:55:05]:“we could allow the errors to be correlated within buckets, so all of those would all give the same estimate”)。这引出对广义线性模型或非线性可加模型下桶分解的适用性。
-
有限样本与数值稳定性:模拟显示,在CPDAG下G-回归相对于最优调整的改进不如DAG下明显([0:46:30–0:47:20])。是否存在极端图结构使G-回归的方差反而更大?也需探究G-回归在估计桶内参数时的数值稳定性(特别是桶内变量数多时)。
Maintained by 陈星宇 · Homepage · Source on GitHub