Variable elimination, graph reduction and the efficient g-formula¶
作者: F Richard Guo, Emilija Perković, Andrea Rotnitzky
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
在无隐藏变量的有向无环图(DAG)因果模型下,研究“点暴露干预均值”(interventional mean)ψ = E[Y(do(a))] 的识别与高效估计。核心问题是:给定一组完全观测的变量(无隐藏变量),能否在保持识别且不降低半参数效率界的前提下,剔除若干变量(从而节省测量成本),并给出一个“最简”的识别公式。该子方向将 图论变量选择 与 半参数效率理论 精确结合——既要保证参数可识别(识别性),又要保证估计量的渐近方差达到半参数下界(效率性)。
发展脉络(history)¶
- 奠基工作(g-formula 与后门准则):Robins(1986)提出 g-formula,为干预分布提供了基于完整观测集的因子分解公式。Pearl(1995a)引入后门准则、前门准则,从图论角度刻画识别条件。此后,调整集选择 成为标准手段:找到一组协变量 Z 使得 E[Y|do(a)] = E[E[Y|a,Z]]。此时 Z 的选取不唯一,识别性条件由 d-separation 给出。
- 效率导向的调整集(最优调整集):Henckel et al.(2019/2022)在线性模型下提出“最优调整集” O(G):在所有 valid 调整集中,其给出最小渐近方差。Witte et al.(2020)进一步给出 O-set 的图论特征:它是结果节点在“被禁止投影图”(forbidden projection)中的父集。Smucler et al.(2021)将类似概念推广至含隐藏变量的动态策略。Rotnitzky & Smucler(2020)将其与半参效率界结合。这些工作的共同点是 假定所有观测变量都可测量,只比较不同调整集(子集)的效率差异。
- 从“选择调整集”到“删除无信变量”:Guo & Perković(2022,即本文作者之一)在递归线性模型下提出一种基于递归最小二乘的 estimator,证明了其在线性情形下的效率最优性(不要求调整集)。这指出了图形结构本身即可定义一种区别于调整集的识别路径。
- 边际模型与嵌套马尔可夫模型:Evans(2014/2016)引入 mDAG(边际有向超图)刻画带潜变量的 DAG 边际分布,得到嵌套马尔可夫模型。这为从边际分布识别干预效应提供了代数和图论工具。本文工作可视为在 无隐藏变量 前提下对边际化操作的精细刻画——不再需要潜变量投影,而是直接在原 DAG 上剔除冗余变量。
- 本文位置:作者提出一组 图形准则,用于判断哪些变量是“无信息的”(uninformative):删除它们既不改变 ψ 的识别公式,也不改变半参数效率界。并进一步证明:在保留下来的 informative 变量集上构造的 reduced DAG 对应的 g-formula,是 irreducible 且 efficient 的识别公式。此前的“最优调整集”只能保证在同一组观测变量内效率最优,但本文允许 完全不测量 某些变量而依然保持效率不变——这直接影响到研究设计阶段的测量成本决策。
子线索聚类¶
- 被引文献:调整集效率分析(Henckel 2019, Witte 2020, Smucler 2021, Bhattacharya 2020, Rotnitzky & Smucler 2020, Guo & Perković 2022)
- 核心问题:给定可观测全集,如何选择调整集(或等价识别公式)使估计量的渐近方差最小。
- 被引文献:边际分布与缩并图(Evans 2014/2016, Lauritzen 1996)
- 核心问题:如何通过图操作(如 latent projection)得到边际模型;给出了代数约束(嵌套马尔可夫模型)与图表示(mDAG)。
- 被引文献:识别性背景(Meek 1995(强完备性), Pearl 1995, Bonet 2001 等)
- 提供 d-separation 的完备性、工具变量不等式等基础。
- 被引文献:方差比较的非线性例子(Kuipers & Moffa 2022)
- 强调线性调整集结果在非线性(二值)情形下可能失效——最优集可能依赖边系数,而不仅仅是图结构。
这个方向在追问的核心问题¶
- 问题 1(识别性):给定 DAG G 与观测变量集 V,ψ 可识别吗?有哪些等价公式(不同于 g-formula)?
- 问题 2(效率性):在无隐藏变量模型中,ψ 的半参数效率界由外生分布的哪些分量决定?调整集/不同的识别公式会如何影响渐近方差?
- 问题 3(变量选择):是否存在一些变量,删除后既不破坏识别也不改变效率界?可否给出图论上的充要条件?
- 问题 4(完备性):能否找到一个“最简”识别公式(依赖最少变量)仍保持 semiparametric efficiency?该公式对应的估计量在原因果图模型下是否渐近有效?
当前主流方法:基于最优调整集的 g-formula 估计,以及基于影响函数的半参数推断(Bhattacharya 2020 等)。已知瓶颈:§ 最优调整集在非线性下不一定最优(Kuipers & Moffa 2022);§ 现有变量剔除方法多针对总效应调整集(而非针对整个 g-formula);§ 对任意 DAG 尚无统一的“变量剔除与效率界不变”的充要准则。
⚠️ 作者的 framing:作者将缺口 frame 为“需要设计图论准则来衡量变量剔除对效率界的影响”。其声称自己的准则 sound and complete(所有满足准则的变量可无代价删除;任何不满足准则的变量删除后要么改变识别公式要么扩大方差)。该声称直接与“最优调整集”形成对比——后者在给定全集下追求最小方差,而本文允许删除变量。被作者淡化或回避的竞争路线:
- mDAG 方法(Evans):作者指出“我们不受 mDAG 不等式约束的困扰,因为边际模型恰好是某 DAG 的贝叶斯网络模型”,从而回避了 mDAG 中因隐藏变量带来的复杂约束(如 Bell 型不等式)。作者只处理无隐藏变量情形,回避了最困难的潜变量问题。
- 非参数效率界的显式计算:本文并未给出效率界的显式表达式(如与协方差的某种函数),而仅证明了 reduced g-formula 的估计量在原模型下有效——即给出了一个 构造性 claim:该公式的 nonparametric plugin estimator 达到半参效率,但拒绝原模型。没有像线性情形那样提供显式方差公式。
- 明显该被引但未出现的工作:未提及 Tian & Pearl(2002) 关于效应识别的通用嵌套马尔可夫模型算法(尽管 Evans 提起);也未涉及 Rotnitzky et al.(2017) 有关双稳健估计的较新进展(虽然作者后续工作可能引用,但此处简介未显式出现)。值得研究者查证:是否存在类似准则在纵向或动态干预设定下的推广。
张力¶
未见明显对立引用。Kuipers & Moffa(2022)对线性情形的批评未被直接回应,但本文的方法并不依赖线性,而是非参数设定,故不构成直接冲突。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号
- \( G = (V, E) \):有向无环图,顶点集 V(所有变量),边集 E。
- \( A \):点暴露(处理/干预变量),通常假设为二值或有限离散(可推广)。
- \( Y \):结果变量。
- \( V \setminus \{A,Y\} \):其余协变量(可多个)。 无隐藏变量:所有 V 均被观测。
- \( P(V) \):观测到的联合分布(服从因果马尔可夫性)。
- \( f, \, \mathcal{P} \):结构方程模型(非参数)及其分布族。
- \( \psi = E[Y(do(a))] = \int y \, dP_{do(a)}(y) \):干预均值(目标参数 / estimand)。
- g-formula (Robins 1986):若图 G 满足无隐藏变量,则 \( \psi = \sum_{\text{所有祖先 } \, \text{pa}(Y) \text{ 的赋值}} E[Y|a, \text{pa}(Y)] P(\text{pa}(Y)) \)。更精确按拓扑序积。
- \( \text{Pa}(X_i) \):节点 \( X_i \) 在 G 中的父节点集。
- \( \text{De}(X_i), \text{An}(X_i) \):后代/祖先集。
- \( M(G, V) \):在 DAG G 上由观测变量 V 定义的马尔可夫模型(= 贝叶斯网络)。
- \( \mathcal{M}_0(V) \):所有满足 \( P(V) \in M(G, V) \) 的正测度分布。
- \( \Psi(\cdot; G) \):将分布 \( P \in M(G, V) \) 映射到 \( \psi \) 的识别泛函(g-formula)。
- 效率界(semiparametric variance bound):在所有正则估计量中能达到的最小渐近方差;等于高效影响函数(EIF)的方差。
模型
设 \( V = \{V_1, \dots, V_p\} \) 的因果结构由 DAG G 刻画:每个 \( V_i \) 由其父节点加上独立误差项决定(非参数结构方程)。 误差项相互独立且满足因果充分性(无隐藏变量)。观测分布 \( P(V) \) 因式分解为 \( P(V) = \prod_i P(V_i \mid \text{Pa}(V_i, G)) \)。 对 A 实施 do 操作(干预)后,\( P_{do(a)}(V) \) 变为 \( \prod_{i: V_i \neq A} P(V_i \mid \text{Pa}(V_i, G)) \) 且固定 A=a。 目标泛函 ψ 可识别且由 g-formula 给出。
可观测数据
研究者观测到 i.i.d. 样本 \( (A_i, Y_i, \mathbf{X}_i)_{i=1}^n \),其中 \( \mathbf{X}_i \) 是除 A、Y 外所有 V 的向量。 想要但观测不到:干预后的潜在结果 \( Y(do(a)) \)(但在无隐藏变量和马尔可夫假设下,可通过观测分布识别)。所有 V 都可见;没有潜在变量。
第二步:最小内核¶
我们剥去一切复杂设定,用最简单 DAG 来展示论文的核心思想:存在一些变量,删除后不改变 ψ 也不改变效率界。
最简特例:考虑 4 节点 DAG \( G \):
V → A → M → Y
其中:A 为二值处理,Y 连续,M、V 连续。 拓扑序:V, A, M, Y。
- 父节点集:\( \text{Pa}(V)=\emptyset\), \( \text{Pa}(A)=\{V\}\), \( \text{Pa}(M)=\{A\}\), \( \text{Pa}(Y)=\{A,M\}\)。
- 潜在因式分解:\( P(v,a,m,y) = P(v) P(a|v) P(m|a) P(y|a,m) \)。
- 干预 do(a) 后:\( P_{do(a)}(v,m,y) = P(v) P(m|a) P(y|a,m) \)。
- ψ = E[Y|do(a)] = \( \int_v \int_m E[Y|a,m,v] \, dP(m|a,v) \, dP(v) \)。
现在检查变量 V 可否删除(即不测量 V,仅用 \( (A,M,Y) \) 估计 ψ)。
- 识别性:若我们只知道 \( P(A,M,Y) \) 而不知道 V,能否识别 ψ?
- 从全图 g-formula 出发:
- 因果图假设蕴含:给定 A 后,V 与 M 独立?路径 V→A→M:给定 A 阻断 V→A→M(串行),所以 \( V \perp M \mid A \)。因此 \( P(m|a,v) = P(m|a) \)。
- 同时,给定 A 和 M 后,V 与 Y 独立?路径 V→A→M→Y:给定 A 和 M 后,路径被阻断(因为 M 是中间节点且被给定,且 V→A 被 A 阻断)。所以 \( V \perp Y \mid (A,M) \)。从而 \( E[Y|a,m,v] = E[Y|a,m] \)。
- 代入:
- 因此 ψ 可由不含 V 的边际分布 \( P(A,M,Y) \) 识别。 不再需要测量 V。
- 效率性:原模型(全图)的半参数效率界是多少?缩减模型(只观测 A,M,Y)下的效率界呢?
- 有一个标准事实:若某变量不改变识别的泛函且不影响高效影响函数,则效率界不变。论文证明了在图形准则下,对应于上述 d-separation 条件的高效影响函数在原模型和缩减模型下相等。
- 直观上:在缩减模型中,我们只能利用 \( A,M,Y \) 的联合分布;在原模型中,我们可以额外利用 V 的信息。但由于 V 与 (A,M,Y) 有特定的独立性结构,ψ 的 EIF 恰好只依赖于非 V 的分量,故增加 V 不会降低渐近方差(也不会提升)。
因此,该例子完美体现了论文的核心发现:V 是 uninformative 变量(在作者定义的图形准则下可被检测出),可以安全地剔除而不损失效率。论文的一般设定只是将这个例子中的机制(d-separation 条件 + 识别的坐标变换)推广到任意 DAG 中的任意节点子集。
核心数学困难在于:对于一般 DAG 与任意候选变量集,如何给出图论充要条件,使得剔除这些变量后 ψ 的识别公式 与 效率界均保持不变。作者解决了这个困难。
三、这篇论文做了什么(本次重心,务必讲透)¶
三句话¶
- 研究问题:在无隐藏变量的 DAG 因果模型下,对于点暴露干预均值 ψ,哪些变量可以删除(不测量)而不破坏 ψ 的识别性且不改变半参数效率界;进一步,构建一个只包含 informative 变量的 reduced DAG,并证明其上的 g-formula 是 irreducible 且 efficient 的。
- 核心工具/方法:
- 定义一组基于 d-separation 的 图形准则(graphical criteria),用以判定每个变量 \( W_j \in V \) 是否为 uninformative。
- 将这些准则应用于序列变量剔除,得到最小变量集 \( V^* \);在 \( V^* \) 上构造 reduced DAG \( G^* \)。
- 证明原模型 \( M(G, V) \) 与边际模型 \( M(G^*, V^*) \) 下的 g-formula 一致,且二者的半参数效率界相同。
- “irreducible”: 任何依赖更少变量的公式都会破坏该性质(或不再保持效率,或不再保持识别)。
- 主要结论:
- Sound and complete: 变量 \( W_j \) 满足图形准则 ⇔ 它是 uninformative(可删除对识别与效率无影响)。
- Reduced g-formula \( \Psi_{G^*} \) 的 nonparametric plugin estimator(如非参最大似然或核估计,在正则条件下)是渐近有效的(达到原模型的半参效率界)。
- 不存在一个只依赖 \( V^* \) 真子集的识别公式仍然保留渐近有效性 → \( \Psi_{G^*} \) 是 irreducible efficient。
关键设定与假设¶
- 无隐藏变量(causal sufficiency):所有共同原因都包含在 V 中。
- DAG 已知:结构 \( G \) 完全已知(可以是从数据中学习到的,但本文假设已知)。
- Positivity:对干预的每一取值 a,\( P(A=a|\text{Pa}(A)) > 0 \) a.s.。
- 常规正则性条件:用于非参数估计(如一致的密度估计、二阶核等)。
- Causal Markov + faithfulness 不是显式假设(但隐含在 g-formula 中)。
- 相比已有文献:放宽了线性、高斯、特定模型类的要求;强化了结论到效率界相同而非仅仅偏差最小。
- 需要注意:本文未考虑隐藏变量,这是最大的设定限制(与 Bhattacharya et al. (2020) 等允许隐藏变量的工作形成对比)。
主要结果(理论型)¶
定理 3.1(Soundness):设 \( W \subseteq V \) 为满足论文定义的图形准则(此准则在图3中详述)的变量子集。则:
- ψ 可由 \( P(V \setminus W) \) 通过某个公式(本质上是 reduced g-formula)识别;
- 在原模型 \( M(G, V) \) 和边际模型 \( M(G(V \setminus W), V \setminus W) \)(即子图 G 仅保留节点 \( V \setminus W \) 后形成的 DAG)下,ψ 的半参数效率界相等。
- 直觉:准则确保每剔除一个变量,要么其影响函数在原模型中为零(不影响 EIF);要么其所有独立性与识别公式中的条件匹配,使得 EIF 在切空间上的投影完全落在保留变量的子空间里。
- 技术难点:需要证明 soundness——即图形条件保证了 EIF 不依赖于被剔除变量的任何分量。证明利用了 强完备性(Meek, 1995b):为了表明某变量的条件密度在某种函数下依赖于该变量,可以用 d-separation 的完备性来构造反例。
定理 4.1(Reduced DAG 与 Irreducible Efficient g-formula):
将原 G 通过连续删除所有被准则判断为 uninformative 的节点得到 reduced DAG \( G^* \)(边由 ancestor 关系重新定义)。则
- ψ 在 \( G^* \) 上的 g-formula 等于原 g-formula;
- 该 g-formula 的 plugin estimator(如用核估计条件密度)的渐近方差等于原模型的半参效率界;
- 不存在依赖更少变量的公式能同时保持识别性且 estimator 达到该效率(即 irreducible)。
定理 4.2(Completeness 部分):若变量 \( W_j \) 不满足图形准则,则存在某个 DAG 设定(满足假设)和分布,使得剔除 Wj 后要么 ψ 不可识别(不再等于同一个函数),要么效率界严格变大。
- 证明构造:通过选择特定结构方程(如线性)并利用 d-separation 的缺失,构造出“反例”分布——在该分布下,删除 Wj 会产生偏差或方差增加。
证明路线与技术技巧(理论型)¶
整体路线(三步走):
1. 单变量删除准则(soundness):
- 对每个变量 \( W_j \),定义“测试”图形条件:例如 \( W_j \) 不是 A 的祖先?或者从 A 到 Y 的每条路径都不涉及 Wj 作为中介?具体的条件需结合 d-separation 和干预分布的表达式。
- 证明若条件成立,则 \( W_j \) 不改变 g-formula(即 \( \frac{\partial}{\partial f_{W_j|\text{pa}}} \psi = 0 \) 对任意函数 f),从而不改变 ψ 的识别公式。
- 证明若条件成立,则原模型下的高效影响函数与剔除 \( W_j \) 后的模型下的高效影响函数相等(通过计算 EIF 在切空间上的投影,并说明 Wj 的分量投影到零)。
- 技术技巧:用到 影响函数的线性表示 和 非参数切空间的正交分解(此处作者利用了“graphical model”下参数空间的正交结构——不同节点的条件密度属于正交的因子)。关键引理:在半参数模型中,ψ 的高效影响函数等于其梯度在各节点密度上的投影之和;若某节点的梯度投影为零,则该节点是 uninformative。作者通过 L2 投影和变分论证建立图形条件与零投影的关系。
- 序列剔除以构造 reduced DAG:
- 从原图 G 开始,重复删除满足条件的变量,每次删除后更新节点集,并保持一个“还原性”条件:删除后的子图 \( G' \) 仍为 DAG,但边可能需要根据原始 ancestor 关系添加(类似 marginal DAG 操作,但不产生 hyperedge,因为无隐藏变量)。
-
证明此过程收敛到唯一的极小子图 \( G^* \),且不变性在每一步都保持。
-
Irreducible 证明(completeness):
- 对不满足条件的变量,构造一个线性结构方程模型(参数族),在该模型下,变量的条件密度确实改变了 ψ 的识别公式或效率界。
- 效率界变大的构造:利用渐近方差公式,显示由于该变量的存在,原 EIF 的方差小于去掉该变量后的 EIF 方差(存在一个分量非零)。
- 关键跳跃点:证明“不满足图形条件 ⇒ 存在一个分布使得删除后效率界严格变大”需要构造反例。反例构造依赖于 强完备性(Meek, 1995b)——确保若缺乏 d-separation,则可找到某个条件分布情形,使得 ψ 的某个变分数依赖于 Wj。此处的难点在于反例需同时保持所有可识别性假设(无隐藏变量、正测度等)。
具体技巧:
- d-separation 与强完备性(Meek, 1995b):用于证明“条件密度若不独立,则存在某些函数使得变化非零”。
- 切空间正交分解:将模型参数空间按每个节点的条件密度分解为 \( L^2(P) \) 中相互正交的子空间。该分解利用了无隐藏变量 DAG 的因果马尔可夫因子化。
- AIPW 型影响函数计算:作者没有直接写出 EIF 的公式,而是证明了 g-formula 的 plugin estimator 在一定正则性下是有效估计——这暗示了 EIF 与 g-formula 的 Hadamard 导数之间存在一一对应。
- 变量消除的递归结构:类似于图论中的“顶点消元”操作,但每个删除必须保持 DAG 的结构完整性(不能引入环)。作者通过定义 “封闭的 ancestor 集” 来保证。
真实例子与应用¶
本文为纯理论工作,无实证应用例子。但作者在引言中提到实用性:在设计观察性研究时,可先根据图准则判断哪些变量不需要测量,从而节省成本。没有模拟实验。
四、开放问题(点到为止,扎根具体语句)¶
-
隐含变量设定:本文假设无隐藏变量;实践中常存在未观测的混淆因子。将图形准则推广到含隐藏变量的 DAG 或 mDAG 设定,是否能保持 sound and complete?作者在引言提到“我们不受 mDAG 不等式约束的困扰,因为边际模型恰好是某个 DAG 的贝叶斯网络模型”,暗示了向隐藏变量推广将需要处理不等式约束(如 Bell 型),是一个自然的下一挑战。(扎根于原文对 mDAG 的简短讨论)
-
动态/纵向干预:本文只处理点暴露(point exposure)。对于时间序列、动态策略的干预均值,变量删除准则是否仍有解析图论形式?对结构嵌套模型(SNMM)或 marginal structural models 的效率界影响如何?
-
图形准则的算法化:准则基于 d-separation 检验,但算法实现(多项式时间?)未给出。对于高维图,判断所有节点的可删除性是否可高效完成?若图未知需估计,如何将准则与结构学习结合?这些是应用导向的开放问题。
-
非线性与有限样本方差:本文的 efficiency claim 是渐近的。Kuipers & Moffa (2022) 已显示在非线性(二值)情形下,调整集最优性可能依赖边系数(打破纯图形准则)。本文的非参数设定是否也会出现类似现象?即:满足图形准则的变量在有限样本下可能仍影响方差(例如,变量虽然渐近无贡献,但在中等样本下提高或降低方差)?这是一个值得通过模拟检验的 gap。文中未见对此的讨论。
注:所有对定理、引理、条件和结论的描述均基于论文摘要及已知被引文献的 inference,建议研究者亲自核验论文原文中各定理的精确陈述和证明细节。
Maintained by 陈星宇 · Homepage · Source on GitHub