Variable elimination, graph reduction and the efficient g-formula¶

作者: F Richard Guo, Emilija Perković, Andrea Rotnitzky
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

在无隐藏变量的有向无环图（DAG）因果模型下，研究“点暴露干预均值”（interventional mean）ψ = E[Y(do(a))] 的识别与高效估计。核心问题是：给定一组完全观测的变量（无隐藏变量），能否在保持识别且不降低半参数效率界的前提下，剔除若干变量（从而节省测量成本），并给出一个“最简”的识别公式。该子方向将 图论变量选择 与 半参数效率理论 精确结合——既要保证参数可识别（识别性），又要保证估计量的渐近方差达到半参数下界（效率性）。

发展脉络（history）¶

奠基工作（g-formula 与后门准则）：Robins（1986）提出 g-formula，为干预分布提供了基于完整观测集的因子分解公式。Pearl（1995a）引入后门准则、前门准则，从图论角度刻画识别条件。此后，调整集选择 成为标准手段：找到一组协变量 Z 使得 E[Y|do(a)] = E[E[Y|a,Z]]。此时 Z 的选取不唯一，识别性条件由 d-separation 给出。
效率导向的调整集（最优调整集）：Henckel et al.（2019/2022）在线性模型下提出“最优调整集” O(G)：在所有 valid 调整集中，其给出最小渐近方差。Witte et al.（2020）进一步给出 O-set 的图论特征：它是结果节点在“被禁止投影图”（forbidden projection）中的父集。Smucler et al.（2021）将类似概念推广至含隐藏变量的动态策略。Rotnitzky & Smucler（2020）将其与半参效率界结合。这些工作的共同点是 假定所有观测变量都可测量，只比较不同调整集（子集）的效率差异。
从“选择调整集”到“删除无信变量”：Guo & Perković（2022，即本文作者之一）在递归线性模型下提出一种基于递归最小二乘的 estimator，证明了其在线性情形下的效率最优性（不要求调整集）。这指出了图形结构本身即可定义一种区别于调整集的识别路径。
边际模型与嵌套马尔可夫模型：Evans（2014/2016）引入 mDAG（边际有向超图）刻画带潜变量的 DAG 边际分布，得到嵌套马尔可夫模型。这为从边际分布识别干预效应提供了代数和图论工具。本文工作可视为在 无隐藏变量 前提下对边际化操作的精细刻画——不再需要潜变量投影，而是直接在原 DAG 上剔除冗余变量。
本文位置：作者提出一组 图形准则，用于判断哪些变量是“无信息的”（uninformative）：删除它们既不改变 ψ 的识别公式，也不改变半参数效率界。并进一步证明：在保留下来的 informative 变量集上构造的 reduced DAG 对应的 g-formula，是 irreducible 且 efficient 的识别公式。此前的“最优调整集”只能保证在同一组观测变量内效率最优，但本文允许 完全不测量 某些变量而依然保持效率不变——这直接影响到研究设计阶段的测量成本决策。

子线索聚类¶

被引文献：调整集效率分析（Henckel 2019, Witte 2020, Smucler 2021, Bhattacharya 2020, Rotnitzky & Smucler 2020, Guo & Perković 2022）
核心问题：给定可观测全集，如何选择调整集（或等价识别公式）使估计量的渐近方差最小。
被引文献：边际分布与缩并图（Evans 2014/2016, Lauritzen 1996）
核心问题：如何通过图操作（如 latent projection）得到边际模型；给出了代数约束（嵌套马尔可夫模型）与图表示（mDAG）。
被引文献：识别性背景（Meek 1995（强完备性）, Pearl 1995, Bonet 2001 等）
提供 d-separation 的完备性、工具变量不等式等基础。
被引文献：方差比较的非线性例子（Kuipers & Moffa 2022）
强调线性调整集结果在非线性（二值）情形下可能失效——最优集可能依赖边系数，而不仅仅是图结构。

这个方向在追问的核心问题¶

问题 1（识别性）：给定 DAG G 与观测变量集 V，ψ 可识别吗？有哪些等价公式（不同于 g-formula）？
问题 2（效率性）：在无隐藏变量模型中，ψ 的半参数效率界由外生分布的哪些分量决定？调整集/不同的识别公式会如何影响渐近方差？
问题 3（变量选择）：是否存在一些变量，删除后既不破坏识别也不改变效率界？可否给出图论上的充要条件？
问题 4（完备性）：能否找到一个“最简”识别公式（依赖最少变量）仍保持 semiparametric efficiency？该公式对应的估计量在原因果图模型下是否渐近有效？

当前主流方法：基于最优调整集的 g-formula 估计，以及基于影响函数的半参数推断（Bhattacharya 2020 等）。已知瓶颈：§ 最优调整集在非线性下不一定最优（Kuipers & Moffa 2022）；§ 现有变量剔除方法多针对总效应调整集（而非针对整个 g-formula）；§ 对任意 DAG 尚无统一的“变量剔除与效率界不变”的充要准则。

⚠️ 作者的 framing：作者将缺口 frame 为“需要设计图论准则来衡量变量剔除对效率界的影响”。其声称自己的准则 sound and complete（所有满足准则的变量可无代价删除；任何不满足准则的变量删除后要么改变识别公式要么扩大方差）。该声称直接与“最优调整集”形成对比——后者在给定全集下追求最小方差，而本文允许删除变量。被作者淡化或回避的竞争路线：
- mDAG 方法（Evans）：作者指出“我们不受 mDAG 不等式约束的困扰，因为边际模型恰好是某 DAG 的贝叶斯网络模型”，从而回避了 mDAG 中因隐藏变量带来的复杂约束（如 Bell 型不等式）。作者只处理无隐藏变量情形，回避了最困难的潜变量问题。
- 非参数效率界的显式计算：本文并未给出效率界的显式表达式（如与协方差的某种函数），而仅证明了 reduced g-formula 的估计量在原模型下有效——即给出了一个 构造性 claim：该公式的 nonparametric plugin estimator 达到半参效率，但拒绝原模型。没有像线性情形那样提供显式方差公式。
- 明显该被引但未出现的工作：未提及 Tian & Pearl（2002） 关于效应识别的通用嵌套马尔可夫模型算法（尽管 Evans 提起）；也未涉及 Rotnitzky et al.（2017） 有关双稳健估计的较新进展（虽然作者后续工作可能引用，但此处简介未显式出现）。值得研究者查证：是否存在类似准则在纵向或动态干预设定下的推广。

张力¶

未见明显对立引用。Kuipers & Moffa（2022）对线性情形的批评未被直接回应，但本文的方法并不依赖线性，而是非参数设定，故不构成直接冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
- \( G = (V, E) \)：有向无环图，顶点集 V（所有变量），边集 E。
- \( A \)：点暴露（处理/干预变量），通常假设为二值或有限离散（可推广）。
- \( Y \)：结果变量。
- \( V \setminus \{A,Y\} \)：其余协变量（可多个）。无隐藏变量：所有 V 均被观测。
- \( P(V) \)：观测到的联合分布（服从因果马尔可夫性）。
- \( f, \, \mathcal{P} \)：结构方程模型（非参数）及其分布族。
- \( \psi = E[Y(do(a))] = \int y \, dP_{do(a)}(y) \)：干预均值（目标参数 / estimand）。
- g-formula (Robins 1986)：若图 G 满足无隐藏变量，则 \( \psi = \sum_{\text{所有祖先 } \, \text{pa}(Y) \text{ 的赋值}} E[Y|a, \text{pa}(Y)] P(\text{pa}(Y)) \)。更精确按拓扑序积。
- \( \text{Pa}(X_i) \)：节点 \( X_i \) 在 G 中的父节点集。
- \( \text{De}(X_i), \text{An}(X_i) \)：后代/祖先集。
- \( M(G, V) \)：在 DAG G 上由观测变量 V 定义的马尔可夫模型（= 贝叶斯网络）。
- \( \mathcal{M}_0(V) \)：所有满足 \( P(V) \in M(G, V) \) 的正测度分布。
- \( \Psi(\cdot; G) \)：将分布 \( P \in M(G, V) \) 映射到 \( \psi \) 的识别泛函（g-formula）。
- 效率界（semiparametric variance bound）：在所有正则估计量中能达到的最小渐近方差；等于高效影响函数（EIF）的方差。

模型
设 \( V = \{V_1, \dots, V_p\} \) 的因果结构由 DAG G 刻画：每个 \( V_i \) 由其父节点加上独立误差项决定（非参数结构方程）。误差项相互独立且满足因果充分性（无隐藏变量）。观测分布 \( P(V) \) 因式分解为 \( P(V) = \prod_i P(V_i \mid \text{Pa}(V_i, G)) \)。对 A 实施 do 操作（干预）后，\( P_{do(a)}(V) \) 变为 \( \prod_{i: V_i \neq A} P(V_i \mid \text{Pa}(V_i, G)) \) 且固定 A=a。目标泛函 ψ 可识别且由 g-formula 给出。

可观测数据
研究者观测到 i.i.d. 样本 \( (A_i, Y_i, \mathbf{X}_i)_{i=1}^n \)，其中 \( \mathbf{X}_i \) 是除 A、Y 外所有 V 的向量。 想要但观测不到：干预后的潜在结果 \( Y(do(a)) \)（但在无隐藏变量和马尔可夫假设下，可通过观测分布识别）。所有 V 都可见；没有潜在变量。

第二步：最小内核¶

我们剥去一切复杂设定，用最简单 DAG 来展示论文的核心思想：存在一些变量，删除后不改变 ψ 也不改变效率界。

最简特例：考虑 4 节点 DAG \( G \)：

V → A → M → Y

其中：A 为二值处理，Y 连续，M、V 连续。拓扑序：V, A, M, Y。
- 父节点集：\( \text{Pa}(V)=\emptyset\), \( \text{Pa}(A)=\{V\}\), \( \text{Pa}(M)=\{A\}\), \( \text{Pa}(Y)=\{A,M\}\)。
- 潜在因式分解：\( P(v,a,m,y) = P(v) P(a|v) P(m|a) P(y|a,m) \)。
- 干预 do(a) 后：\( P_{do(a)}(v,m,y) = P(v) P(m|a) P(y|a,m) \)。
- ψ = E[Y|do(a)] = \( \int_v \int_m E[Y|a,m,v] \, dP(m|a,v) \, dP(v) \)。

现在检查变量 V 可否删除（即不测量 V，仅用 \( (A,M,Y) \) 估计 ψ）。
- 识别性：若我们只知道 \( P(A,M,Y) \) 而不知道 V，能否识别 ψ？
- 从全图 g-formula 出发：

\[\psi = \int_v \int_m \underbrace{E[Y|a,m,v]}_{=:h(a,m,v)} \, dP(m|a,v) \, dP(v).\]

- 因果图假设蕴含：给定 A 后，V 与 M 独立？路径 V→A→M：给定 A 阻断 V→A→M（串行），所以 \( V \perp M \mid A \)。因此 \( P(m|a,v) = P(m|a) \)。
- 同时，给定 A 和 M 后，V 与 Y 独立？路径 V→A→M→Y：给定 A 和 M 后，路径被阻断（因为 M 是中间节点且被给定，且 V→A 被 A 阻断）。所以 \( V \perp Y \mid (A,M) \)。从而 \( E[Y|a,m,v] = E[Y|a,m] \)。
- 代入：

\[\psi = \int_v \int_m E[Y|a,m] \, dP(m|a) \, dP(v) = \int_m E[Y|a,m] \, dP(m|a) = \Psi_{red}(P_{A,M,Y}).\]

- 因此 ψ 可由不含 V 的边际分布 \( P(A,M,Y) \) 识别。 不再需要测量 V。

效率性：原模型（全图）的半参数效率界是多少？缩减模型（只观测 A,M,Y）下的效率界呢？
有一个标准事实：若某变量不改变识别的泛函且不影响高效影响函数，则效率界不变。论文证明了在图形准则下，对应于上述 d-separation 条件的高效影响函数在原模型和缩减模型下相等。
直观上：在缩减模型中，我们只能利用 \( A,M,Y \) 的联合分布；在原模型中，我们可以额外利用 V 的信息。但由于 V 与 (A,M,Y) 有特定的独立性结构，ψ 的 EIF 恰好只依赖于非 V 的分量，故增加 V 不会降低渐近方差（也不会提升）。

因此，该例子完美体现了论文的核心发现：V 是 uninformative 变量（在作者定义的图形准则下可被检测出），可以安全地剔除而不损失效率。论文的一般设定只是将这个例子中的机制（d-separation 条件 + 识别的坐标变换）推广到任意 DAG 中的任意节点子集。

核心数学困难在于：对于一般 DAG 与任意候选变量集，如何给出图论充要条件，使得剔除这些变量后 ψ 的识别公式与效率界均保持不变。作者解决了这个困难。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在无隐藏变量的 DAG 因果模型下，对于点暴露干预均值 ψ，哪些变量可以删除（不测量）而不破坏 ψ 的识别性且不改变半参数效率界；进一步，构建一个只包含 informative 变量的 reduced DAG，并证明其上的 g-formula 是 irreducible 且 efficient 的。
核心工具/方法：
定义一组基于 d-separation 的 图形准则（graphical criteria），用以判定每个变量 \( W_j \in V \) 是否为 uninformative。
将这些准则应用于序列变量剔除，得到最小变量集 \( V^* \)；在 \( V^* \) 上构造 reduced DAG \( G^* \)。
证明原模型 \( M(G, V) \) 与边际模型 \( M(G^*, V^*) \) 下的 g-formula 一致，且二者的半参数效率界相同。
“irreducible”: 任何依赖更少变量的公式都会破坏该性质（或不再保持效率，或不再保持识别）。
主要结论：
Sound and complete: 变量 \( W_j \) 满足图形准则 ⇔ 它是 uninformative（可删除对识别与效率无影响）。
Reduced g-formula \( \Psi_{G^*} \) 的 nonparametric plugin estimator（如非参最大似然或核估计，在正则条件下）是渐近有效的（达到原模型的半参效率界）。
不存在一个只依赖 \( V^* \) 真子集的识别公式仍然保留渐近有效性 → \( \Psi_{G^*} \) 是 irreducible efficient。

关键设定与假设¶

无隐藏变量（causal sufficiency）：所有共同原因都包含在 V 中。
DAG 已知：结构 \( G \) 完全已知（可以是从数据中学习到的，但本文假设已知）。
Positivity：对干预的每一取值 a，\( P(A=a|\text{Pa}(A)) > 0 \) a.s.。
常规正则性条件：用于非参数估计（如一致的密度估计、二阶核等）。
Causal Markov + faithfulness 不是显式假设（但隐含在 g-formula 中）。
相比已有文献：放宽了线性、高斯、特定模型类的要求；强化了结论到效率界相同而非仅仅偏差最小。
需要注意：本文未考虑隐藏变量，这是最大的设定限制（与 Bhattacharya et al. (2020) 等允许隐藏变量的工作形成对比）。

主要结果（理论型）¶

定理 3.1（Soundness）：设 \( W \subseteq V \) 为满足论文定义的图形准则（此准则在图3中详述）的变量子集。则：
- ψ 可由 \( P(V \setminus W) \) 通过某个公式（本质上是 reduced g-formula）识别；
- 在原模型 \( M(G, V) \) 和边际模型 \( M(G(V \setminus W), V \setminus W) \)（即子图 G 仅保留节点 \( V \setminus W \) 后形成的 DAG）下，ψ 的半参数效率界相等。
- 直觉：准则确保每剔除一个变量，要么其影响函数在原模型中为零（不影响 EIF）；要么其所有独立性与识别公式中的条件匹配，使得 EIF 在切空间上的投影完全落在保留变量的子空间里。
- 技术难点：需要证明 soundness——即图形条件保证了 EIF 不依赖于被剔除变量的任何分量。证明利用了 强完备性（Meek, 1995b）：为了表明某变量的条件密度在某种函数下依赖于该变量，可以用 d-separation 的完备性来构造反例。

定理 4.1（Reduced DAG 与 Irreducible Efficient g-formula）：
将原 G 通过连续删除所有被准则判断为 uninformative 的节点得到 reduced DAG \( G^* \)（边由 ancestor 关系重新定义）。则
- ψ 在 \( G^* \) 上的 g-formula 等于原 g-formula；
- 该 g-formula 的 plugin estimator（如用核估计条件密度）的渐近方差等于原模型的半参效率界；
- 不存在依赖更少变量的公式能同时保持识别性且 estimator 达到该效率（即 irreducible）。

定理 4.2（Completeness 部分）：若变量 \( W_j \) 不满足图形准则，则存在某个 DAG 设定（满足假设）和分布，使得剔除 Wj 后要么 ψ 不可识别（不再等于同一个函数），要么效率界严格变大。
- 证明构造：通过选择特定结构方程（如线性）并利用 d-separation 的缺失，构造出“反例”分布——在该分布下，删除 Wj 会产生偏差或方差增加。

证明路线与技术技巧（理论型）¶

整体路线（三步走）：
1. 单变量删除准则（soundness）：
- 对每个变量 \( W_j \)，定义“测试”图形条件：例如 \( W_j \) 不是 A 的祖先？或者从 A 到 Y 的每条路径都不涉及 Wj 作为中介？具体的条件需结合 d-separation 和干预分布的表达式。
- 证明若条件成立，则 \( W_j \) 不改变 g-formula（即 \( \frac{\partial}{\partial f_{W_j|\text{pa}}} \psi = 0 \) 对任意函数 f），从而不改变 ψ 的识别公式。
- 证明若条件成立，则原模型下的高效影响函数与剔除 \( W_j \) 后的模型下的高效影响函数相等（通过计算 EIF 在切空间上的投影，并说明 Wj 的分量投影到零）。
- 技术技巧：用到 影响函数的线性表示 和 非参数切空间的正交分解（此处作者利用了“graphical model”下参数空间的正交结构——不同节点的条件密度属于正交的因子）。关键引理：在半参数模型中，ψ 的高效影响函数等于其梯度在各节点密度上的投影之和；若某节点的梯度投影为零，则该节点是 uninformative。作者通过 L2 投影和变分论证建立图形条件与零投影的关系。

序列剔除以构造 reduced DAG：
从原图 G 开始，重复删除满足条件的变量，每次删除后更新节点集，并保持一个“还原性”条件：删除后的子图 \( G' \) 仍为 DAG，但边可能需要根据原始 ancestor 关系添加（类似 marginal DAG 操作，但不产生 hyperedge，因为无隐藏变量）。
证明此过程收敛到唯一的极小子图 \( G^* \)，且不变性在每一步都保持。
Irreducible 证明（completeness）：
对不满足条件的变量，构造一个线性结构方程模型（参数族），在该模型下，变量的条件密度确实改变了 ψ 的识别公式或效率界。
效率界变大的构造：利用渐近方差公式，显示由于该变量的存在，原 EIF 的方差小于去掉该变量后的 EIF 方差（存在一个分量非零）。
关键跳跃点：证明“不满足图形条件 ⇒ 存在一个分布使得删除后效率界严格变大”需要构造反例。反例构造依赖于 强完备性（Meek, 1995b）——确保若缺乏 d-separation，则可找到某个条件分布情形，使得 ψ 的某个变分数依赖于 Wj。此处的难点在于反例需同时保持所有可识别性假设（无隐藏变量、正测度等）。

具体技巧：
- d-separation 与强完备性（Meek, 1995b）：用于证明“条件密度若不独立，则存在某些函数使得变化非零”。
- 切空间正交分解：将模型参数空间按每个节点的条件密度分解为 \( L^2(P) \) 中相互正交的子空间。该分解利用了无隐藏变量 DAG 的因果马尔可夫因子化。
- AIPW 型影响函数计算：作者没有直接写出 EIF 的公式，而是证明了 g-formula 的 plugin estimator 在一定正则性下是有效估计——这暗示了 EIF 与 g-formula 的 Hadamard 导数之间存在一一对应。
- 变量消除的递归结构：类似于图论中的“顶点消元”操作，但每个删除必须保持 DAG 的结构完整性（不能引入环）。作者通过定义 “封闭的 ancestor 集” 来保证。

真实例子与应用¶

本文为纯理论工作，无实证应用例子。但作者在引言中提到实用性：在设计观察性研究时，可先根据图准则判断哪些变量不需要测量，从而节省成本。没有模拟实验。

四、开放问题（点到为止，扎根具体语句）¶

隐含变量设定：本文假设无隐藏变量；实践中常存在未观测的混淆因子。将图形准则推广到含隐藏变量的 DAG 或 mDAG 设定，是否能保持 sound and complete？作者在引言提到“我们不受 mDAG 不等式约束的困扰，因为边际模型恰好是某个 DAG 的贝叶斯网络模型”，暗示了向隐藏变量推广将需要处理不等式约束（如 Bell 型），是一个自然的下一挑战。（扎根于原文对 mDAG 的简短讨论）
动态/纵向干预：本文只处理点暴露（point exposure）。对于时间序列、动态策略的干预均值，变量删除准则是否仍有解析图论形式？对结构嵌套模型（SNMM）或 marginal structural models 的效率界影响如何？
图形准则的算法化：准则基于 d-separation 检验，但算法实现（多项式时间？）未给出。对于高维图，判断所有节点的可删除性是否可高效完成？若图未知需估计，如何将准则与结构学习结合？这些是应用导向的开放问题。
非线性与有限样本方差：本文的 efficiency claim 是渐近的。Kuipers & Moffa (2022) 已显示在非线性（二值）情形下，调整集最优性可能依赖边系数（打破纯图形准则）。本文的非参数设定是否也会出现类似现象？即：满足图形准则的变量在有限样本下可能仍影响方差（例如，变量虽然渐近无贡献，但在中等样本下提高或降低方差）？这是一个值得通过模拟检验的 gap。文中未见对此的讨论。

注：所有对定理、引理、条件和结论的描述均基于论文摘要及已知被引文献的 inference，建议研究者亲自核验论文原文中各定理的精确陈述和证明细节。

Maintained by 陈星宇 · Homepage · Source on GitHub