Confounder selection via iterative graph expansion¶

作者: F. Richard Guo, Qingyuan Zhao
来源: Annals of Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2577

一、核心问题与贡献¶

①本文研究了观测研究中混杂因素选择过度依赖预先指定完整因果图（如后门准则）的局限性问题。②核心方法是提出一种交互式图扩展程序，通过逐步寻找并指定“主要调整集”，逆向还原底层因果图的边际化序列。③主要贡献在于证明了：在用户每步正确指定主要调整集的条件下，该程序具有可靠性（找到的集必定有效）与完备性（若有效集存在则必能找到），从而实现了无需全图知识的混杂识别。

二、基础设定¶

核心概念与符号：
$X, Y$：处理变量与结果变量。
Primary adjustment set（主要调整集）：对于可能存在混杂的变量对，阻断其非因果关联所需的最小协变量集，该集合内部变量间的因果结构无需已知。
Graph marginalization（图边际化）：将某些不可观测或未关注的节点隐藏，将其因果信息投影到剩余节点的边上的操作。
Graph expansion（图扩展）：图边际化的逆操作，通过引入新的协变量节点逐步还原底层图结构。
关键假设：
Causal Markov Condition & Faithfulness：标准图模型假设，确保图结构与概率分布的d-分离条件精确对应。
User Oracle Assumption（用户神谕假设）：用户在每一步迭代中，都能正确识别当前可见变量对的主要调整集。统计学含义：将传统对“全局DAG”的强先验要求，转化为对“局部结构”的序列化弱先验要求。与已有文献相比，极大放宽了图假设，但强化了对局部知识准确性的依赖。
No unmeasured primary adjustment set：隐含假设，即用户指定的主要调整集必须是可观测的，否则程序判定无解。
问题背景：
传统后门准则要求预知全局DAG，而专家通常只能提供局部结构知识；现有因果发现算法往往需要大量数据且难以处理隐变量。
与 Pearl 的后门准则相比，本文不需要全局图；与 VanderWeele (2011) 的混杂选择准则相比，本文不需要预知混杂因素之间的因果结构；与 Richardson et al. (2017) 的 ID 算法相比，本文聚焦于调整集的识别而非一般性的因果效应识别，且采用交互式而非自动化推导。

三、主要定理 / 核心结果¶

Soundness Theorem（可靠性定理）
原文陈述：若程序终止并输出协变量集 $Z$ 作为调整集，则 $Z$ 满足调整公式有效性（即阻断了所有后门路径且未打开对撞路径）。
直观解释：算法每一步的图扩展都严格遵循底层真实图的边际化逆运算，因此最终暴露出的 $Z$ 在真实图中必定满足后门准则。
技术难点：在部分图未知的情况下，证明局部操作（引入新节点）不会在不可见部分意外打开新的混杂路径（如对撞因子的激活）。
适用条件与局限：严格依赖 User Oracle Assumption。若用户某步指定错误，可靠性可能崩塌。
Completeness Theorem（完备性定理）
原文陈述：若底层因果图中存在某个有效的调整集，则该程序必定能通过有限步迭代找到它（或判定其不存在）。
直观解释：图边际化的逆操作在主要调整集的约束下是唯一的，只要底层存在解，逆向追踪必定能覆盖所有必要节点，不会遗漏任何可能的调整集。
技术难点：证明迭代过程不会陷入死循环或局部极小（即无法找到调整集但实际存在），需要论证扩展序列的有限覆盖性。
适用条件与局限：假设底层图节点有限。若存在不可观测的主要调整集，程序会正确判定“无解”，但这可能只是基于当前观测集的无解。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法与图算子代数。将图边际化与扩展视为互逆的算子，证明迭代扩展序列与底层图的边际化序列同构。
拆解为 3-5 个关键逻辑步骤：
定义图算子：形式化定义图边际化算子与图扩展算子，证明在给定主要调整集的条件下，扩展算子是边际化算子的唯一逆。
局部有效性验证：证明每次迭代中，新增节点与原有节点构成的局部图结构不产生新的不可观测混杂路径。
归纳递推：利用数学归纳法，证明第 $k$ 步的扩展图是底层真实图经过 $k$ 次边际化的忠实还原。
有限终止与覆盖：证明由于节点有限，算法必在有限步终止，且若有效调整集存在，其节点必在某一步被主要调整集覆盖。
最关键的技巧性引理或"跳跃点"：Graph marginalization inversion（图边际化的逆操作）。通常图边际化（隐藏节点）会丢失因果方向信息，是不可逆的；但本文通过引入"Primary adjustment set"作为额外约束，使得从边际图恢复原图的局部结构成为可能。这是整个框架的基石，巧妙地将不可解的图还原问题转化为可操作的局部查询。
数学工具评价：经典图模型理论（d-分离、do-演算）与算子代数思想的巧妙组合。并非全新的概率论框架，但在图操作的可逆性上提出了新颖的代数视角。

五、与研究者兴趣的关联¶

连接到哪个子方向：因果推断中的 identification（识别理论），特别是无需全图假设的 proximal CI 设定与 sensitivity analysis。
可借鉴的核心思路或技术工具：
局部知识驱动的识别：本文将全局图假设拆解为序列化的局部结构查询。这一思路可迁移至半参数效率理论中：是否可以设计交互式/迭代式的估计程序，只要求研究者提供局部矩条件或局部干扰函数，逐步逼近有效影响函数，而非假定全局的干扰函数已知？
图边际化的逆运算：在 proximal CI 中，negative control 的选择本质上也是在寻找某种调整集。本文的"主要调整集"概念可为 proximal CI 中定义更一般的 proxy 变量提供图论上的严格对应。
值得精读的关键参考文献：
VanderWeele & Shpitser (2011, JASA): "A new criterion for confounder selection" —— 对比本文的 primary adjustment set 与传统的混杂选择准则，理解为何无需混杂间因果结构是关键突破。
Richardson et al. (2017, JRSS-B): "Nested Markov properties" —— 理解图边际化与条件独立性的深层联系，本文的逆运算思想与此一脉相承。

六、延伸思考与练习¶

假设扰动：若放松"User Oracle Assumption"，即用户在指定主要调整集时存在一定概率的错误（或存在隐变量未被察觉），结论会如何变化？技术上需要引入图结构的敏感性分析，量化局部错误对全局识别的影响，可能需要结合部分验证性数据或概率图模型的鲁棒性分析。
开放问题：如何将此交互式图扩展框架与数据驱动的因果发现算法结合？例如，能否用统计检验（如条件独立性检验）来辅助或替代"用户"指定主要调整集，从而实现半自动化的混杂识别？
理解检测题：假设底层因果图为 $X \leftarrow U_1 \rightarrow U_2 \rightarrow Y$ 且 $X \rightarrow Y$，其中 $U_1, U_2$ 均不可观测。请说明为什么仅凭观测 $(X, Y)$ 无法启动该图扩展程序，并指出此时"主要调整集"的缺失如何反映了因果效应的非可识别性。

Maintained by 陈星宇 · Homepage · Source on GitHub