跳转至

Research News

Confounder selection via iterative graph expansion

Confounder selection via iterative graph expansion¶

作者: F. Richard Guo, Qingyuan Zhao
来源: Annals of Statistics
主题: 其他
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2577

核心问题与动机¶

本文解决的是观察性研究中混杂因素选择的图论识别问题。混杂选择是观察性研究设计中最关键的步骤，但现有方法（如Pearl的后门准则）严重依赖于预先指定完整的因果图，这在实践中往往极难实现。已有方法的不足在于：无法在因果图未完全已知或观测变量集未预先设定的情形下，系统性地寻找有效的调整集。

主要贡献¶

提出了一种交互式迭代图扩展方法，无需预先指定完整因果图或观测变量集即可进行混杂选择。
引入初级调整集的概念，将混杂选择过程转化为对底层因果图一系列边际化的逆操作。
证明了在用户每步正确指定初级调整集的假设下，该程序具有可靠性与完备性，即：若存在有效调整集必能找到，且找到的集合必定有效。
大幅降低了领域专家的认知负担：仅需提供变量对之间的初级调整集信息，无需指定混杂因素之间的因果关系。

方法框架¶

模型设定：给定处理变量 $X$ 和结果变量 $Y$，底层存在未知的有向无环图（DAG）$\mathcal{G}$。
关键假设/概念：
初级调整集：对于可能存在混杂的变量对 $(X, Y)$，其初级调整集是指在图边际化过程中，导致 $X$ 和 $Y$ 之间产生伪路径或维持混杂路径的未被观测的父节点集。其实质是图边际化操作的“逆”。
Oracle交互假设：假设领域专家（用户）在每一步迭代中，能够正确识别并指定当前变量对的初级调整集。
方法步骤：
初始化目标变量对 $(X, Y)$。
向用户查询当前变量对的初级调整集 $Z$。
将 $Z$ 加入当前因果图，扩展图结构（即逆转一次边际化）。
检查当前图下是否存在满足后门准则的调整集；若存在则输出，若不存在则对新的混杂路径重复步骤 2-3，直至找到有效调整集或判定不存在。

主要理论结果¶

可靠性：若程序输出一个协变量集合作为调整集，则该集合在底层真实因果图 $\mathcal{G}$ 中必定满足后门准则，有效控制了混杂。
完备性：若底层真实因果图 $\mathcal{G}$ 中存在满足后门准则的调整集，则该程序在有限步迭代后必定能找到一个这样的集合。
注：本文的理论结果属于因果图论中的逻辑/组合最优化结果，不涉及渐近分布、收敛速率或半参数效率界等统计推断理论。

实验 / 数值仿真¶

摘要未提及数值仿真或实证实验。该方法的核心是图论上的算法逻辑与逻辑证明，其验证主要依赖于理论推导而非统计仿真。

与研究者兴趣的关联¶

关联子方向：因果推断（Identification, Proximal CI）。
可借鉴思路：本文的“图边际化逆操作”思想与 Proximal Causal Inference 寻找代理变量的逻辑有深层共鸣。在 Proximal CI 中，未观测混杂 $U$ 的代理变量也是通过某种条件独立性结构被识别出来的。本文提出的“初级调整集”交互式启发框架，可为 Proximal CI 中如何系统性地寻找/验证 Negative/Positive Control 变量提供图论层面的新视角；同时，该方法可融入敏感性分析的框架，用于评估当专家指定的初级调整集出错时结论的稳健性。

局限性与开放问题¶

Oracle假设过强：方法假设用户每步都能“正确”指定初级调整集，但在实际应用中，专家知识存在误差，单步错误可能导致整个图扩展方向偏离（级联错误）。
缺乏统计推断层：当前工作纯属于图论与因果识别，未考虑有限样本下的统计估计问题，未与半参数理论或高维变量选择结合。
开放问题：如何将此确定性交互框架扩展为数据驱动的算法？能否引入概率图模型或假设检验来容错（即对专家指定的初级调整集进行统计检验验证）？如何定义和量化初级调整集指定错误时的敏感性？

Maintained by 陈星宇 · Homepage · Source on GitHub