Confounder selection via iterative graph expansion¶
作者: F. Richard Guo, Qingyuan Zhao
来源: Annals of Statistics
主题: 其他
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2577
核心问题与动机¶
本文解决的是观察性研究中混杂因素选择的图论识别问题。混杂选择是观察性研究设计中最关键的步骤,但现有方法(如Pearl的后门准则)严重依赖于预先指定完整的因果图,这在实践中往往极难实现。已有方法的不足在于:无法在因果图未完全已知或观测变量集未预先设定的情形下,系统性地寻找有效的调整集。
主要贡献¶
- 提出了一种交互式迭代图扩展方法,无需预先指定完整因果图或观测变量集即可进行混杂选择。
- 引入初级调整集的概念,将混杂选择过程转化为对底层因果图一系列边际化的逆操作。
- 证明了在用户每步正确指定初级调整集的假设下,该程序具有可靠性与完备性,即:若存在有效调整集必能找到,且找到的集合必定有效。
- 大幅降低了领域专家的认知负担:仅需提供变量对之间的初级调整集信息,无需指定混杂因素之间的因果关系。
方法框架¶
- 模型设定:给定处理变量 $X$ 和结果变量 $Y$,底层存在未知的有向无环图(DAG)$\mathcal{G}$。
- 关键假设/概念:
- 初级调整集:对于可能存在混杂的变量对 $(X, Y)$,其初级调整集是指在图边际化过程中,导致 $X$ 和 $Y$ 之间产生伪路径或维持混杂路径的未被观测的父节点集。其实质是图边际化操作的“逆”。
- Oracle交互假设:假设领域专家(用户)在每一步迭代中,能够正确识别并指定当前变量对的初级调整集。
- 方法步骤:
- 初始化目标变量对 $(X, Y)$。
- 向用户查询当前变量对的初级调整集 $Z$。
- 将 $Z$ 加入当前因果图,扩展图结构(即逆转一次边际化)。
- 检查当前图下是否存在满足后门准则的调整集;若存在则输出,若不存在则对新的混杂路径重复步骤 2-3,直至找到有效调整集或判定不存在。
主要理论结果¶
- 可靠性:若程序输出一个协变量集合作为调整集,则该集合在底层真实因果图 $\mathcal{G}$ 中必定满足后门准则,有效控制了混杂。
- 完备性:若底层真实因果图 $\mathcal{G}$ 中存在满足后门准则的调整集,则该程序在有限步迭代后必定能找到一个这样的集合。
- 注:本文的理论结果属于因果图论中的逻辑/组合最优化结果,不涉及渐近分布、收敛速率或半参数效率界等统计推断理论。
实验 / 数值仿真¶
摘要未提及数值仿真或实证实验。该方法的核心是图论上的算法逻辑与逻辑证明,其验证主要依赖于理论推导而非统计仿真。
与研究者兴趣的关联¶
- 关联子方向:因果推断(Identification, Proximal CI)。
- 可借鉴思路:本文的“图边际化逆操作”思想与 Proximal Causal Inference 寻找代理变量的逻辑有深层共鸣。在 Proximal CI 中,未观测混杂 $U$ 的代理变量也是通过某种条件独立性结构被识别出来的。本文提出的“初级调整集”交互式启发框架,可为 Proximal CI 中如何系统性地寻找/验证 Negative/Positive Control 变量提供图论层面的新视角;同时,该方法可融入敏感性分析的框架,用于评估当专家指定的初级调整集出错时结论的稳健性。
局限性与开放问题¶
- Oracle假设过强:方法假设用户每步都能“正确”指定初级调整集,但在实际应用中,专家知识存在误差,单步错误可能导致整个图扩展方向偏离(级联错误)。
- 缺乏统计推断层:当前工作纯属于图论与因果识别,未考虑有限样本下的统计估计问题,未与半参数理论或高维变量选择结合。
- 开放问题:如何将此确定性交互框架扩展为数据驱动的算法?能否引入概率图模型或假设检验来容错(即对专家指定的初级调整集进行统计检验验证)?如何定义和量化初级调整集指定错误时的敏感性?
Maintained by 陈星宇 · Homepage · Source on GitHub