Confounder selection via iterative graph expansion¶

作者: F. Richard Guo, Qingyuan Zhao
来源: Annals of Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2577

一、核心问题与贡献（3句话）¶

问题：在观测研究中，如何在不预先指定完整因果图的条件下选择满足后门准则（back-door criterion）的混杂调整集？
核心方法：提出迭代图扩展（iterative graph expansion） 交互式程序，逐轮要求用户提供待调整变量对的“初级调整集（primary adjustment set, PAS）”，从而逐步重构部分因果图——这本质上是对底层因果图的一系列边缘化操作的逆向过程。
主要结论：若用户每步正确指定PAS，则该程序是sound（输出要么是一个真的后门调整集，要么正确判定不存在）且complete（只要存在某个后门调整集，程序在有限步内一定能找到或判定）；该框架将因果结构发现与识别融合，避免了传统后门准则对完整图的依赖。

二、基础设定¶

核心概念与符号
\(T\): 处理，\(Y\): 结局，\(\mathcal{O}\): 观测变量集（未知完整结构）。
底层因果图 \(G\)（有向无环图DAG），未知。
后门准则（back-door criterion）：一个充分调整集 \(Z\) 需阻挡所有从 \(T\) 到 \(Y\) 的背道路径，且 \(Z\) 中无 \(T\) 的后代。
初级调整集（primary adjustment set, PAS）：对于变量对 \((X, Z)\)，一个最小的满足后门准则（相对于当前已知的子图）的变量集合。文中特指用户每次需针对当前已考虑的一对变量提供其PAS。
迭代图扩展：从 \(\{T,Y\}\) 出发，每一步根据新暴露的PAS向图中添加顶点和边，重复直至收敛。
关键假设
正确性假设：用户在每个步骤中能够正确识别并报告指定变量对的PAS。
忠实性？：底层因果图满足忠实性（ faithfulness ）时，PAS 可通过条件独立性检验唯一确定，但本文不要求用户做检验——纯粹依赖结构知识。
无未观测混杂？：程序隐含假设所有相关变量均被观测，否则PAS的概念需要重新定义；文中未明确讨论潜变量情形。
相比传统后门准则（需要完整图G），本文放宽了对完整图知识的假设，但新引入了对用户每步提供PAS的能力假设。
问题背景
传统方法（Pearl, 1995）直接使用完整因果图判断后门调整集，但完整图在实践中极难获得。
已有部分自动调整集选择方法（如基于逐步回归、倾向得分），但缺乏识别理论保证。
与graphical marginalization 文献（如Verma & Pearl, 1990; Tian & Pearl, 2002）紧密相关：该程序相当于逆边缘化——每步的PAS揭示了被边缘化掉的结构信息。

三、主要定理 / 核心结果¶

由于论文是方法为主，核心结果以两个性质定理形式给出。

定理1（Soundness）
如果用户每步正确提供PAS，则：
1. 当程序输出一个调整集 \(\hat{Z}\) 时，\(\hat{Z}\) 确实满足后门准则（相对于底层图 \(G\)）；
2. 当程序宣告“不存在后门调整集”时，\(G\) 中确实不存在满足后门准则的调整集。

定理2（Completeness）
如果底层图 \(G\) 中存在某个后门调整集，则程序在有限步内一定能输出一个调整集（或判定不存在？前者即为找到）。

直观解释
- 这些定理确保交互式过程不会误判，且只要可能的调整集存在，过程就不会无限循环或遗漏。
- 技术难点：如何保证每一步的图扩展不丢失存在性信息？核心在于PAS的“逆边际化”特性——给定 \((X,Z)\) 的PAS，其蕴含了被边缘化的子图中关于 \(X\) 和 \(Z\) 的因果关系的必要信息。

适用条件与局限
- 必要假设：用户正确提供PAS。在现实中，PAS可能来自领域知识或条件独立性检验，但检验需要充分的数据和忠实性。
- 局限：
1. 未处理潜变量——若存在未观测混杂，调整集可能不存在，程序会正确判断“不存在”，但实际可能会误判为存在？需要潜变量版本扩展。
2. 程序效率（步数上界）未讨论，理论上可能因循环依赖导致大量交互。

四、证明框架 / 方法设计¶

方法设计（识别策略）
- 核心流程（伪代码级）：
1. 初始化图 \(G^{(0)}\)，仅含 \(\{T,Y\}\)，无边。
2. 用户提供 \(PAS(T,Y) = Z_1\)（一个变量子集）。
3. 将 \(Z_1\) 及其与 \(T,Y\) 的边（方向由PAS隐含？需推断）加入 \(G^{(0)}\) 得到 \(G^{(1)}\)。
4. 对于每个新加入的变量 \(X\) 与已存在变量 \(W\)，如果二者之间在 \(G^{(1)}\) 中尚无适当连接，则要求用户提供 \(PAS(X,W)\)，依此扩展。
5. 重复直至所有变量对都满足某种封闭条件，此时试图找到一个满足后门准则的集合。
- 这里的“识别策略”不是传统意义上的估计量，而是一个结构探索与判定算法。

核心假设的可信度分析
- 用户正确提供PAS是一个很强的认知假设。文中可能通过两个渠道缓解：①如果用户对某些变量对不确定，可以跳过，程序会提示缺乏信息；②从数据中自动估计PAS可作为补充（但不在本文主要讨论范围）。
- 潜在违背：用户可能错误指定PAS，此时soundness失效。这像是一种交互式因果发现，其Robustness需要另外研究。

稳健性检验策略
- 由于是纯识别理论，不需要模拟或数据。但可在已知底层图 \(G\) 的模拟中验证：若用户每步准确，程序总能找到正确调整集；若用户出错，会出现误判。

计算/实现细节
- 无算法复杂度分析；本质上是一个符号推理程序，手动或借助专家系统实现。

证明框架（理论部分）
- 证明逻辑主干：归纳法 + 构造法。
1. 基础步：证明初始对 \((T,Y)\) 的后门调整集问题与图 \(G^{(0)}\) 的关系。
2. 归纳步：假设当前图 \(G^{(k)}\) 是底层图 \(G\) 的正确部分表示（关于当前变量对的PAS正确），则通过获取一个新PAS并扩展图，得到的 \(G^{(k+1)}\) 仍保持正确性，且若存在调整集，扩展后不会丢失。
3. 关键引理：PAS具有唯一性和传递性——若 \(Z\) 是 \((X,Y)\) 的PAS，则 \(Z\) 也必须是某些中间变量的关键信息。
4. 技术跳跃点：证明从PAS推断出的新边方向必须符合底层DAG的拓扑序——这需要利用PAS定义中包含的“无后裔”性质。
- 数学工具评价：是经典图论论证（因果图/分离准则）的巧妙组合，不依赖高深概率论，但其逻辑结构是为特定问题定制的，可视为结构因果模型下的一个精细归纳推理框架。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多2条）

问题表述：检验IGE框架在纵向/时序因果图（time-ordered DAG）中的适用性：写出时序版PAS的定义，并证明相应的soundness和completeness。
用到武库：estimation theory in causal inference（very_familiar）中的识别理论。
第一步具体动作：考虑一个含两个时间点的\(T_1, Y_1, T_2, Y_2\) 以及协变量历史，定义时序PAS为最小满足时序后门准则（Robins, 1986）的变量集合，然后沿着原文归纳法重写证明。
与本文关系：推广已有框架到一个更贴近实际应用（如IV/mediation/纵向）的场景。
问题表述：当PAS由数据自动估计（而非用户提供）时，该程序相对于固定阈值选择法的consistency与效率损失分析。
用到武库：high-dimensional asymptotics + minimax bounds for estimation problems（均为very_familiar）。
第一步具体动作：在线性Gaussian DAG模型下，假设PAS由PC算法或Lasso-based条件独立性检验估计，设计模拟，比较IGE最终调整集与基于Oracle完整图的调整集在估计ATE时的MSE与置信区间覆盖。
与本文关系：本文假设用户完美回答PAS，这是个理论起点；我们的工作将其推向实际可用的数据驱动版本，并量化非精确性的代价。

(B) 中期可做（最多2条）

缺哪一块：HOIF（高阶影响函数）中对调整集选择的半参效率界分析。
补哪1-2篇文献：
- Robins, J., Rotnitzky, A., & Zhao, L. (1995). Estimation of regression coefficients when some regressors are not always observed.
- van der Laan, M.J., & Rose, S. (2011). Targeted Learning: Causal Inference for Observational and Experimental Data.
补完后能做什么：证明经IGE选择出的调整集在用于DML或EIF估计时，其渐近方差与最优充分调整集的方差之差的确切上界——这需要HOIF的二阶路径分析。
缺哪一块：semiparametric theory中部分图模型（partial graph models）的效率界。
补哪1-2篇文献：
- Shpitser, I., & Tchetgen Tchetgen, E.J. (2016). Causal inference with a graphical hierarchy of interventions.
- Bhattacharya, R., Nabi, R., & Shpitser, I. (2020). Semiparametric inference for causal effects in graphical models with hidden variables.
补完后能做什么：推导对于 部分已知图（即IGE最终得到的子图），所有正则渐近线性估计量的效率界，并设计一个基于该界的one-step估计量，可直接与本文识别程序对接。

(C) 暂不建议（最多2条）

缺的机器：通信复杂度/查询复杂度分析——该程序是交互式的，每步向用户索取PAS，其最小查询次数的确定需要落到一种类似决策树/主动学习的下界分析框架（如information complexity），不在当前武库内。
解释：若想严格证明该程序查询次数的最优性（即在最坏情况下至少需要多少次PAS才能保证completeness），需要引入通信复杂性工具，从统计角度不易绕过。

值得精读的关键参考文献
- Pearl (1995) Causal diagrams for empirical research – 后门准则的原创文，是本文理论的基础，也是你最熟悉的因果识别起点。
- Tian & Pearl (2002) A general identification condition for causal effects – 讲解了图边缘化与识别条件的关系，直接对应本文“逆边缘化”核心思想。
- Shpitser & Pearl (2008) Complete identification methods for the causal hierarchy – 对识别问题soundness/completeness的系统证明，教你如何形式化这类递归程序，可类比本文证明风格。

六、延伸思考与练习¶

假设扰动：若将“用户每步正确提供PAS”放宽为“用户以概率 \(p\) 正确，以概率 \(1-p\) 随机提供一个包含正确集合的超集”，该程序的soundness会有何变化？技术上需要引入稳健统计算法与部分识别理论。这个扰动问题落入上面 B档（中等熟悉，需补充HOIF/部分识别文献）。
开放问题：
如何将IGE程序完全自动化：利用观测数据中的条件独立性检验来源源不断地“猜测”PAS，然后通过假设检验的一致性来保证渐近soundness/completeness？这是在因果发现与因果识别之间架桥。
本文只讨论了离散的调整集选择，连续型混杂（如高维协变量中如何用迭代方法选择？）——这需要将每个PAS视为一个降维子集，可能引入高维渐近分析。
理解检测题：
假设底层DAG为：\(T \leftarrow X \rightarrow Y\)，且 \(X\) 是唯一混杂。现在你以研究者角色运行IGE，第一步用户提供 \(PAS(T,Y) = \{X\}\)。请写出下一步程序会要求你提供哪一对变量的PAS？如果不提供，程序能否终止？为什么？

Maintained by 陈星宇 · Homepage · Source on GitHub