Confounder selection via iterative graph expansion¶

讲者: Richard Guo
讨论人: Ilya Shpitser
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-10-31
主题: 因果推断
视频: https://youtu.be/C0ixUOh6T2I · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2309.06053 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告属于因果推断中混杂控制（confounding control）的方法论子方向，具体追问的是："在因果图不完全已知时，如何仅通过局部结构知识，迭代地找出一个充分调整集（sufficient adjustment set）？"

奠基与主流路线： - Pearl (1993) 的 back-door criterion 给出了当因果DAG完整已知时，判断一个协变量集S是否为充分调整集的充要条件；(Pearl, 1993) - Shpitser, VanderWeele, and Robins (2010) 证明了该准则的完备性：任何充分调整集去掉X的后代后必然满足back-door criterion；(Shpitser et al., 2010) - 在数据已收集、图知识稀缺的场景下，disjunctive criterion (VanderWeele and Shpitser, 2011) 提供了一个保守方案：将X的所有观测到的祖先与Y的所有观测到的祖先的并集作为调整集。它的优点是只需要知道每项协变量是否是X或Y的原因，缺点是可能过度调整且在"协议设计"阶段（即决定测什么）不适用。

当前frontier 与这场报告的站位： - 主流图形方法通常假设"已知完全因果图G"（known-G stance），实践中难以实现（讲者在[0:27-0:35] 通过"floor plan analogy" 批评了这一点）。 - 最近的工具与协议（Shrier and Platt, 2008; Haber et al., 2022）尝试辅助专家绘制DAG，但仍面临边界设定、认知负荷等挑战。 - 本报告提出的方法：不要求预指定全图，而是通过交互式流程，询问用户关于局部结构（共同原因与完全中介者） 的问题，迭代地构建一个只涉及当前候选调整集的边际投影图（marginal latent projection），直到X和Y之间不再有混杂弧（confounding arc）。它的核心贡献是：将"知识完全已知"的强假设替换为"知识是分步获取的、只聚焦于识别所需的部分结构"的立场，并为此提供了一种形式化表示（带双向边的图）和算法（逆潜在投影）。

点名关键工作（有把握）： - Pearl (1993) – back-door criterion - Shpitser, VanderWeele, and Robins (2010) – 完备性证明 - VanderWeele and Shpitser (2011) – disjunctive criterion - Shrier and Platt (2008) – 绘制DAG的协议

二、最小内核 / 一个最简例子¶

符号与模型： - 可观测数据：(X, Y, covariates being considered)，其中X是二值处理，Y是连续/二值结局。 - 潜在不可观测量：存在一个未知的因果DAG（或ADMG）G，定义所有变量的生成机制（结构方程模型或FFRCISTG/SWIG模型）。 - 目标量（estimand）：平均处理效应 ATE = E[Y(1) - Y(0)]，或更一般的任何可通过条件交换性识别为 E[Y | X=x, S] - E[Y | X=0, S] 的函数。 - 需要选择的参数：一个候选调整集 S，使得 Y(x) ⟂⟂ X | S（条件交换性）成立。满足此条件的S称为充分调整集。 - 随机变量：所有误差项、潜在混杂（如未观测的共同原因）。

最简特例：两个时间点、三个变量、一组共同原因与一个中介者

考虑如下结构（即讲者幻灯片中的"butterfly bias graph"样式）： - X → Y 有一条直接路径被M阻挡（M是中介者）。 - X ← U → Y （U是未观测的共同原因，构成直接混杂）。 - 此外，X ← C → D → Y 构成一个M型路径：X与Y之间有一条路径经过C和D，其中D是Y的原因，C是X的原因，且C→D指向D（碰撞子结构）。 - 如果我们只控制U（但U未观测），我们做不到。如果我们控制C，则会开启碰撞子路径 C→D→Y →（通过U的路径）回到X，引入新的混杂（collider bias）。所以必须同时控制C和D（或C和某个其他中介者）才能同时阻断直接混杂和碰撞子路径。

迭代图扩展的最简操作流程（对照讲者幻灯片"our approach in a nutshell"）：

起始画布：只画两个节点X和Y，之间连一条虚线双向混杂弧（表示：存在潜在未控制的混杂）。
消灭第一条弧：问用户"是否存在一个在X和Y之间共享的未观测共同原因？"（答案是U，但未观测）。由于U未观测，用户需要回答"U对X和Y的作用是否被某组观测变量完全中介？"——假设可以找到M（完全中介者），则输入M。虚线双向弧消失，换上M到X和M到Y的虚线双向弧（表示M与X、M与Y之间仍可能混杂）。
继续消灭：重复步骤2，直到画布上X和Y之间没有任何虚线双向弧相连（即它们处于不同连通分量）。此时，画布上除X和Y之外的所有节点（比如这里的{M, C, D, ...}共同组成了一个充分调整集S。
终止：若某条弧无论如何都无法被消灭（用户无法提供任何观测变量来完全中介其效应），则该弧变为实线混杂弧，表示不可控混杂——此时过程终止并报告"不存在充分调整集"。

核心思想：问"X和Y之间的混杂是否由某个未观测的共同原因产生，且该原因对X和Y的效应能否被观测变量完全中介？"——这种问题只涉及局部路径知识，不需要知道全局图。整个过程是逆潜在投影：潜在投影把观测变量之外的节点边缘化掉，在此过程中引入双向边；而本过程通过逐步引入观测变量来"撤销"这些双向边。

三、报告主体：讲者讲了什么¶

1. [0:18-0:23] 问题设定 - 假定点处理X、单一结局Y。 - 通过调整协变量集S实现条件交换性 Y(x) ⟂⟂ X | S，从而识别 E[Y(x)]。 - 目标是找到这样一个充分调整集S。报告只讨论primary objective，不讨论在多个充分调整集中选择最优的一个（secondary objective，如效率、成本等）。

2. [0:23-0:27] 看似"已解决"的问题：back-door criterion的回顾 - Pearl (1993) back-door criterion：S（不含X的后代）是充分调整集 ⇔ S阻断所有从X到Y的back-door路径（即箭头指向X的路径）。 - Shpitser et al. (2010) 完备性：任何充分调整集去掉X的后代后，剩余变量集满足back-door criterion。 - 因此，若知道DAG，只需要检查S是否符合back-door条件。

3. [0:27-0:35] 对"已知G"立场的批评 - 不实用：不知道完整因果机制；即使知道，也难以画出所有变量（"无法画出自己家的floor plan"）；边界难以界定（"common causes of common causes..."）。 - 不必要：back-door criterion只涉及图的局部知识（阻断特定形状路径），不需要全图。引出两个子问题：(i) 如何表示这种局部知识？ (ii) 如何设计程序来eliciting它？

4. [0:35-0:50] 之前的工作与本方案的核心直觉 - 提到disjunctive criterion (VanderWeele and Shpitser, 2011) – 只需要知道每个协变量是否是X或Y的原因；适用场景是数据已收集、知识稀缺时。但用于研究设计阶段（决定测什么）不太合适。 - 核心直觉（幻灯片"our approach in a nutshell"动画演示）：用带虚线双向边的图表示"潜在混杂弧"。通过询问用户的局部知识，渐进地将每条虚线双向边替换为新的观测变量及其相关虚线双向边（即primary adjustment set），直到X和Y之间不再有虚线双向边。此时，所有引入的观测变量构成充分调整集。这个过程命名为"逆潜在投影"（inverse of latent projection）。

5. [0:50-0:55] 互动演示（Shiny app）—— 运动热身与运动损伤案例 - 案例来自Shrier and Platt (2008)，关于"热身是否降低运动损伤风险"。 - 步骤演示： - 初始画布：warmup (X) 与 injury (Y) 之间有一条虚线双向弧。 - 用户回答关于共同原因（fitness level, genetics, coach）和中介者（muscle fatigue, tissue disorder）的系列问题，逐步消除虚线弧并引入新节点。 - 最终，warmup 和 injury 的虚线弧全部消除（它们在不同连通分量），画布上剩余的节点（muscle fatigue, tissue disorder）被告知为充分调整集。 - 参与者提问： - [0:53-0:55] Emma 提问："算法在后台做了什么？能否把中间过程可视化？" 讲者回答：理论将揭示算法在做什么；工程上还有改进空间（如减少重复询问）。 - [0:55-0:56] 听众提问："潜在变量（latent variable）能包含在画布中吗？" 讲者回答：画布上只显示观测变量（因为它们用以控制混杂），但问询中会涉及潜在共同原因。

6. [0:56-1:05] 理论部分的核心概念与结果 - 假定：存在一个未知的ADMG（有向无环混合图）作为真实因果模型，允许双向边表示潜在混杂。 - 关键概念： - confounding arc（混杂弧）：A和B之间的一条无碰撞子且两端都有箭头指向对方的路径（四种构型：A→...→B, A←...→B, A→...←B, A←...←B）。它是最简单的混杂结构单元。 - confounding path（混杂路径）：由多个confounding arc通过碰撞子串联而成的路径。 - Refined m-separation：将一般的m-连接/分离关系根据路径形状（directed arc / confounding arc / confounding path）进行细化。 - 核心工具：latent projection（潜在投影） – 将ADMG的边缘化操作，保持m-连接关系。 - 主要结论（[1:00-1:02]）：三种精细化的m-连接关系（directed arc, confounding arc, confounding path）在潜在投影下都是保持的。 - 推论：只投影到 {X, Y, S} 这三个节点上，则S是充分调整集 ⇔ 在投影图中X和Y之间没有confounding arc相连接。这给出了一个极简的disjunctive criterion：只需要检查投影图中X和Y之间是否有虚线双向边（表示无法被控制掉的混杂弧）；如果有，S不是充分调整集；如果没有，S是充分调整集。 - 算法的 soundness and completeness：[1:02-1:05] 讲者声称（但未详述证明）：若将用户回答替换为诚实神谕（truthful oracle），则算法 (a) sound：找到的S是充分调整集； (b) complete：若神谕以最优方式回答，算法能找出所有最小充分调整集（optimal minimal adjustment sets）。

7. [1:05-1:10] 讨论环节（Ilya Shpitser） - 主要评论： - 赞赏"主动学习图知识"的思路。 - 质疑"共同原因"和"完全中介"这类问题是否真的容易回答，尤其"完全中介"在实践中极难找到（类比front-door criterion的不适用）。 - 认为算法本质上是在用图的代数描述来代替图本身，这不是"图精神"。 - 提出反方向提议：是否能用更复杂的识别策略（如proximal inference, 工具变量）来降低问题难度（用户只需回答"是否有部分中介"而非"完全中介"）。 - 讲者与赵清源回应： - 赵：该问题（完全中介）确实是困难的，但若想控制未观测混杂，似乎必须假设有某种完全中介机制（否则无法阻断混杂路径）；算法是暴露了这种困难，而不是回避。另外，投影后的disjunctive criterion本身可能比交互式算法更有实用价值——它只需要验证最终投影图中有没有双向边，而不需要全程交互。 - Richard Guo：承认问题仍有改进空间。

8. [1:10-1:15] 现场问答 - Emma 提问（[1:10]）：算法能否输出多个充分调整集（如果不止一个存在）？讲者回答：取决于如何运行——若通过正式算法（尝试所有选择并配合神谕），理论上可以找出所有；但实际交互中，用户通常只做一次尝试，可能不会发现所有。另外说明算法排除了X的后代（descendants），但允许用户手动决定是否能接受后代。 - Emma 补充问："算法的使用场景是研究设计阶段还是事后分析？" 讲者回答：研究设计阶段是主要优势（帮助决定测什么变量），但事后分析也可以使用。

四、对应论文与开放问题¶

(a) 对应论文 - 主要论文：arXiv 2309.06053，题为 "Confounder selection via iterative graph expansion"，作者为 F. Richard Guo 和 Qingyuan Zhao。 - 讲者口述和幻灯片确认了这点。 - 另提及相关调查论文：Guo, Lundborg, and Zhao (2022) – confounder selection survey，未给出arXiv编号。

(b) 开放问题（每条均有转写依据）

降低问题的认知难度（[1:05-1:08], Shpitser评论）
讲者提出的问题要求用户回答关于"完全中介"（full mediation）的知识，这类非常强的假设在真实世界中几乎无法得到可靠答案。一个开放问题是：能否设计一种新流程，仅需用户回答"部分中介"或"有没有中介路径"这种更简单的问题，但利用更复杂识别策略（proximal inference、IV）来弥补？ Shpitser举了front-door和proximal的例子。
讲者（赵清源）回应承认困难，但未直接提供解决方案。因此这个问题是悬而未决的。
交互式算法的工程实用性（[0:53-0:55], Emma提问; [1:05], Shpitser评论）
当前Shiny App的实现要求用户记录和重复回答多个问题（如遗传学被问了两次），且用户大脑中需要保持当前图的状态。开放问题是：能否设计一个用户界面或算法，能够在后台统一重复回答问题、减少用户认知负担？ 讲者承认"工程上有改进空间"。
处理用户错误/不确定性（未在转写中明确讨论，但显然是一个重要问题）
如果用户对问题的回答是错误的（例如，误以为某个变量是完全中介者而实际上它不是），算法的soundness会失效。开放问题：如何设计算法使其在用户回答可能错误或不确定时仍然保持某种形式的鲁棒性（例如，通过询问冗余问题来交叉验证）？ 讲者未涉及此问题。
与常规的"先学图、后选调整集"的范式对比（[1:10], 赵清源提及）
赵清源指出投影后的disjunctive criterion（只需验证投影图中无双向边）可能比完整交互式算法更实用——它提供了一个极简的验证标准。开放问题：这种"投影-验证"方法在多大程度上可以替代传统的全图学习和back-door检验？能否将其与数据驱动的图学习算法结合，构成一个"先学局部投影图、再验证调整集"的新范式？这是一个对研究设计很有吸引力的方向。
处理不可控混杂弧的替代路径（[0:55-1:00], 讲者提到；[1:10], Emma提问）
如果某条弧无法被消灭（变成实线混杂弧），算法就直接宣布无解。但实际中，用户可能仍想通过其他手段（如工具变量IV、负对照）实现识别。开放问题：如何将本流程与更广泛的识别策略（IV、g-computation、front-door）整合，使得当"充分调整集不存在"时，仍能给出另一种识别方案的建议？ 讲者在Q&A中暗示这是一个未来方向。

Maintained by 陈星宇 · Homepage · Source on GitHub