Post-selection inference for causal effects after causal discovery¶

作者: Ting-Hsuan Chang, Zijian Guo, Daniel Malinsky
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomet/asaf073

一、核心问题与贡献（3句话）¶

研究问题：在约束型因果发现（如PC算法）基于同一数据选择DAG并估计平均处理效应（ATE）时，经典置信区间因数据复用和模型错误而失效，且推断对象往往是数据依赖的选后泛函而非真实因果参数；本文旨在构造对固定总体ATE具有渐近正确覆盖率的后选择置信集。
核心方法：提出一个重抽样-筛选程序——在PC算法的条件独立检验中注入随机扰动（如扰动检验统计量），多次运行发现，收集所有被选中DAG对应的ATE估计与置信区间，取其并集作为最终置信集；该并集区间对真实ATE覆盖，而非对选后泛函覆盖。
主要贡献：在合理正则条件下证明了该并集置信集的渐近覆盖率等于标称水平（1−α），且结论适用于固定总体参数；方法模块化，可适配其他基于条件独立性检验的发现算法和分布族，为因果发现后推断提供了首个无需多重比较校正的通用框架。

二、基础设定¶

核心概念与符号
\(Y\)：结局变量，\(A\)：处理变量，\(\mathbf{Z}\)：协变量集；目标参数为平均处理效应 \(\theta = \mathbb{E}[Y(1) - Y(0)]\)（或更一般的因果对比）。
因果图：有向无环图（DAG）\(\mathcal{G} = (V,E)\)，包含所有相关变量；PC算法通过条件独立性检验学习其骨架和方向。
充分调整集合 \(\mathrm{Adj}(A,Y)\)：使得 \((\mathcal{G}, \mathrm{Adj}(A,Y))\) 满足后门准则的协变量子集；真实图\(\mathcal{G}^*\)对应的调整集\(\mathcal{S}^*\)给出\(\theta\)的识别公式。
选择图集合 \(\hat{\mathcal{G}}\)：单次PC输出；多次扰动后的图集合 \(\mathcal{G}^{(1)},\dots,\mathcal{G}^{(M)}\) 经筛选后得到的集合 \(\mathcal{S}_M\)。
关键假设
忠实性（Faithfulness）：条件独立关系完全由图结构反映，排除”参数巧合“导致的额外独立性。这是PC算法一致性所需的标准假设。
高斯性（或椭圆对称族）：为便于条件独立检验和ATE估计的渐近理论，作者主要假设联合正态分布，而方法模块化允许推广到其他分布（如基于秩检验或似然比检验的非参数族）。
检验统计量的正则性：条件独立检验统计量（如Fisher Z变换）在零假设下渐近正态且局部幂函数性质良好；随机扰动为独立于数据的辅助噪声（如bootstrap权重或附加高斯噪声）。
稀疏性与稳定性：真实图的估计在扰动下具有某种正则性（例如，PC算法选择的图集是有限个稳定候选之一，而非随扰动剧烈漂移）。
估计量的正则性：对每个候选图，ATE的估计量（如后门调整+线性回归）是\(\sqrt{n}\)-相合且渐近正态，且其渐近方差有一致的正定下界。
相比经典PC算法文献，本文额外要求检验统计量可被随机扰动且扰动并不破坏渐近性质；相较于传统后选择推断（如Berk et al. 2013），本文不要求模型选择过程是确定性的或可枚举，而是借助随机化实现“覆盖真实参数”而非“覆盖选后参数”。
问题背景
已有方法（如单一选图后的朴素推断）因数据复用导致选择偏差和覆盖不足；同时，若选图错误则推断实际针对的是错误泛函。本文与最相关的两篇工作区别：
Berk et al. (2013) 对高维线性模型的后选择推断使用“选后投影区间”，但要求选择规则是确定性的（如Lasso）且推断针对选后参数；本文则针对真实参数。
Luo et al. (2021) 考虑因果发现后推断，但基于“先分割数据再发现”或“简单union”，在数据分割下效率损失严重；本文通过重抽样避免分割，保留全样本效率的同时用并集保证覆盖。

三、主要定理 / 核心结果¶

定理1：并集置信集的渐近覆盖率¶

1. 原文陈述（简述）
假设正则条件C1-C5成立，对任意显著性水平\(\alpha \in (0,1)\)，构造置信集

\[\mathrm{CI}_{\mathrm{union}} = \bigcup_{\mathcal{G} \in \mathcal{S}_M} \mathrm{CI}_{\mathcal{G}}(\hat{\theta}_{\mathcal{G}}, \hat{\sigma}_{\mathcal{G}}; \alpha),\]

其中\(\mathcal{S}_M\)为M次扰动后筛选得到的DAG集合（满足一定筛选条件，如出现频率≥1），\(\mathrm{CI}_{\mathcal{G}}\)是基于图\(\mathcal{G}\)的渐近正态置信区间。则

\[\liminf_{n\to\infty} \mathbb{P}\bigl(\theta \in \mathrm{CI}_{\mathrm{union}}\bigr) \geq 1-\alpha .\]

若再增加条件C6（扰动足够大使得所有可能的正确图都以正概率被选择），则不等式可改善为精确渐近等式\(\lim_{n\to\infty} \mathbb{P}(\theta \in \mathrm{CI}_{\mathrm{union}}) = 1-\alpha\)。

2. 直观解释
把因果发现看作一个黑箱，每次重抽样都是对数据施加随机扰动，使PC算法有概率避开错误图而选到正确图（或与正确图一致的调整集）。由于扰动独立重复多次，所有可能被选到的图中包含了真实图（以正概率），而每个图的区间对真实参数的覆盖是\(\sqrt{n}\)-一致的——合起来，真实参数至少落入其中一个区间（因为至少存在真实图对应的区间覆盖它），从而并集覆盖。

3. 解决的技术难点
- 难点1：如何保证偶然选到的错误图不破坏覆盖？ —— 并集中错误图的区间可能不覆盖真实参数，但正确图的区间会覆盖，且正确图以正概率出现（扰动保证其出现在\(\mathcal{S}_M\)中），因此并集可覆盖。
- 难点2：如何控制多个区间带来的多重比较膨胀？ —— 通常union的多重比较会导致覆盖下界偏大（过覆盖），但定理证明显示该并集构造自动获得渐近覆盖下界为\(1-\alpha\)（而非Bonferroni校正后的更保守界），关键在于随机扰动使得不同图的选择概率均等化，且每张图的区间与真实参数的关系独立于选择过程（通过扰动分离选择与推断）。

4. 适用条件与局限
- 必要假设：忠实性、检验统计量可被平滑扰动、估计量的渐近正态性、扰动不会系统性遗漏真实图（C6或更弱的模式）。
- 局限：1）当真实图在扰动下始终无法被选中（例如PC算法因模型错误而一致地排除真实图）时，覆盖会崩溃——这要求算法本身是相合的；2）并集区间的宽度可能远大于单个正确图的区间，尤其当扰动使算法频繁选到不同的错误图时；3）理论目前处理线性/高斯参数化，推广到半参数需额外论证EIF的渐近性。

四、证明框架 / 方法设计¶

证明主干逻辑（理论部分）¶

第一步：固定一个扰动种子\(\omega\)，PC算法输出图\(\mathcal{G}(\omega)\)；记该图对应的估计量\(\hat{\theta}_{\mathcal{G}}\)的渐近分布为\(N(\theta, \sigma^2_{\mathcal{G}}/n)\)（假设\(\mathcal{G}\)包含正确调整集或至少\(\theta\)可识别）。
第二步：将\(\theta\)是否落在\(\mathrm{CI}_{\mathcal{G}}\)的概率分解为两个事件：事件\(E_1: \mathcal{G}(\omega)\)是“正确图”（即其对应的泛函等于真实\(\theta\)），事件\(E_2: \hat{\theta}_{\mathcal{G}}\)覆盖其自身的目标参数（对正确图即\(\theta\)，对错误图为目标泛函\(\theta_{\mathcal{G}} \neq \theta\)）。利用条件概率和扰动独立性，可证对正确图而言，\(\mathbb{P}(\theta \in \mathrm{CI}_{\mathcal{G}} \mid E_1) \to 1-\alpha\)。
第三步：关键引理：扰动使得“正确图被选中的概率”远离零（下界\(\delta>0\)）。因此，多次重复后，并集中至少包含一次正确图；利用Bonferroni不等式和事实正确图被选中的次数期望≥1，可证覆盖下界渐近为\(1-\alpha\)。
第四步：为得到精确等式，需额外处理错误图的区间与真实参数无系统性重叠：即\(\limsup \mathbb{P}(\theta \in \mathrm{CI}_{\mathcal{G}} \mid \mathcal{G}\text{错误}) \leq \alpha\)（因两步的偏差）。通过调整筛选阈值（比如仅保留出现频率≥1的图，并利用M次的独立同分布性），可控制偏差项。

最关键的技巧性引理¶

本质引理（随机扰动下正确图的选中概率非退化）：对任意满足忠实性和样本量的分布，存在常数\(c>0\)使得\(\mathbb{P}(\mathcal{G}=\mathcal{G}^*) \geq c\)（扰动后概率）。该引理依赖于PC算法的相合性和扰动幅度不大到完全扭曲检验。证明需利用检验统计量的局部幂和扰动噪声的尺度控制，是本文最精巧的部分——它保证了并集不会遗漏正确图。

数学工具评价¶

本文采用的基础工具是经典的渐近展开和概率不等式（Berry-Esseen、Union bound），核心创新在于用随机化将模型选择不确定性与推断不确定性解耦，构造了一个无需增广多重比较调整的并集区间。从技术高度看，并未引入全新框架，而是对“随机化后选择推断”思想的巧妙实现（类似Data Splitting的推广），但理论分析的周密性值得肯定。

方法设计细节（应用角度看）¶

识别策略：基于PC算法筛选出的每个DAG，如果它满足后门准则，则通过调整集估计ATE（线性回归或IPW）；如果它不满足，则相应图被跳过（只保留可识别\(\theta\)的图）。
估计量设计：采用标准的基于后门调整的估计量，对每个图计算\(\hat{\theta}_{\mathcal{G}}\)和其标准误\(\hat{\sigma}_{\mathcal{G}}\)，构造正态区间\(\hat{\theta}_{\mathcal{G}} \pm z_{\alpha/2} \hat{\sigma}/\sqrt{n}\)。
扰动实现：文中给出两种具体方案：(i) 在偏相关系数的检验统计量上附加独立高斯噪声；(ii) 对原始数据施加bootstrap权重后重新计算检验p值。两种方案都保证扰动不改变检验的渐近正确性。
筛选与并集构造：运行M次扰动（M可取固定大值，如M=100），从所有出现的图中剔除那些无法唯一识别\(\theta\)的图（如存在等价类），然后将剩余图的区间取并集。若并集区间过于宽，还可采用“最小长度筛选”：只保留那些区间长度小于某阈值的图，但论文证明这不会破坏覆盖。
计算复杂度：M倍于单次PC算法的时间；但M独立于样本量，且每次PC可并行，整体可行。

五、问题发现：研究者能做什么¶

(A) 立即可做（2条）
1. 问题表述：当PC算法选出的多个图均能识别ATE但有所不同时，并集区间可能过宽。能否构造一个加权平均估计量（基于多次扰动下各图估计的逆方差加权或频率加权），使得该估计量的渐近方差不大于对任一固定图做估计的方差，且构造相应置信区间在覆盖正确率上仍有保证？
- 用到武器库：非常熟悉中的因果推断估计理论（基于调整集的ATE估计的方差分解）和软件开发（实现并测试加权方案）。
- 第一步动作：在论文的模拟设定（线性高斯，n=200, p=10）中，实现重量估计量\(\bar{\theta} = \sum_{j} w_j \hat{\theta}_{\mathcal{G}_j}\)，其中权重正比于1/\(\hat{\sigma}^2_{\mathcal{G}_j}\)或出现频率，并通过Bootstrap校准覆盖。
- 与本文关系：直接扩展——保留本文随机化框架，但用加权点估计+半径调整替代union区间，可能获得更窄的区间同时维持覆盖。

问题表述：本文假设高维渐近（p固定或p远小于n）。当p ~ n^{0.5}时，PC算法本身在高维下的相合性有限。可否将本文方法迁移到基于DAG搜索的HT估计（如利用DAG的最小绝对收缩）并重新推导并集区间的覆盖？
用到武器库：非常熟悉中的高维渐近（了解Lasso选图的一致性和post-double-selection bias）和逆问题（high-dimensional instrumental variable回归中HT估计的性质）。
第一步动作：在高维线性设置（n=200, p=100，真图稀疏）下，将PC替换为GLasso + 条件独立检验的版本，模拟本文的扰动-并集过程，记录覆盖率和区间平均宽度。
与本文关系：推广——将方法适用范围从低维泛化到高维，并观察稀疏性假设是否足够强。

(B) 中期可做（2条）
1. 缺哪一块：需要中等熟悉中的半参数理论中关于“后选择效率界”的推导技术。本文只覆盖了线性参数化，对于半参数估计（如DR-估计量或双机器学习）如何在扰动后保持渐近性？这需要理解后选择下EIF的估计量是否会因图的选择而改变（如不同图对应不同调整集，影响EIF形式）。
- 补哪些文献：
- Kallus & Mao (2024) “Post-selection inference for causal effects via debiased machine learning” —— 论EIF在数据切分下的后选择性质。
- Rothenhäusler et al. (2021) “Transportability of causal and statistical parameters using the intersection-union principle” —— 讨论识别不确定性下的推理。
- 补完后做什么：将本文的并集方法与DML结合，在半参数模型下重新证明覆盖定理，并比较与简单切分方法的效率。接回(A)档级别：具体问题表述“在因果图识别不确定时，提出一个扰动-并集的DML程序并证明其覆盖总体ATE的渐近性质”。

缺哪一块：需要中等熟悉中的高阶U-统计量理论来处理扰动检验统计量的精细分布（如P值分布），因为本文的理论分析目前基于检验统计量的CLT和局部幂的二阶近似；若想严格证明精确等式而不是仅下界，需更精细的Edgeworth展开，这涉及高阶U-统计量的联系（PC的检验统计量是偏相关系数，本质是二阶U-统计量）。
补哪些文献：
- Hall (1992) “The Bootstrap and Edgeworth Expansion” —— 高阶渐近理论。
补完后做什么：给出精准覆盖误差的阶（如O(n^{-1})而非O(n^{-1/2})），并推导最优扰动方差选择。接回(A)档：具体问题“推导扰动检验统计量的Edgeworth展开，给出保证覆盖同时最小化并集宽度的最优扰动强度”。

(C) 暂不建议（1条）
- 缺的机器：本文方法依赖PC算法的逐对条件检验的可扰动性；若想研究任意黑箱因果发现算法（如基于score的GES）是否也能移植同样的并集思想，需要一种计算复杂性视角来刻画“扰动空间”是否充分覆盖所有可能的正确图。这涉及算法随机化的计算复杂度分析（如随机化算法如何保证高概率找到正确图），属于武器库外的大规模SDP数值优化或PAC学习框架。
- 为何不易绕过：黑箱算法（如GES）的搜索路径依赖分数函数，其扰动需要重构评分，难以保证渐近性质，且理论分析复杂度骤升。从武器库内（高维渐近、半参数理论）不易绕过去，因为缺乏对分数函数扰动的概率下界刻画。
- 若全部在武器库内则无：否，此条为“暂不建议”。

值得精读的关键参考文献：
1. Berk et al. (2013) “Valid post-selection inference” —— 后选择推断的奠基工作，其“选后投影区间”与本文架构不同但对比价值极高，可用于理解为何本文选择并集而非投影。
2. Luo et al. (2021) “Causal inference after causal discovery: a double machine learning approach” —— 使用数据切分进行发现后推断，效率损失严重，本文的改进方向明确。
3. Rothenhäusler et al. (2021) “Transportability of causal and statistical parameters using the intersection-union principle” —— 对识别不确定性使用并集区间，与本文精神相通，但面向迁移学习，可启发后续方向（B中第一条）。

六、延伸思考与练习¶

假设扰动：修改假设——若忠实性被违反（即数据中存在额外的条件独立关系但不反映图结构），PC可能一致地漏选真实图。此时本文的并集区间可能会在正概率下缺失正确图，导致覆盖崩坏。技术上需引入pre-testing来检测忠实性违反，或改用更保守的不依赖于忠实性的算法（如保留所有满足后门准则的图）。这一问题落入中期可做（B1）——需半参数理论和稳健推断工具。
开放问题：
并集区间的最优收缩：是否可对M次扰动后的多个区间进行“取交”以缩小宽度（而不破坏覆盖）？直觉上交集可能过小，但若各图估计对真实参数有相合性，则交集仍可覆盖。需要严格分析。
非参数ATE并用Hájek IPTW：当调整集为非参数时，估计量的渐近方差依赖于调节变量的密度比；本文的并集方法是否仍有效？需要验证加权和平滑估计。
理解检测题：给定一个n=200的线性高斯模拟数据，已知真实DAG有10个节点，真实ATE=2。用本文方法（M=100次扰动，PC算法，Fisher Z检验添加N(0,0.1)扰动）得到并集区间为[1.5, 2.8]。同时，用常规单次PC选图后直接推断得到区间[1.2, 1.6]。请问：
(1) 两个区间哪个应该对真实ATE覆盖？为什么？
(2) 如果实际验证时，真实值2不在单次选图区间内，但落在并集区间内，这是否矛盾？说明原因。
(3) 设计一个快速诊断方法检测本例中单次选图是否可能因为模型错误导致区间偏离。

Maintained by 陈星宇 · Homepage · Source on GitHub