Causal Stability Selection¶
作者: Falco J. Bargagli-Stoffi, Omar Melikechi
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.09300
核心问题与动机¶
本文要解决的是因果效应修饰变量发现中的假阳性控制问题。在平均处理效应(ATE)为零时,条件平均处理效应(CATE)可能存在异质性,发现驱动异质性的协变量对精准干预至关重要。然而,现有数据自适应方法(如基于cross-fitting的Lasso或变量重要性度量)无法在有限样本下控制错误发现数(E(FP))或错误发现率(FDR)。根本原因在于:CATE是不可观测的反事实结果,必须进行估计;若在相同样本上估计CATE并进行变量选择,估计过程会引入协变量与预测值之间的伪依赖,导致选择偏差和FDR严重膨胀。
主要贡献¶
- 提出统一框架Causal Stability Selection (CausalStabSel),首次在不对base selector或CATE估计器做参数形式限制的情况下,提供了非渐近、有限样本的E(FP)上界。
- 证明CausalStabSel的选择概率对oracle选择概率(基于真实CATE的选择概率)是渐近无偏的,且收敛速率直接由底层CATE估计器的收敛速率决定,建立了因果估计与变量选择的深刻联系。
- 结合Integrated Path Stability Selection (IPSS)准则,通过积分变换与聚合提升高维计算可行性与选择稳定性,克服了传统stability selection过于保守的问题。
方法框架¶
- 模型设定:$Y = \mu(X) + Z\tau(X) + \varepsilon$,其中$\tau(X) = E[Y(1)-Y(0)|X]$为CATE。Effect modifier定义为满足 $\tau(X) \not\perp!!!\perp X_j | X_{-j}$ 的协变量$X_j$。
- 关键假设:
- SUTVA & 强可忽略性:$(Y(0), Y(1)) \perp!!!\perp Z | X$ 及重叠性 $0<P(Z=1|X)<1$。
- Base selector正则性:选择概率关于响应变量的Lipschitz连续性(Assumption 3)。
- 方法步骤:
- Repeated Cross-fitting:在$b=1,\dots,B$次迭代中,抽取互斥子集对$A_{2b-1}, A_{2b}$。在补集$A_{2b-1}^c$上训练CATE估计器$\hat{\tau}$,在$A_{2b-1}$上预测并应用base selector $\hat{S}_\lambda$;交换角色重复。
- 选择概率估计:计算 $\hat{\pi}{j,m}(\lambda) = \frac{1}{2B}\sum{b=1}^{2B} 1(j \in \hat{S}\lambda({(x_i, \hat{\tau}{A_b^c}(x_i)): i \in A_b}))$。
- IPSS聚合与选择:计算积分判据 $\int_\Lambda f(\hat{\pi}_{j,m}(\lambda))\mu(d\lambda) \ge \gamma$,其中 $f(x) = (2x-1)^3 1(x \ge 1/2)$。通过为每个变量分配expected false positive (efp)分数,构造满足E(FP)或FDR控制的选择集。
主要理论结果¶
- Theorem 1 (选择概率渐近无偏):估计选择概率与oracle选择概率的偏差受控于 $O(\sqrt{m} \mathbb{E}|\hat{\tau}_{A^c} - \tau|)$。
- Corollary 1 (参数速率下的无偏性):若CATE估计器达到 $\sqrt{n}$-consistent(如DR-learner),则选择概率偏差趋于0。
- Theorem 2 (选择集一致性):在CATE估计一致且子样本量 $m = o(\sqrt{n})$ 条件下,CausalStabSel选择集依概率收敛于oracle选择集。
- Theorem 3 (有限样本E(FP)控制):给出了严格的非渐近E(FP)上界,形式为IPSS的oracle上界加上由CATE估计误差引起的二阶项。
实验 / 数值仿真¶
- 实验设计:线性与非线性数据生成过程,$n=1000, p=100$,对比Lasso, Knockoffs, BH在honest splitting与cross-fitting下的表现。CATE估计器对比了T-learner, X-learner与DR-learner。
- 评估指标:真阳性率(TPR)与错误发现率(FDR)。
- 主要发现:
- 传统方法(Lasso, KO, BH结合单次cross-fitting)FDR严重失控(常超80%),而CausalStabSel有效控制FDR在名义水平之下且保持较高TPR。
- DR-learner因具备半参数效率与 $\sqrt{n}$-consistency,在CausalStabSel框架下表现最优,推荐作为默认CATE估计器。
- 子样本量$m$较小时(留更多数据训练CATE)渐近性质更优,有限样本下推荐$m=\lfloor n/2 \rfloor$。
与研究者兴趣的关联¶
- 因果推断与效率理论:本文直击因果推断中的异质性分析与变量选择问题,核心理论结果直接依赖于CATE估计的半参数效率(DR-learner的 $\sqrt{n}$-consistency),是debiased ML与semiparametric efficiency bounds在"因果发现/选择"问题上的典型应用。
- 高维统计与假设检验:将高维变量选择中的Stability Selection拓展至因果框架,提供了类似假设检验的有限样本E(FP)控制,思路可借鉴于其他涉及nuisance function估计的高维筛选问题。
局限性与开放问题¶
- 强可忽略性依赖:方法依赖无未测量混淆假设,缺乏对违反此假设的sensitivity analysis,在观察研究中可能存在隐患。
- 子样本量限制:理论要求 $m = o(\sqrt{n})$ 以保证一致性,这在有限样本下可能限制变量选择步骤的统计功效。
- Base selector的Lipschitz条件:对树模型等非线性base selector(如XGBoost MDI)的Lipschitz条件仅为高层假设,难以严格验证,缺乏非参数base selector的精细理论。
Maintained by 陈星宇 · Homepage · Source on GitHub