Causal Stability Selection¶

作者: Falco J. Bargagli-Stoffi, Omar Melikechi
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.09300

核心问题与动机¶

本文要解决的是因果效应修饰变量发现中的假阳性控制问题。在平均处理效应（ATE）为零时，条件平均处理效应（CATE）可能存在异质性，发现驱动异质性的协变量对精准干预至关重要。然而，现有数据自适应方法（如基于cross-fitting的Lasso或变量重要性度量）无法在有限样本下控制错误发现数（E(FP)）或错误发现率（FDR）。根本原因在于：CATE是不可观测的反事实结果，必须进行估计；若在相同样本上估计CATE并进行变量选择，估计过程会引入协变量与预测值之间的伪依赖，导致选择偏差和FDR严重膨胀。

主要贡献¶

提出统一框架Causal Stability Selection (CausalStabSel)，首次在不对base selector或CATE估计器做参数形式限制的情况下，提供了非渐近、有限样本的E(FP)上界。
证明CausalStabSel的选择概率对oracle选择概率（基于真实CATE的选择概率）是渐近无偏的，且收敛速率直接由底层CATE估计器的收敛速率决定，建立了因果估计与变量选择的深刻联系。
结合Integrated Path Stability Selection (IPSS)准则，通过积分变换与聚合提升高维计算可行性与选择稳定性，克服了传统stability selection过于保守的问题。

方法框架¶

模型设定：$Y = \mu(X) + Z\tau(X) + \varepsilon$，其中$\tau(X) = E[Y(1)-Y(0)|X]$为CATE。Effect modifier定义为满足 $\tau(X) \not\perp!!!\perp X_j | X_{-j}$ 的协变量$X_j$。
关键假设：
SUTVA & 强可忽略性：$(Y(0), Y(1)) \perp!!!\perp Z | X$ 及重叠性 $0<P(Z=1|X)<1$。
Base selector正则性：选择概率关于响应变量的Lipschitz连续性（Assumption 3）。
方法步骤：
Repeated Cross-fitting：在$b=1,\dots,B$次迭代中，抽取互斥子集对$A_{2b-1}, A_{2b}$。在补集$A_{2b-1}^c$上训练CATE估计器$\hat{\tau}$，在$A_{2b-1}$上预测并应用base selector $\hat{S}_\lambda$；交换角色重复。
选择概率估计：计算 $\hat{\pi}{j,m}(\lambda) = \frac{1}{2B}\sum{b=1}^{2B} 1(j \in \hat{S}\lambda({(x_i, \hat{\tau}{A_b^c}(x_i)): i \in A_b}))$。
IPSS聚合与选择：计算积分判据 $\int_\Lambda f(\hat{\pi}_{j,m}(\lambda))\mu(d\lambda) \ge \gamma$，其中 $f(x) = (2x-1)^3 1(x \ge 1/2)$。通过为每个变量分配expected false positive (efp)分数，构造满足E(FP)或FDR控制的选择集。

主要理论结果¶

Theorem 1 (选择概率渐近无偏)：估计选择概率与oracle选择概率的偏差受控于 $O(\sqrt{m} \mathbb{E}|\hat{\tau}_{A^c} - \tau|)$。
Corollary 1 (参数速率下的无偏性)：若CATE估计器达到 $\sqrt{n}$-consistent（如DR-learner），则选择概率偏差趋于0。
Theorem 2 (选择集一致性)：在CATE估计一致且子样本量 $m = o(\sqrt{n})$ 条件下，CausalStabSel选择集依概率收敛于oracle选择集。
Theorem 3 (有限样本E(FP)控制)：给出了严格的非渐近E(FP)上界，形式为IPSS的oracle上界加上由CATE估计误差引起的二阶项。

实验 / 数值仿真¶

实验设计：线性与非线性数据生成过程，$n=1000, p=100$，对比Lasso, Knockoffs, BH在honest splitting与cross-fitting下的表现。CATE估计器对比了T-learner, X-learner与DR-learner。
评估指标：真阳性率（TPR）与错误发现率（FDR）。
主要发现：
传统方法（Lasso, KO, BH结合单次cross-fitting）FDR严重失控（常超80%），而CausalStabSel有效控制FDR在名义水平之下且保持较高TPR。
DR-learner因具备半参数效率与 $\sqrt{n}$-consistency，在CausalStabSel框架下表现最优，推荐作为默认CATE估计器。
子样本量$m$较小时（留更多数据训练CATE）渐近性质更优，有限样本下推荐$m=\lfloor n/2 \rfloor$。

与研究者兴趣的关联¶

因果推断与效率理论：本文直击因果推断中的异质性分析与变量选择问题，核心理论结果直接依赖于CATE估计的半参数效率（DR-learner的 $\sqrt{n}$-consistency），是debiased ML与semiparametric efficiency bounds在"因果发现/选择"问题上的典型应用。
高维统计与假设检验：将高维变量选择中的Stability Selection拓展至因果框架，提供了类似假设检验的有限样本E(FP)控制，思路可借鉴于其他涉及nuisance function估计的高维筛选问题。

局限性与开放问题¶

强可忽略性依赖：方法依赖无未测量混淆假设，缺乏对违反此假设的sensitivity analysis，在观察研究中可能存在隐患。
子样本量限制：理论要求 $m = o(\sqrt{n})$ 以保证一致性，这在有限样本下可能限制变量选择步骤的统计功效。
Base selector的Lipschitz条件：对树模型等非线性base selector（如XGBoost MDI）的Lipschitz条件仅为高层假设，难以严格验证，缺乏非参数base selector的精细理论。

Maintained by 陈星宇 · Homepage · Source on GitHub