A causal fused lasso for interpretable heterogeneous treatment effects estimation¶

作者: Oscar Hernan Madrid Padilla, Yanzhen Chen, Carlos Misael Madrid Padilla, Gabriel Ruiz
来源: JMLR
主题: 因果推断
相关性: 8/10
链接: https://www.jmlr.org/papers/v27/23-0535.html

核心问题与动机¶

本文要解决异质性处理效应（HTE）的可解释性估计问题。在因果推断中，识别具有不同处理效应的亚组对决策至关重要。现有基于倾向得分或预后得分离散化的方法虽然能提供可解释的亚组效应，但亚组划分是先验固定的，无法自适应地反映数据中真实的异质性结构，导致估计僵化且可能引入偏差。

主要贡献¶

提出Causal Fused Lasso方法，将全变差惩罚引入因果推断，实现数据驱动的自适应亚组划分。
突破传统先验分箱的限制，通过惩罚相邻排序单元效应的一阶差分，自动生成分段常数的处理效应估计。
在非常一般的协变量和处理分配条件下，证明了条件处理效应估计的相合性。
兼顾了SOTA方法的预测精度与亚组发现的可解释性。

方法框架¶

模型设定：观测数据 ${(X_i, A_i, Y_i)}_{i=1}^n$，其中 $X$ 为协变量，$A$ 为二值处理，$Y$ 为结果。目标：估计条件平均处理效应 $\tau(x) = E[Y(1)-Y(0)|X=x]$。
关键假设：
无混淆性：处理分配与潜在结果条件独立于协变量（依赖倾向得分或预后得分进行匹配的前提）。
重叠假设：倾向得分远离0和1。
方法步骤：
得分排序：估计倾向得分 $e(X)$ 或预后得分 $m(X)$，并按该一维得分对样本进行排序。
样本匹配：基于排序结果，将处理组和控制组单元进行匹配（构造伪样本对或差分）。
Fused Lasso 惩罚估计：对排序后的单元估计处理效应 $\tau_i$，优化目标为： $$ \min_{\tau_1,\dots,\tau_n} \sum_{i=1}^n (Z_i - \tau_i)^2 + \lambda \sum_{i=2}^n |\tau_i - \tau_{i-1}| $$ 其中 $Z_i$ 为匹配后的差分响应（或基于权重构造的伪观测），$\lambda$ 控制分段常数结构的平滑度。

主要理论结果¶

相合性：在一般协变量与处理分配条件下，证明了基于 Fused Lasso 的条件处理效应估计量是相合的。
隐含的收敛性质：Fused Lasso 属于非参数全变差惩罚估计，理论上对分段常数信号具备极小极大最优性，其收敛速率通常为 $O(n^{-1} \log n)$ 级别（在真实效应为分段常数时），但文中侧重于一般条件下的点态相合性证明。

实验 / 数值仿真¶

实验设计：广泛仿真，对比不同数据生成过程下的表现。
基线方法：Causal Trees, Meta-learners 等现有 SOTA 方法及先验分箱方法。
评估指标：HTE 估计的均方误差（MSE），亚组划分的可解释性（恢复真实断点的能力）。
主要发现：Causal Fused Lasso 在 MSE 上与 SOTA 方法具有竞争力，且能够精准定位处理效应的跳变点，形成具有实际意义的、数据驱动的亚组，可解释性远超连续平滑方法。

与研究者兴趣的关联¶

因果推断：直接关联 HTE 估计与亚组发现，提供了一种不依赖树模型的替代性可解释框架。
半参数与非参数理论：Fused Lasso 本质上是全变差正则化，属于非参数回归中的趋势滤波家族，其理论分析涉及局部多项式与经验过程。
统计计算：Fused Lasso 的求解可转化为对偶问题或利用 ADMM 算法高效求解，涉及大规模稀疏矩阵/图拉普拉斯算法，与研究者对数值方法的兴趣契合。

局限性与开放问题¶

一维投影的信息损失：方法严重依赖将高维协变量压缩至一维得分（倾向/预后得分）进行排序，若异质性存在于该一维得分的水平集之外，方法将失效。
高维协变量挑战：当协变量维度极高时，第一步得分模型的估计误差如何影响后续 Fused Lasso 的渐近性质（是否需要 debiased 技巧修正）尚未探讨。
开放问题：能否将一维排序推广至基于图结构的 Fused Lasso（如基于 k-NN 图的惩罚），以捕捉多变量交互产生的复杂异质性？在纵向数据或存在未观测混淆时，如何结合 Proximal/IV 框架进行自适应亚组发现？

Maintained by 陈星宇 · Homepage · Source on GitHub