Domain adaptation under hidden confounding¶
作者: Carlos García Meixide, David Ríos Insua
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1214/25-ejs2474
一、核心问题与贡献¶
①研究了在跨分布数据源且存在隐藏混杂的设定下,如何实现因果参数的一致估计及目标域的条件分布对齐预测问题。②提出一种捕捉响应噪声与协变量依赖结构的新 estimand,将因果参数嵌入生成模型以自适应复现测试环境的条件分布。③在仅需一个可经验验证的假设下实现了可识别性,无需最坏情况优化即可在任意干预下实现与测试分布的概率对齐,并证明了因果参数的一致估计。
二、基础设定¶
- 核心概念与符号:
- 隐藏混杂 $U$:同时影响协变量 $X$ 和响应 $Y$ 的不可观测变量。
- 响应噪声 $\epsilon$:$Y$ 的生成机制中未被协变量解释的部分,本文允许其与 $X$ 存在依赖(打破传统独立同分布噪声假设)。
- 新 estimand:刻画 $\epsilon$ 与 $X$ 依赖结构的统计量,作为连接因果参数与预测分布的桥梁。
- 概率分布对齐:生成模型在任意干预下复现 $P_{test}(Y|X)$ 的能力。
- 关键假设:
- 可经验验证的假设:关于噪声与协方差依赖结构的特定约束(如条件二阶矩的跨域不变性或特定参数化结构),其突破在于可通过训练数据的残差分布进行统计检验,区别于传统因果发现中不可验证的图结构假设。
- 隐藏混杂存在性:明确放弃强可忽略性,承认 $U$ 的存在及 $X$ 与 $\epsilon$ 的相关性。
- 无测试时扰动强度假设:不假设源域与目标域的分布偏移有界或满足特定距离约束,区别于 Minimax 或 Distributionally Robust Optimization (DRO) 类方法。
- 问题背景:
- 现有 invariance-based 方法(如 ICP)在隐藏混杂下既无法保证因果参数的一致估计,也无法保证预测的最优性;传统 DA 方法依赖分布距离约束或最坏情况优化,泛化界在强混杂下失效。
- 区别于 Peters et al. (2016) 的 ICP(假设无混杂或直接忽略预测最优性),区别于 Rojas-Carulla et al. (2018) 的因果预测(假设完全无混杂),区别于传统 DA 的边界理论(Ben-David et al., 2010,非因果机制)。
三、主要定理 / 核心结果¶
- 可识别性定理
- 原文陈述:在可经验验证的假设下,响应噪声与协变量的依赖结构及因果参数可识别,且生成模型可唯一确定目标域条件分布 $P_{test}(Y|X)$。
- 直观解释:即使 $U$ 导致 $X$ 和 $\epsilon$ 相关,只要它们的依赖结构在跨域间满足特定可验证的约束,就可以从多源观测数据中解耦因果机制与混杂偏倚,重构目标域的预测分布。
- 解决的技术难点:打破了隐藏混杂下因果效应不可识别的僵局,将不可观测的混杂影响转化为可观测噪声与协方差的依赖结构问题。
-
适用条件与局限:依赖"可经验验证假设"的具体形式(通常涉及噪声的条件矩约束),若混杂导致该矩结构在源域间发生不可预知的非线性突变,则识别性破裂。
-
一致估计与概率对齐定理
- 原文陈述:因果参数的估计量具有一致性,且对任意干预下的测试分布,预测分布实现概率对齐。
- 直观解释:随着样本量增加,因果参数收敛至真值;且基于此生成的预测分布不仅在期望风险上最小化,更在整体分布上逼近真实测试分布,无需对未见测试环境的"恶劣程度"做保守优化。
- 解决的技术难点:克服了因果参数在预测中"已知的最优性不足"问题,通过显式建模噪声依赖,使得因果参数成为生成最优预测分布的充分统计量。
- 适用条件与局限:要求训练域的变异性足够丰富以覆盖混杂的作用模式,若测试域出现了训练域中完全不存在的混杂机制,对齐将产生偏差。
四、证明框架 / 方法设计¶
- 识别策略与估计量设计:
- 构建结构生成模型 $Y = g(X; \beta) + \epsilon(X, U)$,其中 $\beta$ 为因果参数,$\epsilon$ 允许依赖 $X$。
- 定义新 estimand 刻画 $\epsilon \mid X$ 的条件分布或矩特征,将其参数化嵌入生成模型。
- 利用多源数据拟合该依赖结构,在测试时通过调整生成模型的输入机制,输出 $P_{test}(Y|X)$。
- 核心假设的可信度分析:
- 可经验验证性是该假设的最大优势:可通过源域残差的条件矩检验(如条件异方差检验、条件独立性检验)来验证,若违背则可知模型失效。
- 潜在违背:若 $U$ 对 $Y$ 的影响与对 $X$ 的影响存在高阶交互,简单的参数化依赖结构可能欠拟合。
- 稳健性检验策略:通过模拟不同强度的隐藏混杂和分布偏移,与 ICP 及 DRO 对比目标域风险;心血管数据集上验证分布对齐的校准度。
- 计算/实现细节:涉及生成模型的参数估计,可能采用矩方法或基于似然的梯度下降,复杂度取决于依赖结构的参数化维度。
五、与研究者兴趣的关联¶
- 连接子方向:Proximal causal inference 的 negative control 设定 / 隐藏混杂下的 sensitivity analysis。
- 可借鉴的核心思路:
- 将噪声与协变量的依赖结构作为 estimand 显式建模,而非假设其独立。这为 Proximal CI 提供了新视角:无需寻找完美的 negative control 代理变量,而是将混杂导致的残差依赖结构本身视为一种可观测的"代理"进行消解。
- "可经验验证的识别条件"思路可迁移到 sensitivity analysis 中,构建基于可检验矩条件的敏感度界,取代传统不可验证的 Rosenbaum 框架。
- 值得精读的关键参考文献:
- Miao, W., et al. (2018). Identifying causal effects with proxy variables. (Proximal CI 基础,对比本文如何用噪声依赖结构替代 unobserved proxy 的角色)。
- Peters, J., et al. (2016). Causal inference using invariant prediction. (理解 invariance 原则在隐藏混杂下的失效机制及本文的修补)。
六、延伸思考与练习¶
- 假设扰动:若将"可经验验证的假设"(如条件二阶矩约束)放宽为"噪声与协方差存在未知非线性依赖",结论会如何变化?技术上需要引入非参数工具(如 RKHS 中的条件均值嵌入)来刻画无限维的依赖结构,识别性可能需要无限个源域才能保证。
- 开放问题:如何在高维协变量设定下($p \gg n$)进行这种依赖结构的估计与变量选择?是否可以结合 Double Machine Learning 框架获得噪声依赖结构的 Neyman-orthogonal 估计?
- 理解检测题:假设在两个源域中,隐藏混杂 $U$ 对 $Y$ 的影响是加性的($Y = \beta X + \gamma U + \epsilon$),且 $\epsilon \perp X$。请说明此时本文的"新 estimand"退化为传统因果推断中的什么形式?如果 $\epsilon$ 不独立于 $X$ 但独立于 $U$,该 estimand 如何利用多源数据的矩条件剥离 $\beta$ 和 $\gamma$?
Maintained by 陈星宇 · Homepage · Source on GitHub