Domain adaptation under hidden confounding¶

作者: Carlos García Meixide, David Ríos Insua
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1214/25-ejs2474

一、核心问题与贡献¶

①研究了在跨分布数据源且存在隐藏混杂的设定下，如何实现因果参数的一致估计及目标域的条件分布对齐预测问题。②提出一种捕捉响应噪声与协变量依赖结构的新 estimand，将因果参数嵌入生成模型以自适应复现测试环境的条件分布。③在仅需一个可经验验证的假设下实现了可识别性，无需最坏情况优化即可在任意干预下实现与测试分布的概率对齐，并证明了因果参数的一致估计。

二、基础设定¶

核心概念与符号：
隐藏混杂 $U$：同时影响协变量 $X$ 和响应 $Y$ 的不可观测变量。
响应噪声 $\epsilon$：$Y$ 的生成机制中未被协变量解释的部分，本文允许其与 $X$ 存在依赖（打破传统独立同分布噪声假设）。
新 estimand：刻画 $\epsilon$ 与 $X$ 依赖结构的统计量，作为连接因果参数与预测分布的桥梁。
概率分布对齐：生成模型在任意干预下复现 $P_{test}(Y|X)$ 的能力。
关键假设：
可经验验证的假设：关于噪声与协方差依赖结构的特定约束（如条件二阶矩的跨域不变性或特定参数化结构），其突破在于可通过训练数据的残差分布进行统计检验，区别于传统因果发现中不可验证的图结构假设。
隐藏混杂存在性：明确放弃强可忽略性，承认 $U$ 的存在及 $X$ 与 $\epsilon$ 的相关性。
无测试时扰动强度假设：不假设源域与目标域的分布偏移有界或满足特定距离约束，区别于 Minimax 或 Distributionally Robust Optimization (DRO) 类方法。
问题背景：
现有 invariance-based 方法（如 ICP）在隐藏混杂下既无法保证因果参数的一致估计，也无法保证预测的最优性；传统 DA 方法依赖分布距离约束或最坏情况优化，泛化界在强混杂下失效。
区别于 Peters et al. (2016) 的 ICP（假设无混杂或直接忽略预测最优性），区别于 Rojas-Carulla et al. (2018) 的因果预测（假设完全无混杂），区别于传统 DA 的边界理论（Ben-David et al., 2010，非因果机制）。

三、主要定理 / 核心结果¶

可识别性定理
原文陈述：在可经验验证的假设下，响应噪声与协变量的依赖结构及因果参数可识别，且生成模型可唯一确定目标域条件分布 $P_{test}(Y|X)$。
直观解释：即使 $U$ 导致 $X$ 和 $\epsilon$ 相关，只要它们的依赖结构在跨域间满足特定可验证的约束，就可以从多源观测数据中解耦因果机制与混杂偏倚，重构目标域的预测分布。
解决的技术难点：打破了隐藏混杂下因果效应不可识别的僵局，将不可观测的混杂影响转化为可观测噪声与协方差的依赖结构问题。
适用条件与局限：依赖"可经验验证假设"的具体形式（通常涉及噪声的条件矩约束），若混杂导致该矩结构在源域间发生不可预知的非线性突变，则识别性破裂。
一致估计与概率对齐定理
原文陈述：因果参数的估计量具有一致性，且对任意干预下的测试分布，预测分布实现概率对齐。
直观解释：随着样本量增加，因果参数收敛至真值；且基于此生成的预测分布不仅在期望风险上最小化，更在整体分布上逼近真实测试分布，无需对未见测试环境的"恶劣程度"做保守优化。
解决的技术难点：克服了因果参数在预测中"已知的最优性不足"问题，通过显式建模噪声依赖，使得因果参数成为生成最优预测分布的充分统计量。
适用条件与局限：要求训练域的变异性足够丰富以覆盖混杂的作用模式，若测试域出现了训练域中完全不存在的混杂机制，对齐将产生偏差。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
构建结构生成模型 $Y = g(X; \beta) + \epsilon(X, U)$，其中 $\beta$ 为因果参数，$\epsilon$ 允许依赖 $X$。
定义新 estimand 刻画 $\epsilon \mid X$ 的条件分布或矩特征，将其参数化嵌入生成模型。
利用多源数据拟合该依赖结构，在测试时通过调整生成模型的输入机制，输出 $P_{test}(Y|X)$。
核心假设的可信度分析：
可经验验证性是该假设的最大优势：可通过源域残差的条件矩检验（如条件异方差检验、条件独立性检验）来验证，若违背则可知模型失效。
潜在违背：若 $U$ 对 $Y$ 的影响与对 $X$ 的影响存在高阶交互，简单的参数化依赖结构可能欠拟合。
稳健性检验策略：通过模拟不同强度的隐藏混杂和分布偏移，与 ICP 及 DRO 对比目标域风险；心血管数据集上验证分布对齐的校准度。
计算/实现细节：涉及生成模型的参数估计，可能采用矩方法或基于似然的梯度下降，复杂度取决于依赖结构的参数化维度。

五、与研究者兴趣的关联¶

连接子方向：Proximal causal inference 的 negative control 设定 / 隐藏混杂下的 sensitivity analysis。
可借鉴的核心思路：
将噪声与协变量的依赖结构作为 estimand 显式建模，而非假设其独立。这为 Proximal CI 提供了新视角：无需寻找完美的 negative control 代理变量，而是将混杂导致的残差依赖结构本身视为一种可观测的"代理"进行消解。
"可经验验证的识别条件"思路可迁移到 sensitivity analysis 中，构建基于可检验矩条件的敏感度界，取代传统不可验证的 Rosenbaum 框架。
值得精读的关键参考文献：
Miao, W., et al. (2018). Identifying causal effects with proxy variables. (Proximal CI 基础，对比本文如何用噪声依赖结构替代 unobserved proxy 的角色)。
Peters, J., et al. (2016). Causal inference using invariant prediction. (理解 invariance 原则在隐藏混杂下的失效机制及本文的修补)。

六、延伸思考与练习¶

假设扰动：若将"可经验验证的假设"（如条件二阶矩约束）放宽为"噪声与协方差存在未知非线性依赖"，结论会如何变化？技术上需要引入非参数工具（如 RKHS 中的条件均值嵌入）来刻画无限维的依赖结构，识别性可能需要无限个源域才能保证。
开放问题：如何在高维协变量设定下（$p \gg n$）进行这种依赖结构的估计与变量选择？是否可以结合 Double Machine Learning 框架获得噪声依赖结构的 Neyman-orthogonal 估计？
理解检测题：假设在两个源域中，隐藏混杂 $U$ 对 $Y$ 的影响是加性的（$Y = \beta X + \gamma U + \epsilon$），且 $\epsilon \perp X$。请说明此时本文的"新 estimand"退化为传统因果推断中的什么形式？如果 $\epsilon$ 不独立于 $X$ 但独立于 $U$，该 estimand 如何利用多源数据的矩条件剥离 $\beta$ 和 $\gamma$？

Maintained by 陈星宇 · Homepage · Source on GitHub