Domain adaptation under hidden confounding¶
作者: Carlos García Meixide, David Ríos Insua
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处于因果推断与统计学习理论的交叉地带,核心要解决的根本问题是:当训练(源)环境与测试(目标)环境的数据生成分布发生偏移,且存在不可观测的隐藏混杂时,如何构建一个在目标环境下具有可验证预测性能的统计模型? 当前该方向的成熟度处于“理论框架初步成型、但核心假设与估计效率尚未收敛”的阶段:大量工作依赖线性结构方程模型(SCM)与多环境不变性,对非线性、隐藏混杂及有限环境的处理仍存在大量识别性缺口。
发展脉络: 把 intro 引用的工作串成一条线: - 奠基工作(因果不变性):Peters, Buhlmann, Meinshausen (2016) 提出 ICP(Invariant Causal Prediction),利用多环境下条件期望 \(E[Y|X]\) 的不变性做因果发现与推断。作者引用指出,ICP 奠定了“因果参数在干预下不变”的范式,但留下口子:在隐藏混杂下,ICP 可能找不到任何不变集,且因果参数对预测并非最优。 - 主要进展(分布鲁棒与锚定):Rothenhausler et al. (2018) 提出 Anchor Regression,通过最小化对锚变量(环境指示符)干预的最坏风险,在因果预测与OLS之间插值。作者引用其结论指出,因果参数仅在干预“足够强”或“足够多”时才是minimax最优的,但在弱偏移下过于保守。 - 当前 Frontier(隐藏混杂下的识别与泛化): - Christiansen et al. (2021) 与 Saengkyongam et al. (2022) 分别在分布泛化与工具变量框架下,探讨了隐藏混杂存在时的minimax最优预测,但作者指出前者依赖对干预强度的有界假设,后者依赖工具变量的独立性条件。 - Jeong & Rothenhausler (2024) 研究了随机密集偏移下的预测,作者指出这类偏移不适用于任意确定性干预的场景。 - Jin & Syrgkanis (2024) 在因果表征学习中给出识别性结果,但作者指出其要求环境数不少于潜变量节点数,在有限环境设定下不可行。
子线索聚类: 被引文献大致落在三条子线索上: 1. 不变性范式:ICP (Peters 2016), IRM (Arjovsky 2019), REx (Krueger 2020)。这一簇试图从多环境中提取跨环境不变的预测机制 \(E[Y|X]\) 或特征表示,但在隐藏混杂下不变集可能为空,且不变性不保证目标分布的对齐。 2. 分布鲁棒/Minimax 范式:Anchor Regression (Rothenhausler 2018), Causal Dantzig (Rothenhausler 2017), Christiansen et al. (2021), Cauchois et al. (2020)。这一簇通过最坏情况优化(对特定干预类或 \(f\)-散度球)寻求鲁棒性,但往往需要假设干预强度的界或偏移的稀疏性,导致在弱偏移下过于保守,在强偏移下可能失效。 3. 生成式/条件分布对齐范式:Magliacane et al. (2017) 利用因果图与do算子预测不变条件分布;Meixide & Matabuena (2023) 用RKHS嵌入做反事实生存函数估计。这一簇试图直接对齐目标环境的条件分布 \(P(Y|X)\),但以往工作多依赖已知因果图或无隐藏混杂。
这个方向在追问的核心问题: 1. 识别性缺口:在隐藏混杂与有限环境(甚至仅一个源环境)下,目标环境的条件分布 \(P^t(Y|X)\) 或其泛函是否可识别?已知瓶颈是:无混杂时因果参数可识别,但混杂下既不可识别也不最优;有混杂时多环境不变性可能崩溃。 2. 预测最优性缺口:因果参数(直接原因的回归系数)在什么干预强度下才是minimax最优的?已知瓶颈是:仅在干预极强时最优,弱干预下不如OLS或锚定回归。 3. 经验可验证性缺口:现有识别假设(如干预强度界、工具变量独立性、多环境数量)往往不可从数据中验证。已知瓶颈是:假设不可验,则模型在目标环境的预测承诺无法落地。
⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将现有困境 frame 为“因果推断与预测的两文化割裂”(引用 Breiman 2001 的“两种文化”),即因果参数因混杂不可识别且预测保守,而纯预测模型因偏移不可靠。作者声称其提出的“Generative Invariance”是“因果与预测的和解”,通过一个经验可验证的假设实现任意干预下的条件分布对齐,无需最坏情况优化或干预强度假设。 - 竞争路线被淡化或回避了:作者淡化了 Proximal Causal Inference(如 Bennett et al. 2022 被引但未在 intro 核心交锋)这条在隐藏混杂下通过代理变量实现识别的路线;也未深入讨论半参数效率界(仅引用了 Foster & Syrgkanis 2019, Javanmard & Montanari 2014 等正交学习文献作为估计工具,但未将其识别框架与半参数效率理论对接)。 - 明显该被引/该存在却未出现的:Proximal Causal Inference 系列(Tchetgen Tchetgen 等人的工作)直接处理隐藏混杂下的识别与估计,且同样依赖未观测变量的结构假设,是本文“隐藏混杂+识别性”设定的直接竞争者,但 intro 未出现。半参数效率理论(如 Bickel et al. 1993, van der Vaart 1998)在讨论条件分布泛函的估计时是标准参照,也未出现。这两条是研究者值得去查的缺口。
张力: 未见明显对立引用。但存在隐含张力:Anchor Regression 等工作主张“因果参数在强干预下minimax最优”,而本文主张“因果参数对预测次优,但可嵌入生成模型实现任意干预下的最优对齐”——两者对“因果参数的预测价值”判断相反,且本文的“任意干预对齐”承诺绕开了 Anchor Regression 的“干预强度界”假设,这构成理论前提的张力,值得研究者核验本文假设是否隐含了更强的结构约束。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号与变量:
- \(X \in \mathbb{R}^p\):可观测协变量(特征)。
- \(Y \in \mathbb{R}\):可观测响应变量。
- \(H \in \mathbb{R}^q\):不可观测的隐藏混杂因子(同时影响 \(X\) 和 \(Y\))。
- \(E \in \mathbb{R}^k\):环境指示符 / 干扰变量(可观测或已知的环境标签,如不同医院/地区)。
- \(\epsilon_Y \in \mathbb{R}\):响应噪声(\(Y\) 的内生随机扰动)。
- \(\epsilon_X \in \mathbb{R}^p\):协变量噪声(\(X\) 的内生随机扰动)。
- 参数 / estimand:
- \(\beta \in \mathbb{R}^p\):因果参数(\(X\) 对 \(Y\) 的直接因果效应系数,即结构方程中 \(X\) 的系数)。
- \(\theta\):本文的核心新 estimand(生成式不变性参数,捕捉 \(\epsilon_Y\) 与 \(X\) 的依赖结构,详见下文)。
- 指标:
- \(p\):协变量维数;\(q\):混杂维数;\(k\):环境维数;\(n\):源环境样本量。
- 模型(数据生成机制,线性 SCM 特例):
- 源环境 \(e\) 下,数据由以下线性结构方程模型生成:
- \(Y = X^T \beta + H^T \gamma + \epsilon_Y\) (\(\beta\) 是因果参数,\(\gamma\) 是混杂效应)
- \(X = B H + C E + \epsilon_X\) (\(B\) 是混杂对 \(X\) 的效应矩阵,\(C\) 是环境对 \(X\) 的效应矩阵,\(E\) 是环境指示符)
- 假设 \((H, \epsilon_Y, \epsilon_X)\) 相互独立,且 \(E\) 与 \((H, \epsilon_Y, \epsilon_X)\) 独立。
- 目标环境 \(t\) 下,环境指示符变为 \(E^t\)(可能取新值或新分布),其他结构方程系数 \((\beta, \gamma, B, C)\) 及噪声分布保持不变,但 \(X\) 的分布因 \(E^t\) 而改变。
- 可观测数据:
- 源环境:观测到 \((X, Y, E)\) 的 iid 样本 \(\{(X_i, Y_i, E_i)\}_{i=1}^n\)。\(H, \epsilon_Y, \epsilon_X\) 不可观测。
- 目标环境:仅观测到 \(X^t\) 的样本(或已知其分布/矩),无 \(Y^t\) 的观测(这是域适应的核心:目标标签缺失)。
第二步:最小内核——线性 SCM 下的生成式不变性
剥掉所有非线性与一般分布假设,支撑本文的最小内核是:在隐藏混杂的线性 SCM 中,目标环境的条件分布 \(P^t(Y|X)\) 可通过源环境数据与目标环境 \(X^t\) 的二阶矩识别,且识别公式不依赖因果参数 \(\beta\) 的单独识别,而是依赖一个复合参数 \(\theta\)。
- 最简特例(线性、单维混杂、单维环境): 设 \(p=1, q=1, k=1\)。模型为:
- \(Y = \beta X + \gamma H + \epsilon_Y\)
- \(X = b H + c E + \epsilon_X\)
- 目标环境:\(X^t = b H + c E^t + \epsilon_X\)
目标是预测 \(E^t[Y|X^t=x]\) 或对齐 \(P^t(Y|X^t)\)。由于 \(H\) 不可观测,因果参数 \(\beta\) 在单环境下不可识别(因 \(X\) 与 \(H\) 相关)。传统 OLS 回归系数 \(\beta_{OLS}^e = \beta + \gamma b \frac{Var(H)}{Var(X|E=e)}\) 随环境 \(E\) 改变,不具不变性。
本文的关键观察(最小内核命题): 在目标环境 \(t\) 下,条件期望为: \(E^t[Y|X^t=x] = \beta x + \gamma E^t[H|X^t=x]\) 由于 \(H\) 与 \(X\) 的联合分布随 \(E\) 改变,\(E^t[H|X^t=x]\) 与源环境的 \(E^e[H|X^e=x]\) 不同,因此 OLS 或 ICP 的不变条件期望假设失效。
本文的破局点:定义响应噪声 \(\epsilon_Y = Y - X^T \beta\)(注意:\(\beta\) 未知,\(\epsilon_Y\) 不可直接计算)。在目标环境下: \(\epsilon_Y^t = Y^t - X^t \beta = \gamma H + \epsilon_Y\) 关键在于 \(\epsilon_Y^t\) 与 \(X^t\) 的协方差结构: \(Cov^t(\epsilon_Y^t, X^t) = Cov^t(\gamma H + \epsilon_Y, b H + c E^t + \epsilon_X) = \gamma b Var(H)\) (利用独立性假设) 注意 \(\gamma b Var(H)\) 不依赖环境 \(E^t\)!这是本文的“生成式不变性”:混杂造成的 \(\epsilon_Y\) 与 \(X\) 的协方差跨环境不变。
利用这个不变性,目标环境的条件期望可写为: \(E^t[Y|X^t=x] = \beta x + \frac{Cov^t(\epsilon_Y^t, X^t)}{Var^t(X^t)} x = \theta^t x\) 其中 \(\theta^t = \beta + \frac{\gamma b Var(H)}{Var^t(X^t)}\)。 这里 \(\theta^t\) 是目标环境下的预测最优参数(它随 \(Var^t(X^t)\) 变化,自适应调整混杂偏差),而 \(\beta\) 是因果参数(不随环境变,但预测次优)。
识别性如何实现: \(\theta^t = \frac{Cov^t(Y, X^t)}{Var^t(X^t)}\) (展开 \(Y\) 的结构方程并利用独立性可证) 这个公式仅依赖目标环境下 \(X^t\) 的方差 \(Var^t(X^t)\) 与源环境下学到的 \(Cov^e(Y, X)\) 对 \(Var^e(X)\) 的比率,加上一个跨环境不变的混杂协方差项。在更一般的设定中,本文定义核心 estimand \(\theta\) 为捕捉 \(\epsilon_Y\) 与 \(X\) 依赖结构的参数,使得 \(P^t(Y|X^t)\) 可通过 \(\theta\) 与目标 \(X^t\) 的分布矩生成。
为什么这个内核吃劲:难点在于 \(\epsilon_Y\) 不可观测(因 \(\beta\) 不可识别),如何从源数据中识别 \(\theta\)?本文的证明路线核心就是:在经验可验证的假设下,\(\theta\) 可从源环境的条件矩中识别,且该识别不要求 \(\beta\) 的单独识别。一般情形的证明只是这个线性特例的“加壳”(推广到非线性生成模型与高维协变量)。
三、这篇论文做了什么¶
三句话: ①研究了在隐藏混杂与分布偏移下,如何构建在目标环境具有预测最优性且与目标条件分布对齐的模型; ②核心工具是提出“生成式不变性”estimand \(\theta\)(捕捉响应噪声与协变量的依赖结构),并在经验可验证假设下实现识别,结合正交估计与目标环境协变量分布实现条件分布生成; ③主要结论是:在任意干预下,条件分布 \(P^t(Y|X^t)\) 可识别且可一致估计,无需最坏情况优化或干预强度假设,仿真与心血管数据表明其目标风险低于 Anchor Regression、IRM 等不变性方法。
关键设定与假设: 在第二节最小记号的基础上补全: - 设定:源环境 \(e \in \mathcal{E}\) 下观测 \((X^e, Y^e, E^e)\),目标环境 \(t\) 下仅观测 \(X^t\)(或其分布)。存在隐藏混杂 \(H\),SCM 允许非线性(\(Y = f(X, H; \beta) + \epsilon_Y\),\(X = g(H, E; \alpha) + \epsilon_X\)),但要求噪声可加。 - 核心假设: 1. SCM 结构不变性:跨环境仅 \(E\) 的分布/值改变,结构函数 \(f, g\) 与噪声分布不变。 2. 独立性假设:\((H, \epsilon_Y, \epsilon_X)\) 相互独立,且 \(E\) 与 \((H, \epsilon_Y, \epsilon_X)\) 独立。 3. 经验可验证假设(Empirical Verifiability Assumption, EVA):这是本文最核心的新假设。其统计含义是:存在某个可观测的环境指示符 \(E\) 的子集或变换,使得在源数据中,\(\epsilon_Y\) 与 \(X\) 的依赖结构(由 \(\theta\) 捕捉)可通过 \(E\) 的变异被经验地检验或识别。具体地,EVA 要求:源环境中 \(X\) 的条件分布 \(P(X|E)\) 的变异性,足以暴露 \(\epsilon_Y\) 与 \(X\) 的混杂依赖结构,使得 \(\theta\) 可从 \(E[Y|X, E]\) 与 \(E[X|E]\) 的矩中识别,而不需观测 \(H\)。相比已有文献(如 ICP 要求多环境不变集存在,Anchor Regression 要求锚变量可观测),EVA 放宽了对环境数量与干预强度的要求,但强化了对 \(E\) 与 \(X\) 关系的结构约束(\(E\) 必须引起 \(X\) 的足够变异以解耦混杂效应)。 4. 目标环境协变量可观测:\(X^t\) 的分布(或其二阶矩)可从目标样本中估计。
主要结果: - 定理 1(识别性):在 SCM 与 EVA 假设下,目标环境的条件分布 \(P^t(Y|X^t)\) 可通过源环境学到的参数 \(\theta\) 与目标环境 \(X^t\) 的分布识别。直觉:\(\theta\) 捕捉了 \(\epsilon_Y\) 与 \(X\) 的跨环境不变依赖结构,结合 \(X^t\) 的分布可生成 \(P^t(\epsilon_Y|X^t)\),进而生成 \(P^t(Y|X^t)\)。必要条件是 EVA 成立(源环境 \(E\) 的变异足够)。解决的技术难点是:在 \(\beta\) 不可识别(因隐藏混杂)的情况下,绕过 \(\beta\) 的识别,直接识别复合参数 \(\theta\)。 - 定理 2(估计一致性):基于正交估计(Neyman-orthogonality)与样本分割,本文提出的 \(\theta\) 估计器 \(\hat{\theta}\) 在源样本量 \(n \to \infty\) 与目标样本量 \(m \to \infty\) 下,一致估计目标条件分布 \(P^t(Y|X^t)\) 的泛函(如条件期望)。直觉:正交性消除了 nuisance 参数(如 \(E[X|E]\) 的估计误差)对 \(\theta\) 估计的一阶影响,保证 \(\sqrt{n}\)-rate 收敛(在低维设定下)或更慢的收敛率(在高维设定下依赖 nuisance 估计率)。
证明路线与技术技巧: - 整体路线: 1. 定义 estimand \(\theta\):将 \(\epsilon_Y\) 与 \(X\) 的依赖结构参数化为 \(\theta\)(在线性情形下为协方差比率,非线性下为条件矩泛函)。 2. 证明 \(\theta\) 的跨环境不变性:利用 SCM 独立性假设,证明 \(Cov(\epsilon_Y, X)\) 或其非线性推广不随 \(E\) 改变。 3. 在 EVA 下证明 \(\theta\) 的识别性:通过源环境中 \(E[Y|X, E]\) 对 \(E\) 的变异,解耦 \(\beta\) 与混杂效应,构造仅依赖可观测矩的识别公式。 4. 正交化估计 \(\theta\):构造 Neyman-正交矩条件,消除 nuisance 估计误差的一阶影响。 5. 生成目标条件分布:将 \(\hat{\theta}\) 与目标环境 \(X^t\) 的分布矩结合,生成 \(\hat{E}^t[Y|X^t]\) 或 \(\hat{P}^t(Y|X^t)\)。 - 关键跳跃点: - 从 \(\beta\) 不可识别到 \(\theta\) 可识别的跳跃:这是本文最吃功夫的地方。难点卡在:\(\epsilon_Y = Y - X\beta\) 依赖未知 \(\beta\),如何从数据中提取 \(\epsilon_Y\) 与 \(X\) 的结构?作者利用 EVA 假设,在源环境中通过 \(E\) 对 \(X\) 的干预变异,将 \(E[Y|X, E]\) 分解为因果效应 \(\beta X\) 与混杂效应 \(\theta(E)\) 的叠加,从而在不识别 \(\beta\) 的情况下,直接识别混杂效应的跨环境不变结构 \(\theta\)。 - 技术技巧点名: - Neyman-orthogonality / Debiasing:用于 \(\theta\) 的估计,消除 nuisance(如 \(E[X|E]\) 的估计)对目标参数的一阶影响(引用 Foster & Syrgkanis 2023, Vansteelandt & Morzywołek 2023)。 - Concentration of measure / Random matrix theory:用于高维设定下 nuisance 估计的误差界(引用 Vershynin 2018 的子高斯集中不等式,Lemma A.3)。 - 生成模型 / 条件分布对齐:将 \(\theta\) 嵌入生成模型,通过调整 \(\epsilon_Y\) 的分布与 \(X^t\) 的对齐,实现 \(P^t(Y|X^t)\) 的生成(类似 GAN 或 VAE 的条件分布生成思路,但本文未显式使用深度生成网络,而是基于矩生成)。 - Sample splitting / Cross-fitting:用于正交估计的样本分割,避免过拟合导致的正交性失效(标准 Double ML 路线)。
真实例子与应用: - 心血管疾病数据:数据来源为 Ordovás et al. (2021) 的 Bayesian network 心血管风险数据集(包含可修改与不可修改风险因子及医疗条件)。本文将不同地区/人群作为不同环境 \(E\),将某些风险因子作为隐藏混杂 \(H\) 的代理,将目标环境设为某特定人群的子集。应用方式:在源环境(多地区数据)上估计 \(\theta\),在目标环境(仅观测该人群的风险因子 \(X^t\))上生成条件分布 \(P^t(Y|X^t)\),预测心血管风险。结果:本文方法在目标风险(Target Risk,即目标环境下的预测误差)上低于 Anchor Regression、IRM、CIRM 等基线,尤其在目标环境与源环境分布偏移较大时优势明显。这个例子想说明:在真实分布偏移与潜在混杂下,生成式不变性比最坏情况优化或不变性方法更贴近目标分布。 - 仿真实验:复现 Chen & Buhlmann (2021) 的仿真设定(线性 SCM,\(p=10\),\(Z=11\) 个训练环境),加入隐藏混杂。结果表明:在混杂强度中等、环境数有限时,本文方法的目标风险低于 CIRM、Anchor Regression、IRM;在环境数极少(1-2个源环境)且 EVA 成立时,本文方法仍可识别,而 ICP/IRM 失效。
🔎 结论是否比证明窄: - 本文在定理陈述中严格证明了 \(\theta\) 的识别性与估计一致性,但在 abstract 与 intro 中泛泛 claim 了“确保因果参数的一致估计”与“在任意干预下实现概率对齐”。严格证明中,因果参数 \(\beta\) 本身并未被证明可一致估计(文中明确承认 \(\beta\) 在隐藏混杂下不可识别),被一致估计的是复合参数 \(\theta\)。这个 claim 的泛化需研究者核验:\(\theta\) 的一致估计是否等价于“因果参数的某种泛函的一致估计”,还是仅指“预测参数的一致估计”? - 另一处泛泛 claim:“无需假设干预强度”。严格证明中,EVA 假设隐含了对 \(E\) 引起 \(X\) 变异的强度要求(若 \(E\) 对 \(X\) 的干预太弱,\(X\) 的变异不足以解耦混杂,EVA 不成立),因此“无干预强度假设”的 claim 仅相对于 Anchor Regression 的显式强度界成立,但 EVA 本身隐含了强度约束。
四、开放问题(点到为止,扎根具体语句)¶
- EVA 假设的必要性检验与弱化:本文识别性依赖 EVA(源环境 \(E\) 的变异足够解耦混杂),但 EVA 的经验验证方法仅在高维/多环境设定下通过条件矩检验近似实现。在单源环境或 \(E\) 维度极低时,EVA 可能不可验。要证:在何种最小 \(E\) 维度或环境数下,EVA 可被非参数检验验证?扎根点:Section 3.2 对 EVA 的定义及“empirical verifiability”的讨论。
- 半参数效率界与收敛率:本文给出了 \(\theta\) 的一致性,但未给出半参数效率界或最优收敛率。要估:在 nuisance 参数(\(E[X|E]\) 等)属于非参数类时,\(\theta\) 估计的 minimax 收敛率是多少?正交估计是否达到该界?扎根点:Section 4 的估计一致性定理,仅给出 upper bound,未与 lower bound 对比。
- Proximal CI 与生成式不变性的识别性对比:本文回避了 Proximal Causal Inference(利用代理变量处理隐藏混杂)的路线。要证:在 Proximal CI 的代理变量假设(如 unconfoundedness of proxies)下,\(\theta\) 的识别公式是否等价于 Proximal 的识别公式?若不等价,哪条假设更强?扎根点:Intro 对隐藏混杂识别的讨论,未出现 Proximal CI 引用。
- 非线性 SCM 下的 \(\theta\) 参数化:本文在非线性 SCM 下将 \(\theta\) 参数化为条件矩泛函,但未显式给出非参数 \(\theta\) 的估计路线(仅讨论了线性与部分非线性特例)。要算:在完全非参数 SCM 下,\(\theta\) 的估计如何实现?是否需要 RKHS 嵌入或神经网络生成模型?扎根点:Section 2.2 对非线性模型的推广,及 Section 4 估计部分对线性情形的聚焦。
Maintained by 陈星宇 · Homepage · Source on GitHub