Domain adaptation under hidden confounding¶

作者: Carlos García Meixide, David Ríos Insua
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向处于因果推断与统计学习理论的交叉地带，核心要解决的根本问题是：当训练（源）环境与测试（目标）环境的数据生成分布发生偏移，且存在不可观测的隐藏混杂时，如何构建一个在目标环境下具有可验证预测性能的统计模型？当前该方向的成熟度处于“理论框架初步成型、但核心假设与估计效率尚未收敛”的阶段：大量工作依赖线性结构方程模型（SCM）与多环境不变性，对非线性、隐藏混杂及有限环境的处理仍存在大量识别性缺口。

发展脉络：把 intro 引用的工作串成一条线： - 奠基工作（因果不变性）：Peters, Buhlmann, Meinshausen (2016) 提出 ICP（Invariant Causal Prediction），利用多环境下条件期望 \(E[Y|X]\) 的不变性做因果发现与推断。作者引用指出，ICP 奠定了“因果参数在干预下不变”的范式，但留下口子：在隐藏混杂下，ICP 可能找不到任何不变集，且因果参数对预测并非最优。 - 主要进展（分布鲁棒与锚定）：Rothenhausler et al. (2018) 提出 Anchor Regression，通过最小化对锚变量（环境指示符）干预的最坏风险，在因果预测与OLS之间插值。作者引用其结论指出，因果参数仅在干预“足够强”或“足够多”时才是minimax最优的，但在弱偏移下过于保守。 - 当前 Frontier（隐藏混杂下的识别与泛化）： - Christiansen et al. (2021) 与 Saengkyongam et al. (2022) 分别在分布泛化与工具变量框架下，探讨了隐藏混杂存在时的minimax最优预测，但作者指出前者依赖对干预强度的有界假设，后者依赖工具变量的独立性条件。 - Jeong & Rothenhausler (2024) 研究了随机密集偏移下的预测，作者指出这类偏移不适用于任意确定性干预的场景。 - Jin & Syrgkanis (2024) 在因果表征学习中给出识别性结果，但作者指出其要求环境数不少于潜变量节点数，在有限环境设定下不可行。

子线索聚类：被引文献大致落在三条子线索上： 1. 不变性范式：ICP (Peters 2016), IRM (Arjovsky 2019), REx (Krueger 2020)。这一簇试图从多环境中提取跨环境不变的预测机制 \(E[Y|X]\) 或特征表示，但在隐藏混杂下不变集可能为空，且不变性不保证目标分布的对齐。 2. 分布鲁棒/Minimax 范式：Anchor Regression (Rothenhausler 2018), Causal Dantzig (Rothenhausler 2017), Christiansen et al. (2021), Cauchois et al. (2020)。这一簇通过最坏情况优化（对特定干预类或 \(f\)-散度球）寻求鲁棒性，但往往需要假设干预强度的界或偏移的稀疏性，导致在弱偏移下过于保守，在强偏移下可能失效。 3. 生成式/条件分布对齐范式：Magliacane et al. (2017) 利用因果图与do算子预测不变条件分布；Meixide & Matabuena (2023) 用RKHS嵌入做反事实生存函数估计。这一簇试图直接对齐目标环境的条件分布 \(P(Y|X)\)，但以往工作多依赖已知因果图或无隐藏混杂。

这个方向在追问的核心问题： 1. 识别性缺口：在隐藏混杂与有限环境（甚至仅一个源环境）下，目标环境的条件分布 \(P^t(Y|X)\) 或其泛函是否可识别？已知瓶颈是：无混杂时因果参数可识别，但混杂下既不可识别也不最优；有混杂时多环境不变性可能崩溃。 2. 预测最优性缺口：因果参数（直接原因的回归系数）在什么干预强度下才是minimax最优的？已知瓶颈是：仅在干预极强时最优，弱干预下不如OLS或锚定回归。 3. 经验可验证性缺口：现有识别假设（如干预强度界、工具变量独立性、多环境数量）往往不可从数据中验证。已知瓶颈是：假设不可验，则模型在目标环境的预测承诺无法落地。

⚠️ 作者的 framing： - 作者把缺口 frame 成什么：作者将现有困境 frame 为“因果推断与预测的两文化割裂”（引用 Breiman 2001 的“两种文化”），即因果参数因混杂不可识别且预测保守，而纯预测模型因偏移不可靠。作者声称其提出的“Generative Invariance”是“因果与预测的和解”，通过一个经验可验证的假设实现任意干预下的条件分布对齐，无需最坏情况优化或干预强度假设。 - 竞争路线被淡化或回避了：作者淡化了 Proximal Causal Inference（如 Bennett et al. 2022 被引但未在 intro 核心交锋）这条在隐藏混杂下通过代理变量实现识别的路线；也未深入讨论半参数效率界（仅引用了 Foster & Syrgkanis 2019, Javanmard & Montanari 2014 等正交学习文献作为估计工具，但未将其识别框架与半参数效率理论对接）。 - 明显该被引/该存在却未出现的：Proximal Causal Inference 系列（Tchetgen Tchetgen 等人的工作）直接处理隐藏混杂下的识别与估计，且同样依赖未观测变量的结构假设，是本文“隐藏混杂+识别性”设定的直接竞争者，但 intro 未出现。半参数效率理论（如 Bickel et al. 1993, van der Vaart 1998）在讨论条件分布泛函的估计时是标准参照，也未出现。这两条是研究者值得去查的缺口。

张力：未见明显对立引用。但存在隐含张力：Anchor Regression 等工作主张“因果参数在强干预下minimax最优”，而本文主张“因果参数对预测次优，但可嵌入生成模型实现任意干预下的最优对齐”——两者对“因果参数的预测价值”判断相反，且本文的“任意干预对齐”承诺绕开了 Anchor Regression 的“干预强度界”假设，这构成理论前提的张力，值得研究者核验本文假设是否隐含了更强的结构约束。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与变量：
\(X \in \mathbb{R}^p\)：可观测协变量（特征）。
\(Y \in \mathbb{R}\)：可观测响应变量。
\(H \in \mathbb{R}^q\)：不可观测的隐藏混杂因子（同时影响 \(X\) 和 \(Y\)）。
\(E \in \mathbb{R}^k\)：环境指示符 / 干扰变量（可观测或已知的环境标签，如不同医院/地区）。
\(\epsilon_Y \in \mathbb{R}\)：响应噪声（\(Y\) 的内生随机扰动）。
\(\epsilon_X \in \mathbb{R}^p\)：协变量噪声（\(X\) 的内生随机扰动）。
参数 / estimand：
\(\beta \in \mathbb{R}^p\)：因果参数（\(X\) 对 \(Y\) 的直接因果效应系数，即结构方程中 \(X\) 的系数）。
\(\theta\)：本文的核心新 estimand（生成式不变性参数，捕捉 \(\epsilon_Y\) 与 \(X\) 的依赖结构，详见下文）。
指标：
\(p\)：协变量维数；\(q\)：混杂维数；\(k\)：环境维数；\(n\)：源环境样本量。
模型（数据生成机制，线性 SCM 特例）：
源环境 \(e\) 下，数据由以下线性结构方程模型生成：
- \(Y = X^T \beta + H^T \gamma + \epsilon_Y\) （\(\beta\) 是因果参数，\(\gamma\) 是混杂效应）
- \(X = B H + C E + \epsilon_X\) （\(B\) 是混杂对 \(X\) 的效应矩阵，\(C\) 是环境对 \(X\) 的效应矩阵，\(E\) 是环境指示符）
假设 \((H, \epsilon_Y, \epsilon_X)\) 相互独立，且 \(E\) 与 \((H, \epsilon_Y, \epsilon_X)\) 独立。
目标环境 \(t\) 下，环境指示符变为 \(E^t\)（可能取新值或新分布），其他结构方程系数 \((\beta, \gamma, B, C)\) 及噪声分布保持不变，但 \(X\) 的分布因 \(E^t\) 而改变。
可观测数据：
源环境：观测到 \((X, Y, E)\) 的 iid 样本 \(\{(X_i, Y_i, E_i)\}_{i=1}^n\)。\(H, \epsilon_Y, \epsilon_X\) 不可观测。
目标环境：仅观测到 \(X^t\) 的样本（或已知其分布/矩），无 \(Y^t\) 的观测（这是域适应的核心：目标标签缺失）。

第二步：最小内核——线性 SCM 下的生成式不变性

剥掉所有非线性与一般分布假设，支撑本文的最小内核是：在隐藏混杂的线性 SCM 中，目标环境的条件分布 \(P^t(Y|X)\) 可通过源环境数据与目标环境 \(X^t\) 的二阶矩识别，且识别公式不依赖因果参数 \(\beta\) 的单独识别，而是依赖一个复合参数 \(\theta\)。

最简特例（线性、单维混杂、单维环境）：设 \(p=1, q=1, k=1\)。模型为：
\(Y = \beta X + \gamma H + \epsilon_Y\)
\(X = b H + c E + \epsilon_X\)
目标环境：\(X^t = b H + c E^t + \epsilon_X\)

目标是预测 \(E^t[Y|X^t=x]\) 或对齐 \(P^t(Y|X^t)\)。由于 \(H\) 不可观测，因果参数 \(\beta\) 在单环境下不可识别（因 \(X\) 与 \(H\) 相关）。传统 OLS 回归系数 \(\beta_{OLS}^e = \beta + \gamma b \frac{Var(H)}{Var(X|E=e)}\) 随环境 \(E\) 改变，不具不变性。

本文的关键观察（最小内核命题）：在目标环境 \(t\) 下，条件期望为： \(E^t[Y|X^t=x] = \beta x + \gamma E^t[H|X^t=x]\) 由于 \(H\) 与 \(X\) 的联合分布随 \(E\) 改变，\(E^t[H|X^t=x]\) 与源环境的 \(E^e[H|X^e=x]\) 不同，因此 OLS 或 ICP 的不变条件期望假设失效。

本文的破局点：定义响应噪声 \(\epsilon_Y = Y - X^T \beta\)（注意：\(\beta\) 未知，\(\epsilon_Y\) 不可直接计算）。在目标环境下： \(\epsilon_Y^t = Y^t - X^t \beta = \gamma H + \epsilon_Y\) 关键在于 \(\epsilon_Y^t\) 与 \(X^t\) 的协方差结构： \(Cov^t(\epsilon_Y^t, X^t) = Cov^t(\gamma H + \epsilon_Y, b H + c E^t + \epsilon_X) = \gamma b Var(H)\) （利用独立性假设）注意 \(\gamma b Var(H)\) 不依赖环境 \(E^t\)！这是本文的“生成式不变性”：混杂造成的 \(\epsilon_Y\) 与 \(X\) 的协方差跨环境不变。

利用这个不变性，目标环境的条件期望可写为： \(E^t[Y|X^t=x] = \beta x + \frac{Cov^t(\epsilon_Y^t, X^t)}{Var^t(X^t)} x = \theta^t x\) 其中 \(\theta^t = \beta + \frac{\gamma b Var(H)}{Var^t(X^t)}\)。这里 \(\theta^t\) 是目标环境下的预测最优参数（它随 \(Var^t(X^t)\) 变化，自适应调整混杂偏差），而 \(\beta\) 是因果参数（不随环境变，但预测次优）。

识别性如何实现： \(\theta^t = \frac{Cov^t(Y, X^t)}{Var^t(X^t)}\) （展开 \(Y\) 的结构方程并利用独立性可证）这个公式仅依赖目标环境下 \(X^t\) 的方差 \(Var^t(X^t)\) 与源环境下学到的 \(Cov^e(Y, X)\) 对 \(Var^e(X)\) 的比率，加上一个跨环境不变的混杂协方差项。在更一般的设定中，本文定义核心 estimand \(\theta\) 为捕捉 \(\epsilon_Y\) 与 \(X\) 依赖结构的参数，使得 \(P^t(Y|X^t)\) 可通过 \(\theta\) 与目标 \(X^t\) 的分布矩生成。

为什么这个内核吃劲：难点在于 \(\epsilon_Y\) 不可观测（因 \(\beta\) 不可识别），如何从源数据中识别 \(\theta\)？本文的证明路线核心就是：在经验可验证的假设下，\(\theta\) 可从源环境的条件矩中识别，且该识别不要求 \(\beta\) 的单独识别。一般情形的证明只是这个线性特例的“加壳”（推广到非线性生成模型与高维协变量）。

三、这篇论文做了什么¶

三句话： ①研究了在隐藏混杂与分布偏移下，如何构建在目标环境具有预测最优性且与目标条件分布对齐的模型； ②核心工具是提出“生成式不变性”estimand \(\theta\)（捕捉响应噪声与协变量的依赖结构），并在经验可验证假设下实现识别，结合正交估计与目标环境协变量分布实现条件分布生成； ③主要结论是：在任意干预下，条件分布 \(P^t(Y|X^t)\) 可识别且可一致估计，无需最坏情况优化或干预强度假设，仿真与心血管数据表明其目标风险低于 Anchor Regression、IRM 等不变性方法。

关键设定与假设：在第二节最小记号的基础上补全： - 设定：源环境 \(e \in \mathcal{E}\) 下观测 \((X^e, Y^e, E^e)\)，目标环境 \(t\) 下仅观测 \(X^t\)（或其分布）。存在隐藏混杂 \(H\)，SCM 允许非线性（\(Y = f(X, H; \beta) + \epsilon_Y\)，\(X = g(H, E; \alpha) + \epsilon_X\)），但要求噪声可加。 - 核心假设： 1. SCM 结构不变性：跨环境仅 \(E\) 的分布/值改变，结构函数 \(f, g\) 与噪声分布不变。 2. 独立性假设：\((H, \epsilon_Y, \epsilon_X)\) 相互独立，且 \(E\) 与 \((H, \epsilon_Y, \epsilon_X)\) 独立。 3. 经验可验证假设（Empirical Verifiability Assumption, EVA）：这是本文最核心的新假设。其统计含义是：存在某个可观测的环境指示符 \(E\) 的子集或变换，使得在源数据中，\(\epsilon_Y\) 与 \(X\) 的依赖结构（由 \(\theta\) 捕捉）可通过 \(E\) 的变异被经验地检验或识别。具体地，EVA 要求：源环境中 \(X\) 的条件分布 \(P(X|E)\) 的变异性，足以暴露 \(\epsilon_Y\) 与 \(X\) 的混杂依赖结构，使得 \(\theta\) 可从 \(E[Y|X, E]\) 与 \(E[X|E]\) 的矩中识别，而不需观测 \(H\)。相比已有文献（如 ICP 要求多环境不变集存在，Anchor Regression 要求锚变量可观测），EVA 放宽了对环境数量与干预强度的要求，但强化了对 \(E\) 与 \(X\) 关系的结构约束（\(E\) 必须引起 \(X\) 的足够变异以解耦混杂效应）。 4. 目标环境协变量可观测：\(X^t\) 的分布（或其二阶矩）可从目标样本中估计。

主要结果： - 定理 1（识别性）：在 SCM 与 EVA 假设下，目标环境的条件分布 \(P^t(Y|X^t)\) 可通过源环境学到的参数 \(\theta\) 与目标环境 \(X^t\) 的分布识别。直觉：\(\theta\) 捕捉了 \(\epsilon_Y\) 与 \(X\) 的跨环境不变依赖结构，结合 \(X^t\) 的分布可生成 \(P^t(\epsilon_Y|X^t)\)，进而生成 \(P^t(Y|X^t)\)。必要条件是 EVA 成立（源环境 \(E\) 的变异足够）。解决的技术难点是：在 \(\beta\) 不可识别（因隐藏混杂）的情况下，绕过 \(\beta\) 的识别，直接识别复合参数 \(\theta\)。 - 定理 2（估计一致性）：基于正交估计（Neyman-orthogonality）与样本分割，本文提出的 \(\theta\) 估计器 \(\hat{\theta}\) 在源样本量 \(n \to \infty\) 与目标样本量 \(m \to \infty\) 下，一致估计目标条件分布 \(P^t(Y|X^t)\) 的泛函（如条件期望）。直觉：正交性消除了 nuisance 参数（如 \(E[X|E]\) 的估计误差）对 \(\theta\) 估计的一阶影响，保证 \(\sqrt{n}\)-rate 收敛（在低维设定下）或更慢的收敛率（在高维设定下依赖 nuisance 估计率）。

证明路线与技术技巧： - 整体路线： 1. 定义 estimand \(\theta\)：将 \(\epsilon_Y\) 与 \(X\) 的依赖结构参数化为 \(\theta\)（在线性情形下为协方差比率，非线性下为条件矩泛函）。 2. 证明 \(\theta\) 的跨环境不变性：利用 SCM 独立性假设，证明 \(Cov(\epsilon_Y, X)\) 或其非线性推广不随 \(E\) 改变。 3. 在 EVA 下证明 \(\theta\) 的识别性：通过源环境中 \(E[Y|X, E]\) 对 \(E\) 的变异，解耦 \(\beta\) 与混杂效应，构造仅依赖可观测矩的识别公式。 4. 正交化估计 \(\theta\)：构造 Neyman-正交矩条件，消除 nuisance 估计误差的一阶影响。 5. 生成目标条件分布：将 \(\hat{\theta}\) 与目标环境 \(X^t\) 的分布矩结合，生成 \(\hat{E}^t[Y|X^t]\) 或 \(\hat{P}^t(Y|X^t)\)。 - 关键跳跃点： - 从 \(\beta\) 不可识别到 \(\theta\) 可识别的跳跃：这是本文最吃功夫的地方。难点卡在：\(\epsilon_Y = Y - X\beta\) 依赖未知 \(\beta\)，如何从数据中提取 \(\epsilon_Y\) 与 \(X\) 的结构？作者利用 EVA 假设，在源环境中通过 \(E\) 对 \(X\) 的干预变异，将 \(E[Y|X, E]\) 分解为因果效应 \(\beta X\) 与混杂效应 \(\theta(E)\) 的叠加，从而在不识别 \(\beta\) 的情况下，直接识别混杂效应的跨环境不变结构 \(\theta\)。 - 技术技巧点名： - Neyman-orthogonality / Debiasing：用于 \(\theta\) 的估计，消除 nuisance（如 \(E[X|E]\) 的估计）对目标参数的一阶影响（引用 Foster & Syrgkanis 2023, Vansteelandt & Morzywołek 2023）。 - Concentration of measure / Random matrix theory：用于高维设定下 nuisance 估计的误差界（引用 Vershynin 2018 的子高斯集中不等式，Lemma A.3）。 - 生成模型 / 条件分布对齐：将 \(\theta\) 嵌入生成模型，通过调整 \(\epsilon_Y\) 的分布与 \(X^t\) 的对齐，实现 \(P^t(Y|X^t)\) 的生成（类似 GAN 或 VAE 的条件分布生成思路，但本文未显式使用深度生成网络，而是基于矩生成）。 - Sample splitting / Cross-fitting：用于正交估计的样本分割，避免过拟合导致的正交性失效（标准 Double ML 路线）。

真实例子与应用： - 心血管疾病数据：数据来源为 Ordovás et al. (2021) 的 Bayesian network 心血管风险数据集（包含可修改与不可修改风险因子及医疗条件）。本文将不同地区/人群作为不同环境 \(E\)，将某些风险因子作为隐藏混杂 \(H\) 的代理，将目标环境设为某特定人群的子集。应用方式：在源环境（多地区数据）上估计 \(\theta\)，在目标环境（仅观测该人群的风险因子 \(X^t\)）上生成条件分布 \(P^t(Y|X^t)\)，预测心血管风险。结果：本文方法在目标风险（Target Risk，即目标环境下的预测误差）上低于 Anchor Regression、IRM、CIRM 等基线，尤其在目标环境与源环境分布偏移较大时优势明显。这个例子想说明：在真实分布偏移与潜在混杂下，生成式不变性比最坏情况优化或不变性方法更贴近目标分布。 - 仿真实验：复现 Chen & Buhlmann (2021) 的仿真设定（线性 SCM，\(p=10\)，\(Z=11\) 个训练环境），加入隐藏混杂。结果表明：在混杂强度中等、环境数有限时，本文方法的目标风险低于 CIRM、Anchor Regression、IRM；在环境数极少（1-2个源环境）且 EVA 成立时，本文方法仍可识别，而 ICP/IRM 失效。

🔎 结论是否比证明窄： - 本文在定理陈述中严格证明了 \(\theta\) 的识别性与估计一致性，但在 abstract 与 intro 中泛泛 claim 了“确保因果参数的一致估计”与“在任意干预下实现概率对齐”。严格证明中，因果参数 \(\beta\) 本身并未被证明可一致估计（文中明确承认 \(\beta\) 在隐藏混杂下不可识别），被一致估计的是复合参数 \(\theta\)。这个 claim 的泛化需研究者核验：\(\theta\) 的一致估计是否等价于“因果参数的某种泛函的一致估计”，还是仅指“预测参数的一致估计”？ - 另一处泛泛 claim：“无需假设干预强度”。严格证明中，EVA 假设隐含了对 \(E\) 引起 \(X\) 变异的强度要求（若 \(E\) 对 \(X\) 的干预太弱，\(X\) 的变异不足以解耦混杂，EVA 不成立），因此“无干预强度假设”的 claim 仅相对于 Anchor Regression 的显式强度界成立，但 EVA 本身隐含了强度约束。

四、开放问题（点到为止，扎根具体语句）¶

EVA 假设的必要性检验与弱化：本文识别性依赖 EVA（源环境 \(E\) 的变异足够解耦混杂），但 EVA 的经验验证方法仅在高维/多环境设定下通过条件矩检验近似实现。在单源环境或 \(E\) 维度极低时，EVA 可能不可验。要证：在何种最小 \(E\) 维度或环境数下，EVA 可被非参数检验验证？扎根点：Section 3.2 对 EVA 的定义及“empirical verifiability”的讨论。
半参数效率界与收敛率：本文给出了 \(\theta\) 的一致性，但未给出半参数效率界或最优收敛率。要估：在 nuisance 参数（\(E[X|E]\) 等）属于非参数类时，\(\theta\) 估计的 minimax 收敛率是多少？正交估计是否达到该界？扎根点：Section 4 的估计一致性定理，仅给出 upper bound，未与 lower bound 对比。
Proximal CI 与生成式不变性的识别性对比：本文回避了 Proximal Causal Inference（利用代理变量处理隐藏混杂）的路线。要证：在 Proximal CI 的代理变量假设（如 unconfoundedness of proxies）下，\(\theta\) 的识别公式是否等价于 Proximal 的识别公式？若不等价，哪条假设更强？扎根点：Intro 对隐藏混杂识别的讨论，未出现 Proximal CI 引用。
非线性 SCM 下的 \(\theta\) 参数化：本文在非线性 SCM 下将 \(\theta\) 参数化为条件矩泛函，但未显式给出非参数 \(\theta\) 的估计路线（仅讨论了线性与部分非线性特例）。要算：在完全非参数 SCM 下，\(\theta\) 的估计如何实现？是否需要 RKHS 嵌入或神经网络生成模型？扎根点：Section 2.2 对非线性模型的推广，及 Section 4 估计部分对线性情形的聚焦。

Maintained by 陈星宇 · Homepage · Source on GitHub

Domain adaptation under hidden confounding¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论