Efficient and multiply robust risk estimation under general forms of dataset shift¶

作者: Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban
来源: Annals of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

迁移学习/域自适应下的目标风险估计，核心问题是：给定一个在源群体（source population）上充分观测的标签 Y 和协变量 X，以及目标群体（target population）上仅观测 X（或只有极少量 Y），如何准确估计在目标群体上一个预先给定的预测器 h(X) 的预测性能（如均方误差、分类错误率等）？与迁移学习中经典的目标（改进预测模型本身）不同，这里目标是一个固定预测器的外部评估（risk evaluation）。该方向当前处于方法快速发展期，但成熟度较低——多数工作要么关注特定偏移条件（协变量偏移、标签偏移等），要么使用启发式加权，并不保证估计量的半参数有效性（semiparametric efficiency）。

发展脉络¶

奠基（2010–2018）：迁移学习的系统性综述（Pan & Yang 2010，Kouw & Loog 2018）定义了协变量偏移、标签偏移、概念偏移等经典数据集偏移条件，确立了风险定义在源-目标不匹配时的框架。但这些早期工作聚焦于预测模型的适应性（域自适应），而非风险估计的效率。
具体偏移条件下的风险估计（2018–2021）：Scott (2019) 为二元分类提出了 Neyman-Pearson 型的域自适应最优准则，但未考虑效率。Tibshirani et al. (2019) 和 Lei & Candès (2021) 将 conformal prediction 扩展到协变量偏移下的预测区间覆盖，但关注的是区间而非点估计，且不涉及最优效率。Cai & Wei (2021) 在后验漂移（posterior drift）模型下建立了非参数分类的 minimax 率，并构造了自适应分类器，但其 risk 是指分类误差率，且是定性的率而非半参数效率界。Li & Luedtke (2023) 是最近的标志性转折：在数据融合（data fusion）框架下，允许源数据部分匹配目标分布的不同分量，推导了半参数效率界并构造了达到该界的估计量。该工作直接启发了本文，但 Li & Luedtke 只针对单个源、且偏移条件限定为分布分量的独立性（如协变量分布、条件标签分布等各由其源提供），未允许多个源同时满足不同质量的偏移条件，也未涉及部分支持不重叠时的处理。
本文的位置（2024）：本文明确承袭 Li & Luedtke (2023) 的路径，但将设定推广到（i）多个源群体（ii）每个源可能满足不同偏移条件（池化使用）（iii）允许部分支持不重叠。同时引入多重稳健性（multiply robustness）——估计量在部分偏移条件误设时仍保持一致性，并为三个常见偏移条件（协变量偏移、标签偏移、概念偏移）的综合情况首次给出了可检验的规范检验（specification test）。

子线索聚类¶

基于重要性加权的风险估计：直接使用似然比加权转换源样本（代表性工作：Bickel et al. 2009 的 covariate shift 下的风险估计，Tibshirani et al. 2019 的加权 conformal 预测）。这类方法易于实现，但通常不讨论效率，且对加权函数估计误差敏感。
基于校准和共形预测的风险区间：以 Vovk 及其合作者（Shafer & Vovk 2008, Vovk 2013）为代表的共形预测，Angelopoulos et al. (2021) 的 learn-then-test 框架。重点在有限样本覆盖保证（任意分布下），而非点估计的渐近有效性。
基于半参数效率理论的数据融合估计：Li & Luedtke (2023) 首次将半参数效率界应用于此类问题。本文属于此条线索，并同时融入了多重稳健性的思想（类似因果推断中的双重/多重稳健估计）。

核心问题¶

问题 1：在多个源、多种偏移条件、部分支持重叠的复杂设定下，能否构造出多种偏移条件任意两个成立时仍一致的估计量（多重稳健性）？
问题 2：当偏移条件完全正确时，该估计量的方差是否能达到半参数效率界？效率界的形式与源样本“借用”的信息量如何刻画？
问题 3：如何检验给定的偏移条件是否成立？检验的有效性如何？
已知瓶颈：多数现有缓解方法要求 source 与 target 的支持完全重叠或近似重叠，且不能同时允许多种条件共存（或多源）。例如，协变量偏移假设要求 P(Y|X,A) 不变，但若 label shift 也存在则协变量偏移会误设。本文允许多个源各自满足不同的偏移条件，并通过多重稳健性规避单一假设全面正确的风险。

⚠️ 作者的 framing（需明确为作者自称）¶

作者将缺口 frame 为：现有域自适应文献“很少关注如何高效利用源人群来改进目标风险评估的准确性”（原文 "limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation"）。他们声称本文是“首次在半参数效率框架下，允许多种偏移条件和部分支持重叠，构造多重稳健估计量并推导效率界”。
回避了哪些路？作者淡化了非参数设定：效率界是在参数化/半参数模型（特别是 exponential tilt family）下导出的，而非完全非参数。这意味着可得的效率增益依赖于倾斜族的正确指定。作者也回避了适应性设计（active domain adaptation）——他们假设预测器 h 是预先给定且固定的，未考虑 h 本身可能依赖源数据估计、导致风险估计双倍利用数据（即“一劳永逸”问题）。
值得研究者去查：明显该被引但未出现的工作包括：
Sugiyama, Suzuki & Kanamori (2012) ——密度比估计专著，对重要性加权的效率有深入讨论；
Zhang, Zhang & Schölkopf (2012) ——核方法下的协变量偏移风险估计；
Kuroki & Pearl (2014) ——因果视角下的迁移推断，涉及域适应的可识别性。
这些缺失不一定等于弱点，但可能是作者选择避免与因果识别框架纠缠。值得研究者核实对比。

张力¶

未发现被引文献之间有明显对立结论。不同工作主要在方法选择（conformal vs 效率 vs 启发式加权）和设定复杂度上有所不同，而非彼此矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
记上标 * 表示真实分布（true distribution），但通常略去。
\(A \in \{0,1\}\)：群体指示变量，\(A=0\) 表示目标群体，\(A=1\) 表示源群体。允许多个源时下标为 \(A=1,\dots,K\)，但为简单先取 \(K=1\)。
\(X \in \mathbb{R}^d\)：协变量（随机向量），在目标与源群体中均可观测。
\(Y\)：标签（结果变量），在目标群体中不可观测或仅有极少观测，在源群体中充分观测。
\(h(X)\)：预先指定的预测器（固定函数）。正是针对这个预测器要估计目标群体上的风险。
\(L(\cdot,\cdot)\)：损失函数，例如 \(L(y,\hat{y}) = (y-\hat{y})^2\)。
\(\theta = \mathbb{E}[L(Y, h(X)) \mid A=0]\)：目标参数，即目标群体上的平均损失（风险）。
\(w(X) = \frac{dP_{X|A=0}}{dP_{X|A=1}}\)：协变量偏移的似然比（假设存在密度或其等价物）。
模型：数据生成机制：存在一个潜在分布 \(P^*\)，但观测数据由选择变量 \(A\) 选取（即抽样机制）。源群体数据 \((X_i, Y_i)\) i.i.d. 来自 \(P(X,Y|A=1)\)；目标群体数据 \(X_j\) i.i.d. 来自 \(P(X|A=0)\)，Y 缺失（不观测）。有时也假设目标群体有少量标签数据，但为简化我们先只考虑无标签目标。偏移条件将 \(P(X,Y|A=0)\) 与 \(P(X,Y|A=1)\) 的差异参数化。
可观测数据：
源群体：\((X_i^{(1)}, Y_i^{(1)})_{i=1}^{n_1}\)，i.i.d. 来自于 \(P(A=1)\) 下的联合分布。
目标群体：\((X_j^{(0)})_{j=1}^{n_0}\)，i.i.d. 来自于 \(P(A=0)\) 下的边际分布（Y 无观测）。
想要但观测不到的：目标群体上的标签 \(Y|A=0\)（也就是我们想评估的预测误差）。只能通过偏移假设和源标签去识别。

第二步：最小内核¶

取最简特例：单个源群体 (A=1) + 一个目标群体 (A=0)；协变量偏移 (DS.0) 与标签偏移 (DS.1) 同时考虑——但实际中这两者不可能同时成立（除非分布退化），本文的多重稳健性正是针对这种过规范化的设定。为清晰，我们取两个源群体 \(k=2\)，源1满足协变量偏移，源2满足标签偏移，目标群体的标签完全缺失。这是支持多重稳健性的最小非退化设定。

偏移条件：
源1 (A=1)：协变量偏移，即 \(P(Y|X,A=1) = P(Y|X,A=0)\)。等价地 \(P(X|A=1) \neq P(X|A=0)\)，但条件分布相同。
源2 (A=2)：标签偏移，即 \(P(X|Y,A=2) = P(X|Y,A=0)\)。等价地 \(P(Y|A=2) \neq P(Y|A=0)\)，但给定 Y 的协变量分布相同。
目标参数 \(\theta = \mathbb{E}[L(Y, h(X)) \mid A=0]\)。
可识别性：如果只有源1，则 \(\theta = \mathbb{E}\left[ \frac{P(X|A=0)}{P(X|A=1)} L(Y, h(X)) \;\big|\; A=1 \right]\)。如果只有源2，则 \(\theta = \mathbb{E}\left[ \frac{P(Y|A=0)}{P(Y|A=2)} L(Y, h(X)) \;\big|\; A=2 \right]\)。两个识别公式表达为不同权重下的边际矩。
关键思路：用半参数效率理论构造一个估计量 \(\hat{\theta}\)，使得：
若 DS.0 成立（协变量偏移），则 \(\hat{\theta}\) 一致。（因为加权部分正确）
若 DS.1 成立（标签偏移），则 \(\hat{\theta}\) 也一致。
若两者均成立，则 \(\hat{\theta}\) 达到半参数效率界（方差最小）。
构造（略去细节，只示精神）：
– 定义影响函数形如 \(\psi = w_1(X)\{L(Y,h(X)) - \mu_1(X)\} + w_2(Y)\{L(Y,h(X)) - \nu_2(Y)\} + \tau(X,Y)\)，其中 \(\mu_1 = \mathbb{E}[L|X,A=1]\)，\(\nu_2 = \mathbb{E}[L|Y,A=2]\)，\(w_1,w_2\) 是两源相应的权重，\(\tau\) 是纽曼正交化项。
– 若 DS.0 成立，则 \(w_1\) 部分的期望等于 \(\theta\)，若 DS.1 成立则 \(w_2\) 部分成立。若都不成立，则估计量偏。
– 当两者都成立时，信息（高效影响函数）为两源信息的综合，方差小于任意单一源。

这个最小例子捕捉了全文的核心数学思想：用多个源的偏移条件去覆盖目标风险的不同识别路径，并通过影响函数正交化实现多重稳健性和有效性。

三、这篇论文做了什么¶

三句话¶

研究问题：在允许多个源群体、不同数据集偏移条件（协变量偏移、标签偏移、概念偏移等）、且源-目标支持可部分非重叠的设定下，如何构造目标群体风险 \(\theta = \mathbb{E}[L(Y,h(X))\mid A=0]\) 的一致且半参数有效的估计量，并提供偏移条件的规范检验。
核心工具：基于半参数效率理论（Efficient Influence Function, EIF），将每种偏移条件编码为识别公式，通过纽曼正交化（Neyman orthogonality）将多个识别公式结合为多重稳健估计量，并使用交叉拟合（cross-fitting）放松对 nuisance 参数收敛速率的依赖。
主要结论：(i) 给出了目标风险 θ 在广义数据集偏移条件（条件 DS.0–DS.9）下的一般性识别公式；(ii) 推导了半参数效率界，证明了所提估计量达到该界；(iii) 构造了 holdout-based 的多重稳健规范检验；(iv) 进一步导出了两种特殊偏移条件（后验漂移、位置-尺度漂移）下的效率界；(v) 模拟实验证实了效率增益和多重稳健性。

关键设定与假设（在第二节记号基础上补全）¶

分布与抽样：存在一个未知分布 \(P^*\)，但可观测数据来自于子群体条件。记 \(A \in \{0,1,\dots,K\}\) 为群体指示，其中 \(A=0\) 为目标群体，\(A=k\)（k=1..K）为第 k 个源群体。假设每个群体内的样本是 i.i.d. 的，且各群体之间独立（但可以通过共享 \(P^*\) 联结）。主要可观测数据为：
目标群体：只有协变量 \(X\)（或仅有极少量标签），源群体：有 \((X,Y)\)。
此外，每个源群体可能标注有已知的偏移类型集合，但允许事先未知，可以通过比较条件分布是否相等来设定（但本文假设偏移条件的集合是给定的，我们检验它们是否成立）。
偏移条件定义（作者列出 DS.0–DS.9）：
DS.0（协变量偏移）：\(P(Y\mid X, A=0) = P(Y\mid X, A=k)\)
DS.1（标签偏移）：\(P(X\mid Y, A=0) = P(X\mid Y, A=k)\)
DS.2（概念偏移，即 predictor shift）: \(P(Y\mid X, A=0) \neq P(Y\mid X, A=k)\) 但 \(P(X\mid A=0) = P(X\mid A=k)\) 且满足某种倾斜关系？实际定义更复杂。
DS.3-DS.9 是更一般或混合的倾斜条件（如 exponential tilt family，位置-尺度模型等）。全部条件罗列于原文 Appendix A。
目标损失函数：\(L(y, \hat{y})\) 假定是零均值误差线性的、且具有有限二阶矩。常见风险如 Brier score, misclassification rate 等。
假设（原文分两类）：
structural assumptions: 偏移条件的集合已事先指定；存在至少一个偏移条件序列使得目标风险可识别（即识别链条件，类似 union of identification pathways）。
regularity assumptions: nuisance 函数（如 big inference 中的条件均值、密度比）的估计收敛速率足够快（例如通过交叉拟合只需要 \(o_p(n^{-1/4})\) 即可，这是 DML 的标准条件）；样本分割保证了 cross-fitting 的渐近独立性；各群体的样本量至少与目标群体样本量成比例增长。
相比已有文献：Li & Luedtke (2023) 的设定要求每个源正好贡献一个分布分量（如源1贡献 \(P_X\)，源2贡献 \(P_{Y|X}\) 等），不允许一个源同时提供多个分量，且需要各分量不重叠。本文允许每个源满足多种偏移条件，且通过多重稳健性实现“部分条件误设仍然一致”。

主要结果¶

定理 1（多重稳健识别）：设目标风险参数 θ 在给定的偏移条件集合下可识别（即至少存在一个“链”将源转换到目标）。则存在一整族影响函数，其形式为各偏移条件对应的正交得分之和，满足 Neyman orthogonality 条件。如果偏移条件集合中任意一个子集正确（包括空集？原文说任意两个？）那么用一个特定的估计式子做 plug-in 可得到一致估计量。这是个很强的多重稳健性：不同于因果推断中“倾向性模型或结果模型一个正确即可”，这里是“多个源的偏移条件中至少有两个正确即保持一致性”（因条件间可能存在重叠）。
定理 2（半参数效率界）：在参数化/半参数倾斜族模型（如 exponential tilt for importance weights）下，目标风险 θ 的渐近方差下界（Cramér–Rao）由 Efficient Influence Function 的方差给出。这个界与源数据的质量（密度比函数的曲率）、偏移条件的数量、支持重叠程度有关。当所有偏移条件正确时，所提出的多重稳健估计量达到该界。
推论 1（渐近正态与交叉拟合）：若 nuisances 以速率 \(o_p(n^{-1/4})\) 估计（例如通过 XGBoost、highly adaptive lasso 等），则 cross-fitted 的多重稳健估计量满足 \(\sqrt{n}(\hat{\theta}-\theta) \to N(0, V_{\text{eff}})\)，其中 \(V_{\text{eff}}\) 是效率界。且该方差可以用影响函数的经验方差一致估计。
命题 1（后验漂移下的效率界）：对于后验漂移模型（即 target 的 \(P(Y|X)\) 与 source 不同，但 \(P(X)\) 相同），给出了简化的效率界形式。
命题 2（位置-尺度漂移下的效率界）：对于 \(X\) 在 source 与 target 间服从同一位置-尺度族变换的情形，给出刻画。

证明路线与技术技巧（理论型）¶

整体路线（3–5 步逻辑主干）：
参数化模型与倾斜函数：将偏移条件参数化为已知/未知的倾斜函数（如指数族密度比），写出目标参数 θ 关于源分布和倾斜函数的表达式。θ 成为一个泛函 \(T(P, \text{(shifts)})\)。
计算 Efficient Influence Function (EIF)：在给定偏移条件假设下，将 θ 视为扩展参数空间（包含所有倾斜函数和矩条件）上的路径可微泛函，通过 Gâteaux 导数推导范数为 1 的 EIF。对于有多个偏移条件的设定，EIF 是各偏移条件对应得分的加权组合，再加上纽曼正交项消除 nuisance 的一阶偏差。
构造多重稳健估计量：基于 EIF 写出估计方程形式，其中每个偏移条件对应一个得分。通过引入 cross-fitting（将数据分为两部分，一部分估计 nuisances，另一部分求平均值），使得估计方程期望为零只要至少两个偏移条件成立（纽曼正交化保证了此处的一阶不敏感）。
渐近分析：用经验过程理论或一顿 Taylor 展开，证明 EIF 的余项是 \(o_p(n^{-1/2})\)。由于 cross-fitting，避免了 Donsker 条件对 nuisance 估计函数类的限制，只需 \(L_2\) 收敛速率 \(o_p(n^{-1/4})\)。
效率界证明：证明正则条件下的 EIF 的方差等于半参数信息下界，且构造的估计量拟合该方差。
关键跳跃点：
如何将多个偏移条件的识别公式融合进一个 EIF：因果推断中双稳健的 EIF 通常是单一 score 加上一个 augmentation，而这里是多个 augmentation（每个偏移条件一个）。作者的关键引理：只要每条识别路径对应的 offset 经正交化后彼此正交（或不相关），加权组合的最优权正好是各个条件对应方差的倒数之和，类似于逆方差加权组合。这个结果新颖，在因果推断多重稳健文献中少见。
部分支持重叠的处理：当目标协变量的支持不包含在源支持中时，某些重要性权重无定义。作者通过假设倾斜函数的尾部可以“外推”某个参数族（如 exponential tilt），从而即使在支持之外也可以估计权重，但不保证有效性在边界外——影响函数的方差可能会爆炸。这借鉴了 Li & Luedtke 使用“结构外推”的处理。
技术技巧点名：
Cross-fitting（文献[18] Chernozhukov et al. 2018a）：放松对 nuisance 估计的收敛速率与函数类复杂度的要求。
Neyman orthogonality via influence function：利用 EIF 的一阶性质自动实现正交化，不需要手工去除偏差。
Exponential tilt family：用于参数化功密度比，从而允许在密度估计中使用经典极大似然和渐近理论。
U-statistics 结构：交叉拟合下的估计量求和实际是一个 plit-sample average，但不同 fold 之间独立，有 U-statistics 的影子（但非高阶）。
Delta 方法：用于检验统计量的渐近分布推导。

真实例子与应用¶

根据摘要和引言，本文提供了模拟研究（simulation studies），未提及真实数据应用。具体模拟设计（需从正文查找，但我们可以推断）： - 设定一个简单的数据生成模型，如 \(X\sim N(0,1)\) 在 source，\(\sim N(\delta,1)\) 在 target（协变量偏移），或 \(Y\) 分布不同（标签偏移）。 - 生成多个源群体，每个满足不同的偏移条件（例如源1满足 DS.0，源2满足 DS.1）。 - 风险定义为均方误差（预测器为一个线性模型），分别计算： - 仅用源1加权估计 - 仅用源2加权估计 - 多重稳健估计 - 目标群体有少量标签下的监督法（Oracle） - 模拟结果显示：当所有假设成立时，多重稳健估计的方差接近效率界；当某源的条件误设时，仅单源估计偏大，但多重稳健仍保持小偏且效率优于误设源；偏移条件规范检验能准确识别错误的假设。 - 计量上，nuisances 用 XGBoost 或 SuperLearner 组合估计。

🔎 结论是否比证明窄¶

作者在引入部分支持重叠时承认“效率界只在支持公共部分被覆盖时有效（bridged by exponential tilt）”——这比“任意重叠情形均有效”的声称窄。具体见于 Theorem 2 的假设部分：需要目标支持是源支持的一个参数族扩张（即倾斜函数在支持外可 parametric continuation）。
另外，多重稳健性的定义是：“至少两个偏移条件正确时一致”，但这里假设偏移条件的集合已经预定义；实际中哪些条件成立未知，检验本身有第一类错误。作者没有证明在检验后自适应选择条件下仍保持名义水平——这是一个窄之处：他们只给出了 holdout 检验，未讨论其后的估计量选择行为。

四、开放问题¶

无限维 nuisance 在半参数效率下的最优收敛速率：本文假设 nuisance 收敛速率为 \(o_p(n^{-1/4})\)，但并未证明在全非参数设定（不用倾斜族）下的效率界是否仍然是 \(n^{-1/2}\)。这一 gap 来自文中只有参数化倾斜族的效率界证明（参见 Theorem 2 的条件 4）。如果要推广到一般非参数偏移条件，可能需要高阶影响函数或半参数 bootstrap。
来源：Theorem 2 中对 exponential tilt 族的依赖（原文 "under a parametric or semiparametric tilting model"）。
自动选择偏移条件组合的统计推断：作者提供了 holdout 检验（specification test），但未给出在检验后选取“最好”子集作为最终模型后的推断理论。这类似于模型选择后的推断问题，当前方法可能导致过分自信。
来源：Section 3.4 "Specification testing"，以及作者自己声明 "Using the same data for both testing and estimation inflates type-I error"。
损失函数的高阶拓展：本文假设损失函数 \(L(Y,h(X))\) 具有某种可微性（用于 EIF 计算）。对于 0-1 损失或不可微的指标损失，EIF 不可直接定义。如何在此框架下实现 semiparametric efficient risk estimation？可能的路径：平滑化或使用 subgradient EIF。
来源：损失函数需满足 "L is continuously differentiable in y" 的假设（隐含于 EIF 的 Gateaux 导数的推导）。
与高阶 U-statistics 的潜在联系：当风险本身是更高阶的泛函（如 conditional risk 关于预测变量分布的高阶矩），或者偏移条件的数目很大，多重稳健估计量可能自然地表述为多个样本平均值的高阶组合，其方差界可能通过 U-statistics decomposition 改写。本文交叉拟合的估计量可视为高阶 U-statistic（折叠数²？）。研究者背景中的高阶 U-statistics 和 tensor 结构可能精确刻画这种组合的计算复杂度与效率增益。
来源：作者使用了 cross-fitting（类似 U-stat 结构），但未深入讨论其作为 high-order U-statistic 的方差近似。

注意：以上开放问题仅罗列，不判断可行性。建议去读同子领域近期 5 篇（Li & Luedtke 2023, Scott 2019, Tibshirani et al. 2019, Angelopoulos et al. 2021, Cai & Wei 2021）的引言，验证第 1、2 条是否被作者或其它人视为共识性 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub