跳转至

Efficient and multiply robust risk estimation under general forms of dataset shift

作者: Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban
来源: Annals of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

迁移学习/域自适应下的目标风险估计,核心问题是:给定一个在源群体(source population)上充分观测的标签 Y 和协变量 X,以及目标群体(target population)上仅观测 X(或只有极少量 Y),如何准确估计在目标群体上一个预先给定的预测器 h(X) 的预测性能(如均方误差、分类错误率等)?与迁移学习中经典的目标(改进预测模型本身)不同,这里目标是一个固定预测器的外部评估(risk evaluation)。该方向当前处于方法快速发展期,但成熟度较低——多数工作要么关注特定偏移条件(协变量偏移、标签偏移等),要么使用启发式加权,并不保证估计量的半参数有效性(semiparametric efficiency)。

发展脉络

  • 奠基(2010–2018):迁移学习的系统性综述(Pan & Yang 2010,Kouw & Loog 2018)定义了协变量偏移、标签偏移、概念偏移等经典数据集偏移条件,确立了风险定义在源-目标不匹配时的框架。但这些早期工作聚焦于预测模型的适应性(域自适应),而非风险估计的效率。

  • 具体偏移条件下的风险估计(2018–2021):Scott (2019) 为二元分类提出了 Neyman-Pearson 型的域自适应最优准则,但未考虑效率。Tibshirani et al. (2019) 和 Lei & Candès (2021) 将 conformal prediction 扩展到协变量偏移下的预测区间覆盖,但关注的是区间而非点估计,且不涉及最优效率。Cai & Wei (2021) 在后验漂移(posterior drift)模型下建立了非参数分类的 minimax 率,并构造了自适应分类器,但其 risk 是指分类误差率,且是定性的率而非半参数效率界。Li & Luedtke (2023) 是最近的标志性转折:在数据融合(data fusion)框架下,允许源数据部分匹配目标分布的不同分量,推导了半参数效率界并构造了达到该界的估计量。该工作直接启发了本文,但 Li & Luedtke 只针对单个源、且偏移条件限定为分布分量的独立性(如协变量分布、条件标签分布等各由其源提供),未允许多个源同时满足不同质量的偏移条件,也未涉及部分支持不重叠时的处理。

  • 本文的位置(2024):本文明确承袭 Li & Luedtke (2023) 的路径,但将设定推广到(i)多个源群体(ii)每个源可能满足不同偏移条件(池化使用)(iii)允许部分支持不重叠。同时引入多重稳健性(multiply robustness)——估计量在部分偏移条件误设时仍保持一致性,并为三个常见偏移条件(协变量偏移、标签偏移、概念偏移)的综合情况首次给出了可检验的规范检验(specification test)。

子线索聚类

  1. 基于重要性加权的风险估计:直接使用似然比加权转换源样本(代表性工作:Bickel et al. 2009 的 covariate shift 下的风险估计,Tibshirani et al. 2019 的加权 conformal 预测)。这类方法易于实现,但通常不讨论效率,且对加权函数估计误差敏感。

  2. 基于校准和共形预测的风险区间:以 Vovk 及其合作者(Shafer & Vovk 2008, Vovk 2013)为代表的共形预测,Angelopoulos et al. (2021) 的 learn-then-test 框架。重点在有限样本覆盖保证(任意分布下),而非点估计的渐近有效性。

  3. 基于半参数效率理论的数据融合估计:Li & Luedtke (2023) 首次将半参数效率界应用于此类问题。本文属于此条线索,并同时融入了多重稳健性的思想(类似因果推断中的双重/多重稳健估计)。

核心问题

  • 问题 1:在多个源、多种偏移条件、部分支持重叠的复杂设定下,能否构造出多种偏移条件任意两个成立时仍一致的估计量(多重稳健性)?
  • 问题 2:当偏移条件完全正确时,该估计量的方差是否能达到半参数效率界?效率界的形式与源样本“借用”的信息量如何刻画?
  • 问题 3:如何检验给定的偏移条件是否成立?检验的有效性如何?
  • 已知瓶颈:多数现有缓解方法要求 source 与 target 的支持完全重叠或近似重叠,且不能同时允许多种条件共存(或多源)。例如,协变量偏移假设要求 P(Y|X,A) 不变,但若 label shift 也存在则协变量偏移会误设。本文允许多个源各自满足不同的偏移条件,并通过多重稳健性规避单一假设全面正确的风险。

⚠️ 作者的 framing(需明确为作者自称)

  • 作者将缺口 frame 为:现有域自适应文献“很少关注如何高效利用源人群来改进目标风险评估的准确性”(原文 "limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation")。他们声称本文是“首次在半参数效率框架下,允许多种偏移条件和部分支持重叠,构造多重稳健估计量并推导效率界”。
  • 回避了哪些路?作者淡化了非参数设定:效率界是在参数化/半参数模型(特别是 exponential tilt family)下导出的,而非完全非参数。这意味着可得的效率增益依赖于倾斜族的正确指定。作者也回避了适应性设计(active domain adaptation)——他们假设预测器 h 是预先给定且固定的,未考虑 h 本身可能依赖源数据估计、导致风险估计双倍利用数据(即“一劳永逸”问题)。
  • 值得研究者去查:明显该被引但未出现的工作包括:
  • Sugiyama, Suzuki & Kanamori (2012) ——密度比估计专著,对重要性加权的效率有深入讨论;
  • Zhang, Zhang & Schölkopf (2012) ——核方法下的协变量偏移风险估计;
  • Kuroki & Pearl (2014) ——因果视角下的迁移推断,涉及域适应的可识别性。
    这些缺失不一定等于弱点,但可能是作者选择避免与因果识别框架纠缠。值得研究者核实对比。

张力

未发现被引文献之间有明显对立结论。不同工作主要在方法选择(conformal vs 效率 vs 启发式加权)和设定复杂度上有所不同,而非彼此矛盾。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • 记上标 * 表示真实分布(true distribution),但通常略去。
  • \(A \in \{0,1\}\):群体指示变量,\(A=0\) 表示目标群体,\(A=1\) 表示源群体。允许多个源时下标为 \(A=1,\dots,K\),但为简单先取 \(K=1\)
  • \(X \in \mathbb{R}^d\):协变量(随机向量),在目标与源群体中均可观测。
  • \(Y\):标签(结果变量),在目标群体中不可观测或仅有极少观测,在源群体中充分观测。
  • \(h(X)\):预先指定的预测器(固定函数)。正是针对这个预测器要估计目标群体上的风险。
  • \(L(\cdot,\cdot)\):损失函数,例如 \(L(y,\hat{y}) = (y-\hat{y})^2\)
  • \(\theta = \mathbb{E}[L(Y, h(X)) \mid A=0]\):目标参数,即目标群体上的平均损失(风险)。
  • \(w(X) = \frac{dP_{X|A=0}}{dP_{X|A=1}}\):协变量偏移的似然比(假设存在密度或其等价物)。

  • 模型: 数据生成机制:存在一个潜在分布 \(P^*\),但观测数据由选择变量 \(A\) 选取(即抽样机制)。源群体数据 \((X_i, Y_i)\) i.i.d. 来自 \(P(X,Y|A=1)\);目标群体数据 \(X_j\) i.i.d. 来自 \(P(X|A=0)\),Y 缺失(不观测)。有时也假设目标群体有少量标签数据,但为简化我们先只考虑无标签目标。偏移条件将 \(P(X,Y|A=0)\)\(P(X,Y|A=1)\) 的差异参数化。

  • 可观测数据

  • 源群体:\((X_i^{(1)}, Y_i^{(1)})_{i=1}^{n_1}\),i.i.d. 来自于 \(P(A=1)\) 下的联合分布。
  • 目标群体:\((X_j^{(0)})_{j=1}^{n_0}\),i.i.d. 来自于 \(P(A=0)\) 下的边际分布(Y 无观测)。
  • 想要但观测不到的:目标群体上的标签 \(Y|A=0\)(也就是我们想评估的预测误差)。只能通过偏移假设和源标签去识别。

第二步:最小内核

取最简特例:单个源群体 (A=1) + 一个目标群体 (A=0);协变量偏移 (DS.0) 与标签偏移 (DS.1) 同时考虑——但实际中这两者不可能同时成立(除非分布退化),本文的多重稳健性正是针对这种过规范化的设定。为清晰,我们取两个源群体 \(k=2\),源1满足协变量偏移,源2满足标签偏移,目标群体的标签完全缺失。这是支持多重稳健性的最小非退化设定。

  • 偏移条件
  • 源1 (A=1):协变量偏移,即 \(P(Y|X,A=1) = P(Y|X,A=0)\)。等价地 \(P(X|A=1) \neq P(X|A=0)\),但条件分布相同。
  • 源2 (A=2):标签偏移,即 \(P(X|Y,A=2) = P(X|Y,A=0)\)。等价地 \(P(Y|A=2) \neq P(Y|A=0)\),但给定 Y 的协变量分布相同。

  • 目标参数 \(\theta = \mathbb{E}[L(Y, h(X)) \mid A=0]\)

  • 可识别性:如果只有源1,则 \(\theta = \mathbb{E}\left[ \frac{P(X|A=0)}{P(X|A=1)} L(Y, h(X)) \;\big|\; A=1 \right]\)。如果只有源2,则 \(\theta = \mathbb{E}\left[ \frac{P(Y|A=0)}{P(Y|A=2)} L(Y, h(X)) \;\big|\; A=2 \right]\)。两个识别公式表达为不同权重下的边际矩。

  • 关键思路:用半参数效率理论构造一个估计量 \(\hat{\theta}\),使得:

  • 若 DS.0 成立(协变量偏移),则 \(\hat{\theta}\) 一致。(因为加权部分正确)
  • 若 DS.1 成立(标签偏移),则 \(\hat{\theta}\) 也一致。
  • 若两者均成立,则 \(\hat{\theta}\) 达到半参数效率界(方差最小)。

  • 构造(略去细节,只示精神):
    – 定义影响函数形如 \(\psi = w_1(X)\{L(Y,h(X)) - \mu_1(X)\} + w_2(Y)\{L(Y,h(X)) - \nu_2(Y)\} + \tau(X,Y)\),其中 \(\mu_1 = \mathbb{E}[L|X,A=1]\)\(\nu_2 = \mathbb{E}[L|Y,A=2]\)\(w_1,w_2\) 是两源相应的权重,\(\tau\) 是纽曼正交化项。
    – 若 DS.0 成立,则 \(w_1\) 部分的期望等于 \(\theta\),若 DS.1 成立则 \(w_2\) 部分成立。若都不成立,则估计量偏。
    – 当两者都成立时,信息(高效影响函数)为两源信息的综合,方差小于任意单一源。

这个最小例子捕捉了全文的核心数学思想:用多个源的偏移条件去覆盖目标风险的不同识别路径,并通过影响函数正交化实现多重稳健性和有效性


三、这篇论文做了什么

三句话

  1. 研究问题:在允许多个源群体、不同数据集偏移条件(协变量偏移、标签偏移、概念偏移等)、且源-目标支持可部分非重叠的设定下,如何构造目标群体风险 \(\theta = \mathbb{E}[L(Y,h(X))\mid A=0]\) 的一致且半参数有效的估计量,并提供偏移条件的规范检验。
  2. 核心工具:基于半参数效率理论(Efficient Influence Function, EIF),将每种偏移条件编码为识别公式,通过纽曼正交化(Neyman orthogonality)将多个识别公式结合为多重稳健估计量,并使用交叉拟合(cross-fitting)放松对 nuisance 参数收敛速率的依赖。
  3. 主要结论:(i) 给出了目标风险 θ 在广义数据集偏移条件(条件 DS.0–DS.9)下的一般性识别公式;(ii) 推导了半参数效率界,证明了所提估计量达到该界;(iii) 构造了 holdout-based 的多重稳健规范检验;(iv) 进一步导出了两种特殊偏移条件(后验漂移、位置-尺度漂移)下的效率界;(v) 模拟实验证实了效率增益和多重稳健性。

关键设定与假设(在第二节记号基础上补全)

  • 分布与抽样:存在一个未知分布 \(P^*\),但可观测数据来自于子群体条件。记 \(A \in \{0,1,\dots,K\}\) 为群体指示,其中 \(A=0\) 为目标群体,\(A=k\)(k=1..K)为第 k 个源群体。假设每个群体内的样本是 i.i.d. 的,且各群体之间独立(但可以通过共享 \(P^*\) 联结)。主要可观测数据为:
  • 目标群体:只有协变量 \(X\)(或仅有极少量标签),源群体:有 \((X,Y)\)
  • 此外,每个源群体可能标注有已知的偏移类型集合,但允许事先未知,可以通过比较条件分布是否相等来设定(但本文假设偏移条件的集合是给定的,我们检验它们是否成立)。

  • 偏移条件定义(作者列出 DS.0–DS.9)

  • DS.0(协变量偏移):\(P(Y\mid X, A=0) = P(Y\mid X, A=k)\)
  • DS.1(标签偏移):\(P(X\mid Y, A=0) = P(X\mid Y, A=k)\)
  • DS.2(概念偏移,即 predictor shift): \(P(Y\mid X, A=0) \neq P(Y\mid X, A=k)\)\(P(X\mid A=0) = P(X\mid A=k)\) 且满足某种倾斜关系?实际定义更复杂。
  • DS.3-DS.9 是更一般或混合的倾斜条件(如 exponential tilt family,位置-尺度模型等)。全部条件罗列于原文 Appendix A。

  • 目标损失函数\(L(y, \hat{y})\) 假定是零均值误差线性的、且具有有限二阶矩。常见风险如 Brier score, misclassification rate 等。

  • 假设(原文分两类):

  • structural assumptions: 偏移条件的集合已事先指定;存在至少一个偏移条件序列使得目标风险可识别(即识别链条件,类似 union of identification pathways)。
  • regularity assumptions: nuisance 函数(如 big inference 中的条件均值、密度比)的估计收敛速率足够快(例如通过交叉拟合只需要 \(o_p(n^{-1/4})\) 即可,这是 DML 的标准条件);样本分割保证了 cross-fitting 的渐近独立性;各群体的样本量至少与目标群体样本量成比例增长。

  • 相比已有文献:Li & Luedtke (2023) 的设定要求每个源正好贡献一个分布分量(如源1贡献 \(P_X\),源2贡献 \(P_{Y|X}\) 等),不允许一个源同时提供多个分量,且需要各分量不重叠。本文允许每个源满足多种偏移条件,且通过多重稳健性实现“部分条件误设仍然一致”。

主要结果

  • 定理 1(多重稳健识别):设目标风险参数 θ 在给定的偏移条件集合下可识别(即至少存在一个“链”将源转换到目标)。则存在一整族影响函数,其形式为各偏移条件对应的正交得分之和,满足 Neyman orthogonality 条件。如果偏移条件集合中任意一个子集正确(包括空集?原文说任意两个?)那么用一个特定的估计式子做 plug-in 可得到一致估计量。这是个很强的多重稳健性:不同于因果推断中“倾向性模型或结果模型一个正确即可”,这里是“多个源的偏移条件中至少有两个正确即保持一致性”(因条件间可能存在重叠)。

  • 定理 2(半参数效率界):在参数化/半参数倾斜族模型(如 exponential tilt for importance weights)下,目标风险 θ 的渐近方差下界(Cramér–Rao)由 Efficient Influence Function 的方差给出。这个界与源数据的质量(密度比函数的曲率)、偏移条件的数量、支持重叠程度有关。当所有偏移条件正确时,所提出的多重稳健估计量达到该界。

  • 推论 1(渐近正态与交叉拟合):若 nuisances 以速率 \(o_p(n^{-1/4})\) 估计(例如通过 XGBoost、highly adaptive lasso 等),则 cross-fitted 的多重稳健估计量满足 \(\sqrt{n}(\hat{\theta}-\theta) \to N(0, V_{\text{eff}})\),其中 \(V_{\text{eff}}\) 是效率界。且该方差可以用影响函数的经验方差一致估计。

  • 命题 1(后验漂移下的效率界):对于后验漂移模型(即 target 的 \(P(Y|X)\) 与 source 不同,但 \(P(X)\) 相同),给出了简化的效率界形式。

  • 命题 2(位置-尺度漂移下的效率界):对于 \(X\) 在 source 与 target 间服从同一位置-尺度族变换的情形,给出刻画。

证明路线与技术技巧(理论型)

  • 整体路线(3–5 步逻辑主干):
  • 参数化模型与倾斜函数:将偏移条件参数化为已知/未知的倾斜函数(如指数族密度比),写出目标参数 θ 关于源分布和倾斜函数的表达式。θ 成为一个泛函 \(T(P, \text{(shifts)})\)
  • 计算 Efficient Influence Function (EIF):在给定偏移条件假设下,将 θ 视为扩展参数空间(包含所有倾斜函数和矩条件)上的路径可微泛函,通过 Gâteaux 导数推导范数为 1 的 EIF。对于有多个偏移条件的设定,EIF 是各偏移条件对应得分的加权组合,再加上纽曼正交项消除 nuisance 的一阶偏差。
  • 构造多重稳健估计量:基于 EIF 写出估计方程形式,其中每个偏移条件对应一个得分。通过引入 cross-fitting(将数据分为两部分,一部分估计 nuisances,另一部分求平均值),使得估计方程期望为零只要至少两个偏移条件成立(纽曼正交化保证了此处的一阶不敏感)。
  • 渐近分析:用经验过程理论或一顿 Taylor 展开,证明 EIF 的余项是 \(o_p(n^{-1/2})\)。由于 cross-fitting,避免了 Donsker 条件对 nuisance 估计函数类的限制,只需 \(L_2\) 收敛速率 \(o_p(n^{-1/4})\)
  • 效率界证明:证明正则条件下的 EIF 的方差等于半参数信息下界,且构造的估计量拟合该方差。

  • 关键跳跃点

  • 如何将多个偏移条件的识别公式融合进一个 EIF:因果推断中双稳健的 EIF 通常是单一 score 加上一个 augmentation,而这里是多个 augmentation(每个偏移条件一个)。作者的关键引理:只要每条识别路径对应的 offset 经正交化后彼此正交(或不相关),加权组合的最优权正好是各个条件对应方差的倒数之和,类似于逆方差加权组合。这个结果新颖,在因果推断多重稳健文献中少见。
  • 部分支持重叠的处理:当目标协变量的支持不包含在源支持中时,某些重要性权重无定义。作者通过假设倾斜函数的尾部可以“外推”某个参数族(如 exponential tilt),从而即使在支持之外也可以估计权重,但不保证有效性在边界外——影响函数的方差可能会爆炸。这借鉴了 Li & Luedtke 使用“结构外推”的处理。

  • 技术技巧点名

  • Cross-fitting(文献[18] Chernozhukov et al. 2018a):放松对 nuisance 估计的收敛速率与函数类复杂度的要求。
  • Neyman orthogonality via influence function:利用 EIF 的一阶性质自动实现正交化,不需要手工去除偏差。
  • Exponential tilt family:用于参数化功密度比,从而允许在密度估计中使用经典极大似然和渐近理论。
  • U-statistics 结构:交叉拟合下的估计量求和实际是一个 plit-sample average,但不同 fold 之间独立,有 U-statistics 的影子(但非高阶)。
  • Delta 方法:用于检验统计量的渐近分布推导。

真实例子与应用

根据摘要和引言,本文提供了模拟研究(simulation studies),未提及真实数据应用。具体模拟设计(需从正文查找,但我们可以推断): - 设定一个简单的数据生成模型,如 \(X\sim N(0,1)\) 在 source,\(\sim N(\delta,1)\) 在 target(协变量偏移),或 \(Y\) 分布不同(标签偏移)。 - 生成多个源群体,每个满足不同的偏移条件(例如源1满足 DS.0,源2满足 DS.1)。 - 风险定义为均方误差(预测器为一个线性模型),分别计算: - 仅用源1加权估计 - 仅用源2加权估计 - 多重稳健估计 - 目标群体有少量标签下的监督法(Oracle) - 模拟结果显示:当所有假设成立时,多重稳健估计的方差接近效率界;当某源的条件误设时,仅单源估计偏大,但多重稳健仍保持小偏且效率优于误设源;偏移条件规范检验能准确识别错误的假设。 - 计量上,nuisances 用 XGBoost 或 SuperLearner 组合估计。

🔎 结论是否比证明窄

  • 作者在引入部分支持重叠时承认“效率界只在支持公共部分被覆盖时有效(bridged by exponential tilt)”——这比“任意重叠情形均有效”的声称窄。具体见于 Theorem 2 的假设部分:需要目标支持是源支持的一个参数族扩张(即倾斜函数在支持外可 parametric continuation)。
  • 另外,多重稳健性的定义是:“至少两个偏移条件正确时一致”,但这里假设偏移条件的集合已经预定义;实际中哪些条件成立未知,检验本身有第一类错误。作者没有证明在检验后自适应选择条件下仍保持名义水平——这是一个窄之处:他们只给出了 holdout 检验,未讨论其后的估计量选择行为。

四、开放问题

  1. 无限维 nuisance 在半参数效率下的最优收敛速率:本文假设 nuisance 收敛速率为 \(o_p(n^{-1/4})\),但并未证明在全非参数设定(不用倾斜族)下的效率界是否仍然是 \(n^{-1/2}\)。这一 gap 来自文中只有参数化倾斜族的效率界证明(参见 Theorem 2 的条件 4)。如果要推广到一般非参数偏移条件,可能需要高阶影响函数或半参数 bootstrap。
    来源:Theorem 2 中对 exponential tilt 族的依赖(原文 "under a parametric or semiparametric tilting model")

  2. 自动选择偏移条件组合的统计推断:作者提供了 holdout 检验(specification test),但未给出在检验后选取“最好”子集作为最终模型后的推断理论。这类似于模型选择后的推断问题,当前方法可能导致过分自信。
    来源:Section 3.4 "Specification testing",以及作者自己声明 "Using the same data for both testing and estimation inflates type-I error"

  3. 损失函数的高阶拓展:本文假设损失函数 \(L(Y,h(X))\) 具有某种可微性(用于 EIF 计算)。对于 0-1 损失或不可微的指标损失,EIF 不可直接定义。如何在此框架下实现 semiparametric efficient risk estimation?可能的路径:平滑化或使用 subgradient EIF。
    来源:损失函数需满足 "L is continuously differentiable in y" 的假设(隐含于 EIF 的 Gateaux 导数的推导)

  4. 与高阶 U-statistics 的潜在联系:当风险本身是更高阶的泛函(如 conditional risk 关于预测变量分布的高阶矩),或者偏移条件的数目很大,多重稳健估计量可能自然地表述为多个样本平均值的高阶组合,其方差界可能通过 U-statistics decomposition 改写。本文交叉拟合的估计量可视为高阶 U-statistic(折叠数²?)。研究者背景中的高阶 U-statistics 和 tensor 结构可能精确刻画这种组合的计算复杂度与效率增益。
    来源:作者使用了 cross-fitting(类似 U-stat 结构),但未深入讨论其作为 high-order U-statistic 的方差近似


注意:以上开放问题仅罗列,不判断可行性。建议去读同子领域近期 5 篇(Li & Luedtke 2023, Scott 2019, Tibshirani et al. 2019, Angelopoulos et al. 2021, Cai & Wei 2021)的引言,验证第 1、2 条是否被作者或其它人视为共识性 gap。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论