Semisupervised transfer learning for evaluation of model classification performance¶

作者: Linshanshan Wang, Xuan Wang, Katherine P Liao, Tianxi Cai
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae002

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是迁移学习中的模型性能评估，具体而言：在源人群（有标签）和目标人群（无标签）协变量分布漂移的设定下，如何利用源人群的标签信息和目标人群的大量无标签数据，来估计一个已训练好的二分类器在目标人群上的ROC性能指标（AUC、灵敏度、特异度等）。这是一个介于迁移学习、半监督学习和因果推断之间的交叉问题——它不关心模型参数的迁移（即不重新训练模型），而是关心性能度量的迁移。当前该方向的成熟度较低：大多数迁移学习文献关注模型适应（model adaptation），而性能度量迁移的文献极少，且已有方法在偏差和效率上均有明显不足。

发展脉络（history）¶

作者在introduction中梳理的脉络如下：

奠基工作：迁移学习与领域适应。Pan & Yang (2010) 的综述奠定了迁移学习的分类框架；Ben-David et al. (2010) 从理论角度分析了领域适应的泛化误差界。这些工作主要关注模型的迁移，而非性能度量的迁移。
主要进展：协变量漂移下的性能评估。作者指出，已有少数工作开始关注性能度量迁移：Sugiyama et al. (2007) 提出用重要性加权（importance weighting）校正协变量漂移下的分类误差估计；Huang et al. (2007) 提出核均值匹配（kernel mean matching）来估计密度比。但这些方法仅适用于分类误差（0-1 loss），不适用于ROC分析这类更复杂的性能度量。作者引用原文："However, these methods are designed for estimating the classification error, not for ROC parameters."
当前frontier：ROC参数的迁移。作者指出，目前几乎没有文献系统研究ROC参数（AUC、灵敏度、特异度）在协变量漂移下的迁移估计。唯一接近的工作是Wang et al. (2020) 提出的半监督AUC估计方法，但该方法假设协变量分布不漂移（即源和目标人群同分布），因此不适用于本文设定。作者引用原文："Wang et al. (2020) proposed a semisupervised estimator for AUC, but their method assumes the covariate distribution is the same between the source and target populations."
本文的位置：作者将缺口frame为"在协变量漂移下，如何利用源人群标签+目标人群无标签数据，双重稳健地估计ROC参数"，并提出了STEAM三步法。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索A：密度比估计（density ratio estimation）。包括Sugiyama et al. (2007) 的KLIEP、Huang et al. (2007) 的KMM、以及更一般的logistic回归型密度比模型（Qin, 1998）。这些方法提供权重来校正分布漂移，但通常只用于估计均值或分类误差，不用于ROC参数。
线索B：半监督性能估计。包括Wang et al. (2020) 的半监督AUC估计，以及更早的基于插补（imputation）的半监督学习方法。这些方法利用无标签数据提升效率，但假设分布不漂移。

本文的STEAM方法将这两条线索结合：用密度比权重校正漂移，用稳健插补利用无标签数据，并引入双重稳健性。

这个方向在追问的核心问题¶

识别问题：在目标人群无标签、协变量分布漂移下，ROC参数是否可识别？需要什么假设（如positivity、密度比模型正确指定）？
效率问题：如何利用大量无标签目标数据提升估计效率？最优效率界是什么？
稳健性问题：当密度比模型或结果模型之一错误指定时，估计量是否仍然一致（双重稳健性）？
有限样本偏差：当使用同一数据训练分类器和估计性能时，过拟合偏差如何校正？

当前主流方法是重要性加权（仅适用于分类误差），已知瓶颈是：①不适用于ROC参数；②缺乏双重稳健性；③未充分利用无标签数据。

⚠️ 作者的framing¶

作者把缺口frame成："现有方法要么只适用于分类误差（不适用于ROC），要么假设分布不漂移，要么缺乏双重稳健性。我们的STEAM方法同时解决了这三个问题。" 具体而言： - 被淡化的竞争路线：作者没有讨论直接用目标人群的少量标签做性能评估（即主动学习/少量标注设定），而是假设目标人群完全无标签。这是一个强设定，但也是本文的核心卖点。 - 被回避的问题：作者没有讨论当密度比模型和结果模型都错误指定时，STEAM的偏差有多大（即没有给出双重误指定下的率）。这在双重稳健估计文献中是一个常见但重要的开放问题。 - 什么明显该被引/该存在、却没出现在intro里：①因果推断中的双重稳健估计文献（如Robins, Rotnitzky, van der Laan等）——本文的"双重稳健性"概念直接来自该领域，但作者只引用了Robins et al. (1994) 一篇，未引用更近的DML（Chernozhukov et al., 2018）或TMLE（van der Laan & Rose, 2011）文献。②半参数效率理论——本文的估计量是否达到半参数效率界？作者没有讨论。③与proximal causal inference的联系——如果存在未测量混淆，密度比模型可能不可识别，但作者未提及。

张力¶

未见明显对立引用。所有被引工作基本一致地认为：协变量漂移下的性能评估是一个开放问题，现有方法不充分。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(Y \in \{0,1\}\)：二分类真实标签（如是否患病）。 - \(X \in \mathbb{R}^p\)：协变量向量（如人口学、临床特征）。 - \(D \in \{0,1\}\)：人群指示变量。\(D=1\)表示源人群（source population，有标签），\(D=0\)表示目标人群（target population，无标签）。 - \(f(X)\)：已训练好的二分类器，输出一个预测分数（如概率或logit）。注意：\(f\)是固定的、已训练好的，不是本文要估计的对象。 - \(AUC(f) = P(f(X_1) > f(X_0) | Y_1=1, Y_0=0)\)：ROC曲线下的面积，是本文要估计的主要性能度量。类似地，灵敏度（sensitivity）\(Se(c) = P(f(X) > c | Y=1)\)，特异度（specificity）\(Sp(c) = P(f(X) \le c | Y=0)\)。

模型： - 数据生成机制：\((X, Y, D)\) 来自某个联合分布。源人群 \((D=1)\) 和目标人群 \((D=0)\) 的协变量分布不同：\(P(X|D=1) \neq P(X|D=0)\)。但条件结果分布相同：\(P(Y|X, D=1) = P(Y|X, D=0)\)。这是迁移学习的核心假设——协变量漂移（covariate shift）。 - 密度比模型：\(w(X) = P(D=1|X) / P(D=0|X)\)，或者等价地，\(r(X) = P(D=0|X) / P(D=1|X)\)。作者假设密度比服从一个双指标模型（double-index model）：\(r(X) = r(X^T \beta_1, X^T \beta_2)\)，其中\(\beta_1, \beta_2\)是待估参数。这是对单指标模型（如logistic回归）的推广，允许更灵活的密度比形式。 - 结果模型：\(m(X) = E[Y|X]\)，即给定协变量下的标签条件概率。作者不假设\(m(X)\)的参数形式，但要求它可被非参数或半参数方法估计。

可观测数据： - 源人群 \((D=1)\)：可观测 \((X, Y, D=1)\)，有\(n_1\)个样本。 - 目标人群 \((D=0)\)：只能观测到 \(X\) 和 \(D=0\)，不能观测到 \(Y\)。有\(n_0\)个样本，通常\(n_0 \gg n_1\)。 - 想要但观测不到：目标人群的标签 \(Y\)。这是性能评估的核心障碍——我们想估计 \(AUC(f)\) 在目标人群上的值，但目标人群没有标签。

第二步：讲最小内核¶

最简特例：假设协变量 \(X\) 是一维的（\(p=1\)），且密度比模型退化为单指标logistic模型：

\[r(X) = \frac{P(D=0|X)}{P(D=1|X)} = \exp(-\alpha - \beta X)\]

其中 \(\alpha, \beta\) 是标量参数。这个模型意味着：\(P(D=1|X) = \frac{1}{1 + \exp(-\alpha - \beta X)}\)，即人群指示变量 \(D\) 对 \(X\) 服从logistic回归。

在这个特例下，STEAM的核心思路是什么？

我们想估计目标人群上的AUC：

\[AUC_0 = P(f(X_1) > f(X_0) | Y_1=1, Y_0=0, D=0)\]

由于目标人群没有 \(Y\)，我们不能直接计算这个概率。但我们可以利用源人群的标签和密度比权重来"校正"分布漂移。

第一步：估计密度比。用源人群的 \((X, D)\) 数据拟合logistic回归，得到 \(\hat{\alpha}, \hat{\beta}\)，从而估计出每个目标样本的权重 \(\hat{r}(X_i) = \exp(-\hat{\alpha} - \hat{\beta} X_i)\)。这个权重衡量了：一个样本来自目标人群（相对于源人群）的可能性有多大。

第二步：加权估计AUC。如果我们有目标人群的标签，AUC的自然估计是Mann-Whitney U统计量：

\[\widehat{AUC} = \frac{1}{n_0^+ n_0^-} \sum_{i: Y_i=1, D_i=0} \sum_{j: Y_j=0, D_j=0} I(f(X_i) > f(X_j))\]

其中 \(n_0^+, n_0^-\) 是目标人群中正/负样本数。但目标人群没有标签，所以我们不能直接用这个公式。

核心想法：用源人群的标签来"插补"目标人群的标签。具体地，对于每个目标样本 \(X_i\)，我们可以用源人群估计的结果模型 \(\hat{m}(X_i) = \hat{E}[Y|X_i]\) 来预测其标签概率。然后，AUC可以写成：

\[AUC_0 = \frac{E[I(f(X_1) > f(X_0)) \cdot Y_1 \cdot (1-Y_0) | D=0]}{E[Y_1 | D=0] \cdot E[1-Y_0 | D=0]}\]

这个表达式中的分子和分母都可以用密度比加权从源人群估计：

\[E[I(f(X_1) > f(X_0)) \cdot Y_1 \cdot (1-Y_0) | D=0] = \frac{E[I(f(X_1) > f(X_0)) \cdot Y_1 \cdot (1-Y_0) \cdot r(X_1) \cdot r(X_0) | D=1]}{E[r(X) | D=1]^2}\]

但这里有一个问题：这个加权估计量只用了源人群的标签，没有利用目标人群的大量无标签数据，效率可能不高。

STEAM的改进：引入稳健插补。对于每个目标样本 \(X_i\)，我们不仅用 \(\hat{m}(X_i)\) 预测其标签，还用一个"伪标签" \(\tilde{Y}_i\) 来替代真实标签。这个伪标签是：

\[\tilde{Y}_i = \hat{m}(X_i) + \hat{w}(X_i) \cdot (Y_i^{source} - \hat{m}(X_i))\]

其中 \(Y_i^{source}\) 是源人群中与 \(X_i\) 匹配的样本的标签，\(\hat{w}(X_i)\) 是某种权重。这个插补是"稳健"的，因为如果结果模型 \(\hat{m}\) 正确，则插补误差小；如果密度比模型正确，则加权校正也有效。只要两者之一正确，插补就是一致的。

在这个一维logistic特例下，要证的命题退化成什么？

要证明：\(\widehat{AUC}_{STEAM} \xrightarrow{p} AUC_0\)，且 \(\sqrt{n}(\widehat{AUC}_{STEAM} - AUC_0) \xrightarrow{d} N(0, \sigma^2)\)，只要密度比模型（logistic）或结果模型（\(m(X)\)）之一正确指定。

证明的关键跳跃点：①密度比估计的收敛速度（\(\hat{\beta} - \beta = O_p(n^{-1/2})\)）如何传播到AUC估计的误差；②稳健插补的偏差项如何被双重稳健性控制；③交叉验证如何校正过拟合偏差。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在源人群有标签、目标人群无标签且协变量分布漂移的设定下，如何双重稳健地估计一个已训练二分类器在目标人群上的ROC性能指标（AUC、灵敏度、特异度）。
核心工具/方法：提出了STEAM三步估计法——(1) 用双指标模型估计密度比权重，(2) 用稳健插补利用无标签数据提升效率，(3) 用交叉验证校正过拟合偏差。
主要结论：证明了STEAM估计量的相合性和渐近正态性，且只要密度比模型或结果模型之一正确指定，估计量即一致（双重稳健性）；模拟显示STEAM相比现有方法显著降低偏差并提升效率。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

设定： - 源人群样本：\(\{(X_i, Y_i, D_i=1)\}_{i=1}^{n_1}\)，i.i.d.。 - 目标人群样本：\(\{(X_i, D_i=0)\}_{i=1}^{n_0}\)，i.i.d.，\(Y_i\) 缺失。 - 总样本量 \(n = n_1 + n_0\)，通常 \(n_0 \gg n_1\)。 - 分类器 \(f(X)\) 是预先训练好的，不依赖于当前数据。这是关键——如果 \(f\) 是用源人群数据训练的，则存在过拟合偏差，需要用交叉验证校正。

假设：

协变量漂移（Covariate Shift）：\(P(Y|X, D=1) = P(Y|X, D=0)\)。即给定协变量，标签的条件分布在源和目标人群间相同。这是迁移学习的标准假设，也是本文识别的基础。
Positivity（重叠）：\(0 < P(D=1|X) < 1\) 对所有 \(X\) 成立。即每个协变量值在源和目标人群中都有正概率出现。这是密度比估计的必要条件。
密度比模型：\(r(X) = P(D=0|X) / P(D=1|X)\) 服从一个双指标模型：
\[r(X) = r(X^T \beta_1, X^T \beta_2)\]
其中 \(r(\cdot, \cdot)\) 是已知函数形式（如指数族），\(\beta_1, \beta_2\) 是未知参数。这个模型比单指标logistic模型更灵活，允许交互效应和非线性。相比已有文献（如Sugiyama et al., 2007 的KLIEP假设密度比是线性指数族），本文的双指标模型是一个放宽。
结果模型：\(m(X) = E[Y|X]\) 是光滑的（如Lipschitz连续），但不假设参数形式。在估计时，作者使用核回归或样条等非参数方法。
分类器 \(f\) 的独立性：\(f\) 与当前数据独立（或通过交叉验证解耦）。这是为了控制过拟合偏差。

相比已有文献的放宽/强化： - 放宽：密度比模型从单指标推广到双指标，允许更复杂的分布漂移。 - 强化：假设 \(P(Y|X)\) 在源和目标人群间相同（协变量漂移假设）。如果这个假设不成立（即存在"概念漂移"），则本文方法失效。作者在讨论中承认了这一点。

主要结果¶

定理1（相合性）：在正则条件下，STEAM估计量 \(\widehat{AUC}_{STEAM}\) 是 \(AUC_0\) 的相合估计，即 \(\widehat{AUC}_{STEAM} \xrightarrow{p} AUC_0\)。必要条件：密度比模型或结果模型之一正确指定。

定理2（渐近正态性）：在更强的正则条件下，

\[\sqrt{n}(\widehat{AUC}_{STEAM} - AUC_0) \xrightarrow{d} N(0, \sigma^2)\]

其中 \(\sigma^2\) 是渐近方差，其表达式由影响函数（influence function）给出。作者给出了 \(\sigma^2\) 的显式形式，并建议用bootstrap估计标准误。

定理3（双重稳健性）：如果密度比模型正确指定但结果模型错误，或者结果模型正确但密度比模型错误，STEAM估计量仍然一致。这是本文的核心理论贡献——将双重稳健性从均值估计（如Robins et al., 1994）推广到ROC参数估计。

解决的技术难点： - ROC参数不是简单的均值，而是U统计量型的泛函（涉及两个样本的比较），其影响函数比均值复杂得多。 - 密度比估计的误差传播到ROC估计时，需要处理二阶项（因为AUC涉及两个样本的乘积）。 - 稳健插补的偏差项需要仔细分析，以确保双重稳健性成立。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

第一步：密度比估计。用双指标模型估计 \(\hat{r}(X)\)。作者使用经验似然（empirical likelihood） 或最大似然来估计 \(\beta_1, \beta_2\)。这一步的关键是证明 \(\hat{\beta} - \beta = O_p(n^{-1/2})\)，且 \(\hat{r}(X)\) 的估计误差可被控制。
第二步：结果模型估计。用源人群数据估计 \(\hat{m}(X) = \hat{E}[Y|X]\)。作者使用核回归或样条，并证明 \(\hat{m}(X) - m(X) = o_p(1)\)（相合性），且在某些条件下达到 \(O_p(n^{-1/4})\) 的收敛速度（用于后续双重稳健性）。
第三步：构造稳健插补估计量。对于每个目标样本 \(X_i\)，构造伪标签：
\[\tilde{Y}_i = \hat{m}(X_i) + \hat{r}(X_i) \cdot (Y_i^{source} - \hat{m}(X_i))\]
其中 \(Y_i^{source}\) 是通过某种匹配或加权从源人群借用的标签。这个伪标签的期望是 \(E[Y|X_i, D=0]\)，只要密度比或结果模型之一正确。
第四步：用伪标签估计AUC。用目标人群的伪标签 \(\tilde{Y}_i\) 和预测分数 \(f(X_i)\)，计算Mann-Whitney型U统计量：
\[\widehat{AUC}_{STEAM} = \frac{\sum_{i \neq j} I(f(X_i) > f(X_j)) \cdot \tilde{Y}_i \cdot (1-\tilde{Y}_j)}{\sum_{i \neq j} \tilde{Y}_i \cdot (1-\tilde{Y}_j)}\]
第五步：交叉验证校正过拟合。如果分类器 \(f\) 是用源人群数据训练的，则直接用同一数据估计性能会产生过拟合偏差。作者用K折交叉验证：将源人群分成K份，每份轮流作为验证集，用其余K-1份训练 \(f\)，然后在验证集上估计性能，最后平均。这类似于DML（Chernozhukov et al., 2018）中的cross-fitting。

关键跳跃点： - 最吃功夫的引理：证明稳健插补的偏差项是二阶小量。具体地，需要证明：

\[E[\tilde{Y}_i - Y_i | X_i, D=0] = O_p(||\hat{m} - m|| \cdot ||\hat{r} - r||)\]

即偏差是结果模型误差和密度比模型误差的乘积。只要两者之一收敛，乘积就是 \(o_p(1)\)。这是双重稳健性的核心。 - 难点：AUC是U统计量，其偏差分析涉及两个样本的乘积，比均值估计复杂得多。作者需要处理二阶U统计量的渐近展开，并证明交叉验证后的估计量是渐近无偏的。

技术技巧点名： - 经验似然（Empirical Likelihood）：用于估计双指标密度比模型，比最大似然更稳健，且自然地满足权重和为1的约束。 - U统计量渐近展开（U-statistic asymptotic expansion）：用于分析AUC估计量的偏差和方差，特别是处理伪标签带来的额外变异性。 - 交叉验证（Cross-fitting）：用于校正过拟合偏差，类似于DML中的Neyman正交性。 - 影响函数（Influence Function）：用于推导渐近方差，并指导标准误的估计。

真实例子与应用¶

数据：类风湿性关节炎（RA）表型模型的EHR队列。源人群是2010-2015年的EHR数据（有标签，由专家标注RA状态），目标人群是2016-2018年的EHR数据（无标签，需要评估模型在新时间段的性能）。

方法应用： 1. 训练一个RA表型分类器 \(f(X)\)（基于源人群数据），输出RA概率。 2. 用STEAM估计该分类器在目标人群（2016-2018）上的AUC、灵敏度、特异度。 3. 密度比模型：用双指标模型估计协变量（年龄、性别、就诊次数、用药记录等）分布在两个时间段的变化。 4. 结果模型：用核回归估计 \(P(RA|X)\)。

结果：STEAM估计的AUC与真实AUC（通过人工标注少量目标样本验证）接近，偏差远小于重要性加权方法和朴素方法（直接用源人群性能）。STEAM的标准误也小于其他方法，说明效率提升。

这个例子想说明什么：①验证STEAM在真实EHR数据上的可行性——协变量分布随时间漂移是EHR数据的常见问题；②展示STEAM相比baseline的偏差和效率优势；③说明STEAM可用于模型监控（model monitoring）——当模型部署到新人群时，无需重新标注即可评估性能。

🔎 结论是否比证明窄¶

是。作者在定理中假设密度比模型或结果模型之一正确指定，但在讨论中承认："In practice, both models may be misspecified, and the finite-sample bias under double misspecification remains an open question." 即双重误指定下的偏差率没有被严格刻画。此外，作者在模拟中只考虑了密度比模型正确或结果模型正确的情形，没有展示双重误指定下的表现。因此，"双重稳健性"的结论严格限于"至少一个模型正确"的设定，不能推广到双重误指定。

另一个窄化：作者假设 \(P(Y|X)\) 在源和目标人群间相同（协变量漂移）。如果这个假设不成立（如疾病定义随时间变化），则STEAM失效。作者在讨论中承认了这一点，但没有给出放松该假设的方向。

四、开放问题（点到为止，扎根具体语句）¶

双重误指定下的偏差率：当密度比模型和结果模型都错误指定时，STEAM的偏差有多大？能否给出一个率（如 \(O_p(||\hat{m} - m|| \cdot ||\hat{r} - r||)\) 的推广）？扎根于作者讨论中的语句："the finite-sample bias under double misspecification remains an open question."
半参数效率界：STEAM估计量是否达到半参数效率界？作者没有讨论这个问题。扎根于作者未引用半参数效率理论文献（如Bickel et al., 1993）这一事实。可以追问：在给定密度比模型和结果模型的半参数模型下，AUC估计的效率界是什么？STEAM是否达到？
概念漂移（Concept Drift）：当 \(P(Y|X)\) 在源和目标人群间不同时（即协变量漂移假设不成立），ROC参数是否仍然可识别？需要什么额外假设（如proximal causal inference中的negative control）？扎根于作者讨论中的语句："Our method relies on the covariate shift assumption... relaxing this assumption is an important future direction."
与proximal causal inference的联系：如果存在未测量混淆（如 \(X\) 不包含所有影响 \(Y\) 和 \(D\) 的变量），密度比模型可能不可识别。能否用proximal causal inference中的negative control变量来放松识别假设？这是一个值得研究者去查的问题——确认该方向是否有相关文献（如Miao et al., 2018; Tchetgen Tchetgen et al., 2020）。

Maintained by 陈星宇 · Homepage · Source on GitHub