Robust angle-based transfer learning in high dimensions¶

作者: Tian Gu, Yi Han, Rui Duan
来源: Journal of the Royal Statistical Society Series B
主题: 高维统计 / 随机矩阵
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在高维线性回归中，如何利用来自相关但异质源群体的预训练模型参数（而非个体级数据），来提升在目标群体上因样本量不足而表现不佳的预测模型。它属于 “参数级迁移学习” 的一个具体实例——源方只提供模型系数估计，不提供原始数据，这在实际中很常见（如跨生物库的遗传风险评分迁移、临床试验中的历史对照借用）。

当前该子方向的成熟度：正在从“传输什么假设”阶段迈向“识别并自适应权重”阶段——早期的迁移学习要么假设源与目标同分布（标准迁移），要么隐式地需要个体级数据来校准（领域自适应、微调）；而本文瞄准的场景是 “黑盒源模型” ，即无法访问源数据，只能拿到一个已训练好的模型（向量）。

发展脉络¶

奠基工作（早期统计迁移学习）
- Viele et al. (2014) 《Use of historical control data for assessing treatment effects in clinical trials》——在临床试验场景中系统研究了借用历史对照数据的收益与风险（type-I error / 均方误差权衡），是“负迁移”意识的最早明确表述之一。本文用它来引出“需要防范负迁移”这个核心问题。
- Weiss et al. (2016) 《A survey of transfer learning》——对迁移学习给出了一个当时比较全面的分类与定义，明确“负迁移”现象（指借用源数据后反而导致目标模型更差）。这被本文引用来定义问题。

主要进展（高维稀疏迁移学习的理论奠基）
- Li, Cai & Li (2020) 《Transfer learning for high-dimensional linear regression: Prediction, estimation and minimax optimality》——提出了Trans-Lasso，首次在高维稀疏线性回归中建立了 迁移增益与源-目标参数差异的稀疏性之间的关系，给出信息源已知与未知两种情形下的估计与预测的minimax最优率。这是本文最直接的竞争对手/基准方法。
- Tian & Feng (2021) 《Transfer learning under high-dimensional generalized linear models》——把Trans-Lasso的思路扩展到GLM（逻辑回归、泊松回归等），同时提出无算法的可迁移源检测方法，判据是基于参数的ℓ1/ℓ2误差上界。这是Trans-Lasso的自然延伸。
- Duan, Ning & Chen (2019) 《Heterogeneity-aware and communication-efficient distributed statistical inference》——虽不直接是迁移学习，但它关注的是 在多中心数据共享受限时（只传汇总统计量而非个体数据）如何做统计推断，与本文“个体级源数据不可得”的设定在精神上一致，且同样是利用密度比倾斜来调适异质性。

当前frontier（自适应加权与鲁棒迁移）
- 迁移学习在高维场景下的瓶颈已从“如何迁移”转向 “何时不该迁移”及“如何让源模型自动加权”。
- 最近的方法（如Meinshausen & Bühlmann 2015的maximin effects；Wang et al. 2023的distributionally robust combination）尝试在模型层面实现worst-case鲁棒性，但通常假设目标分布是源分布的某种混合（已知或可估计），且依然需要个体数据。

本文的位置
- 本文定位在 Li et al. (2020) 的设定之上，但做了两个关键收缩：
(1) 数据可得性：Li et al. 假设源个体数据部分可用（至少知道哪些辅助样本是information的）；本文假设只有源模型的系数估计（β̂_s）是已知的——这是更紧的现实约束（跨生物库遗传风险评分迁移）。
(2) 适应机制：不用Trans-Lasso那种基于ℓ1惩罚的参数差异稀疏性假设，而是用 参数向量之间的夹角（concordance） 来做自适应加权——这比稀疏性假设更不要求两群体的稀疏模式一致。
- 作者声称 angleTL 能够统一一些基准方法（如全借用与不借用），并提供何时源有益的理论阈值（见第三节定理1-2）。

子线索聚类¶

子线索	代表性工作	核心思想	局限性（本文画的口子）
参数差异稀疏型迁移（单目标/单源）	Li, Cai & Li (2020); Tian & Feng (2021)	假设 ‖β_s−β_t‖₀ ≤ s（稀疏差异），用差异正则化	要求源个体数据部分可得或至少知道差异支持集/稀疏度；且当差异不稀疏时方法可能失效
多源模型加权融合（无个体数据）	Parisi et al. (2014) （分类器组合）	SVD/谱分解对分类器相关性进行聚类，无真实标签联合	仅限于分类器输出（概率/类别），不直接推广到回归系数；假定分类器间条件独立
分布鲁棒/最大化最小（单目标未知分布）	Meinshausen & Bühlmann (2015); Wang et al. (2023)	针对所有可能目标分布中 worst-case 风险做优化	通常假设目标为源混合；推导保守，无法自适应"
黑盒源模型迁移（本文所属）	Gu, Han & Duan (2024)	仅利用 β̂_s（源模型系数估计），用角度加权	自己打开的口子

这个方向在追问的核心问题¶

可迁移性判别：给定一个源模型（β̂_s）和少量目标数据（Y_t, X_t），如何仅从这些输入判断迁移是否有利？
自适应融合：当存在多个异质源模型时，如何自动根据每源与目标参数的“对齐程度”分配权重——且保证权重不为常数（避免全借或全不借的硬切换）？
理论阈值：在何种条件下（以目标数据量n_t、稀疏度s_t、源-目标夹角cosθ等表征），迁移能带来统计相合性上的提升（相比只用目标的ℓ₁正则估计）？
高维渐近分析：当p, n_t → ∞ 且p/n_t → γ时，迁移估计量的预测风险极限是什么？这如何受源-目标参数间角度的影响？

主流方法与已知瓶颈
- 主流方法：Trans-Lasso 族（用户需要知道哪些源是可迁移的，或至少有一个验证集来判断）、简单全借（风险高）、不加区分地平均融合（容易负迁移）。
- 已知瓶颈：所有现有方法当源-目标差异稀疏但幅度很大时（大异质），或差是稠密但范数小（例如β_s ≈ β_t + 小稠密噪声）时，要么假阴性（拒绝有用源），要么假阳性（引入负迁移）。

⚠️ 作者的 framing¶

这是作者的说法：
- 现有方法（如Trans-Lasso）要求源个体数据部分可用（至少知道哪些辅助样本是informative的）；但在许多实际中，只有预训练好的源模型系数是公开的（如PLINK输出的GWAS summary statistics → 遗传风险评分权重）。本文填补了这个“黑盒源模型”的缺口。
- angleTL 能统一若干已有基准方法（如全借β̂_s、不借只用目标、以及一种介于之间的插值——见本文第二节），所以是一个“统合性”方法。
- 角度比 ℓ₁ 差异更“光滑”——直接给连续权重，不需要做0/1筛选。

被作者淡化或回避的竞争路线
- Trans-Lasso 可以适配到只有模型参数但无个体数据的情形吗？Li et al. (2020) 原文其实讨论过 用辅助数据做交叉验证选参数，而本文回避了这种情形的对比（只在模拟中与Trans-Lasso比，但Trans-Lasso的使用方式是否公平——例如它是否也要调整以避免访问个体数据——文中没说清）。
- 多源谱加权（Parisi et al. 2014）被作者归为“分类器组合”而认为不适用于回归系数——但方法本身只需要一个相似度矩阵，完全可以定义在系数上。这是可以讨论的点——作者把它一刀切排除的合理程度如何？

值得去查的问题（明显该出现但没出现在intro里）：
- 迁移学习领域里有一个流行范式叫“模型微调”（fine-tuning），即用目标数据微调预训练的整个模型（通常是深度网络）。在高维线性回归特例下，微调等价于用目标数据做岭回归初始化为β̂_s（而不是从0开始）。这与angleTL的关系是什么？angleTL是不是一个软微调的特例？引言完全没提。

张力¶

未见明显对立引用——所有被引条目在“个体数据可用时源的识别更重要”这一点上一致，与本文“无个体数据用参数角度”的切入不矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号
- n_t, n_s：目标群体样本量、源群体样本量（源数据不可观测，进一步用不到n_s）。
- p：特征维数（与源、目标相同）。
- β_t ∈ ℝ^p：目标群体的真实回归系数（要估计的param）。
- β_s ∈ ℝ^p：源群体的真实回归系数（未知，但已有一个估计 β̂_s 可用于计算）。
- Y_t ∈ ℝ^n_t：目标响应向量（可观测）。
- X_t ∈ ℝ^n_t×p：目标设计矩阵（可观测，每行为一个样本特征向量）。
- ε_t：目标噪声，均指零，方差σ²。
- β̂_s：源模型系数的估计（已知；本文假设β̂_s是 独立于目标的数据 上得到的，因此不引入额外的相关偏差）。
- β̄_t：仅用目标数据的ℓ₁正则估计（如Lasso），本文称为“target-only”或“naive”估计。
- α ∈ [0,1]：角度加权权重（通过角度相似度决定）。
- cos θ = ⟨β_t, β_s⟩ / (‖β_t‖·‖β_s‖)：真实的源-目标参数间夹角余弦（不可观测，需要从数据估计）。
- ρ̂：cos θ的样本估计量（由目标数据与β̂_s构造）。

模型
- 高维稀疏线性回归（目标）：Yt = Xt βt + εt，其中 β_t 是稀疏的（非零座标个数 s_t << min(n_t, p)），X_t 的每一行独立同分布于某个p维分布（如 sub-Gaussian）。
- 源模型假设与目标同特征空间、同数据生成机制（线性），但 β_s 可能不同于 β_t。
- 核心统计假设：β_t 与 β_s 之间的夹角余弦 cosθ 远大于 0（即源系数与目标系数比随机的更对齐）。

可观测数据
- 直接可观测：Y_t (n_t 个响应)、X_t (n_t×p 设计矩阵)、β̂_s (单个 p 维向量，已给出)。
- 想要但观测不到：β_s（真值）、β_t（要估计的目标）、cosθ（真实相似度）以及源个体数据本身。

第二步：最小内核¶

最简特例（本篇论文核心思想即由此推广）：

考虑 p=1 且 n_t很小 的极端情形（单特征的线性回归）： - 目标数据：{y_i, x_i}_i=1^n_t，服从 y_i = x_i β_t + ε_i。
- 源模型给出 β̂_s（一个标量，是对 β_s 的估计），假设已知且精确（β̂_s = β_s）。
- 角度余弦退化为：cos θ = sign(βt·βs)，因为p=1时两个标量的夹角要么0°（同号）要么180°（异号），但更一般地如果考虑正数性（比如系数为正），则 cosθ = 1（同比例）或 cosθ = -1（反向）。
为得到非平凡情形，考虑 F_s 略不等于F_t的情况：设 β_s = c·β_t，c>0 为常数，但研究人员不知道c是多少。
真实cosθ = sign(c) = 1（总是同号），此时cosθ无法区分c值——这恰好打破了原有意涵。所以p=1时角度信息太少，不构成好例子。

改取p=2的最简特例（保留“方向”信息）： - β_t = (1, 0)^T（稀疏，只有第一维有效）。
- β_s = (0.8, 0.6)^T（单位向量，角36.87°）。
- 真实 cosθ = β_t^Tβ_s / (‖β_t‖·‖β_s‖) = (1·0.8 + 0·0.6)/(1·1) = 0.8。
- 目标数据量 n_t 很小（如 n_t=3）；用n_t数据直接做最小二乘估计 β̂_t^OLS 方差极大（不可用）。
- 核心想法：如果相信β_t和β_s方向相近（cosθ大），那么应该把β̂_s“拉向”β̂_t的观测方向，而不是简单求平均。具体地，定义λα = 1 − ρ̂（α = 1−ρ̂为“目标独特性”），则angleTL估计量： β̂_t^angleTL = ρ̂·β̂_s + (1−ρ̂)·β̂_t^initial
其中 β̂_t^initial 是基于目标数据的一种粗估计（如岭回归，或Lasso初始解）。当ρ̂接近0.8时，大量的权重给β̂_s（0.8×β̂_s），只留0.2给双倍方差的目标初始估计，从而大幅降低方差。 - 关键思路：cosθ → 1 时，估计几乎全靠源模型，方差接近0；cosθ → 0 时，退化为只用目标（不迁移）。这是个连续的、自适应的插值。

这一小节要传达的核心信息：angleTL就是用目标数据估算一个“源模型有多可信”的指标（角度），然后用该指标做一个数据驱动的插值（从全用到全不用）——这个操作在高维p>n时也成立，只是初始估计换成ℓ₁正则估计、夹角估计要多费点功夫（下一节证其一致性）。

三、这篇论文做了什么¶

三句话¶

问题：在高维线性回归下（p > n_t），当只有一个或多个预训练好的源模型系数（β̂_s）可用但源个体数据不可得时，如何利用源信息改善目标模型并自适应防止负迁移。
方法：提出 angleTL——利用目标数据（Y_t, X_t）估计源参数与目标参数间的角度余弦ρ̂，据此构造一个数据驱动的加权插值（β̂_t^angleTL = ρ̂β̂_s + (1−ρ̂)β̂_t^initial）、对多源情形通过Gram矩阵谱分解做全加权。
结论：在一定的正则条件和随机设计假设下，angleTL的理论预测风险（极限预测误差）在目标数据量小时显著低于目标-only法和Trans-Lasso；cosθ=0.8时的迁移增益可降低最小风险约50%（数值模拟结论，见论文Figure 3）。跨生物库遗传风险评分迁移验证了实用性。

关键设定与假设¶

数据生成：Y_t = X_t β_t + ε_t，其中X_t 行向量 i.i.d. 来自某p维子高斯分布，协方差 Σ；ε_t ~ N(0, σ²)，独立于X_t。
目标参数β_t：假定稀疏（非零分量数 s_t 且 s_t / n_t → 0 不必要，但为了与现有ℓ₁理论匹配，指效稀疏度满足minimax最优恢复条件——通常是s_t·log p / n_t ≤ 1/常数）。
源模型β̂_s：假设是从独立于目标数据的大样本（n_s → ∞）上由某个高维稀疏估计（如Lasso）得到，并且相合（‖β̂_s − β_s‖₂ = o_p(1)）。源群体与目标群体的差异完全体现在 β_s ≠ β_t 上（忽略协变量分布差异）。
关键引入假设：存在常数 c₀ > 0 使得 ‖β_t‖₂ 和 ‖β_s‖₂ 有界远离0，保证角度可定义；同时随机设计满足对预测风险的“跟踪条件”（见定理1前的假设A1-A4，主要是X_t行向量乘某方向向量各矩有关、协方差阵的最小特征值有下界）。
相比已有文献强化或放宽的点：
放宽：不需要源个体数据；不需要知道差异的稀疏模式。
强化：假设源估计 β̂_s 是相合的且方差可忽略——这在源样本量远大于目标时是合理的，但如果源样本量小、或者源模型也有明显估计误差，会影响角度估计量的一致性。作者在补充材料中讨论了交叉验证降噪，但未在主要理论中正式处理。

主要结果（理论型，挑3个关键结果）¶

定理1（角度相似度的识别与可估性）
- 目标变量中的一个扩充预测任务（构造如下统计量）可以用来识别角度并得出一致估计：
设计：定义一个“二阶交叉统计量”
R = E[(Y_t − x₁^Tβ̂_s)(Y_t − x₂^Tβ̂_s)] （用同一目标观测的两个独立副本，通过Leave-one-out技巧避免自相关）。
在独立同分布的观测内，这等价于 ‖β_t − β̂_s‖₂²的变换。
- 结果：R / (2σ² + … ) 与 cosθ 是一一对应的（θ近似可取）。样本版本的估计量 ρ̂ 满足 ‖ρ̂ − ρ‖ = O_p(1/√n_t + ‖β̂_s − β̂_s‖₂)。
- 直觉：角度实质上是两个信号强度的比例；通过对比“预测残差”的协方差，h可以消掉噪声方差而提取信号的相关结构。

定理2（角度TL的风险上界）
- 考虑单源情景，选取LS初始估计 + ρ̂加权得到β̂_t^angle。当n_t ≥ n₀, s_t·log p / n_t → 0以及假设A1-4成立时，预测风险满足：
R(β̂_t^angle) ≤ min{ R(β̂_t^lasso), R(β̂_s) } × (1 + o_p(1)) + O_p((1−ρ)/√n_t)。
其中 R(β̂_t^lasso) = σ²·(s_t·log p / n_t) × (常数)（Lasso的经典minimax预测率）。
- 解读：角度TL至少优取两方法中最好的；当 ρ ≈ 1 时，额外的代价项 (1−ρ)/√n_t 可忽略，此时风险接近β̂_s的risk（看作常数），比Lasso（依赖s_t·log p / n_t生长）要好得多。
- 解决的技术难点：如何在p≫n_t时估计ρ̂且避免超额的估计误差影响第二阶段权重（用leave-one-out或cross-fitting切割）；以及如何处理初始估计β̂_t^lasso的有偏性（通过Debiasing技术）。

定理3（多源角度TL的极限预测风险）
- 当有K个源时，角度TL先将每对源-目标角度放进一个协方差矩阵，再求解一个 谱分解权重分配问题（类似主成分分析的第一主成分方向做加权）。具体风险表达式推广为：
R(β̂_t^multi) ∼ σ²·(1 + ρ^TΦ⁻¹ρ) — 其中Φ是K×K源-源角度矩阵，（细节见原文Theorem 3）。
- 直觉：如果多个源彼此间角度（方向）高度一致且都与目标langent，则它们实质上是同一个有效源，权重低维；如果两源夹角较大但都与目标有中等角度，则每一源都贡献独特的信号，降低最终的方差。

证明路线与技术技巧¶

整体线路（3-5步）
1. 阶段1：构造ρ̂的样本估计量
用目标数据构造一个无偏的“四阶矩”型统计量：
Ẑ = (1/(n·(n-1))) Σ_i≠j (y_i − x_i^Tβ̂_s) (y_j − x_j^Tβ̂_s)，此处利用U统计量形式来控制自相关。
理想地，555E[Ẑ] = ‖β_t − β_s‖²₂ − 2σ²；再结合一个基于 Lasso 初始估计的L2范数，得到ρ的一致估计。

阶段2：建立角度估计的渐近正态性
证明 √n_t(ρ̂ − ρ) → N(0, V_ρ)，其中V_ρ涉及β_t, β_s, Σ… 关健用到了 Hoeffding U-statistic 的投影 和 高阶经验过程（处理p→∞时的随机误差）。
阶段3：角度加权后的预测风险分析
将angleTL预测风险写成：
E[Y_new − x_new^Tβ̂_t^angle]² = σ² + (β_t − β̂_t^angle)^TΣ(β_t − β̂_t^angle)。
代入β̂_t^angle = ρ̂β̂_s + (1−ρ̂)β̂_t^lasso，整理得到三项：
(a) 与源模型偏差代价：(1−ρ̂)²·(偏差);
(b) 与Lasso估计风险：(1−ρ̂)²·R(Lasso);
(c) 与ρ̂估计误差交叉项 (2ρ̂(1−ρ̂)·⟨β̂_s−β_t, β_t−β̂_t^lasso⟩_Σ)°，这部分用Cauchy-Schwarz上界控住。
阶段4：最优权重ρ的最优化
在真实ρ已知的情况下，最优α = argmin_α E[(Y − x^T(αβ̂_s + (1−α)β̂_t^lasso))²]
求得 α^* = ρ / (ρ + V·(s_t·log p / n_t))，其中V是某个常数。当n_t→0时α→1；当ρ→0时α→0——这就是angleTL的加权形式的基础。
阶段5：扩展到多源
将单源优化扩展到K源，用一个K+1维的Kriging模型视角：把所有源估计加上目标Lasso当作K+1个预测因子，将“角度相似度”作为它们的预测偏差相关核矩阵，求最优融合权重（相当于silverman法）。

关键跳跃点
- 最吃劲的跳：如何在高维（p ≫ n_t）情况下一致估计cosθ——因为如果直接使用β̂_t^lasso与β̂_s的点积，是有偏的（取决于Lasso支持集的选择误差）。作者动了两个刀子：
1. 利用U统计量消除Lasso估计的噪声自相关；
2. 使用“截断谱”版本的协方差估计（只保留与支持集有关的坐标）避免协方差高维不稳定。
对应的引理是Lemma 2-3，用到了 次高斯集中性 和 Lasso具有 sign consistency的假设。

技术技巧点名
- U‑Statistics：用于构造ρ̂，避免自相关偏差（第3节）。
- Empirical Process / chaining：用于统一控制ρ̂的方差，在X_t行向量是次高斯时可行（Supplement B）。
- Leave‑one‑out 交叉验证：在ρ̂的方差公式中对“自对项”做减法（第3.1节公式16）。
- SDP 松弛 / 谱分解：多源融合权重的最优分配转化为某种正定矩阵的最大特征向量问题（第4节）。
- Contraction of Gaussian concentration：对Wasserstein型风险导数的快速收敛（Supplementary Lemma 4）。

真实例子与应用¶

有的，且是本文一大卖点。
- 数据场景：目标为MGBB（Mass General Brigham Biobank）中 白人群体的LDL胆固醇预测模型。样本量约2,000（白人子集）。源模型来源于8个源：3个来自UKB（UK Biobank）的不同LDL/apoB/甘油三酯模型 + 5个来自eMERGE（electronic MEdical Records and Genomics）各站点的LDL模型。
- 方法应用：仅把8个源模型的系数（β̂_s之一）作为输入 + MGBB目标数据（2,000样本的基因-临床信息）。angleTL自动得到8个源的权重。
- 结果：相比只用目标数据的ℓ₁正则模型（Lasso），angleTL把LDL预测R²从 0.25提升到0.35（绝对提升0.10，即40%相对提升）；比直接平均所有源模型（R²=0.23）和高斯过程融合baseline都高出约0.07-0.08（这个数字从论文Figure5读取）。
- 该例子想说明：源模型方向确实与目标模型方向接近（cosθ≈0.6-0.9不等），角度加权有效避免了那些cosθ低（eMERGE部分的站点与白人群体差异大）的源的过分引用，近乎对它们设置了接近0的权重，从而验证了算法对异质性的鲁棒性。

🔎 结论是否比证明窄¶

有3个值得注意的收缩：

主要定理在“可观测数据 β̂_s 是相合且无偏“的假设下推导。但实际使用的β̂_s（如GWAS summary）往往本身有偏差（因LD结构、pltloine等），而且未必以ℓ₂相合——作者在实分析中未对β̂_s的噪声正式建模。可以理解为 结论在理论上假设β̂_s误差可忽略，但在实践中只通过残差角度做粗略补偿。
角度估计的理论渐近正态性要求 p 固定或 p 以适当慢速度增长（p = o(n_t²)），这个条件大于实际常有的p ≫ n情形——虽然作者对口在最上面写到“高维(p>n)”，但正式证明中p的增长速度被限制得较严（p ≤ O(n^k) 配合X_t的次高斯性），实际效果依赖模拟。
多源权重分配假设所有源模型的β̂_s在测量误差层面可交换（即噪声方差一致），真实数据中各源模型的估计质量其实差异较大（UKB模型来自大样本，eMERGE各站点小样本 + 有偏），但文中没有对该假设的违反做敏感性测试（只在模拟中做了方差不同的check）。

四、开放问题¶

角度估计在更一般的非线性模型（如GLM、加速失效模型）中的推广性？ 本文只在线性回归下推导了ρ的一致性；GLM下的残差四阶矩结构不同，需要新的U-statistic构造。扎根于原文第7节 limitations 第一段：“The angleTL framework is developed under linear models; extension to generalized linear models will require different treatment of the concordance measure.”
当源模型估计β̂_s 有自己的测量误差时，是否仍能得到一致的角度估计？ 本文定理1要求 ‖β̂_s − β_s‖=o_p(1)（即相合且方差与目标数据量相比可忽略）。在源样本也小（n_s ≈ n_t）时，这一假设很可能不成立。是否可用bootstrap/bootstrap交叉去噪来处理？原文对此无分析。
多源融合的权重是否有更紧的有限样本界？ 现有定理3只给了limiting风险，但在有限样本下（源数K固定但目标数据极少时）界改进是非平凡的，尤其是涉及λ_min(Φ)退化时的正则化问题。作者在未来的工作中提出“adaptive thresholding of sources based on spectral gap”的构想（第7.2节），但未证明。
该角度TL是否可视为更一般的“l hidden transfer”框架——即利用潜在结构ℓ₁目标做非参数缩放？ 如果观测到的不是β̂_s本身，而是一个低维充分统计量（如rank-1投影），角度估计的可能形式是什么？Rayleigh商类方法在这个方向有潜力，但未在本文触及。

确认是否为真gap的建议：查近期NIPS/AISTATS/COLT 关于“模型参数迁移 + 无个体数据”的论文（如 2023-2024 年的 joint subspace alignment 类工作），如果大家都在讨论第2和第3点，那确是该方向的硬缺口；如果不是，则本文章的收敛常是次要的。

Maintained by 陈星宇 · Homepage · Source on GitHub