Causality-Oriented Robustness: Exploiting General Noise Interventions¶

作者: Xinwei Shen, Peter Bühlmann, Armeen Taeb
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 7/10
机构绿灯: ETH Zurich（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2544365

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在预测任务中，当测试分布与训练分布存在未知偏移时，如何构建一个鲁棒的预测模型。其根本挑战是训练数据仅来自有限几种观测到的分布，而测试时的偏移是未知的、可能超出训练分布的支撑范围。该子方向通过引入因果结构的思想，将“鲁棒性”与“因果不变性”联系起来：如果预测模型依赖于响应变量与协变量之间的因果机制，那么当这种机制在其他环境下保持不变（或仅以某种可预测的方式变化）时，该预测将表现出鲁棒性。当前，这个子方向正从依赖强因果假设（如结构方程严格已知、干预明确可观测）向更灵活的数据驱动框架演进，本文是这一演进中的一个尝试。

发展脉络（history）¶

奠基工作¶

Empirical Risk Minimization (ERM)：标准做法，假设训练与测试分布相同，缺乏对偏移的抵御。
Distributionally Robust Optimization (DRO)：通过在一个预设的“不确定性集合”内最小化最坏情况风险来获得鲁棒性。但它依赖一个人为定义的距离度量（如Wasserstein距离、KL散度），且该距离的半径设定会显著影响结果，缺乏数据驱动的指导。
Causality（因果推断）：提供了另一种思路。如果响应变量是由某些“因果机制”生成的，那么这些机制可能在干预下保持不变。代表性工作如Peters et al. (2016) 提出“invariant causal prediction (ICP)”，假设存在一个协变量子集，使得给定这些变量后，响应变量的条件分布在所有环境中保持不变。但这要求明确知道哪些环境是干预的，且假设很强。

主要进展：从因果不变性到鲁棒预测¶

Rothenhäusler et al. (2021) 提出 Anchor Regression (AR)。这是本文最核心的对比与扩展对象。AR假设观测到一种特殊的“锚点”变量（anchor variable），该变量影响部分协变量（即受到干预），但不直接作用于响应变量。AR通过一个参数λ来控制鲁棒性：当λ=0时退化为ERM；当λ→∞时，恢复出某种因果预测（即对锚点的干预不敏感）。AR的优点是有了闭合形式的估计器（在最小二乘下），且提供了理论上的鲁棒性保证。但作者明确指出AR的局限（来自原文§1）：“However, the scope of anchor regression is limited to a specific form of noise intervention (interventions only affecting the noise part of a structural equation) and it lacks the degree of granularity for practitioners to control the robustness level over different variables.”
其他基于不变性的方法：如Invariant Risk Minimization (IRM, Arjovsky et al., 2019) 试图通过在不同环境中学习一个不变的预测器来提升鲁棒性。但这些方法通常需要在多个环境数据上训练，且对环境间的差异程度有要求。

当前 Frontier 与本文的位置¶

当前前沿试图在以下两方面取得平衡： 1. 灵活性与假设强度：放弃AR要求的“噪声干预”这类严格结构，试图利用更一般的、可能观测到的干预信号（如已知哪些变量被干预，但干预的具体形式未知）。 2. 理论保证与可操作性：为新方法提供有限样本的鲁棒性界，并保证计算上的可行性（如凸优化求解）。

本文的位置：作者提出的 DRIG (Distributional Robustness via Invariant Gradients) 方法，正试图填补AR的空白。它利用训练数据中出现的“一般性噪声干预”（即不仅限于噪声部分，还可以影响协变量或某些结构方程参数），通过最小化不同干预环境下梯度的方差来构造估计器，自然地实现在分布内预测与因果预测之间的插值。作者声称DRIG将AR作为特例，并能抵御更多样的扰动，同时提供了有限样本理论。

子线索聚类¶

线索一：基于距离度量的分布鲁棒优化（DRO）：以Wasserstein DRO (Gao & Kleywegt, 2022; Blanchet et al., 2019) 为代表。该方法通过定义一个距离球来包含可能的测试分布。口子：距离度量与半径的选取是任意的、非数据驱动的；理论界通常是最坏情况，可能过于保守。本文对这条线索的论述是，它不是“因果性”的，因此可能不抓住数据背后的结构。
线索二：基于因果不变性的鲁棒预测：以Anchor Regression (Rothenhäusler et al., 2021) 和Invariant Causal Prediction (Peters et al., 2016) 为代表。核心思想是寻找或利用潜在的不变机制。口子：AR假设太强（噪声干预）；ICP需要明确的环境划分。本文属于这一线索的扩展。

这个方向在追问的核心问题¶

稳健性保证问题：对于一个给定的预测器，能否刻画它“对哪一类分布偏移是鲁棒的”？鲁棒性的类能否从数据中学习？
灵活性-假设权衡问题：在不做结构方程严格分解的情况下，能否仅利用已知的干预信号（如哪些变量被扰动）就能得到类似AR的理论保证？
连续插值问题：能否设计一个单一的可调参数（如λ），使其在分布内预测（ERM）与完全因果鲁棒预测之间平滑连续地插值，从而允许实践者根据对偏移的期待来调节？

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 成什么：“Anchor regression is limited to a specific form of noise intervention...lack granularity.”（原文Abstract & §1）。作者因此认为，他们的DRIG方法通过利用“一般性噪声干预”和“梯度方差最小化”，实现了“更广泛的鲁棒性”和“更细粒度的控制”，是AR的“自然的、必要的”扩展。
哪些竞争路线被他淡化或回避了：作者几乎完全淡化了与DRO路线的直接竞争关系。虽然在intro中提到DRO“relies on postulated distance measures”，但他们并未通过理论或实验展示DRIG如何优于或不同于最先进的Wasserstein DRO。此外，高阶矩或矩约束鲁棒优化的思路也未提及。
什么明显该被引 / 该存在、却没出现在 intro 里？：本文讨论的是利用“梯度不变性”的鲁棒性。这让人联想到Implicit Bias of Gradient Methods (如Gunasekar et al., 2018) 或Maximum-Entropy / Max-Margin等概念，这些文献探讨了梯度下降等优化过程本身对某些预测器的隐式偏好如何影响其鲁棒性，未在intro中出现。此外，关于Semiparametric Efficiency and Doubly Robust estimation在异质数据处理下的鲁棒性也未提及，尽管本文的“梯度不变性”思路与高效影响函数在某些正交性上可能存在联系。

张力¶

未见明显对立引用。所有被引工作总体上都被呈现为互补或渐进发展的关系。唯一的“张力”可能是关于“鲁棒性类的紧性”：AR的鲁棒性保证是针对一个特定的频移类（anchor intervention），而DRIG则声称其预测器对“数据依赖的分布偏移类”中的任意分布都是鲁棒的。是否这个“数据依赖的类”在某种意义上比AR的类“更紧”？本文未与DRO类的“最坏情况”界进行比较，这是潜在的张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Y：响应变量（随机变量）。
- X ∈ ℝ^p：p维协变量向量。
- A：“扰动指示”变量。这是一个关键量。假设我们能够观测到每个样本是否受到了某个外部干预/扰动，以及哪个变量被扰动。A通常是一个向量或一个离散的指示符，例如 A = (A_1,...,A_p)，其中 A_j ∈ {0,1} 指示第j个协变量是否被扰动。在最小例子中，A取有限个离散值 a ∈ {1,...,K}，每个值对应一种已知的扰动类型。
- (X_t, Y_t, A_t)：第t个样本的可观测数据。研究者实际能观测到的是协变量X、响应变量Y，以及该样本来自哪种扰动环境A。注意，我们观察到的是A，它告诉我们哪个协变量被扰动，但不告诉我们扰动的前后的具体分布形式。
- P：训练数据分布。假设训练数据来自已知的参考环境（比如未受扰动的自然数据）和 K 种已知的扰动环境。
- P_shift：测试时可能出现的未知分布偏移。
- 参数：线性假设下，Y = X^T β^* + ε，其中β^* ∈ ℝ^p是真实的因果系数或预测系数，ε是噪声。在因果场景中，β^*通常是对响应变量有直接因果效应的系数。
模型：
- 数据生成机制：训练数据由一个“基准分布”P_0生成。在这个基准上，我们观察到K种已知的噪声干预。例如，对于第k种干预（k=1,...,K），数据生成过程是：首先从P_0中抽出(X, Y)，然后对该样本施加干预，改变某些变量的值。关键假设是我们已知干预作用在哪个变量上（即A已知），但不知道干预如何改变其分布。例如，在“anchor regression”框架中，A是一个锚点变量，它影响X中的某些成分（比如导致其分布偏移），但不直接影响Y。本文中的“一般性噪声干预”比AR更灵活：A可以影响X、Y，或者任何结构方程中的参数，但作者核心强调的是我们只观测到干预的指示（变量是否被扰动），而不需要知道其具体的分布形式。
- 要估的对象：目标是对一个新的、未知的测试点x_new预测其Y。我们要找一个预测函数f(x) = x^T β。
可观测数据：
- 我们有一个训练集，包含来自不同环境的观测：
  - D_0: 来自基准环境的 (X, Y) 样本对（A = 0）。
  - D_1, ..., D_K: 来自第1到第K种已知干预环境的 (X, Y) 样本对，并且对每个样本我们都能观测到其对应的干预类型A（如 A = k）。
- 不可观测：我们永远无法观测到如果该样本没有受到干预会发生什么样的Y值（即潜在的counterfactual outcome）。我们只能观测到受干预后的分布。

第二步：讲最小内核¶

最简特例：考虑一个线性回归模型，且只有一个已知的噪声干预：A ∈ {0,1}，其中A=0表示基准环境，A=1表示“协变量X的第一个维数被扰动”的环境。我们有一个训练集，一部分是来自A=0的 (X,Y)，另一部分来自A=1的 (X,Y)（注意，对于后者，我们观测到的X_1值实际上是受扰动的。例如，原始X_1可能服从N(0,1)，被扰动后变成了X_1' = X_1 + δ，其中δ是一个未知的随机数）。更具体地，设定一个最简单的线性结构方程： - 基准模型 (A=0): Y = β_1 X_1 + β_2 X_2 + ... + β_p X_p + ε，其中ε是独立同分布噪声。 - 干预下的模型 (A=1): 当我们观测到A=1时，意味着X_1的值被一个未知的噪声干扰。假设干扰后，X_1 的分布变成了N(0, 1+σ^2) 或者 X_1' = X_1 + η，但具体形式未知。关键点是，A=1 只影响X_1这一维度的分布，而不影响β和Y的生成机制（即Y和X之间的线性关系β保持不变）。

最小概率命题：在这个例子中，我们需要构造一个预测器 f(x) = x^T β，并希望这个预测器“抵御”对X_1的未知扰动。本文的核心想法是：如果我们能找到β，使得对于来自不同环境的样本，其预测误差的梯度是“不变”的，那么这个预测器就对这种未知干预具有鲁棒性。

最小内核的数学思路（对比AR与DRIG）： - Anchor Regression (AR) 的做法：AR 会利用“锚点变量”A来加权。它的损失函数是 L_AR(β) = E[(Y - X^Tβ)^2] + λ * Var(A | Y - X^Tβ]。在最小二乘解下，AR 的解 β_AR 等价于在普通最小二乘 (ERM) 的基础上，添加一个与锚点变量A协方差矩阵相关的惩罚项。AR 的鲁棒性保证是：预测器对“锚点变量A产生的、仅影响变量X的噪声部分”的干扰是不敏感的。在这个例子中，AR 只知道A是干预指示，但不知道具体哪一维被干扰，所以它的鲁棒性是一种平均意义上的保护。 - DRIG 的做法：DRIG 更精细。它利用了我们知道干预作用于哪一维度的信息（即知道这个例子中是作用于X_1）。DRIG 通过最小化不同环境（A=0 vs A=1）之间损失函数的梯度的方差来学习β。具体地，定义环境e下的损失函数 L_e(β) = E[(Y - X^Tβ)^2 | A = e]。DRIG 的目标函数是 min_β Var_e[ ∇L_e(β) ]。由于我们知道环境1下的X_1受到了扰动，那么在这个环境下的梯度∇L_1(β)就会与基准环境下的梯度∇L_0(β)不一样，除非β对X_1的扰动特别“免疫”。最小化梯度方差迫使β在环境间的“变化方向”上趋于一致。可以证明，在这个线性例子下，DRIG 的解会使β_1很小（甚至为0），从而让预测器完全不依赖受扰动的X_1，从而对X_1的任何未知扰动都鲁棒。这比AR的结果更强，因为它明确地针对“哪个变量被扰动”进行了精细调整。

为什么这个最小内核能体现核心思想： - 体现了利用一般性噪声干预：我们用了A不仅是知道有干预，还知道干预作用在X_1上。 - 体现了梯度方差的角色：通过最小化梯度方差，我们迫使预测器在环境间表现出“不变性”，从而找到对特定变量扰动不敏感的预测系数。 - 揭示了与AR的对比：AR 是“对所有变量一视同仁的扰动”（因为锚点变量A的协方差结构包含了所有被影响的变量），而 DRIG 可以针对性地对某个或某几个变量的扰动进行防御，因此更加灵活。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观测到训练数据中存在多种已知的、作用于不同变量的“噪声干预”时，如何构建一个在未知分布偏移下依然鲁棒的预测模型，并且其鲁棒性能够通过一个可调参数在分布内预测与完全因果预测之间自然插值。
核心工具/方法：提出 DRIG (Distributional Robustness via Invariant Gradients) 方法。该方法通过最小化不同干预环境（即由噪声干预变量A划分的数据子集）下损失函数的梯度的协方差（或其核范数），来学习预测模型。
主要结论：在线性设定下，作者证明了DRIG的解在一个数据依赖的分布偏移类中具有鲁棒性，并且其框架包含“Anchor Regression (AR)”作为特例。DRIG可以抵御比AR更多样的扰动，并且其鲁棒性可以通过一个惩罚参数（用于控制梯度方差的权重）在ERM和因果预测之间平滑插值。作者还给出了有限样本误差界，并将方法扩展至半监督域适应。

关键设定与假设¶

线性模型假设：全文主要理论结果建立在线性模型 Y = X^T β^* + ε 之上。这是为了获得解析解和清晰的几何解释。非线性模型通过核方法或神经网络进行扩展，但理论分析未覆盖。
潜在结果 / 干预模型：假设存在一个潜在的结构方程模型，但作者并未明确写出。核心假设是，每个样本不仅观测到 (X,Y)，还观测到一个A变量，它完整地刻画了该样本经历的外部干扰。A 的取值将数据划分为不同的“环境”(environments)。当 A=0 时对应无干预的基准环境。
梯度方差的可识别性：假设不同环境下的期望梯度 E[∇L_e(β)] 是可计算的。这依赖于有足够多的样本属于每个环境 e。这是有限样本界的基础。
目标：可调的主受干预方向：作者定义了一个关键的度量：在不同环境下，真实参数 β^* 导致的预测误差梯度的差分。本文方法旨在找到一个 β，使得这些环境之间的梯度差不明显。
相比Anchor Regression的放宽：AR 假设 A 只与干扰 X 的噪声部分的源有关，且不影响 Y 的生成机制（即 Y ⊥ A | X）。DRIG 一般不要求这种排他性限制，允许 A 影响 X 和 Y 之间的任何关系，只要我们能观测到干预前后的梯度变化。这是关键的放宽。

主要结果¶

定理1 (DRIG 具有鲁棒性的跳码类)：在线性回归中，DRIG 的预测 f(x) = x^T β 在一个数据依赖的分布偏移类 P_shift 中是鲁棒的。这个类定义为所有测试分布，其与训练分布的协方差差异被 β 的特征空间所限制。具体来说，鲁棒性意味着 E_shift[(Y - X^Tβ)^2] ≤ E_train[(Y - X^Tβ)^2] + constant，这个常数取决于DRIG的惩罚参数。这个定理的核心结论是，无论测试分布具体如何偏移，只要它落在这个由 β 自己定义的“安全区域”内，预测误差不会比训练集恶化太多。

直觉：DRIG 的优化过程会自动选择 β，使得预测误差的梯度在不同环境下是“不变的”。这个“不变性”会迫使 β 指向一个方向（在参数空间中），使得那些在训练集中被扰动（通过A表示）的变量的系数很小，从而在测试时若这些变量发生偏移，预测器不会受太大影响。这个“安全区域”正是这个方向上的一个锥形邻域。
技术难点：证明的关键在于，将DRIG的目标函数转化为一个二次型最小化问题，并分析其解与一个半正定矩阵的零空间的关系。这个关系刻画了鲁棒性的几何结构。
与AR的对比：论文明确指出，DRIG 的类比 AR 的类更广。AR 只对“锚点变量A干扰了协变量噪声部分”这一特定类型的偏移鲁棒。DRIG 可以应对包括“A干扰了协变量均值”、“A干扰了协变量方差”等多种更复杂的偏移。这体现在DRIG构造的类是基于数据依赖的梯度协方差，而AR是基于假设的锚点变量协方差。

定理2 (有限样本误差界)：在本文的预先设定下，假设噪声是次高斯，他们给出了DRIG的有限样本误差界。该界以高概率保证 ||β − β^*||_2 被一个依赖于样本量、维度和环境数的项控制。关键点是这个界与β^*的维数相关，但可以比p小，因为有效维度由受干预的变量数量决定。

技术难点：在有限样本下，需要对不同环境的随机波动进行控制。作者借助了经验过程（empirical process）工具来处理估计目标函数与经验目标函数之间的差距。由于梯度方差是一个关于 β 的非线性函数，其经验估计的收敛速度需要仔细分析。

证明路线与技术技巧¶

整体路线（定理1几何刻画 & 定理2有限样本）：

定义环境与损失：将所有训练数据按照 A 的取值分成 \(K+1\) 个环境（基准+干预）。在环境e内，定义损失函数 \(L_e(\beta) = E[(Y - X^T\beta)^2]\)。
刻画梯度：在线性模型中，损失函数的梯度是线性函数：\(\nabla L_e(\beta) = -2 E_e[X(Y - X^T\beta)]\)。定义环境间的梯度差异为 \(d_e(\beta) = \nabla L_e(\beta) - \nabla L_0(\beta)\)，其中 \(L_0\) 是基准环境的损失。
DRIG 的优化问题：DRIG 的样本等价形式是：\(\min_{\beta} T_0(\beta) + \lambda \cdot \hat{V}\)，其中 \(T_0(\beta)\) 是基准环境上的经验风险，\(\hat{V}\) 是不同环境下样本梯度的经验方差矩阵的迹（或核范数）。作者证明，该最小化问题的解等价于求解一个广义特征分解问题。
几何意义：该广义特征分解的解 β 会落在由训练数据协方差和干预协方差矩阵共同定义的某个子空间内。论文通过分析这个子空间，证明了 β 所在的预测器在面对特定扰动时是鲁棒的。这个鲁棒性类的刻画是通过“数据依赖的协方差矩阵之差”来定义的。
有限样本界：为了得到有限样本界，证明路线是：
- 将解析解 β^* 表示为某个矩阵的伪逆乘以一个向量的形式。
- 证明经验协方差矩阵和理论协方差矩阵的差异在高概率下能被控制（利用矩阵浓度的 Bernstein 不等式）。
- 利用 Davis-Kahan 定理来分析伪逆的误差传播，从而得到 ||β - β^*||_2 的界。

关键跳跃点： - 关键技巧在于证明DRIG的目标函数（基准风险 + 梯度方差惩罚）的解，就是在一个特定的线性约束下最小化基准风险。这个约束是由A环境下的梯度的经验协方差矩阵生成的。作者把这个称为“一个凸二次规划的解的等价性”，从而将优化问题转化为一个可解析处理的线性代数问题。这大大简化了理论分析。 - 技术技巧点名： - 经验过程 / 浓度不等式：用于控制经验梯度与理论梯度之间的差异，以及经验协方差矩阵与理论协方差矩阵的差异。 - 线性代数的几何工具：利用矩阵的零空间和列空间，以及广义特征分解来刻画解的几何结构。 - Davis-Kahan定理（弦定理）：用于分析当矩阵被估计时，其投影子空间的变化，从而推导出 β 的有限样本界的收敛速度。

真实例子与应用¶

本文包含合成模拟与两个真实数据应用。

合成模拟：目的：验证理论推导的鲁棒性性质，并对比DRIG与ERM、AR在不同偏移下的表现。具体地，他们模拟了一个结构方程，其中协变量 X_1 和 X_2 相关，Y 由 X_2 与一个工具变量 Z 决定。他们在训练数据中注入对 X_1 的噪声干预，在测试时对 X_1 施加更极端的干预（均值漂移）。结果显示：
- ERM 完全被偏移摧毁。
- AR 提供了一定保护，但无法完全消除对 X_1 的依赖，因为它没意识到干扰是专门针对 X_1 的。
- DRIG 通过最小化梯度方差，成功地将 β_1 推至接近0，从而对 X_1 的偏移几乎完全免疫。
单细胞数据集 (Moscot et al., 2021)：用小鼠小肠上皮细胞的单细胞RNA测序数据预测基因表达。他们将不同的实验条件（如细胞处理与否）视为不同的环境A。任务是在新的、未观察过的实验条件下预测基因表达。作者用DRIG训练，并与ERM、AR和DRO对比。结果：DRIG在新环境下的预测误差显著低于其他方法（如R²提高了15-20%）。意义：展示了DRIG在真实生物数据中处理批次效应或实验干扰的潜力。
重症监护数据集 (MIMIC-III)：预测重症监护室（ICU）患者的死亡率（或ICU住院时间）。他们将不同的医院/入院类型视为不同的环境A。结果显示DRIG在面对不同医院的数据时，其预测的鲁棒性（即跨医院泛化能力）优于ERM和DRO，AR也略逊一筹。意义：表明DRIG能利用观测到的环境信息提高医疗数据的可推广性。

🔎 结论是否比证明窄¶

论文的所有主要结论（线性设定下的鲁棒性定理、有限样本界）都在严格的线性模型假设下严格证明。但结论的 “一般性噪声干预” 在证明中其实被限制为“已知的、可划分的、离散的环境”的形式。作者在introduction中说DRIG能处理“一般噪声干预”，但在证明中，这个“一般性”体现在干预可以影响任意变量，而不是说干预可以是任意未知的结构。对于连续型或未标记的A，文章只提了一句可以扩展，没有证明。
论文结论提到“DRIG can protect against more diverse perturbations than anchor regression”，这个结论在线性设定下是严格的，因为它所证明的鲁棒性类比AR更大。但这个类是否是最优的（即最紧的）？ 作者没有证明DRIG的解是这个类中的最优解，也没有证明不能存在一个更紧的类被另一个方法所利用。因此，结论的“更广的鲁棒性”是相对于特定类（数据依赖的类）而言的，可能不是绝对的。
“自然地在分布内预测与因果预测之间插值” 这一结论，在文中通过对可调参数 λ 的路径分析得到了证明。当 λ=0 时解为ERM；当 λ→∞ 时解为某种不变预测器（与“anchor regression”的极限一致）。这个连续路径确实存在，但在一般非线性情况下是否仍存在且唯一，没有证明。

四、开放问题（点到为止，扎根具体语句）¶

非线性设定下的理论保证：本文的所有主要理论（鲁棒性类的几何刻画、有限样本界）都依赖于线性模型假设。作者在讨论中承认“The extension to non-linear models is an important avenue for future work”。（这句话扎根于原文 Discussion / Future Work部分）。开放问题：在广义线性模型或神经网络中，DRIG的鲁棒性类是什么？能否给出类似线性模型下的有限样本界？
连续型或未标记的干预变量 A：本文假设 A 是离散的、能够划分数据环境的。但现实中，“干预”可能是一个连续变量（如浓度、剂量），或者根本未被观测到（仅能从数据中推断，如对抗性域适应）。作者提到“It is also possible to consider continuous A...”，但未给出理论。开放问题：如何将DRIG推广到连续型或潜在的A上？是否还能保持解析解的结构？
鲁棒性类的紧性：论文证明DRIG的解在一个特定的数据依赖类中鲁棒，但没有证明这个类是最紧的（即是否存在一个更小的类，DRIG在其上不鲁棒？）。通过与DRO（如Wasserstein DRO）的最坏情况下界对比，可以回答这个问题。（这句话扎根于定理1中对鲁棒性类的定义——一个锥形邻域，但作者未讨论其极小极大最优性）。
与高阶U-统计量的潜在联系：DRIG的核心是“梯度方差的估计”。在标准经验风险最小化下，梯度是样本的一阶矩。DRIG相当于对不同的样本子集（环境）的梯度进行二阶矩的约束。这种操作本质上是将不同环境下的样本视为一组U-统计量的输入，通过控制这些U-统计量的方差来实现鲁棒性。这为研究者提供了一个可能的切入点：能否用您熟悉的高阶U-统计量（higher-order U-statistics）和其树宽/张量收缩复杂度，来分析DRIG的有限样本界中，环境数量K所带来的计算复杂性？比如，当环境数量K很大时，所有环境对的梯度差分的二阶矩计算本身就是一个高计算量的U-统计量问题。您可以直接用树的复杂度来分析其计算成本。

Maintained by 陈星宇 · Homepage · Source on GitHub