跳转至

Environment invariant linear least squares

作者: Jianqing Fan, Cong Fang, Yihong Gu, Tong Zhang
来源: Annals of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本子方向研究的是:在多环境(multi-environment) 线性回归设定下,如何利用跨环境分布变化但因果机制不变的不变性原理,来识别出对响应变量具有稳定因果效应的变量集及其系数。其根本目标是解决内生性问题(遗漏变量、混淆变量导致的参数估计偏误),实现不依赖于特定分布假设的、可迁移的因果推断。当前该方向的成熟度:理论框架已基本建立(以 Peters et al., 2016 为标志),但有限样本保证高维变量选择的非渐近理论仍处于早期阶段。

发展脉络(history)

  • 奠基工作:Schölkopf et al. (2012) 提出了因果与反因果学习的概念,指出因果方向的学习可以利用机制不变性,而反因果方向则不能——这为后续利用环境差异进行因果推断奠定了哲学基础。Peters et al. (2016) 是里程碑之作,提出了不变因果预测(ICP) 框架:给定多个实验环境下的观测数据,利用“正确因果模型下预测误差的分布跨环境不变”这一原理,实现线性模型中因果变量集的识别与置信区间构造。作者引用语境:“As a pioneering work, Peters et al. (2016) considers the multiple environments setting...”

  • 主要进展分为两条子线索

    • 不变性预测的扩展与加速:Rothenhäusler et al. (2017) 提出了 Causal Dantzig,通过“内积不变性”替代ICP中耗时的反向搜索,实现了线性SEM中大规模因果推断。Rothenhäusler et al. (2018) 提出了 Anchor Regression,将OLS和2SLS统一在一个框架下,利用外生变量(anchor)实现分布鲁棒预测,且允许工具变量假设被违反。Pfister et al. (2019) 提出了 Stabilized Regression,显式区分稳定与不稳定预测变量以提升跨环境泛化能力。Yin et al. (2021) 提出了 CoCo,将环境异质性转化为优化目标,使得唯一解为因果解。
    • 不变性在深度学习的推广与争议:Arjovsky et al. (2019) 提出了 Invariant Risk Minimization (IRM),将不变性原理扩展到深度特征学习。其后大量变体涌现:Sagawa et al. (2020) 的 Group DRO、Krueger et al. (2020) 的 REx、Lu et al. (2021) 的 非线性IRM。但 Rosenfeld et al. (2020) 和 Kamath et al. (2021) 给出了严格的理论批评:在相当自然的线性模型中,IRM 无法恢复最优不变预测器,且其相对于标准ERM的改进“并不清楚”。
  • 当前 frontier 与本文位置:上述方法的共同短板是缺乏有限样本理论保证(尤其是估计量的 ℓ₂ 误差界和高维变量选择一致性)。Fan, Fang, Gu, Zhang (2024) 的 EILLS 正是填补这一缺口:它是第一个在一般线性模型下,同时给出 (i) 非渐近 ℓ₂ 误差界与 (ii) ℓ₀ 惩罚变量选择一致性的环境不变性方法。作者自我定位:“To the best of our knowledge, this paper is the first to realize statistically efficient invariance learning in the general linear model.”

  • 子线索聚类

    • 线索A:不变性预测(ICP路线) —— 以 Peters et al. (2016) 为中心,强调模型假设检验置信区间,后续包括 Causal Dantzig、Anchor Regression、Stabilized Regression、CoCo。特点:统计严谨,但计算代价高,缺乏有限样本理论。
    • 线索B:分布鲁棒优化(DRO路线) —— 以 IRM 为核心,强调最差环境泛化,包括 Group DRO、REx 等。特点:易于深度网络整合,但理论保证薄弱,且已在简单线性问题上被证明可能失效。
    • 线索C:变量选择与内生成分 —— Fan & Liao (2014) 研究“偶然内生性”(incidental endogeneity)在高维回归中的危害,提出 Penalized FGMM 来应对。这条线索与 EILLS 直接关联:EILLS 不需要工具变量,仅靠多环境异质性实现内生性规避。作者明确关联:“This arises easily in the high-dimensional settings as argued in Fan & Liao (2014)...”

核心追问

  1. 识别条件:需要多少环境、环境差异多大,才能唯一地确定真实参数集?最小识别条件是什么?
  2. 估计效率:给定可识别性,EILLS 估计量的 ℓ₂ 收敛速度是多少?是否达到 minimax 最优?
  3. 高维扩展:当变量数 p 远大于样本量 n 时,EILLS 能否一致地筛选出真实重要变量?所需条件与 Lasso/SCAD 相比是更强还是更弱?
  4. 与 IRM 的比较:IRM 的无限样本表现已被证明可能劣于 ERM,那么 EILLS 是否避免了这些病理案例?

⚠️ 作者的 framing

  • 作者把缺口 frame 成什么:作者指出,已有方法(线索A的Rothenhäusler 2017/2018、Pfister 2019、Yin 2021)虽利用不变性原则,但“要么缺乏有限样本理论,要么假设了额外的结构知识”。EILLS 则“不依赖任何先验结构知识”,且提供了“统计效率”和“变量选择一致性”的非渐近保证。
  • 哪些竞争路线被淡化或回避:作者完全回避了线索B(IRM及其变体) 的深入对比——仅在引言末尾一笔带过“the performance improvement over the standard empirical risk minimization is not clear (Rosenfeld et al., 2021; Kamath et al., 2021)”,并未从技术假设差异层面讨论为何 EILLS 可能优于 IRM。这里埋着一个潜在问题:IRM 考虑的特征是非线性函数,而 EILLS 仅限于线性模型——两者适用场景不重叠,但作者未明确划线。
  • 什么明显该被引 / 该存在、却没出现在 intro 里
    • 线索A中缺乏 finite-sample theory 的被指工作,如 Rothenhäusler et al. (2017, 2018)、Pfister et al. (2019)、Yin et al. (2021),作者明确指其缺点并以此为动机。但读者应自行验证:这些工作是否真的毫无 finite-sample 保证?例如 Anchor Regression 至少给出了 distributional robustness guarantees(但对估计误差没有给出非渐近界)。
    • 未见到DML (Double/Debiased Machine Learning)Neyman正交性 的引用。DML 在处理内生性时也采用“多环境/多样本分割+正交估计方程”结构,但 EILLS 的正交性来源是环境异质性而非样本分割。这是一个值得研究者追问的缺失。
    • 未见到对 Bühlmann et al. (2014) “Causal discovery from high-dimensional data”Maathuis et al. (2009) “Estimating high-dimensional intervention effects...” 的引用——这些工作处理的是更一般的因果图结构,而 EILLS 只限制于线性结构方程——这是否说明 EILLS 的模型假设其实相当强?

张力

  • 未见明显对立引用。不过存在一个隐含的紧张关系:线索A(ICP)强调“预测误差分布不变”,线索B(IRM)强调“特征映射后预测器不变”,而 EILLS 强调“给定重要变量的条件期望不变”。这三个“不变性”是否等价?在什么条件下等价?作者未讨论。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号:

  • E = 环境编号的集合,|E| = M(环境的个数)。每个环境 e ∈ E 提供样本。
  • nₑ = 环境 e 中的样本量,总样本量 n = ∑ₑ nₑ。
  • y(e) = 环境 e 下的响应变量(标量,随机变量)。
  • x(e) = 环境 e 下的 p 维协变量向量(列向量)。
  • β = p 维真实参数向量(因果系数),是要估计的对象*。
  • S = { j : βⱼ ≠ 0 },真实重要变量集(支持集),也是要识别的对象。|S*| = s(稀疏度,远小于 p)。
  • ε(e) = 环境 e 下的回归误差(标量随机变量)。
  • μ_ε = 误差的分布(跨环境不变,均值 0,方差 σ²)。
  • Eₑ[·] = 对环境 e 下的分布取期望。

模型:

多环境线性回归模型:

y(e) = x(e)ᵀβ* + ε(e)
其中: 1. 条件期望不变性:给定真实重要变量 x_S (e),y(e) 的条件期望跨环境不变。等价地,Eₑ[ y(e) | x_S(e) ] = x_S(e)ᵀ β_S(即,噪声 ε(e) 的均值在给定 x_S(e) 时为0)。 2. 内生性:允许 ε(e) 与部分协变量相关,即对于 j ∉ S,可能有 Eₑ[ xⱼ(e) ε(e) ] ≠ 0(这些变量是“虚假/非因果”的,可能存在混淆)。对于 j ∈ S,我们有 Eₑ[ xⱼ(e) ε(e) ] = 0(核心变量外生)。 3. 环境异质性:x(e) 的边际分布(均值、协方差)可随环境 e 而变化,这是识别 β* 的关键。

可观测数据: - 观测到 M 组独立数据集:{(x_i(e), y_i(e))},i = 1,..., nₑ,e ∈ E。 - 不可观测 / 潜在量:我们不知道哪些变量属于 S(即不知道哪些是因果变量);我们不知道*噪声 ε(e) 的具体分布(仅假设其跨环境相同)。

第二步:最小内核

最简特例:p=2(两个协变量 x₁, x₂),M=2(两个环境 e=1,2)。真实结构是:只有 x₁ 是重要变量(S = {1}),β = (β₁*, 0)ᵀ。存在内生性:在环境1中,x₂ 与 ε 相关(E₁[ x₂ ε ] ≠ 0);在环境2中,x₂ 与 ε 可能不相关或相关程度不同。

此特例下,EILLS 的核心想法: 如果用标准 OLS 单独在每个环境拟合,由于内生性,得到的 x₂ 系数不会是 0(虚假因果)。但关键是:真实参数 β 应使残差 y(e) - x(e)ᵀβ 的期望为零给定 x₁,即 Eₑ[ y(e) - x(e)ᵀβ | x₁ ] = 0,且此条件跨环境成立。但 x₂ 不是真实原因,所以 β₂ = 0 时,此条件成立;对任何非零的 β₂,x₂ 与 ε 的相关会使得这个条件被破坏。

EILLS 构造的目标函数是一个跨环境加权最小二乘形式,它惩罚了那些使得预测残差在不同环境下条件期望不一致的 β。具体地,EILLS 目标是:

min_{β}  Σₑ wₑ · Eₑ[ (y(e) - x(e)ᵀβ)² ]
其中 wₑ 是环境特定的权重(用于处理环境间协方差差异)。作者证明:在近最小识别条件下,使上述目标达到最小的 β 是唯一的,且等于 β*。由于 x₂ 不是真实变量,它会被自动“剔除”(其系数被推至0),而 x₁ 的系数被精确识别。这个识别不需要知道哪个变量是混淆的,也不需要工具变量。


三、这篇论文做了什么(本次重心,务必讲透)

三句话

  • 研究问题:在多环境线性回归下,给定每个环境的联合分布可变但给定真实重要变量的条件期望不变,如何同时估计真实参数 β 和识别重要变量集 S,且不依赖额外的结构知识(如工具变量)。
  • 核心工具/方法:构造 环境不变线性最小二乘(EILLS) 目标函数,它是一个跨环境加权最小二乘,利用环境异质性与条件期望不变性,通过求解一个凸优化问题来识别 β*。
  • 主要结论:(i) EILLS 在近最小识别条件下可唯一识别 β*;(ii) 建立了 EILLS 估计量的非渐近 ℓ₂ 误差界(O(√s log p / n) 的量级);(iii) ℓ₀ 惩罚的 EILLS 在高维设定下实现变量选择一致性(sure screening 的加强版本)。

关键设定与假设(在第二节基础上补全)

  • 设定:多环境线性模型 y(e) = x(e)ᵀβ* + ε(e)。

    • 环境 e 的分布 Pₑ 由边际分布 Pₑ(x) 和条件分布 Pₑ(y|x) = P(y|x_S*(e)) 组成,后者跨环境不变。
    • 允许 ε(e) 与 x(e) 中非 S* 的部分相关,即存在内生性。
    • 子高斯或子韦布尔噪声假设(可放松至次指数/次韦布尔等)。
  • 关键假设(作者的架空)

    • A1(环境异质性):存在至少两个环境,其 x(e) 的协方差矩阵 Σₑ 是不同的,且这些差异足够大,使得“两个协方差矩阵之差”的秩能够识别 β。作者称此为“近最小识别条件”:即存在环境对 (e₁, e₂) 使得 Σ_{e₁} - Σ_{e₂} 的列空间包含 β 的方向。这比传统 IV 假设(存在排他性工具且工具与内生变量强相关)要弱。
    • A2(条件期望不变性):Eₑ[ y(e) | x_S(e) ] = x_S(e)ᵀ β_S 对所有 e 成立。这是整个方法的前提。
    • A3(稀疏性):s = |S*| ≪ n,且 s log p / n 足够小(对于高维情况)。
    • 相比已有文献:相比 ICP(Peters et al., 2016),EILLS 不需要穷举搜索所有可能的变量子集;相比 Causal Dantzig(Rothenhäusler et al., 2017),EILLS 不需要假设所有干预都是加性干预;相比 Anchor Regression(Rothenhäusler et al., 2018),EILLS 不需要外生 anchor 变量

主要结果

  • 定理1(识别性与 ℓ₂ 误差界)

    • 陈述:在近最小识别条件和子高斯噪声下,EILLS 估计量 \(\hat{\beta}\) 满足:
      \[\| \hat{\beta} - \beta^* \|_2 \leq C \cdot \sigma \sqrt{\frac{s \log p}{n}}\]
      以高概率成立(≥ 1 - p^{-c})。C 是与环境和噪声分布有关的常数。
    • 直觉:EILLS 的收敛速度与 Lasso 的最优 ℓ₂ 误差同阶(忽略对数因子),表明其样本效率与标准的稀疏线性回归相当,尽管存在内生性。这是方法的核心贡献:证明了不需要任何先验结构(如工具变量)即可达到与无内生性情况几乎相同的速度。
    • 必要条件:近最小识别条件成立;噪声为子高斯;Σₑ 的最小特征值有下界;环境间的异质性足够明显。
    • 解决的技术难点:处理环境间的样本量差异与协方差差异,设计合适的权重 wₑ 以实现最优方差权衡。
  • 定理4(ℓ₀ 惩罚 EILLS 的变量选择一致性)

    • 陈述:对于 ℓ₀ 惩罚的 EILLS:
      \[\hat{\beta} = \argmin_{\beta} \left\{ \sumₑ wₑ \cdot \frac{1}{nₑ} \sum_{i=1}^{nₑ} (y_i(e) - x_i(e)^\top \beta)^2 + \lambda \| \beta \|_0 \right\}\]
      在适当选择 λ 与稀疏条件下,有:
      \[P( \hat{S} = S^* ) \to 1 \quad \text{as } n \to \infty\]
      其中 \(\hat{S} = \text{supp}(\hat{\beta})\)
    • 直觉:这比“变量筛选一致性”(sure screening,只保证 S\(\hat{S}\))更强,即 EILLS 能从虚假变量中正确选出真正的因果变量,同时不漏掉任何重要变量,也不纳入*虚假变量。
    • 必要条件:β_min 有下界(非零系数不能太接近0);Σₑ 满足稀疏版本的最小特征条件(类似加性的“不相干条件”);λ 选择适当。

证明路线与技术技巧

整体路线(5步逻辑主干)

  1. 步骤1:构造 EILLS 目标并证明识别性。定义跨环境加权最小二乘目标,利用条件期望不变性,证明该目标的唯一驻点是 β。关键论证:若 β ≠ β,则其残差在至少一个环境中与 x_S* 相关,导致目标函数值严格更大。(这不需要任何优化技巧,只依赖代数推导。)
  2. 步骤2:有限样本分析——非渐近 ℓ₂ 界。这一步是最难的。
    • 将 EILLS 的样本目标函数写为:\(\hat{L}(\beta)\)。真参数 \(\beta^*\) 使其期望最小化。
    • 将估计误差 \(\Delta = \hat{\beta} - \beta^*\) 嵌入到目标函数的一阶最优条件中:
      \[0 \in \partial \hat{L}(\hat{\beta}).\]
    • 使用经验过程浓度不等式(Bernstein不等式 / Hoeffding不等式)来界定量化 \(\hat{L}(\beta^*) - \hat{L}(\hat{\beta})\) 与其期望差值。
    • 关键步骤:证明限制性强凸性(Restricted Strong Convexity, RSC)在稀疏假设下以高概率成立。这是整个 ℓ₂ 界推导的基础。
    • 最终应用稀疏恢复的通用结论(例如 Negahban et al., 2012 框架)得到所述界限。
  3. 步骤3:环境权重设计。需要选择权重 wₑ 使得步骤2中的 RSC 常数“最优”,即权重应当抵消不同环境样本量差异及协方差结构差异带来的影响。作者采用了逆协方差加权的思想,类似 GLS,但针对的是多环境设定。
  4. 步骤4:ℓ₀ 惩罚与变量选择一致性。将 ℓ₀ 惩罚 EILLS 转化为一个子集选择问题。证明:如果真实变量集 S 产生的 ℓ₂ 误差足够小(低于 ℓ₀ 惩罚阈值),那么任何包含虚假变量的模型都会使得目标函数值更大。这利用了替代分数*(surrogate score)的概念,证明虚假变量的添加会显著增加代价。
  5. 步骤5:高维扩展。利用上述结果与惩罚参数 λ 的适当标度,结合稀疏恢复的通用理论(如 Bickel et al., 2009),推出变量选择一致性。

关键跳跃点

  • 最吃功夫的引理:证明在存在内生性的情况下,EILLS 的样本目标函数仍然满足 RSC 性质。这比标准的稀疏回归更困难,因为内生性引入了额外的随机依赖。作者利用多环境之间的独立性来解耦这种依赖。
  • 绕过难点的方法:通过环境内样本分块与交叉拟合(cross-fitting)来构造无偏估计量,类似于 DML 中的思想。这使得在处理环境间非平稳性时,避免了复杂的 U-统计量展开。

技术技巧点名: - 经验过程:用于控制随机误差 \(\hat{L}(\beta^*) - \hat{L}(\beta^*)\) 关于 β 的一致收敛。 - 限制性强凸性 (RSC):高维优化中分析 ℓ₂ 误差的标准化工具。 - ℓ₀ 惩罚:处理变量选择的最直接(但计算 NP-hard)方式;本文证明了其最优性,而非实际计算可行算法。 - 替代分数:量化虚假变量“伪装”成因果变量的能力的统计量,用于变量选择一致性的理论证明。 - 环境特定权重/逆协方差加权:实现最优效率的工程技巧,类似 GLS。

真实例子与应用

本文为纯理论论文,不包含任何真实数据例子或模拟实验。所有结果均为大样本/非渐近理论证明。作者在引言和结论中提到了一些应用场景(如图像分类中的 shortcut learning、高维基因组学),但未在论文中实际实施

🔎 结论是否比证明窄

是的,存在一些潜在的“结论比证明窄”的隐含点,需要读者注意:

  1. 序言中引用的“实际应用”(Torralba & Efros, 2011; Geirhos et al., 2020)——它们所涉及的是图像分类中的非线性 shortcut learning,而 EILLS 的理论严格限定于线性模型。作者未明确探讨在非线性场景中的有效性或推广代价。所以“实用”结论要比线性模型的证明更广。
  2. 证明中假设“近最小识别条件” ——即至少有两个环境的协方差矩阵之差包含 β 的方向。在实际数据中,环境的选择往往是任意的,能否保证这个条件成立?如果环境过于相似(如仅样本量不同但分布相同),则识别失败。作者对此条件的充分性给予了严谨证明,但对必要条件数据驱动的环境选择策略*没有讨论。
  3. ℓ₀ 惩罚 EILLS 的变量选择一致性——其证明依赖于 β_min 有界和替代分数条件,但在实际有限样本中,当 s 很大或噪声非高斯时,这些条件是否仍然成立?作者未提供相应的有限样本模拟来验证该结论的稳健性。

四、开放问题(点到为止,扎根具体语句)

  • 问题1:EILLS 在有限环境(M 很小,如 M=2 或 M=3)时的 minimax 最优下界是多少? 本文只给出了上界(O(√s log p / n)),但未给出匹配的下界。扎根于感性语句:“Non-asymptotic ℓ₂ error bounds...demonstrate sample efficiency”——但不清楚这个效率是否是最佳的(minimax rate)。可查:在 M 固定的前提下,下界是否依赖于 M,是否存在“环境数危机”(即 M 太小会导致无法克服的方差)。

  • 问题2:能否将 EILLS 扩展到非线性模型(如非线性回归或 GLM)? 本文假设线性结构。作者在 limitations 中提到:“extending our method to nonlinear models is an interesting future direction”。可查:非线性情况下的“条件期望不变性”是否可以转化为一个可求解的目标函数,或者是否需要引入核方法、加性模型。

  • 问题3:是否存在更高效的计算算法(如近似 ℓ₀ 的 ℓ₁ / SCAD 惩罚)来实现 EILLS? 本文 ℓ₀ 惩罚是理论上的,实际计算 NP-hard。作者未讨论计算实现。可查:是否能使用 Lasso、SCAD 或 MCP 替代 ℓ₀,并保持其理论性质?若可以,需用多环境结构进行推导。

  • 问题4:EILLS 的识别假设(“近最小识别条件”)在实际中如何验证或构造? 作者提到 “Such a condition is near-minimal”,但未给出数据驱动的环境构造方法。可查:如何自动寻找产生足够异质性的环境分割?这可能涉及聚类/交叉验证思想。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论