跳转至

Estimation and inference for high-dimensional nonparametric additive instrumental-variables regression

作者: Ziang Niu, Yuwen Gu, Wei Li
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

本文聚焦于高维工具变量回归,其核心目标是在存在未观测混杂的情况下,从观察性数据中推断处理变量对结果变量的因果效应,且允许工具变量、处理变量和结果变量三者均可以是高维的。该子方向当前的成熟度属于“方法扩展期”——线性高维IV已有较成熟的理论与方法,但非线性设定下的系统理论和推断方法尚在发展中。

发展脉络

将本文introduction引用的工作串联如下:

  1. 奠基工作:经典(低维)IV与惩罚方法在高维的开始
  2. Huang et al. (2010) [被引23]: 在非参数加性模型中用group lasso做变量选择,给出选择一致性与最优收敛速度。这是本文“第一阶段加性模型选择”的基础参考。
  3. Bickel et al. (2009) [被引10]: 建立lasso和Dantzig selector的受限特征值条件下的预言机不等式。这是本文“组受限特征值条件”的直接来源。
  4. Meinshausen & Buehlmann (2010) [被引31]: 提出stability selection,为高维选择变量提供FDR控制。本文在真实数据中用它增强选择稳定性。

  5. 主要进展:高维线性IV的两阶段方法与推断

  6. Lin et al. (2015) [被引27]: 提出两阶段正则化框架(2SR),在高维稀疏IV模型中用惩罚函数进行两阶段估计。本文将其视为主要比较对象,在实验部分多处直接与之对比。
  7. Gold et al. (2017) [被引17]: 将去偏Lasso的一步校正(one-step update)引入高维线性IV,实现渐近有效推断。本文的去偏推断程序直接参照此框架(文中记为“debiasing procedure”)。
  8. Fan & Liao (2014) [被引16]: 研究高维回归中的“内生性”问题,提出惩罚聚焦GMM(FGMM)方法,证明oracle性质。本文承认其为“高维IV回归中引入正则化”的代表性工作。
  9. Gautier & Rose (2011), Belloni et al. (2012), Cheng & Liao (2015), Belloni et al. (2022) [被引14, 15, 18, 19]: 这些都在单一句子中被列为“将正则化引入高维IV”的早期/同期工作。

  10. 当前frontier:非线性IV与深度学习方法

  11. Hartford et al. (2017), Xu et al. (2020) [被引21, 22]: 用深度神经网络学习仪器-处理之间的非线性关系。本文承认这些方法“更能捕捉非线性关系”,但指出它们“缺乏严格的理论保证”——尤其在统计推断(置信区间、假设检验)方面。
  12. Zhang & Zhang (2014), van de Geer et al. (2014), Javanmard & Montanari (2014) [被引24, 15, 47]: 建立高维线性模型去偏推断的一般框架,是本文推断技术的理论基石。

  13. 本文的位置

  14. 本文声称的gap是:现有高维IV方法要么假设线性仪器-处理关系(Gold et al., Lin et al.), 要么采用弱理论的深度学习方法(Hartford et al., Xu et al.)。它的定位是在仪器-处理关系可非参数加性、但处理-结果关系保持线性的设定下,提供完整的两阶段估计误差分析和去偏推断程序

子线索聚类

  • 子线索A:高维线性IV(如 Lin et al. 2015, Gold et al. 2017, Fan & Liao 2014): 假设仪器-处理关系线性,用lasso等惩罚方法做变量选择/收缩,然后做两阶段或一步推断。
  • 子线索B:稀疏非参数加性模型的选择与估计(如 Huang et al. 2010, Ravikumar et al. 2009, Lounici et al. 2011): 研究非参数加性模型中如何用group lasso选择基函数数目远大于样本量情况下的非零分量。
  • 子线索C:非线性IV的机器学习方法(如 Hartford et al. 2017, Xu et al. 2020): 用深度网络拟合任意复杂的仪器-处理关系,但通常缺乏或较少有渐近推断理论。
  • 子线索D:高维模型中的去偏推断(如 Zhang & Zhang 2014, van de Geer et al. 2014, Javanmard & Montanari 2014): 为高维线性/广义线性模型的低维成分构造渐近正态的去偏估计量。

核心问题

这个方向在追问的核心问题有: 1. 识别问题:在仪器-处理关系为高维非线性时,如何保证第一阶段的选择/估计结果能够支持第二阶段的因果识别(无偏/一致估计)? 2. 推断问题:在非线性高维第一阶段后,如何构造第二阶段估计量的渐近置信区间与假设检验(要求误差项正态逼近)? 3. 假设权衡:放松仪器-处理线性假设所付出的代价(估计误差率变慢、推断条件更苛)与收益之间的定量权衡。

当前主流方法(子线索A)的瓶颈:必须假设仪器-处理关系线性,这在许多应用中(如孟德尔随机化)明显不合理。子线索B提供加性模型的选择理论,但未与IV框架结合。子线索C提供灵活性但缺乏推断。

⚠️ 作者的framing

这是作者的说法:作者把缺口frame成“现有高维IV方法要么是线性(两阶段Lasso/2SR/去偏Lasso),要么是黑箱非线性(深度学习),缺失了一个同时具有非线性拟合能力和严格推断理论的高维非参数IV框架”。竞争路线被他淡化的是:(1) 线性IV+充分多的交互项/DCT扩张是否能逼近加性模型而未受重视(只提了“线性假设可能过于严格”);(2) 贝叶斯高维IV方法(如BMA、 spike-and-slab priors)完全没有被提及;(3) 同期的“深度IV”方法(DeepIV)被引但不被当作方法竞争——只提它们缺理论保证。明显该存在或可查、但作者没引的:Angrist & Imbens (1995) 的非参数IV框架(LATE)、Abadie (2003) 的半参数IV估计、Newey & Powell (2003) 的完全非参数IV识别(需要完备性条件,而非加性假设)。这些缺失可能暗示作者刻意避开完全非参数识别(需要额外假定),而选择加性作为实用妥协。

张力

未见明显对立引用:所引工作之间在“加性选择理论”、“去偏推断范式”上基本互补。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号定义(逐个点名)

记号 含义 属性
n 样本量 整数标量
p 处理变量的维数(第2阶段协变量个数) 整数标量
q 工具变量的维数(第1阶段仪器个数) 整数标量
m 每个仪器使用的基函数个数(如B样条基函数个数) 整数标量
D n×p 矩阵,第i行是第i个样本的处理变量向量 可观测随机变量
Z n×q 矩阵,第i行是第i个样本的工具变量向量 可观测随机变量
Y n×1 向量,第i个样本的结果变量 可观测随机变量
f_j(·) j个仪器对处理的加性函数(j=1,...,q),用于第1阶段 未知非参数函数
B_j n×m 矩阵,第j个仪器的B样条基函数值 可观测(由Z计算)
θ_j m×1 系数向量,第j个仪器的B样条系数 待估参数
β p×1 系数向量,第2阶段处理的线性系数(目标因果参数) 待估参数(因果估计量)
ε n×1 第1阶段误差 不可观测随机变量
ξ n×1 第2阶段误差(与D可能相关,即内生性) 不可观测随机变量
s β的非零分量个数(稀疏度) 整数标量(未知但很小)
r 第1阶段非零仪器/基函数组的个数 整数标量(未知但很小)

模型(线性-加性IV设定):

  • 第1阶段(仪器→处理,加性非参数模型)

    D = f_1(Z_1) + f_2(Z_2) + ... + f_q(Z_q) + ε
    
    每个f_j是用B样条基函数逼近的加性非参数函数:f_j(Z_j) ≈ B_j θ_j。这是一个高维组稀疏模型——大多数 θ_j是全零向量(对应无效、无关仪器)。

  • 第2阶段(处理→结果,线性因果模型)

    Y = D β + ξ
    
    其中 β 是待估计的因果参数向量。如果直接用OLS回归YD会有偏,因为Dξ相关(即存在未观测混杂U,使得 E[ξ|D] ≠ 0)。IV的核心是先用第一阶段把D分解成外生部分 E[D|Z]和内生残差 ε,再用外生部分做第二阶段的估计。

  • 可观测数据(Y_i, D_i, Z_i), i=1,...,n。研究者能观察到的结果、处理、工具变量三组数据。

  • 想要但观测不到的:第1阶段误差 ε(未知混杂/随机偏差)、第2阶段误差 ξ(未知)、各f_j函数(需估计)、因果系数β(目标)、以及最重要的未观测混杂U(它造成Cov(D, ξ)≠0)。

第二步:讲最小内核

最简特例:p=1(单个处理变量),q=3(三个工具变量),每个仪器用m=2个B样条基函数(线性样条)。 此时:

  • 第1阶段模型:

    D = B_1 θ_1 + B_2 θ_2 + B_3 θ_3 + ε
    
    其中每个B_jn×2矩阵,θ_j是2维向量。真实稀疏结构:假设只有前2个仪器有非零效应,即 θ_3 = (0,0)(仪器3无效)。

  • 第2阶段模型:Y = D β + ξ,其中β是标量。

  • 可观测数据:(Y_i, D_i, Z_{i1}, Z_{i2}, Z_{i3})i=1,...,n

  • 核心思路

  • 用group lasso对 (θ_1, θ_2, θ_3) 做组惩罚——它将选择哪几个仪器(哪几个组)非零。在这个特例中,它将识别出第1、2组是活跃的。
  • 得到第一阶段拟合值 \hat{D} = B_1 \hat{θ}_1 + B_2 \hat{θ}_2(剔除仪器3)。
  • 第二阶段:将 Y\hat{D} 做简单线性回归,得到 \hat{β}——这个 \hat{β} 是渐近无偏的,因为 \hat{D} 只用了与 ξ 无关的外生仪器变异性。
  • 去偏(debiased inference):对 \hat{β} 做一步校正,使其正态逼近的偏差项可忽略,从而构造置信区间。

  • 这个特例证明的核心不等式

    ||W(\hat{θ} - θ^*)||_2 ≤ C * (√(r log(qm)/n))
    
    其中 W是某个加权矩阵,r是活跃仪器组数。在特例中,r=2,所以两阶段的预测误差率是 O_p(√(log(3×2)/n)) = O_p(√(log6/n)) 的量级。这个速率与Huang et al. (2010)的结果一致,但本文给出的是非渐近概率界(而非收敛速率),这是核心改进。

  • 为什么这个特例抓住了本质:因为加性模型在B样条基下退化为线性组结构,group lasso的理论完全由组稀疏度 r 和基函数个数 m 主导,而不依赖于 q 的具体大小。所有证明的关键跳跃都是针对“选择错误组”的概率控制和预测误差的组结构约束——即使在一般高维(p,q大)时,其本质数学困难仍是这个线性组结构的版本。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在高维设定下,当仪器-处理关系为非参数加性模型(仪器用B样条基函数展开)、处理-结果关系保持线性时,如何实现两阶段估计渐近有效推断(置信区间、假设检验)。
  2. 核心工具/方法:第一阶段用group lasso从大量仪器(及其B样条基)中选择最优工具变量组,第二阶段对结果变量在拟合处理值上做线性回归;再对第二阶段估计量施加去偏推断程序,获得渐近正态性。
  3. 主要结论:给出了第一阶段group lasso的非渐近预测误差界(概率版本),以及第二阶段的估计误差上界;当第二阶段去偏时,证明了估计量的渐近正态性,从而可构造理论上有效的置信区间。

关键设定与假设

在第二节最小记号基础上,补全完整设定:

  • 模型结构:第1阶段是“加性非参数+高维组稀疏”(每个仪器的基函数组全为零或全非零,没有部分零的基函数)。第2阶段是线性、高维稀疏(β只有少部分非零)。

  • 假设H1(组稀疏性):第1阶段非零仪器组数 r << n;第2阶段非零系数分量数 s << n。这是高维稀疏假设。

  • 假设H2(组受限特征值条件,Group Restricted Eigenvalue Condition):对任何满足 Σ_{j∈S^c} ||θ_j||_2 ≤ 3 Σ_{j∈S} ||θ_j||_2θ(其中 S 是真实活跃组集合),设计矩阵满足:

    (1/n) ||Σ_j B_j θ_j||_2^2 ≥ κ * Σ_j ||θ_j||_2^2
    
    这是经典受限特征值条件(Bickel et al.)的组版本——要求对“几乎稀疏”的系数,设计矩阵有足够的可识别性。Lounici et al. (2011) 在group lasso的极小极大最优性中用了类似条件。

  • 假设H3(边际条件/边界条件):各组基函数之间有充分的可分离性,并且基函数的光滑性使得逼近误差足够小(B样条的Sobolev嵌入)。常见于非参数加性模型文献(Huang et al. 2010, Horowitz & Mammen 2002)。

  • 假设H4(误差分布):第1阶段误差 ε 是次高斯型,第2阶段误差 ξ 是次高斯型,且 ξZ 条件独立给定 D、但可能与 D 相关(即内生性)。

  • 相比已有文献:相比 Lin et al. (2015)、Gold et al. (2017) 的线性IV设定,本文假设加性非参数第一阶段,是放宽了线性假设;但同时也增加了两个额外假设:加性结构的维数/基函数数选择假设(需要 m 足够大以保证逼近误差可忽略)和组稀疏假设(每个仪器要么全零要么全非零,不允许单个基函数为0而其他非0)。相比Huang et al. (2010)的加性选择理论,本文额外需要“第二阶段线性+去偏”的推断条件。

主要结果

定理1:第一阶段group lasso的非渐近误差界 - 陈述:设 \hat{θ} 是group lasso解(调优参数 λ ∝ √(log(qm)/n))。则在H1-H4成立下,以概率至少 1 - c₁exp(-c₂nλ²/σ²)

(1/n) ||Σ_j B_j(\hat{θ}_j - θ^*_j)||_2^2 ≤ C * λ² * r
- 直觉:预测误差率是 λ²r = O(r log(qm)/n)。这与稀疏线性lasso的典型界 O(s log(p)/n) 结构相似——r对应组稀疏度(组数而非单个系数个数),log(qm)对应日志中的组总数q与每组大小m的对数乘积。相比Huang et al. (2010)的收敛速率结果,本文的特征是“完全非渐近概率界”。 这是本文核心理论贡献(第3节,定理1)。

定理2:第二阶段估计的非渐近误差界 - 陈述:在第一阶段拟合值基础上做OLS后,记 \hat{β} 为第二阶段的系数估计,则对调优参数恰当选择:

||\hat{β} - β^*||_2 ≤ C' * √(s log(p)/n) * (1 + 第一阶段误差项)
- 直觉:若第一阶段完美(预测误差≈0),则 \hat{β} 的误差率退化为 O(√(s log(p)/n))——相当于高维线性模型在已知外生处理变量时的lasso误差上界。第一阶段误差会乘性放大这个率。当第一阶段的误差项被控制在较小水平(r log(qm) << n)时,放大因子接近1。

定理3(主要推断结果):去偏估计量的渐近正态性 - 陈述:构造 \hat{β}^{debiased} = \hat{β} + (1/n) \hat{Σ}^{-1}_{D|Z} \hat{D}^T(Y - \hat{D} \hat{β}) (这是Gold et al. (2017)两步去偏策略在加性IV下的版本),在更苛的假设(特别是第1阶段选择正确+交叉拟合)下:

√n(\hat{β}^{debiased}_k - β^*_k) → N(0, σ²)
且方差可被一致估计。 - 必要额外条件nλ²r = o(1)(即第一阶段预测误差不会太大)、s = o(√n / log(p))(第二阶段的稀疏度不太大,与van de Geer et al. (2014)的去偏Lasso条件一致)。 - 解决的技术难点:如何将第一阶段加性非参数模型的non-asymptotic误差控制与第二阶段去偏的渐近正态性结合。核心是证明第一阶段预测误差乘以第二阶段载入的余项被证为渐近可忽略。

证明路线与技术技巧

整体路线:三步

  1. 第1步:将加性非参数模型转化为线性组结构模型。通过在B样条基函数 B_j 上展开每个 f_j,把该模型转化为 D = Σ B_j θ_j + ε,其中 θ_j 是组。这是一个线性模型(虽然原本是非参数),但具有“组稀疏性”(只有少数 θ_j 非零)。这一步本质上用的是基函数逼近的线性化——逼近误差 f_j - B_j θ_j 通过Sobolev光滑性假设控制。

  2. 第2步:对转化的线性模型应用group lasso,并利用组受限特征值条件(H2)建立非渐近界。证明的核心是group版本的Karabiner's不等式:

    λ * Σ_{j∈S} ||\hat{θ}_j - θ_j||_2 ≥ (1/n) ||Σ B_j(\hat{θ}_j - θ_j)||_2^2 + λ * Σ_{j∈S^c} ||\hat{θ}_j||_2
    
    这是经典lasso边界不等式(Bickel et al. 2009)的组推广。

  3. 第3步:将第2步的预测误差界代入第二阶段去偏推断过程,证明去偏量的正态性。由于去偏估计的表达式可以写为:

    \hat{β}^{debiased} = β^* + (1/n) \hat{Σ}^{-1}_{D|Z} \hat{D}^T (ξ + (D - \hat{D})β)
    
    所以余项包含 (1/n) \hat{Σ}^{-1}_{D|Z} \hat{D}^T (D - \hat{D})β项。该项的量级由||\hat{D} - D||_2 = O_p(√(r log(qm)/n))决定。这个量须小于o(1/√n)才能不影响正态性。所以条件nλ²r = o(1)确保该项可忽略。关键跳跃点:对第二阶段误差ξ的处理需要交叉拟合(cross-fitting),防止样本内过拟合——在分裂的样本中,用第一部分训练\hat{θ},用第二部分计算去偏统计量,确保\hat{D}\hat{D}^Tξ是渐近独立的。

具体技术技巧点名: - group lasso的Karabiner-type不等式(Lemma 1):证明第一阶段预测误差界的关键引理。 - scorpion's lemma(组版本的RESTRICTED EIGENVALUE):证明H2在随机设计下以高概率成立的工具。 - 自调优参数选择:用交叉验证或BIC型准则选择λm,但在理论证明中假定m固定且合适。 - 交叉拟合(cross-fitting):用于去偏推断阶段,确保\hat{D}^Tξ与ξ渐近独立,使去偏量(1/n) \hat{Σ}^{-1}_{D|Z} \hat{D}^Tξ的中心极限定理成立。

真实例子与应用

数据:小鼠肥胖数据集(Wang et al. 2006, [被引40])。该数据来自BXH.F2小鼠(334只),测量了肝脏基因表达(结果变量Y:gonadal fat mass),以及多个SNPs作为工具变量(Z:SNPs)。处理变量D是某些基因的表达水平(如Cyp4f15)。

如何应用: 1. 将大约20个SNP位点视为工具变量(Z),一个关键的基因表达(如Cyp4f15)视为处理变量(D),脂肪量视为结果(Y)。 2. 第一阶段对每个SNP的工具效应使用B样条基(m一般取3-5),用group lasso选择活跃的SNP(这些SNP的基函数组非零)。 3. 第二阶段用被选SNP的拟合值回归脂肪量,得到Cyp4f15的因果效应的估计系数 \hat{β}。 4. 用去偏程序构造置信区间和p值。

结果:本文发现Cyp4f15的高表达会显著增加脂肪量。这与之前文献(Hardwick et al. 2009, Gai et al. 2019)发现“Cyp4f15下调和脂肪酸代谢减少”的结论一致。除此之外,本文在检验多个基因时还发现了Slc43a1——一个过去未被报道和脂肪量显著相关的基因,其表达与脂肪量在统计上显著相关(p值小于0.05,且经过多重比较校正后仍显著)。作者将这一结果与Gill et al. (2010) [被引20]的网络分析联系起来,认为Slc43a1可能在脂肪代谢调控中有潜在作用,建议作为进一步生物学研究的候选基因。

这个例子想说明什么:这是一个展示本文方法能发现新关联的实证,即传统线性IV未能捕获的新基因。同时用了稳定性选择(Meinshausen & Buehlmann)来提升选择结果的可靠性。该例验证了了方法的实用性——超越了模拟中测得的误差率。

🔎 结论是否比证明窄

  • 定理3的渐近正态性证明依赖于“第一阶段选择正确”(即选出来的仪器组确实为零)以及“交叉拟合”的文本数据分割——这在真实数据中无法保证(选择可能会出错)。作者在文中明确承认这需要更强的假设(第5节“Discussion”),且没有在某些较弱的条件下进行验证。
  • 第一阶段group lasso的选择一致性(model selection consistency)证明只针对固定m的B样条逼近;如果mn增长(常见在高维非参数中),选择一致性的门槛会变高。作者在实验(模拟3)中测试了m=3, 5, 7的情况,但理论证明中并没有为m增长给出必要的限制。
  • 去偏推断程序假设第二阶段的稀疏度满足s = o(n m / log(p q m))——这个条件非常宽松,但m作为B样条基函数个数如果随n增长(合理需求:用更灵活的逼近),则该条件会变弱很多。

总结:结论整体没有明显宽于证明的情况,但需要注意第一阶段选择一致性的证明与真实应用中m的选取准确性之间的差距。


四、开放问题(扎根具体语句)

  1. 完全非参数第二阶段的推断问题:本文假设第二阶段是线性模型。若将其放松为“处理变量与结果变量之间也是非参数加性模型”(即 Y = Σ g_k(D_k) + ξ),如何在保证组稀疏选择的同时实现推断?这是“第5节Discussion”中明确提出的未来工作之一(作者用“more general models”和“fully additive”表述)。

  2. 第一阶段选择错误的robustness:本文推断证明假定第一阶段选择正确(交叉拟合后,非零组能一致被选)。但在有限样本或弱仪器下,漏选某个有效仪器会稀释\hat{β}的置信度。如何将选择不确定性(selection uncertainty)纳入推断,并提供正确的覆盖概率? 这是“第5节Discussion”中提及但未解决的“selection of Z may compromise the coverage”问题。

  3. 仪器-处理关系更复杂的结构(非加性):本文考虑加性结构。如果真正的第一阶段是非加性(如交互效应、深层网络),目前的group lasso框架失效。是否可以结合teil-or-kl计算模型来平衡灵活性与推断?——这在“Abstract”与“第1节”中被作者自己识别为“weakness of existing non-additive methods(deep IV)”,但在本文中没有解决。

  4. 更高效的推断程序(非交叉拟合):交叉拟合虽然便利但浪费了样本中的信息(1/2样本用于训练,1/2用于推断)。能否用U-统计量或leave-one-out技术(如Higher-order U-statistics),在保留渐近正态性的同时实现样本高效利用?这条扎根于作者在“第5节Discussion”对“sample splitting”的讨论——他们承认这不是最优的。

提醒:在确认上述哪一条是真实gap前,建议去查阅近期(2020-2024)在同子领域的高维IV与半参数推断的综述(如arXiv:2301.08422, 2307.03901)——如果多个独立的survey都同样指向这些方向,则说明是共识性gap;如果彼此之间讨论的解决方案互相矛盾,则说明是更值得探索的争鸣点。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论