跳转至

Flexible instrumental variable models with Bayesian additive regression trees

作者: Charles Spanbauer, Wei Pan
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向解决的根本问题是在存在未观测混杂时,如何利用工具变量(IV)对因果效应进行非参数或柔性非线性估计。其核心张力在于:传统的线性IV模型(如两阶段最小二乘,2SLS)假设结构方程是线性的且无交互,虽识别稳健、计算简单,但在应用科学中这一假设常被违反;而非参数IV(NPIV)方法(如级数逼近)虽更灵活,却面临严重的不适定性(ill-posedness)和高方差问题,且对用户不友好。该领域的成熟度中等——已有大量理论工作(识别与收敛率),但可供实证研究者直接使用的、用户友好且能捕捉复杂非线性的IV软件工具仍然稀缺。

发展脉络(History)

从Introduction和参考文献中可梳理出以下主线:

  • 奠基工作(早期参数与半参数IV):传统的IV方法(如2SLS,Newey & Powell, 2003)是起点,它们假设暴露-结局关系线性或可加,并通过级数近似(series approximation)进行估计。Newey & Powell (2003) 提出了基于级数近似的NPIV方法,但在实践中因其高方差和对光滑参数的敏感而被认为不稳定。
  • 主要进展(非线性IV的策略分类):为克服线性假设的局限,文献出现了几种平行的策略:
    • 策略A:分层与局部化。 Burgess et al. (2014) 提出将暴露值分层(stratify),在每层内计算局部平均因果效应(LACE),然后用滑动窗口估计为连续函数。作者引用时指出这是“a novel method”,但也隐含其估计效率有限、对分层数的选择敏感。
    • 策略B:控制函数(Control Function)。 Guo & Small (2016) 提出在第一阶段估计残差后,在第二阶段的非线性模型中包含该残差作为额外回归元,用以调整第一阶段误差。作者引用时提到该方法是“something known as control function estimation”,且相比级数逼近更稳定,但仍需对第二阶段函数形式做一定参数化假设(如多项式)。
    • 策略C:单调性约束。 Chetverikov & Wilhelm (2017) 对NPIV施加单调性假设(monotonicity constraint)。作者指出这能有很强的正则化效应(considerably improves performance),但前提是在“a set of data generating processes for which the monotonicity constraint has a particularly strong regularization effect”——这意味着约束在错误时偏差会很大。
    • 策略D:贝叶斯非参数树集成(即本文)。 本文作者使用的是BART,属于一种完全不同的思路:放弃对函数形式的显式级数或约束,使用正则化树集成作为黑箱,通过贝叶斯后验采样实现推断。这被呈现为一种更“灵活且天然用户友好”的替代方案。
  • 当前Frontier与本文位置:作者将本文定位为“柔性非线性IV的第一个完整的贝叶斯非参数工具”,尤其强调其用户友好性(可通过现成的BART R包扩展实现)和在异质性效应(interaction with age)发现上的独特优势。它打开了一个新方向:将现代机器学习/贝叶斯非参数方法引入IV框架,使其能处理复杂交互与非线性。

子线索聚类

这些被引文献大致落在3条子线索上:

  1. 非线性IV的统计方法(方法驱动)

    • 序列:Burgess et al. (2014) [分层法] → Guo & Small (2016) [控制函数法] → Chetverikov & Wilhelm (2017) [单调性约束] → 本文(BART-IV)
    • 共同特征:都在试图放宽线性假设,但提出了不同的建模策略(局部化、参数化调整、形状约束、贝叶斯非参数)。
    • 对比点:前三种方法都需要用户对函数形式(是否是加法?是否单调?)做至少部分指定,而本文则完全依赖数据驱动的黑箱。
  2. BART方法论的扩展与软件(工具驱动)

    • 序列:Chipman et al. (2008) [BART原文] → Sparapani et al. (2021) [BART R包] → Murray (2017) [count/logistic BART] → Sparapani et al. (2016) [生存BART] → Tan et al. (2018), Spanbauer & Sparapani (2021) [随机效应BART] → Zeldow et al. (2019) [半参数BART] → 本文(BART-IV)
    • 共同特征:一条清晰的BART功能模块化拓展路径:从连续→分类→计数→生存→重复测量→半参数/器械变量。本文是这条线上最新的一环。
    • 对比点:所有之前的BART变体都假设暴露是外生的(或已调整了混杂),本文是第一个在存在未观测混杂(通过IV)的设定下使用BART。
  3. 孟德尔随机化与非线性因果效应(应用驱动)

    • 序列:Burgess et al. (2014) [非线性MR方法论] → Landi et al. (2018) [BMI与血压非线性关系] → Jiang et al. (2021) [年龄对遗传风险的异质性影响] → Okoro et al. (2021) [跨种族基因表达预测] → 本文(UK Biobank 应用)
    • 共同特征:关注公共卫生与精准医学中的非线性与异质性,试图用遗传变异识别非参数因果曲线。
    • 对比点:传统MR线性方法只能估计平均效应(如IVW),而本文尝试对异质性(age interaction)建模。

这个方向在追问的核心问题

  1. 识别:在什么正则性条件下,非线性结构函数 g(·) 可从 E[Y | Z]E[X | Z] 中非参数识别?需要哪些排除限制(exclusion restriction)和依赖结构?
  2. 估计与收敛:如何避免NPIV的逆问题不适定性(ill-posedness)?BART这类非参数贝叶斯方法的后验收缩率(posterior concentration rate) 与经典非参数IV(如级数/核)的minimax率相比如何?
  3. 交互效应:当存在多个效应修饰因子(如年龄)时,如何识别并估计异质性的因果效应曲线?
  4. 用户友好性:如何将复杂的非线性IV方法封装进一个“只要给定Y, X, Z就能跑”的现成软件包,使应用研究者(如流行病学家)能轻松使用?

⚠️ 作者的Framing

  • 作者的缺口定位:作者将现有非线性IV方法(Burgess et al., 2014; Guo & Small, 2016; Chetverikov & Wilhelm, 2017)刻画为“鲁棒性差(fragile)”、“仅能处理加法效应”、“在应用中难以被非统计师使用”。而本文的BART-IV被框定为解决这几个痛点的自然答案:它通过树集成自动捕捉交互与非线性,通过正则化先验避免过拟合,且可通过现成的BART R包(Sparapani et al., 2021)实现,几乎不增加用户额外负担。这是典型的“用一个更现代的工具解决老问题”的叙事。
  • 被淡化/回避的竞争路线
    • NPIV的矩估计方法(如GMM)被完全回避。作者完全没有提及深层IV(Deep IV)或神经网络IV的文献(如Hartford et al., 2017)。这可能是由于:1)这些方法对非统计师更不友好;2)本文更偏好贝叶斯而非频率学派范式。
    • 对高效迭代估计(如Double/Debiased ML):作者没有讨论将DML框架与BART结合以估计IV-LATE或非线性IV系数(一种可能的“半参数”折中)。
  • 什么明显该被引/该存在、却没出现在Intro里?
    • 深层IV(Deep IV)及其变体 完全缺席。Hartford et al. (2017) 是另一类使用深度学习解决非线性IV的著名工作,对本文来说是直接的竞争或参照。
    • 最优工具变量(Optimal IV)与Efficient GMM 的思想被忽略。作者没有讨论其估计量的efficiency(虽然作为贝叶斯分析,它可能不关心传统效率界)。
    • 适用于高维Z或多IV的BART变体 未被讨论(如Rocková & van der Pas, 2017 的稀疏BART虽然被引用,但未被用于解决多个遗传变体的IV选择问题)。
    • Y的分布问题:BART-IV对Y的假设是连续的(高斯似然),但引言完全没有提及如何扩展到Y是二值或计数的情形(虽然BART支架提供了这些,但未整合进IV框架)。

张力

未被发现有明显的彼此矛盾的研究。不同非线性IV方法(分层vs控制函数vs单调约束)更像策略互补而非对立:在单调性成立时Chetverikov & Wilhelm (2017)可能是最好的;当函数高度非线性且交互丰富时BART-IV或Deep IV最合适。未见明显对立引用。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号

    • Y:结果变量(outcome),可观测的连续标量。例:血压(SBP)。
    • X:暴露/处理变量(exposure / treatment),可观测的连续标量。例:BMI。
    • Z:工具变量(instrument),可观测的向量。在应用中,Z 是多个遗传变异(SNPs)的多基因评分(polygenic risk score)或直接是基因型向量。
    • U:未观测混杂因子(unmeasured confounder),不可观测的随机变量。
    • C:其他协变量(covariates),可观测的向量。例:年龄、性别、前10个遗传主成分。
    • g(·):结构方程/因果函数(structural function),真值未知,是本文的核心待估对象。定义在 (X, C) 上。
    • h(·):第一阶段方程(first-stage equation),它将暴露 X 与工具 Z、协变量 C、混杂 U 联系起来。真值未知。
    • ε1, ε2:不可观测的独立误差项。
    • T:BART中树集成的树的数量。这是模型的超参数(先验指定)。
    • m(x; T_j, M_j):第j棵树的函数,由二叉树结构 T_j 和终端节点参数 M_j 确定。
  • 模型: 本文的基本模型是非参数结构方程模型,用两个结构方程表示(忽略协变量C以简化,后面会补上):

    Y = g(X) + U + ε1      (2.1 式,结果方程)
    X = h(Z) + U + ε2      (2.2 式,暴露方程)
    

    • 关键假设Z ⟂ (U, ε1, ε2)(IV排他性与独立性);gh已知的函数类,但形式完全未知,通过BART建模;UZ 无关但可任意与 X, Y 相关(这是它的“混杂”属性)。
    • 识别:可以通过将Y对Z回归来识别 E[Y|Z];也可以将X对Z回归得到 E[X|Z]。然后,如果建立了g与h的关系(例如 E[Y|Z] = E[g(X)|Z]),理论上可以反解出g。但这本质上是反问题(inverse problem),本文没有详细讨论识别条件,而是将识别视为“BART箱子”中自动处理的。
  • 可观测数据: 研究者实际观察到的是 {Y_i, X_i, Z_i, C_i}。其中 {Y, X, C} 都是可测量的标量或向量;Z 是可观测的遗传评分(已知且独立)。研究者观测不到的是 U——这是工具变量方法介入的原因。

第二步:讲最小内核

本文的最小内核是用一个可观测的函数 E[Y|X, Z] 替代不可观测的 g(X, U)。作者的想法是:当p(Z)(工具变量)提供了足够的外生变异时,我们可以通过同时拟合两个BART树集成来解耦合U的影响。

最简特例:假设线性的所有版本退化

首先,假设(只是为了理解内核)我们回到线性世界: - Y = β X + U + ε1 - X = γ Z + U + ε2 (Z为标量工具变量) 则 E[Y|Z] = β (γ Z) + E[U|Z] + 0 = β γ Z (因U与Z独立)。 于是 Cov(Y, Z) / Cov(X, Z) = (β γ Var(Z)) / (γ Var(Z)) = β。这就是著名的Wald estimator。

非线性的核心困难:当g和h都是非线性时,简单的比率不再成立。因为 E[Y|Z] = E[g( h(Z) + U + ε2 ) | Z] 是一个复杂泛函,无法直接反解出g。

本文的最小内核是:用BART直接对联合分布建模,并通过MCMC抽样

具体而言,BART-IV 建立如下模型(在无协变量C时): - 第一阶段(暴露的柔性建模)X_i = h(Z_i) + δ_i, 其中 h(Z_i) 由BART树集成拟合,δ_i ~ N(0, σ_x^2)。 - 第二阶段(结果的柔性建模,关键是包含了第一阶段误差项δ作为控制变量)Y_i = g(X_i, δ_i) + ε_i, 其中 g(X_i, δ_i) 由另一个BART树集成拟合,ε_i ~ N(0, σ_y^2)

为什么这能识别g? 这实质上是一种控制函数(Control Function) 思路。关键观察是,δ_i 是第一阶段残差,它包含了 U 和 ε2 对X的贡献。所以 δ_i(U_i, ε2_i) 的一个替代观测。当我们把 δ_i 作为协变量放入第二阶段时,g(X_i, δ_i) 是非参数的,所以它能吸收掉U通过δ对Y的任何线性/非线性影响。一旦U的影响被δ吸收,剩下的 ∂g/∂X 在给定δ的条件下就是因果效应。

在统计上的“最小内核”操作是: 本项工作本质上是将经典的控制函数IV法(第二阶段的回归包含第一阶段残差)中的第二阶段回归器 g(X, δ) 从线性/多项式形态替换为BART柔性函数。因此,整个因果识别的逻辑链条δ搭载了 U 的信息,从而阻断混杂路径)保持不变,而建模的灵活性从“假设线性”提升到了“黑箱非参数”。

更直观的理解(用二值处理来描述,虽然本文处理连续X): 想象X是0/1。在连续情况下,δ就是“预测暴露值”的残差。最简版本中,BART-IV的机制是:我先用一个BART模型预测了X(第一阶段),得到了残差δ。这个残差里包含了U的信息。然后我建立一个预测Y的BART模型,它不仅用X,还用δ。如果δ能捕捉所有U对Y的混杂路径,那么从X到Y的路径(在给定δ下)就是无偏的。因为BART自动处理非线性,这种调整不需要假设线性。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:提出了一个贝叶斯加性回归树(BART)框架下的非线性工具变量回归模型(BART-IV),用以在存在未观测混杂时,估计暴露对结果的柔性非线性因果效应及其与协变量的交互。
  2. 核心工具/方法:将IV问题嵌入一个两阶段贝叶斯模型:第一阶段用BART拟合暴露方程(X = f(Z, C)),第二阶段用另一个BART拟合结果方程(Y = g(X, δ, C)),其中 δ 是第一阶段残差(控制函数)。通过MCMC(基于已有的BART算法)进行后验采样,自动得到 g(·) 的后验分布。
  3. 主要结论:在UK Biobank(英国生物银行)数据的孟德尔随机化应用中,BART-IV发现了BMI对收缩压(SBP)非线性的因果效应——在BMI约27-30的区间效应最陡;同时发现了年龄的异质性效应——BMI对SBP的因果效应在青年(<40岁)中较慢,在中年(40-70岁)中最强,老年又减小;这些模式是传统线性IV(2SLS)无法捕捉的。

关键设定与假设

  • 完整模型设定(在 2.1-2.2 节): Y_i = g(X_i, C_i) + U_i + ε_i,且 X_i = h(Z_i, C_i) + U_i + η_i。 假设 (U_i, ε_i, η_i) ⟂ Z_i工具变量独立性排除性);gh 是任意函数,通过BART建模。
  • BART的回归模型2.3节): 具体到BART,本文的联合模型是: X_i | Z_i, C_i ~ N( f_X(Z_i, C_i), σ_X²),其中 f_X(·) ~ BART_x(正态似然 + 树集成先验)。 Y_i | X_i, δ_i, C_i ~ N( f_Y(X_i, δ_i, C_i), σ_Y²),其中 f_Y(·) ~ BART_yδ_i 是第一阶段残差,可从第一阶段BART的后验中采样。δ_i 作为控制函数(Control Function)。
  • 与标准IV假设的差异
    • 放宽:不假设 g 对X是线性或可加,不假设同质处理效应(effect homogeneity),允许暴露-结局关系中的复杂交互(如X与年龄交互)。
    • 强化/隐含:BART先验本身隐含了对函数平滑性的限制(各向同性?请求能近似偶函数?),理论上并不是完全无假设。但作者未深入讨论。此外,控制函数方法本质上要求残差项δ中搭载了全部未观测混杂信息——即假设 (U, ε, η) 通过δ被完全吸收到 f_Y 中。这在理论上与标准IV的识别条件是等效的。

主要结果(理论与实证)

由于本文是应用/方法论文,主要结果来自实证,而非正式定理。

  • 实证例子:UK Biobank – BMI对收缩压的因果效应4节):
    • 数据:英国生物银行(UK Biobank),约37万个已测总胆固醇个体的BMI、SBP、年龄、性别、前10个主成分。工具变量是由8个先验已知与BMI相关的SNPs构成的遗传评分(polygenic risk score)(引自Tan et al., 2014)。
    • 如何应用方法
      1. 第一阶段BMI = f_X(genetic_instrument, age, sex, PCs) + δ。这里的 f_X 是一个BART模型(树数 T=200),拟合后得到残差δ的后验。
      2. 第二阶段SBP = f_Y(BMI, δ, age, sex, PCs)。这里的 f_Y 是另一个BART模型(树数 T=200)。由于δ是U的代理,f_Y 可从BMI到SBP的路径中分离出混杂。
      3. 结果提取:从后验样本中,提取年龄在特定值(如30、50、70) 时的 f_Y(BMI, δ, C) 关于BMI的边际效应曲线。可以绘制在不同年龄下,BMI从低(25)变到高(40)时SBP的变化量。
    • 核心结果
      • 非线性效应:因果效应不是线性的。BMI在25-27时效应平缓;BMI在27-30时效应最陡(约每kg/m²使SBP升高2 mmHg);BMI大于30时效应变缓(plateaus)。
      • 年龄异质性:在年轻人(<40岁)中,BMI对SBP的因果效应几乎为0;在40-70岁,效应强且非线性明显;在老年(70+岁),效应再次变弱。这用线性IV(2SLS)无法发现(只得到一个线性的平均斜率)。作者用后验概率区间(90% CI)展示了这些曲线的不确定性。
    • 这个例子想说明什么
      1. BART-IV能发现2SLS漏掉的重要模式:线性模型认为BMI持续有害(每增加1单位升压1-1.5 mmHg);BART-IV显示只有特定人群(中年、超重到肥胖过渡段)才特别危险。这对精准预防有直接意义。
      2. Mendelian Radomization 可以处理非线性和交互:传统MR必须假设线性,而本文证明了在柔性模型下用遗传IV也能揭示异质性。

证明路线与技术技巧

  • 整体路线(算法框架)

    1. 设定似然与先验:将IV模型写为可加但函数未知的形式;给每个BART树集成指定正则化先验(Chipman et al., 2008的先验:α=0.95, β=2, μ~N(0, σ_x²/k), T=200)。
    2. MCMC采样:基于残差回替(Bayesian backfitting)的Gibbs采样器。每棵树用一个Metropolis-Hastings(MH)步骤更新它的树结构(分裂/合并/生长/剪枝);在每个树的结构下,其终端节点参数(叶均值)可以用共轭正态计算。
    3. 填补控制函数:在第一阶段BART完成后,得到残差δ的后验样本。第二阶段BART的输入中,将δ作为一个额外的协变量(与BMI和年龄并列)。
    4. 后验推断:从MCMC中抽取后验样本,计算边际效应(如 f_Y(30, δ, age=50) - f_Y(25, δ, age=50)),并绘制后验均值及90%区间。
  • 关键跳跃点(技术难点)

    • 将控制函数与BART结合:这是本文的核心技术贡献。难点在于第一阶段残差δ来自BART的后验,而不是一个点估计。作者用一个巧妙的两阶段采样法回避了计算δ的点估计:在MCMC的每一轮迭代中,先从第一阶段BART的当前状态采样出一个δ,然后将这个采样的δ作为第二阶段BART的输入。这样,两个BART树集成的采样可以接力进行,而不需要硬编码δ。
    • 避免收聚/退化:如果第二阶段BART过度依赖δ(忽略X),它会变成“非依从者的Y对δ回归”,导致对因果效应的估计接近0。作者的策略是用正则化先验防止模型过于复杂(即防止向δ的极端过拟合)。
    • 计算开销:两阶段BART各200棵树,每个需要在超37万个UK Biobank样本上迭代约1000次MCMC。虽然相较传统线性IV慢得多,但对现代工作站可接受。
  • 技术技巧点名

    • Bayesian Backfitting(Chipman et al., 2008):MCMC循环,依次更新每棵树(结构 + 叶均值),同时保持其他树固定。这是BART的核心工作引擎,本文完全继承。
    • Metropolis-Hastings 树生长:提出分裂/合并/生长/剪枝建议,用MH准则接受/拒绝。这是BART的“结构学习”步骤。
    • 残差回补作为控制函数:本质上就是两阶段IV中控制函数(Control Function)的思路,但通过后验积分(而非点估计)来处理第一阶段不确定性。
    • 正则化先验:作者用了BART的标准超参数(α=0.95, β=2),这些值被反复检验过,能很好地防止过拟合。

🔎 结论是否比证明窄

  • 是的,有差距
    • 定理缺失:论文没有给出任何识别性定理收敛率结果。它证明了“BART算法在这个设定下是可行的”,但未证明“BART后验在IV设定下能一致地识别g”或“后验收缩率是多少”。这与Rocková & van der Pas (2017) 在无IV的标准BART上建立的收缩率形成对比。作者只在讨论中说:“因为BART在其他设定上表现良好,我们相信它在IV下也表现良好。” 这种“相信”是一种conjecture而非结论。
    • 控制函数假设的检验:本文假设δ包含了所有U的混杂信息,但实际上,如果U的维度与δ不同(例如U是高度非线性),δ可能不充分。作者没有检验或讨论这种 misspecification 的影响。结语中也只是说“控制函数方法在适度条件下可识别”(generic statement),没有具体到本模型。
    • 谁在估计了什么:文章没有E[Y(a)](潜在结果均值估计)或ATE的点估计,只有条件效应曲线。这使得它更像“可视化异质性方法”而非“因果效应估计器”。

真实例子与应用

已在“主要结果”中详述。此处补充:该实验用了UK Biobank的约37万人的数据,使用了8个先前经验证与BMI相关的SNPs作为IV。对比只做了2SLS线性模型,未做其他非线性IV方法(如Burgess et al., 2014的分层法,或Deep IV)作为baseline。作者仅展示了BART-IV的后验曲线,而未列出“更准确/更窄区间”的数值对比。


四、开放问题

  1. 后验收缩的一致性(Consistency of Posterior Contraction):本文未证明BART-IV估计量在非参数IV设定下的后验收缩率,甚至没有证明识别性。你去读Rocková & van der Pas (2017)在高维BART上的定理(1/bN 的条件)和Chen & White (1999)对控制函数IV的识别性结果——能否将二者整合,证明BART后验在IV下的收缩率?根在第一节对Rocková的引用。
  2. 多工具变量(Wide Z)的选择:当Z是多个SNP时(本文用了8个,实际精神遗传上有成千上万个),能否用BART的自变量选择机制(包含在树频率统计中)去自动推断哪些SNP是有效IV,哪些有水平多效性(pleiotropy)?根在作者没有讨论高维Z的问题。
  3. 非线性控制函数假设的松弛:控制函数方法要求δ能完全吸收U的效应。当U包含与X相关的非线性项或交互项时,这种吸收入可能是misspecified的。能否发展一种控制函数+非参数外推贝叶斯非参数IV模型,不再需要“残差完全吸收入混杂”这个强假设?根在看作者讨论与Burgess (2014)的分层法对比的局限性时未提这个点。
  4. Y为其他分布时的扩展:作者只处理了Y为正态。但如果Y是二值(如高血压=1/0),BART-IV能否扩展?Murray (2021)的count BART已经存在,但缺乏IV框架下的实现。根在作者在引言里提到了count BART但未使用。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论