Flexible instrumental variable models with Bayesian additive regression trees¶

作者: Charles Spanbauer, Wei Pan
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是在存在未观测混杂时，如何利用工具变量（IV）对因果效应进行非参数或柔性非线性估计。其核心张力在于：传统的线性IV模型（如两阶段最小二乘，2SLS）假设结构方程是线性的且无交互，虽识别稳健、计算简单，但在应用科学中这一假设常被违反；而非参数IV（NPIV）方法（如级数逼近）虽更灵活，却面临严重的不适定性（ill-posedness）和高方差问题，且对用户不友好。该领域的成熟度中等——已有大量理论工作（识别与收敛率），但可供实证研究者直接使用的、用户友好且能捕捉复杂非线性的IV软件工具仍然稀缺。

发展脉络（History）¶

从Introduction和参考文献中可梳理出以下主线：

奠基工作（早期参数与半参数IV）：传统的IV方法（如2SLS，Newey & Powell, 2003）是起点，它们假设暴露-结局关系线性或可加，并通过级数近似（series approximation）进行估计。Newey & Powell (2003) 提出了基于级数近似的NPIV方法，但在实践中因其高方差和对光滑参数的敏感而被认为不稳定。
主要进展（非线性IV的策略分类）：为克服线性假设的局限，文献出现了几种平行的策略：
- 策略A：分层与局部化。 Burgess et al. (2014) 提出将暴露值分层（stratify），在每层内计算局部平均因果效应（LACE），然后用滑动窗口估计为连续函数。作者引用时指出这是“a novel method”，但也隐含其估计效率有限、对分层数的选择敏感。
- 策略B：控制函数（Control Function）。 Guo & Small (2016) 提出在第一阶段估计残差后，在第二阶段的非线性模型中包含该残差作为额外回归元，用以调整第一阶段误差。作者引用时提到该方法是“something known as control function estimation”，且相比级数逼近更稳定，但仍需对第二阶段函数形式做一定参数化假设（如多项式）。
- 策略C：单调性约束。 Chetverikov & Wilhelm (2017) 对NPIV施加单调性假设（monotonicity constraint）。作者指出这能有很强的正则化效应（considerably improves performance），但前提是在“a set of data generating processes for which the monotonicity constraint has a particularly strong regularization effect”——这意味着约束在错误时偏差会很大。
- 策略D：贝叶斯非参数树集成（即本文）。 本文作者使用的是BART，属于一种完全不同的思路：放弃对函数形式的显式级数或约束，使用正则化树集成作为黑箱，通过贝叶斯后验采样实现推断。这被呈现为一种更“灵活且天然用户友好”的替代方案。
当前Frontier与本文位置：作者将本文定位为“柔性非线性IV的第一个完整的贝叶斯非参数工具”，尤其强调其用户友好性（可通过现成的BART R包扩展实现）和在异质性效应（interaction with age）发现上的独特优势。它打开了一个新方向：将现代机器学习/贝叶斯非参数方法引入IV框架，使其能处理复杂交互与非线性。

子线索聚类¶

这些被引文献大致落在3条子线索上：

非线性IV的统计方法（方法驱动）：
- 序列：Burgess et al. (2014) [分层法] → Guo & Small (2016) [控制函数法] → Chetverikov & Wilhelm (2017) [单调性约束] → 本文（BART-IV）。
- 共同特征：都在试图放宽线性假设，但提出了不同的建模策略（局部化、参数化调整、形状约束、贝叶斯非参数）。
- 对比点：前三种方法都需要用户对函数形式（是否是加法？是否单调？）做至少部分指定，而本文则完全依赖数据驱动的黑箱。
BART方法论的扩展与软件（工具驱动）：
- 序列：Chipman et al. (2008) [BART原文] → Sparapani et al. (2021) [BART R包] → Murray (2017) [count/logistic BART] → Sparapani et al. (2016) [生存BART] → Tan et al. (2018), Spanbauer & Sparapani (2021) [随机效应BART] → Zeldow et al. (2019) [半参数BART] → 本文（BART-IV）。
- 共同特征：一条清晰的BART功能模块化拓展路径：从连续→分类→计数→生存→重复测量→半参数/器械变量。本文是这条线上最新的一环。
- 对比点：所有之前的BART变体都假设暴露是外生的（或已调整了混杂），本文是第一个在存在未观测混杂（通过IV）的设定下使用BART。
孟德尔随机化与非线性因果效应（应用驱动）：
- 序列：Burgess et al. (2014) [非线性MR方法论] → Landi et al. (2018) [BMI与血压非线性关系] → Jiang et al. (2021) [年龄对遗传风险的异质性影响] → Okoro et al. (2021) [跨种族基因表达预测] → 本文（UK Biobank 应用）。
- 共同特征：关注公共卫生与精准医学中的非线性与异质性，试图用遗传变异识别非参数因果曲线。
- 对比点：传统MR线性方法只能估计平均效应（如IVW），而本文尝试对异质性（age interaction）建模。

这个方向在追问的核心问题¶

识别：在什么正则性条件下，非线性结构函数 g(·) 可从 E[Y | Z] 和 E[X | Z] 中非参数识别？需要哪些排除限制（exclusion restriction）和依赖结构？
估计与收敛：如何避免NPIV的逆问题不适定性（ill-posedness）？BART这类非参数贝叶斯方法的后验收缩率（posterior concentration rate） 与经典非参数IV（如级数/核）的minimax率相比如何？
交互效应：当存在多个效应修饰因子（如年龄）时，如何识别并估计异质性的因果效应曲线？
用户友好性：如何将复杂的非线性IV方法封装进一个“只要给定Y, X, Z就能跑”的现成软件包，使应用研究者（如流行病学家）能轻松使用？

⚠️ 作者的Framing¶

作者的缺口定位：作者将现有非线性IV方法（Burgess et al., 2014; Guo & Small, 2016; Chetverikov & Wilhelm, 2017）刻画为“鲁棒性差（fragile）”、“仅能处理加法效应”、“在应用中难以被非统计师使用”。而本文的BART-IV被框定为解决这几个痛点的自然答案：它通过树集成自动捕捉交互与非线性，通过正则化先验避免过拟合，且可通过现成的BART R包（Sparapani et al., 2021）实现，几乎不增加用户额外负担。这是典型的“用一个更现代的工具解决老问题”的叙事。
被淡化/回避的竞争路线：
- NPIV的矩估计方法（如GMM）被完全回避。作者完全没有提及深层IV（Deep IV）或神经网络IV的文献（如Hartford et al., 2017）。这可能是由于：1）这些方法对非统计师更不友好；2）本文更偏好贝叶斯而非频率学派范式。
- 对高效迭代估计（如Double/Debiased ML）：作者没有讨论将DML框架与BART结合以估计IV-LATE或非线性IV系数（一种可能的“半参数”折中）。
什么明显该被引/该存在、却没出现在Intro里？
- 深层IV（Deep IV）及其变体 完全缺席。Hartford et al. (2017) 是另一类使用深度学习解决非线性IV的著名工作，对本文来说是直接的竞争或参照。
- 最优工具变量（Optimal IV）与Efficient GMM 的思想被忽略。作者没有讨论其估计量的efficiency（虽然作为贝叶斯分析，它可能不关心传统效率界）。
- 适用于高维Z或多IV的BART变体 未被讨论（如Rocková & van der Pas, 2017 的稀疏BART虽然被引用，但未被用于解决多个遗传变体的IV选择问题）。
- Y的分布问题：BART-IV对Y的假设是连续的（高斯似然），但引言完全没有提及如何扩展到Y是二值或计数的情形（虽然BART支架提供了这些，但未整合进IV框架）。

张力¶

未被发现有明显的彼此矛盾的研究。不同非线性IV方法（分层vs控制函数vs单调约束）更像策略互补而非对立：在单调性成立时Chetverikov & Wilhelm (2017)可能是最好的；当函数高度非线性且交互丰富时BART-IV或Deep IV最合适。未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- Y：结果变量（outcome），可观测的连续标量。例：血压（SBP）。
- X：暴露/处理变量（exposure / treatment），可观测的连续标量。例：BMI。
- Z：工具变量（instrument），可观测的向量。在应用中，Z 是多个遗传变异（SNPs）的多基因评分（polygenic risk score）或直接是基因型向量。
- U：未观测混杂因子（unmeasured confounder），不可观测的随机变量。
- C：其他协变量（covariates），可观测的向量。例：年龄、性别、前10个遗传主成分。
- g(·)：结构方程/因果函数（structural function），真值未知，是本文的核心待估对象。定义在 (X, C) 上。
- h(·)：第一阶段方程（first-stage equation），它将暴露 X 与工具 Z、协变量 C、混杂 U 联系起来。真值未知。
- ε1, ε2：不可观测的独立误差项。
- T：BART中树集成的树的数量。这是模型的超参数（先验指定）。
- m(x; T_j, M_j)：第j棵树的函数，由二叉树结构 T_j 和终端节点参数 M_j 确定。
模型：本文的基本模型是非参数结构方程模型，用两个结构方程表示（忽略协变量C以简化，后面会补上）：
```
Y = g(X) + U + ε1      （2.1 式，结果方程）
X = h(Z) + U + ε2      （2.2 式，暴露方程）
```
- 关键假设：Z ⟂ (U, ε1, ε2)（IV排他性与独立性）；g 和 h 是已知的函数类，但形式完全未知，通过BART建模；U 与 Z 无关但可任意与 X, Y 相关（这是它的“混杂”属性）。
- 识别：可以通过将Y对Z回归来识别 E[Y|Z]；也可以将X对Z回归得到 E[X|Z]。然后，如果建立了g与h的关系（例如 E[Y|Z] = E[g(X)|Z]），理论上可以反解出g。但这本质上是反问题（inverse problem），本文没有详细讨论识别条件，而是将识别视为“BART箱子”中自动处理的。
可观测数据：研究者实际观察到的是 {Y_i, X_i, Z_i, C_i}。其中 {Y, X, C} 都是可测量的标量或向量；Z 是可观测的遗传评分（已知且独立）。研究者观测不到的是 U——这是工具变量方法介入的原因。

第二步：讲最小内核¶

本文的最小内核是用一个可观测的函数 E[Y|X, Z] 替代不可观测的 g(X, U)。作者的想法是：当p(Z)（工具变量）提供了足够的外生变异时，我们可以通过同时拟合两个BART树集成来解耦合U的影响。

最简特例：假设线性的所有版本退化

首先，假设（只是为了理解内核）我们回到线性世界： - Y = β X + U + ε1 - X = γ Z + U + ε2 (Z为标量工具变量) 则 E[Y|Z] = β (γ Z) + E[U|Z] + 0 = β γ Z （因U与Z独立）。于是 Cov(Y, Z) / Cov(X, Z) = (β γ Var(Z)) / (γ Var(Z)) = β。这就是著名的Wald estimator。

非线性的核心困难：当g和h都是非线性时，简单的比率不再成立。因为 E[Y|Z] = E[g( h(Z) + U + ε2 ) | Z] 是一个复杂泛函，无法直接反解出g。

本文的最小内核是：用BART直接对联合分布建模，并通过MCMC抽样。

具体而言，BART-IV 建立如下模型（在无协变量C时）： - 第一阶段（暴露的柔性建模）：X_i = h(Z_i) + δ_i, 其中 h(Z_i) 由BART树集成拟合，δ_i ~ N(0, σ_x^2)。 - 第二阶段（结果的柔性建模，关键是包含了第一阶段误差项δ作为控制变量）：Y_i = g(X_i, δ_i) + ε_i, 其中 g(X_i, δ_i) 由另一个BART树集成拟合，ε_i ~ N(0, σ_y^2)。

为什么这能识别g？ 这实质上是一种控制函数（Control Function） 思路。关键观察是，δ_i 是第一阶段残差，它包含了 U 和 ε2 对X的贡献。所以 δ_i 是 (U_i, ε2_i) 的一个替代观测。当我们把 δ_i 作为协变量放入第二阶段时，g(X_i, δ_i) 是非参数的，所以它能吸收掉U通过δ对Y的任何线性/非线性影响。一旦U的影响被δ吸收，剩下的 ∂g/∂X 在给定δ的条件下就是因果效应。

在统计上的“最小内核”操作是： 本项工作本质上是将经典的控制函数IV法（第二阶段的回归包含第一阶段残差）中的第二阶段回归器 g(X, δ) 从线性/多项式形态替换为BART柔性函数。因此，整个因果识别的逻辑链条（δ搭载了 U 的信息，从而阻断混杂路径）保持不变，而建模的灵活性从“假设线性”提升到了“黑箱非参数”。

更直观的理解（用二值处理来描述，虽然本文处理连续X）：想象X是0/1。在连续情况下，δ就是“预测暴露值”的残差。最简版本中，BART-IV的机制是：我先用一个BART模型预测了X（第一阶段），得到了残差δ。这个残差里包含了U的信息。然后我建立一个预测Y的BART模型，它不仅用X，还用δ。如果δ能捕捉所有U对Y的混杂路径，那么从X到Y的路径（在给定δ下）就是无偏的。因为BART自动处理非线性，这种调整不需要假设线性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出了一个贝叶斯加性回归树（BART）框架下的非线性工具变量回归模型（BART-IV），用以在存在未观测混杂时，估计暴露对结果的柔性非线性因果效应及其与协变量的交互。
核心工具/方法：将IV问题嵌入一个两阶段贝叶斯模型：第一阶段用BART拟合暴露方程（X = f(Z, C)），第二阶段用另一个BART拟合结果方程（Y = g(X, δ, C)），其中 δ 是第一阶段残差（控制函数）。通过MCMC（基于已有的BART算法）进行后验采样，自动得到 g(·) 的后验分布。
主要结论：在UK Biobank（英国生物银行）数据的孟德尔随机化应用中，BART-IV发现了BMI对收缩压（SBP）非线性的因果效应——在BMI约27-30的区间效应最陡；同时发现了年龄的异质性效应——BMI对SBP的因果效应在青年（<40岁）中较慢，在中年（40-70岁）中最强，老年又减小；这些模式是传统线性IV（2SLS）无法捕捉的。

关键设定与假设¶

完整模型设定（在 2.1-2.2 节）： Y_i = g(X_i, C_i) + U_i + ε_i，且 X_i = h(Z_i, C_i) + U_i + η_i。假设 (U_i, ε_i, η_i) ⟂ Z_i（工具变量独立性 与 排除性）；g 与 h 是任意函数，通过BART建模。
BART的回归模型（2.3节）：具体到BART，本文的联合模型是： X_i | Z_i, C_i ~ N( f_X(Z_i, C_i), σ_X²)，其中 f_X(·) ~ BART_x（正态似然 + 树集成先验）。 Y_i | X_i, δ_i, C_i ~ N( f_Y(X_i, δ_i, C_i), σ_Y²)，其中 f_Y(·) ~ BART_y；δ_i 是第一阶段残差，可从第一阶段BART的后验中采样。δ_i 作为控制函数（Control Function）。
与标准IV假设的差异：
- 放宽：不假设 g 对X是线性或可加，不假设同质处理效应（effect homogeneity），允许暴露-结局关系中的复杂交互（如X与年龄交互）。
- 强化/隐含：BART先验本身隐含了对函数平滑性的限制（各向同性？请求能近似偶函数？），理论上并不是完全无假设。但作者未深入讨论。此外，控制函数方法本质上要求残差项δ中搭载了全部未观测混杂信息——即假设 (U, ε, η) 通过δ被完全吸收到 f_Y 中。这在理论上与标准IV的识别条件是等效的。

主要结果（理论与实证）¶

由于本文是应用/方法论文，主要结果来自实证，而非正式定理。

实证例子：UK Biobank – BMI对收缩压的因果效应（4节）：
- 数据：英国生物银行（UK Biobank），约37万个已测总胆固醇个体的BMI、SBP、年龄、性别、前10个主成分。工具变量是由8个先验已知与BMI相关的SNPs构成的遗传评分（polygenic risk score）（引自Tan et al., 2014）。
- 如何应用方法：
  1. 第一阶段：BMI = f_X(genetic_instrument, age, sex, PCs) + δ。这里的 f_X 是一个BART模型（树数 T=200），拟合后得到残差δ的后验。
  2. 第二阶段：SBP = f_Y(BMI, δ, age, sex, PCs)。这里的 f_Y 是另一个BART模型（树数 T=200）。由于δ是U的代理，f_Y 可从BMI到SBP的路径中分离出混杂。
  3. 结果提取：从后验样本中，提取年龄在特定值（如30、50、70） 时的 f_Y(BMI, δ, C) 关于BMI的边际效应曲线。可以绘制在不同年龄下，BMI从低（25）变到高（40）时SBP的变化量。
- 核心结果：
  - 非线性效应：因果效应不是线性的。BMI在25-27时效应平缓；BMI在27-30时效应最陡（约每kg/m²使SBP升高2 mmHg）；BMI大于30时效应变缓（plateaus）。
  - 年龄异质性：在年轻人（<40岁）中，BMI对SBP的因果效应几乎为0；在40-70岁，效应强且非线性明显；在老年（70+岁），效应再次变弱。这用线性IV（2SLS）无法发现（只得到一个线性的平均斜率）。作者用后验概率区间（90% CI）展示了这些曲线的不确定性。
- 这个例子想说明什么：
  1. BART-IV能发现2SLS漏掉的重要模式：线性模型认为BMI持续有害（每增加1单位升压1-1.5 mmHg）；BART-IV显示只有特定人群（中年、超重到肥胖过渡段）才特别危险。这对精准预防有直接意义。
  2. Mendelian Radomization 可以处理非线性和交互：传统MR必须假设线性，而本文证明了在柔性模型下用遗传IV也能揭示异质性。

证明路线与技术技巧¶

整体路线（算法框架）：
1. 设定似然与先验：将IV模型写为可加但函数未知的形式；给每个BART树集成指定正则化先验（Chipman et al., 2008的先验：α=0.95, β=2, μ~N(0, σ_x²/k), T=200）。
2. MCMC采样：基于残差回替（Bayesian backfitting）的Gibbs采样器。每棵树用一个Metropolis-Hastings（MH）步骤更新它的树结构（分裂/合并/生长/剪枝）；在每个树的结构下，其终端节点参数（叶均值）可以用共轭正态计算。
3. 填补控制函数：在第一阶段BART完成后，得到残差δ的后验样本。第二阶段BART的输入中，将δ作为一个额外的协变量（与BMI和年龄并列）。
4. 后验推断：从MCMC中抽取后验样本，计算边际效应（如 f_Y(30, δ, age=50) - f_Y(25, δ, age=50)），并绘制后验均值及90%区间。
关键跳跃点（技术难点）：
- 将控制函数与BART结合：这是本文的核心技术贡献。难点在于第一阶段残差δ来自BART的后验，而不是一个点估计。作者用一个巧妙的两阶段采样法回避了计算δ的点估计：在MCMC的每一轮迭代中，先从第一阶段BART的当前状态采样出一个δ，然后将这个采样的δ作为第二阶段BART的输入。这样，两个BART树集成的采样可以接力进行，而不需要硬编码δ。
- 避免收聚/退化：如果第二阶段BART过度依赖δ（忽略X），它会变成“非依从者的Y对δ回归”，导致对因果效应的估计接近0。作者的策略是用正则化先验防止模型过于复杂（即防止向δ的极端过拟合）。
- 计算开销：两阶段BART各200棵树，每个需要在超37万个UK Biobank样本上迭代约1000次MCMC。虽然相较传统线性IV慢得多，但对现代工作站可接受。
技术技巧点名：
- Bayesian Backfitting（Chipman et al., 2008）：MCMC循环，依次更新每棵树（结构 + 叶均值），同时保持其他树固定。这是BART的核心工作引擎，本文完全继承。
- Metropolis-Hastings 树生长：提出分裂/合并/生长/剪枝建议，用MH准则接受/拒绝。这是BART的“结构学习”步骤。
- 残差回补作为控制函数：本质上就是两阶段IV中控制函数（Control Function）的思路，但通过后验积分（而非点估计）来处理第一阶段不确定性。
- 正则化先验：作者用了BART的标准超参数（α=0.95, β=2），这些值被反复检验过，能很好地防止过拟合。

🔎 结论是否比证明窄¶

是的，有差距：
- 定理缺失：论文没有给出任何识别性定理或收敛率结果。它证明了“BART算法在这个设定下是可行的”，但未证明“BART后验在IV设定下能一致地识别g”或“后验收缩率是多少”。这与Rocková & van der Pas (2017) 在无IV的标准BART上建立的收缩率形成对比。作者只在讨论中说：“因为BART在其他设定上表现良好，我们相信它在IV下也表现良好。” 这种“相信”是一种conjecture而非结论。
- 控制函数假设的检验：本文假设δ包含了所有U的混杂信息，但实际上，如果U的维度与δ不同（例如U是高度非线性），δ可能不充分。作者没有检验或讨论这种 misspecification 的影响。结语中也只是说“控制函数方法在适度条件下可识别”（generic statement），没有具体到本模型。
- 谁在估计了什么：文章没有E[Y(a)]（潜在结果均值估计）或ATE的点估计，只有条件效应曲线。这使得它更像“可视化异质性方法”而非“因果效应估计器”。

真实例子与应用¶

已在“主要结果”中详述。此处补充：该实验用了UK Biobank的约37万人的数据，使用了8个先前经验证与BMI相关的SNPs作为IV。对比只做了2SLS线性模型，未做其他非线性IV方法（如Burgess et al., 2014的分层法，或Deep IV）作为baseline。作者仅展示了BART-IV的后验曲线，而未列出“更准确/更窄区间”的数值对比。

四、开放问题¶

后验收缩的一致性（Consistency of Posterior Contraction）：本文未证明BART-IV估计量在非参数IV设定下的后验收缩率，甚至没有证明识别性。你去读Rocková & van der Pas (2017)在高维BART上的定理（1/b 与 N 的条件）和Chen & White (1999)对控制函数IV的识别性结果——能否将二者整合，证明BART后验在IV下的收缩率？根在第一节对Rocková的引用。
多工具变量（Wide Z）的选择：当Z是多个SNP时（本文用了8个，实际精神遗传上有成千上万个），能否用BART的自变量选择机制（包含在树频率统计中）去自动推断哪些SNP是有效IV，哪些有水平多效性（pleiotropy）？根在作者没有讨论高维Z的问题。
非线性控制函数假设的松弛：控制函数方法要求δ能完全吸收U的效应。当U包含与X相关的非线性项或交互项时，这种吸收入可能是misspecified的。能否发展一种控制函数+非参数外推或贝叶斯非参数IV模型，不再需要“残差完全吸收入混杂”这个强假设？根在看作者讨论与Burgess (2014)的分层法对比的局限性时未提这个点。
Y为其他分布时的扩展：作者只处理了Y为正态。但如果Y是二值（如高血压=1/0），BART-IV能否扩展？Murray (2021)的count BART已经存在，但缺乏IV框架下的实现。根在作者在引言里提到了count BART但未使用。

Maintained by 陈星宇 · Homepage · Source on GitHub