Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶
作者: Ashley I. Naimi, Qianhui Jin, Ya-Hui Yu, Sara M. Parisi, Lisa M. Bodnar
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.30976
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向的核心问题是:在观察性研究中,如何利用机器学习灵活调整高维混杂,同时获得对因果效应的有效统计推断(一致性、渐近正态性、达到半参效率界)。当前成熟度较高,已有多个基于半参效率理论的框架(AIPW、TMLE、DML),但它们在弱阳性假设违背时可能不稳定,且不同方法可能给出不同结果,给实践者带来困惑。
发展脉络(history)¶
-
奠基工作:参数模型时代。传统做法是使用参数回归模型(如线性或logistic回归)调整混杂。Vansteelandt & Dukes (2022) [3] 指出,这种做法要求研究者事先正确指定函数形式和交互项,在简单场景下可行,但在高维数据中极易因模型误设引入偏差,且标准敏感性分析难以检测这些偏差 [4, 5, 6]。
-
主要进展:机器学习 + 半参效率理论。为解决参数模型误设问题,研究者引入机器学习算法来灵活建模混杂-结局和混杂-暴露关系 [7]。然而,直接使用机器学习会导致“第一阶偏差”(first-order bias),因为ML算法优化的是预测误差(偏倚-方差权衡),而非因果参数 [9, 10]。Kennedy (2022) [1] 和 Díaz (2019) [14] 的综述指出,通过在半参效率理论框架下推导估计量(基于Neyman正交得分或影响函数),可以恢复最优统计性质。这催生了两个最广泛使用的方法:增广逆概率加权(AIPW)[13] 和 目标最大似然估计(TMLE)[14]。两者都是双稳健的(doubly robust):只要结局模型或倾向性得分模型之一被正确估计,就能得到一致的ATE估计;当与交叉拟合(cross-fitting)结合时,可达到非参效率界并支持有效的渐近推断 [9]。
-
当前frontier:方法的稳定性与三角验证。尽管AIPW和TMLE在理论上很优雅,但实践中有两个突出问题:第一,它们对阳性假设的轻微违背非常敏感 [15, 16, 17],这在营养流行病学中尤其常见(如很少有人达到蔬菜摄入指南 [18]);第二,即使阳性假设满足,AIPW和TMLE在同一数据上可能给出不同结果[19],让研究者无所适从。Yadlowsky (2022) [24] 用高维渐近理论解释了这些差异,指出当混杂维数与样本量同阶时,不同估计量的方差行为有本质区别。Rudolph et al. (2022) [21] 在纵向数据中展示了非阳性对灵活估计量的影响更明显。
-
本文的位置:本文提出将残差对残差回归(residual-on-residual regression) 作为AIPW和TMLE的稳定替代方案。该方法由Robinson (1988) [20] 首次提出,近期被Chernozhukov et al. (2018) [21] 在计量经济学中推广。它基于部分线性模型(partially linear model),通过先分别用机器学习拟合结局对混杂、暴露对混杂的条件期望,然后将结局残差对暴露残差做普通最小二乘回归。本文的核心论点是:在暴露效应近似常数时,该方法与AIPW/TMLE渐近等价,但计算更简单、解释性更强,且在弱阳性违背时更稳定,因此可作为三角验证(triangulation)策略的一部分。
子线索聚类¶
-
半参效率理论框架(AIPW / TMLE / DML):以Kennedy (2022) [1]、Díaz (2019) [14]、Luque-Fernández et al. (2018) [12] 为代表。核心思路是推导因果参数的影响函数,构建Neyman正交得分,通过交叉拟合实现渐近有效推断。优点是理论完备、双稳健、可达到效率界;缺点是对阳性敏感、不同方法结果可能不一致。
-
残差回归 / 部分线性模型 / g-估计:以Robinson (1988) [20]、Chernozhukov et al. (2018) [21]、Vansteelandt & Sjolander (2016) [37] 为代表。核心思路是通过“partialling out”混杂的影响,将问题简化为残差之间的OLS回归。优点是计算简单、对阳性更稳健;缺点是假设暴露效应为常数(否则估计量收敛到条件方差加权平均,而非ATE)。
-
异质性处理效应估计(R-learner / CATE):以Nie & Wager (2017) [5] 和 Kennedy (2020) [7] 为代表。R-learner 将残差回归的思想推广到估计条件平均处理效应(CATE),通过最小化一个正则化的经验损失函数来灵活建模 τ(W)。Kennedy (2020) 则提出了双稳健的CATE估计量及其最优性理论。
这个方向在追问的核心问题¶
- 如何在弱阳性假设下获得稳定的因果效应估计? 当前主流方法(AIPW/TMLE)在阳性违背时可能不稳定,而残差回归通过“残差化”而非“逆概率加权”来避免极端权重。
- 当不同方法给出不同结果时,如何判断哪个更可靠? 本文提出将残差回归作为三角验证工具——若三种方法结果一致,则增强信心;若不一致,则提示模型依赖性问题。
- 如何在保持计算简单性的同时获得双稳健性质? 残差回归的双稳健性不同于AIPW/TMLE:它要求结局模型或暴露模型之一正确,但暴露模型是条件期望而非条件密度(更易估计)。
- 当暴露效应存在异质性时,残差回归估计的是什么? Lal & Chou (2025) [2] 给出了精确刻画:它估计的是条件方差加权平均,权重与倾向性得分接近0.5的个体最大。
⚠️ 作者的 framing(必须明确标注成"这是作者的说法")¶
作者把缺口 frame 成:AIPW和TMLE虽然理论完备,但在实践中可能不稳定(尤其弱阳性时)且结果不一致,而残差回归作为更简单、更稳定的替代方案,可以自然地作为三角验证工具。作者淡化了以下竞争路线: - 直接改进AIPW/TMLE的稳定性(如更激进的倾向性得分截断、正则化权重)——作者在模拟中确实用了截断,但未深入讨论。 - 使用其他双稳健方法(如DML的多种变体)——作者只聚焦于AIPW和TMLE。 - 贝叶斯方法或全贝叶斯非参方法——完全未提及。
什么明显该被引 / 该存在、却没出现在 intro 里? - DML(Double/Debiased Machine Learning)的原始论文(Chernozhukov et al., 2018)虽然被引了,但作者将其归为“计量经济学中的推广”,而非作为与AIPW/TMLE并列的框架。实际上DML框架包含了残差回归作为特例(部分线性DML)。 - 关于“部分线性模型”假设检验的文献——如果暴露效应不是常数,残差回归的估计量有偏,但作者未讨论如何检验这个假设。 - 关于“g-估计”(g-estimation)的流行病学文献——作者在讨论中提到了g-估计,但未在intro中将其作为独立线索。
张力¶
未见明显对立引用。所有被引工作基本认同:AIPW/TMLE是主流方法,残差回归是较老但近期被重新发现的替代方案。Lal & Chou (2025) [2] 与本文存在微妙张力:前者强调残差回归在异质性效应下的偏差,后者则强调其在常数效应下的等价性和稳定性。但本文在讨论中明确承认了这一张力,并建议在异质性存在时使用R-learner等扩展。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - Y:结局变量(本文中为子痫前期,二值变量:0/1)。 - A:暴露/处理变量(本文中为高蔬菜摄入密度,二值变量:≥1.25杯/1000千卡 vs. 低于此值)。 - W:混杂向量(包含社会人口学、行为、医疗、邻里等变量,高维)。 - ψ:目标参数——平均处理效应(ATE),即 E[Y(1) - Y(0)],其中 Y(a) 是暴露设为 a 时的潜在结局。 - m_Y(W) = E[Y | W]:结局对混杂的条件期望(结局模型)。 - m_A(W) = E[A | W]:暴露对混杂的条件期望(暴露模型/倾向性得分)。 - π(W) = P(A=1 | W):倾向性得分(对于二值暴露,π(W) = m_A(W))。 - ε:误差项,满足 E[ε | A, W] = 0。 - n:样本量(本文应用中 n=7,923;模拟中 n=500)。 - K:交叉验证折数(本文应用中 K=10;模拟中 K=5)。
模型: 本文的核心模型是部分线性模型(Partially Linear Model, PLM):
Y = ψA + g(W) + ε
可观测数据:研究者实际能观测到的是 {Y_i, A_i, W_i} for i = 1, ..., n,即每个个体的结局、暴露和混杂向量。潜在结局 Y(1) 和 Y(0) 是不可观测的——每个个体只能观测到其实际暴露水平下的结局。因果识别依赖于标准假设:条件可交换性(Y(a) ⟂ A | W)、正值性(0 < P(A=1|W) < 1)、一致性(Y = Y(A))。
第二步:讲最小内核¶
最简特例:假设我们只有一个连续混杂变量 W(例如年龄),且真实模型为:
Y = ψA + βW + ε, A = γW + η
在这个特例下,Robinson (1988) 的核心洞察是: 1. 先去除混杂的影响:分别对 Y 和 A 关于 W 做回归(即估计 E[Y|W] = βW 和 E[A|W] = γW),得到残差: - 结局残差:Ỹ = Y - E[Y|W] = ψA + ε(因为 βW 被减掉了) - 暴露残差:à = A - E[A|W] = η(因为 γW 被减掉了) 2. 残差回归:将 Ỹ 对 à 做无截距的OLS回归: - Ỹ = ψà + ε(因为 Ỹ = ψA + ε = ψ(à + γW) + ε,但注意这里需要小心:实际上 Ỹ = ψA + ε,而 à = A - γW,所以 Ỹ = ψ(à + γW) + ε。关键步骤是:在回归 Ỹ 对 à 时,γW 部分被 à 的系数吸收了吗?) - 更准确的推导:从 PLM 出发,两边减去 E[Y|W]:
Y - E[Y|W] = ψA + g(W) + ε - E[Y|W]
= ψA + g(W) + ε - [ψE[A|W] + g(W)] (因为 E[Y|W] = ψE[A|W] + g(W))
= ψ(A - E[A|W]) + ε
= ψà + ε
为什么这个特例抓住了核心: - 即使 g(W) 是复杂的非线性函数,上述推导仍然成立——只要 E[Y|W] 和 E[A|W] 被正确估计(或至少以足够快的速度收敛)。 - 关键数学困难在于:当 g(W) 是非参数时,E[Y|W] 的估计误差会传播到 ψ 的估计中。Robinson 的贡献是证明:只要 E[Y|W] 和 E[A|W] 以 n^{-1/4} 或更快的速度收敛,ψ 的 OLS 估计就是 √n-一致且渐近正态的。 - 本文的推广:使用机器学习(如 Super Learner)来估计 E[Y|W] 和 E[A|W],然后做残差回归。交叉拟合(cross-fitting)确保估计误差的独立性,使得渐近理论成立。
一句话总结:这篇论文在数学上干的事就是——在部分线性模型下,通过先用机器学习“partial out”混杂的影响,然后对残差做OLS,得到暴露效应的 √n-一致、渐近正态估计,且该估计在弱阳性违背时比AIPW/TMLE更稳定。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在观察性研究中,当使用机器学习调整高维混杂时,残差对残差回归(residual-on-residual regression)能否作为AIPW和TMLE的稳定替代方案,用于估计平均处理效应。
- 核心工具/方法:基于部分线性模型(Y = ψA + g(W) + ε),先用交叉验证的Super Learner估计 E[Y|W] 和 E[A|W],然后对残差做无截距OLS,得到 ψ 的估计,并使用HC3稳健标准误。
- 主要结论:在暴露效应近似常数时,残差回归与AIPW/TMLE渐近等价(无偏、覆盖接近名义水平),但计算更简单、解释性更强;在弱阳性违背时,残差回归显著优于AIPW和TMLE(偏差和RMSE几乎不变,而AIPW的RMSE翻四倍、TMLE开始欠覆盖)。
关键设定与假设¶
完整设定(在第二节最小记号基础上补充): - 部分线性模型:Y = ψA + g(W) + ε,其中 E[ε | A, W] = 0。这是核心假设,意味着: - 暴露效应是常数(ψ 不随 W 变化)。 - 暴露与混杂无交互(g(W) 中不含 A)。 - 识别假设(标准因果推断假设): - 条件可交换性:Y(a) ⟂ A | W(给定混杂,暴露与潜在结局独立)。 - 正值性:0 < P(A=1|W) < 1(每个混杂水平下都有暴露和未暴露个体)。 - 一致性:Y = Y(A)(观测到的结局等于实际暴露水平下的潜在结局)。 - 估计假设: - 结局模型 m_Y(W) = E[Y|W] 和暴露模型 m_A(W) = E[A|W] 可以用机器学习以足够快的速度估计(通常要求收敛速率优于 n^{-1/4})。 - 使用交叉拟合(cross-fitting)来打破估计误差的相关性。
相比已有文献的放宽/强化: - 放宽:相比参数模型,不要求 g(W) 的函数形式已知。 - 强化:相比AIPW/TMLE的非参模型(Y = μ(A,W) + ε),部分线性模型对暴露-结局关系施加了线性约束。这意味着如果真实模型存在暴露-混杂交互,残差回归会有偏。
主要结果¶
理论结果(本文未给出新定理,而是引用已有理论): 1. 一致性:在部分线性模型下,残差回归的 ψ̂ 是 √n-一致的(Robinson, 1988 [20])。 2. 渐近正态性:当使用交叉拟合和稳健标准误时,ψ̂ 是渐近正态的,且其方差等于Neyman正交得分的影响函数方差(Chernozhukov et al., 2018 [21])。 3. 与AIPW/TMLE的等价性:在部分线性模型下,三者渐近等价,具有相同的效率界(Chen, Kennedy & Balakrishnan, 2026 [12])。
模拟结果(本文的核心实证贡献): 1. 主模拟(阳性满足): - 三种双稳健方法(残差回归、AIPW、TMLE)在所有15个场景中几乎无偏(绝对偏差 ≤ 0.08),而误设的线性OLS偏差很大(覆盖低至0.4%)。 - 残差回归的覆盖率为92.4-94.1%(略低于名义水平),AIPW和TMLE为93.3-94.7%。 - 残差回归的SE比(Avg SE / Emp SE)为0.96-0.98(轻微低估),AIPW/TMLE接近1.00。 2. 阳性压力测试: - 随着阳性违背加剧(ζ从1到6,尾部比例从1.8%升至29.9%): - 残差回归:偏差保持~0.01,RMSE从0.10微升至0.14,覆盖保持93.8-94.1%。 - AIPW:RMSE从0.12升至0.46(翻四倍),SE比从0.99降至0.71(严重低估),但覆盖仍接近名义(因为大误差伴随大标准误)。 - TMLE:在ζ=6时覆盖降至88.7%,RMSE升至0.20。 - 结论:残差回归对阳性违背几乎不变,AIPW损失精度,TMLE在极端情况下开始失效。
真实数据结果(nuMoM2b队列,n=7,923): - 高蔬菜摄入密度与子痫前期的关联:三种方法结果一致,均显示风险降低。 - 残差回归:RD = -1.49/100(95% CL: -2.94, -0.03) - AIPW:RD = -0.97/100(95% CL: -2.85, 0.90) - TMLE:RD = -1.15/100(95% CL: -3.02, 0.73) - 注意:只有残差回归的置信区间不包含零,但作者未强调这一点,而是强调三者“concordant”。
证明路线与技术技巧¶
整体路线(基于Robinson, 1988和Chernozhukov et al., 2018的证明框架): 1. 步骤1:Partialling out。从PLM两边减去 E[Y|W] = ψE[A|W] + g(W),得到 Ỹ = ψà + ε。 2. 步骤2:残差估计。用交叉验证的Super Learner估计 m̂_Y(W) 和 m̂_A(W),构造残差 Ỹ̂ = Y - m̂_Y(W) 和 Ã̂ = A - m̂_A(W)。 3. 步骤3:OLS回归。将 Ỹ̂ 对 Ã̂ 做无截距OLS,得到 ψ̂ = (∑ Ã̂_i²)^{-1} ∑ Ã̂_i Ỹ̂_i。 4. 步骤4:渐近分析。证明 ψ̂ - ψ = (∑ Ã_i²)^{-1} ∑ Ã_i ε_i + 可忽略的剩余项(由于 m̂_Y 和 m̂_A 的估计误差)。关键是要证明剩余项是 o_p(n^{-1/2})。
关键跳跃点: - 为什么估计误差可忽略? 因为 ψ̂ 的Neyman正交得分对 m_Y 和 m_A 的估计误差是一阶不敏感的。具体地,ψ̂ 的影响函数为 φ(O) = à ε / E[ò],其 Gateaux 导数在真实 nuisance 处为零。这意味着只要 m̂_Y 和 m̂_A 以 o_p(n^{-1/4}) 的速率收敛,剩余项就是 o_p(n^{-1/2})。 - 交叉拟合的作用:如果不使用交叉拟合,m̂_Y 和 m̂_A 的估计误差与 ε 相关(因为同一数据既用于估计 nuisance 又用于估计 ψ),导致剩余项无法控制。交叉拟合通过在不同子集上估计 nuisance 和 ψ 来打破这种相关性。
技术技巧点名: - Neyman正交性:核心技巧。ψ̂ 的得分函数对 nuisance 参数的一阶导数在真实值处为零,使得 nuisance 估计误差的影响是二阶的。 - 交叉拟合(Cross-fitting):将数据分成 K 折,每折用其余 K-1 折估计 nuisance,然后在该折上计算 ψ 的贡献。这避免了 Donsker 类条件,允许使用复杂机器学习方法。 - HC3稳健标准误:使用 (1 - h_ii)^{-2} 加权残差平方和,对异方差和小样本更稳健。 - Super Learner:通过交叉验证的凸组合,从候选算法库中选出最优预测模型,保证预测性能至少与库中最佳算法一样好。
真实例子与应用¶
数据:nuMoM2b队列(美国8个医学中心,2010-2013年),n=7,923名初产妇。暴露:围孕期高蔬菜摄入密度(≥1.25杯/1000千卡)。结局:子痫前期。混杂:社会人口学、行为、医疗、邻里、饮食等变量(详见附录A)。
方法应用: 1. 用10折交叉验证的Super Learner(库包含:样本均值、GLM、随机森林、弹性网、MARS)估计 E[Y|W] 和 E[A|W]。 2. 构造残差,做无截距OLS,得到 RD = -1.49/100。 3. 同时用AIPW和TMLE做对比。
结果:三种方法结果一致(RD在-0.97到-1.49之间),均显示高蔬菜摄入与子痫前期风险降低相关。但只有残差回归的置信区间不包含零。
这个例子想说明什么: - 验证理论:在真实数据中,三种方法给出相似结果,支持了它们在常数效应下的渐近等价性。 - 展示实用性:残差回归计算简单(只需两次Super Learner拟合 + 一次OLS),且结果易于解释。 - 三角验证:三种方法一致增强了因果结论的可信度。
🔎 结论是否比证明窄¶
是。本文的结论“残差回归在弱阳性违背时优于AIPW和TMLE”是基于特定模拟设计的: - 阳性违背是通过单一机制(增加一个连续混杂 W₂ 在倾向性得分中的系数)诱导的。 - 样本量固定为 n=500。 - 结局模型固定为部分线性模型(即真实效应是常数)。 - 倾向性得分截断阈值从 0.01/0.99 放宽到 0.001/0.999。
作者在讨论中明确承认了这些局限性(第14页):“positivity violations in our simulations were induced through a single mechanism... at a single sample size, and with a single outcome model, so the precise magnitude of the AIPW and TMLE degradation is specific to this design.” 因此,不能泛化地声称“残差回归在任何阳性违背下都优于AIPW/TMLE”——这个结论只在本文的模拟条件下被严格证明。
此外,“残差回归与AIPW/TMLE渐近等价” 的结论依赖于部分线性模型成立。如果真实模型存在暴露-混杂交互(即效应异质性),残差回归估计的是条件方差加权平均,而非ATE,此时与AIPW/TMLE的目标参数不同,不能直接比较。作者在讨论中引用了Lal & Chou (2025) [2] 来阐明这一点。
四、开放问题¶
-
异质性效应下的偏差刻画:当暴露效应存在异质性时,残差回归的估计量收敛到条件方差加权平均。Lal & Chou (2025) [2] 给出了二值暴露下的精确形式,但连续暴露下的偏差结构尚未被完全刻画(本文附录C仅提及“curvature term”)。扎根点:本文第14页“Lal and Chou show that with a binary exposure... For continuous treatments... the bias compounds with a curvature term”。
-
部分线性模型的假设检验:残差回归的有效性依赖于部分线性模型(常数效应、无交互)。如何检验这个假设是否合理?目前文献中缺乏简单、可靠的检验方法。扎根点:本文第14页“When the constant treatment effect assumption is suspect, residual-on-residual regression should be paired with an explicit assessment of effect heterogeneity”。
-
更一般的阳性违背模式:本文的阳性压力测试只通过单一机制(增加一个混杂的系数)诱导阳性违背。在更复杂的阳性违背模式(如多个混杂同时导致稀疏性、或存在结构性零)下,残差回归是否仍然稳健? 扎根点:本文第14页“positivity violations in our simulations were induced through a single mechanism... so the precise magnitude of the AIPW and TMLE degradation is specific to this design”。
-
与R-learner的桥接:本文提到R-learner是残差回归到异质性效应的推广,但R-learner的理论性质(如最优收敛速率、效率界)是否完全继承了残差回归的稳定性? 特别是在阳性违背时,R-learner是否也表现出类似的稳健性?扎根点:本文第14页“the R-learner generalizes the ‘partialling-out’ idea to estimate conditional average treatment effects”。
Maintained by 陈星宇 · Homepage · Source on GitHub