Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶

作者: Ashley I. Naimi, Qianhui Jin, Ya-Hui Yu, Sara M. Parisi, Lisa M. Bodnar
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.30976

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在观察性研究中，如何利用机器学习灵活调整高维混杂，同时获得对因果效应的有效统计推断（一致性、渐近正态性、达到半参效率界）。当前成熟度较高，已有多个基于半参效率理论的框架（AIPW、TMLE、DML），但它们在弱阳性假设违背时可能不稳定，且不同方法可能给出不同结果，给实践者带来困惑。

发展脉络（history）¶

奠基工作：参数模型时代。传统做法是使用参数回归模型（如线性或logistic回归）调整混杂。Vansteelandt & Dukes (2022) [3] 指出，这种做法要求研究者事先正确指定函数形式和交互项，在简单场景下可行，但在高维数据中极易因模型误设引入偏差，且标准敏感性分析难以检测这些偏差 [4, 5, 6]。
主要进展：机器学习 + 半参效率理论。为解决参数模型误设问题，研究者引入机器学习算法来灵活建模混杂-结局和混杂-暴露关系 [7]。然而，直接使用机器学习会导致“第一阶偏差”（first-order bias），因为ML算法优化的是预测误差（偏倚-方差权衡），而非因果参数 [9, 10]。Kennedy (2022) [1] 和 Díaz (2019) [14] 的综述指出，通过在半参效率理论框架下推导估计量（基于Neyman正交得分或影响函数），可以恢复最优统计性质。这催生了两个最广泛使用的方法：增广逆概率加权（AIPW）[13] 和 目标最大似然估计（TMLE）[14]。两者都是双稳健的（doubly robust）：只要结局模型或倾向性得分模型之一被正确估计，就能得到一致的ATE估计；当与交叉拟合（cross-fitting）结合时，可达到非参效率界并支持有效的渐近推断 [9]。
当前frontier：方法的稳定性与三角验证。尽管AIPW和TMLE在理论上很优雅，但实践中有两个突出问题：第一，它们对阳性假设的轻微违背非常敏感 [15, 16, 17]，这在营养流行病学中尤其常见（如很少有人达到蔬菜摄入指南 [18]）；第二，即使阳性假设满足，AIPW和TMLE在同一数据上可能给出不同结果[19]，让研究者无所适从。Yadlowsky (2022) [24] 用高维渐近理论解释了这些差异，指出当混杂维数与样本量同阶时，不同估计量的方差行为有本质区别。Rudolph et al. (2022) [21] 在纵向数据中展示了非阳性对灵活估计量的影响更明显。
本文的位置：本文提出将残差对残差回归（residual-on-residual regression） 作为AIPW和TMLE的稳定替代方案。该方法由Robinson (1988) [20] 首次提出，近期被Chernozhukov et al. (2018) [21] 在计量经济学中推广。它基于部分线性模型（partially linear model），通过先分别用机器学习拟合结局对混杂、暴露对混杂的条件期望，然后将结局残差对暴露残差做普通最小二乘回归。本文的核心论点是：在暴露效应近似常数时，该方法与AIPW/TMLE渐近等价，但计算更简单、解释性更强，且在弱阳性违背时更稳定，因此可作为三角验证（triangulation）策略的一部分。

子线索聚类¶

半参效率理论框架（AIPW / TMLE / DML）：以Kennedy (2022) [1]、Díaz (2019) [14]、Luque-Fernández et al. (2018) [12] 为代表。核心思路是推导因果参数的影响函数，构建Neyman正交得分，通过交叉拟合实现渐近有效推断。优点是理论完备、双稳健、可达到效率界；缺点是对阳性敏感、不同方法结果可能不一致。
残差回归 / 部分线性模型 / g-估计：以Robinson (1988) [20]、Chernozhukov et al. (2018) [21]、Vansteelandt & Sjolander (2016) [37] 为代表。核心思路是通过“partialling out”混杂的影响，将问题简化为残差之间的OLS回归。优点是计算简单、对阳性更稳健；缺点是假设暴露效应为常数（否则估计量收敛到条件方差加权平均，而非ATE）。
异质性处理效应估计（R-learner / CATE）：以Nie & Wager (2017) [5] 和 Kennedy (2020) [7] 为代表。R-learner 将残差回归的思想推广到估计条件平均处理效应（CATE），通过最小化一个正则化的经验损失函数来灵活建模 τ(W)。Kennedy (2020) 则提出了双稳健的CATE估计量及其最优性理论。

这个方向在追问的核心问题¶

如何在弱阳性假设下获得稳定的因果效应估计？ 当前主流方法（AIPW/TMLE）在阳性违背时可能不稳定，而残差回归通过“残差化”而非“逆概率加权”来避免极端权重。
当不同方法给出不同结果时，如何判断哪个更可靠？ 本文提出将残差回归作为三角验证工具——若三种方法结果一致，则增强信心；若不一致，则提示模型依赖性问题。
如何在保持计算简单性的同时获得双稳健性质？ 残差回归的双稳健性不同于AIPW/TMLE：它要求结局模型或暴露模型之一正确，但暴露模型是条件期望而非条件密度（更易估计）。
当暴露效应存在异质性时，残差回归估计的是什么？ Lal & Chou (2025) [2] 给出了精确刻画：它估计的是条件方差加权平均，权重与倾向性得分接近0.5的个体最大。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者把缺口 frame 成：AIPW和TMLE虽然理论完备，但在实践中可能不稳定（尤其弱阳性时）且结果不一致，而残差回归作为更简单、更稳定的替代方案，可以自然地作为三角验证工具。作者淡化了以下竞争路线： - 直接改进AIPW/TMLE的稳定性（如更激进的倾向性得分截断、正则化权重）——作者在模拟中确实用了截断，但未深入讨论。 - 使用其他双稳健方法（如DML的多种变体）——作者只聚焦于AIPW和TMLE。 - 贝叶斯方法或全贝叶斯非参方法——完全未提及。

什么明显该被引 / 该存在、却没出现在 intro 里？ - DML（Double/Debiased Machine Learning）的原始论文（Chernozhukov et al., 2018）虽然被引了，但作者将其归为“计量经济学中的推广”，而非作为与AIPW/TMLE并列的框架。实际上DML框架包含了残差回归作为特例（部分线性DML）。 - 关于“部分线性模型”假设检验的文献——如果暴露效应不是常数，残差回归的估计量有偏，但作者未讨论如何检验这个假设。 - 关于“g-估计”（g-estimation）的流行病学文献——作者在讨论中提到了g-估计，但未在intro中将其作为独立线索。

张力¶

未见明显对立引用。所有被引工作基本认同：AIPW/TMLE是主流方法，残差回归是较老但近期被重新发现的替代方案。Lal & Chou (2025) [2] 与本文存在微妙张力：前者强调残差回归在异质性效应下的偏差，后者则强调其在常数效应下的等价性和稳定性。但本文在讨论中明确承认了这一张力，并建议在异质性存在时使用R-learner等扩展。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - Y：结局变量（本文中为子痫前期，二值变量：0/1）。 - A：暴露/处理变量（本文中为高蔬菜摄入密度，二值变量：≥1.25杯/1000千卡 vs. 低于此值）。 - W：混杂向量（包含社会人口学、行为、医疗、邻里等变量，高维）。 - ψ：目标参数——平均处理效应（ATE），即 E[Y(1) - Y(0)]，其中 Y(a) 是暴露设为 a 时的潜在结局。 - m_Y(W) = E[Y | W]：结局对混杂的条件期望（结局模型）。 - m_A(W) = E[A | W]：暴露对混杂的条件期望（暴露模型/倾向性得分）。 - π(W) = P(A=1 | W)：倾向性得分（对于二值暴露，π(W) = m_A(W)）。 - ε：误差项，满足 E[ε | A, W] = 0。 - n：样本量（本文应用中 n=7,923；模拟中 n=500）。 - K：交叉验证折数（本文应用中 K=10；模拟中 K=5）。

模型：本文的核心模型是部分线性模型（Partially Linear Model, PLM）：

Y = ψA + g(W) + ε

其中： - g(W) 是混杂对结局的非参数函数（可以是线性、多项式、对数、交互等任何光滑函数）。 - ψ 是常数暴露效应（即ATE），这是模型的关键假设：暴露效应在人群中是常数，且暴露与混杂无交互。 - 模型是“部分线性”的：暴露-结局关系是线性的（ψA），但混杂-结局关系 g(W) 是非参数的。

可观测数据：研究者实际能观测到的是 {Y_i, A_i, W_i} for i = 1, ..., n，即每个个体的结局、暴露和混杂向量。潜在结局 Y(1) 和 Y(0) 是不可观测的——每个个体只能观测到其实际暴露水平下的结局。因果识别依赖于标准假设：条件可交换性（Y(a) ⟂ A | W）、正值性（0 < P(A=1|W) < 1）、一致性（Y = Y(A)）。

第二步：讲最小内核¶

最简特例：假设我们只有一个连续混杂变量 W（例如年龄），且真实模型为：

Y = ψA + βW + ε,    A = γW + η

其中 ε, η 是独立同分布的高斯噪声。这是一个线性部分线性模型的特例——g(W) 退化为线性函数 βW，暴露模型也是线性的。

在这个特例下，Robinson (1988) 的核心洞察是： 1. 先去除混杂的影响：分别对 Y 和 A 关于 W 做回归（即估计 E[Y|W] = βW 和 E[A|W] = γW），得到残差： - 结局残差：Ỹ = Y - E[Y|W] = ψA + ε（因为 βW 被减掉了） - 暴露残差：Ã = A - E[A|W] = η（因为 γW 被减掉了） 2. 残差回归：将 Ỹ 对 Ã 做无截距的OLS回归： - Ỹ = ψÃ + ε（因为 Ỹ = ψA + ε = ψ(Ã + γW) + ε，但注意这里需要小心：实际上 Ỹ = ψA + ε，而 Ã = A - γW，所以 Ỹ = ψ(Ã + γW) + ε。关键步骤是：在回归 Ỹ 对 Ã 时，γW 部分被 Ã 的系数吸收了吗？） - 更准确的推导：从 PLM 出发，两边减去 E[Y|W]：

Y - E[Y|W] = ψA + g(W) + ε - E[Y|W]
           = ψA + g(W) + ε - [ψE[A|W] + g(W)]   （因为 E[Y|W] = ψE[A|W] + g(W)）
           = ψ(A - E[A|W]) + ε
           = ψÃ + ε

- 因此，Ỹ = ψÃ + ε 是一个无截距的线性回归，且 Ã 与 ε 不相关（因为 ε 与 A, W 独立，而 Ã 是 A 和 W 的函数）。所以 OLS 给出 ψ 的一致估计。

为什么这个特例抓住了核心： - 即使 g(W) 是复杂的非线性函数，上述推导仍然成立——只要 E[Y|W] 和 E[A|W] 被正确估计（或至少以足够快的速度收敛）。 - 关键数学困难在于：当 g(W) 是非参数时，E[Y|W] 的估计误差会传播到 ψ 的估计中。Robinson 的贡献是证明：只要 E[Y|W] 和 E[A|W] 以 n^{-1/4} 或更快的速度收敛，ψ 的 OLS 估计就是 √n-一致且渐近正态的。 - 本文的推广：使用机器学习（如 Super Learner）来估计 E[Y|W] 和 E[A|W]，然后做残差回归。交叉拟合（cross-fitting）确保估计误差的独立性，使得渐近理论成立。

一句话总结：这篇论文在数学上干的事就是——在部分线性模型下，通过先用机器学习“partial out”混杂的影响，然后对残差做OLS，得到暴露效应的 √n-一致、渐近正态估计，且该估计在弱阳性违背时比AIPW/TMLE更稳定。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观察性研究中，当使用机器学习调整高维混杂时，残差对残差回归（residual-on-residual regression）能否作为AIPW和TMLE的稳定替代方案，用于估计平均处理效应。
核心工具/方法：基于部分线性模型（Y = ψA + g(W) + ε），先用交叉验证的Super Learner估计 E[Y|W] 和 E[A|W]，然后对残差做无截距OLS，得到 ψ 的估计，并使用HC3稳健标准误。
主要结论：在暴露效应近似常数时，残差回归与AIPW/TMLE渐近等价（无偏、覆盖接近名义水平），但计算更简单、解释性更强；在弱阳性违背时，残差回归显著优于AIPW和TMLE（偏差和RMSE几乎不变，而AIPW的RMSE翻四倍、TMLE开始欠覆盖）。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）： - 部分线性模型：Y = ψA + g(W) + ε，其中 E[ε | A, W] = 0。这是核心假设，意味着： - 暴露效应是常数（ψ 不随 W 变化）。 - 暴露与混杂无交互（g(W) 中不含 A）。 - 识别假设（标准因果推断假设）： - 条件可交换性：Y(a) ⟂ A | W（给定混杂，暴露与潜在结局独立）。 - 正值性：0 < P(A=1|W) < 1（每个混杂水平下都有暴露和未暴露个体）。 - 一致性：Y = Y(A)（观测到的结局等于实际暴露水平下的潜在结局）。 - 估计假设： - 结局模型 m_Y(W) = E[Y|W] 和暴露模型 m_A(W) = E[A|W] 可以用机器学习以足够快的速度估计（通常要求收敛速率优于 n^{-1/4}）。 - 使用交叉拟合（cross-fitting）来打破估计误差的相关性。

相比已有文献的放宽/强化： - 放宽：相比参数模型，不要求 g(W) 的函数形式已知。 - 强化：相比AIPW/TMLE的非参模型（Y = μ(A,W) + ε），部分线性模型对暴露-结局关系施加了线性约束。这意味着如果真实模型存在暴露-混杂交互，残差回归会有偏。

主要结果¶

理论结果（本文未给出新定理，而是引用已有理论）： 1. 一致性：在部分线性模型下，残差回归的 ψ̂ 是 √n-一致的（Robinson, 1988 [20]）。 2. 渐近正态性：当使用交叉拟合和稳健标准误时，ψ̂ 是渐近正态的，且其方差等于Neyman正交得分的影响函数方差（Chernozhukov et al., 2018 [21]）。 3. 与AIPW/TMLE的等价性：在部分线性模型下，三者渐近等价，具有相同的效率界（Chen, Kennedy & Balakrishnan, 2026 [12]）。

模拟结果（本文的核心实证贡献）： 1. 主模拟（阳性满足）： - 三种双稳健方法（残差回归、AIPW、TMLE）在所有15个场景中几乎无偏（绝对偏差 ≤ 0.08），而误设的线性OLS偏差很大（覆盖低至0.4%）。 - 残差回归的覆盖率为92.4-94.1%（略低于名义水平），AIPW和TMLE为93.3-94.7%。 - 残差回归的SE比（Avg SE / Emp SE）为0.96-0.98（轻微低估），AIPW/TMLE接近1.00。 2. 阳性压力测试： - 随着阳性违背加剧（ζ从1到6，尾部比例从1.8%升至29.9%）： - 残差回归：偏差保持~0.01，RMSE从0.10微升至0.14，覆盖保持93.8-94.1%。 - AIPW：RMSE从0.12升至0.46（翻四倍），SE比从0.99降至0.71（严重低估），但覆盖仍接近名义（因为大误差伴随大标准误）。 - TMLE：在ζ=6时覆盖降至88.7%，RMSE升至0.20。 - 结论：残差回归对阳性违背几乎不变，AIPW损失精度，TMLE在极端情况下开始失效。

真实数据结果（nuMoM2b队列，n=7,923）： - 高蔬菜摄入密度与子痫前期的关联：三种方法结果一致，均显示风险降低。 - 残差回归：RD = -1.49/100（95% CL: -2.94, -0.03） - AIPW：RD = -0.97/100（95% CL: -2.85, 0.90） - TMLE：RD = -1.15/100（95% CL: -3.02, 0.73） - 注意：只有残差回归的置信区间不包含零，但作者未强调这一点，而是强调三者“concordant”。

证明路线与技术技巧¶

整体路线（基于Robinson, 1988和Chernozhukov et al., 2018的证明框架）： 1. 步骤1：Partialling out。从PLM两边减去 E[Y|W] = ψE[A|W] + g(W)，得到 Ỹ = ψÃ + ε。 2. 步骤2：残差估计。用交叉验证的Super Learner估计 m̂_Y(W) 和 m̂_A(W)，构造残差 Ỹ̂ = Y - m̂_Y(W) 和 Ã̂ = A - m̂_A(W)。 3. 步骤3：OLS回归。将 Ỹ̂ 对 Ã̂ 做无截距OLS，得到 ψ̂ = (∑ Ã̂_i²)^{-1} ∑ Ã̂_i Ỹ̂_i。 4. 步骤4：渐近分析。证明 ψ̂ - ψ = (∑ Ã_i²)^{-1} ∑ Ã_i ε_i + 可忽略的剩余项（由于 m̂_Y 和 m̂_A 的估计误差）。关键是要证明剩余项是 o_p(n^{-1/2})。

关键跳跃点： - 为什么估计误差可忽略？ 因为 ψ̂ 的Neyman正交得分对 m_Y 和 m_A 的估计误差是一阶不敏感的。具体地，ψ̂ 的影响函数为 φ(O) = Ã ε / E[Ã²]，其 Gateaux 导数在真实 nuisance 处为零。这意味着只要 m̂_Y 和 m̂_A 以 o_p(n^{-1/4}) 的速率收敛，剩余项就是 o_p(n^{-1/2})。 - 交叉拟合的作用：如果不使用交叉拟合，m̂_Y 和 m̂_A 的估计误差与 ε 相关（因为同一数据既用于估计 nuisance 又用于估计 ψ），导致剩余项无法控制。交叉拟合通过在不同子集上估计 nuisance 和 ψ 来打破这种相关性。

技术技巧点名： - Neyman正交性：核心技巧。ψ̂ 的得分函数对 nuisance 参数的一阶导数在真实值处为零，使得 nuisance 估计误差的影响是二阶的。 - 交叉拟合（Cross-fitting）：将数据分成 K 折，每折用其余 K-1 折估计 nuisance，然后在该折上计算 ψ 的贡献。这避免了 Donsker 类条件，允许使用复杂机器学习方法。 - HC3稳健标准误：使用 (1 - h_ii)^{-2} 加权残差平方和，对异方差和小样本更稳健。 - Super Learner：通过交叉验证的凸组合，从候选算法库中选出最优预测模型，保证预测性能至少与库中最佳算法一样好。

真实例子与应用¶

数据：nuMoM2b队列（美国8个医学中心，2010-2013年），n=7,923名初产妇。暴露：围孕期高蔬菜摄入密度（≥1.25杯/1000千卡）。结局：子痫前期。混杂：社会人口学、行为、医疗、邻里、饮食等变量（详见附录A）。

方法应用： 1. 用10折交叉验证的Super Learner（库包含：样本均值、GLM、随机森林、弹性网、MARS）估计 E[Y|W] 和 E[A|W]。 2. 构造残差，做无截距OLS，得到 RD = -1.49/100。 3. 同时用AIPW和TMLE做对比。

结果：三种方法结果一致（RD在-0.97到-1.49之间），均显示高蔬菜摄入与子痫前期风险降低相关。但只有残差回归的置信区间不包含零。

这个例子想说明什么： - 验证理论：在真实数据中，三种方法给出相似结果，支持了它们在常数效应下的渐近等价性。 - 展示实用性：残差回归计算简单（只需两次Super Learner拟合 + 一次OLS），且结果易于解释。 - 三角验证：三种方法一致增强了因果结论的可信度。

🔎 结论是否比证明窄¶

是。本文的结论“残差回归在弱阳性违背时优于AIPW和TMLE”是基于特定模拟设计的： - 阳性违背是通过单一机制（增加一个连续混杂 W₂ 在倾向性得分中的系数）诱导的。 - 样本量固定为 n=500。 - 结局模型固定为部分线性模型（即真实效应是常数）。 - 倾向性得分截断阈值从 0.01/0.99 放宽到 0.001/0.999。

作者在讨论中明确承认了这些局限性（第14页）：“positivity violations in our simulations were induced through a single mechanism... at a single sample size, and with a single outcome model, so the precise magnitude of the AIPW and TMLE degradation is specific to this design.” 因此，不能泛化地声称“残差回归在任何阳性违背下都优于AIPW/TMLE”——这个结论只在本文的模拟条件下被严格证明。

此外，“残差回归与AIPW/TMLE渐近等价” 的结论依赖于部分线性模型成立。如果真实模型存在暴露-混杂交互（即效应异质性），残差回归估计的是条件方差加权平均，而非ATE，此时与AIPW/TMLE的目标参数不同，不能直接比较。作者在讨论中引用了Lal & Chou (2025) [2] 来阐明这一点。

四、开放问题¶

异质性效应下的偏差刻画：当暴露效应存在异质性时，残差回归的估计量收敛到条件方差加权平均。Lal & Chou (2025) [2] 给出了二值暴露下的精确形式，但连续暴露下的偏差结构尚未被完全刻画（本文附录C仅提及“curvature term”）。扎根点：本文第14页“Lal and Chou show that with a binary exposure... For continuous treatments... the bias compounds with a curvature term”。
部分线性模型的假设检验：残差回归的有效性依赖于部分线性模型（常数效应、无交互）。如何检验这个假设是否合理？目前文献中缺乏简单、可靠的检验方法。扎根点：本文第14页“When the constant treatment effect assumption is suspect, residual-on-residual regression should be paired with an explicit assessment of effect heterogeneity”。
更一般的阳性违背模式：本文的阳性压力测试只通过单一机制（增加一个混杂的系数）诱导阳性违背。在更复杂的阳性违背模式（如多个混杂同时导致稀疏性、或存在结构性零）下，残差回归是否仍然稳健？ 扎根点：本文第14页“positivity violations in our simulations were induced through a single mechanism... so the precise magnitude of the AIPW and TMLE degradation is specific to this design”。
与R-learner的桥接：本文提到R-learner是残差回归到异质性效应的推广，但R-learner的理论性质（如最优收敛速率、效率界）是否完全继承了残差回归的稳定性？ 特别是在阳性违背时，R-learner是否也表现出类似的稳健性？扎根点：本文第14页“the R-learner generalizes the ‘partialling-out’ idea to estimate conditional average treatment effects”。

Maintained by 陈星宇 · Homepage · Source on GitHub