So Many Choices: The Comparative Performance of Statistical Adjustment Methods¶

讲者: Luke Keele
讨论人: Iván Díaz
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-15
主题: 因果推断
视频: https://youtu.be/CjZnQ3ToJjg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告扎根于一个经典但依然活跃的因果推断子方向：在“无未观测混杂”（unconfoundedness）这一核心假设下，如何从众多备选的统计调整方法中做出选择，以得到偏差最小、最可靠的因果效应估计。

这个方向在追问什么：给定一个观测研究，研究者假设已通过测量控制了所有混杂变量。核心问题不再是识别（identification），而是估计（estimation）——即：面对回归、倾向性评分匹配、各种加权方法、以及近年来的“双稳健机器学习”（DRML）方法这一长串工具列表，我应该选择哪一种（或组合）来实际计算处理效应？这个选择对最终的估计结果有多大影响？
奠基与主流路线：该领域的奠基性工作始于Rubin及其合作者对匹配和倾向性评分的开创性研究（Rosenbaum & Rubin, 1983）。此后，主流方法经历了从单纯的回归调整，到倾向性评分匹配/加权，再到“双稳健”估计（如AIPW, TMLE；Robins, Rotnitzky & Zhao, 1994; van der Laan & Robins, 2003），以及近年融合机器学习（ML）的双稳健方法（如DRL, DML；Chernozhukov et al., 2018）。理论上的共识是：DRML方法（尤其是基于影响函数和交叉拟合的）具有最优的理论性质——对两个“第一类”模型（结果回归和倾向性评分）的误设具有双重鲁棒性，并能在使用灵活的非/M率估计（如随机森林、神经网络）时仍达到半参数效率界。
当前Frontier与这场报告的站位：理论文献强烈推荐DRML，但应用领域仍普遍使用更简单的（且常被证明有偏的）方法，如线性回归或简单的倾向性评分匹配（尤其是在Stata中）。这场报告的问题是：理论上的最优方法在真实数据应用中是否必然优于更简单的方法？ 讲者通过两个具有实验基准（RCT）的观测研究案例（即REFLUX研究与RHC研究），对该问题进行了实证评估。其核心贡献不在于提出新方法，而在于通过精心设计的基准比较：
1. 量化了方法选择偏差的潜在大小，并明确指出软件实现（特别是Stata中的非开源命令）可能是偏差的隐形来源。
2. 实证发现DRML方法（尤指广义随机森林GRF）表现最佳，但并非万无一失——在某些情景下可能出现偏差，而简单的、经典的回归调整有时表现反而不差。
3. 提出了对应用研究者的非教条性建议：应至少同时使用一个结果模型和一个处理模型，寻找结果的共识。这直接挑战了“总是使用最复杂方法”的单一处方。

讲者在此工作线上有一系列实证评估论文（Keele et al., 2021; Keele, working paper）。

二、最小内核 / 一个最简例子¶

核心思想：在无未观测混杂的假设下，估计因果效应的方法众多。即使假设前提成立，如果调整的方法（如选错了函数形式或错误的软件实现）不当，仍可能产生巨大偏差，其大小甚至不亚于遗漏一个已知的混杂变量。

最简例子（基于讲者的模拟演示）：

设定：假设只有一个二值处理变量 \( Z \)（例如：手术 vs. 药物治疗），一个连续结果 \( Y \)（如健康评分），一个连续混杂变量 \( X \)（如基线疾病严重程度）。数据生成过程（DGP）的关键是 \( X \) 对 \( Y \) 的影响是非线性的，例如 \( Y = Z + X^2 + \epsilon \)，其中 \( \epsilon \) 是独立噪声。 \( Z \) 和 \( X \) 相关（因为它是混杂变量）。
可观测数据：\( O_i = (Y_i, Z_i, X_i), i = 1,...,n \)，独立同分布。
目标 (Estimand)：平均处理效应 (ATE)，记为 \( \tau = \mathbb{E}[Y(1) - Y(0)] \)。在无未观测混杂 (unconfoundedness) 假设下，\( \tau = \mathbb{E}_X[\mathbb{E}(Y|Z=1, X) - \mathbb{E}(Y|Z=0, X)] \)。
方法选择与偏差来源：
1. 正确模型：使用回归 \( Y \sim Z + X + X^2 \)。估计量 \( \hat{\tau}_{correct} \) 是渐近无偏的，估计量分布以真实值 \( \tau \) 为中心。
2. 严重误设：使用回归 \( Y \sim Z \) （完全忽略 X）。这导致遗漏变量偏差。估计量 \( \hat{\tau}_{omit} \) 严重偏离真实值。
3. 常见误设：使用回归 \( Y \sim Z + X \)（线性地处理X）。这被称为模型设定（函数形式）偏差。因为真实的函数形式是非线性的，线性模型会错误地将 \( X^2 \) 的变异归因于 \( Z \) 和 \( X \)，导致估计量 \( \hat{\tau}_{linear} \) 有偏。讲者关键的实证发现是：这种因函数形式误设产生的偏差，其大小可能轻易地超过遗漏变量偏差。
核心洞察：这个2x1的简单例子完美展示了讲者的问题： > “即使你确信你测量了所有混杂，你如果选错了调整的“方法”（具体是函数形式），你的估计结果依然可能是灾难性的。”

对付此问题的标准进路是使用更灵活的方法（如匹配、加权、非/半参数方法），让数据自己发现 \( X \) 与 \( Z \) 和 \( Y \) 的真实关系，而不是强制指定一个线性的参数模型。

三、报告主体：讲者讲了什么¶

[0:00:00 - 0:06:35] 引言：问题的提出与动机 - [0:00:06] 报告背景：讲者（Luke Keele）介绍自己近年与临床研究者合作的经验，发现理论（如OCIS、ACIC）与应用之间存在巨大鸿沟。临床文献仍以简单的Cox或Logistic回归为主，对因果推断方法（如IPW）知之甚少。 - [0:03:08 - 0:06:14] 核心困境：讲者展示统计调整方法的“菜单”——从传统回归、各种匹配方法（子分类、PSM、核匹配、CEM、基数匹配...）、各种加权方法（IPW、边际结构模型、稳定均衡权重、CBPS、熵权重、重叠权重...），直到机器学习方法（BART、TWANG、SuperLearner+TMLE、GRF...）。讲者直呼：“So many choices!” - [0:03:08] 动机来源：一位临床同事在《JAMA》上发表论文，使用了比较高级的匹配方法。统计编辑却要求“重做成一个简单的倾向性评分匹配”，这暴露了临床编辑对现代方法的理解滞后。讲者强调：“...basic propensity score methods in Stata don't work well.”

[0:06:35 - 0:14:00] 问题分解与模型设定偏差的严重性 - [0:06:35 - 0:08:05] 偏差分解：讲者分解估算\( \hat{\tau}_{obs} - \tau_{true} \)时引入著名的分解公式（引自其与Small & Rosenbaum的论文）： > 观测估计偏差 = 隐藏(未观测)混杂偏差 + 模型设定偏差 + 统计噪声 在无未观测混杂假设下，前项为0。所以即使假设成立，模型设定本身可以直接导致严重偏差。讲者用一个简单模拟（见第二节内核）证明：模型设定偏差的幅度可以轻易与遗漏混杂变量的偏差相提并论。 - [0:08:05 - 0:12:01] 模拟演示：模拟采用真实模型 \( Y = Z + X^2 + \epsilon \)。三种情景： 1. 正确模型（用\( X+X^2 \)）：无偏。 2. 遗漏 \( X \)：严重遗漏变量偏差。 3. 线性模型（\( X \)）：模型设定偏差。其偏差幅度在图中可看齐甚至超过情景2的遗漏变量偏差。讲者以此强调了函数形式错误的重要性：“...model misspecification itself... can induce specification that rivals or is greater than that of omitted variable bias.” - [0:12:06] 一般思路：应对模型误设，应采用半参数或非参数方法，即使用半参数糊参数（nuisance parameter）方法或机器学习估计方法。

[0:13:25 - 0:19:00] 方法空间与关键问题 - [0:13:25] 两种建模框架： - 结果聚焦：\( \mathbb{E}[Y \mid Z, X] \)（如回归）。 - 处理聚焦：\( \mathbb{E}[Z \mid X] \)（如倾向评分方法）。 - 双稳健：两者都建模（如AIPW, TMLE）。 - [0:14:30] 高级匹配与加权：讲者指出一个关键趋势：新匹配/加权方法（如基数匹配、重叠权重）不再主要围绕PS进行，而是直接针对协变量均衡（covariate balance）进行优化。 - [0:15:43 - 0:17:24] 三个具体问题： 1. 是否应始终使用双稳健（DR）方法？（暗示：至少应同时使用结果和处理两种方法） 2. 是否应转向ML方法？ 3. 尤其，是否应只推DRML方法（即DML/TMLE）？ - [0:17:31 - 0:19:00] DRML框架简介：讲者引用Kennedy提出的名称，指出DRML方法具有最优理论性质： - 使用双稳健框架。 - 基于影响函数构造偏差校正估计量（Bickel et al., 1993; van der Laan & Robins, 2003等）。 - 结合样本拆分（交叉拟合）估计关键调参（Robins et al., 2008; Zheng & van der Laan, 2010; Chernozhukov et al., 2018）。但讲者问：“理论上的最优性质是否一定转化为应用的更好表现？”

[0:19:59 - 0:23:29] Q&A 1 - [0:20:36] 常见支持问题：讲者解释，不同方法对重叠（common support）的处理不同。重叠权重特定设计为聚焦重叠；匹配可以强制共同支撑；ML方法（如BART）有修剪规则。 - [0:22:20] 贝叶斯 vs. ML类别：讲者对“贝叶斯方法是否属于ML”的提问回应：BART是ML，但一个简单贝叶斯Logistic回归不是。

[0:23:29 - 0:30:32] 案例研究1：REFLUX试验（恢复实验基准） - [0:23:29 - 0:26:32] 研究设计：REFLUX研究是关于治疗严重胃食管反流病（GORD）手术 vs 药物治疗的RCT与观察性研究（患者偏好组）。设计独特：患者从同一初筛组中选择进入RCT或观察组。 - [0:27:50] 分析方案：\( \hat{\tau}_{rct} \)来自RCT，\( \hat{\tau}_{obs} \)从观察组用不同统计方法估计。基准量是标准化偏差 = \( (\hat{\tau}_{obs} - \hat{\tau}_{rct}) / SD_{rct} \)（即距0越近越好）。 - [0:29:45] 方法表：讲者展示了一个庞大的方法库存——有来自Stata（teffects命令家族）、手动编码R、及高级ML（GRF, SuperLearner+TMLE）的多种方法列联表。 - [0:30:08] 结果对比： - 机器学习子图：GRF、BART表现良好。SuperLearner+TMLE表现出乎意料地差，且讲者尝试更换学习器库（如去掉GBM/随机森林）后，偏差仍未改善（[0:33:10 - 0:33:48]），这成为一个令人困惑的现象。 - Stata子图：Stata的PS匹配（teffects psmatch）、NN匹配命令的偏差非常巨大（标准化偏差达0.5以上）。最令人意外的是：在这些Stata匹配上添加回归调整（作为一个DR方法）非但没有减少偏差，反而使偏差在错误方向上变得更大（[0:34:14 - 0:35:29]）。讲者猜测是开源问题导致容易跟踪，指出这可能是Stata特定实现问题。 - R子图：基本PS匹配在R中有偏差，但添加回归调整后，偏差大幅减少，回归调整起到了期望的偏校作用。高级基数匹配表现优秀。IPW方法表现良好。 - [0:37:30] 从案例1得到的深刻教训：软件实现细节（尤其是非开源代码）是实际上很重要的方法选择维度。简单的Vanilla回归调整（在模型正确设定下）有时表现不比新颖方法差。

[0:40:37 - 0:46:38] 案例研究2：右心导管研究（RHC） - [0:40:37] 背景：RHC观察研究与RCT证据冲突。Connors数据集被广泛用于评估。本研究中无RCT原始数据，所以“真理”是RCT发现的零效应。 - [0:41:59] 方法：使用有限方法集：回归、IPW、最优匹配（带精细协变量均衡）、重叠权重、以及DRML（GRF, SL+TMLE）。 - [0:43:09 - 0:45:02] 结果： - 回归 & IPW：估计效应约为6.1-6.3%（死亡率增加），置信区间不含0。偏差方向错误。 - 匹配 & 重叠权重：回归调整后效应（约6.7-8.3%）仍很大，匹配未根本修复问题。 - ML方法： - 重叠权重 + GBM（倾向评分由GBM估计）：降低至3.6%，仍显著但幅度减小。 - GRF：估计效应降至2.6%，95%置信区间包含零（[-0.001, 0.053]）。这是最接近RCT零效应的结果。 - TMLE & SL：效果更多样（3.3%-4.7%），对学习器库的组成敏感（[0:46:09 - 0:46:30]）。当仅用GBM时，效应估计值反而更向零靠近，讲者推测GBM可能更好捕捉了交互效应。 - [0:46:38 - 0:48:00] 总结： - 基本Stata PSM实“很差”。 - 双稳健的做法（DR）通常能改善结果。 - DRML方法很少极差，但非万能（在REFLUX案例中，SL+TMLE也有问题）。 - GRF在两个案例中总体表现最好。 - 与临床研究者沟通工具和开发更简洁应用协议有助于推广。

[0:48:08 - 1:13:02] 讨论（Iván Díaz）与问答 - [0:50:05 - 0:52:28] Díaz的评论要点：讲者的“偏差分解”实际上是“估计量 - 因果目标”之差，包括统计不确定性、模型设定偏差和识别偏差（未观测混杂）。能与RCT比较（REFLUX）是特殊情况，更一般地它混淆识别偏差和模型设定偏差。 - [0:52:53] 关于估计量选择的评论：Díaz提出通过大样本性质研究、基准研究、模拟是有限的——它们未能提供统一的估计量选择方法。以minimax方法（在一个定义明确的模型类P上）选择对最坏情况分布表现最好的估计量是一个有前途的前沿。 - [1:00:46 - 1:08:10] Q&A：讲者就具体技术细节进行了回应： - 确认DML/DRML理论性质大多数是大样本（[1:01:28 - 1:01:38]）。 - Stata命令aipw 指“稳定权重” 而非“增强IPW”（[1:01:46 - 1:02:25]）。 - 针对计算受限环境，推荐新近的近似均衡权重方法（Feiler & Ben-Michael group），可处理百万级观测（[1:09:34 - 1:10:10]）。 - 针对如何验证假设，推荐使用多种不同设计（如RCT、IV、RD）看结果一致性（[1:10:44 - 1:12:10]）。

四、对应论文与开放问题¶

4.1 对应论文

已发表论文：
- 标题：Comparing the Performance of Statistical Adjustment Methods by Recovering the Experimental Benchmark from the REFLUX Trial
- 合作者：S. Harris 和 R. Grieve（转写[0:48:10]和幻灯片Sources）
- 期刊：Medical Decision Making, 2021, 41(3), 340-353.
- 备注：述者准确。
工作论文：
- 标题：So Many Choices: Selecting Among Methods to Adjust For Observed Confounders
- 作者：Luke Keele（讲者）。
- 状态：报告为“Working Paper”（幻灯片Sources及转写[0:48:13]）。

4.2 报告留下的开放问题

以下均根植于转写的具体陈述或评论：

问题1：为何SuperLearner+TMLE在REFLUX案例中表现不佳，且对学习器库组成异常敏感？
- 来源：转写[0:33:10 - 0:33:48]。讲者明确表示“我换了很多次学习者，从来没让它变得更接近...这里的SL+TMLE框架似乎对加入了什么学习器很敏感（sensitive to the inclusion of learner）”。
- 描述：在理论最优的框架（SuperLearner偏校估计+TMLE）与一个具体基准数据的较量中，其表现差于简单的GRF，甚至逊于个别ML方法。是无限方差问题？平衡小样本？还是学习器未能覆盖真正的未知DGP结构？对于想改进模型选择的研究者这是一个直接而具体的入手点。
问题2：Stata那些表现极差的命令（尤其是NN match + regression adjustment）为什么反而使偏差更大？
- 来源：转写[0:34:14 - 0:35:29]。讲者表示“我花了很多时间也没法完全理解为什么...很难完全弄清楚Stata命令在做什么，因为它们不是开源的”。
- 描述：一个理论上应该改善表现的双稳健（匹配+回归调整）操作使表现显著变差 - 这暴露了对teffects命令实现细节的黑箱理解不足。可否重新实现一个开源版本？可否通过模拟诊断出它们特定的有偏操作细节？
问题3：是否能建立一个正式的、实用可行的“方法选择工具”为应用研究者提供具体建议？
- 来源：讨论部分，Iván Diaz [0:52:53 - 0:59:57]和讲者结尾[0:47:25 - 0:48:06]。Díaz提出了一个Minimax选择框架（通过在明确定义的模型类P上最小化最坏情况MSE来选择）。讲者也指出“开发实用协议（protocols for applied users）”是重要方向。
- 描述：转写中展示的激烈对比（Stata vs. R；基础PS vs. DRML）揭示了纯经验比较的局限性（不能泛化到一个新数据集）。因此，从基准研究中获得的“启发”如何能被形式化为正式的估计量选择标准？Díaz提到的数值Minimax路线是否可在有限计算资源下为给定数据集（特征维度、样本量、预估公平度等）产生一个“最佳基线估计算法”推荐？这是值得统计学家注意的方法论向计算优化融合的例子。
问题4：如何针对特定DGP的类型，更好地理解和预测DRML方法（如GRF, SL+TMLE）之间性能差异的根源？
- 来源：两个案例均显示GRF表现稳定最好，但SL+TMLE（理论性质类似，但使用分步的集成学习与影响函数校准）出现更多不一致。转写[0:35:59]和[1:01:28 - 1:01:38]。
- 描述：两类代表当今潮流的DRML方法（以AVI所代表的基于木结构模型的 vs. 两级集成+校准的）之间的差距尚待信息理论解释。GRF是否因它还执行标准的梯度提升（集成树），在DGP中更高效地学习了隐藏的函数形式？ SL+TMLE族的灵活性是否有引入不必要偏差或方差的风险？这个问题的答案可以帮助理论研究者设计下一代更稳健的估计框架。

Maintained by 陈星宇 · Homepage · Source on GitHub