跳转至

So Many Choices: The Comparative Performance of Statistical Adjustment Methods

讲者: Luke Keele
讨论人: Iván Díaz
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-15
主题: 因果推断
视频: https://youtu.be/CjZnQ3ToJjg · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告扎根于一个经典但依然活跃的因果推断子方向:在“无未观测混杂”(unconfoundedness)这一核心假设下,如何从众多备选的统计调整方法中做出选择,以得到偏差最小、最可靠的因果效应估计

  • 这个方向在追问什么:给定一个观测研究,研究者假设已通过测量控制了所有混杂变量。核心问题不再是识别(identification),而是估计(estimation)——即:面对回归、倾向性评分匹配、各种加权方法、以及近年来的“双稳健机器学习”(DRML)方法这一长串工具列表,我应该选择哪一种(或组合)来实际计算处理效应?这个选择对最终的估计结果有多大影响?

  • 奠基与主流路线:该领域的奠基性工作始于Rubin及其合作者对匹配和倾向性评分的开创性研究(Rosenbaum & Rubin, 1983)。此后,主流方法经历了从单纯的回归调整,到倾向性评分匹配/加权,再到“双稳健”估计(如AIPW, TMLE;Robins, Rotnitzky & Zhao, 1994; van der Laan & Robins, 2003),以及近年融合机器学习(ML)的双稳健方法(如DRL, DML;Chernozhukov et al., 2018)。理论上的共识是:DRML方法(尤其是基于影响函数和交叉拟合的)具有最优的理论性质——对两个“第一类”模型(结果回归和倾向性评分)的误设具有双重鲁棒性,并能在使用灵活的非/M率估计(如随机森林、神经网络)时仍达到半参数效率界。

  • 当前Frontier与这场报告的站位:理论文献强烈推荐DRML,但应用领域仍普遍使用更简单的(且常被证明有偏的)方法,如线性回归或简单的倾向性评分匹配(尤其是在Stata中)。这场报告的问题是:理论上的最优方法在真实数据应用中是否必然优于更简单的方法? 讲者通过两个具有实验基准(RCT)的观测研究案例(即REFLUX研究与RHC研究),对该问题进行了实证评估。其核心贡献不在于提出新方法,而在于通过精心设计的基准比较:

    1. 量化了方法选择偏差的潜在大小,并明确指出软件实现(特别是Stata中的非开源命令)可能是偏差的隐形来源。
    2. 实证发现DRML方法(尤指广义随机森林GRF)表现最佳,但并非万无一失——在某些情景下可能出现偏差,而简单的、经典的回归调整有时表现反而不差
    3. 提出了对应用研究者的非教条性建议:应至少同时使用一个结果模型和一个处理模型,寻找结果的共识。这直接挑战了“总是使用最复杂方法”的单一处方。

讲者在此工作线上有一系列实证评估论文(Keele et al., 2021; Keele, working paper)。

二、最小内核 / 一个最简例子

核心思想:在无未观测混杂的假设下,估计因果效应的方法众多。即使假设前提成立,如果调整的方法(如选错了函数形式或错误的软件实现)不当,仍可能产生巨大偏差,其大小甚至不亚于遗漏一个已知的混杂变量。

最简例子(基于讲者的模拟演示)

  • 设定:假设只有一个二值处理变量 \( Z \)(例如:手术 vs. 药物治疗),一个连续结果 \( Y \)(如健康评分),一个连续混杂变量 \( X \)(如基线疾病严重程度)。数据生成过程(DGP)的关键是 \( X \)\( Y \) 的影响是非线性的,例如 \( Y = Z + X^2 + \epsilon \),其中 \( \epsilon \) 是独立噪声。 \( Z \)\( X \) 相关(因为它是混杂变量)。

  • 可观测数据\( O_i = (Y_i, Z_i, X_i), i = 1,...,n \),独立同分布。

  • 目标 (Estimand):平均处理效应 (ATE),记为 \( \tau = \mathbb{E}[Y(1) - Y(0)] \)。在无未观测混杂 (unconfoundedness) 假设下,\( \tau = \mathbb{E}_X[\mathbb{E}(Y|Z=1, X) - \mathbb{E}(Y|Z=0, X)] \)

  • 方法选择与偏差来源

    1. 正确模型:使用回归 \( Y \sim Z + X + X^2 \)。估计量 \( \hat{\tau}_{correct} \) 是渐近无偏的,估计量分布以真实值 \( \tau \) 为中心。
    2. 严重误设:使用回归 \( Y \sim Z \) (完全忽略 X)。这导致遗漏变量偏差。估计量 \( \hat{\tau}_{omit} \) 严重偏离真实值。
    3. 常见误设:使用回归 \( Y \sim Z + X \)(线性地处理X)。这被称为模型设定(函数形式)偏差。因为真实的函数形式是非线性的,线性模型会错误地将 \( X^2 \) 的变异归因于 \( Z \)\( X \),导致估计量 \( \hat{\tau}_{linear} \) 有偏。讲者关键的实证发现是:这种因函数形式误设产生的偏差,其大小可能轻易地超过遗漏变量偏差
  • 核心洞察:这个2x1的简单例子完美展示了讲者的问题: > “即使你确信你测量了所有混杂,你如果选错了调整的“方法”(具体是函数形式),你的估计结果依然可能是灾难性的。”

对付此问题的标准进路是使用更灵活的方法(如匹配、加权、非/半参数方法),让数据自己发现 \( X \)\( Z \)\( Y \) 的真实关系,而不是强制指定一个线性的参数模型。

三、报告主体:讲者讲了什么

[0:00:00 - 0:06:35] 引言:问题的提出与动机 - [0:00:06] 报告背景:讲者(Luke Keele)介绍自己近年与临床研究者合作的经验,发现理论(如OCIS、ACIC)与应用之间存在巨大鸿沟。临床文献仍以简单的Cox或Logistic回归为主,对因果推断方法(如IPW)知之甚少。 - [0:03:08 - 0:06:14] 核心困境:讲者展示统计调整方法的“菜单”——从传统回归、各种匹配方法(子分类、PSM、核匹配、CEM、基数匹配...)、各种加权方法(IPW、边际结构模型、稳定均衡权重、CBPS、熵权重、重叠权重...),直到机器学习方法(BART、TWANG、SuperLearner+TMLE、GRF...)。讲者直呼:“So many choices!” - [0:03:08] 动机来源:一位临床同事在《JAMA》上发表论文,使用了比较高级的匹配方法。统计编辑却要求“重做成一个简单的倾向性评分匹配”,这暴露了临床编辑对现代方法的理解滞后。讲者强调:“...basic propensity score methods in Stata don't work well.”

[0:06:35 - 0:14:00] 问题分解与模型设定偏差的严重性 - [0:06:35 - 0:08:05] 偏差分解:讲者分解估算\( \hat{\tau}_{obs} - \tau_{true} \)时引入著名的分解公式(引自其与Small & Rosenbaum的论文): > 观测估计偏差 = 隐藏(未观测)混杂偏差 + 模型设定偏差 + 统计噪声 在无未观测混杂假设下,前项为0。所以即使假设成立,模型设定本身可以直接导致严重偏差。讲者用一个简单模拟(见第二节内核)证明:模型设定偏差的幅度可以轻易与遗漏混杂变量的偏差相提并论。 - [0:08:05 - 0:12:01] 模拟演示:模拟采用真实模型 \( Y = Z + X^2 + \epsilon \)。三种情景: 1. 正确模型(用\( X+X^2 \)):无偏。 2. 遗漏 \( X \):严重遗漏变量偏差。 3. 线性模型(\( X \):模型设定偏差。其偏差幅度在图中可看齐甚至超过情景2的遗漏变量偏差。讲者以此强调了函数形式错误的重要性:“...model misspecification itself... can induce specification that rivals or is greater than that of omitted variable bias.” - [0:12:06] 一般思路:应对模型误设,应采用半参数或非参数方法,即使用半参数糊参数(nuisance parameter)方法或机器学习估计方法。

[0:13:25 - 0:19:00] 方法空间与关键问题 - [0:13:25] 两种建模框架: - 结果聚焦\( \mathbb{E}[Y \mid Z, X] \)(如回归)。 - 处理聚焦\( \mathbb{E}[Z \mid X] \)(如倾向评分方法)。 - 双稳健:两者都建模(如AIPW, TMLE)。 - [0:14:30] 高级匹配与加权:讲者指出一个关键趋势:新匹配/加权方法(如基数匹配、重叠权重)不再主要围绕PS进行,而是直接针对协变量均衡(covariate balance)进行优化。 - [0:15:43 - 0:17:24] 三个具体问题: 1. 是否应始终使用双稳健(DR)方法?(暗示:至少应同时使用结果和处理两种方法) 2. 是否应转向ML方法? 3. 尤其,是否应推DRML方法(即DML/TMLE)? - [0:17:31 - 0:19:00] DRML框架简介:讲者引用Kennedy提出的名称,指出DRML方法具有最优理论性质: - 使用双稳健框架。 - 基于影响函数构造偏差校正估计量(Bickel et al., 1993; van der Laan & Robins, 2003等)。 - 结合样本拆分(交叉拟合)估计关键调参(Robins et al., 2008; Zheng & van der Laan, 2010; Chernozhukov et al., 2018)。但讲者问:“理论上的最优性质是否一定转化为应用的更好表现?”

[0:19:59 - 0:23:29] Q&A 1 - [0:20:36] 常见支持问题:讲者解释,不同方法对重叠(common support)的处理不同。重叠权重特定设计为聚焦重叠;匹配可以强制共同支撑;ML方法(如BART)有修剪规则。 - [0:22:20] 贝叶斯 vs. ML类别:讲者对“贝叶斯方法是否属于ML”的提问回应:BART是ML,但一个简单贝叶斯Logistic回归不是。

[0:23:29 - 0:30:32] 案例研究1:REFLUX试验(恢复实验基准) - [0:23:29 - 0:26:32] 研究设计:REFLUX研究是关于治疗严重胃食管反流病(GORD)手术 vs 药物治疗的RCT与观察性研究(患者偏好组)。设计独特:患者从同一初筛组中选择进入RCT或观察组。 - [0:27:50] 分析方案\( \hat{\tau}_{rct} \)来自RCT,\( \hat{\tau}_{obs} \)从观察组用不同统计方法估计。基准量是标准化偏差 = \( (\hat{\tau}_{obs} - \hat{\tau}_{rct}) / SD_{rct} \)(即距0越近越好)。 - [0:29:45] 方法表:讲者展示了一个庞大的方法库存——有来自Stata(teffects命令家族)、手动编码R、及高级ML(GRF, SuperLearner+TMLE)的多种方法列联表。 - [0:30:08] 结果对比: - 机器学习子图:GRF、BART表现良好。SuperLearner+TMLE表现出乎意料地差,且讲者尝试更换学习器库(如去掉GBM/随机森林)后,偏差仍未改善([0:33:10 - 0:33:48]),这成为一个令人困惑的现象。 - Stata子图:Stata的PS匹配(teffects psmatch)、NN匹配命令的偏差非常巨大(标准化偏差达0.5以上)。最令人意外的是:在这些Stata匹配上添加回归调整(作为一个DR方法)非但没有减少偏差,反而使偏差在错误方向上变得更大([0:34:14 - 0:35:29])。讲者猜测是开源问题导致容易跟踪,指出这可能是Stata特定实现问题。 - R子图:基本PS匹配在R中有偏差,但添加回归调整后,偏差大幅减少,回归调整起到了期望的偏校作用。高级基数匹配表现优秀。IPW方法表现良好。 - [0:37:30] 从案例1得到的深刻教训:软件实现细节(尤其是非开源代码)是实际上很重要的方法选择维度。简单的Vanilla回归调整(在模型正确设定下)有时表现不比新颖方法差。

[0:40:37 - 0:46:38] 案例研究2:右心导管研究(RHC) - [0:40:37] 背景:RHC观察研究与RCT证据冲突。Connors数据集被广泛用于评估。本研究中无RCT原始数据,所以“真理”是RCT发现的零效应。 - [0:41:59] 方法:使用有限方法集:回归、IPW、最优匹配(带精细协变量均衡)、重叠权重、以及DRML(GRF, SL+TMLE)。 - [0:43:09 - 0:45:02] 结果: - 回归 & IPW:估计效应约为6.1-6.3%(死亡率增加),置信区间不含0。偏差方向错误。 - 匹配 & 重叠权重:回归调整后效应(约6.7-8.3%)仍很大,匹配未根本修复问题。 - ML方法: - 重叠权重 + GBM(倾向评分由GBM估计):降低至3.6%,仍显著但幅度减小。 - GRF:估计效应降至2.6%,95%置信区间包含零([-0.001, 0.053])。这是最接近RCT零效应的结果。 - TMLE & SL:效果更多样(3.3%-4.7%),对学习器库的组成敏感([0:46:09 - 0:46:30])。当仅用GBM时,效应估计值反而更向零靠近,讲者推测GBM可能更好捕捉了交互效应。 - [0:46:38 - 0:48:00] 总结: - 基本Stata PSM实“很差”。 - 双稳健的做法(DR)通常能改善结果。 - DRML方法很少极差,但非万能(在REFLUX案例中,SL+TMLE也有问题)。 - GRF在两个案例中总体表现最好。 - 与临床研究者沟通工具和开发更简洁应用协议有助于推广。

[0:48:08 - 1:13:02] 讨论(Iván Díaz)与问答 - [0:50:05 - 0:52:28] Díaz的评论要点:讲者的“偏差分解”实际上是“估计量 - 因果目标”之差,包括统计不确定性、模型设定偏差和识别偏差(未观测混杂)。能与RCT比较(REFLUX)是特殊情况,更一般地它混淆识别偏差和模型设定偏差。 - [0:52:53] 关于估计量选择的评论:Díaz提出通过大样本性质研究、基准研究、模拟是有限的——它们未能提供统一的估计量选择方法。以minimax方法(在一个定义明确的模型类P上)选择对最坏情况分布表现最好的估计量是一个有前途的前沿。 - [1:00:46 - 1:08:10] Q&A:讲者就具体技术细节进行了回应: - 确认DML/DRML理论性质大多数是大样本([1:01:28 - 1:01:38])。 - Stata命令aipw 指“稳定权重” 而非“增强IPW”([1:01:46 - 1:02:25])。 - 针对计算受限环境,推荐新近的近似均衡权重方法(Feiler & Ben-Michael group),可处理百万级观测([1:09:34 - 1:10:10])。 - 针对如何验证假设,推荐使用多种不同设计(如RCT、IV、RD)看结果一致性([1:10:44 - 1:12:10])。

四、对应论文与开放问题

4.1 对应论文

  1. 已发表论文

    • 标题:Comparing the Performance of Statistical Adjustment Methods by Recovering the Experimental Benchmark from the REFLUX Trial
    • 合作者:S. HarrisR. Grieve(转写[0:48:10]和幻灯片Sources
    • 期刊:Medical Decision Making, 2021, 41(3), 340-353.
    • 备注:述者准确。
  2. 工作论文

    • 标题:So Many Choices: Selecting Among Methods to Adjust For Observed Confounders
    • 作者:Luke Keele(讲者)。
    • 状态:报告为“Working Paper”(幻灯片Sources及转写[0:48:13])。

4.2 报告留下的开放问题

以下均根植于转写的具体陈述或评论:

  • 问题1:为何SuperLearner+TMLE在REFLUX案例中表现不佳,且对学习器库组成异常敏感?

    • 来源:转写[0:33:10 - 0:33:48]。讲者明确表示“我换了很多次学习者,从来没让它变得更接近...这里的SL+TMLE框架似乎对加入了什么学习器很敏感(sensitive to the inclusion of learner)”。
    • 描述:在理论最优的框架(SuperLearner偏校估计+TMLE)与一个具体基准数据的较量中,其表现差于简单的GRF,甚至逊于个别ML方法。是无限方差问题?平衡小样本?还是学习器未能覆盖真正的未知DGP结构?对于想改进模型选择的研究者这是一个直接而具体的入手点。
  • 问题2:Stata那些表现极差的命令(尤其是NN match + regression adjustment)为什么反而使偏差更大?

    • 来源:转写[0:34:14 - 0:35:29]。讲者表示“我花了很多时间也没法完全理解为什么...很难完全弄清楚Stata命令在做什么,因为它们不是开源的”。
    • 描述:一个理论上应该改善表现的双稳健(匹配+回归调整)操作使表现显著变差 - 这暴露了对teffects命令实现细节的黑箱理解不足。可否重新实现一个开源版本?可否通过模拟诊断出它们特定的有偏操作细节?
  • 问题3:是否能建立一个正式的、实用可行的“方法选择工具”为应用研究者提供具体建议?

    • 来源:讨论部分,Iván Diaz [0:52:53 - 0:59:57]和讲者结尾[0:47:25 - 0:48:06]。Díaz提出了一个Minimax选择框架(通过在明确定义的模型类P上最小化最坏情况MSE来选择)。讲者也指出“开发实用协议(protocols for applied users)”是重要方向。
    • 描述:转写中展示的激烈对比(Stata vs. R;基础PS vs. DRML)揭示了纯经验比较的局限性(不能泛化到一个新数据集)。因此,从基准研究中获得的“启发”如何能被形式化为正式的估计量选择标准?Díaz提到的数值Minimax路线是否可在有限计算资源下为给定数据集(特征维度、样本量、预估公平度等)产生一个“最佳基线估计算法”推荐?这是值得统计学家注意的方法论向计算优化融合的例子。
  • 问题4:如何针对特定DGP的类型,更好地理解和预测DRML方法(如GRF, SL+TMLE)之间性能差异的根源?

    • 来源:两个案例均显示GRF表现稳定最好,但SL+TMLE(理论性质类似,但使用分步的集成学习与影响函数校准)出现更多不一致。转写[0:35:59][1:01:28 - 1:01:38]
    • 描述:两类代表当今潮流的DRML方法(以AVI所代表的基于木结构模型的 vs. 两级集成+校准的)之间的差距尚待信息理论解释。GRF是否因它还执行标准的梯度提升(集成树),在DGP中更高效地学习了隐藏的函数形式? SL+TMLE族的灵活性是否有引入不必要偏差或方差的风险?这个问题的答案可以帮助理论研究者设计下一代更稳健的估计框架。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论