Propensity score weighting for covariate adjustment in randomized clinical trials¶
讲者: Fan Li
讨论人: Kari Lock Morgan
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-24
主题: 因果推断
视频: https://www.youtube.com/watch?v=FIyp8Fmr6KA · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2004.10075 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这条工作线回答的是在随机对照试验 (RCT) 中如何进行协变量调整。RCT 虽是因果推断的金标准,但由于偶然不平衡,基线协变量在处理组和对照组间可能不相等,影响估计效率和“表 1”的可信度。经典的调整方法是协方差分析 (ANCOVA),它建模结果对处理、协变量及其交互关系的回归。ANCOVA 有一系列良好渐近性质,但在小样本、非均衡分配或结果模型误设时可能不稳定,且因涉及结果,有“钓鱼式分析”风险。
一个客观的替代方案是逆概率加权 (IPW),利用倾向得分 (PS) 建模已知的处理分配机制。在 RCT 中,PS 模型总是“正确”的(因为真实分配概率是常数),但 IPW 的小样本效率常不如 ANCOVA。
该报告在此方向上的定位是: 提出一个比 IPW 更好的加权策略——重叠权重,从而在不改变目标人群(在 RCT 中所有依赖于 PS 的权重都估计同一个 ATE)的前提下,获得更好的有限样本性质。报告的理论核心是将 OW 置于 平衡权重 (Li, Morgan, Zaslavsky, 2018) 的统一框架中,并证明在 RCT 中的新颖性: - 奠基工作:Tsiatis et al. (2008) 给出了半参数有效估计类,指出 ANCOVA II 在正确模型下具有半参效率;Shen, Li, Li (2014) 证明了 IPW 与 ANCOVA II 渐近等价。报告将这结论推广到所有平衡权重。 - 本报告的关键新贡献:1) 证明了 OW 的精确均值平衡性质(幻灯片 [16:14]),使得加权后的协变量均值在处理组和对照组间完全相等;2) 证明了 OW 与最有效的 ANCOVA II 渐近等价(幻灯片 [20:08]),但小样本效率优于 IPW;3) 为 OW 在 RCT 中的使用给出了封闭形式的方差估计和操作指南 (R包 PSweight)。
二、最小内核 / 一个最简例子¶
最简设定:一个两臂 RCT,分配比例 r=1/2(各组人数相等)。只有一个协变量 X,一个连续结果 Y。我们关心平均处理效应:τ = E[Y(1) - Y(0)]。
可观测数据: - Z ∈ {0,1}:随机处理指示。 - X:基线协变量。 - Y = Z·Y(1)+(1-Z)·Y(0):观测结果(通过 SUTVA)。
核心方法:重叠权重 (OW) 估计量
1. 拟合工作模型:用逻辑回归拟合倾向得分 e(X) = P(Z=1|X)。注意,真值 e(X) ≡ 1/2,但估计的 ê(X) 会因偶然不平衡而有变化。
2. 计算权重:对于处理组个体 (Z=1),权重为 w_1(X) = 1 - ê(X);对于对照组个体 (Z=0),权重为 w_0(X) = ê(X)。
3. 加权平均差:ˆτ_OW = Σ( w_1(X_i)·Z_i·Y_i ) / Σ( w_1(X_i)·Z_i ) - Σ( w_0(X_i)·(1-Z_i)·Y_i ) / Σ( w_0(X_i)·(1-Z_i) )
核心思想(为什么 OW 在 RCT 中好?)
想象一个线性结果模型:Y = α + Z·τ + Xβ + ε, E[ε|Z, X]=0。
- 未调整估计量的误差:
ˆτ_UNADJ - τ ≈ ( X̄_Trt - X̄_Ctrl )β + (ε̄_Trt - ε̄_Ctrl)。当 X 偶然不平衡时,第一项会引入很大的偏差。 - IPW 估计量的误差:
ˆτ_IPW - τ ≈ ΔX_IPW·β + Δε_IPW,其中ΔX_IPW是加权后的协变量均值差。IPW 可以减小不平衡,但无法完全消除。 - OW 估计量的误差:
ˆτ_OW - τ ≈ ΔX_OW·β + Δε_OW。 关键性质:OW 的精确均值平衡性质保证了ΔX_OW = 0(exact balance,幻灯片 [16:14])。因此误差的“X·β”项完全消失!剩下的Δε_OW项仅与均值为零的噪声有关,使得整体估计误差集中在噪声上,从而大幅提升效率。这个性质在幻灯片 [17:00]-[19:56] 中被清晰地用线性模型分解展示。简而言之,OW 直接消除了偶然不平衡导致的“协变量污染”,而 IPW 只能对其“稀释”。
三、报告主体:讲者讲了什么¶
[H:00:21 - H:02:17] 动机与背景 - [H:00:51] 介绍 BestAIR RCT 的“表 1”,展示了基线 SBP 和 AHI 在处理组和对照组间存在偶然不平衡,影响表观效度和后续分析的效率。 - [H:02:49] 介绍 ANCOVA 的优点:在正确或误设模型下点估计无偏,能提高效率;缺点:存在钓鱼式分析风险,在非均衡分配和强处理效应异质性下模型误设会降低精度,小样本不稳定。
[H:02:49 - H:03:43] IPW 的客观性与局限 - [H:03:03] 提出 IPW 作为基于设计的客观替代方案,可避免钓鱼式分析。 - [H:03:43] 点明 IPW 的主要限制:在小样本和非均衡分配中不如 ANCOVA 高效。因此提出探索在 IPW 之外的加权方案。
[H:03:43 - H:06:11] 核心创新:平衡权重框架与重叠权重 (OW)
- [H:03:56] 定义加权平均处理效应 WATE τ_h,通过倾斜函数 h(x) 改变目标人群。在 RCT 中,只要 h 是 e(X) 的函数,τ_h 恒等于 ATE。
- [H:04:34] 引出平衡权重族:w_1(X) ∝ h(X)/e(X), w_0(X) ∝ h(X)/(1-e(X))。
- IPW:h(e) = 1,w_1=1/e, w_0=1/(1-e)。
- OW:h(e) = e(1-e),w_1=1-e, w_0=e。
- [H:05:23] 在 RCT 中,所有平衡权重都估计同一个 ATE,但有限样本表现不同。OW 的优势在于其精确均值平衡性质(幻灯片 [16:14]):当用逻辑回归估计 PS 时,加权后的协变量均值在处理组和对照组间完全相等(ΔX=0)。
[H:07:07 - H:10:39] 理论结果与直觉
- [H:07:30] 用一个简单的线性结果模型分解 OW、IPW 和未调整估计量的误差,幻灯片 [17:00]-[19:56] 清晰展示了 “OW 完全消除由机会不平衡引起的偏差” 这一核心直觉。
- [H:08:21] 介绍命题 1:OW 属于 Tsiatis 等提出的 RAL 估计类;随着纳入更多协变量,OW 的渐近方差不增;在逻辑 PS 模型下,OW 与 ANCOVA II 渐近等价,且在结果线性时达到半参有效界。
- [H:09:09] 幻灯片 [21:09] 展示当 r=1/2 时,N·Var(ˆτ_OW) → 4(1-R²)Var(Ỹ),表明方差减少与用 X 解释 Ỹ 的 R² 直接相关。这直观解释了“为何加入更多协变量会提升效率”。
- [H:10:09] 命题 2 将上述结论推广到所有光滑的平衡权重(OW 满足,匹配权重可通过平滑处理近似)。这统一了理论。
[H:10:39 - H:14:29] 模拟与实例 - [H:11:12] 模拟:样本量 N=50~200,处理分配比例 0.5 & 0.7,结果模型为线性 (含或不含交互项),考虑常数效应和强处理效应异质性 (HTE)。 - 等分配 (r=0.5):无 HTE 时,效率排序为 OW ≥ LR (ANCOVA II) ≥ IPW,OW 在小样本中优势明显;有强 HTE 时,LR 略优,但 OW 始终优于 IPW。 - 非等分配 (r=0.7):OW 最稳定。当结果模型正确时,LR 在小样本中甚至可能比未调整估计量效率还低;当模型误设时,LR 和 IPW 均可能不敌未调整估计量,而 OW 始终保持最高效率。OW 表现出对模型误设的一定稳健性。 - 推断:OW 的 Sandwich 方差在几乎所有场景下覆盖率接近名义水平;而 LR 在 HTE 强或非等分配时,Huber-White 方差严重低估,导致欠覆盖。 - [H:14:39] 实例 (BestAIR):利用 OW,加权后的“表 1”中所有协变量的标准化差都归零,显著提升了表观效度。在结果分析中,未调整估计量错误地发现 SBP 有显著差异,而经 OW 调整后则无。
[H:16:31 - H:18:37] 总结、启思与讨论
- [H:16:43] 讲者重新审视 重叠谱系:RCT 是完美重叠的极限情况,此时 OW 在不改变目标人群的前提下仍比 IPW 高效。
- [H:17:23] 回应一个潜在误解:Raad et al. (2020) 的模拟显示 LR 方差优于 IPW,但讲者指出这仅适用于等分配且模型正确的情况,而 OW 可轻松改进 IPW。
- [H:18:09] 介绍 R 包 PSweight 以推广该方法。
- [H:18:37] 讨论者 (Kari Lock Morgan) 的点评与讲者回应:讨论者肯定了 OW 的优势,同时提醒最优做法是“通过设计预防失衡”(如限制性随机化);并讨论了一个哲学问题——在 RCT 中用 PS 权重到底引入多少假设。讲者回应,加权过程隐式地利用了结果与协变量的关系,最终等价于 ANCOVA,但避免了直接建模结果的主观性,是一个更客观的路径。
四、对应论文与开放问题¶
(a) 对应论文 这场报告直接对应于一篇已发表论文:
- Zeng, Shuxi, Fan Li, Rui Wang, and Fan Li. "Propensity Score Weighting for Covariate Adjustment in Randomized Clinical Trials." Statistics in Medicine, 40(4), 2021, 819-839. (arXiv: 2004.10075)
- 作者:Shuxi Zeng (Duke), Fan Li (Yale), Rui Wang (Harvard), and Fan Li (Duke)。 此信息来自幻灯片标题和结尾。
- 讲者提到的 R 包为
PSweight(CRAN 链接见幻灯片)。
(b) 报告留下的开放问题(每条根植于转写/幻灯片的具体位置)
-
亚组分析中的应用:讲者提到可在 RCT 的预设亚组分析中应用 OW 以提高效能 (幻灯片 [39:02]: "pre-specified subgroup analysis of RCTs (limited sample size and lower power)")。这留下了边界条件问题:在样本量极小的亚组中,PS 模型的估计会很不稳定,OW 的精确平衡性质还能保持吗?是否会因过度拟合机会不平衡而导致方差膨胀或推断失效?这需要更深入的理论(如高维或正则化)和模拟验证。
-
多臂及群随机试验中的推广:讲者列举了多臂 RCT 和整群 RCT (幻灯片 [39:10]-[39:22]) 作为进一步应用。开放问题是:对于多臂 RCT,如何定义“重叠”并推广 OW?对于整群 RCT,性质(如协变量是在个体还是集群层面平衡,方差估计如何调整)尚不明确。这需要将 OW 框架扩展到更复杂的试验设计。
-
关于“设计的预防”与“分析的弥补”的互补性:讨论者 (Kari) 明确提出“通过设计预防失衡”优于“通过分析调整”。讲者回应认为两者可互补。这留下了一个方法论问题:当试验采用了限制性随机化(如分层、重随机化)后,后续的 OW 分析是否仍能带来额外的效率增益?如果有,增益的幅度与试验设计的平衡性、协变量的预后能力之间有何量化关系?这本质上是条件推断(给定重随机化结果)下的效率问题。
Maintained by 陈星宇 · Homepage · Source on GitHub