Propensity score weighting for covariate adjustment in randomized clinical trials¶

讲者: Fan Li
讨论人: Kari Lock Morgan
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-11-24
主题: 因果推断
视频: https://www.youtube.com/watch?v=FIyp8Fmr6KA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2004.10075 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这条工作线回答的是在随机对照试验 (RCT) 中如何进行协变量调整。RCT 虽是因果推断的金标准，但由于偶然不平衡，基线协变量在处理组和对照组间可能不相等，影响估计效率和“表 1”的可信度。经典的调整方法是协方差分析 (ANCOVA)，它建模结果对处理、协变量及其交互关系的回归。ANCOVA 有一系列良好渐近性质，但在小样本、非均衡分配或结果模型误设时可能不稳定，且因涉及结果，有“钓鱼式分析”风险。

一个客观的替代方案是逆概率加权 (IPW)，利用倾向得分 (PS) 建模已知的处理分配机制。在 RCT 中，PS 模型总是“正确”的（因为真实分配概率是常数），但 IPW 的小样本效率常不如 ANCOVA。

该报告在此方向上的定位是： 提出一个比 IPW 更好的加权策略——重叠权重，从而在不改变目标人群（在 RCT 中所有依赖于 PS 的权重都估计同一个 ATE）的前提下，获得更好的有限样本性质。报告的理论核心是将 OW 置于 平衡权重 (Li, Morgan, Zaslavsky, 2018) 的统一框架中，并证明在 RCT 中的新颖性： - 奠基工作：Tsiatis et al. (2008) 给出了半参数有效估计类，指出 ANCOVA II 在正确模型下具有半参效率；Shen, Li, Li (2014) 证明了 IPW 与 ANCOVA II 渐近等价。报告将这结论推广到所有平衡权重。 - 本报告的关键新贡献：1) 证明了 OW 的精确均值平衡性质（幻灯片 [16:14]），使得加权后的协变量均值在处理组和对照组间完全相等；2) 证明了 OW 与最有效的 ANCOVA II 渐近等价（幻灯片 [20:08]），但小样本效率优于 IPW；3) 为 OW 在 RCT 中的使用给出了封闭形式的方差估计和操作指南 (R包 PSweight)。

二、最小内核 / 一个最简例子¶

最简设定：一个两臂 RCT，分配比例 r=1/2（各组人数相等）。只有一个协变量 X，一个连续结果 Y。我们关心平均处理效应：τ = E[Y(1) - Y(0)]。

可观测数据： - Z ∈ {0,1}：随机处理指示。 - X：基线协变量。 - Y = Z·Y(1)+(1-Z)·Y(0)：观测结果（通过 SUTVA）。

核心方法：重叠权重 (OW) 估计量 1. 拟合工作模型：用逻辑回归拟合倾向得分 e(X) = P(Z=1|X)。注意，真值 e(X) ≡ 1/2，但估计的 ê(X) 会因偶然不平衡而有变化。 2. 计算权重：对于处理组个体 (Z=1)，权重为 w_1(X) = 1 - ê(X)；对于对照组个体 (Z=0)，权重为 w_0(X) = ê(X)。 3. 加权平均差：ˆτ_OW = Σ( w_1(X_i)·Z_i·Y_i ) / Σ( w_1(X_i)·Z_i ) - Σ( w_0(X_i)·(1-Z_i)·Y_i ) / Σ( w_0(X_i)·(1-Z_i) )

核心思想（为什么 OW 在 RCT 中好？）

想象一个线性结果模型：Y = α + Z·τ + Xβ + ε, E[ε|Z, X]=0。

未调整估计量的误差：ˆτ_UNADJ - τ ≈ ( X̄_Trt - X̄_Ctrl )β + (ε̄_Trt - ε̄_Ctrl)。当 X 偶然不平衡时，第一项会引入很大的偏差。
IPW 估计量的误差：ˆτ_IPW - τ ≈ ΔX_IPW·β + Δε_IPW，其中 ΔX_IPW 是加权后的协变量均值差。IPW 可以减小不平衡，但无法完全消除。
OW 估计量的误差：ˆτ_OW - τ ≈ ΔX_OW·β + Δε_OW。 关键性质：OW 的精确均值平衡性质保证了 ΔX_OW = 0（exact balance，幻灯片 [16:14]）。因此误差的“X·β”项完全消失！剩下的 Δε_OW 项仅与均值为零的噪声有关，使得整体估计误差集中在噪声上，从而大幅提升效率。这个性质在幻灯片 [17:00]-[19:56] 中被清晰地用线性模型分解展示。简而言之，OW 直接消除了偶然不平衡导致的“协变量污染”，而 IPW 只能对其“稀释”。

三、报告主体：讲者讲了什么¶

[H:00:21 - H:02:17] 动机与背景 - [H:00:51] 介绍 BestAIR RCT 的“表 1”，展示了基线 SBP 和 AHI 在处理组和对照组间存在偶然不平衡，影响表观效度和后续分析的效率。 - [H:02:49] 介绍 ANCOVA 的优点：在正确或误设模型下点估计无偏，能提高效率；缺点：存在钓鱼式分析风险，在非均衡分配和强处理效应异质性下模型误设会降低精度，小样本不稳定。

[H:02:49 - H:03:43] IPW 的客观性与局限 - [H:03:03] 提出 IPW 作为基于设计的客观替代方案，可避免钓鱼式分析。 - [H:03:43] 点明 IPW 的主要限制：在小样本和非均衡分配中不如 ANCOVA 高效。因此提出探索在 IPW 之外的加权方案。

[H:03:43 - H:06:11] 核心创新：平衡权重框架与重叠权重 (OW) - [H:03:56] 定义加权平均处理效应 WATE τ_h，通过倾斜函数 h(x) 改变目标人群。在 RCT 中，只要 h 是 e(X) 的函数，τ_h 恒等于 ATE。 - [H:04:34] 引出平衡权重族：w_1(X) ∝ h(X)/e(X), w_0(X) ∝ h(X)/(1-e(X))。 - IPW：h(e) = 1，w_1=1/e, w_0=1/(1-e)。 - OW：h(e) = e(1-e)，w_1=1-e, w_0=e。 - [H:05:23] 在 RCT 中，所有平衡权重都估计同一个 ATE，但有限样本表现不同。OW 的优势在于其精确均值平衡性质（幻灯片 [16:14]）：当用逻辑回归估计 PS 时，加权后的协变量均值在处理组和对照组间完全相等（ΔX=0）。

[H:07:07 - H:10:39] 理论结果与直觉 - [H:07:30] 用一个简单的线性结果模型分解 OW、IPW 和未调整估计量的误差，幻灯片 [17:00]-[19:56] 清晰展示了 “OW 完全消除由机会不平衡引起的偏差” 这一核心直觉。 - [H:08:21] 介绍命题 1：OW 属于 Tsiatis 等提出的 RAL 估计类；随着纳入更多协变量，OW 的渐近方差不增；在逻辑 PS 模型下，OW 与 ANCOVA II 渐近等价，且在结果线性时达到半参有效界。 - [H:09:09] 幻灯片 [21:09] 展示当 r=1/2 时，N·Var(ˆτ_OW) → 4(1-R²)Var(Ỹ)，表明方差减少与用 X 解释 Ỹ 的 R² 直接相关。这直观解释了“为何加入更多协变量会提升效率”。 - [H:10:09] 命题 2 将上述结论推广到所有光滑的平衡权重（OW 满足，匹配权重可通过平滑处理近似）。这统一了理论。

[H:10:39 - H:14:29] 模拟与实例 - [H:11:12] 模拟：样本量 N=50~200，处理分配比例 0.5 & 0.7，结果模型为线性 (含或不含交互项)，考虑常数效应和强处理效应异质性 (HTE)。 - 等分配 (r=0.5)：无 HTE 时，效率排序为 OW ≥ LR (ANCOVA II) ≥ IPW，OW 在小样本中优势明显；有强 HTE 时，LR 略优，但 OW 始终优于 IPW。 - 非等分配 (r=0.7)：OW 最稳定。当结果模型正确时，LR 在小样本中甚至可能比未调整估计量效率还低；当模型误设时，LR 和 IPW 均可能不敌未调整估计量，而 OW 始终保持最高效率。OW 表现出对模型误设的一定稳健性。 - 推断：OW 的 Sandwich 方差在几乎所有场景下覆盖率接近名义水平；而 LR 在 HTE 强或非等分配时，Huber-White 方差严重低估，导致欠覆盖。 - [H:14:39] 实例 (BestAIR)：利用 OW，加权后的“表 1”中所有协变量的标准化差都归零，显著提升了表观效度。在结果分析中，未调整估计量错误地发现 SBP 有显著差异，而经 OW 调整后则无。

[H:16:31 - H:18:37] 总结、启思与讨论 - [H:16:43] 讲者重新审视 重叠谱系：RCT 是完美重叠的极限情况，此时 OW 在不改变目标人群的前提下仍比 IPW 高效。 - [H:17:23] 回应一个潜在误解：Raad et al. (2020) 的模拟显示 LR 方差优于 IPW，但讲者指出这仅适用于等分配且模型正确的情况，而 OW 可轻松改进 IPW。 - [H:18:09] 介绍 R 包 PSweight 以推广该方法。 - [H:18:37] 讨论者 (Kari Lock Morgan) 的点评与讲者回应：讨论者肯定了 OW 的优势，同时提醒最优做法是“通过设计预防失衡”（如限制性随机化）；并讨论了一个哲学问题——在 RCT 中用 PS 权重到底引入多少假设。讲者回应，加权过程隐式地利用了结果与协变量的关系，最终等价于 ANCOVA，但避免了直接建模结果的主观性，是一个更客观的路径。

四、对应论文与开放问题¶

(a) 对应论文 这场报告直接对应于一篇已发表论文：

Zeng, Shuxi, Fan Li, Rui Wang, and Fan Li. "Propensity Score Weighting for Covariate Adjustment in Randomized Clinical Trials." Statistics in Medicine, 40(4), 2021, 819-839. （arXiv: 2004.10075）
作者：Shuxi Zeng (Duke), Fan Li (Yale), Rui Wang (Harvard), and Fan Li (Duke)。此信息来自幻灯片标题和结尾。
讲者提到的 R 包为 PSweight（CRAN 链接见幻灯片）。

(b) 报告留下的开放问题（每条根植于转写/幻灯片的具体位置）

亚组分析中的应用：讲者提到可在 RCT 的预设亚组分析中应用 OW 以提高效能 (幻灯片 [39:02]: "pre-specified subgroup analysis of RCTs (limited sample size and lower power)")。这留下了边界条件问题：在样本量极小的亚组中，PS 模型的估计会很不稳定，OW 的精确平衡性质还能保持吗？是否会因过度拟合机会不平衡而导致方差膨胀或推断失效？这需要更深入的理论（如高维或正则化）和模拟验证。
多臂及群随机试验中的推广：讲者列举了多臂 RCT 和整群 RCT (幻灯片 [39:10]-[39:22]) 作为进一步应用。开放问题是：对于多臂 RCT，如何定义“重叠”并推广 OW？对于整群 RCT，性质（如协变量是在个体还是集群层面平衡，方差估计如何调整）尚不明确。这需要将 OW 框架扩展到更复杂的试验设计。
关于“设计的预防”与“分析的弥补”的互补性：讨论者 (Kari) 明确提出“通过设计预防失衡”优于“通过分析调整”。讲者回应认为两者可互补。这留下了一个方法论问题：当试验采用了限制性随机化（如分层、重随机化）后，后续的 OW 分析是否仍能带来额外的效率增益？如果有，增益的幅度与试验设计的平衡性、协变量的预后能力之间有何量化关系？这本质上是条件推断（给定重随机化结果）下的效率问题。

Maintained by 陈星宇 · Homepage · Source on GitHub