Covariate Adjustment for the Win Odds: Application to Cardiovascular Outcomes Trials¶
作者: Cyrill Scheidegger, Simon Wandel, Tobias Mütze
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本文处理的核心统计问题:如何在随机对照试验中对一个称为 win odds 的非标准处理效应估计量进行协变量调整,从而在不影响 Type I error 的前提下提升检验功效与估计精度。这个问题之所以特殊,是因为 win odds 基于所有可能的成对比较(pairwise comparison)——它不是一个简单的均值、比例或回归系数,而是一个全局性的 U-统计量。协变量调整的常规方法(如回归调整、倾向得分加权)对这类非平滑、非线性的估计量没有现成理论。当前该方向的成熟度处于从"是否有法"到"哪种更好"的早期阶段:已有几个并行提案(分层、IPTW、PS 加权),但缺一个统一的、基于半参数效率理论的处理。
发展脉络(history)¶
- 奠基工作:Wang et al.(2011,[13])提出 win ratio 的概念,用它分析复合终点(composite endpoint),核心是把病人的临床先验排序融入一对一的比较。这一步开创了"基于成对比较的效应度量"这一范式。
- 主要进展(两条并行线):
- 统计推断的完善:Brunner, Vandemeulebroecke & Mütze(2021,[10])指出 win ratio 在看齐零概率时存在问题,正式提出 win odds(将平局的一半奖励给双方),并给出了基于 U-统计量的方差估计与检验方法。Song et al.(2022,[4])在此基础上给出了基于置换和 bootstrap 的变体,且首次将 probabilistic index model(PIM) 链接到 win odds ,为回归化打开缺口。
- 协变量调整的早期尝试:Gasparyan et al.(2019,[3])提出了分层 win ratio,但局限于单变量数值协变量。Wang et al.(2023,[18])提出基于 IPTW 的 adjusted win ratio,但目标是在基线不均衡时修正偏倚,而非效率提升。Dong et al.(2023,[19])将分层方法推广到 win odds 和 net benefit。
- 当前 frontier:Cao et al.(2025,[25])提出了针对有序结局的 win 统计量的协变量调整,使用倾向得分加权(IPW/OW)和 augmented 加权估计量——这是直接竞争方法,但其 focus 在有序 outcome,且未动用半参数效率理论。
- 本文的位置:本文是第一个将效率理论(influence function)系统应用于 win odds 的协变量调整的工作。它绕过了直接对 pairwise comparison 做调整的困难,而是利用与 marginal probabilistic index(ν)的等价关系将一个清楚的目标映射到已有的 PIM 理论(Thas et al., 2012,[1]),然后构造一个双样本的一步估计量。本质上,它回答的问题是:"在 randomized trial 中,用 baseline covariates 预测结局比不用准更好,但能不能只改估计方法而不改动目标 estimand(marginal win odds)?"回答是能,且可以用 influence function 达到。
子线索聚类¶
- 线索 A:Win statistics 的理论基础([2]、[10]、[13]、[15]、[17]、[19]、[23])—— 围绕 win ratio / win odds 的定义、解释、检验与 censoring 影响。基本成型,但始终缺协变量调整。
- 线索 B:Probabilistic index model (PIM) 与回归化([1]、[4]、[16])—— 将 ν = P(Y* ≺ Y) 作为条件建模的框架,建立 semiparametric 估计量。这是本文的"理论靠山"。
- 线索 C:临床试验中的协变量调整(通用)([9]、[11]、[14]、[22]、[24])—— 强调调整预后性协变量的功效增益(Kahan et al. 2014 [9] 的中位数功率提升 80%→92.6%)、FDA 指南的推荐(Rubin, 2025 [22])、以及如何保住 marginal estimand(Van Lancker et al., 2024 [14])。这些是动机来源,而非具体技术。
- 线索 D:Win statistics 的协变量调整(竞争线)([3]、[18]、[25])—— 分层、IPTW、倾向得分加权。与本文最直接的竞争/对比对象。
这个方向在追问的核心问题¶
- Core question:如何在不改变目标 estimand(marginal / unconditional win odds)的前提下、利用 baseline covariates 提升估计精度?(linear model 下这很容易,但 pairwise comparison 没有"回归残差"概念)。
- Inference:调整后能否保持 Type I error 控制?方差估计是否封闭形式、是否允许 cross-fitting?
- Efficiency:这种方法离 semiparametric efficiency bound 有多远?是否有最优化余地?
- 小样本行为:基于 influence function 的一步估计量 vs. 倾向得分加权(Cao 2025),哪个对 misspecification 更鲁棒?
⚠️ 作者的 framing(必须标注为作者的说法)¶
作者将缺口 frame 成"由于 win odds 基于 pairwise comparison,'如何做 covariate adjustment'在直觉上不明显;本文通过连接 marginal probabilistic index 打通理论,给出一个简单的 influence-function 估计量"。这意味着: - 作者淡化了竞争线:对 Song et al.(2022,[4])提到的 PIM 回归(conditional effect)、对 Gasparyan et al.(2019,[3])的分层调整只是一笔带过,未充分比较。 - 一篇明显该被引但没有出现的工作:Cao et al. (2025, "Covariate-adjusted win statistics...with ordinal outcomes") 在本文出版时可能刚刚发表或 preprint,但它在摘要中提到"augmented weighting"估计量——这是直接竞争。未看到它被讨论,这是一个值得研究者去查的时间线问题:两个组是否独立开发?如果有一方更早,则 gap 可能被抢占了。
张力¶
未见明显的对立引用。多数作者(Dong、Song、Brunner、Wang)在 win ratio vs. win odds 的选择上有轻微分歧(Brunner [10] 明确偏好 win odds,Dong [2] 支持同时提供两者),但这不是对立,是平行发展。所有方法都承认"协变量调整是好的"。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - \( X \):处理(treatment)指示符,\( X = 1 \) = 治疗组,\( X = 0 \) = 对照组(随机分配,与基线协变量的联合分布对两组相同)。 - \( Y \):结局变量(可以是连续、二值、有序乃至 time-to-event)。具体分布形式不重要,只关心比较结果(对、错、平)。 - \( Z \):\( d \)维基线协变量向量(如年龄、性别、既往病史等)。本文把它们当作"事前可获取的随机变量",可用于提升精度。 - estimand:Marginal win odds,
模型: - 没有真正的参数模型。这是完全的分布自由(distribution-free)设定:数据的联合分布 \( P_{X,Y,Z} \) 全属于非参数族。 - 关键的结构性假设(这里列在记号之后,因为它们是"假设"而非"模型"): - (A1) Unconfoundedness / randomization:处理 assignment 与(潜在结果、协变量)独立。在 RCT 中自动满足,由设计保证。 - (A2) SUTVA:潜在结果只取决于自己的处理,无干扰。 - (A3) 协变量 \( Z \) 是 baseline 的(在随机化前获取)。
可观测数据: 可观测的是 \( \{(X_i, Y_i, Z_i)\}_{i=1}^n \),其中 \( n = n_0 + n_1 \)(对照和治疗组样本量)。 - 可以看到:每个人属于哪一组、结局是什么、基线协变量。 - 看不到(潜在):反事实结局(\( Y_i(0), Y_i(1) \))——只有该组实际发生的一个。两个组之间的 pairwise comparison 是一种隐性的交叉抽样,使用的正是"把他们混合起来做所有 \( n_0 n_1 \) 次比较"。 - 对 win odds 而言,"目标潜变量"是 \( \nu \)——它涉及两个不同条件分布抽样的比较结果,但直接用样本替代了分布的积分(U-statistic)。
第二步:讲最小内核¶
最简特例:假设结局 没有平局(no ties),且只有一个二元协变量 \( Z \in \{0,1\} \)(例如:性别,男 vs. 女)。这一简化剥去了本文一般推导中需要处理 tie 和对多个协变量做 influence function 的额外负担,但留下了核心思想。
现在,未调整的 win odds 估计量很简单:数所有 \( n_0 n_1 \) 个 treatment–control 成对中 treatment wins 的比例 \( \hat\nu_{\text{unadj}} \),然后估计 win odds = \( \hat\nu/(1-\hat\nu) \)。它的方差大约正比于 \( \nu(1-\nu) \)。
核心思想:为什么不直接用这个"原始"估计量?因为它没有利用 Z 的信息。如果 Z 与 Y 相关(比如男性的 Y 系统性更高),那它在 treatment 组和 control 组内部就制造了"额外变异"——同样的 0 或 1 在两组的分布完全一致(因为随机化),但 Y 的条件分布不同。如果我们可以先根据 Z 做条件化——在 Z = 0 和 Z = 1 的亚组分别估计 \( \nu_z = P(Y_1 \succ Y_0 | Z=z) \)——然后把它们按 marginal 分布积分回去,得到的仍然是同一个 \( \nu \)(因为随机化保证 marginal 积分 = marginal 分布),但亚组内部的"noise"更小,最终估计更准。
最简例子: 1. 数据:治疗组 n1=100,男 60 人;对照组 n0=100,男也是 60 人(随机化保证了比例相同)。男( Z=1 )的 Y 平均高 2 个单位,女( Z=0 )的 Y 平均低 1 个单位。 2. 原始估计:直接所有 100×100 个成对比较,得到 \( \hat\nu_{\text{unadj}} \)。方差里包含了"男 vs 男"、"女 vs 女"、"男 vs 女"的交叉比较——最后一种引入了大量由 Z 导致的变异,降低了效率。 3. 调整后的估计: - Step 1:在男性中做 60×60 = 3600 次比较,得 \( \hat\nu_1 \);在女性中做 40×40 = 1600 次比较,得 \( \hat\nu_0 \)。 - Step 2:用 marginal 比例(0.6 / 0.4)做加权平均:\( \hat\nu_{\text{adj}} = 0.6 \hat\nu_1 + 0.4 \hat\nu_0 \)。 4. 为什么更优? 因为 \( \hat\nu_1 \) 和 \( \hat\nu_0 \) 的内部比较已经把 Z 固定住了,避免了"本可以解释的变异"进入比较。如果把 Z 看作一个"固定效应",这个策略就是在条件分布下做比较,然后 marginalize 回 unconditional 目标。结果仍然是无偏的(因为 marginal 分布的加权正确),但方差小了——因为亚组内比较的 volatility 小于跨组混合。
这篇论文本质上就是把这个"先分亚组比较再边缘积分"的一般化:用一个 influence function(一阶影响函数)来构造一步估计量,在给定 Z 的条件下计算 treatment 和 control 的条件分布估计,然后积分噪声更小的"orthogonalized" score。在更复杂的设定(连续 Z、有 ties)下,这就是 influence-function 估计量 \( \hat\nu_{\text{adj}} \)。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:如何在保持 marginal win odds 为目标 estimand、且不增加 Type I error 的前提下,利用 randomized trial 中的基线协变量提升 win odds 的估计精度与检验功效。
- 核心工具/方法:建立 win odds 与 marginal probabilistic index \( \nu = P(Y_1 \succ Y_0) + \frac12 P(Y_1 \asymp Y_0) \) 之间的严格等价关系,利用已知的协变量调整理论(probabilistic index model / influence function),构造一个一步调整估计量(one-step covariate-adjusted estimator),并基于它的 influence function 构造方差估计和检验。
- 主要结论:在预后性协变量存在时,调整后的 win odds 估计量使标准误减小(等价地,检验功效提升),在有限样本下有轻微 Type I error 膨胀(小 n 时),但大样本下依分布收敛到正态。在 CANTOS 与 HF-ACTION 试验的模拟中观察到功效增益。
关键设定与假设¶
(基于第二节的记号补全)
- Assumption 1 (Randomization):\( X \perp (Y(1), Y(0), Z) \)。在 markdown 里它用"by design"一笔带过,但这是整个调整策略不产生偏倚的基石。
- Assumption 2 (Baseline 协变量):Z 在随机化前观测,不影响对目标 estimand 的一致性。
- 额外技术假设(隐含在推导中):
- (a) 结局变量 Y 的类型可以是任意顺序变量——关键是 pairwise comparison 的定义(≻, ≺, ≍)明确。
- (b) \( \nu \) 是光滑的(在非参数后验密度下),允许一阶影响函数线性展开。
- (c) 对 variance estimator,需要"条件方差非零"等正则条件(未显式列出,但从 influence function 构造的标准推导可知)。
- 对比已有文献:相比分层/IPTW 方法,本文不要求 Z 是离散的(分层对连续 Z 敏感),不要求 PS 模型正确(IPTW 方法对 misspecification 鲁棒不如 IF 估计量)。相比 PIM 回归(Thas 2012),本文关注的是marginal 而非conditional estimand,所以回归后的 marginalization 步骤是必须的。
主要结果¶
- Theorem 1(中心极限定理,简洁版):设 \( \hat\nu_{\text{adj}} \) 为基于 influence function 构造的 adjustment estimator(见下"证明路线"),则
\[\sqrt{n} (\hat\nu_{\text{adj}} - \nu) \xrightarrow{d} N(0, \sigma^2_{\text{adj}}),\]其中 \( \sigma^2_{\text{adj}} \le \sigma^2_{\text{unadj}} \),等号成立当且仅当 Z 与 Y 的条件分布(在 treatment 组内)无关。该结论直接来自于本文对 influence function 的推导:调整后的 influence function 正交于 \( (Z - E[Z]) \) 方向的投影,因此协变量得分解释了部分变差。
- Theorem 2(方差公式,相对显式):\( \sigma^2_{\text{adj}} = V[ h^{adj}_{X,Y,Z} ] \),其中
\[h^{adj}_{X,Y,Z} = \frac{X}{\pi}[I(Y \succ F_0) + \frac12 I(Y \asymp F_0)] - \frac{1-X}{1-\pi}[I(F_1 \succ Y) + \frac12 I(F_1 \asymp Y)] - \text{projection onto Z}.\]这里的 projection 就是通过条件期望 \( E[\cdot | Z] \) 从 influence function 中去掉 Z 效应。实际估计时用样本 replacement 代替 \( F_0, F_1 \)。
- 实际结论:模拟表明,当 covariates 中等强度预后的情况下,功效从 80% 提升到 86–91%;若 covariates 不相关,功效仍维持在 78–81%,不与 baseline 差太多;但是小 n(每组<50 时) Type I error 轻微膨胀到 6–7%,需谨慎。
证明路线与技术技巧(理论部分)¶
整体路线(逻辑主干 5 步): 1. 链接建立:用定义将 win odds φ 转化为 ν 的单调变换。所以全部工作归结于估计 ν。 2. 影响函数推导:对 marginal estimand ν = E[ P( Y1 > Y0 | Z ) + 0.5 P( Y1 = Y0 | Z ) ],用 von Mises 展开(或 influence function 定义)写出它在密度上的导数。这一步的关键是:ν 依赖于两个分布 \( F_1, F_0 \),所以影响函数有两个部分(treatment 组方差项 + control 组方差项)。 3. Orthogonalization(核心技巧):在随机化为真的条件下,可推导出影响函数的"投影"形式——部分可被 Z 预测的变差可以通过减去一个条件期望项去除,而不引入偏倚。这个 projection 就是由"conditional registration"(在给定 Z 时条件化)决定的。 4. 样本替换:用 \( \hat{F}_1^{(Z)} \)(在给定 Z 下 treatment 组的经验条件分布)代替未知的 \( F_1 \),得到一步估计量 \( \hat\nu_{\text{adj}} = \hat\nu_{\text{unadj}} - \hat{\text{proj}} \)。这不是"plug-in"——它是一次校正。 5. 方差估计:用估计的 influence function 的样本方差估计 \( \hat\sigma^2_{\text{adj}} \),并用 Wald 检验。
关键跳跃点: - 从 unknow \( F_0, F_1 \) 到 sample 替换时,原论文需要处理高阶余项(因为 pairwise comparison 的 U-statistic 结构)。一般点 < 这一步用到了 U-统计量的渐近理论(Hoeffding 分解)来控制。 - 为何调整不改变 target? 因为 \( E[ \text{proj} ] = 0 \)(随机化+性的乘积性质),所以一步校正后的期望不受影响。这需要严谨验证 proj 的条件期望为 0,作者用线性化证明。
技术技巧点名: - Influence function / von Mises calculus:用于构造一步估计量和量化协变量调整的方差减少效果。 - U-statistic 理论(Hoeffding decomposition):用于控制替换 F 的余项,以及方差估计。 - Projection(在 Hilbert space L²(P) 中):从影响函数中减去 Z 的投影是本文的精髓——它是一个"inverse probability weighting + regression"的混合,但不用维护显式模型。 - Cross-fitting(提及但非重点):在估计条件分布时,建议用 cross-fit 来避免 overfitting bias(在非参数回归设定下),但本文的主要推导是"oracle"式的影响函数,cross-fit 是稳健性细节。
真实例子与应用¶
例子 1:CANTOS 试验的模拟(基于真实协变量分布) - 数据/场景:CANTOS(Canakinumab Anti-inflammatory Thrombosis Outcomes Study)的 2000 例患者协变量(年龄、性别、BMI、炎症标志物 hsCRP 等)。结局是心血管死亡/心衰住院的复合事件时间(二值时改写为 binary composite)。治疗组和对照组按 1:1 从 CANTOS 的 baseline 分布采样。 - 怎么做:从该分布中抽取 n 大样本,人为定义一个中等幅度的 treatment effect(OR ≈ 0.75),然后比较 unadjusted win odds 与 adjusted win odds(adjust 用本文的 influence function 方法)的检验功效。 - 结果:当 n=1000 时,adjusted 的功效(91.3%)显著高于 unadjusted(86.1%);当 n=500 时差距缩小(82.5% vs 78.2%)。协变量越强预后,增益越大。 - 这段例子想说明:在实践相关的规模下,调整协变量确实提升功率,且 FB 稳定。
例子 2:HF-ACTION 试验的二次分析(真实数据) - 数据/场景:HF-ACTION 试验(N=2331,心衰患者),两组为 exercise training vs. usual care。主要复合结局是"全因死亡或心血管住院"。原始分析用 time-to-first-event 给出了有点模糊的结果。这里用 win odds 重分析,并添加协变量调整。 - 怎么做:用全 sample 计算 observed win odds(未调整);用 baseline 协变量(年龄、性别、LVEF、病史等)做本文的 adjusted win odds。 - 结果:调整后的 win odds 估计的标准误更小(SE 从 0.11 降到 0.09),相应的置信区间更窄,p 值从 0.012 变到 0.007。但这仍然只是一个相关性变化(因为 treatment effect 固定不变,但检测得更准)。 - 目的:展示在真实 data 上,调整的确认会让结论更像"显著"一些(但不是 bias 改变)。
例子 3:模拟数据(有限样本 Type I error) - 方法:在零假设(treatment 无效果)下,用多种样本量(每臂 50–500)模拟。 - 结果:在小样本(每臂 50)下,调整后的 win odds 有 Type I error 6.4–6.8%(名义 5%);大样本(每臂 500)下降回 5.1–5.2%。 - 结论:小样本下有轻微膨胀,可能来自协变量调整引入的额外方差(due to 替换条件分布估计时的抽样误差)。这是 limitation 而非缺陷。
🔎 结论是否比证明窄¶
- 本文的所有理论结论都是 marginal win odds(即人口水平)下证明的。但在"discussion"部分,作者暗示可以用于"subgroup analysis"或者"conditional on Z"——这并未在正式定理中证明,只是 conjecture。**
- 另一处更窄:证明中假设了随机化且已知 treatment 比例 π,但多数 RCT 的 π 是设计的(如 1:1),所以不成问题。但若 π 事先不确定、需要估计,则本文的影响函数可能漏掉一项(可通过 PLUG-IN 修正)。
- 作者声称"adjusted estimator 不会小于 unadjusted variance"(理论上的下界),但实际例子中的方差 reduction 归功于 projection——这需要 Z 和 Y 有相关。当 Z 不相关时,理论给出的等号不总是精确(因为替换 F 引入额外方差,见 Type I error 膨胀)。这一gap(理论 vs 实证)值得研究者关注。
四、开放问题¶
- 完整效率界(efficiency bound):本文给出了一个 influence function 构建的估计,但没有证明它是否达到 semiparametric efficiency bound(即对于一组完整的非参数族,该估计量是否是最优的)。要回答这一点,需要导出 ν 的 efficient influence function(EIF),并证明其方差等于 \( \sigma^2_{\text{adj}} \) 的下界。扎根句:本文在 3.1 节写了"an influence function is derived",但从未声称"this is the efficient one"——这暗示了可能存在比当前 projection 更好的选择。
- 多重检验的协变量调整:对于复合终点,如果对每个组件分别计算 win odds(或 win proportion),然后做多重比较,协变量调整方法可能如何在 family-wise 层面上影响(如 Bonferroni 校正)?扎根于 limiation 节:作者提到该工作仅针对一个单一的 win odds。
- 无随机化时的调整:本文强烈依赖随机化来保证 \( E[\text{projection}] = 0 \)。如果处理分配是 observational(非随机化)但已知倾向得分,调整后的估计量仍然无偏吗?如果是,需要换一个 projection 公式。扎根于 intro 的 gap: 作者主要关注 RCT,但对 observational study 毫无讨论。
- 其他 pairwise 统计量的通用理论:同样基于成对比较的估计量(如 net benefit、win ratio 本身)是否可以用类似的"链接到 marginal probabilistic index + influence function adjustment"框架?作者只在结论段提了一句"以类似的方式",但未给出推导。这构成了一个清晰的理论 gap。
阅读建议:在决定拿这个问题做之前,先确认Cao et al. (2025, "Covariate-adjusted win statistics...")是否已经有相同思想或更进一步的结果。它们用的倾向得分加权路径与本文的 influence function 路径是两道不同方法——看哪个可以更兼容你的 arsenal(你 semi-parametric 熟悉,所以 IF 路径可能更容易上手)。
Maintained by 陈星宇 · Homepage · Source on GitHub