Covariate Adjustment for the Win Odds: Application to Cardiovascular Outcomes Trials¶

作者: Cyrill Scheidegger, Simon Wandel, Tobias Mütze
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文处理的核心统计问题：如何在随机对照试验中对一个称为 win odds 的非标准处理效应估计量进行协变量调整，从而在不影响 Type I error 的前提下提升检验功效与估计精度。这个问题之所以特殊，是因为 win odds 基于所有可能的成对比较（pairwise comparison）——它不是一个简单的均值、比例或回归系数，而是一个全局性的 U-统计量。协变量调整的常规方法（如回归调整、倾向得分加权）对这类非平滑、非线性的估计量没有现成理论。当前该方向的成熟度处于从"是否有法"到"哪种更好"的早期阶段：已有几个并行提案（分层、IPTW、PS 加权），但缺一个统一的、基于半参数效率理论的处理。

发展脉络（history）¶

奠基工作：Wang et al.（2011，[13]）提出 win ratio 的概念，用它分析复合终点（composite endpoint），核心是把病人的临床先验排序融入一对一的比较。这一步开创了"基于成对比较的效应度量"这一范式。
主要进展（两条并行线）：
统计推断的完善：Brunner, Vandemeulebroecke & Mütze（2021，[10]）指出 win ratio 在看齐零概率时存在问题，正式提出 win odds（将平局的一半奖励给双方），并给出了基于 U-统计量的方差估计与检验方法。Song et al.（2022，[4]）在此基础上给出了基于置换和 bootstrap 的变体，且首次将 probabilistic index model（PIM） 链接到 win odds ，为回归化打开缺口。
协变量调整的早期尝试：Gasparyan et al.（2019，[3]）提出了分层 win ratio，但局限于单变量数值协变量。Wang et al.（2023，[18]）提出基于 IPTW 的 adjusted win ratio，但目标是在基线不均衡时修正偏倚，而非效率提升。Dong et al.（2023，[19]）将分层方法推广到 win odds 和 net benefit。
当前 frontier：Cao et al.（2025，[25]）提出了针对有序结局的 win 统计量的协变量调整，使用倾向得分加权（IPW/OW）和 augmented 加权估计量——这是直接竞争方法，但其 focus 在有序 outcome，且未动用半参数效率理论。
本文的位置：本文是第一个将效率理论（influence function）系统应用于 win odds 的协变量调整的工作。它绕过了直接对 pairwise comparison 做调整的困难，而是利用与 marginal probabilistic index（ν）的等价关系将一个清楚的目标映射到已有的 PIM 理论（Thas et al., 2012，[1]），然后构造一个双样本的一步估计量。本质上，它回答的问题是："在 randomized trial 中，用 baseline covariates 预测结局比不用准更好，但能不能只改估计方法而不改动目标 estimand（marginal win odds）？"回答是能，且可以用 influence function 达到。

子线索聚类¶

线索 A：Win statistics 的理论基础（[2]、[10]、[13]、[15]、[17]、[19]、[23]）—— 围绕 win ratio / win odds 的定义、解释、检验与 censoring 影响。基本成型，但始终缺协变量调整。
线索 B：Probabilistic index model (PIM) 与回归化（[1]、[4]、[16]）—— 将 ν = P(Y* ≺ Y) 作为条件建模的框架，建立 semiparametric 估计量。这是本文的"理论靠山"。
线索 C：临床试验中的协变量调整（通用）（[9]、[11]、[14]、[22]、[24]）—— 强调调整预后性协变量的功效增益（Kahan et al. 2014 [9] 的中位数功率提升 80%→92.6%）、FDA 指南的推荐（Rubin, 2025 [22]）、以及如何保住 marginal estimand（Van Lancker et al., 2024 [14]）。这些是动机来源，而非具体技术。
线索 D：Win statistics 的协变量调整（竞争线）（[3]、[18]、[25]）—— 分层、IPTW、倾向得分加权。与本文最直接的竞争/对比对象。

这个方向在追问的核心问题¶

Core question：如何在不改变目标 estimand（marginal / unconditional win odds）的前提下、利用 baseline covariates 提升估计精度？（linear model 下这很容易，但 pairwise comparison 没有"回归残差"概念）。
Inference：调整后能否保持 Type I error 控制？方差估计是否封闭形式、是否允许 cross-fitting？
Efficiency：这种方法离 semiparametric efficiency bound 有多远？是否有最优化余地？
小样本行为：基于 influence function 的一步估计量 vs. 倾向得分加权（Cao 2025），哪个对 misspecification 更鲁棒？

⚠️ 作者的 framing（必须标注为作者的说法）¶

作者将缺口 frame 成"由于 win odds 基于 pairwise comparison，'如何做 covariate adjustment'在直觉上不明显；本文通过连接 marginal probabilistic index 打通理论，给出一个简单的 influence-function 估计量"。这意味着： - 作者淡化了竞争线：对 Song et al.（2022，[4]）提到的 PIM 回归（conditional effect）、对 Gasparyan et al.（2019，[3]）的分层调整只是一笔带过，未充分比较。 - 一篇明显该被引但没有出现的工作：Cao et al. (2025, "Covariate-adjusted win statistics...with ordinal outcomes") 在本文出版时可能刚刚发表或 preprint，但它在摘要中提到"augmented weighting"估计量——这是直接竞争。未看到它被讨论，这是一个值得研究者去查的时间线问题：两个组是否独立开发？如果有一方更早，则 gap 可能被抢占了。

张力¶

未见明显的对立引用。多数作者（Dong、Song、Brunner、Wang）在 win ratio vs. win odds 的选择上有轻微分歧（Brunner [10] 明确偏好 win odds，Dong [2] 支持同时提供两者），但这不是对立，是平行发展。所有方法都承认"协变量调整是好的"。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( X \)：处理（treatment）指示符，\( X = 1 \) = 治疗组，\( X = 0 \) = 对照组（随机分配，与基线协变量的联合分布对两组相同）。 - \( Y \)：结局变量（可以是连续、二值、有序乃至 time-to-event）。具体分布形式不重要，只关心比较结果（对、错、平）。 - \( Z \)：\( d \)维基线协变量向量（如年龄、性别、既往病史等）。本文把它们当作"事前可获取的随机变量"，可用于提升精度。 - estimand：Marginal win odds,

\[\phi = \frac{\nu}{1-\nu} ,\quad \nu := P(Y_1 \succ Y_0) + \tfrac12 P(Y_1 \asymp Y_0).\]

其中 \( Y_1 \) 从 treatment 条件分布 \( F_1 \) 抽样，\( Y_0 \) 从 control 条件分布 \( F_0 \) 抽样，假设独立。\( \nu \) 就是 win probability / marginal probabilistic index（之所以叫 marginal，是因为积分掉了协变量）。注意到： - 当没有 ties 时，\( \nu = P(Y_1 > Y_0) \)，正是 Mann–Whitney 参数。 - 当有 ties 时，\( 2\nu - 1 \) 就是经典的 Mann–Whitney estimator 的分子（Wilcoxon 法的中心量）。 - Win odds \( \phi = \nu / (1-\nu) \). - 估计量符号：\( \hat{\nu}_{\text{unadj}} \) 是样本估计（把所有 treatment 与 control 成对比较后数一数 win + 0.5 tie 的比例），\( \hat{\phi}_{\text{unadj}} \) 是对应的未调整 win odds。本文要构造的是 \( \hat{\phi}_{\text{adj}} \)，它的思想是从 \( \hat{\nu}_{\text{adj}} \) 出发，然后用单调变换得到 win odds。

模型： - 没有真正的参数模型。这是完全的分布自由（distribution-free）设定：数据的联合分布 \( P_{X,Y,Z} \) 全属于非参数族。 - 关键的结构性假设（这里列在记号之后，因为它们是"假设"而非"模型"）： - (A1) Unconfoundedness / randomization：处理 assignment 与（潜在结果、协变量）独立。在 RCT 中自动满足，由设计保证。 - (A2) SUTVA：潜在结果只取决于自己的处理，无干扰。 - (A3) 协变量 \( Z \) 是 baseline 的（在随机化前获取）。

可观测数据：可观测的是 \( \{(X_i, Y_i, Z_i)\}_{i=1}^n \)，其中 \( n = n_0 + n_1 \)（对照和治疗组样本量）。 - 可以看到：每个人属于哪一组、结局是什么、基线协变量。 - 看不到（潜在）：反事实结局（\( Y_i(0), Y_i(1) \)）——只有该组实际发生的一个。两个组之间的 pairwise comparison 是一种隐性的交叉抽样，使用的正是"把他们混合起来做所有 \( n_0 n_1 \) 次比较"。 - 对 win odds 而言，"目标潜变量"是 \( \nu \)——它涉及两个不同条件分布抽样的比较结果，但直接用样本替代了分布的积分（U-statistic）。

第二步：讲最小内核¶

最简特例：假设结局 没有平局（no ties），且只有一个二元协变量 \( Z \in \{0,1\} \)（例如：性别，男 vs. 女）。这一简化剥去了本文一般推导中需要处理 tie 和对多个协变量做 influence function 的额外负担，但留下了核心思想。

现在，未调整的 win odds 估计量很简单：数所有 \( n_0 n_1 \) 个 treatment–control 成对中 treatment wins 的比例 \( \hat\nu_{\text{unadj}} \)，然后估计 win odds = \( \hat\nu/(1-\hat\nu) \)。它的方差大约正比于 \( \nu(1-\nu) \)。

核心思想：为什么不直接用这个"原始"估计量？因为它没有利用 Z 的信息。如果 Z 与 Y 相关（比如男性的 Y 系统性更高），那它在 treatment 组和 control 组内部就制造了"额外变异"——同样的 0 或 1 在两组的分布完全一致（因为随机化），但 Y 的条件分布不同。如果我们可以先根据 Z 做条件化——在 Z = 0 和 Z = 1 的亚组分别估计 \( \nu_z = P(Y_1 \succ Y_0 | Z=z) \)——然后把它们按 marginal 分布积分回去，得到的仍然是同一个 \( \nu \)（因为随机化保证 marginal 积分 = marginal 分布），但亚组内部的"noise"更小，最终估计更准。

最简例子： 1. 数据：治疗组 n1=100，男 60 人；对照组 n0=100，男也是 60 人（随机化保证了比例相同）。男( Z=1 )的 Y 平均高 2 个单位，女( Z=0 )的 Y 平均低 1 个单位。 2. 原始估计：直接所有 100×100 个成对比较，得到 \( \hat\nu_{\text{unadj}} \)。方差里包含了"男 vs 男"、"女 vs 女"、"男 vs 女"的交叉比较——最后一种引入了大量由 Z 导致的变异，降低了效率。 3. 调整后的估计： - Step 1：在男性中做 60×60 = 3600 次比较，得 \( \hat\nu_1 \)；在女性中做 40×40 = 1600 次比较，得 \( \hat\nu_0 \)。 - Step 2：用 marginal 比例（0.6 / 0.4）做加权平均：\( \hat\nu_{\text{adj}} = 0.6 \hat\nu_1 + 0.4 \hat\nu_0 \)。 4. 为什么更优？ 因为 \( \hat\nu_1 \) 和 \( \hat\nu_0 \) 的内部比较已经把 Z 固定住了，避免了"本可以解释的变异"进入比较。如果把 Z 看作一个"固定效应"，这个策略就是在条件分布下做比较，然后 marginalize 回 unconditional 目标。结果仍然是无偏的（因为 marginal 分布的加权正确），但方差小了——因为亚组内比较的 volatility 小于跨组混合。

这篇论文本质上就是把这个"先分亚组比较再边缘积分"的一般化：用一个 influence function（一阶影响函数）来构造一步估计量，在给定 Z 的条件下计算 treatment 和 control 的条件分布估计，然后积分噪声更小的"orthogonalized" score。在更复杂的设定（连续 Z、有 ties）下，这就是 influence-function 估计量 \( \hat\nu_{\text{adj}} \)。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何在保持 marginal win odds 为目标 estimand、且不增加 Type I error 的前提下，利用 randomized trial 中的基线协变量提升 win odds 的估计精度与检验功效。
核心工具/方法：建立 win odds 与 marginal probabilistic index \( \nu = P(Y_1 \succ Y_0) + \frac12 P(Y_1 \asymp Y_0) \) 之间的严格等价关系，利用已知的协变量调整理论（probabilistic index model / influence function），构造一个一步调整估计量（one-step covariate-adjusted estimator），并基于它的 influence function 构造方差估计和检验。
主要结论：在预后性协变量存在时，调整后的 win odds 估计量使标准误减小（等价地，检验功效提升），在有限样本下有轻微 Type I error 膨胀（小 n 时），但大样本下依分布收敛到正态。在 CANTOS 与 HF-ACTION 试验的模拟中观察到功效增益。

关键设定与假设¶

（基于第二节的记号补全）

Assumption 1 (Randomization)：\( X \perp (Y(1), Y(0), Z) \)。在 markdown 里它用"by design"一笔带过，但这是整个调整策略不产生偏倚的基石。
Assumption 2 (Baseline 协变量)：Z 在随机化前观测，不影响对目标 estimand 的一致性。
额外技术假设（隐含在推导中）：
(a) 结局变量 Y 的类型可以是任意顺序变量——关键是 pairwise comparison 的定义（≻, ≺, ≍）明确。
(b) \( \nu \) 是光滑的（在非参数后验密度下），允许一阶影响函数线性展开。
(c) 对 variance estimator，需要"条件方差非零"等正则条件（未显式列出，但从 influence function 构造的标准推导可知）。
对比已有文献：相比分层/IPTW 方法，本文不要求 Z 是离散的（分层对连续 Z 敏感），不要求 PS 模型正确（IPTW 方法对 misspecification 鲁棒不如 IF 估计量）。相比 PIM 回归（Thas 2012），本文关注的是marginal 而非conditional estimand，所以回归后的 marginalization 步骤是必须的。

主要结果¶

Theorem 1（中心极限定理，简洁版）：设 \( \hat\nu_{\text{adj}} \) 为基于 influence function 构造的 adjustment estimator（见下"证明路线"），则
\[\sqrt{n} (\hat\nu_{\text{adj}} - \nu) \xrightarrow{d} N(0, \sigma^2_{\text{adj}}),\]
其中 \( \sigma^2_{\text{adj}} \le \sigma^2_{\text{unadj}} \)，等号成立当且仅当 Z 与 Y 的条件分布（在 treatment 组内）无关。该结论直接来自于本文对 influence function 的推导：调整后的 influence function 正交于 \( (Z - E[Z]) \) 方向的投影，因此协变量得分解释了部分变差。
Theorem 2（方差公式，相对显式）：\( \sigma^2_{\text{adj}} = V[ h^{adj}_{X,Y,Z} ] \)，其中
\[h^{adj}_{X,Y,Z} = \frac{X}{\pi}[I(Y \succ F_0) + \frac12 I(Y \asymp F_0)] - \frac{1-X}{1-\pi}[I(F_1 \succ Y) + \frac12 I(F_1 \asymp Y)] - \text{projection onto Z}.\]
这里的 projection 就是通过条件期望 \( E[\cdot | Z] \) 从 influence function 中去掉 Z 效应。实际估计时用样本 replacement 代替 \( F_0, F_1 \)。
实际结论：模拟表明，当 covariates 中等强度预后的情况下，功效从 80% 提升到 86–91%；若 covariates 不相关，功效仍维持在 78–81%，不与 baseline 差太多；但是小 n（每组<50 时） Type I error 轻微膨胀到 6–7%，需谨慎。

证明路线与技术技巧（理论部分）¶

整体路线（逻辑主干 5 步）： 1. 链接建立：用定义将 win odds φ 转化为 ν 的单调变换。所以全部工作归结于估计 ν。 2. 影响函数推导：对 marginal estimand ν = E[ P( Y1 > Y0 | Z ) + 0.5 P( Y1 = Y0 | Z ) ]，用 von Mises 展开（或 influence function 定义）写出它在密度上的导数。这一步的关键是：ν 依赖于两个分布 \( F_1, F_0 \)，所以影响函数有两个部分（treatment 组方差项 + control 组方差项）。 3. Orthogonalization（核心技巧）：在随机化为真的条件下，可推导出影响函数的"投影"形式——部分可被 Z 预测的变差可以通过减去一个条件期望项去除，而不引入偏倚。这个 projection 就是由"conditional registration"（在给定 Z 时条件化）决定的。 4. 样本替换：用 \( \hat{F}_1^{(Z)} \)（在给定 Z 下 treatment 组的经验条件分布）代替未知的 \( F_1 \)，得到一步估计量 \( \hat\nu_{\text{adj}} = \hat\nu_{\text{unadj}} - \hat{\text{proj}} \)。这不是"plug-in"——它是一次校正。 5. 方差估计：用估计的 influence function 的样本方差估计 \( \hat\sigma^2_{\text{adj}} \)，并用 Wald 检验。

关键跳跃点： - 从 unknow \( F_0, F_1 \) 到 sample 替换时，原论文需要处理高阶余项（因为 pairwise comparison 的 U-statistic 结构）。一般点 < 这一步用到了 U-统计量的渐近理论（Hoeffding 分解）来控制。 - 为何调整不改变 target？ 因为 \( E[ \text{proj} ] = 0 \)（随机化+性的乘积性质），所以一步校正后的期望不受影响。这需要严谨验证 proj 的条件期望为 0，作者用线性化证明。

技术技巧点名： - Influence function / von Mises calculus：用于构造一步估计量和量化协变量调整的方差减少效果。 - U-statistic 理论（Hoeffding decomposition）：用于控制替换 F 的余项，以及方差估计。 - Projection（在 Hilbert space L²(P) 中）：从影响函数中减去 Z 的投影是本文的精髓——它是一个"inverse probability weighting + regression"的混合，但不用维护显式模型。 - Cross-fitting（提及但非重点）：在估计条件分布时，建议用 cross-fit 来避免 overfitting bias（在非参数回归设定下），但本文的主要推导是"oracle"式的影响函数，cross-fit 是稳健性细节。

真实例子与应用¶

例子 1：CANTOS 试验的模拟（基于真实协变量分布） - 数据/场景：CANTOS（Canakinumab Anti-inflammatory Thrombosis Outcomes Study）的 2000 例患者协变量（年龄、性别、BMI、炎症标志物 hsCRP 等）。结局是心血管死亡/心衰住院的复合事件时间（二值时改写为 binary composite）。治疗组和对照组按 1:1 从 CANTOS 的 baseline 分布采样。 - 怎么做：从该分布中抽取 n 大样本，人为定义一个中等幅度的 treatment effect（OR ≈ 0.75），然后比较 unadjusted win odds 与 adjusted win odds（adjust 用本文的 influence function 方法）的检验功效。 - 结果：当 n=1000 时，adjusted 的功效（91.3%）显著高于 unadjusted（86.1%）；当 n=500 时差距缩小（82.5% vs 78.2%）。协变量越强预后，增益越大。 - 这段例子想说明：在实践相关的规模下，调整协变量确实提升功率，且 FB 稳定。

例子 2：HF-ACTION 试验的二次分析（真实数据） - 数据/场景：HF-ACTION 试验（N=2331，心衰患者），两组为 exercise training vs. usual care。主要复合结局是"全因死亡或心血管住院"。原始分析用 time-to-first-event 给出了有点模糊的结果。这里用 win odds 重分析，并添加协变量调整。 - 怎么做：用全 sample 计算 observed win odds（未调整）；用 baseline 协变量（年龄、性别、LVEF、病史等）做本文的 adjusted win odds。 - 结果：调整后的 win odds 估计的标准误更小（SE 从 0.11 降到 0.09），相应的置信区间更窄，p 值从 0.012 变到 0.007。但这仍然只是一个相关性变化（因为 treatment effect 固定不变，但检测得更准）。 - 目的：展示在真实 data 上，调整的确认会让结论更像"显著"一些（但不是 bias 改变）。

例子 3：模拟数据（有限样本 Type I error） - 方法：在零假设（treatment 无效果）下，用多种样本量（每臂 50–500）模拟。 - 结果：在小样本（每臂 50）下，调整后的 win odds 有 Type I error 6.4–6.8%（名义 5%）；大样本（每臂 500）下降回 5.1–5.2%。 - 结论：小样本下有轻微膨胀，可能来自协变量调整引入的额外方差（due to 替换条件分布估计时的抽样误差）。这是 limitation 而非缺陷。

🔎 结论是否比证明窄¶

本文的所有理论结论都是 marginal win odds（即人口水平）下证明的。但在"discussion"部分，作者暗示可以用于"subgroup analysis"或者"conditional on Z"——这并未在正式定理中证明，只是 conjecture。**
另一处更窄：证明中假设了随机化且已知 treatment 比例 π，但多数 RCT 的 π 是设计的（如 1:1），所以不成问题。但若 π 事先不确定、需要估计，则本文的影响函数可能漏掉一项（可通过 PLUG-IN 修正）。
作者声称"adjusted estimator 不会小于 unadjusted variance"（理论上的下界），但实际例子中的方差 reduction 归功于 projection——这需要 Z 和 Y 有相关。当 Z 不相关时，理论给出的等号不总是精确（因为替换 F 引入额外方差，见 Type I error 膨胀）。这一gap（理论 vs 实证）值得研究者关注。

四、开放问题¶

完整效率界（efficiency bound）：本文给出了一个 influence function 构建的估计，但没有证明它是否达到 semiparametric efficiency bound（即对于一组完整的非参数族，该估计量是否是最优的）。要回答这一点，需要导出 ν 的 efficient influence function（EIF），并证明其方差等于 \( \sigma^2_{\text{adj}} \) 的下界。扎根句：本文在 3.1 节写了"an influence function is derived"，但从未声称"this is the efficient one"——这暗示了可能存在比当前 projection 更好的选择。
多重检验的协变量调整：对于复合终点，如果对每个组件分别计算 win odds（或 win proportion），然后做多重比较，协变量调整方法可能如何在 family-wise 层面上影响（如 Bonferroni 校正）？扎根于 limiation 节：作者提到该工作仅针对一个单一的 win odds。
无随机化时的调整：本文强烈依赖随机化来保证 \( E[\text{projection}] = 0 \)。如果处理分配是 observational（非随机化）但已知倾向得分，调整后的估计量仍然无偏吗？如果是，需要换一个 projection 公式。扎根于 intro 的 gap: 作者主要关注 RCT，但对 observational study 毫无讨论。
其他 pairwise 统计量的通用理论：同样基于成对比较的估计量（如 net benefit、win ratio 本身）是否可以用类似的"链接到 marginal probabilistic index + influence function adjustment"框架？作者只在结论段提了一句"以类似的方式"，但未给出推导。这构成了一个清晰的理论 gap。

阅读建议：在决定拿这个问题做之前，先确认Cao et al. (2025, "Covariate-adjusted win statistics...")是否已经有相同思想或更进一步的结果。它们用的倾向得分加权路径与本文的 influence function 路径是两道不同方法——看哪个可以更兼容你的 arsenal（你 semi-parametric 熟悉，所以 IF 路径可能更容易上手）。

Maintained by 陈星宇 · Homepage · Source on GitHub