Generalized pairwise comparisons using pseudo-observations for time-to-event censored data in a randomized controlled trial setting¶

作者: Stephanie Pan, Prasad Patil, Janice Weinberg, Sara Lodi, Michael P LaValley
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 6/10
机构绿灯: Boston University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802251406536

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在随机对照试验（RCT）中，当结局是删失的时间-事件数据时，如何定义并无偏、有效地估计处理效应。经典 Cox 模型依赖比例风险假设，一旦假设失效，HR 的因果解释即崩塌；广义成对比较（GPC）方法试图绕过此假设，直接在“个体对”层面定义胜负，从而构造不依赖特定生存模型的处理效应度量（如 Win Ratio, WR）。当前该方向的成熟度处于“方法已被广泛采纳并写入监管指南，但在高删失与不等删失下的理论性质（偏倚、渐近分布、效率界）仍存明显缺口”的阶段。

发展脉络（history）： - 奠基工作：Mann-Whitney 检验将两样本比较转化为成对胜负计数，奠定了 U-统计量的根基。 - 主要进展：Pocock & Buyse (2012) 等人将 Mann-Whitney 推广至多层级优先结局（如先比死亡，再比住院），提出 Win Ratio（WR），使 GPC 进入心血管与肿瘤 RCT 的主流分析框架。此时 WR 的计算对删失对采用“只算确定对”的策略。 - 删失处理的演进：面对删失导致的大量不确定对，Gehan 统计量将不确定对赋分 0（等价于只看确定对的比例）；Latta (1981) 提出基于 Kaplan-Meier 生存函数的边际概率赋分法，试图恢复不确定对的信息；随后 O'Brien (2014) 等人继续在赋分权重上做调整。作者在 intro 中明确指出这些现有策略的局限：Gehan 在高删失时不确定对激增，WR 估计偏倚大；Latta 虽用 KM 概率赋分，但“其估计在不等删失下仍表现不佳”（引用原话判断）。 - 本文的位置：作者引入 Andersen & Perme (2010) 提出的伪观测框架，用 KM 伪观测值替代删失个体的潜在事件时间，从而将原本不确定的对强制转化为确定对，试图在高删失与不等删失下修正偏倚。

子线索聚类： 1. GPC 与 Win Ratio 的临床应用线：从 Pocock & Buyse 到 FDA/EMA 的指南采纳，核心是定义多层级优先的 WR，关注点在解释性与监管接受度，理论深度较浅。 2. 删失下 GPC 的赋分/调整线：Gehan（忽略不确定对）→ Latta（KM 边际概率赋分）→ O'Brien（权重调整），这条线索全在“如何给不确定对重新赋分”上做文章，但均未脱离“成对比较中至少一方被删失则信息残缺”的根本困境。 3. 生存分析的伪观测线：Andersen & Perme 将 KM 累积风险估计转化为伪观测，使得删失数据在边际上可被“填补”为近乎完全观测，已被用于回归与方差估计，但此前未被引入 GPC 的成对比较结构中。

这个方向在追问的核心问题： 1. 识别与定义：在存在删失时，WR 的因果/统计目标参数到底是什么？是限制在“可确定对”子集上的条件 WR，还是全样本的边际 WR？ 2. 偏倚与效率：不同赋分策略（Gehan / Latta / 伪观测）下，WR 估计的偏倚量与渐近方差各是什么？高删失时偏倚的根源是“不确定对被丢弃”还是“KM 估计自身的非线性导致的偏倚传递”？ 3. 不等删失：当处理组与对照组的删失分布不同时（临床极常见），成对比较的 U-统计量结构是否仍保持无偏？现有方法在此设定下为何系统性失效？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为“现有 GPC 方法因不确定对而偏倚，伪观测能填补这些对，是显然的下一步”。这使得整篇论文的逻辑变成：填空 → 仿真看偏倚是否下降。 - 被淡化或回避的竞争路线：Intro 中完全没有提及IPCW（Inverse Probability of Censoring Weighting）方法。IPCW 是处理删失导致不确定对的标准半参数路线（通过估计删失概率给确定对重新加权，而非填补删失值），且在因果推断的边际结构模型中已有成熟理论。作者不提 IPCW，可能是因为伪观测与 IPCW 在边际上数学等价（KM 伪观测 \(\approx 1/\hat{G}\) 加权），但在成对比较的联合结构上不等价——这一张力被完全跳过。 - 明显该被引却未出现的：半参数效率理论中处理删失 U-统计量的工作（如 Akritas 1994 的条件 U-统计量渐近理论，或 Datta et al. 关于删失下 U-统计量的 IPCW 调整），这些文献本应作为伪观测 GPC 渐近性质的理论对标，但 intro 缺失。

张力：未见明显对立引用。但存在一个隐性张力：伪观测在边际上是对 KM 的变换，而 Latta 方法也是基于 KM 的边际概率赋分——两者在数学上到底差在哪？作者声称 Latta 在不等删失下不佳而伪观测更好，但未给出理论解释，这一“同源不同效”的矛盾是高价值信号，值得研究者去查 Latta 原文与 Andersen 伪观测的方差展开公式，看是否差异源于二阶项。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

参数 / estimand：
\(\theta\)：目标参数，全样本的 Win Ratio，定义为 \(\theta = P(T_1 > T_0) / P(T_1 < T_0)\)，其中 \(T_1, T_0\) 是处理组与对照组的潜在事件时间。
随机变量 / 样本：
\(X_i = (T_i, C_i, A_i)\)：第 \(i\) 个个体的数据。
\(T_i\)：真实事件时间（部分不可观测）。
\(C_i\)：删失时间（部分不可观测）。
\(A_i \in \{1, 0\}\)：处理指示变量，RCT 中独立于 \((T_i, C_i)\)。
\(n_1\)：处理组样本量，\(n_0\)：对照组样本量，\(N = n_1 + n_0\)。
可观测数据：
\(Y_i = \min(T_i, C_i)\)：观测到的随访时间。
\(\Delta_i = I(T_i \le C_i)\)：事件指示变量（1=观察到事件，0=被删失）。
研究者实际能观测到的是 \((Y_i, \Delta_i, A_i)\)。想要但观测不到的是被删失个体的 \(T_i\)（即 \(\Delta_i = 0\) 时的真实事件时间）。
潜在量：
在因果推断语言下，\(T_i(1)\) 和 \(T_i(0)\) 是潜在事件时间，可观测的 \(T_i\) 是 \(T_i(A_i)\)。

第二步：讲最小内核（最简特例：单一时间-事件结局，无优先层级，\(d=1\)）

剥掉多层级优先结局的复杂性，只看最核心的数学困难：如何用伪观测把删失对变成确定对，并算出 WR。

原 GPC 的困境（Gehan 赋分）：对一对个体 \((i \in \text{处理组}, j \in \text{对照组})\)，比较 \(Y_i\) 与 \(Y_j\)：
若 \(\Delta_i=1, \Delta_j=1\)（双事件）：确定对，胜 \(I(Y_i > Y_j)\)，负 \(I(Y_i < Y_j)\)。
若 \(\Delta_i=0, \Delta_j=1\) 且 \(Y_i \ge Y_j\)：不确定对（处理组活到 \(Y_i\) 但不知何时死，对照组在 \(Y_j\) 死了，处理组可能最终死在 \(Y_j\) 之后=胜，也可能死在之前=负）。Gehan 策略：赋分 0，丢弃。
伪观测的填空逻辑： Andersen 的伪观测定义：个体 \(i\) 在时间 \(t\) 的伪观测为
\[\hat{U}_i(t) = n \cdot \hat{S}(t) - (n-1) \cdot \hat{S}_{-i}(t)\]
其中 \(\hat{S}(t)\) 是全样本 KM 估计，\(\hat{S}_{-i}(t)\) 是删去个体 \(i\) 后的 KM 估计（leave-one-out）。直觉：若 \(\Delta_i=1\) 且 \(T_i \le t\)，\(\hat{U}_i(t) \approx 0\)；若 \(\Delta_i=1\) 且 \(T_i > t\)，\(\hat{U}_i(t) \approx 1\)；若 \(\Delta_i=0\)（删失），\(\hat{U}_i(t)\) 给出一个介于 0 和 1 之间的“填补概率”，反映该个体在 \(t\) 时仍存活的边际信息。
本文最小内核：作者的核心操作是：不再比较 \(Y_i\) 与 \(Y_j\)，而是比较伪观测 \(\hat{U}_i(t^*)\) 与 \(\hat{U}_j(t^*)\)（\(t^*\) 是某个固定分析时间点，如研究终点）。
胜负判定规则：若 \(\hat{U}_i(t^*) > \hat{U}_j(t^*)\)，处理组胜；若 \(<\)，则负；若 \(=\)，平局。
因为伪观测是连续实数（对删失个体取非整数值），几乎所有对都变成“确定对”——原本因删失而无法判定的对，现在通过伪观测的数值大小强制判定了胜负。
Win Ratio 估计量变为：
\[\hat{\theta}_{pseudo} = \frac{\sum_{i=1}^{n_1} \sum_{j=1}^{n_0} I(\hat{U}_i(t^*) > \hat{U}_j(t^*))}{\sum_{i=1}^{n_1} \sum_{j=1}^{n_0} I(\hat{U}_i(t^*) < \hat{U}_j(t^*))}\]
数学上到底干了什么：把一个部分可观测的二值 U-统计量（原 GPC，核函数在某些样本对上缺失），通过伪观测的 leave-one-out KM 变换，强制转化为一个完全可观测的连续值 U-统计量。最小内核的数学困难在于：伪观测 \(\hat{U}_i\) 是全样本 KM 的非线性函数，代入 U-统计量核函数后，\(\hat{\theta}_{pseudo}\) 的渐近分布不再是经典 U-统计量的正态极限——它引入了 KM 估计的渐近方差与 U-统计量核的渐近方差的耦合，这正是本文仿真中“偏倚下降但功效未改善”的根源所在。

三、这篇论文做了什么¶

三句话： ①研究了 RCT 中删失时间-事件结局的 GPC 方法（Win Ratio）在高删失与不等删失下的偏倚修正问题； ②核心工具是将基于 Kaplan-Meier 的伪观测值替代删失观测，强制判定所有处理-对照对的胜负，将部分缺失的 U-统计量转化为完全观测的 U-统计量； ③主要结论是：在相等删失下新方法与 Gehan/Latta 结果相当，在若干不等删失情景下偏倚与 RMSE 相对 Gehan/Latta 下降，但统计功效未改善。

关键设定与假设： - 设定：两样本 RCT，\(A_i\) 独立于 \((T_i, C_i)\)（随机化假设）。结局为单一或优先层级的时间-事件变量。分析时间点固定为 \(t^*\)。 - 删失机制假设：独立删失（\(T_i \perp C_i\)），这是 KM 与伪观测无偏性的必要条件。作者未放宽此假设。 - 不等删失：处理组与对照组的删失分布不同（\(F_{C|A=1} \neq F_{C|A=0}\)），这是本文重点考察的设定，也是现有方法偏倚的来源。 - 伪观测计算：基于全样本 KM 的 leave-one-out 变换，隐含假设了 KM 在 \(t^*\) 前无尾部问题（即 \(P(C_i \ge t^*) > 0\)，否则伪观测方差爆炸）。

主要结果： - 理论结果：本文为纯方法/仿真型论文，无渐近一致性或渐近分布的定理证明。作者仅陈述了伪观测 GPC 的计算公式，未给出 \(\hat{\theta}_{pseudo}\) 的渐近展开、影响函数或方差闭式表达。这是本文最大的理论缺口。 - 仿真结果（核心量化结论）： - 相等删失（处理组与对照组删失率相同）：伪观测 GPC 的偏倚、RMSE、功效与 Gehan、Latta 方法相当，无显著差异。 - 不等删失（处理组删失率高于对照组，或反之）：在多个情景下，伪观测 GPC 的偏倚绝对值与 RMSE 低于 Gehan（Gehan 因丢弃不确定对而偏倚最大）和 Latta（Latta 因边际概率赋分在不等删失下偏倚方向性错误）。 - 功效：在所有情景下，伪观测 GPC 的功效均未超过 Gehan 或 Latta，作者明确承认“improvements did not extend to gains in statistical power”。 - 偏倚方向：在不等删失下，Gehan 倾向于向零偏倚（低估 WR），Latta 偏倚方向取决于哪组删失更重，伪观测 GPC 的偏倚虽小但仍非零。

证明路线与技术技巧：本文无理论证明节。其方法构建的技术技巧可拆解为： - Leave-one-out（Jackknife）：伪观测 \(\hat{U}_i(t) = n\hat{S}(t) - (n-1)\hat{S}_{-i}(t)\) 的计算本质是 Jackknife 变换，用于将 KM 的累积估计转化为个体层面的“边际贡献”。 - U-统计量的核函数替换：原 GPC 的核函数是 \(h(X_i, X_j) = I(Y_i > Y_j) - I(Y_i < Y_j)\)（在删失时部分缺失），本文替换为 \(h_{pseudo}(\hat{U}_i, \hat{U}_j) = I(\hat{U}_i > \hat{U}_j) - I(\hat{U}_i < \hat{U}_j)\)，使得核函数在所有样本对上均有定义。 - 缺失的渐近展开：从半参数理论看，\(\hat{\theta}_{pseudo}\) 是一个“以估计量（KM）为输入的 U-统计量”，其渐近分布需要将 KM 的渐近线性展开代入 U-统计量的 H-decomposition，计算二阶影响函数。本文完全未做此展开，导致无法从理论上解释“为何偏倚下降但功效未改善”（直觉：伪观测填补了不确定对，减少了偏倚，但伪观测自身的 Jackknife 变换引入了高阶方差项，抵消了样本对数量增加带来的功效增益）。

真实例子与应用： - 数据 / 场景：两个重建的 RCT 数据集（作者因版权限制未用原始数据，而是模拟重建了与原 RCT 事件/删失分布相似的数据）。 - 怎么用上去：将重建数据按原 RCT 的处理/对照分组，计算 Gehan WR、Latta WR 与伪观测 WR，比较点估计值与置信区间宽度。 - 得到什么结果：在重建数据中，伪观测 WR 的点估计与 Gehan/Latta 相近，置信区间宽度相当或略宽（对应功效未改善）。 - 想说明什么：验证仿真结论——伪观测 GPC 在实际 RCT 数据规模与删失模式下可行，偏倚修正效果存在但功效无优势。

🔎 结论是否比证明窄： - 作者在 Abstract 与 Discussion 中泛泛 claim 伪观测 GPC“reduced bias and RMSE relative to Gehan and Latta under several censoring conditions”，但仅在仿真中验证了有限几个参数组合，无理论定理支撑该 claim 的普遍性。哪些不等删失分布下偏倚一定下降？哪些下可能反而更差？均未证明。 - 作者 claim 伪观测“addresses the issue of uninformative pairs”，但严格来说，伪观测只是强制赋值了不确定对，并未在概率意义上恢复 \((T_i, T_j)\) 的联合分布信息——这一“填补是否引入新的模型假设偏倚”未被讨论，结论比实际证明宽。

四、开放问题（点到为止，扎根具体语句）¶

伪观测 GPC 的渐近分布与影响函数：要证什么——推导 \(\hat{\theta}_{pseudo}\) 的渐近线性展开与半参数影响函数，从而得到方差闭式与置信区间。扎根点：全文无任何定理节，Discussion 中作者承认“further theoretical work is needed to derive the asymptotic variance”。
伪观测 vs IPCW 在成对比较中的理论等价性：要估什么——比较伪观测 GPC 与 IPCW 加权 GPC（给确定对按 \(1/\hat{G}\) 加权）的渐近效率界，看两者是否达到同一半参数效率界。扎根点：Intro 中未提及 IPCW，但 Andersen 伪观测在边际回归中与 IPCW 等价，这一等价性在 U-统计量核函数下是否成立是未解的。
功效未改善的根源：要证什么——证明伪观测 GPC 的渐近方差中，因伪观测 Jackknife 变换引入的二阶项（对应 KM 估计的方差）恰好抵消了不确定对转化为确定对带来的样本量增益，从而解释功效不变。扎根点：Abstract 明确写“improvements did not extend to gains in statistical power”，但无理论解释。
依赖 \(t^*\) 的选择与尾部删失：要算什么——当 \(t^*\) 接近最大随访时间时，KM 估计不稳定，伪观测方差爆炸，WR 估计的偏倚与方差如何随 \(t^*\) 变化？扎根点：方法节假设固定 \(t^*\)，但未讨论 \(t^*\) 选择的敏感性或尾部删失比例 \(P(C < t^*)\) 对估计的影响。

Maintained by 陈星宇 · Homepage · Source on GitHub

Generalized pairwise comparisons using pseudo-observations for time-to-event censored data in a randomized controlled trial setting¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论