Doubly Robust Estimators of the Restricted Mean Time in Favor Estimands in Individual‐ and Cluster‐Randomized Trials¶
作者: Xi Fang, Bingkai Wang, Guangyu Tong, Liangyuan Hu, Shuangge Ma et al.
来源: Statistics in Medicine
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在具有复发或序贯事件的渐进多状态生存过程(如慢性病中的“反复住院→死亡”)中,如何定义并估计一个不受比例风险(PH)或 Markov 假设限制、且具有明确因果/临床解释的绝对时间尺度上的处理效应 estimand。当前该方向的成熟度处于“estimand 定义已初步成型,但半参数效率理论与复杂试验设计(如 CRT)的估计框架尚属空白”的阶段。
发展脉络: - 奠基工作:Kaplan & Meier (1958) 建立了右删失数据下的非参数生存函数估计基准,但仅适用于单一事件(两状态生死模型)。 - 主要进展(Estimand 定义):Mao (2021) 提出了 restricted mean time in favor of treatment (RMT-IF),将经典的 restricted mean survival time (RMST) 从两状态推广至有序多状态,定义了“处理组比对照组在限定时间窗内平均多处于有利状态的净时间”。Mao & Wang (2023) 进一步将 RMT-IF 做了亚成分分解,指出粗分解不能揭示额外时间花在哪个状态,并给出了基于边际生存函数的 KM 插入估计与方差。 - 主要进展(Win 统计量与 CRT):Wang et al. (2011) 引入 win ratio 处理复合终点,但依赖临床优先级的配对比较;Fang et al. (2025) 建立了 CRT 下 win 统计量的样本量与方差公式,指出秩内相关系数的核心地位;Kahan et al. (2022, 2023) 与 Li et al. (2025) 明确了 CRT 中 participant-average 与 cluster-average 两个 estimand 的分歧(informative cluster size 问题),并给出了 model-robust 标准化估计量。 - 当前 frontier:Bühler et al. (2022) 指出多状态模型框架下 estimand 定义的陷阱(如基于累积发病函数的回归其极限值可能不可解释);Fay & Li (2024) 明确论证了 HR 即使在随机化下也缺乏个体级因果解释;Comment et al. (2019) 在半竞争风险下用主分层定义了 TV-SACE 与 RM-SACE,但依赖强不可检验假设。 - 本文的位置:本文填补了“RMT-IF 的半参数 DR 估计”与“CRT 下 RMT-IF 的 estimand 定义与估计”两个空白,将 AIPW 框架首次嵌入多状态 RMT-IF 结构,并处理了 CRT 下的 informative cluster size。
子线索聚类: 1. 多状态/复合终点的 estimand 定义线:Mao (2021), Mao & Wang (2023), Bühler et al. (2022), Wei et al. (2021)。这一簇在做“如何用非参数或边际函数定义一个不依赖 PH/Markov 的处理效应”,核心瓶颈是现有估计多为纯 KM 插入,未利用协变量信息,且不支持 CRT。 2. 生存分析的 DR/半参数效率线:Bai et al. (2013), Westling et al. (2021)。这一簇在做“观测数据或随机化数据下如何用 AIPW/DR 估计处理特异生存曲线”,核心瓶颈是现有 DR 估计量针对的是单一生存函数 \(S(t)\) 或 RMST,尚未推广至多状态 RMT-IF 这种涉及多个阶段特异边际分布的泛函。 3. CRT 的 estimand 与推断线:Kahan et al. (2022, 2023), Li et al. (2025), Fang et al. (2025)。这一簇在做“CRT 下如何定义与估计 participant/cluster-average 效应并处理 informative cluster size”,核心瓶颈是现有框架主要针对均值/比率型终点,未覆盖时间-至-事件泛函。
这个方向在追问的核心问题: 1. 如何在多状态生存过程中定义一个既不依赖 PH/Markov 又有临床/因果解释的处理效应 estimand?(当前主流:RMT-IF;瓶颈:亚成分解释与因果主分层联系尚弱) 2. 如何在右删失下利用协变量提高 RMT-IF 的估计效率并获得稳健性?(当前主流:KM 插入;瓶颈:无 DR/半参数效率界) 3. CRT 下,时间-至-事件泛函的 participant-average 与 cluster-average estimand 如何定义与估计?(当前主流:仅限均值/比率;瓶颈:informative cluster size 对时间泛函的影响未刻画)
⚠️ 作者的 framing: - 作者把缺口 frame 成什么:作者将缺口 frame 为“现有 RMT-IF 方法是纯非参数的,假设协变量独立删失且不支持 CRT,限制了效率与适用性”,从而让 AIPW + CRT 扩展成为“显然的下一步”。 - 竞争路线被淡化或回避:作者淡化了主分层框架(如 Comment et al. 2019 的 SACE/TV-SACE),该路线通过潜在生存时间定义因果效应,虽需不可检验假设但因果语义更强;也未讨论基于多状态转移强度的参数/半参数模型(如 Machado & van den Hout 2017 的 P-spline 多状态模型),该路线虽依赖模型但可更精细地刻画转移机制。 - 什么明显该被引/该存在却没出现:RMT-IF 的半参数效率界——既然本文构造了 DR 估计量,一个自然的理论基准是该泛函在独立数据下的 semiparametric efficiency bound(有效影响函数),但 intro 未引用任何效率界文献(如 Bickel et al. 1993 或 van der Vaart 1998 的半参数理论经典),也未讨论所提 DR 估计量是否达到该界。这是研究者应去查证的关键缺口。
张力: 未见明显对立引用。但存在隐含张力:Mao (2021) 的 RMT-IF 定义基于边际生存函数的泛函,天然是非参数/无模型的;而 Bühler et al. (2022) 强调多状态模型下“边际特征的极限值可能不可解释”,暗示单纯依赖边际泛函可能丢失转移机制信息。本文选择了纯边际泛函路线,未回应 Bühler 的警告。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(A \in \{0, 1\}\):处理分配(二值随机变量,1=处理,0=对照)。
- \(X\):基线协变量向量(维数 \(p\))。
- \(C\):右删失时间(正随机变量)。
- \(T\):限制时间窗上限(固定预设常数,如 \(\tau\))。
- \(D_k\)(\(k=0, 1, \ldots, K\)):第 \(k\) 个序贯事件的发生时间(\(D_0=0\) 为初始状态,\(D_K\) 为终止事件如死亡),满足 \(D_0 \le D_1 \le \cdots \le D_K\)。
- \(Y(t) = \min(D_K, C)\):观测到的终止事件或删失时间。
- \(\Delta = I(D_K \le C)\):终止事件的观测指示符(1=观测到死亡,0=被删失)。
- \(\xi^{(a)}(\tau)\):处理水平 \(a\) 下的 RMT-IF estimand(核心目标参数)。
- \(S_k^{(a)}(t) = P(D_k > t \mid A=a)\):第 \(k\) 个事件在处理 \(a\) 下的边际生存函数。
- \(\pi_a = P(A=a)\):处理分配概率(随机化下已知)。
- \(G_a(t \mid X) = P(C > t \mid A=a, X)\):条件删失生存函数。
- \(\mu_k^{(a)}(t, X) = E[I(D_k > t) \mid A=a, X]\):条件 outcome regression(第 \(k\) 阶段在处理 \(a\) 下超过 \(t\) 的概率给定 \(X\))。
- \(m_i\):第 \(i\) 个簇的样本量(CRT 设定下)。
- \(M\):总簇数。
-
\(N = \sum_{i=1}^M m_i\):总个体数。
-
模型: 数据生成机制为有序多状态过程:个体从状态 0 出发,依次经历事件 \(D_1, \ldots, D_{K-1}\)(如复发),最终到达吸收态 \(D_K\)(死亡)。处理 \(A\) 影响各事件时间的分布。删失时间 \(C\) 独立于事件时间给定 \((A, X)\)(即条件独立删失)。在 CRT 设定下,簇 \(i\) 被随机分配至 \(A_i\),簇内个体的 \((X, D_k, C)\) 可存在簇内相关性,且簇大小 \(m_i\) 可能与潜在结果相关。
-
可观测数据: 研究者实际观测到的是 \((A, X, Y, \Delta, \tilde{D}_1, \ldots, \tilde{D}_{K-1})\),其中 \(\tilde{D}_k = \min(D_k, C)\) 为第 \(k\) 个非终止事件的观测时间(若 \(D_k \le C\) 则观测到真实值,否则被删失)。想要但观测不到的是:当 \(C < D_K\) 时,个体在 \(C\) 之后的状态轨迹(即 \(D_k\) 在 \(C\) 之后的真实值);以及在因果框架下,同一个体在相反处理下的潜在事件时间 \(D_k^{(1)}\) 与 \(D_k^{(0)}\)。
第二步:最小内核——两状态生死模型(\(K=1\))下的 RMT-IF 与 DR 估计
剥掉多状态与 CRT 的复杂性,取最简特例 \(K=1\)(只有死亡,无中间事件),此时 RMT-IF 退化为经典的 RMST 差值:
最小内核要证/要构造的命题:在条件独立删失下,如何构造 \(\xi^{(a)}(\tau)\) 的 DR 估计量,使得当 \(\mu_1^{(a)}(t, X)\) 或 \(G_a(t \mid X)\) 任一正确指定时,估计量一致?
构造路线(一看就懂): 1. IPW 估计量(仅依赖删失模型):利用 \(G_a(t \mid X)\) 对删失做逆概率加权,构造 \(S_1^{(a)}(t)\) 的 IPW 估计:
-
Outcome regression 估计量(仅依赖回归模型):利用 \(\mu_1^{(a)}(t, X)\) 直接预测生存概率再平均:
\[\hat{S}_{1, \text{OR}}^{(a)}(t) = \frac{1}{n_a} \sum_{i: A_i=a} \hat{\mu}_1^{(a)}(t, X_i)\]此估计量在 \(\hat{\mu}_1^{(a)}\) 正确时一致,但若错误则偏。 -
AIPW/DR 估计量(本文最小内核):将两者结合,加入 augmentation term:
\[\hat{S}_{1, \text{DR}}^{(a)}(t) = \hat{S}_{1, \text{OR}}^{(a)}(t) + \frac{1}{n_a} \sum_{i: A_i=a} \frac{I(Y_i \ge t) \Delta_i - \hat{\mu}_1^{(a)}(t, X_i) I(C_i \ge t)}{\hat{G}_a(t \mid X_i)}\]为什么 DR 成立:当 \(\hat{\mu}_1^{(a)}\) 正确时,augmentation term 的期望为 0(因为 \(E[I(Y \ge t)\Delta \mid X, A=a] = \mu_1^{(a)}(t, X) G_a(t \mid X)\)),此时 \(\hat{S}_{1, \text{DR}}^{(a)}(t)\) 退化为一致的 OR 估计;当 \(\hat{G}_a\) 正确时,IPW 部分一致,且 augmentation term 中的 \(-\hat{\mu}_1^{(a)}(t, X_i) I(C_i \ge t)/\hat{G}_a(t \mid X_i)\) 恰好抵消了 OR 部分的偏(通过条件期望的拆解),使得整体一致。 -
积分得 RMST 的 DR 估计:
\[\hat{\xi}_{\text{DR}}^{(a)}(\tau) = \int_0^\tau \hat{S}_{1, \text{DR}}^{(a)}(t) dt\]由于积分是线性泛函,\(\hat{\xi}_{\text{DR}}^{(a)}(\tau)\) 继承了 \(\hat{S}_{1, \text{DR}}^{(a)}(t)\) 的 DR 性质。
核心数学困难在多状态推广(\(K \ge 2\))时浮现:RMT-IF 涉及多个阶段特异生存函数 \(S_k^{(a)}(t)\) 的加权组合,每个 \(S_k^{(a)}(t)\) 需要各自的 outcome regression \(\mu_k^{(a)}(t, X)\),且非终止事件 \(D_k\) 的观测受终止事件 \(D_K\) 删失的制约(半竞争风险结构),导致 augmentation term 的构造必须处理“在 \(D_K\) 之前发生 \(D_k\)”的联合观测指示,这是本文技术展开的起点。
三、这篇论文做了什么¶
三句话: ①研究了多状态生存过程下 RMT-IF 的 DR 估计与 CRT 扩展问题; ②核心工具是阶段特异 outcome regression 与组别特异删失模型结合的 AIPW 框架,以及 CRT 下处理 informative cluster size 的簇加权策略; ③主要结论是构造了独立数据与 CRT 下 RMT-IF 的 DR 估计量,证明了任一 nuisance 模型正确时的一致性,并提供了 model-agnostic jackknife 方差估计。
关键设定与假设: - 有序多状态过程:\(D_0 \le D_1 \le \cdots \le D_K\),\(D_K\) 为吸收态(死亡),\(D_1, \ldots, D_{K-1}\) 为非终止事件(如复发)。 - RMT-IF estimand 定义(Mao 2021 的泛函形式):
主要结果:
- 独立数据下 RMT-IF 的 DR 估计量(Theorem 1 类结果):
- 陈述:构造 \(\hat{\xi}_{\text{DR}}^{(a)}(\tau) = \sum_{k=1}^K w_k \int_0^\tau \hat{S}_{k, \text{DR}}^{(a)}(t) dt\),其中 \(\hat{S}_{k, \text{DR}}^{(a)}(t)\) 为阶段特异 DR 生存函数估计:
\[\hat{S}_{k, \text{DR}}^{(a)}(t) = \hat{S}_{k, \text{OR}}^{(a)}(t) + \frac{1}{n_a} \sum_{i: A_i=a} \frac{I(Y_i \ge t, \tilde{D}_k > t) - \hat{\mu}_k^{(a)}(t, X_i) I(C_i \ge t)}{\hat{G}_a(t \mid X_i)}\]这里 \(I(Y_i \ge t, \tilde{D}_k > t)\) 是“个体在 \(t\) 时刻仍存活且未发生第 \(k\) 个事件”的观测指示(处理了半竞争风险下的观测结构)。
- 直觉:当 \(\hat{\mu}_k^{(a)}\) 正确时,augmentation 期望为 0,OR 部分一致;当 \(\hat{G}_a\) 正确时,IPW 部分对观测指示做无偏加权,augmentation 中的 \(-\hat{\mu}_k^{(a)} I(C \ge t)/\hat{G}_a\) 消除 OR 偏。
- 必要条件:条件独立删失 + positivity + nuisance 模型至少一个一致 + nuisance 估计率条件(如 \(n^{1/4}\)-一致以保证 DR 余项可忽略)。
-
解决的技术难点:半竞争风险下,非终止事件 \(D_k\) 的观测受 \(D_K\) 删失制约,观测指示 \(I(Y \ge t, \tilde{D}_k > t)\) 的期望拆解需引入 \(I(C \ge t)\) 的条件概率,构造 augmentation term 时必须保证在 \(\hat{G}_a\) 正确时抵消 OR 偏,这要求 augmentation 的分子在 \(\hat{G}_a\) 正确时条件期望恰为 \(\mu_k^{(a)}(t, X) G_a(t \mid X)\)。
-
CRT 下 RMT-IF 的 estimand 定义与 DR 估计(Theorem 2 类结果):
- 陈述:定义两个 estimand:
- Cluster-average RMT-IF:\(\xi_C^{(a)}(\tau) = E[\xi_i^{(a)}(\tau)]\),其中 \(\xi_i^{(a)}(\tau)\) 为簇 \(i\) 在处理 \(a\) 下的潜在 RMT-IF(对簇内个体平均)。
- Individual-average RMT-IF:\(\xi_I^{(a)}(\tau) = E[m_i \xi_i^{(a)}(\tau)] / E[m_i]\),按个体数加权。
- 当 informative cluster size 存在时(\(m_i\) 与 \(\xi_i^{(a)}\) 相关),两者不同。
- DR 估计量构造:
- Cluster-average:对簇级汇总 \(\hat{\xi}_{i, \text{DR}}^{(a)}(\tau)\) 做未加权平均 \(\frac{1}{M_a} \sum_{i: A_i=a} \hat{\xi}_{i, \text{DR}}^{(a)}(\tau)\)。
- Individual-average:对簇级汇总做按簇大小加权平均 \(\frac{1}{\sum_{i: A_i=a} m_i} \sum_{i: A_i=a} m_i \hat{\xi}_{i, \text{DR}}^{(a)}(\tau)\)。
- 簇内个体的 DR 估计沿用独立数据的 AIPW 结构,但 nuisance 模型(\(\hat{\mu}_k^{(a)}, \hat{G}_a\))需在簇内相关性下估计(作者建议用簇级固定效应或混合模型)。
- 直觉:Cluster-average 估计每个簇的平均效应再跨簇平均,Individual-average 估计每个个体的效应再跨个体平均(大簇权重大)。
-
必要条件:簇随机化 + 条件独立删失(簇内) + positivity + nuisance 模型至少一个一致。
-
Jackknife 方差估计(Theorem 3 类结果):
- 陈述:在独立数据与 CRT 下,采用 delete-1(独立数据)或 delete-1-cluster(CRT)jackknife 估计 \(\hat{\xi}_{\text{DR}}^{(a)}(\tau)\) 的方差,无需指定 nuisance 模型的正确性。
- 直觉:Jackknife 通过系统性删除观测/簇并重估,捕捉估计量的变异性,对 DR 估计量的非光滑性(如机器学习 nuisance 估计)具有 model-agnostic 稳健性。
证明路线与技术技巧:
- 整体路线:
- 泛函拆解:将 RMT-IF estimand \(\xi^{(a)}(\tau)\) 拆解为阶段特异边际生存函数 \(S_k^{(a)}(t)\) 的加权积分泛函。
- 识别:在条件独立删失下,证明 \(S_k^{(a)}(t)\) 可由 \(\mu_k^{(a)}(t, X)\) 与 \(G_a(t \mid X)\) 的组合识别(给出识别公式 \(S_k^{(a)}(t) = E[\mu_k^{(a)}(t, X) \mid A=a] = E[I(Y \ge t, \tilde{D}_k > t) / G_a(t \mid X) \mid A=a]\))。
- AIPW 构造:基于识别公式,构造阶段特异 DR 估计量 \(\hat{S}_{k, \text{DR}}^{(a)}(t)\),验证其在 OR 或 IPW 模型正确时的无偏性(通过条件期望拆解)。
- 积分与 DR 性质传递:证明 \(\hat{\xi}_{\text{DR}}^{(a)}(\tau) = \sum w_k \int \hat{S}_{k, \text{DR}}^{(a)}(t) dt\) 继承 DR 性质(积分不破坏一致性,但需控制积分余项的收敛率)。
-
CRT 扩展:将个体级 DR 估计量嵌入簇级汇总,构造 Cluster/Individual-average 估计量,证明在簇随机化下的 DR 性质(簇内相关性不影响簇级汇总的 DR 性质,因随机化在簇级)。
-
关键跳跃点:
- 半竞争风险下的观测指示拆解:非终止事件 \(D_k\) 的观测指示 \(I(Y \ge t, \tilde{D}_k > t)\) 的期望拆解需引入 \(I(C \ge t)\),因为 \(I(Y \ge t, \tilde{D}_k > t) = I(D_k > t, C \ge t) + I(D_k \le t \le D_K, C \ge t)\)(后者在 \(D_k\) 已发生但未死亡时仍算“未发生第 \(k\) 个事件”的延续,这是多状态 RMT-IF 定义的特殊之处)。作者通过引入 \(I(C \ge t)\) 的条件概率 \(G_a(t \mid X)\),将观测指示的期望拆解为 \(\mu_k^{(a)}(t, X) G_a(t \mid X) + \text{余项}\),余项在 \(\hat{G}_a\) 正确时可被 augmentation 消除。
-
CRT 下 Individual-average 估计量的 DR 性质:Individual-average 估计量涉及簇大小 \(m_i\) 的加权,当 \(m_i\) 与潜在结果相关时,简单加权可能导致偏。作者通过在簇级汇总中保留 \(m_i\) 加权,并证明在簇随机化下 \(A_i \perp m_i\)(因随机化在簇级,不依赖簇大小),保证了加权的无偏性。
-
技术技巧点名:
- AIPW (Augmented Inverse-Probability Weighting):用于构造 DR 估计量,结合 outcome regression 与 censoring model 的逆概率加权,起核心 DR 作用。
- Functional decomposition (泛函拆解):将 RMT-IF 拆解为阶段特异生存函数的积分,使 DR 构造可逐阶段进行,起简化结构作用。
- Jackknife variance estimation:用于推断,起 model-agnostic 方差估计作用,避免 nuisance 模型误指导致的方差偏。
- Cluster-level summarization (簇级汇总):用于 CRT 扩展,将个体级估计量汇总为簇级再跨簇平均,起处理簇内相关性作用。
真实例子与应用: - SPRINT 试验:个体随机化试验,比较强化降压(<120 mmHg)与标准降压(<140 mmHg)对复合心血管终点的影响。本文用 RMT-IF 估计强化降压在 \(\tau=3.26\) 年内的净有利时间,DR 估计量结合了 Cox 删失模型与随机生存森林 outcome regression,结果显示强化降压平均多提供约 0.05 年的有利时间(主要来自死亡推迟,复发事件贡献小)。 - STRIDE 试验:簇随机化试验(86 个初级护理实践),比较多因素跌倒干预与增强常规护理对严重跌倒损伤的影响。本文用 CRT 下 Individual-average RMT-IF 估计量,处理了 informative cluster size(实践大小与跌倒率相关),结果显示干预在 \(\tau=2.2\) 年内平均多提供约 0.02 年的无严重跌倒时间。
🔎 结论是否比证明窄: - DR 性质的严格证明条件:文中 DR 性质(Theorem 1/2)的严格证明要求 nuisance 估计满足 \(n^{1/4}\)-一致率条件(或类似收敛率),但 abstract/intro 中泛泛 claim“yielding consistency when either nuisance model is correctly specified”,未强调率条件。研究者应去核验 Theorem 1 的精确陈述,确认率条件是否被显式列出。 - Jackknife 方差的一致性:文中 claim model-agnostic jackknife 方差估计,但严格证明通常要求估计量是渐近线性的,DR 估计量在 nuisance 估计使用机器学习时可能不满足光滑性条件。研究者应核验 Theorem 3 是否显式假设了渐近线性或交叉拟合以规避此问题。
四、开放问题(点到为止,扎根具体语句)¶
-
RMT-IF 的 semiparametric efficiency bound:本文构造了 DR 估计量,但未讨论该泛函在独立数据下的有效影响函数与效率界。要证/估什么:计算 \(\xi^{(a)}(\tau)\) 在非参数模型下的有效影响函数,验证本文 DR 估计量是否达到界。扎根点:intro 未引用任何效率界文献,且 Theorem 1 仅证一致性未证渐近正态的最优方差。
-
Cross-fitting 对有限样本与推断的改善:本文 nuisance 估计未显式采用 cross-fitting(样本拆分),Westling et al. (2021) 已证明 cross-fitting对机器学习 nuisance 下的 DR 生存曲线推断至关重要。要估什么:在 RMT-IF 的 AIPW 框架下引入 cross-fitting,评估对有限样本偏与 jackknife 方差稳健性的改善。扎根点:第 4 节方法部分仅说“can naturally incorporate flexible machine-learning estimators”,未提 cross-fitting。
-
条件独立删失假设的敏感性分析:本文核心识别依赖 \(C \perp (D_1, \ldots, D_K) \mid (A, X)\),该假设不可检验。要估什么:构造删失依赖偏离下的 RMT-IF 界或偏的敏感性分析框架。扎根点:intro 明确列出“assume covariate-independent censoring”作为现有方法的限制,但本文仍沿用该假设,未提供放松或敏感性分析。
-
CRT 下 Cluster-average 与 Individual-average 的因果解释:本文定义了两个 estimand,但未在潜在结果框架下显式给出其因果语义(如是否对应特定主分层的效应)。要证什么:在潜在结果框架下形式化 \(\xi_C^{(a)}\) 与 \(\xi_I^{(a)}\) 的因果解释,特别是当 informative cluster size 存在时。扎根点:第 5 节 CRT 扩展仅给出期望定义,未引用主分层或因果框架文献(如 Comment et al. 2019)。
Maintained by 陈星宇 · Homepage · Source on GitHub