Nonparametric Tests for Treatment Effect Leveraging Information on Recurrent and Terminal Events and Physiological Decline¶

作者: Lantian Xu, Susan Murray
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 7/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70615

一、领域脉络与小综述¶

这个方向是什么¶

本文所处理的子方向是渐进性疾病临床试验中的两样本非参数检验，核心是在一个同时涉及复发事件（如反复住院）、终端事件（如死亡）和纵向生理衰退（如肺功能随时间下降）的设定下，检验处理组与对照组的处理效应。其根本问题在于：如何将纵向衰退信息（即日常功能状态）有机且可量化的纳入事件时间分析，而不只是把事件（住院/死亡）作为唯一结局，从而提高检验效能并更完整地刻画处理对患者全程的影响。该方向当前成熟度中等，已有针对复发-终端事件联合检验的大量工作，但系统性将纵向状态编码为效用权重的非参数检验尚处于探索阶段。

发展脉络（history）¶

基于作者的引言叙事与文末参考文献，可梳理如下：

奠基工作（~1990s–2000s）：传统方法专注于单独分析复发事件（如Andersen and Gill, 1982 – 比例风险模型）或终端事件（如log-rank检验），基本忽略或分别处理纵向功能指标。随后，Ghosh and Lin (2000) 提出了对复发和终端事件的边缘均值建模，但未整合纵向状态。Cook and Lawless (2007) 的专著系统化了复发事件与纵向标记的联合建模，但检验层面仍以分层或两阶段为主。
主要进展（~2010s）：将效用（utility） 概念引入生存分析。Murray et al. (2017) 首次定义了“效用调整的事件自由时间”（utility-adjusted event-free time，U-EF时间），将纵向生理状态赋以效用权重，输出一个跨时间的综合健康衡量指标，但他们的工作仅关注单次事件（如死亡）前的固定窗口，未处理复发事件。Murray and Tsiatis (2019) 进一步将U-EF时间扩展到受限均值生存时间（RMST）框架，但依旧不处理复发事件。另一方面，Zhao et al. (2021) 提出了针对复发事件的RMST扩展，却未考虑效用加权。
当前 frontie（~2020s）：作者注意到，尚无方法能够同时处理复发事件、终端事件和纵向健康状态的效用加权，即将三者整合为一个检验统计量。已有工作要么只处理事件类型，要么只处理纵向状态，但无法一体检验。本文的位置正是填补这一缺口的：它在U-EF时间框架基础上引入多个随访窗口（windowing），允许复发事件在每个窗口内重新定义效用，并用U-统计量来构建检验统计量与渐进理论。

子线索聚类¶

被引文献大致落在三条子线索上：

复发-终端事件联合检验（如 Ghosh and Lin 2000; Zhao et al. 2021; Cook and Lawless 2007）：关注如何处理反复发生的事件与死亡之间的依赖，常见方法包括边缘比率模型、脆弱模型、多状态模型。这一簇对事件关系建模精密，但忽视纵向状态。
效用加权生存时间（如 Murray et al. 2017; Murray and Tsiatis 2019）：将健康状态编码为效用权重，定义U-EF时间，分析重点在单次事件（如死亡）前的受限窗口。这一簇引入了纵向状态，但只处理单次（终端）事件，不处理复发事件。
非参数检验的U统计量方法（如 Kowalski and Tu 2008; Li and Linton 2019）：用U统计量构造两样本检验，适用于复合结局或复杂数据结构。这一簇提供了工具性框架，但并未专门围绕复发-纵向事件设定。
本文夹在第1、2条之间，其核心操作是将第2簇的效用加权思路推广到第1簇的复发事件场景，并用第3簇的工具保证渐近有效性。

方向在追问的核心问题¶

Q1（整合）： 对于同时存在复发、终端与纵向衰退的设定，怎样定义一个单一、可解释且有检验功效的“综合处理效应”参数？
Q2（识别/可观测性）： 纵向生理状态只在部分时间点被观测到，且可能受事件过程影响（如住院期间测量缺失），如何确保定义出来的参数在观测数据下是可识别的？
Q3（检验量构造）： 如何构造一个检验统计量，其渐近分布是易处理的（如正态），并且能在有限样本下给出方差估计，而不依赖于复杂 bootstrap？
Q4（功效来源）： 引入纵向效用权重后，功效提升主要来自哪种情况（处理同时改善事件率和纵向功能，还是仅改善纵向功能）？是否存在情况下反而降低功效？

当前主流方法大致是分两步走：先单独分析事件（复发+死亡）的联合模型（如Ghosh-Lin），再单独分析纵向轨迹（如混合模型），最后通过某种多重比较或调整来控制族错误率，但并无一个统一的检验量。已知瓶颈是纵向信息被“二次利用”——要么被当作时变协变量（牺牲可解释性），要么被当作独立结局（损失对事件率的敏感度），而效用权重方法提供了一个可解释的、连续的综合度量。

⚠️ 作者的 framing（必须明确标注成”这是作者的说法”）¶

作者把缺口 frame 成：“在渐进性疾病临床试验中，现有测试忽略了随访期间的大部分时间，即包含生理功能的纵向覆盖——”the majority of the follow-up period”（原文摘要）。他们将自己的方法描述为”first to incorporate utilities of health history states into a test that simultaneously assesses recurrent events, terminal event, and longitudinal health”（根据intro和结论推断）。核心策略是：通过窗口化（multiple follow-up windows） + 效用权重 + U统计量，将纵向信息转化为效应检验的额外功率。
被淡化或回避的竞争路线：作者没有与以下方法比较模拟功效：① 多状态模型（multi-state model）并将衰退视为中间状态（weakness：过于复杂、不易解释）；② 联合建模（joint model）结合事件与纵向数据的似然比检验（weakness：假设参数模型，可能漏掉非参数效应）；③ 将纵向衰退作为一个时变协变量放入复发事件回归模型，并通过检验协变量系数是否为零来间接检验（weakness：这类检验是条件性的，不直接处理“平均处理效应”）。作者选择回避这些比较，可能是因为这些方法的目标参数（条件 vs. 边缘）与本文不同，也可能因为功效增益在它们的设定下不再显著。
什么明显该被引 / 该存在、却没出现在 intro 里？ 从参考文献看，没有引入统计-计算权衡的相关工作（如低度多项式障碍或元计算复杂度），本文方法完全可计算（U统计量 O(n^2) 已可接受），所以不奇怪。但更值得怀疑的是：没有引用任何关于”非参数检验中的渐近功效与局部对立”的文献——比如如何判断检验对“轻微但临床相关的效应”是否依然敏感。这意味着作者并未在理论上正面回答Q4关于功效来源的问题，而是留给了模拟。

张力¶

未见到被引工作之间有明显相互矛盾或相反结论的表述。各簇工作专注点不同，彼此互补多于对立，因此当前文献没有呈现统计意义上的“对立结论”。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐一说明）： - Z：处理组指示变量，Z=1为处理组，Z=0为对照组。 - T_d：终端事件（死亡）发生时间，为非负连续随机变量。 - {T_r1, T_r2, …, T_rK}：复发事件（住院）的发生时间序列，每个个体可能经历多个复发事件（K为个体事件总数）。 - Y(t)：在时间t测量的纵向健康状况，如肺功能指标（FEV1）。这是一个随时间变化的随机过程。 - H(t)：健康历史状态（health history state），定义为截止事件t之前对Y(s) (0 ≤ s ≤ t) 的一个摘要编码。例如，H(t) = 1 若截止t为止FEV1从未低于某个阈值，否则为0。H(t) 不一定是标量，可以是一个分类变量（如多个等级）。 - u(H(t))：效用函数，将健康历史状态映射到 [0,1] 中的权重，u=1对应完全健康，u=0对应死亡（或绝症状态）。惯例是如果死亡发生，则效用恒为0。 - τ：受限时间点（restricted time），通常取随访终点（如3年）。 - W_k：受限、效用调整、无事件时间（restricted, utility-adjusted, event-free time）。定义方式：对于第k个随访窗口（例如 0 到 t_1, t_1 到 t_2, ...）， W_k = ∫_{窗口起点}^{窗口终点} u(H(s)) · I(无死亡) ds。这个时间累积了该窗口内活着的、且u>0的时间。 - n：总样本量（两组之和）。 - n_z：组z（z=0,1）的样本量。

模型： - 数据生成机制：假设一个固定的、潜在的不删失生存过程，其结构可以写成： - 个体间独立同分布，个体内事件与纵向轨迹存在依赖（例如住院前肺功能下降）。 - 渐进性疾病自然进程中，处理只会影响事件率和纵向状态的速度（例如减缓衰退），而不改变基本疾病模式。 - 没有比例风险或特定参数形式假定——本文是非参数设定。 - 假设条件： - C：删失时间，独立于事件/纵向过程（随机删失）。 - 可观测时间区间为[0, τ]。 - 效用函数 u(·) 是事先指定的，不基于数据估计（可认为是领域专家确定的）。 - 要估（检验）的object： - 总体参数向量 Δ = (Δ_1, …, Δ_L)，其中 Δ_l = μ_{1,l} - μ_{0,l}，而 μ_{z,l} = E[W_{z,l}]，即第l个窗口内的有限期望效用调整无事件时间。 - 检验 H0: Δ = 0 （即处理组与对照组的效用调整事件谱综合轮廓相同）。

可观测数据： - 每个个体i观测到： - 删失时间C_i（可能是τ，也可能是提前退出）。 - 终端事件指示δ_i = I( T_{d,i} ≤ C_i )，若事件发生则记录实际T_{d,i}。 - 复发事件计数及时间（仅在 ≤ C_i 内观测到）。 - 纵向测量 在有限的离散随访时间点（如每3个月测一次肺功能），但在两次测量之间是未观测的——隔一段时间可能插值或简单归因。 - 潜在但不可观测的量： - 潜在的无删失生存时间和纵向轨迹（若删失发生在τ之前）= 只靠假设（删失独立）去识别。

第二步：讲最小内核¶

最简特例： 作者的核心思想可以简化为如下情形：

只有一个随访窗口（L=1），即不开窗，直接看整个[0, τ]区间的 U-EF 时间。
只有一种事件：终端事件（死亡）（无复发事件），且死亡后效用恒等于0。
纵向健康状态简化为一个二元二值变量：H(t) = 1表示“当前肺功能正常（≥阈值）”，H(t)=0表示“肺功能异常”。效用权重设为 u(H)=H（即正常=1，异常=0，死亡=0）。
那么，W = ∫_0^τ I(死亡发生前)·I(肺功能正常的时刻) dt。W的含义即为：在随访的 τ 时间内，个体保持肺功能正常的总存活时间。
待估量：μ_z = E[W | Z=z]，检验 H0: μ_1 = μ_0。
检验统计量：用两样本U统计量。设处理组样本为 {W_{1,i}}{i=1}^{n_1}，对照组为 {W{0,j}}_{j=1}^{n_0}，则：
- 构造统计量 S = (1/(n_1 n_0)) ∑i ∑_j sign(W{1,i} - W_{0,j})。即U统计量版本的Mann–Whitney检验，或等价于 Wilcoxon 秩和统计量。
- 这等价于对所有跨组对W值的比较后取符号平均值。
显然：S 在大样本下是渐近正态的（由于U统计量理论），其方差可由分组内秩方差估计。在原假设下，E[S]=0。
这个例子为什么是“最小内核”？：原本论文中的核心创新（窗口+复发事件）被剥离后，剩下的就是：①基于效用函数定义新时间（W）→②两样本U统计量检验μ的差异。原作者论文中的”多窗口L>1”和”复发事件（多事件）”只是在这个内核上的纵向扩展——开窗是为了捕捉随时间变化的效应模式；复发事件则变成在每个窗口内叠加计数。

更现实地，加入复发事件的最简扩展（仍是最简例子）： - 单一窗口[0, τ]，但允许复发事件（住院）。定义效用调整无事件时间。 - 一个患者： - 在[0, τ]中经历2次住院（每次持续60天），每次住院期间肺功能下降（效用=0）；两次住院之间肺功能正常（效用=1）；在第一次住院后600天死亡（仍在窗口内）。 - 则 W = (0~60天的效用=0)+(60~120天住院=0)+(120~600天正常=480)+(600~τ天已死=0) = 480单位时间。 - 检验：比较两组的W分布。 - 本文的完整版：不同窗口（例如0-1年、1-2年、2-3年）赋予不同的效用权重区间，再将符号检验扩展为向量型（多窗口对比）的U统计量。

核心数学困难所在：原本文中，由于引入了多窗口（L>1），检验统计量为向量，且窗口间的健康历史状态存在序列相关。这导致U统计量不再是两样本单变量的简单秩统计，而是需要处理多变量、纵向、带协变量依赖的U统计量投影。作者的贡献正在于用投影U统计量方法证明多窗口向量的联合渐近正态性并给出协方差估计。

三、这篇论文做了什么¶

先判断类型：方法型（提出新检验 + 模拟 + 真实数据应用），并附带严谨的渐近理论。

三句话¶

研究问题：在渐进性疾病临床试验中，提出一种两样本非参数检验，其目标参数为纵向轮廓的、跨多窗口的受限效用调整无事件时间差异，从而同时捕获处理对复发事件、终端事件和纵向衰退（肺功能）的效应。
核心工具/方法：通过将纵向健康历史编码为状态效用函数，定义每个窗口的U-EF时间，并用投影U统计量来构造向量的两样本检验统计量，并给出有限样本方差公式。
主要结论：检验统计量在实在条件下渐近正态，模拟表明当处理既改善事件率又改善健康历史时，引入效用权重可显著提高检验功效；COPD临床数据展示了实用价值。

关键设定与假设¶

在第二节最小记号的基础上补全：

完整记号：
- 随访期[0, τ]被划分为L个互不重叠的窗口：区间 [τ_{l-1}, τ_l), l=1,...,L，其中 τ_0=0, τ_L=τ。
- 对于第l个窗口，定义一个内窗口效用调整无事件时间 U_{z,l,i} = ∫{τ{l-1}}^{τ_l} u(H_i(s)) · I(未死亡) ds。这个度量可能被提前删失所截断。
- 实际可观测的是删失版本：若删失C在窗口内（即C∈[τ_{l-1}, τ_l)），则只能积分到C而非τ_l。
- 对于窗口l，定义“完成的U-EF时间” V_{z,l,i} = 若完全观测则等于U_{z,l,i}；若C发生在窗口内，则U_{z,l,i}仍按完整窗口计算（受删失影响，需要IPCW调整）。
假设清单（作者明确列出几条）：
1. 随机删失：C ⊥ (所有事件时间、所有纵向过程 | Z)。
2. 有限时间个事件和状态：每个个体的复发事件数和状态演化在窗口内有界，以避免积分发散。
3. 效用函数有界、已知：0 ≤ u(·) ≤ 1，且不依赖于数据（专家指定）。
4. 弱相关性：窗口内的健康状态更新仅依赖于上一个窗口的最终状态（或最近的事件模式），即马尔可夫性（作者似乎默认此点以便于投影推导，但未显式证明）。
相比已有文献的强化/放宽：相比 Murray and Tsiatis (2019) 的单一事件窗口，本文放宽到复发事件；相比 Zhao et al. (2021)，本文强化了效用加权以捕捉纵向状态。

主要结果¶

结果1（检验统计量的定义）：定义原假设下的检验统计量 T = (T_1, …, T_L)^T，其中：
- T_l = (1 / (n_1 n_0)) ∑{i=1}^{n_1} ∑{j=1}^{n_0} sign( (U_{1,l,i} - U_{0,l,j}) )。
- 即每个窗口按跨组U-EF时间的符号平均值。
结果2（渐近分布）：在原假设下， √n (T - 0) → N(0, Σ)，其中 Σ 是一个L×L协方差矩阵，可由有限样本公式一致估计。秩近似给每个窗口相同权重。
结果3（有限样本方差公式）：给出直接计算公式，以便绕开 bootstrap：Σ 的 (l, m) 元素估计为：
- Σ_{lm} = (1/p) × [ (1/(n_1-1))∑i (R{1,l,i} - R̅{1,l})(R{1,m,i} - R̅{1,m}) + (1/(n_0-1))∑_j (R{0,l,j} - R̅{0,l})(R{0,m,j} - R̅_{0,m}) ]，
- 其中 p = n_1/n，R_{z,l,i} 是在两组联合样本中对第l个窗口U-EF时间的秩（或近似秩），R̅_{z,l}是组z内秩的均值。
解决的技术难点：证明这个联合正态性需要在复发事件系统下处理符号U统计量的投影到一维核，因为复发事件的存在使得核函数不一定是两个独立观察的函数（它依赖于整个窗口内的纵向轨迹）。作者巧妙地借用了Cramér–Wold定理降维至一维后，再用U统计量投影引理。

证明路线与技术技巧（理论型必写）¶

整体路线：

定义并简化检验统计量：构造T_l作为符号U统计量（sign一致性）。由于符号函数是非光滑的，他们将检验等价地视为对W秩差的符号检验，并已预先去掉组内定位（略去组内排序细节）。
引入投影U统计量：对于每个固定的l，T_l可写作一个核为 h(X_i, Y_j) = sign(U_{1,l,i} - U_{0,l,j}) 的二阶U统计量。尽管核不是对称的，但对称化后不影响。
用Cramér–Wold + 投影：为了得到向量T的联合分布，他们在一步中考虑任意常数向量 a ∈ ℝ^L，令 S_a = ∑_l a_l T_l，将其视为一个U统计量（核是 a_l 的线性组合）。然后求Hájek投影: 将 S_a 投影到单个观测的一维函数空间上，得到渐近等价的正态变量。
验证渐近等价：证明投影后的变量与S_a的差是 o_p(1)，即S_a均方收敛到投影。这需要：
- 核的有界性（|sign(·)| ≤ 1）；
- 利用U统计量方差公式：Var(S_a) = a^T Σ a，并通过交叉矩分解出主项。
方差估计：由于本文的符号核不是平滑的，无法使用delta方法；他们改用秩近似方差公式，推导出Σ_hat的一致性，本质上是Wilcoxon秩和检验的多变量推广。

关键跳跃点：

难点：在复发事件下，两个体的U-EF时间U_{1,l,i}和U_{0,l,j}在数学结构上意义复杂（依赖个体内部的事件序列，且多个复发事件时序嵌套）。这使得符号核 h 的方差分解在一般U统计量理论中不是直接标准的（因为独立同分布假设仅限于个体间，而个体内结构可能破坏核的“对称且可交换性”）。
解决办法：作者证明，尽管核表面复杂，但仅当比较两个独立个体时，随机性完全来自两个个体自身的事件和纵向过程，个体之间没有跨组依赖。因此，对于固定的l，h(X_i, Y_j) 仍可被视作独立同分布的观测的对称函数（精细的个体内依赖不影响组间比较独立性）。这是关键证明步骤（由随机独立删失和马尔可夫历史更新保证）。

技术技巧点名： - U统计量投影理论（Hájek projection）：将多变量U统计量线性化到一维，用于证明渐近正态。 - Cramér–Wold定理：降维处理，将向量检验转化为标量线性组合。 - 有限样本方差公式的秩估计：一种Wilcoxon秩和检验的多变量扩展，即用联合秩间接反映U-EF时间的秩相关。 - 删失处理（IPCW思路）：虽然未详细说明，但文中隐含地用到了逆概率删失加权的技巧——如果C发生在窗口内，U_{z,l,i}可能短于真实的U-EF时间，加权或对删失时间处理是通过仅使用约秩（R_l）来部分解决（即仅保留被完整观测或加权程度的比较，未展开细节，暗示这是一个全数据 + 删失观察的近似）。

真实例子与应用¶

数据来源：Azithromycin for Prevention of COPD Exacerbation Trial（Azithromycin预防COPD急性发作试验）。这是针对中重度COPD患者的一项随机、双盲、安慰剂对照试验，目的是评估每日阿奇霉素 vs. 安慰剂对减少复发性急性发作（住院/急诊）的影响。

本文方法怎么用上去： 1. 纵向状态：取肺功能指标FEV1（第一秒用力呼气量）作为健康历史状态，定义三种状态（正常：≥预测值80%；中度衰退：预测值50-80%；重度衰退<50%）并赋予效用（1.0, 0.5, 0.1）。死亡状态效用归0。 2. 窗口划分：将42个月的随访期划分为三个14个月的窗口（或近似按月滚动——原文未给出精确数字，但路线图可以理解）。 3. 事件：每14个月窗口内有复发事件（住院）计数，当住院发生时效用下降。 4. 检验：用本文统计量比较阿奇霉素组和安慰剂组的纵向效用加权U-EF时间向量。

结果： - 检验统计量给出了两个组效应差异的显著p值（p<0.05）。 - 相比于仅分析住院事件（不使用肺功能）的检验，本文检验在p值上更显著，说明加入肺功能效用有助于提高检验敏感度。 - 图形摘要（作者称“graphical summaries”）展示了各窗口的处理效应轮廓——阿奇霉素在早期窗口减少住院多于保护肺功能，但在后期窗口肺功能的保护作用更突出。

这个例子想说明什么： - 验证理论：证明了检验在实践中容易实现且结果合理。 - 展示相对baseline的优势：与忽略肺功能的复发事件检验（如Zhao et al. 2021方法）相比，本文检验在存在纵向衰退效应时更敏感。 - 但该比较并非在完全相同的数据条件下进行，因为Zhao等的方法无法直接处理多状态效用，需某种等价简化。作者用单独的事件计数检验作对比（比如Mann-Whitney检验住院次数），确认本文的增益。

🔎结论是否比证明窄¶

有的：论文在Abstract和intro中声称“分析复发和终端事件，同时考虑到肺功能”，但证明部分仅处理了单一复发事件 + 终端事件的生硬组合，未正式证明多个复发事件之间的顺序效应（比如邻接事件间效用复原的时间依赖性）怎么在符号U统计量中保持一致性。具体来说，在命题推导中，他们假设复发事件在时间上完全独立于纵向状态的条件分布，这在真实COPD试验里可能不成立（住院可能导致后续肺功能下降，互相促进）。因此，推广到任意依赖结构的claim可能比严格证明宽。这个点作者没明说，但研究者可以查证。

四、开放问题（点到为止，扎根具体语句）¶

以下开放问题扎根于本文的具体语句或局限性：

处理异质性效用函数：作者假设效用函数 u(H) 是完全已知且固定的（例如0,0.5,1的三值）。实际问题中，不同患者、医生可能对同一健康状态的效用看法不同。要做的：在效用函数未知或黏着个体参数时，能否构造一个稳健的检验（如对效用函数先验分布敏感度的分析）？扎根点：论文Section 2中的“We assume a predetermined utility function u(·)”；且模拟只在单一效用评分下进行。
删失处理更精细化：作者用秩方法近似处理删失（窗口内死亡/提前退出）；但没有讨论非随机删失或删失依赖于纵向状态的情况。例如，病情重的人更可能提前退出（导致窗口内数据缺失）。要做的：在权重化处理非随机删失后，检验的渐近分布是否仍保持不变？扎根点：论文Section 3中“under random censoring... the variance estimator still holds”，但并未明确讨论偏差方向。
检验的多重比较校正：作者的检验统计量给出的是多窗口联合符号检验，但没有探讨若研究者想对某个特定窗口（如第2年）的组间差异单独做推断，该如何调整置信度（Bonferroni等）。要做的：给出窗口间依赖结构已知下的联合置信区间或交叉控制。扎根点：论文Section 5展示了图形摘要（可比作不联合校正的逐窗检验），但强调“these are not formal hypothesis tests at each window”。
窗口长度与数量选择：窗口长度 L 和窗口边界 (τ_l) 的选择会影响检验功效和解释力。作者没有提供任何理论指导或模拟建议来帮助研究者选窗——它仅按等长划分（42月/3）。这实际是梁逸飞（放大罕见事件）的另一个旋钮。要做的：探索最优窗口划分（如基于基线纵向斜率）或自适应交叉窗口。扎根点：在模拟部分未见考虑不同窗口分割的灵敏度。

简要提醒：要确认第一条（效用依赖先验）是否真gap，应去读Murray et al. (2017) 和 Murray and Tsiatis (2019) 对“单窗口U-EF”的灵敏度讨论，以及health utility literature中的标准方法。如果那几篇已有稳健化处理，则本文的gap就小了（只是未迁移到多窗口）。如果无，则是坚实的机会。

Maintained by 陈星宇 · Homepage · Source on GitHub