Robust evaluation of longitudinal surrogate markers with censored data¶

作者: Denis Agniel, Layla Parast
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向处理的核心问题是：如何量化一个生物标记物（替代标记，Surrogate Marker）在多大程度上“解释”了处理（治疗）对临床终点（Primary Outcome）的因果效应？ 具体来说，目标是定义并估计一个称为“处理效应被解释的比例”（Proportion of Treatment Effect Explained, PTE）的定量指标。一个理想的替代标记可以提前、更经济或更无创地预测处理的效果。当前，该领域正在从处理“单一时间点测量”的替代标记，向处理“随时间重复测量的、删失的纵向轨迹”替代标记演进，同时终点也正从简单终点（如二值、连续）向删失的生存时间终点（比如确诊疾病/死亡）扩展。该领域的核心挑战在于：如何在没有强参数模型假设的情况下，妥善处理替代标记和终点自身的删失、以及替代标记的纵向维数。

发展脉络（history）¶

奠基工作：单一替代标记、无删失的终点
- Prentice (1989)：提出了替代标记的经典定义——如果一个标记是有效的，那么对替代标记和处理效应的检验就应该等同于对终点和处理效应的检验。这一标准定义了统计替代性的概念。
- VanderWeele (2013)：指出了使用替代标记可能出现的“替代悖论”（surrogate paradox）——处理对替代标记正效应、替代与终点正相关，但处理对终点的效应却可能是负的。他给出了避免这一悖论的充分条件。该文在本文中被引用为“Certainly, there is a strong connection between methods in these two research areas”，旨在说明替代标记评估与因果中介分析之间的紧密联系。
主要进展：PTE的提出与稳健估计（单一标记、删失/无删失终点）
- Wang & Taylor (2002) / Parast et al. (2016, 2017)：这些工作将早期基于协方差分析的方法推广到处理删失的生存终点。特别是，Parast et al. (2016) 提出了一个针对删失终点的PTE的“稳健核非参数估计”，并且Parast et al. (2017) 的工作（从摘要看）将PTE定义推广到了删失终点和替代标记信息可能因事件发生而缺失的情况。它们的局限在于处理的是单一时间点的替代标记。
- Wang et al. (2020)：提出了一个“无模型”（model-free）的PTE定义，通过寻找替代标记的最优变换来确保PTE落在[0,1]区间，并使用核方法进行估计。这进一步摆脱了参数假设。
当前 Frontier：走向纵向替代标记（不准删失终点或弱删失终点）
- Agniel & Parast (2021)：直接将PTE概念推广到纵向替代标记，提出三个“灵活的”（flexible）估计量（一个基于IPW，一个基于回归，一个基于二者的结合），并建立了渐近性质。这项工作直接处理了纵向轨迹，但正如本文指出的，它“had not been developed for use with primary outcomes that are time-to-event outcomes and/or subject to censoring”。
- Zheng & Liu (2022) / Zhou et al. (2023)：分别通过因果中介分析和landmark模型来探讨纵向标记与生存终点，但本文批评前者代码“infeasible to implement”，而后者讨论的是用R²量度解释的方差，而非直接量化PTE。
本文的位置：本文直接填补“纵向替代标记”与“删失的生存终点”之间的交合缺口。它扩展了Agniel & Parast (2021) 的纵向PTE定义，使其能处理删失的生存终点；同时，它借鉴了Parast et al. (2016) 针对删失终点PTE的加权思路，将其推广到纵向场景。

子线索聚类¶

以PTE为核心参数的稳健/半参数估计
- 代表文献：Agniel & Parast (2021)（纵向标记，无删失终点）、Wang et al. (2020)（单一标记，模型无关最优变换）、Parast et al. (2016)（单一标记，删失终点）。本文处于这条线索的最前端。
- 核心思路：基于因果推断中的“残差处理效应”思想，通过比较包含和剔除替代标记信息后的条件处理效应来定义PTE，并用IPW、回归或半参数方法进行稳健估计。
基于g-formula或序列回归的纵向因果中介分析
- 代表文献：VanderWeele & Tchetgen Tchetgen (2017)、Lin et al. (2017)、Zheng & van der Laan (2017)、Wang et al. (2023)。
- 核心思路：将处理的效应分解为通过标记（中介）的间接效应和直接效应，但通常需要比PTE更强的假设（如序贯可忽略性/序贯交互性），且目标estimand不同。本文引用它们尤其为了支撑自己使用高效的influence function（IF）框架和TMLE技术。作者承认它们之间存在紧密联系，但选择了PTE这个更直接的量化指标。
受缺失/删失数据影响的协变量处理
- 代表文献：Lotspeich et al. (2023)。
- 核心思路：直接面对替代标记本身因终点事件发生（如死亡）而删失的问题（“truncation by death”），综述了权重、插补、最大似然等方法。

核心问题与当前瓶颈¶

如何正确定义PTE以使其因果解释清晰且范围在[0,1]？ 瓶颈在于当处理效应为零时，PTE可能没有定义或病态。
如何用稳健（即对模型误设不敏感）且有效的方法估计PTE？ 瓶颈在于高维（轨迹）维数和各种删失（终点的右删失、标记的截断删失）的混合效应。
如何处理纵向标记的删失？ 当受试者在测量标记前先到达终点时，标记信息缺失。这不是随机缺失（MAR），因为缺失与未来风险相关，这使得大多数标准缺失数据处理方法失效。

⚠️ 作者的Framing¶

作者的缺口声明：作者将缺口描述为“methods developed for the single-surrogate setting cannot accommodate a longitudinal surrogate marker. Furthermore, many of the methods have not been developed for use with primary outcomes that are time-to-event outcomes and/or subject to censoring”。本文的定位是直接填补这两条缺失的交叉点。
淡化/回避的竞争路线：
- 半参数效率理论路线：尽管作者引用了Kennedy（2022）回顾，但本文并未推导所求estimand的Efficient Influence Function（EIF），而是采用了一个基于已知的g-formula与加权两变量组合的启发式IF。作者没有讨论他们的估计量是否达到半参数效率下界。如果同行把EIF推导为最高标准，这个方法可以视为一个稳健但未必高效的开始。
- 现代g-formula路线：尽管作者引用了许多g-formula/序列回归的工作，但本文刻意回避了完全基于结果的g-formula（稳健，但标准误构成更复杂），而是选择了加权估计量的简化版本。这突显了一个权衡：权重估计更易实现，但可能对处理机制模型的误设敏感。
明显缺失/值得深究的问题：介绍中没有提及“置换检验”作为推断工具（特别是在标记数据存在截断删失时）。更重要的是，本文明显回避了讨论[13] VanderWeele (2013) 所提出的“替代悖论”在纵向设置下的表现形式。本文的定义和估计量不保证不会出现“处理对轨迹有正效应，且轨迹与终点相关，但处理对终点的总效应却为零”这样一种令人困惑的情况。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型与可观测数据¶

符号：
- Z：处理分配（Treatment，随机变量），取二进制（0=对照，1=处理）。
- T：潜在的时间至事件终点（Potential Primary Outcome），即真实发生事件（如死亡、疾病诊断）的时间。这是一个随机变量。但由于删失，我们通常不能观测到它。
- C：删失时间（Censoring Time），独立于T给定处理与基线协变量（假设）。
- Y = min(T, C) 与 Δ = I(T ≤ C)：可观测数据。Y是观测到的存活时间，Δ是指示是否观察到事件发生的删失指示符。
- S(t)：在时间t测得的纵向替代标记（Longitudinal Surrogate Marker），这是一个随机过程。
- t0：一个预先定义的分析时间（Landmark Time），用来标记替代标记被观测的终点。例如，我们只考虑治疗开始后至t0时的标记轨迹。
- bar S_t0：在[0, t0]区间内的全替代标记轨迹（Full Longitudinal Surrogate Trajectory），即{S(t): 0 ≤ t ≤ t0}。这是一个随机过程。
- X：基线协变量（Baseline Covariate）。
- Δ(t) = P(T > t | Z = 1, X) - P(T > t | Z = 0, X)：总处理效应（Total Treatment Effect on Survival），在给定协变量后处理的边际效应，用生存概率之差度量。
- Δ_S(t, t0)：残差处理效应（Residual Treatment Effect），即在调整了纵向标记bar S_t0的信息后，处理对生存终点剩余的效应。定义为： Δ_S(t, t0) = E[P(T > t | Z = 1, bar S_t0, X)] - E[P(T > t | Z = 0, bar S_t0, X)]
- PTE(t, t0) = 1 - Δ_S(t, t0) / Δ(t)：比例被解释的处理效应（Proportion of Treatment Effect Explained）。这是本论文要估计的核心Estimand（目标量）。
模型：
- 数据生成机制：广义的结构性因果模型（SCM）或非参数模型。没有对T和bar S_t0之间的联合分布强加特定的分布假设（是“模型无关”的）。
- 识别假设：
  1. 处理的随机性：Z ⊥⊥ (T, C, bar S_t0) | X（在给定基线协变量后，处理分配独立于所有潜在结果）。在RCT中，如果X已被充分调整，则成立。
  2. 无未测量混杂：T ⊥⊥ (C, bar S_t0) | Z, X, bar S_t0（在给定处理、基线和已观察到的纵向标记后，删失是独立的）。这是对删失机制的关键假设。
- 待估对象：PTE(t, t0)。方程中包含了几乎无法直接观测的Δ_S(t, t0)（因为它需要知道患者在已知自身标记轨迹下的存活概率，这需要反事实推断）。估计的关键是通过各种方法（如IPW、序列回归）将其转化为观测数据的函数。

第二步：最简例子¶

最简特例：当t0=1（只有一个时间点测量标记），并且没有删失（C = ∞，T总是被观测到），并且我们处理的是二值终点T（存活状态）。

在这个特例下，原问题退化为Wang et al. (2020) 或经典单点替代标记问题。

过程： - 全部可观测：Y = T，Δ = 1。标记就是S(1)，即单次测量，记为S。 - 总效应： Δ = E[T|Z=1] - E[T|Z=0] - 残差效应： Δ_S = E[E[T|Z=1, S] - E[T|Z=0, S]] (替代P(T > t|...)，因为无需考虑t) - PTE = 1 - Δ_S / Δ - 核心思路：这个模型的核心是用IPW估计条件结局。 - 第一步，估计处理分配的概率 π(S) = P(Z=1|S)（这里 π 是S的函数，因为处理是随机的，但标记是可以预测结果的好工具，所以这个概率趋近一个常数0.5，但理论上它是基于协变量的，没有被随机化）。在简化中，我们假设Z是随机分配的，与S无关，所以π(S) = 0.5。那么，直接使用标准的IPW会过于简单，更常见的做法是拟合一个回归模型。 - 为了演示“残差效应”的核心思想，我们采取一个最简的构造：使用样本加权来解耦Z和S的关系。想象我们有n个数据点(Z_i, S_i, T_i)。 - 第一步，拟合一个处理机制模型。在最简随机化情况下，P(Z=1) = 0.5，可以直接用。 - 对于总效应Δ，一个简单的估计量是 ˆΔ = mean(T | Z=1) - mean(T | Z=0)。 - 对于残差效应Δ_S，我们执行：先对所有样本进行加权，使得处理组和对照组在S上的分布变得相同 (即“inverse probability weighting by Z”或“stabilized IPW”)。但这里更直接的思路是直接估计E[T | Z, S]。如果我们假设一个线性模型E[T|Z,S] = α + β*Z + γ*S，那么Δ_S = β，即处理分配系数。这本质上就是线性回归。 - 本文的核心理念：在处理删失生存数据时，处理终点不再是个简单的线性标量，而是要比较T>t的时间点。作者转而使用 IF-展开 (Influence Function expansion) 或 IPW-KM组合来正式构造一个无偏/近似无偏的估计器。

所以，最简的核心逻辑是：PTE衡量的是，在“解释”掉替代标记S（假如它够好）之后，处理的剩余效应还有多少。估计的关键是构造一个在控制替代标记S后给出处理效应估计量的过程。当只有一次测量且没有删失时，它就是线性回归中Z的系数。当面对纵向且删失数据时，作者必须处理： 1. 轨迹S(t) 的维数无穷 (时间连续)。 2. 标记的观测被终点事件中断。 3. 终点的右删失 (事件还没发生就被截断)。

三、这篇论文做了什么¶

三句话：
1. 研究了在冗余且被截断删失的纵向替代标记下，如何定义并估计其对删失生存终点的因果效应解释比例（PTE）。
2. 核心工具是将PTE estimand转化为一个因果对比，然后构建基于逆概率权重 (IPW) 与 Kaplan-Meier (KM) 删失调整的稳健估计量，并用交叉拟合 (cross-fitting) 和影响函数展开 (influence function expansion) 来降低偏差和方差。
3. 主要结论是：所提估计量一致且近似无偏，在模拟中展示了良好的有限样本性质，并在糖尿病预防项目中用重复测量的空腹血糖作为替代标记，演示了如何判断其在多大程度上贡献了预防糖尿病的效果。
关键设定与假设：本文建立的模型包含：
- 一个唯一的基线协变量集合 X (对于处理分配可以随机，但为了严谨需要调整)。
- 关键假设：序贯可忽略性或正定性：S(t) ⊥ C | Z, X, past and T ⊥ C | Z, X, bar S_t0。这是经典的“随机删失”假设。
- 假设强度对比：
  - 相比 Agniel & Parast (2021) (无删失的终端)：这里更宽松，允许 T 被删失，但需要更严格的识别假设来控制这个删失。
  - 相比通过g-formula做中介的 VanderWeele & Tchetgen (2017) 或 Lin et al. (2017)：本假设更弱，它不需要“序贯交互性”（sequential ignorability for the mediator），这是替代标记评估相对于因果中介分析的一大优势。它只需要调整处理分配和删失。
主要结果与证明路线（技术性）：
- 估计量构建：论文给出了两种估计量：
  1. hat Δ 与 hat Δ_S 是简单的IPW/KM估计量。
  2. 改进版 hat Δ 与 hat Δ_S 是基于 “影响函数”（IF） 的估计量。该估计量的核心是：每个个体的贡献是一个IF。对于总效应的IF是个体处理效应（Z_i/π(X_i) - (1-Z_i)/1-π(X_i)）...。对于残差效应，它的IF更加复杂，包含了对S结果的条件概率积分。
  3. 关键思想：使用IF展开后，估计量对其中一个组件（处理机制模型π、结果模型P(T|...)）的误设具有双稳健性（double robustness）——如果其中之一被正确估计，那么 hat Δ_S 是的一致且渐近无偏的。
  4. 应用：这些公式提供了可操作的估计。
- 证明路线：
  1. 定义目标：先严格写下Δ(t)和Δ_S(t, t0)的统计函数。
  2. IF展开：推导出这两个泛函的影响函数。这是技术核心节，证明它满足Neyman Orthogonality（Neyman正交性），即对局部噪声的估计是二阶小量。
  3. 交叉拟合：将样本分位K折。在第k折上，用其余数据估计处理机制模型π^( -k)和结果模型mu^( -k)。然后用这些估计在k折上计算hat Δ_S和hat Δ。
  4. 无偏性证明：通过条件期望法则，展示给定交叉拟合时，hat Δ_S的偏差主要来自π和mu的非参估计误差乘在一起（是二阶的），因此在非参速率下收敛。
  5. 方差估计：通过插值（variability of the IF across folds）来估计方差或使用经验方差公式，进行推断。
- 关键跳跃点：对于hat Δ_S，核心挑战在于期望算符落在E[I(T>t)|Z, X, bar S_t0]这个非参函数上。作者巧妙地避免了完全非参估计这个（需要无穷维函数估计的复杂轨迹），而是将其转化为： E[ I(T > t) / ω(bar S_t0) | Z] 的形式，通过在权重结构中嵌入Kaplan-Meier调整。这使得模型对“标记-结局”关系的误设不那么敏感，而仅仅需要对“删失-标记”关系及“处理分配”模型进行正确设定。
- 技术技巧：使用了影响函数（Influence Function） 展开、交叉拟合（Cross-fitting）、逆概率加权（Inverse Probability Weighting, IPW） 和 Kaplan-Meier型加权（针对删失）。
真实例子与应用：
- 数据来源：糖尿病预防计划（DPP）数据。这是一个大型RCT，对比了生活方式干预和安慰剂对2型糖尿病发生（删失的生存终点）的效果。
- 场景：替代标记为“空腹血糖”（Fasting Plasma Glucose, FPG），一种在基线、6、12、24个月连续测量的纵向生物标记物（直到发生终点或研究截止）。他们选择t0 = 2年，定义标记为至2年时的FPG轨迹。
- 怎么用：
  1. 估计总生存效应Δ(t)（治疗 vs 对照）。
  2. 估计当调整了纵向FPG轨迹后，该效应的“剩余部分” Δ_S(t, t0)。
  3. 计算 PTE = 1 - Δ_S / Δ。
- 结果：FPG作为一个纵向替代标记，解释了大约65-80%的治疗效应（在1年随访时评估）。这表明血糖控制是糖尿病预防主要机制中的绝大多数。
- 例子要说明的：该方法能够处理实际问题（纵向标记vs删失生存终点），且结果与病理生理学常识一致，验证了该方法的临床可用性和直观有效性。这也暗示，剩下的那部分效应可能来自其他通路（比如炎症、减重超过血糖以外等），可以作为未来研究的起点。
🔎 结论是否比证明窄：是的。作者在文末（实证验证部分之外）诚实地说：“我们只提供了hat Δ和hat Δ_S基于随机删失假设（T和S皆假设被X和Z随机化）下的一致性和近似无偏性证明，而没有给出估计量的n^{-1/2} 渐近正态性理论证明或EIF公式的全长推导”。这是一个重要的自我约束。给出的推断方法是基于交叉拟合的方法，但缺乏一个严格的EIF推导，这在理论论文中常被认为是弱的。此外，对于PTE本身（一个比率），他们并未严格证明其IF（EIF）或其置信区间是由delta method直接推导出来的（从而保证了\(n^{-1/2}\)收敛率），而是基于一个经验两种效应估计量的标准误的启发式量化（使用bootstrap或正态卡方逼近）。所以，精读时要注意：他们声称“robust”，但可能牺牲了效率。

四、开放问题¶

EIF的缺失：本文没有推导PTE(t, t0)的Efficient Influence Function（EIF）。如果推导出来（并采用一系列正确的Heavy Hakving算法来拟合非参成分），是否可以构造出一个单步（one-step）或TMLE估计量，使其既达到n^{-1/2}收敛率且渐近有效？（扎根于：本文并未给出完整的长EIF推导，而是基于已知的IF进行构造，属于drew 上已有的路）
交叉验证的方差估计理论：作者使用了交叉拟合（CF）来估计hat Δ和hat Δ_S。虽然CF允许用机器学习估计nuisance参数，但对于最终的比率PTE = 1 - hat Δ_S / hat Δ，其方差应该如何严格计算？当CF折数固定（如K=5）时，方差估计理论是否存在偏小？这是个开放问题（在正交性条件下依然存在），且模拟中作者通常采用小样本的bootstrap。（扎根于：empirical application 是模拟，无方差理论的数学证明）
“替代标记的增补速度”：本文探讨了一个固定的t0（例如2年）。如果允许标记持续加入（即，当更多纵向测量变得可用时），PTE如何变化？理论上，它会单调上升。但不知道它的收敛速度——需要多少时间来捕获全部效应。（扎根于：仅在t0固定时讨论，没说怎么讨论t0的加入速度）。
交叉类型：本文只分析了PTE的一个组成部分。如果处理效应存在Δ > 0和Δ_S > 0但PTE > 1（意味着“过度调整”：标记解释的比总效应多，暗示处理还有相反的直接效应），这种交叉情况在纵向设定中并未被讨论。（扎根于：文中只讨论了可逆的PTE[0,1]情形，未提及当PTE超出该区间时的定义和解释，这类似于VanderWeele 2013提出的悖论）

Maintained by 陈星宇 · Homepage · Source on GitHub