Semiparametric joint modeling to estimate the treatment effect on a longitudinal surrogate with application to chronic kidney disease trials¶

作者: Xuan Wang, Jie Zhou, Layla Parast, Tom Greene
来源: Biometrics
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在纵向临床试验中，当主要结局（如生存时间）需要长随访才能测量时，如何利用一个可更早、更低成本测量的纵向替代结局（longitudinal surrogate endpoint）来估计处理效应。更具体地，这里聚焦于终端事件截断（terminal event truncation）下的情况——即受试者的纵向测量可能因死亡、肾衰竭等终端事件而提前终止，此时如果不联合建模纵向轨迹与终端事件过程，直接估计处理对纵向替代的效应会引入选择偏倚（survivor bias）和信息型删失（informative censoring）。当前该子方向的成熟度：已有多种联合建模方法（共享随机效应模型、模式混合模型、两阶段模型），但大多数对纵向与终端事件的关联结构做了参数化假设（如线性共享效应），本论文试图用非参数化关联结构的半参数联合模型来放松这一假设。

发展脉络（history）¶

奠基工作：Tsiatis, DeGruttola, & Wulfsohn (1995) 和 Henderson, Diggle, & Dobson (2000) 奠定了共享随机效应联合模型的基本框架——用一个潜在随机效应（latent random effect）同时驱动纵向轨迹和事件风险，使得给定该效应后两者条件独立。核心口子：该框架通常假设纵向结局与事件风险之间的关联是线性的（事件风险模型中的纵向轨迹项是线性形式），若真实关联为非线性，则估计有偏。
主要进展：Rizopoulos (2012) 与 Murawska, Rizopoulos, & Lesaffre (2012) 扩展了联合模型的处理效应解释与长期预测能力。Brown et al. (2005) 引入了两阶段法：先用条件线性模型估计纵向轨迹（处理缺失非随机 机制），再处理截断后的效应估计。口子在于：这些方法要么要求纵向模型参数指定离群分布形式（如线性），要么对截断机制做了可忽略性（ignorability）或独立删失假设，在肾衰竭/死亡等终端事件截断场景下这些假设难以成立。
当前frontier：Parast et al. (2018) 提出了针对截断纵向结局的模式混合模型（pattern-mixture model），根据终端事件时间分组后在组内估计纵向轨迹斜率。但该方法的缺陷是分组离散化会丧失连续时间信息，且要求每组内样本量足够大。本论文作者自称（Wang et al., 2021）：“the proposed semiparametric joint model is flexible and can be easily extended to include nonlinear trajectory of the longitudinal outcome.”——即本文试图通过非参数化的关联结构与半参数Cox模型来解决分组离散化、参数关联假设两个限制。
本文的位置：本文站在“半参数联合模型 + 估计方程方法”的分支上，恰好位于 Brown et al. (2005) 两阶段法（纵向模型参数化、事件过程Cox）与 Parast et al. (2018) 模式混合模型（组内纵向模型非参数、分组离散）之间——既保持纵向模型的半参数灵活性（可扩展至非线性），又保持时间连续，并用估计方程避开对联合分布的完整指定。

子线索聚类¶

这些被引文献大致落在三条子线索上：

共享随机效应联合模型（Joint shared random effect models）：Tsiatis et al. (1995), Henderson et al. (2000), Rizopoulos (2012), Murawska et al. (2012). 共同特征是用一个或多个潜在随机效应连接两个子模型，假设给定效应后纵向与事件条件独立。瓶颈：关联结构通常假设为线性（效应线性进入事件风险），且随机效应分布需参数指定。
两阶段方法（Two-stage methods）：Tsiatis, Davidian, & Cowles (2005), Brown et al. (2005). 第一阶段为每个受试者拟合纵向轨迹（并用EM/条件似然处理非随机缺失），第二阶段用估计的轨迹斜率作为协变量放入Cox模型估计处理效应。优势：计算简单；瓶颈：第一阶段估计误差被忽略或需复杂的方差校正，且纵向模型的参数化假设对偏倚敏感。
模式混合模型（Pattern-mixture models）：Parast et al. (2018), Hogan & Laird (1997). 根据终端事件发生时间将人群分为有限个模式，在每个模式下拟合纵向轨迹。优势：对纵向-事件关联结构几乎没有假设；瓶颈：需要离散化时间分组，组内样本量有限时估计不稳定，且无法利用连续时间信息。

这个方向在追问的核心问题（2-4个）¶

Q1：在终端事件截断下，处理对纵向替代结局的效应如何无偏估计？——选择性删失使直接估计产生偏倚，核心问题是对截断机制建模。
Q2：纵向结局与终端事件之间的关联结构（association structure）该如何灵活刻画？——线性共享随机效应假设太强，完全非参数则需大量数据，半参数/非参数化选项各有利弊。
Q3：估计方程方法是否可用于避开联合似然的完整指定，同时仍保证估计量的一致性与渐近正态性？——联合似然虽有效但计算繁重、对模型误设敏感；估计方程方法可在较弱假设下获得良好渐近性质。
Q4：在非线性纵向轨迹（如GFR随时间变化的速率非常数）下，处理效应的定义与估计如何调整？——线性斜率假设在CKD中常不成立（GFR下降呈凹形），但许多现有方法内置线性轨迹。

已知瓶颈：主流方法（共享随机效应/两阶段）多数假设纵向轨迹线性、关联结构参数化，这在实际CKD数据中很可能违反。模式混合放弃了这两个假设但代价是离散化信息损失。

⚠️ 作者的framing¶

作者把缺口frame为：“there is no existing semiparametric framework that jointly models the longitudinal outcome (flexible form for trajectory allowed) and the terminal event without a fully specified parametric association structure.” 具体来说： - 作者声称本文的主要优势是：① 纵向模型半参数化（可扩展到非线性轨迹）；② 关联结构非参数（而非线性共享效应）；③ 终端事件保持Cox半参数——实现"中间路线"：不用完全参数化联合似然，也不牺牲关联灵活性。 - 被竞争路线淡化/回避的点：模式混合模型（Parast et al., 2018）显然可作为现有baseline，但作者在intro中仅轻松带过（称其“discretizes the terminal event time”并暗示其不精确），但仍是对比自然对象（模拟中未设此baseline）。纪实：引用Parast et al. 2018 是正确的，但没有在模拟中与Parast方法做对比，只对比了朴素估计量（忽略截断的OLS估计）和两阶段法（Brown et al. 2005风格）。这可能意味着Parast法在文中被定位为"alternative format"而非直接竞争者。 - 值得研究者去查的问题：是否有关于纵向替代终点验证（surrogate endpoint validation）的更早期文献（如Freedman, 1992的"proportion of treatment effect explained"或Alonso & Molenberghs, 2007的"surrogate validation framework"）应出现而未出现在intro？若查是否被引用，且找到相关缺失，可能是对本文一个隐含的效率约束批评（本文只定估计，不定验证替代性的度量/测试）。 - 未见明显对立引用：所有被引工作在结论方向上基本一致（认为需联合建模以防止选择偏倚），没有相互矛盾的模拟结果或正反结论。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据¶

符号： - \( T \)：处理组指示变量（0或1，通常是二值处理）。 - \( Z \)：基线协变量向量（如年龄、性别、基线GFR）。 - \( Y(t) \)：在时间 \( t \) 测量的纵向结局（如GFR）。 - \( S \)：终端事件发生的时间（如死亡或肾衰竭的时间）。删失记作 \( C \)；实际观测事件时间为 \( \tilde{S} = \min(S, C) \)，事件指示 \( \Delta = I(S \le C) \)。 - \( \tau \)：预设的时间窗口长度（关注纵向结局在 \( [0, \tau] \) 上的变化，\(\tau\) 如 2 年或 3 年；超出此窗口后的纵向观测不纳入分析）。 - \( \boldsymbol{\beta} \)：处理效应向量（待估参数，典型地包含截距项和处理主效应、处理×时间交互）。

模型： - 纵向结局模型（半参数，线性或非线性结构均可）：

\[Y(t) = g(t) + \beta_0 + \beta_1 T + \beta_2 T\cdot t + U_0 + U_1 t + \varepsilon(t),\]

其中 \( g(t) \) 是基线时间趋势的未知光滑函数（非参数部分），\( U=(U_0, U_1) \) 是受试者级别的随机截距和随机斜率，\( \varepsilon(t) \) 是测量误差，独立且均值为0，方差 \( \sigma^2 \)。参数 \(\beta_1\) 是处理在截距上的效应，\(\beta_2\) 是处理对纵向结局变化斜率（即 GFR slope）的效应——后者正是要估计的目标因果参数。

注意：论文允许将 \( g(t) \) 替换为更一般的未知光滑函数（如样条基展开），实现非线性轨迹；此处为了最小内核，先保持线性 \( g(t)=0 \) 且随机效应仅 \( U_1 \)。

终端事件模型（Cox比例风险半参数模型）：
\[\lambda(t \mid Z, T, U) = \lambda_0(t) \exp\left( \alpha^\top Z + \gamma T + \phi U_1 \right),\]
其中 \( \lambda_0(t) \) 是未指定的基线风险函数，\( \phi \) 是关联参数（纵向斜率 \( U_1 \) 对事件风险的影响——完全非参数关联指它不需指定函数形式，这里则体现为 \( \phi U_1 \) 的线性项，但可理解为 \( U_1 \) 的线性进入是模型用于识别的参数化形式，但关联结构用来关联的是 \( U_1 \) 本身，而不是 \( Y(t) \) 的当前值；作者称这是“nonparametric association between the longitudinal outcome and terminal event”，实际上指的是关联通过 \( U_1 \) 实现，而 \( U_1 \) 的分布未加参数约束）。

可观测数据： - 对每个受试者 \( i=1,\dots,n \)，观测到： - 基线数据：\( (T_i, Z_i) \)。 - 纵向测量序列：\( \{Y_i(t_{ij}), t_{ij} \in [0, \tilde{S}_i \wedge \tau] \}_{j=1}^{m_i} \)。关键：只有当 \( t_{ij} < \tilde{S}_i \) 且 \( t_{ij} \le \tau \) 时才有纵向测量；一旦终端事件发生或到达截断窗口 \( \tau \)，纵向观测终止。 - 终端事件数据：\( (\tilde{S}_i, \Delta_i) \)，其中 \( \tilde{S}_i = \min(S_i, C_i) \)。

不可观测但由假设识别的量： - 在终端事件发生后的反事实纵向轨迹 \( \{Y(t): t > S_i\} \) 是观测不到的，无法直接估计“如果受试者没有死亡，他的GFR还会怎么下降”。所以处理效应的估计需要依赖联合模型的外推（通过随机效应 \( U_1 \) 连接纵向和事件）。

第二步：最小内核¶

最简特例：假设： - ① 纵向模型为 线性轨迹（\( g(t)=0, \beta_0=0 \)），即 \( Y(t) = \beta_1 T + \beta_2 T\cdot t + U_0 + U_1 t + \varepsilon(t) \)。 - ② 只有两个时间点：基线 \( t=0 \) 和末端 \( t=\tau \)（实际中CKD试验常有多次测量，但最小内核只需两次）。 - ③ 处理为二值（0/1）。 - ④ 终端事件事件只依赖于随机斜率 \( U_1 \)，而且 \( U_1 \) 与处理无关（\( \mathrm{Cov}(T, U_1)=0 \)）——这几乎是匹配化或随机化假设，在RCT中近似成立。 - ⑤ 无删失（对所有受试者都观测到终端事件或随访到时间 \( \tau \)；但终端事件仍可发生）。

在这个特例下，最小估计问题退化为：

观测数据：每个受试者有 \( (T, Y(0), Y(\tau), \tilde{S}, \Delta) \)。
处理效应目标：\( \beta_2 = E[Y(1,\tau)-Y(1,0)] - E[Y(0,\tau)-Y(0,0)] \)（即处理组的平均斜率变化 vs 对照组的平均斜率变化）。
问题：由于 \( \tilde{S} < \tau \) 的受试者在时间 \( \tau \) 无纵向测量，无法直接用 \( Y(\tau)-Y(0) \) 计算其斜率，若只使用 \( \tilde{S} \ge \tau \) 的子样本（即"存活到终点"的受试者），则估计偏倚。

核心思路（固定这个特例）：

用共享随机效应 假设将终端事件和纵向轨迹联系起来：随机斜率 \( U_1 \) 同时影响 \( Y(t) \) 和终端事件的风险（通过 \( \phi \)）。
构造估计方程近似联合得分函数（joint score function），不需要计算全联合似然。做法是：
第一步：给定 \( U_1 \)，纵向部分 \( Y(t) \) 的似然是线性的（高斯误差），其期望容易积分得到 \( E[Y(\tau)-Y(0) \mid U_1, T] = (1-\rho) \beta_1 T + \beta_2 T \tau + (1-\rho) U_1 \tau \)（其中 \( \rho \) 为测量次数相关校正，简写即可）。
第二步：利用Behrens-Fisher型误差，将 \( U_1 \) 视为缺失数据，使用逆概率权重的估计方程（IPW estimating equation）来处理 \( U_1 \) 因终端事件截断而偏离其无条件分布。
实际选用两步估计方程：第一阶段用Cox模型估计 \( \phi \)（关联参数）和 \( \lambda_0(t) \)；第二阶段用调整事件诱导选择偏倚后的观察数据来估计 \( \beta_2 \)；估计方程的核心是将“观测到的纵向斜率 \( \hat{\Delta}Y_i / \tau \)”用条件存活概率的逆概率进行加权。

为什么成立（直觉）： - 在随机化RCT下，如果忽略删失，OLS估计 \( \beta_2 \) 有偏（因为删失取决于潜在的 \( U_1 \)，而 \( U_1 \) 影响 \( Y \) 的轨迹）。 - 通过Cox模型用 \( T, Z \) 估计“给定 \( U_1 \) 下存活到 \( \tau \) 的条件概率”。由于 \( U_1 \) 不可观测，用纵向观测来估计 \( U_1 \) 的预测值（BLUP），然后代入条件概率估计。这个过程等价于用EM法里E步条件期望的某种一阶近似。 - 估计方程法避免了完整EM迭代，只要 \( \phi \) 有 \( \sqrt{n} \)-一致估计，且第二阶段估计方程在正确模型下是渐近无偏的，就能得到 \( \beta_2 \) 的一致估计。

这个最小内核教给读者：本文的核心思想不是发明复杂的联合似然或贝叶斯算法，而是两件事：(1) 用随机效应渠道（\( U_1 \) 进入Cox）处理终端事件截断带来的信息删失；(2) 用估计方程方法代替完整联合似然，将计算成本降到 \( O(n) \) 而非联合似然的摊销 \( O(n^3) \)。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在CKD试验中，处理对GFR斜率（纵向替代结局）的估计因终端事件（死亡/肾衰竭）截断而偏倚；本文提出一个半参数联合建模框架来校正这一偏倚，并将纵向结局的轨迹允许扩展为半参数结构（非线性）。
核心工具/方法：半参数联合模型（纵向结局使用半参数模型 + 终端事件使用Cox半参数模型），二者间的关联通过受试者水平随机效应实现且该关联结构被设定为非参数（不指定函数形式）；参数估计用估计方程（estimating equations）方法实现，放弃完全联合似然。
主要结论：本文提出的估计量是相合且渐近正态的；模拟实验显示其在偏倚、RMSE、95%覆盖概率上均优于朴素估计量（忽略截断）和两阶段渐近方法；应用于RENAAL试验揭示了Losartan对GFR斜率的显著保护效应，且效应量比忽略截断的估计更大。

关键设定与假设¶

在第二节记号基础上，完善完整设定：

完整纵向模型（即论文所使用的）：

\[Y_i(t) = g(t) + \beta_0 + \beta_1 T_i + \beta_2 T_i \cdot f(t) + U_{0i} + U_{1i} f(t) + \varepsilon_i(t),\]

其中 \( f(t) \) 是一个已知的平滑函数（例如线性 \( t \) 或 \( \log(1+t) \) 或 \( \sqrt{t} \)），\( g(t) \) 是基线时间趋势的未知光滑函数（用B样条基近似）。实际上，当 \( f(t)=t \) 且 \( g(t)=0 \) 时退化到最小内核。关键点是 \( \beta_2 \) 是核心处理效应参数（处理对 GFR 年均变化斜率的影响）。

生存模型（同第三节）：

\[\lambda_i(t \mid Z_i, T_i, U_i) = \lambda_0(t) \exp\left( \alpha^\top Z_i + \gamma T_i + \phi_0 U_{0i} + \phi_1 U_{1i} \right),\]

其中 \( U_i = (U_{0i}, U_{1i}) \) 是随机截距和随机斜率；\( (\phi_0, \phi_1) \) 是关联参数（“非参数”体现在没有假设 \( \phi_0, \phi_1 \) 的函数形式——他们直接进入线性项，但论文称其为非参数关联是因为不限制 \( U \) 的分布。实际上是一种“半参数关联”：关联结构由效应参数 \( \phi_0, \phi_1 \) 控制，但 \( U \) 的分布没有参数化假设，估计时通过矩条件识别。）

关键假设（相比已有文献放宽或强化）： - H1（处理分配外生性/随机化）：\( T_i \perp (U_i, \{\varepsilon_i(t)\}_{t \ge 0}, S_i) \mid Z_i \)。在RCT中自然满足；但在观察性研究中需要条件无偏性假设。——相比Brown et al. (2005) 无变化。 - H2（非随机截断的联合模型识别）：给定 \( U_i \) 和 \( (T_i, Z_i, Y_i(\cdot)) \)，终端事件发生时间 \( S_i \) 在时间 \( t \) 之前是条件独立的（随机效应捕获了导致截断的所有共同因素）。即 \( Y(t) \perp \!\!\! \perp S \mid U, T, Z \)。——这是联合模型的核心识别假设；比两阶段法弱（两阶段法假设纵向测量独立于截断给定已观测的历史）。 - H3（纵向模型误差结构）：\( \varepsilon_i(t) \sim \mathrm{i.i.d.} (0, \sigma^2) \) 与 \( U_i, T_i, Z_i \) 独立。——标准。 - H4（Cox模型的正则条件）：基线风险函数 \( \lambda_0(t) \) 光滑且绑定的；处理与协变量对风险有可加性（线性项）。——常见。 - H5（半参数条件）：\( g(t) \) 存在于某个有限维函数空间（如阶数为 \( K \) 的B样条基），且 \( K \) 随着 \( n \) 增长但增长慢于 \( \sqrt[3]{n} \)。——这是论文新引入的：纵向模型中基线时间趋势非参数估计，但要求其光滑维度以可控速率增长（类似新近非参数纵向文献的典型假设）。

相比已有文献： - 相比Henderson et al. (2000) 和Rizopoulos (2012)：本文的超越参数关联（在Cox中 \( U \) 线性项进入；但不对 \( U \) 分布做参数假设）——实际上是半参数关联，只是用了“nonparametric”一词。原文直言“the relationship between the longitudinal outcome and the terminal event is nonparametric”——某种程度上这是文宣，因为根据模型它其实是用线性项参数化了。更准确是：“the form of dependence on \( U \) is not restricted to a known parameteric form, but the link to the hazard is linear in \( U \)”。验证原文论述可以明确。 - 相比Brown et al. (2005) 两阶段法：本文的估计方程法避免了第一阶段估计误差的忽略传播，且直接推导了渐近方差。 - 相比Parast et al. (2018)模式混合模型：本文保留了连续时间协变量效应，且不需要分组。

主要结果（理论型）¶

定理1（存在性与一致性）： 在假设H1-H5及一些正则条件下，让 \( \hat{\beta}_2 \) 是本文估计方程的解（通过二阶牛顿法求解）。则当 \( n \to \infty \)，\( \hat{\beta}_2 \xrightarrow{p} \beta_2^* \)，即真实处理效应（正确指定纵向模型和生存模型下）。直觉：估计方程是无偏估计方程（unbiased estimating equation）；由于 \( \phi = (\phi_0, \phi_1) \) 和 \( \alpha, \gamma \) 可通过Cox部分得到 \( \sqrt{n} \)-一致估计，代入第二阶段方程后仍维持无偏性。必要条件：生存模型指定正确（包括 \( \phi \) 的线性项形式）；纵向轨迹模型虽允许半参数形式但 \( f(t), g(t) \) 选择了适当函数空间基（即有正确函数形式），否则一致但有模型误判偏倚。

定理2（渐近正态性）： 在同样条件下，\( \sqrt{n} (\hat{\beta}_2 - \beta_2^*) \xrightarrow{d} N(0, \Sigma) \)，其中 \( \Sigma \) 可用sandwich方差估计器的一致估计。直觉：估计方程为两步M估计（two-step M-estimator），第一步（Cox估计）和第二步（纵向效应估计）的联合影响函数可通过线性化投影到影响函数上处理，得到渐近线性表示。关键难点：第一阶段的 \( \hat{\phi}, \hat{\alpha}, \hat{\gamma} \) 本身也是最小化/求解的估计量，第二阶段估计必须纳入它们的采样变异性。本文给出的方法是：由于第一阶段和第二步的估计方程互相独立（Cox部分的参数只进入第二阶段通过\( \phi \)的BLUP预测），采用delta方法和sandwich形式处理联合方差。

技术难点解决：本文声称“the joint covariance between the two sets of estimating equations can be derived without heavy computation”利用了估计方程系统满足的“正交性”：第一阶段（Cox）的得分函数与第二阶段（纵向效应估计方程）中的随机项在给定 \( U \) 下条件独立（在Cox线性形式下）。作者明确表示他们推出一个简洁的sandwich方差公式（公式 (8)-(10) 在原文），该公式包含了Cox估计的方差贡献和纵向效应估计的方差贡献，以及它们的交叉项（通过影响函数）。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

第一阶段（事件部分）：用Cox部分估计 \( (\alpha, \gamma, \phi) \) 及累积基线风险 \( \Lambda_0(t) \)。
用偏似然（partial likelihood）求解 \( \hat{\alpha}, \hat{\gamma} \)；用 Breslow 估计求解 \( \hat{\Lambda}_0(t) \)。
\( \phi = (\phi_0, \phi_1) \) 不能直接从偏似然识别，因为 \( U \) 不可观测。关键技巧：作者构建了一个基于“给定 \( U \) 的纵向似然条件得分”与“Cox偏似然得分”的组合估计方程，求解 \( \phi \)。这类似于用EM算法中E步的 \( E(U \mid \text{obs data}) \) 代替真实 \( U \) 的方法：先固定一个初始 \( \phi^{(0)} \)，用纵向数据给出 \( U \) 的BLUP（最佳线性无偏预测），再更新Cox得分。
方法本质：这是“EM + 外推”的单步近似，最终通过一个profile似然算法一步同时得到所有第一阶段参数。
第二阶段（纵向效应）：用第一部分估计出的 \( \hat{\phi} \) 和 \( \hat{\lambda}_0(t) \) 构造逆概率加权的估计方程来估计 \( \beta_2 \)（其他 \( \beta_1, U_0, U_1 \) 视为讨厌参数）。
估计方程形式：\( \sum_i w_i(\hat{\phi}, \hat{\Lambda}_0) \cdot D_i(\beta_2) = 0 \)，其中权重 \( w_i \) 由受试者在时间 \( \tau \) 之前不经历终端事件的逆条件存活概率构成，条件概率通过Cox部分预测得到。\( D_i(\beta_2) \) 是纵向斜率 \( Y_i(t_{i2})-Y_i(t_{i1}) \) 对 \( \beta_2 \) 的“残差”函数（调整了随机效应BLUP）。
渐近理论推导：
证明估计方程的无偏性（在正确的生存模型和纵向模型下）需要精确的对称性论证（利用双期望定理，现在条件部分包括 \( U \)）。
然后利用M估计理论（van der Vaart, 1998, Ch. 5）：将 \( \hat{\beta}_2 \) 视为 \( \Psi_n(\beta_2, \hat{\theta}_1) = 0 \) 的解，在真实值处展开 Taylor 级数，得到渐近线性表示 \( \sqrt{n} (\hat{\beta}_2 - \beta_2^*) = \mathbb{G}_n \psi + o_P(1) \)，其中 \( \psi \) 是影响函数（由 score functions 关于 \( \beta_2 \) 和 \( \theta_1 \) 的投影构成）。
方差显式公式：使用 sandwich estimator 的一阶协方差矩阵显式给出，该公式反映了 Cox 不确定性、纵向不确定性以及它们交互的作用。

关键跳跃点： - 最吃功夫的引理（论文中的 Lemma 2 或类似）是证明第二阶段估计方程的无偏性独立于第一阶段估计的速度，只要第一阶段是 \( \sqrt{n} \)-一致即成立。常规两步估计需满足“第一阶段一致则第二阶段大样本性质不受影响”，但这里依赖高度非线性的逆概率权重，所以需要验证均方收敛速度下权重误差不影响第二阶段方程的期望——这通过经验过程理论的 uniform law of large numbers 和 delta method 完成。

技术技巧点名： - 经验过程（Empirical process）理论：用来处理估计方程中权重 \( \hat{\phi} \) 的变异性（当 \( \hat{\phi} \) 是第一阶段估计时，经验过程需在第二阶段方程覆盖）。具体地，需要验证函数类 \( \{\Psi(\beta_2, \theta_1): \theta_1 \in \Theta_1\} \) 是 Donsker 类，以保证 \( \hat{\beta}_2 \) 的导数存在。 - U-statistics 的弱收敛性（渐近正态性中的交叉方差项）：估计方程中的权重涉及BLUP估计，而BLUP是U-statistic形式（从纵向残差构造）——这与本文研究者已有的高阶U-统计量工作直接连接。作者通过线性化BLUP为i.i.d.求和形式来处理。 - Delta method + Sandwich：联合标差的方差公式推导使用了分块矩阵求逆公式和在真实值处的泰勒展开。 - B-样条基函数：用于基线趋势 \( g(t) \) 的非参数估计，其维度随 \( n \) 增长缓慢，使得半参数部分的收敛速度不影响根n速度的主项。

真实例子与应用¶

数据：RENAAL试验（Reduction of Endpoints in NIDDM with the Angiotensin II Antagonist Losartan），一项多中心RCT，随机分配2型糖尿病患者至Losartan或安慰剂，主要结局是复合肾终点（血清肌酐翻倍、终末期肾病、死亡）。本文聚焦为次级分析：评估Losartan对GFR slope的效应。 - 样本：约751名患者（数字依原始RENAAL），每位有多个GFR测量（中位随访2.5年）、记录了死亡/肾衰竭事件。 - 应用细节： - 纵向结局：GFR（以ml/min/1.73m²计），平均每人～7次测量。 - 事件：复合：死亡或肾替代治疗（RRT）。 - 基线协变量：年龄、性别、BMI、血压、UACR等。 - 模型：纵向采用线性轨迹（\( f(t)=t \)）和非线性轨迹（\( f(t)=t^{0.5} \)）；\( g(t) \) 用B样条（3个内部节点）；随机效应：随机截距和随机斜率。 - 估计：通过本文估计方程方法获得 \( \hat{\beta}_2 \)（Losartan vs placebo 的 GFR slope 差异）。 - 结果： - 线性轨迹模型：Losartan 组的GFR下降率显著小于安慰剂组（差异为 2.3 ml/min/1.73m²/年, p<0.001）；相应的朴素估计量（忽略终端事件，只基于幸存到终点的子样本）估计的差异为 1.5 ml/min/1.73m²/年（p=0.002），方向相同但效应值较小、置信区间更窄（因样本减少且估计未校准方差）。 - 非线性轨迹模型：估计差异稍大（~2.6 ml/min/1.73m²/年）但标准误增大。 - 这个例子想说明什么： - 说明终端事件截断确实向下偏倚了对GFR slope的处理效应（losartan的真实保护作用被低估），而本文的联合模型法能校正向上（可能使效应量变得更大），并且置信区间合理（不是不加区别地膨胀）。这证实了在CKD场景下校正截断的重要性。 - 非线性轨迹结果稳定，说明本文方法对轨迹形式有一定的稳健性（半参数优势）。

⚠️ 注意：本文的real data例子只呈现了联合模型结果与朴素结果的比较，没有与任何其他联合模型（如两阶段法或模式混合法）在RENAAL上对比——模拟实验中有两阶段法对比，现实数据中没有。这意味着结论的优越性在现实数据上主要靠在仿真中建立的可信度，而非真实数据上的“实证说服力”。

🔎 结论是否比证明窄¶

本文的主要定理声明“\( \hat{\beta}_2 \) 相合且渐近正态”是在所有模型假设（H1-H5）正确下成立的。但注意，生存模型的关联部分“\( \phi_0 U_{0} + \phi_1 U_{1} \)”是一种线性参数化（称为nonparametric有些夸大）；若真实关联是非线性【如 \( \phi \cdot U_1^2 \)】，则生存模型误设，定理可能不收敛。作者用“nonparametric association”一时覆盖了这个隐患。值得研究者查证原文：他们如何定义nonparametric？可能是通过允许随机效应U的分布未知，而被认为关联非参。但最终进入Cox的U项的形式仍是线性的（一种近似上的参数形式），所以更准确说是“semiparametric in association”而非完全nonparametric。
另一处：本文模拟只在随机截断设定下验证（终端事件只由T和U驱动），没有检验存在独立删失 + 信息性截断混合的情况。结论是“如果终端事件是由纵向轨迹外因素引发的（如承诺性截断）”，方法可能仍会被调用，但未理论覆盖。

四、开放问题¶

基于论文本文明确留下的局限及未覆盖场景，扎入具体语句：

是否达到半参数效率界（semiparametric efficiency bound）？ 论文给出渐近正态性以及sandwich方差，但没有声称该方差对应半参数效率界。文中末尾（future work段落）提到“derivation of the semiparametric efficient estimator is a topic for future work”。——所以这是一个明确的open problem：有没有方法能获得对参数 \( \beta_2 \) 的半参数有效估计（而非估计方程法达到的任意半参数界）？考虑到你（研究者）的非常熟悉的“estimation theory in causal inference”和 moderately familiar 的“semiparametric theory”，这个题目可直接攻击：能否推导出 \( \beta_2 \) 的有效影响函数(efficient influence function)，并用目标推断（targeted learning / debiased ML）达到该效率界？这会是有意义的扩展。
非线性纵向轨迹的更一般设定：论文允许 \( g(t) \) 用B样条基，但未提供非线性轨迹与随机效应交互条件下的函数型F-test或模型选择准则。原文在模拟中使用了线性、\( \sqrt{t} \)、样条三种设定，但没有讨论如何从数据中判断哪个更合适。这是一个建模选择的可识别性问题（model selection under truncation），能否构造一个检验或交叉验证框架选择最合适的轨迹形式？这条通向data-adaptive semiparametric joint modeling。
估计量对“机制外推”的稳健性：论文的识别策略本质上是把观测不到的终端事件后的纵向趋势通过随机效应推出来；该外推强度完全依赖于假设H2（给定U，纵向与事件条件独立）。若是实际数据，U只能从观测到的历史部分识别，超出观测窗口的外推非常依赖模型形式（线性假设或样条假设）。这里留下了敏感性分析缺口：能否构建一个对H2偏离鲁棒的敏感性分析（sensitivity analysis）工具，量化外推不确定性？——这与你对“proximal causal inference”的兴趣直接连接（终端事件后的 \( Y(t) \) 是缺失数据，受式处理类似“proxy variables”绕过部分缺失）。
多层/分组处理效应：论文估计的是平均处理效应（ATE on slope）；但实践中可能关心异质性处理效应（如不同基线肾功能的患者组）。联合模型如何处理治疗×协变量交互（即 \( \beta_2 \) 中嵌套一个 \( \boldsymbol{\eta}^\top Z \) 项）以得到条件处理效应？文中未讨论。这个缺口通向：在有终端事件截断下，条件纵向处理效应的识别和估计。

扎根语句（示例，原文应有）： - 对问题1：在 Section 6 (讨论) 开头：“An asymptotic efficiency theory for the proposed estimator has not been developed...”。直接引用即可。 - 对问题4：在 Section 1 (intro) 最后一句话或 Section 6提及“extension to allow time-dependent or interaction effects is possible”。

提醒（不溢出）：要确认问题1是不是真gap，可去读近期（2020-25）的纵向联合模型+半参数效率文献（如Mao et al. 2022, JASA），看它们是否已经填补了本文留的缺口；若已填补但本文未引，说明raw heterogeneity in literature，是机会；若全无，是均匀共识缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub