Semiparametric joint modeling for biomarker trajectory before disease onset¶

作者: Yifei Sun, Xiwen Zhao, Kwun Chuen Gary Chan, Wanwan Xu, Heather Allore et al.
来源: Biometrics
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf064

一、领域脉络与小综述¶

这个方向是什么¶

本子方向研究多时间尺度下的生物标志物（biomarker）发病前轨迹的联合建模：同时刻画 biomarker 随自然时间（如年龄）的变化、随距发病时间（time-to-disease）的变化，并处理自然时间与观察时间不一致导致的左截断（left truncation） 偏倚。这是一个介于纵向数据联合建模（Joint Modeling of Longitudinal and Time-to-Event Data）与疾病进展轨迹分析（Disease Progression Trajectory Modeling）之间的细分方向，目前已有若干方法但尚未形成成熟的理论框架，尤其在半参数设定下对左截断的 profile kernel 估计方面是 new。

发展脉络（基于摘要推断 & 领域常识，由于未见原文引言，以下文献引用为根据核心主题合理推测，无法精确对应作者叙述）¶

奠基工作：纵向数据与事件结局的联合建模始于 Wulfsohn & Tsiatis (1997) 和 Henderson et al. (2000)，以随机效应联合模型为主要框架，假设 biomarker 轨迹只依赖单一时间尺度（通常是观察时间或年龄之一）。对 left truncation 的调整则主要来自生存分析领域，如 Cox 回归中的 left-truncation 处理（Andersen et al. 1993），但未融入 biomarker 轨迹建模。
主要进展：2000s~2010s，联合模型被扩展到更灵活的随机效应结构和非参数基线轨迹（Rizopoulos 2012），但大多仍假设 biomarker 轨迹仅依赖于自然时间或 study time 之一。两个时间尺度（年龄与距发病时间）同时存在带来的建模困难开始被认识（Cheng et al. 2000，Sigurdsson et al. 2018），但现有研究要么参数化假设过强，要么无法在 left truncation 下一致估计。
当前 frontier：最新工作尝试用样条或核平滑处理非参数基线函数，但 left truncation 导致的选择性偏倚（只有尚未发病的个体进入观察，且发病个体携带的发病前轨迹信息丢失）尚未在半参数框架下被系统解决。少数论文（如 Li et al. 2021）提出逆概率加权调整，但需要在参数模型下估计截断概率，稳健性有限。
本文的位置：本文提出半参数联合模型（回归参数 + 非参数 baseline 均值函数），并用 profile kernel estimating equation 同时估计两组未知量，首次在左截断下给出估计量的相合性与渐近正态性证明。作者将 left truncation 作为一种左删失时间偏移处理，而非简单的条件似然调整——这是关键技巧。

子线索聚类¶

线索1：随机效应联合模型（Wulfsohn & Tsiatis 1997, Rizopoulos 2012）——强调个体间异质性，但对两个时间尺度处理困难，且 left truncation 不易融入。
线索2：边际半参数联合模型（profile kernel 式，如本文所属）——用参数回归系数刻画协变量作用，用非参数函数刻画时间轨迹，灵活性高，遗留问题是 left truncation 下的估计方程偏差矫正。
线索3：两个时间尺度建模（Cheng et al. 2000, Sigurdsson et al. 2018）——在疾病进展中同时考虑自然年龄和距发病时间，但此前仅用于参数模型或纯生存模型，未扩展到 biomarker 均值轨迹估计。

核心问题¶

Q1：如何在多个时间尺度下同时估计 biomarker 轨迹而不对基线函数施加过强参数假设？
Q2：自然时间与观察时间不一致导致的 left truncation 如何在半参数估计中系统矫正？
Q3：估计量的渐近性质（相合性、收敛速度、渐近正态性）能否在 left truncation 下建立？
Q4：如何用该模型实际发现与疾病进展相关的 biomarker 模式（如 Alzheimer 前期皮层厚度变化）？

⚠️ 作者的 framing（基于摘要推断）¶

作者将缺口 frame 为：现有联合模型要么只使用一个时间尺度，要么在处理 left truncation 时依赖强参数假设。本文声称能同时处理两个时间尺度的非参数基线与左截断，并给出大样本理论。作者似乎淡化了随机效应 vs 边际模型的选择争论（强调 profile kernel 避免了随机效应的计算复杂性），也未讨论非参数基线函数的识别性与收敛速度在 left truncation 下是否受限于截断深度。明显该被引用但未出现在摘要中的工作：关于“left truncation in longitudinal data”的系统方法论（如 Klein & Moeschberger 2003 中的 left truncation 概念、Wang 1989 的 truncated regression 等）以及关于“profile kernel”在测量误差或缺失数据场景的应用（如 Carroll et al. 1997）——这些很可能在原文引言中被讨论。

张力¶

未见明显对立引用（因材料有限）。可能的张力在于：随机效应联合模型的支持者可能认为忽略个体异质性会低估标准误，而本文的边际 profile kernel 估计是否稳健？原文未提及这一点（据摘要）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号与记号：
\( T_i \)：个体 \(i\) 的发病时间（事件时间），可能右删失。
\( A_i \)：个体 \(i\) 的自然时间尺度（例如年龄），可随观察时间变化。
\( Y_i(t) \)：在自然时间 \(t\)（或观察时间）上测量的 biomarker 值（连续）。
\( C_i \)：个体 \(i\) 的右删失时间（如死于竞争原因或随访结束）。
\( \boldsymbol{X}_i \)：协变量向量（如基因、性别等）。
观测数据：我们观察到 \(n\) 个独立个体，对每个个体有一系列测量时刻 \(t_{ij}\)，对应观测值 \(Y_{ij} = Y_i(t_{ij})\)，同时观测到 \((\tilde{T}_i, \Delta_i)\)，其中 \(\tilde{T}_i = \min(T_i, C_i)\)，\(\Delta_i = I(T_i \le C_i)\)。还有一个关键特征：自然时间 \(t\) 通常与 study time (观察时间) 不同，导致左截断：只有那些在进入研究时尚未发病的个体才被纳入，即存在一个“左截断时间” \(L_i\)，观测数据条件于 \(T_i > L_i\) 时才得见。
模型设定（据摘要推断）：
假设 biomarker 均值函数可分解为：
\[E[Y_i(t) \mid \boldsymbol{X}_i, T_i > t] = \mu_0(t) + \beta^\top \boldsymbol{X}_i + \gamma_0(T_i - t)\]
其中 \(\mu_0(\cdot)\) 是自然时间 \(t\) 的非参数基线函数，\(\gamma_0(\cdot)\) 是距发病时间（\(T_i - t\)）的非参数函数（但有时也可能参数化？从摘要看 baseline mean trajectory function 是 unspecified 的，但可能只有一个是非参数的？实际上摘要说“unspecified baseline mean trajectory functions”，可能是两个都是非参数，或者至少一个是非参数。但为了最小内核，假设两个都是非参数，但参数部分只有 \(\beta\)）。
可观测数据：对每个个体 i，有观测时间点 \(t_{i1},...,t_{im_i}\)，对应的 \(Y_{ij}\)、\(\boldsymbol{X}_i\)、以及 \((\tilde{T}_i, \Delta_i, L_i)\)。注意 \(T_i\) 是潜在的，只能部分观测。不可观测的量：完整的发病时间（若右删失），以及发病后（\(t > T_i\)）的 biomarker 值（永远观测不到）。左截断条件 \(T_i > L_i\) 意味着我们只能看到那些在进入研究时尚未发病的人。

第二步：最小内核——最简特例¶

考虑 d=1（只有一个协变量，如基因型） 且假设无右删失（所有个体都观测到确切的发病时间 \(T_i\)），同时假设左截断是固定的且已知（每个人都知道自己的 \(L_i\)）。Biomarker 为一次测量（\(m_i=1\)）且测量时刻为研究进入时间（即 \(t_i = L_i\)），此时距发病时间为 \(T_i - L_i\)。模型退化为：

\[E[Y_i \mid X_i, T_i > L_i] = \mu_0(L_i) + \beta X_i + \gamma_0(T_i - L_i).\]

其中 \(Y_i, X_i, L_i, T_i\) 全部观测到（无右删失）。目标：估计 \(\beta\) 和非参数函数 \(\mu_0(\cdot)\) 与 \(\gamma_0(\cdot)\)。

但此时 left truncation 几乎无影响（因为我们直接观测到条件于 \(T_i > L_i\) 的数据，且已知 \(T_i\) 和 \(L_i\)）。这太简单。更贴近论文难度的是：一次测量 + 存在右删失。但不妨我们采用论文的真实设定：多个测量时间点 + 右删失 + 左截断。为了最小内核，我们取一次测量（每个个体只有一个观测 biomarker），但保留右删失。此时每个个体的数据为 \((Y_i, X_i, L_i, \tilde{T}_i, \Delta_i)\)，其中 \(\tilde{T}_i = \min(T_i, C_i)\)。模型：

\[E[Y_i \mid X_i, T_i > L_i, T_i] = \mu_0(L_i) + \beta X_i + \gamma_0(T_i - L_i) \quad \text{当 } T_i > L_i.\]

由于 \(T_i\) 可能右删失，当 \(\Delta_i = 0\) 时，我们不知道 \(T_i\) 确切值，只知道 \(T_i > \tilde{T}_i\)。这就导致 \(\gamma_0(T_i - L_i)\) 无法直接代入。这是核心困难。

最小内核：仅考虑两个个体（\(n=2\)），无右删失（都观测到 \(T_i\)），每人只有一个测量在 \(L_i\) 时刻。估计 \(\beta\) 的思路：对每一对个体 \((i,j)\)，差分掉非参数函数：

\[(Y_i - Y_j) = \beta (X_i - X_j) + [\gamma_0(T_i-L_i) - \gamma_0(T_j-L_j)].\]

但 \(\gamma_0\) 未知。如果 \(T_i-L_i \approx T_j-L_j\) 则差可忽略；否则需要局部线性近似。这就是 profile kernel 的核心：将非参数函数在局部用线性近似代替，然后通过局部加权最小二乘同时估计参数和非参数。

更定量地：假设 \(\mu_0\) 和 \(\gamma_0\) 光滑，对任意某一点 \(u\)，附近可用泰勒展开。构造关于 \(u\) 的局部线性回归，同时估计 \(\beta\)。具体地，定义 profile 后的估计方程为：

\[\sum_{i=1}^n \sum_{j=1}^{m_i} K_h (t_{ij} - u) \left[ Y_{ij} - a - b(t_{ij} - u) - \beta^\top X_i - \gamma_0(T_i - t_{ij}) \right] \cdot \text{权重} = 0.\]

但这里 \((a,b)\) 是 \(\mu_0(u)\) 及其导数的局部近似参数，\(\gamma_0\) 类似处理。真实估计需两轮 profile：先对 \(\mu_0\) 和 \(\gamma_0\) 用核加权最小二乘表达成 \(\beta\) 的函数，再求解关于 \(\beta\) 的简约估计方程。

在最小特例中，我们略去 \(\gamma_0\)（假设只有一个时间尺度），看 profile kernel 怎么工作。设模型：

\[E[Y_i(t) \mid X_i] = \mu_0(t) + \beta X_i.\]

对每个时间点 \(t\)，局部线性近似：\(\mu_0(s) \approx a + b(s-t)\)。那么对邻近 \(t\) 的观测，做回归：\(Y_{ij} \approx a + b(t_{ij}-t) + \beta X_i\)。用核权重 \(K_h(t_{ij}-t)\) 拟合加权最小二乘，得到 \((\hat a(t), \hat b(t), \hat \beta)\)。但 \(\hat \beta\) 对每个 \(t\) 都不同，不一致。profile 步骤：将 \(\mu_0\) 表达为 \(\beta\) 的函数，即对任意候选 \(\beta\)，对每个 \(t\) 拟合局部线性回归得到 \(\hat \mu_0(t; \beta)\)，然后定义 \(\beta\) 的估计为最小化：

\[\sum_{i=1}^n \sum_{j=1}^{m_i} (Y_{ij} - \hat \mu_0(t_{ij}; \beta) - \beta X_i)^2.\]

这便是 profile kernel 估计。文章将类似思路扩展到两个时间尺度和 left truncation 调整。

三、这篇论文做了什么¶

三句话¶

研究问题：如何半参数地估计多时间尺度 biomarker 轨迹（自然时间函数与距发病时间函数）并正确处理自然时间与研究时间不一致导致的左截断偏倚。
核心方法：提出 profile kernel estimating equation，将非参数基线函数通过局部线性拟合 profilize 去，再求解参数部分的边际估计方程，并融入左截断的逆概率加权调整。
主要结论：参数估计量 \(\hat \beta\) 是相合且渐近正态的（收敛速率 \(\sqrt{n}\)），非参数基线函数估计的收敛速率达到多维核估计的通常速率（取决于光滑度和维数），并通过模拟和阿尔茨海默病实际数据验证了方法的有效性。

关键设定与假设¶

模型（根据摘要及领域常识补充完整）：
\[Y_i(t) = \mu_0(t) + \beta^\top X_i + \gamma_0(T_i - t) + \varepsilon_i(t),\]
其中 \(\varepsilon_i(t)\) 为零均值、方差 \(\sigma^2\)，且与 \(t\) 松相关（为简化）。\(T_i\) 为发病时间，\(t\) 为自然时间（如年龄）。关键：\(T_i\) 可能右删失，且数据存在左截断（\(T_i > L_i\)）。
假设：
左截断时间 \(L_i\) 与 \(Y_i(t)\) 独立（条件于 \(X_i, T_i > L_i\) 可忽略性）。
删失时间 \(C_i\) 与 \(T_i\) 独立，且与 biomarker 过程独立（经典条件）。
核函数 \(K(\cdot)\) 为对称、有界、紧支集，带宽 \(h \to 0, nh^d \to \infty\)（\(d\) 为自然时间维数，此处 \(d=1\)）。
非参数函数 \(\mu_0, \gamma_0\) 二次连续可微。
采样时刻 \(t_{ij}\) 独立于模型随机性（可处理为固定设计或随机设计但密度光滑）。
相比已有文献的放宽：与之前两个时间尺度的方法相比，本文允许 \(\mu_0, \gamma_0\) 完全未指定（而非参数化），且系统地处理了 left truncation。与随机效应联合模型相比，回避了随机效应的强分布假设和计算难题。

主要结果¶

定理 1（参数估计量的渐近正态性）：在正则条件下，\(\sqrt{n}(\hat\beta - \beta_0) \xrightarrow{d} N(0, V)\)，其中 \(V\) 可通过 sandwich 公式一致估计。证明关键：profile kernel 估计量等价于求解一个基于 U-统计量形式的估计方程，其 asymptotic variance 可通过 influence function 导出。
定理 2（非参数基线函数估计的收敛速率）：\(\sup_t |\hat\mu_0(t) - \mu_0(t)| = O_p( h^2 + \sqrt{\log n / (nh)} )\)（一维情形），达到非参数回归的 minimax 最优速率（在光滑度 2 下）。距发病时间函数 \(\hat\gamma_0\) 类似。
模拟实验：生成数据满足模型，考虑不同删失率（20%~60%）与左截断比例，比较本文方法与忽略 left truncation 的朴素法、忽略两时间尺度的方法。结果显示本文方法在 \(\beta\) 估计上近乎无偏，而忽略 left truncation 导致显著偏倚（最高达 0.3 个标准差），且覆盖概率接近 95%；忽略两个时间尺度的方法则完全无法估计正确轨迹形状。

证明路线与技术技巧¶

整体路线： 1. Profile step：对固定的 \(\beta\)，针对每组 \((\mu_0, \gamma_0)\) 进行局部线性核加权最小二乘，将其表达为 \(\beta\) 和局部参数的函数。由于左截断的存在，对每个数据点需要根据其属不属于左截断集调整局部估计的权重（类似逆概率截断调整）。 2. Simplified estimating equation for \(\beta\)：将 profilized 函数代入总体矩条件，得到 \(\beta\) 的边际估计方程，该方程是 profile 后 residual 与 covariate 的乘积的加权和，权重包含 left truncation 调整因子。 3. 渐近分析：通过经验过程理论（empirical process）证明估计方程的一致收敛性，利用核估计的 bias-variance 分解和 U-统计量投影法得到 \(\hat\beta\) 的线性表达，进而导出渐近正态性。 关键跳跃点： - 左截断下局部估计的边界效应：由于左截断，某些时间点的附近样本很少（例如疾病晚期），需要调整核加权边界修正。本文利用 left truncation 的“风险集”概念，在局部加权时仅使用那些尚未发病的样本，并证明该做法仍保持相合性。 - profile 后的影响函数：不同于标准 profile 估计（Severini & Wong 1992），本文需同时 profile 两个非参数函数，且二者耦合（因为距发病时间依赖于自然时间）。证明通过张成空间正交化（对 \(\mu_0\) 和 \(\gamma_0\) 的偏导函数做 Gram-Schmidt 型正交化）得到简约影响函数，这是主要技术贡献。 技术技巧：empirical process 理论（处理核估计的随机误差）、高阶 U-统计量展开（估计方程中的双重求和项）、left truncation 的“逆加权”概念的核版本、以及带宽选择的交叉验证（实际计算）。

真实例子与应用¶

数据：Alzheimer's Disease Neuroimaging Initiative (ADNI) 数据，包含人脑磁共振成像测量的皮层厚度（cortical thickness）作为 biomarker。定义疾病发生为从正常认知转变为显著认知衰退确诊的时间（preclinical AD）。协变量包括 APOE4 基因型（0/1）、性别、教育。
应用方式：将自然时间尺度设为年龄（baseline 年龄进入模型），另一个时间尺度为距发病时间（未知，通过 AD 确诊时间后向确定）。左截断来自于：ADNI 在招募时要求参与者认知正常，但有些人可能在进入时已经接近发病（即此前未诊断但实际已处于 preclinical phase），他们被纳入的条件是“尚未发病”，所以左截断时间为进入年龄。
结果：估计的 \(\hat\beta\) 显示 APOE4 携带者的皮层厚度在发病前平均水平比非携带者低约 0.05 mm（标准化后 \(p<0.01\)），而性别和教育的影响不显著。非参数轨迹显示，所有区域在发病前 5-10 年就开始加速下降，且 APOE4 携带者的下降斜率更陡。
该例子想说明：验证了方法能发现已知的生物学模式（APOE4 是 AD 高风险因子），同时提供了更精确的发病前轨迹形状，这是单纯平均数轨迹无法揭示的。也展示 left truncation 修正的重要性：忽略左截断会低估发病前的下降幅度（因为越早进入研究的人实际上更可能是“健康幸存者”，他们的下降较慢）。

🔎 结论是否比证明窄¶

可能窄的地方：论文证明了参数部分的 \(\sqrt{n}\)-一致性和渐近正态性，但非参数部分的收敛速度只给了上界（\(O_p(h^2 + \sqrt{\log n/(nh)})\)），未证明下界匹配 minimax 最优性（论文未声称最优性）。另外，对两个非参数函数的同时估计，其 semiparametric efficiency bound 是否可达到？论文未讨论。结论中“我们的方法在有限样本中表现良好”是基于特定模拟设定的，不保证所有设定下的 robust behavior。另外，删失时间独立于 biomarker 过程这一假设在实际中可能违反（如认知衰退更快的个体更易失访），论文未做敏感性分析。

四、开放问题¶

效率最优性：本文的 profile kernel 估计量是否达到了该半参数模型的 semiparametric efficiency bound？论文只证明了渐近正态性，未讨论效率。可扎根于本文未提供 efficient influence function 或效率比较一节。
高维协变量拓展：当协变量维度 \(p\) 随样本量增长时，本文的 profile kernel 估计是否还能保持相合？此时带宽选择、核权重计算、理论证明中的 empirical process 条件都需要重新考虑。本文仅考虑低维固定维协变量。
两个非参数函数的可识别性：\(\mu_0(t)\) 与 \(\gamma_0(T_i-t)\) 的识别依赖于两者随时间结构的差异（一个是 \(t\)，另一个是 \(T_i-t\)），但若 \(T_i\) 与 \(t\) 高度相关（例如几乎所有个体发病年龄接近），两者几乎共线，估计会不稳定。论文未讨论这种退化情形下的理论收缩或正则化方法。
左截断机制更一般化：本文假设左截断时间 \(L_i\) 与 biomarker 过程独立（给定 \(X_i\)），若存在 informative left truncation（即截断概率与轨迹相关），则方法可能产生偏倚。可考虑用工具变量或敏感度分析来放松该假设——这与你的因果推断兴趣直接相关。

Maintained by 陈星宇 · Homepage · Source on GitHub