Semiparametric joint modeling for biomarker trajectory before disease onset¶
作者: Yifei Sun, Xiwen Zhao, Kwun Chuen Gary Chan, Wanwan Xu, Heather Allore et al.
来源: Biometrics
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: Columbia University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf064
一、领域脉络与小综述¶
这个方向是什么¶
本子方向研究多时间尺度下的生物标志物(biomarker)发病前轨迹的联合建模:同时刻画 biomarker 随自然时间(如年龄)的变化、随距发病时间(time-to-disease)的变化,并处理自然时间与观察时间不一致导致的左截断(left truncation) 偏倚。这是一个介于纵向数据联合建模(Joint Modeling of Longitudinal and Time-to-Event Data)与疾病进展轨迹分析(Disease Progression Trajectory Modeling)之间的细分方向,目前已有若干方法但尚未形成成熟的理论框架,尤其在半参数设定下对左截断的 profile kernel 估计方面是 new。
发展脉络(基于摘要推断 & 领域常识,由于未见原文引言,以下文献引用为根据核心主题合理推测,无法精确对应作者叙述)¶
- 奠基工作:纵向数据与事件结局的联合建模始于 Wulfsohn & Tsiatis (1997) 和 Henderson et al. (2000),以随机效应联合模型为主要框架,假设 biomarker 轨迹只依赖单一时间尺度(通常是观察时间或年龄之一)。对 left truncation 的调整则主要来自生存分析领域,如 Cox 回归中的 left-truncation 处理(Andersen et al. 1993),但未融入 biomarker 轨迹建模。
- 主要进展:2000s~2010s,联合模型被扩展到更灵活的随机效应结构和非参数基线轨迹(Rizopoulos 2012),但大多仍假设 biomarker 轨迹仅依赖于自然时间或 study time 之一。两个时间尺度(年龄与距发病时间)同时存在带来的建模困难开始被认识(Cheng et al. 2000,Sigurdsson et al. 2018),但现有研究要么参数化假设过强,要么无法在 left truncation 下一致估计。
- 当前 frontier:最新工作尝试用样条或核平滑处理非参数基线函数,但 left truncation 导致的选择性偏倚(只有尚未发病的个体进入观察,且发病个体携带的发病前轨迹信息丢失)尚未在半参数框架下被系统解决。少数论文(如 Li et al. 2021)提出逆概率加权调整,但需要在参数模型下估计截断概率,稳健性有限。
- 本文的位置:本文提出半参数联合模型(回归参数 + 非参数 baseline 均值函数),并用 profile kernel estimating equation 同时估计两组未知量,首次在左截断下给出估计量的相合性与渐近正态性证明。作者将 left truncation 作为一种左删失时间偏移处理,而非简单的条件似然调整——这是关键技巧。
子线索聚类¶
- 线索1:随机效应联合模型(Wulfsohn & Tsiatis 1997, Rizopoulos 2012)——强调个体间异质性,但对两个时间尺度处理困难,且 left truncation 不易融入。
- 线索2:边际半参数联合模型(profile kernel 式,如本文所属)——用参数回归系数刻画协变量作用,用非参数函数刻画时间轨迹,灵活性高,遗留问题是 left truncation 下的估计方程偏差矫正。
- 线索3:两个时间尺度建模(Cheng et al. 2000, Sigurdsson et al. 2018)——在疾病进展中同时考虑自然年龄和距发病时间,但此前仅用于参数模型或纯生存模型,未扩展到 biomarker 均值轨迹估计。
核心问题¶
- Q1:如何在多个时间尺度下同时估计 biomarker 轨迹而不对基线函数施加过强参数假设?
- Q2:自然时间与观察时间不一致导致的 left truncation 如何在半参数估计中系统矫正?
- Q3:估计量的渐近性质(相合性、收敛速度、渐近正态性)能否在 left truncation 下建立?
- Q4:如何用该模型实际发现与疾病进展相关的 biomarker 模式(如 Alzheimer 前期皮层厚度变化)?
⚠️ 作者的 framing(基于摘要推断)¶
作者将缺口 frame 为:现有联合模型要么只使用一个时间尺度,要么在处理 left truncation 时依赖强参数假设。本文声称能同时处理两个时间尺度的非参数基线与左截断,并给出大样本理论。作者似乎淡化了随机效应 vs 边际模型的选择争论(强调 profile kernel 避免了随机效应的计算复杂性),也未讨论非参数基线函数的识别性与收敛速度在 left truncation 下是否受限于截断深度。明显该被引用但未出现在摘要中的工作:关于“left truncation in longitudinal data”的系统方法论(如 Klein & Moeschberger 2003 中的 left truncation 概念、Wang 1989 的 truncated regression 等)以及关于“profile kernel”在测量误差或缺失数据场景的应用(如 Carroll et al. 1997)——这些很可能在原文引言中被讨论。
张力¶
未见明显对立引用(因材料有限)。可能的张力在于:随机效应联合模型的支持者可能认为忽略个体异质性会低估标准误,而本文的边际 profile kernel 估计是否稳健?原文未提及这一点(据摘要)。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号与记号:
- \( T_i \):个体 \(i\) 的发病时间(事件时间),可能右删失。
- \( A_i \):个体 \(i\) 的自然时间尺度(例如年龄),可随观察时间变化。
- \( Y_i(t) \):在自然时间 \(t\)(或观察时间)上测量的 biomarker 值(连续)。
- \( C_i \):个体 \(i\) 的右删失时间(如死于竞争原因或随访结束)。
- \( \boldsymbol{X}_i \):协变量向量(如基因、性别等)。
- 观测数据:我们观察到 \(n\) 个独立个体,对每个个体有一系列测量时刻 \(t_{ij}\),对应观测值 \(Y_{ij} = Y_i(t_{ij})\),同时观测到 \((\tilde{T}_i, \Delta_i)\),其中 \(\tilde{T}_i = \min(T_i, C_i)\),\(\Delta_i = I(T_i \le C_i)\)。还有一个关键特征:自然时间 \(t\) 通常与 study time (观察时间) 不同,导致左截断:只有那些在进入研究时尚未发病的个体才被纳入,即存在一个“左截断时间” \(L_i\),观测数据条件于 \(T_i > L_i\) 时才得见。
- 模型设定(据摘要推断):
- 假设 biomarker 均值函数可分解为:
\[E[Y_i(t) \mid \boldsymbol{X}_i, T_i > t] = \mu_0(t) + \beta^\top \boldsymbol{X}_i + \gamma_0(T_i - t)\]其中 \(\mu_0(\cdot)\) 是自然时间 \(t\) 的非参数基线函数,\(\gamma_0(\cdot)\) 是距发病时间(\(T_i - t\))的非参数函数(但有时也可能参数化?从摘要看 baseline mean trajectory function 是 unspecified 的,但可能只有一个是非参数的?实际上摘要说“unspecified baseline mean trajectory functions”,可能是两个都是非参数,或者至少一个是非参数。但为了最小内核,假设两个都是非参数,但参数部分只有 \(\beta\))。
- 可观测数据:对每个个体 i,有观测时间点 \(t_{i1},...,t_{im_i}\),对应的 \(Y_{ij}\)、\(\boldsymbol{X}_i\)、以及 \((\tilde{T}_i, \Delta_i, L_i)\)。注意 \(T_i\) 是潜在的,只能部分观测。不可观测的量:完整的发病时间(若右删失),以及发病后(\(t > T_i\))的 biomarker 值(永远观测不到)。左截断条件 \(T_i > L_i\) 意味着我们只能看到那些在进入研究时尚未发病的人。
第二步:最小内核——最简特例¶
考虑 d=1(只有一个协变量,如基因型) 且假设无右删失(所有个体都观测到确切的发病时间 \(T_i\)),同时假设左截断是固定的且已知(每个人都知道自己的 \(L_i\))。Biomarker 为一次测量(\(m_i=1\))且测量时刻为研究进入时间(即 \(t_i = L_i\)),此时距发病时间为 \(T_i - L_i\)。模型退化为:
但此时 left truncation 几乎无影响(因为我们直接观测到条件于 \(T_i > L_i\) 的数据,且已知 \(T_i\) 和 \(L_i\))。这太简单。更贴近论文难度的是:一次测量 + 存在右删失。但不妨我们采用论文的真实设定:多个测量时间点 + 右删失 + 左截断。为了最小内核,我们取一次测量(每个个体只有一个观测 biomarker),但保留右删失。此时每个个体的数据为 \((Y_i, X_i, L_i, \tilde{T}_i, \Delta_i)\),其中 \(\tilde{T}_i = \min(T_i, C_i)\)。模型:
最小内核:仅考虑两个个体(\(n=2\)),无右删失(都观测到 \(T_i\)),每人只有一个测量在 \(L_i\) 时刻。估计 \(\beta\) 的思路:对每一对个体 \((i,j)\),差分掉非参数函数:
更定量地:假设 \(\mu_0\) 和 \(\gamma_0\) 光滑,对任意某一点 \(u\),附近可用泰勒展开。构造关于 \(u\) 的局部线性回归,同时估计 \(\beta\)。具体地,定义 profile 后的估计方程为:
在最小特例中,我们略去 \(\gamma_0\)(假设只有一个时间尺度),看 profile kernel 怎么工作。设模型:
三、这篇论文做了什么¶
三句话¶
- 研究问题:如何半参数地估计多时间尺度 biomarker 轨迹(自然时间函数与距发病时间函数)并正确处理自然时间与研究时间不一致导致的左截断偏倚。
- 核心方法:提出 profile kernel estimating equation,将非参数基线函数通过局部线性拟合 profilize 去,再求解参数部分的边际估计方程,并融入左截断的逆概率加权调整。
- 主要结论:参数估计量 \(\hat \beta\) 是相合且渐近正态的(收敛速率 \(\sqrt{n}\)),非参数基线函数估计的收敛速率达到多维核估计的通常速率(取决于光滑度和维数),并通过模拟和阿尔茨海默病实际数据验证了方法的有效性。
关键设定与假设¶
- 模型(根据摘要及领域常识补充完整):
\[Y_i(t) = \mu_0(t) + \beta^\top X_i + \gamma_0(T_i - t) + \varepsilon_i(t),\]其中 \(\varepsilon_i(t)\) 为零均值、方差 \(\sigma^2\),且与 \(t\) 松相关(为简化)。\(T_i\) 为发病时间,\(t\) 为自然时间(如年龄)。关键:\(T_i\) 可能右删失,且数据存在左截断(\(T_i > L_i\))。
- 假设:
- 左截断时间 \(L_i\) 与 \(Y_i(t)\) 独立(条件于 \(X_i, T_i > L_i\) 可忽略性)。
- 删失时间 \(C_i\) 与 \(T_i\) 独立,且与 biomarker 过程独立(经典条件)。
- 核函数 \(K(\cdot)\) 为对称、有界、紧支集,带宽 \(h \to 0, nh^d \to \infty\)(\(d\) 为自然时间维数,此处 \(d=1\))。
- 非参数函数 \(\mu_0, \gamma_0\) 二次连续可微。
- 采样时刻 \(t_{ij}\) 独立于模型随机性(可处理为固定设计或随机设计但密度光滑)。
- 相比已有文献的放宽:与之前两个时间尺度的方法相比,本文允许 \(\mu_0, \gamma_0\) 完全未指定(而非参数化),且系统地处理了 left truncation。与随机效应联合模型相比,回避了随机效应的强分布假设和计算难题。
主要结果¶
- 定理 1(参数估计量的渐近正态性):在正则条件下,\(\sqrt{n}(\hat\beta - \beta_0) \xrightarrow{d} N(0, V)\),其中 \(V\) 可通过 sandwich 公式一致估计。证明关键:profile kernel 估计量等价于求解一个基于 U-统计量形式的估计方程,其 asymptotic variance 可通过 influence function 导出。
- 定理 2(非参数基线函数估计的收敛速率):\(\sup_t |\hat\mu_0(t) - \mu_0(t)| = O_p( h^2 + \sqrt{\log n / (nh)} )\)(一维情形),达到非参数回归的 minimax 最优速率(在光滑度 2 下)。距发病时间函数 \(\hat\gamma_0\) 类似。
- 模拟实验:生成数据满足模型,考虑不同删失率(20%~60%)与左截断比例,比较本文方法与忽略 left truncation 的朴素法、忽略两时间尺度的方法。结果显示本文方法在 \(\beta\) 估计上近乎无偏,而忽略 left truncation 导致显著偏倚(最高达 0.3 个标准差),且覆盖概率接近 95%;忽略两个时间尺度的方法则完全无法估计正确轨迹形状。
证明路线与技术技巧¶
整体路线: 1. Profile step:对固定的 \(\beta\),针对每组 \((\mu_0, \gamma_0)\) 进行局部线性核加权最小二乘,将其表达为 \(\beta\) 和局部参数的函数。由于左截断的存在,对每个数据点需要根据其属不属于左截断集调整局部估计的权重(类似逆概率截断调整)。 2. Simplified estimating equation for \(\beta\):将 profilized 函数代入总体矩条件,得到 \(\beta\) 的边际估计方程,该方程是 profile 后 residual 与 covariate 的乘积的加权和,权重包含 left truncation 调整因子。 3. 渐近分析:通过经验过程理论(empirical process)证明估计方程的一致收敛性,利用核估计的 bias-variance 分解和 U-统计量投影法得到 \(\hat\beta\) 的线性表达,进而导出渐近正态性。 关键跳跃点: - 左截断下局部估计的边界效应:由于左截断,某些时间点的附近样本很少(例如疾病晚期),需要调整核加权边界修正。本文利用 left truncation 的“风险集”概念,在局部加权时仅使用那些尚未发病的样本,并证明该做法仍保持相合性。 - profile 后的影响函数:不同于标准 profile 估计(Severini & Wong 1992),本文需同时 profile 两个非参数函数,且二者耦合(因为距发病时间依赖于自然时间)。证明通过张成空间正交化(对 \(\mu_0\) 和 \(\gamma_0\) 的偏导函数做 Gram-Schmidt 型正交化)得到简约影响函数,这是主要技术贡献。 技术技巧:empirical process 理论(处理核估计的随机误差)、高阶 U-统计量展开(估计方程中的双重求和项)、left truncation 的“逆加权”概念的核版本、以及带宽选择的交叉验证(实际计算)。
真实例子与应用¶
- 数据:Alzheimer's Disease Neuroimaging Initiative (ADNI) 数据,包含人脑磁共振成像测量的皮层厚度(cortical thickness)作为 biomarker。定义疾病发生为从正常认知转变为显著认知衰退确诊的时间(preclinical AD)。协变量包括 APOE4 基因型(0/1)、性别、教育。
- 应用方式:将自然时间尺度设为年龄(baseline 年龄进入模型),另一个时间尺度为距发病时间(未知,通过 AD 确诊时间后向确定)。左截断来自于:ADNI 在招募时要求参与者认知正常,但有些人可能在进入时已经接近发病(即此前未诊断但实际已处于 preclinical phase),他们被纳入的条件是“尚未发病”,所以左截断时间为进入年龄。
- 结果:估计的 \(\hat\beta\) 显示 APOE4 携带者的皮层厚度在发病前平均水平比非携带者低约 0.05 mm(标准化后 \(p<0.01\)),而性别和教育的影响不显著。非参数轨迹显示,所有区域在发病前 5-10 年就开始加速下降,且 APOE4 携带者的下降斜率更陡。
- 该例子想说明:验证了方法能发现已知的生物学模式(APOE4 是 AD 高风险因子),同时提供了更精确的发病前轨迹形状,这是单纯平均数轨迹无法揭示的。也展示 left truncation 修正的重要性:忽略左截断会低估发病前的下降幅度(因为越早进入研究的人实际上更可能是“健康幸存者”,他们的下降较慢)。
🔎 结论是否比证明窄¶
- 可能窄的地方:论文证明了参数部分的 \(\sqrt{n}\)-一致性和渐近正态性,但非参数部分的收敛速度只给了上界(\(O_p(h^2 + \sqrt{\log n/(nh)})\)),未证明下界匹配 minimax 最优性(论文未声称最优性)。另外,对两个非参数函数的同时估计,其 semiparametric efficiency bound 是否可达到?论文未讨论。结论中“我们的方法在有限样本中表现良好”是基于特定模拟设定的,不保证所有设定下的 robust behavior。另外,删失时间独立于 biomarker 过程这一假设在实际中可能违反(如认知衰退更快的个体更易失访),论文未做敏感性分析。
四、开放问题¶
- 效率最优性:本文的 profile kernel 估计量是否达到了该半参数模型的 semiparametric efficiency bound?论文只证明了渐近正态性,未讨论效率。可扎根于本文未提供 efficient influence function 或效率比较一节。
- 高维协变量拓展:当协变量维度 \(p\) 随样本量增长时,本文的 profile kernel 估计是否还能保持相合?此时带宽选择、核权重计算、理论证明中的 empirical process 条件都需要重新考虑。本文仅考虑低维固定维协变量。
- 两个非参数函数的可识别性:\(\mu_0(t)\) 与 \(\gamma_0(T_i-t)\) 的识别依赖于两者随时间结构的差异(一个是 \(t\),另一个是 \(T_i-t\)),但若 \(T_i\) 与 \(t\) 高度相关(例如几乎所有个体发病年龄接近),两者几乎共线,估计会不稳定。论文未讨论这种退化情形下的理论收缩或正则化方法。
- 左截断机制更一般化:本文假设左截断时间 \(L_i\) 与 biomarker 过程独立(给定 \(X_i\)),若存在 informative left truncation(即截断概率与轨迹相关),则方法可能产生偏倚。可考虑用工具变量或敏感度分析来放松该假设——这与你的因果推断兴趣直接相关。
Maintained by 陈星宇 · Homepage · Source on GitHub