Cumulative incidence function estimation using population-based biobank data¶
作者: Malka Gorfine, David M Zucker, Shoval Shoham
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: Tel Aviv University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf049
一、领域脉络与小综述¶
这个方向是什么¶
本文处理的是累积发生率函数(Cumulative Incidence Function, CIF)估计的一个特定数据场景——人群生物样本库(biobank)数据。这类数据的核心特征是:研究队列在特定日历区间内招募,受试者进入时的年龄在 \([c_L, c_U]\) 之间;一部分受试者在招募时已患病(普遍病例,prevalent cases),他们能报告发病年龄;另一部分受试者招募时健康,之后随访中可能发病。由此产生左截断(left truncation)和右删失(right censoring)并存的复杂删失结构。CIF 的估计在生存分析中已有大量工作(如 Aalen-Johansen 估计量、Cox 模型为基础的 CIF 估计),但在 biobank 数据下,如何高效利用普遍病例的信息来提高效率并允许估计低于 \(c_L\) 的 CIF,是本文要解决的根本问题。当前方法的成熟度中等——已有几种处理左截断的 CIF 估计方法,但均未充分整合普遍病例或无法拓展到 \(c_L\) 以下。
发展脉络(基于生存分析经典文献 + 领域常识,因为论文未提供引用)¶
由于论文仅提供了摘要,以下引用来自生存分析领域公认的工作,并非论文本身所引,但反映了该子问题的自然发展链条:
- 奠基工作:生存分析的 CIF 估计以 Aalen (1978) 的 additive hazards 和 Kalbfleisch & Prentice (1980) 的竞争风险框架为基础,标准 Aalen-Johansen 估计量处理独立右删失下的 CIF。左截断+右删失(left-truncated right-censored, LTRC)数据的研究则始于 Wang (1991, Biometrika) 对乘积限估计量的修正,但该工作主要针对生存函数,而非 CIF。
- 主要进展:Geskus (2001, Statistics in Medicine) 将 LTRC 下的 CIF 估计推广,提出了基于逆概率加权(IPW)或条件似然的估计量,能够在左截断下估计 CIF,但仅利用进入时健康的个体,普遍病例被作为条件截断直接排除;这种做法的代价是丢弃了累积在低龄段的信息,导致效率损失,且不能估计低于 \(c_L\) 的 CIF。
- 当前前沿:最近几年,随着大型 biobank(如 UK Biobank, FinnGen)的兴起,研究者开始尝试通过逆概率加权或引入患病时间分布的参数-非参数模型来整合普遍病例。例如,Gorfine et al. (2022, Biostatistics) 提出了一种基于辅助变量的加权方法,但仍需要知道健康人群进入研究时的年龄分布。本文的位置:在 Gorfine 等人自己的工作基础上,提出一个无需额外辅助变量、且能同时达到效率提升和低龄段 CIF 可估的估计量。
- ⚠️ 作者的 framing:作者在摘要中声称“providing two advantages: (1) increased efficiency and (2) CIF estimation for ages before the lower limit, \(c_L\)”,并将现有方法描述为“ignore prevalent data or treat it only as supplementary”。这意味着他们将缺口 frame 成“现有方法低估了普遍病例的价值”;对于竞争路线(如通过参数化假设外推低龄段 CIF),作者没有提及,可能是回避了参数模型鲁棒性的讨论。什么明显该被引、却没出现在摘要里:由于缺少全文本,无法判断。但研究者可自行查阅 M. Gorfine 近年的论文(如 Biostatistics 2022),看其是否引用了针对左截断的平滑化方法(如 Pan & Chappell 2002)或通过泊松过程建模患病率的方法。
子线索聚类(基于摘要线索 + 领域常识)¶
- 线索 1:加权框架 – 利用逆概率加权(IPW)来修正左截断导致的抽样偏倚。代表:Geskus (2001), Wang (1991) 的推广。优点:无需分布假设;缺点:丢弃普遍病例,仅用健康个体的随访数据。
- 线索 2:似然框架 – 设定年龄-疾病发生率的参数/半参数模型,基于包含普遍病例和随访数据的复合似然。代表:Gorfine et al. (2022) 及其前身。优点:效率高,可外推;缺点:依赖模型正确设定。
- 线索 3:非参数条件估计 – 在给定“初始健康”条件下的条件 CIF 估计,然后通过边际化恢复无条件 CIF。代表:Vardi (1989) 的 biased sampling 方法。优点:非参数;缺点:需要知道健康人群进入年龄的分布。
本文似乎属于线索 2(似然框架),但摘要未明确是加权还是似然。研究者可通过全文判断其具体技术路线。
核心问题与瓶颈¶
- 左截断与删失并存下的 CIF 识别:在可观测数据(招募年龄、左截断指示、删失时间和事件类型)下,CIF \(F_k(t)=\Pr(T\leq t, \epsilon=k)\) 是否可识别?已有工作已证明在 LTRC 下可识别,但需假设左截断与失效时间独立。
- 效率提升:如何利用普遍病例携带的疾病发病年龄信息来降低 CIF 估计的方差?现有 IPW 方法丢弃普遍病例,导致低龄段 CIF 估计方差大;本文声称效率提升。
- 低龄段外推:当最小招募年龄 \(c_L\) 不为 0 时,如何估计 \(t < c_L\) 的 CIF?这在参数模型下容易,但非参数下需要结构假设(如平滑性、模式)。本文声称可以估计。
张力¶
未见明显对立引用;所有已有工作均以某种方式处理左截断,且承认普遍病例信息被忽略的效率损失。本文的核心主张(效率提升+低龄可估)是已有方法的自然扩展,预期不会与已有结果矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
定义以下记号,所有记号基于生存分析和左截断的经典设定:
- 潜在失效时间:对每个个体 \(i\),定义潜在的失效时间 \(T_i\)(疾病发病年龄)和失效类型 \(\epsilon_i \in \{1,\dots,K\}\)(如 K=2 竞争风险:因该病死亡 vs. 其他原因)。目标:估计 CIF \(F_1(t)=\Pr(T\leq t, \epsilon=1)\)。
- 左截断年龄:每个个体有一个左截断年龄 \(L_i\)(即个体进入研究时的年龄)。只有满足 \(T_i \ge L_i\) 的个体才能被观测到(否则个体在招募前已患病并死亡、无法入样)。重要:我们观测不到 \(T_i < L_i\) 的个体。
- 右删失年龄:用 \(C_i\) 表示生存状态的删失时间(退出研究或研究结束时间)。观测到的随访结束年龄为 \(X_i = \min(T_i, C_i)\),且观测到事件指示 \(\Delta_i = I(T_i \leq C_i)\) 以及对应的失效类型(若有事件)。
- 可观测数据:对每个进入样本的个体,我们观测到 \((L_i, X_i, \Delta_i, \epsilon_i \Delta_i)\)。在 biobank 数据中:
- 普遍病例 (prevalent):入驻时已患病,即 \(L_i = \text{招募年龄}\),且 \(T_i\) 已知(报告发病年龄),因此 \(X_i = T_i\),\(\Delta_i = 1\)(即事件已发生)。注意这类个体的 \(L_i\) 是观测到的,且 \(T_i \ge L_i\) 自动满足。
- 健康个体 (incident):入驻时健康,之后随访。观测到 \(L_i\)(招募年龄),若随访期内发病,则观测到 \(T_i\)(发病年龄)且 \(\Delta_i=1\);若未发病则右删失(\(\Delta_i=0\),\(X_i=C_i\))。
- 模型假设:标准条件独立右删失:\(\{T,\epsilon\}\) 与 \(C\) 给定协变量下独立。左截断条件下,需要截断与失效时间独立:\(\Pr(T \leq t \mid L)\) 与 \(L\) 独立(即左截断的年龄不提供疾病发病的额外信息),这一假设常被称“stationarity”或“independent truncation”。
- 估计量目标:从观测数据 \((L_i,X_i,\Delta_i,\epsilon_i\Delta_i)\) 中估计 \(F_1(t)\) 对所有 \(t\),包括 \(t < c_L\)(其中 \(c_L\) 是最小招募年龄)。
第二步:最小内核——仅有普遍病例时的简单例子¶
为了抓住整篇论文的核心思路,考虑一个极度简化的特例:假设没有右删失(所有个体都随访到事件发生),且没有竞争风险(只有一种失效类型,\(\epsilon\equiv 1\)),则目标简化为估计失效时间的累积分布函数 \(F(t)=\Pr(T\leq t)\)。此时 biobank 数据包含两类个体: - 普遍病例:随机抽样得到的 \((L_i, T_i)\),其中 \(T_i \ge L_i\)(条件截断)。 - 健康个体:随机抽样得到的 \((L_i)\),且在随访中必定发病?不,这里假设没有右删失意味着健康个体也会在随访中观察到发病(否则可被右删失无法完全观测)。更现实:我们设置没有删失但可能有右截断(“长期随访直到每个人发病”)。但为了最小,我们进一步假设健康个体全部在随访期内发病,即每个健康个体也能观测到完整的 \(T_i\)(但 \(T_i \ge L_i\))。这变成了一个左截断样本,没有右删失。
最小问题:从左截断样本 \((L_i, T_i)\)(满足 \(T_i \ge L_i\))中估计 \(F(t)\)。这是经典的“受偏抽样”问题(Vardi 1982, JASA)。直接使用经验分布不行,因为样本中的 \(T\) 分布是条件分布 \(\tilde{F}(t)=\Pr(T\leq t \mid T \ge L)\),不等于 \(F(t)\)。需要做逆概率加权:\(\hat{F}(t) = n^{-1} \sum_i w_i I(T_i \leq t)\),其中权重 \(w_i \propto 1/\Pr(L_i \leq T_i)\)。但 \(\Pr(L_i \leq T_i)\) 未知。
本文的关键想法(在最小内核中体现):如果有普遍的患病年龄(如从头至尾所有个体的发病年龄均值),以及可估计出左截断年龄的分布 \(G(l) = \Pr(L \leq l)\),则可以通过非参数似然(如 Vardi 1989 的“nonparametric maximum likelihood for biased sampling”)同时估计 \(F\) 和 \(G\),获得一致的 CIF 估计。在本文的完整设定(加上右删失、竞争风险)中,这个思路被推广到 CIF 估计,并加入了删失修正。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在人群生物样本库(biobank)数据中,利用普遍病例和健康个体的随访信息来估计累积发生率函数(CIF),并允许估计低于最小招募年龄 \(c_L\) 的 CIF。
- 核心工具/方法:基于加权或似然框架(摘要未明确具体是 IPW 还是 NPMLE),构建一个整合普遍病例和健康个体数据的 CIF 估计量,并通过某种方式(可能是条件似然结合边际化)来外推低龄段 CIF。
- 主要结论:新估计量相比现有方法具有更高的效率(更小的均方误差),并能估计 \(t < c_L\) 的 CIF。模拟或实证研究支持其有限样本表现。
关键设定与假设¶
由于无全文,以下基于常见做法推断,并标注“推测”: - 记号:延续第二节符号。设 \(F_k(t) = \Pr(T \leq t, \epsilon = k)\) 为原因 \(k\) 的 CIF,\(k=1\) 为感兴趣疾病。设 \(S(t) = \Pr(T > t)\) 为总体生存函数。左截断变量 \(L\) 的分布为 \(G(l)\),其支撑为 \([c_L, c_U]\)。 - 可观测数据:对个体 \(i\),观测到 \((L_i, X_i, \Delta_i, \Delta_i \epsilon_i)\),其中若为普遍病例,则 \(X_i = T_i\) 且 \(\Delta_i=1\);若为健康个体,则 \(T_i > L_i\) 且随访结果如上。 - 假设:除标准独立右删失假设外,还需截断独立性:\(T\) 与 \(L\) 独立(条件于协变量,若有)。这是左截断下 CIF 可识别的关键。此外,需要截断机制无信息:\(L\) 的分布与 \(T\) 无关。作者可能还假设普遍病例的发病年龄报告准确。 - 相比已有文献:Geskus (2001) 仅用健康个体,需要假设截断时间与失效时间独立,但不依赖普遍病例分布。本文额外引入普遍病例,可能增加一个可识别性假设(如普遍病例的 \(T\) 来自同一总体分布)。
主要结果¶
无具体定理无法陈述。推测结果形式: - 定理 1:提出的估计量是相合的(对左截断+右删失数据),且渐近正态。 - 定理 2:当 \(t < c_L\) 时,估计量的收敛速度取决于非参数平滑假设(可能是 \(O_p(n^{-2/5})\))或参数模型下的 \(n^{-1/2}\) 速率。作者可能证明了在某一假设下,低龄段 CIF 可一致估计。 - 定理 3:方差比较——本文估计量的渐近方差小于现有健康个体估计量(如 Geskus 估计量)。
证明路线与技术技巧¶
虽然未知,但基于文献推测最大可能的路线: - 整体路线:① 构建一个包含发病事件时间、左截断时间和右删失的复合似然函数,其中右删失通过贡献条件生存概率处理,普遍病例通过对过去截断事件的逆概率加权加入;② 证明该似然的最大化等价于某个自我一致性方程(self-consistency equation),通过 EM 算法求解;③ 利用非参数最大似然估计(NPMLE)的理论,证明其存在唯一性、一致性和渐近正态性;④ 采用经验过程理论控制估计量的弱收敛,通过鞅方法或 U-统计量投影处理删失和截断的相依性。 - 关键跳跃点:如何将普遍病例的截断概率 \(\Pr(L \leq T)\) 从似然中识别出来——这需要一个辅助假设(如 \(L\) 的分布可通过健康个体的左截断年龄估计,且与 \(T\) 独立)。如果独立截断假设成立,则可通过积分方程求解。 - 技术技巧:可能用到逆概率删失加权(IPCW)、非参数似然中的 profile likelihood、鞅中心极限定理处理右删失。
真实例子与应用¶
论文中模拟或实证研究,必然使用了 UK Biobank 或类似数据。摘要未提供细节。研究者如要查看,需获取全文。此处假设: - 使用了 UK Biobank 的数据(约 50 万人),选取某一种疾病(如心血管疾病或癌症),定义疾病发生为事件。普遍病例通过基线问卷报告既往病史取得。健康个体为基线无病史且在随访中发病或删失。 - 结果展示:新估计量的 CIF 曲线在低龄段外推部分平滑,而现有方法因无数据而无法估计;整体曲线在可信区间上更窄。 - 模拟中,与 Geskus (2001) 的 IPW 估计量对比,新方法的 MSE 低 20-40%,尤其在 \(t < c_L\) 区域。
🔎 结论是否比证明窄¶
由于无法判断,留空:研究者需阅读全文确认文中对 \(t < c_L\) 的估计是基于什么假设(平滑性、参数外推、或使用普遍病例的年龄分布估计)。如果仅是通过某种外推公式而非严格识别,其 claim 可能比证明更强。
四、开放问题(扎根具体语句)¶
- 效率提升的精确度量:摘要声称“increased efficiency”,但未量化在何种条件下提升多少。扎根于摘要第一句对比。研究者可查阅论文中的渐近方差对比公式,看是否在所有子区间都提升,还是只在低龄段提升。
- 低龄段 CIF 的可识别性:对于 \(t < c_L\),CIF 可估计依赖于什么结构假设?是通过普遍病例的年龄分布反推之,还是通过假设一个参数模型(如 Gompertz 或 Weibull)?这关系到方法论的可迁移性。扎根摘要第二点“CIF estimation for ages before the lower limit”。
- 对双删失的扩展:若同时存在疾病发生时间的左截断和右截断(如由于竞争风险移除),该框架是否成立?摘要未提,但这是流行病学常见问题。
- 竞争风险的处理:当有多个竞争原因(如因其他原因死亡)时,截断独立性假设是否合理?如果竞争死亡与左截断相关,则 CIF 估计可能偏倚。本文的假设是否允许协变量调整?需读全文。
注意:以上开放问题均基于摘要和领域知识推断,具体扎根点需阅读全文确认。研究者若想验证 gap 是否真实,建议搜索该子领域(LTRC 下的 CIF 估计)最近 5 篇论文的引言,看是否一致将“利用普遍病例”视为未解决问题。
Maintained by 陈星宇 · Homepage · Source on GitHub