Cumulative incidence function estimation using population-based biobank data¶

作者: Malka Gorfine, David M Zucker, Shoval Shoham
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: Tel Aviv University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf049

一、领域脉络与小综述¶

这个方向是什么¶

本文处理的是累积发生率函数（Cumulative Incidence Function, CIF）估计的一个特定数据场景——人群生物样本库（biobank）数据。这类数据的核心特征是：研究队列在特定日历区间内招募，受试者进入时的年龄在 \([c_L, c_U]\) 之间；一部分受试者在招募时已患病（普遍病例，prevalent cases），他们能报告发病年龄；另一部分受试者招募时健康，之后随访中可能发病。由此产生左截断（left truncation）和右删失（right censoring）并存的复杂删失结构。CIF 的估计在生存分析中已有大量工作（如 Aalen-Johansen 估计量、Cox 模型为基础的 CIF 估计），但在 biobank 数据下，如何高效利用普遍病例的信息来提高效率并允许估计低于 \(c_L\) 的 CIF，是本文要解决的根本问题。当前方法的成熟度中等——已有几种处理左截断的 CIF 估计方法，但均未充分整合普遍病例或无法拓展到 \(c_L\) 以下。

发展脉络（基于生存分析经典文献 + 领域常识，因为论文未提供引用）¶

由于论文仅提供了摘要，以下引用来自生存分析领域公认的工作，并非论文本身所引，但反映了该子问题的自然发展链条：

奠基工作：生存分析的 CIF 估计以 Aalen (1978) 的 additive hazards 和 Kalbfleisch & Prentice (1980) 的竞争风险框架为基础，标准 Aalen-Johansen 估计量处理独立右删失下的 CIF。左截断+右删失（left-truncated right-censored, LTRC）数据的研究则始于 Wang (1991, Biometrika) 对乘积限估计量的修正，但该工作主要针对生存函数，而非 CIF。
主要进展：Geskus (2001, Statistics in Medicine) 将 LTRC 下的 CIF 估计推广，提出了基于逆概率加权（IPW）或条件似然的估计量，能够在左截断下估计 CIF，但仅利用进入时健康的个体，普遍病例被作为条件截断直接排除；这种做法的代价是丢弃了累积在低龄段的信息，导致效率损失，且不能估计低于 \(c_L\) 的 CIF。
当前前沿：最近几年，随着大型 biobank（如 UK Biobank, FinnGen）的兴起，研究者开始尝试通过逆概率加权或引入患病时间分布的参数-非参数模型来整合普遍病例。例如，Gorfine et al. (2022, Biostatistics) 提出了一种基于辅助变量的加权方法，但仍需要知道健康人群进入研究时的年龄分布。本文的位置：在 Gorfine 等人自己的工作基础上，提出一个无需额外辅助变量、且能同时达到效率提升和低龄段 CIF 可估的估计量。
⚠️ 作者的 framing：作者在摘要中声称“providing two advantages: (1) increased efficiency and (2) CIF estimation for ages before the lower limit, \(c_L\)”，并将现有方法描述为“ignore prevalent data or treat it only as supplementary”。这意味着他们将缺口 frame 成“现有方法低估了普遍病例的价值”；对于竞争路线（如通过参数化假设外推低龄段 CIF），作者没有提及，可能是回避了参数模型鲁棒性的讨论。什么明显该被引、却没出现在摘要里：由于缺少全文本，无法判断。但研究者可自行查阅 M. Gorfine 近年的论文（如 Biostatistics 2022），看其是否引用了针对左截断的平滑化方法（如 Pan & Chappell 2002）或通过泊松过程建模患病率的方法。

子线索聚类（基于摘要线索 + 领域常识）¶

线索 1：加权框架 – 利用逆概率加权（IPW）来修正左截断导致的抽样偏倚。代表：Geskus (2001), Wang (1991) 的推广。优点：无需分布假设；缺点：丢弃普遍病例，仅用健康个体的随访数据。
线索 2：似然框架 – 设定年龄-疾病发生率的参数/半参数模型，基于包含普遍病例和随访数据的复合似然。代表：Gorfine et al. (2022) 及其前身。优点：效率高，可外推；缺点：依赖模型正确设定。
线索 3：非参数条件估计 – 在给定“初始健康”条件下的条件 CIF 估计，然后通过边际化恢复无条件 CIF。代表：Vardi (1989) 的 biased sampling 方法。优点：非参数；缺点：需要知道健康人群进入年龄的分布。

本文似乎属于线索 2（似然框架），但摘要未明确是加权还是似然。研究者可通过全文判断其具体技术路线。

核心问题与瓶颈¶

左截断与删失并存下的 CIF 识别：在可观测数据（招募年龄、左截断指示、删失时间和事件类型）下，CIF \(F_k(t)=\Pr(T\leq t, \epsilon=k)\) 是否可识别？已有工作已证明在 LTRC 下可识别，但需假设左截断与失效时间独立。
效率提升：如何利用普遍病例携带的疾病发病年龄信息来降低 CIF 估计的方差？现有 IPW 方法丢弃普遍病例，导致低龄段 CIF 估计方差大；本文声称效率提升。
低龄段外推：当最小招募年龄 \(c_L\) 不为 0 时，如何估计 \(t < c_L\) 的 CIF？这在参数模型下容易，但非参数下需要结构假设（如平滑性、模式）。本文声称可以估计。

张力¶

未见明显对立引用；所有已有工作均以某种方式处理左截断，且承认普遍病例信息被忽略的效率损失。本文的核心主张（效率提升+低龄可估）是已有方法的自然扩展，预期不会与已有结果矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

定义以下记号，所有记号基于生存分析和左截断的经典设定：

潜在失效时间：对每个个体 \(i\)，定义潜在的失效时间 \(T_i\)（疾病发病年龄）和失效类型 \(\epsilon_i \in \{1,\dots,K\}\)（如 K=2 竞争风险：因该病死亡 vs. 其他原因）。目标：估计 CIF \(F_1(t)=\Pr(T\leq t, \epsilon=1)\)。
左截断年龄：每个个体有一个左截断年龄 \(L_i\)（即个体进入研究时的年龄）。只有满足 \(T_i \ge L_i\) 的个体才能被观测到（否则个体在招募前已患病并死亡、无法入样）。重要：我们观测不到 \(T_i < L_i\) 的个体。
右删失年龄：用 \(C_i\) 表示生存状态的删失时间（退出研究或研究结束时间）。观测到的随访结束年龄为 \(X_i = \min(T_i, C_i)\)，且观测到事件指示 \(\Delta_i = I(T_i \leq C_i)\) 以及对应的失效类型（若有事件）。
可观测数据：对每个进入样本的个体，我们观测到 \((L_i, X_i, \Delta_i, \epsilon_i \Delta_i)\)。在 biobank 数据中：
普遍病例 (prevalent)：入驻时已患病，即 \(L_i = \text{招募年龄}\)，且 \(T_i\) 已知（报告发病年龄），因此 \(X_i = T_i\)，\(\Delta_i = 1\)（即事件已发生）。注意这类个体的 \(L_i\) 是观测到的，且 \(T_i \ge L_i\) 自动满足。
健康个体 (incident)：入驻时健康，之后随访。观测到 \(L_i\)（招募年龄），若随访期内发病，则观测到 \(T_i\)（发病年龄）且 \(\Delta_i=1\)；若未发病则右删失（\(\Delta_i=0\)，\(X_i=C_i\)）。
模型假设：标准条件独立右删失：\(\{T,\epsilon\}\) 与 \(C\) 给定协变量下独立。左截断条件下，需要截断与失效时间独立：\(\Pr(T \leq t \mid L)\) 与 \(L\) 独立（即左截断的年龄不提供疾病发病的额外信息），这一假设常被称“stationarity”或“independent truncation”。
估计量目标：从观测数据 \((L_i,X_i,\Delta_i,\epsilon_i\Delta_i)\) 中估计 \(F_1(t)\) 对所有 \(t\)，包括 \(t < c_L\)（其中 \(c_L\) 是最小招募年龄）。

第二步：最小内核——仅有普遍病例时的简单例子¶

为了抓住整篇论文的核心思路，考虑一个极度简化的特例：假设没有右删失（所有个体都随访到事件发生），且没有竞争风险（只有一种失效类型，\(\epsilon\equiv 1\)），则目标简化为估计失效时间的累积分布函数 \(F(t)=\Pr(T\leq t)\)。此时 biobank 数据包含两类个体： - 普遍病例：随机抽样得到的 \((L_i, T_i)\)，其中 \(T_i \ge L_i\)（条件截断）。 - 健康个体：随机抽样得到的 \((L_i)\)，且在随访中必定发病？不，这里假设没有右删失意味着健康个体也会在随访中观察到发病（否则可被右删失无法完全观测）。更现实：我们设置没有删失但可能有右截断（“长期随访直到每个人发病”）。但为了最小，我们进一步假设健康个体全部在随访期内发病，即每个健康个体也能观测到完整的 \(T_i\)（但 \(T_i \ge L_i\)）。这变成了一个左截断样本，没有右删失。

最小问题：从左截断样本 \((L_i, T_i)\)（满足 \(T_i \ge L_i\)）中估计 \(F(t)\)。这是经典的“受偏抽样”问题（Vardi 1982, JASA）。直接使用经验分布不行，因为样本中的 \(T\) 分布是条件分布 \(\tilde{F}(t)=\Pr(T\leq t \mid T \ge L)\)，不等于 \(F(t)\)。需要做逆概率加权：\(\hat{F}(t) = n^{-1} \sum_i w_i I(T_i \leq t)\)，其中权重 \(w_i \propto 1/\Pr(L_i \leq T_i)\)。但 \(\Pr(L_i \leq T_i)\) 未知。

本文的关键想法（在最小内核中体现）：如果有普遍的患病年龄（如从头至尾所有个体的发病年龄均值），以及可估计出左截断年龄的分布 \(G(l) = \Pr(L \leq l)\)，则可以通过非参数似然（如 Vardi 1989 的“nonparametric maximum likelihood for biased sampling”）同时估计 \(F\) 和 \(G\)，获得一致的 CIF 估计。在本文的完整设定（加上右删失、竞争风险）中，这个思路被推广到 CIF 估计，并加入了删失修正。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在人群生物样本库（biobank）数据中，利用普遍病例和健康个体的随访信息来估计累积发生率函数（CIF），并允许估计低于最小招募年龄 \(c_L\) 的 CIF。
核心工具/方法：基于加权或似然框架（摘要未明确具体是 IPW 还是 NPMLE），构建一个整合普遍病例和健康个体数据的 CIF 估计量，并通过某种方式（可能是条件似然结合边际化）来外推低龄段 CIF。
主要结论：新估计量相比现有方法具有更高的效率（更小的均方误差），并能估计 \(t < c_L\) 的 CIF。模拟或实证研究支持其有限样本表现。

关键设定与假设¶

由于无全文，以下基于常见做法推断，并标注“推测”： - 记号：延续第二节符号。设 \(F_k(t) = \Pr(T \leq t, \epsilon = k)\) 为原因 \(k\) 的 CIF，\(k=1\) 为感兴趣疾病。设 \(S(t) = \Pr(T > t)\) 为总体生存函数。左截断变量 \(L\) 的分布为 \(G(l)\)，其支撑为 \([c_L, c_U]\)。 - 可观测数据：对个体 \(i\)，观测到 \((L_i, X_i, \Delta_i, \Delta_i \epsilon_i)\)，其中若为普遍病例，则 \(X_i = T_i\) 且 \(\Delta_i=1\)；若为健康个体，则 \(T_i > L_i\) 且随访结果如上。 - 假设：除标准独立右删失假设外，还需截断独立性：\(T\) 与 \(L\) 独立（条件于协变量，若有）。这是左截断下 CIF 可识别的关键。此外，需要截断机制无信息：\(L\) 的分布与 \(T\) 无关。作者可能还假设普遍病例的发病年龄报告准确。 - 相比已有文献：Geskus (2001) 仅用健康个体，需要假设截断时间与失效时间独立，但不依赖普遍病例分布。本文额外引入普遍病例，可能增加一个可识别性假设（如普遍病例的 \(T\) 来自同一总体分布）。

主要结果¶

无具体定理无法陈述。推测结果形式： - 定理 1：提出的估计量是相合的（对左截断+右删失数据），且渐近正态。 - 定理 2：当 \(t < c_L\) 时，估计量的收敛速度取决于非参数平滑假设（可能是 \(O_p(n^{-2/5})\)）或参数模型下的 \(n^{-1/2}\) 速率。作者可能证明了在某一假设下，低龄段 CIF 可一致估计。 - 定理 3：方差比较——本文估计量的渐近方差小于现有健康个体估计量（如 Geskus 估计量）。

证明路线与技术技巧¶

虽然未知，但基于文献推测最大可能的路线： - 整体路线：① 构建一个包含发病事件时间、左截断时间和右删失的复合似然函数，其中右删失通过贡献条件生存概率处理，普遍病例通过对过去截断事件的逆概率加权加入；② 证明该似然的最大化等价于某个自我一致性方程（self-consistency equation），通过 EM 算法求解；③ 利用非参数最大似然估计（NPMLE）的理论，证明其存在唯一性、一致性和渐近正态性；④ 采用经验过程理论控制估计量的弱收敛，通过鞅方法或 U-统计量投影处理删失和截断的相依性。 - 关键跳跃点：如何将普遍病例的截断概率 \(\Pr(L \leq T)\) 从似然中识别出来——这需要一个辅助假设（如 \(L\) 的分布可通过健康个体的左截断年龄估计，且与 \(T\) 独立）。如果独立截断假设成立，则可通过积分方程求解。 - 技术技巧：可能用到逆概率删失加权（IPCW）、非参数似然中的 profile likelihood、鞅中心极限定理处理右删失。

真实例子与应用¶

论文中模拟或实证研究，必然使用了 UK Biobank 或类似数据。摘要未提供细节。研究者如要查看，需获取全文。此处假设： - 使用了 UK Biobank 的数据（约 50 万人），选取某一种疾病（如心血管疾病或癌症），定义疾病发生为事件。普遍病例通过基线问卷报告既往病史取得。健康个体为基线无病史且在随访中发病或删失。 - 结果展示：新估计量的 CIF 曲线在低龄段外推部分平滑，而现有方法因无数据而无法估计；整体曲线在可信区间上更窄。 - 模拟中，与 Geskus (2001) 的 IPW 估计量对比，新方法的 MSE 低 20-40%，尤其在 \(t < c_L\) 区域。

🔎 结论是否比证明窄¶

由于无法判断，留空：研究者需阅读全文确认文中对 \(t < c_L\) 的估计是基于什么假设（平滑性、参数外推、或使用普遍病例的年龄分布估计）。如果仅是通过某种外推公式而非严格识别，其 claim 可能比证明更强。

四、开放问题（扎根具体语句）¶

效率提升的精确度量：摘要声称“increased efficiency”，但未量化在何种条件下提升多少。扎根于摘要第一句对比。研究者可查阅论文中的渐近方差对比公式，看是否在所有子区间都提升，还是只在低龄段提升。
低龄段 CIF 的可识别性：对于 \(t < c_L\)，CIF 可估计依赖于什么结构假设？是通过普遍病例的年龄分布反推之，还是通过假设一个参数模型（如 Gompertz 或 Weibull）？这关系到方法论的可迁移性。扎根摘要第二点“CIF estimation for ages before the lower limit”。
对双删失的扩展：若同时存在疾病发生时间的左截断和右截断（如由于竞争风险移除），该框架是否成立？摘要未提，但这是流行病学常见问题。
竞争风险的处理：当有多个竞争原因（如因其他原因死亡）时，截断独立性假设是否合理？如果竞争死亡与左截断相关，则 CIF 估计可能偏倚。本文的假设是否允许协变量调整？需读全文。

注意：以上开放问题均基于摘要和领域知识推断，具体扎根点需阅读全文确认。研究者若想验证 gap 是否真实，建议搜索该子领域（LTRC 下的 CIF 估计）最近 5 篇论文的引言，看是否一致将“利用普遍病例”视为未解决问题。

Maintained by 陈星宇 · Homepage · Source on GitHub