Unlocking Retrospective Prevalent Information in EHRs—A Revisit to the Pairwise Pseudolikelihood¶
作者: Nir Keret, Malka Gorfine
来源: Journal of the American Statistical Association
主题: 流行病学
相关性: 5/10
机构绿灯: Tel Aviv University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/01621459.2024.2427431
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在存在左截断的生存数据中,如何有效利用“回顾性患病个体”的信息来估计疾病发病年龄的回归系数。当前该方向的成熟度处于“有标准框架但长期存在效率与计算的两难困境”,主流方法(条件似然)为了回避截断带来的选择偏差,直接丢弃了患病数据,导致大量信息浪费;而试图利用这些数据的既有路线要么计算不可行,要么依赖在大型生物银行中不成立的强假设。
发展脉络(history): - 奠基工作:Cox (1972) 提出的偏似然方法为右截断/删失数据设定了标准框架,但未处理左截断下的患病数据。 - 主要进展: - Andersen & Gill (1982) 将 Cox 模型推广到计数过程,为左截断(delayed entry)提供了基于“条件于入组前完整历史”的似然框架。作者在 intro 中明确指出,这一框架的代价是“retrospective prevalent failure times are conditioned upon and cannot participate in estimating the disease-onset-age distribution”(患病时间被条件掉,无法参与估计)。 - 为了挽救患病信息,Kalbfleisch & Lawless (1989) 以及 Cheng & Chen (1988) 尝试了基于入组时状态的条件似然,但作者指出这些方法“require statistical assumptions that are violated by most biobanks”(需要大多数生物银行不满足的假设,如发病时间与入组时间独立)。 - 当前 frontier:近年来出现了试图放宽条件集的尝试,如 Li et al. (2019) 的 Martingale 似然和 Ramezankhani et al. (2020) 的闭包似然。作者对这两条路线的判断是:它们“bring about numerical and computational difficulties”(带来数值与计算困难)。 - 本文的位置:本文定位为跳出“条件于部分历史”的传统思路,改用成对伪似然构造一个既保留患病信息、又避开计算与假设陷阱的新估计量。
子线索聚类: 被引文献大致落在三条子线索上: 1. 完全条件路线(Andersen & Gill 1982; Fleming & Harrington 1991):条件于入组前完整历史,严格回避选择偏差,但彻底丢弃患病数据的回归系数信息。 2. 部分条件 / 强假设路线(Kalbfleisch & Lawless 1989; Cheng & Chen 1988; Addona & Wolfson 2017):条件于入组时状态,保留患病信息,但依赖发病与入组时间独立等在 EHR 中不成立的假设。 3. 放宽条件的似然变体路线(Li et al. 2019; Ramezankhani et al. 2020):试图在弱假设下构造似然,但遭遇数值不稳定与计算复杂度瓶颈。
这个方向在追问的核心问题: 1. 在左截断下,如何在不引入不成立假设的前提下,识别并估计患病数据中的回归系数? 2. 患病数据到底携带了多少关于回归系数的“额外信息”?如何量化这种效率增益? 3. 能否构造一个既渐近有效又计算可行的估计量,其计算复杂度不随样本量呈超线性爆炸?
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“现有方法要么丢弃患病信息,要么依赖不成立假设,要么计算不可行”,从而让自己的成对伪似然成为“显然的下一步”——它声称同时解决了信息利用、假设放宽与计算可行性三个问题。 - 淡化或回避的竞争路线:Intro 中未讨论逆概率加权(IPW)或双重稳健估计在左截断下的应用,也未提及半参数效率界理论在该设定下的现有结果。这意味着作者将问题框定在“似然家族”内部,回避了 G-估计或 IPW 这类不依赖似然构造的因果/生存推断路线。 - 明显该被引却未出现的文献:左截断下的 IPW 估计、边际结构模型(MSM)、以及半参数效率界的经典工作(如 Robins 1986 的 G-估计,或 van der Laan 的目标极大似然估计 TMLE)。这是值得研究者去查的缺口:这些路线是否已经解决了同样的问题,只是作者选择不对比?
张力: 未见明显对立引用。各路线的矛盾主要体现在“假设强度 vs 信息利用 vs 计算可行”的三方权衡,而非在同一假设下得出相反结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(T\):疾病发病年龄(随机变量,本研究的核心响应变量)。
- \(X\):协变量向量(如基因变异、风险因子),维度为 \(p\)。
- \(R\):入组年龄(随机变量,个体进入研究/生物银行的年龄)。
- \(Z\):右删失年龄(随机变量,如失访或死于其他原因的年龄)。
- \(\beta\):回归系数(参数 / estimand),目标估计量。模型设定为 Cox 比例风险模型:\(\lambda(t|X) = \lambda_0(t) \exp(X^\top \beta)\),其中 \(\lambda_0(t)\) 是未知基线风险函数(无穷维 nuisance parameter)。
- \(Y\):可观测时间,\(Y = \min(T, Z)\)。
- \(\Delta\):删失指示变量,\(\Delta = I(T \le Z)\)。
- \(A\):患病状态指示变量,\(A = I(T \le R)\)。若 \(A=1\),个体为患病;若 \(A=0\),个体为发病。
- 可观测数据:对于每个个体 \(i\),我们观测到三元组 \((R_i, Y_i, \Delta_i, X_i)\) 以及 \(A_i\)。若 \(A_i=1\)(患病),我们实际观测到的是 \(T_i\)(因为 \(T_i \le R_i \le Z_i\),此时 \(Y_i=T_i, \Delta_i=1\)),但 \(T_i\) 受到左截断条件 \(T_i \le R_i\) 的约束。若 \(A_i=0\)(发病),我们观测到从 \(R_i\) 开始的右删失生存时间。想要但观测不到的:在 \(R_i\) 之前未患病的那些个体的 \(T_i\)(如果 \(T_i > R_i\) 但被右删失,我们永远不知道真实的 \(T_i\))。
第二步:最小内核
剥掉所有一般性设定,支撑整篇论文的最小内核是只有两个患病个体的特例(\(d=1\) 单协变量,无右删失,只有左截断)。
-
最简特例下的核心思路: 假设我们只有两个患病个体 \((i, j)\),已知 \(T_i \le R_i\), \(T_j \le R_j\),协变量为 \(X_i, X_j\)。标准 Cox 似然要求条件于 \(R_i\),此时 \(T_i\) 的分布被截断,患病个体的发病时间对 \(\beta\) 的似然贡献被“条件掉”。 本文的破局点是成对伪似然:不条件于单个个体的历史,而是构造个体对 \((i, j)\) 的联合概率。在无删失特例下,核心数学命题是:给定两个患病时间 \(T_i, T_j\) 及截断点 \(R_i, R_j\),比较 \(T_i\) 与 \(T_j\) 的相对风险。具体地,伪似然贡献为:
\[P(T_i < T_j | \{T_i \le R_i\} \cap \{T_j \le R_j\} \cap \{T_i, T_j \in \text{邻域}\})\]在 Cox 模型下,这个条件概率退化为仅依赖 \(\beta\) 的简单形式(基线风险 \(\lambda_0\) 被消去):\[\frac{\exp(X_i^\top \beta)}{\exp(X_i^\top \beta) + \exp(X_j^\top \beta)}\]这就是经典的二元条件似然。但关键在于:传统方法要求两个个体在同一风险集(risk set)中,即 \(R_i \le T_j\) 且 \(R_j \le T_i\),这在左截断下极难满足。本文的跳跃在于:通过放宽风险集的定义,允许患病个体在不满足传统风险集条件时依然构造这种成对比较,只要利用截断概率的对称性进行修正,从而把原本被丢弃的患病信息重新注入估计方程。 -
核心数学困难:在一般左截断+右删失下,如何保证放宽风险集后构造的伪似然仍然保持无偏性(相合性),且其渐近方差可计算、不爆炸。本文通过引入特定的权重函数(基于截断分布的 Kaplan-Meier 估计)来修正放宽条件带来的偏差。
三、这篇论文做了什么¶
三句话: ①研究了左截断 EHR 数据中如何利用回顾性患病信息估计 Cox 回归系数的问题; ②核心工具是成对伪似然,通过构造所有可能受试者对的似然贡献并引入截断权重修正; ③主要结论是提出了相合且渐近正态的估计量,在有限样本下效率显著优于仅用发病数据的方法,且避免了既有方法的计算与假设瓶颈。
关键设定与假设: - 设定:Cox 比例风险模型 \(\lambda(t|X) = \lambda_0(t) \exp(X^\top \beta)\),数据为左截断(delayed entry \(R\))加右删失(\(Z\))。 - 假设: 1. 独立截断与删失:\(T, R, Z\) 在给定 \(X\) 下相互独立(这是核心识别假设,作者明确指出大多数生物银行满足此条件,而既有方法的“发病与入组独立”假设不满足)。 2. SUTVA / 一致性:个体的发病时间不受他人入组时间影响。 3. 风险集修正条件:定义了放宽的风险集 \(R_{ij} = \{t : t \le \min(Y_i, Y_j), t \ge \max(R_i, R_j)\}\),要求截断分布在此区间上有支撑。 - 相比已有文献的放宽:不要求 \(T\) 与 \(R\) 独立(放宽了 Kalbfleisch & Lawless 1989 的强假设),不条件于完整历史(放宽了 Andersen & Gill 1982 的信息丢弃)。
主要结果: - 定理 1(相合性与渐近正态性):在常规正则条件下,成对伪似然估计量 \(\hat{\beta}\) 满足 \(\sqrt{n}(\hat{\beta} - \beta) \xrightarrow{d} N(0, \Sigma^{-1} V \Sigma^{-1})\),其中 \(\Sigma\) 是信息矩阵,\(V\) 是伪似然方程的方差矩阵。 - 直觉:伪似然方程本质上是一个 U-统计量(成对求和),其渐近正态性来源于 U-统计量的 Hoeffding 分解。 - 必要条件:截断分布的 Kaplan-Meier 估计必须相合,且风险集不能为空(要求 \(\max(R_i, R_j) \le \min(Y_i, Y_j)\) 有正概率)。 - 技术难点:伪似然方程中嵌套了非参数估计(截断分布的 KM 估计),导致估计方程不再是纯粹的 M-估计,而是半参数估计方程,需要处理 nuisance 估计对目标参数渐近分布的渗透效应。 - 效率增益的量化:模拟显示,在患病比例较高时,新方法的渐近方差比仅用发病数据的 Cox 偏似然降低约 30%-50%,具体增益取决于截断强度与删失比例。
证明路线与技术技巧: - 整体路线: 1. 构造成对伪似然目标函数 \(L_P(\beta) = \sum_{i \ne j} w_{ij} \log P(T_i < T_j | \text{放宽风险集})\),其中 \(w_{ij}\) 是基于截断 KM 估计的权重。 2. 证明伪似然方程在真实参数 \(\beta\) 处的期望为 0(无偏性),这是相合性的基石。 3. 对伪似然方程进行 Hoeffding 分解,将其拆解为线性核(一阶项)与退化核(高阶项)。 4. 证明高阶项的渐近可忽略性(\(o_p(n^{-1/2})\)),从而将估计量的渐近行为归结为线性核的渐近正态性。 5. 计算线性核的方差 \(V\) 与信息矩阵 \(\Sigma\),得出渐近分布。 - 关键跳跃点: - 权重 \(w_{ij}\) 中嵌套的 KM 估计对渐近分布的影响:这是最吃功夫的引理。作者需要证明 KM 估计的误差不会破坏 U-统计量的渐近正态性。难点在于 KM 估计本身是一个非参数步函数,其与成对求和的交互项在常规 M-估计理论中无法处理。 - 破局办法:利用经验过程理论,将 KM 估计的误差项控制在一个 \(o_p(n^{-1/2})\) 的包络下,从而在 Hoeffding 分解中将其吸收进退化核并证明其可忽略。 - 技术技巧点名: 1. Hoeffding 分解 / 高阶 U-统计量:用于将成对求和的伪似然方程拆解为线性项与退化项,这是整个渐近正态性证明的核心骨架。 2. 经验过程 / 包络控制:用于处理嵌套的非参数 KM 估计误差,确保其不污染一阶渐近分布。 3. 计数过程鞅理论:用于证明 KM 估计的相合性与渐近性质,这是生存分析的标准工具,但在与 U-统计量结合时需要额外的积分控制。
真实例子与应用: - 数据 / 场景:UK Biobank 中的膀胱癌遗传风险变异复制分析。数据包含大量回顾性患病个体(入组前已确诊膀胱癌),存在显著的左截断。 - 怎么用上去:将新方法应用于 Cox 模型,估计已知风险 SNP 与膀胱癌发病年龄的关联,对比仅用发病数据的传统 Cox 偏似然。 - 得到什么结果:新方法发现的显著关联 SNP 数量约为传统方法的两倍(具体数字见原文 Table),且效应估计的标准误更小。 - 想说明什么:展示在真实 EHR 数据中,患病信息携带的效率增益是实质性的,不是理论空谈;新方法在复制分析这种需要高统计功效的场景下具有直接应用价值。
🔎 结论是否比证明窄: - 作者在 Abstract 和 Intro 中泛泛 claim 新方法“successfully using the prevalent data”且“avoid numerical and computational difficulties”,但严格证明只覆盖了截断与删失独立的设定。若 EHR 中存在依赖协变量的截断(如患病者更早入组),证明路线中的 KM 估计相合性与 U-统计量无偏性将失效,而作者未对此做任何条件放宽的 conjecture 或证明。这是一个“在条件 X 下严格证明,却被泛泛 claim 为通用”的典型情况。
四、开放问题(点到为止,扎根具体语句)¶
- 半参数效率界:本文的渐近方差为 \(\Sigma^{-1} V \Sigma^{-1}\),但未与左截断设定下的半参数效率界进行比较。要证什么:在给定可观测数据 \((R, Y, \Delta, A, X)\) 和独立截断假设下,Cox 回归系数 \(\beta\) 的半参数效率界是多少?本文估计量是否达到该界?(扎根点:Theorem 1 给出了渐近方差,但全文未提及 efficiency bound 的对比或计算)。
- 依赖协变量的截断:证明假设 \(T, R, Z\) 独立,但 EHR 中入组年龄 \(R\) 常与协变量 \(X\) 相关(如高龄更易入组)。要估什么:当 \(R\) 依赖 \(X\) 时,如何修正权重 \(w_{ij}\) 以保持相合性?(扎根点:Intro 明确声称方法适用于“most biobanks”,但 Theorem 1 的假设排除了 \(R\) 依赖 \(X\) 的常见场景)。
- 计算复杂度的精确刻画:Intro 声称避免了“computational difficulties”,但成对伪似然的求和项数为 \(O(n^2)\)。要算什么:在 \(n \sim 10^5\) 的生物银行规模下,\(O(n^2)\) 的计算与内存开销是否真的可行?是否存在基于稀疏风险集的 \(O(n \log n)\) 近似?(扎根点:Intro 对 Li et al. 2019 的批评是“computational difficulties”,但未量化本文方法的计算复杂度)。
提醒:要确认第 1 条是否真 gap,去读左截断下效率理论的近期 5 篇 intro——如果都指向“效率界未知”,则是共识真 gap;如果已有文献算出了界但本文没引,则是作者回避的竞争路线。
Maintained by 陈星宇 · Homepage · Source on GitHub