Unlocking Retrospective Prevalent Information in EHRs—A Revisit to the Pairwise Pseudolikelihood¶

作者: Nir Keret, Malka Gorfine
来源: Journal of the American Statistical Association
主题: 流行病学
相关性: 5/10
机构绿灯: Tel Aviv University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2024.2427431

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在左截断的生存数据中，如何有效利用“回顾性患病个体”的信息来估计疾病发病年龄的回归系数。当前该方向的成熟度处于“有标准框架但长期存在效率与计算的两难困境”，主流方法（条件似然）为了回避截断带来的选择偏差，直接丢弃了患病数据，导致大量信息浪费；而试图利用这些数据的既有路线要么计算不可行，要么依赖在大型生物银行中不成立的强假设。

发展脉络（history）： - 奠基工作：Cox (1972) 提出的偏似然方法为右截断/删失数据设定了标准框架，但未处理左截断下的患病数据。 - 主要进展： - Andersen & Gill (1982) 将 Cox 模型推广到计数过程，为左截断（delayed entry）提供了基于“条件于入组前完整历史”的似然框架。作者在 intro 中明确指出，这一框架的代价是“retrospective prevalent failure times are conditioned upon and cannot participate in estimating the disease-onset-age distribution”（患病时间被条件掉，无法参与估计）。 - 为了挽救患病信息，Kalbfleisch & Lawless (1989) 以及 Cheng & Chen (1988) 尝试了基于入组时状态的条件似然，但作者指出这些方法“require statistical assumptions that are violated by most biobanks”（需要大多数生物银行不满足的假设，如发病时间与入组时间独立）。 - 当前 frontier：近年来出现了试图放宽条件集的尝试，如 Li et al. (2019) 的 Martingale 似然和 Ramezankhani et al. (2020) 的闭包似然。作者对这两条路线的判断是：它们“bring about numerical and computational difficulties”（带来数值与计算困难）。 - 本文的位置：本文定位为跳出“条件于部分历史”的传统思路，改用成对伪似然构造一个既保留患病信息、又避开计算与假设陷阱的新估计量。

子线索聚类：被引文献大致落在三条子线索上： 1. 完全条件路线（Andersen & Gill 1982; Fleming & Harrington 1991）：条件于入组前完整历史，严格回避选择偏差，但彻底丢弃患病数据的回归系数信息。 2. 部分条件 / 强假设路线（Kalbfleisch & Lawless 1989; Cheng & Chen 1988; Addona & Wolfson 2017）：条件于入组时状态，保留患病信息，但依赖发病与入组时间独立等在 EHR 中不成立的假设。 3. 放宽条件的似然变体路线（Li et al. 2019; Ramezankhani et al. 2020）：试图在弱假设下构造似然，但遭遇数值不稳定与计算复杂度瓶颈。

这个方向在追问的核心问题： 1. 在左截断下，如何在不引入不成立假设的前提下，识别并估计患病数据中的回归系数？ 2. 患病数据到底携带了多少关于回归系数的“额外信息”？如何量化这种效率增益？ 3. 能否构造一个既渐近有效又计算可行的估计量，其计算复杂度不随样本量呈超线性爆炸？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有方法要么丢弃患病信息，要么依赖不成立假设，要么计算不可行”，从而让自己的成对伪似然成为“显然的下一步”——它声称同时解决了信息利用、假设放宽与计算可行性三个问题。 - 淡化或回避的竞争路线：Intro 中未讨论逆概率加权（IPW）或双重稳健估计在左截断下的应用，也未提及半参数效率界理论在该设定下的现有结果。这意味着作者将问题框定在“似然家族”内部，回避了 G-估计或 IPW 这类不依赖似然构造的因果/生存推断路线。 - 明显该被引却未出现的文献：左截断下的 IPW 估计、边际结构模型（MSM）、以及半参数效率界的经典工作（如 Robins 1986 的 G-估计，或 van der Laan 的目标极大似然估计 TMLE）。这是值得研究者去查的缺口：这些路线是否已经解决了同样的问题，只是作者选择不对比？

张力：未见明显对立引用。各路线的矛盾主要体现在“假设强度 vs 信息利用 vs 计算可行”的三方权衡，而非在同一假设下得出相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(T\)：疾病发病年龄（随机变量，本研究的核心响应变量）。
\(X\)：协变量向量（如基因变异、风险因子），维度为 \(p\)。
\(R\)：入组年龄（随机变量，个体进入研究/生物银行的年龄）。
\(Z\)：右删失年龄（随机变量，如失访或死于其他原因的年龄）。
\(\beta\)：回归系数（参数 / estimand），目标估计量。模型设定为 Cox 比例风险模型：\(\lambda(t|X) = \lambda_0(t) \exp(X^\top \beta)\)，其中 \(\lambda_0(t)\) 是未知基线风险函数（无穷维 nuisance parameter）。
\(Y\)：可观测时间，\(Y = \min(T, Z)\)。
\(\Delta\)：删失指示变量，\(\Delta = I(T \le Z)\)。
\(A\)：患病状态指示变量，\(A = I(T \le R)\)。若 \(A=1\)，个体为患病；若 \(A=0\)，个体为发病。
可观测数据：对于每个个体 \(i\)，我们观测到三元组 \((R_i, Y_i, \Delta_i, X_i)\) 以及 \(A_i\)。若 \(A_i=1\)（患病），我们实际观测到的是 \(T_i\)（因为 \(T_i \le R_i \le Z_i\)，此时 \(Y_i=T_i, \Delta_i=1\)），但 \(T_i\) 受到左截断条件 \(T_i \le R_i\) 的约束。若 \(A_i=0\)（发病），我们观测到从 \(R_i\) 开始的右删失生存时间。想要但观测不到的：在 \(R_i\) 之前未患病的那些个体的 \(T_i\)（如果 \(T_i > R_i\) 但被右删失，我们永远不知道真实的 \(T_i\)）。

第二步：最小内核

剥掉所有一般性设定，支撑整篇论文的最小内核是只有两个患病个体的特例（\(d=1\) 单协变量，无右删失，只有左截断）。

最简特例下的核心思路：假设我们只有两个患病个体 \((i, j)\)，已知 \(T_i \le R_i\), \(T_j \le R_j\)，协变量为 \(X_i, X_j\)。标准 Cox 似然要求条件于 \(R_i\)，此时 \(T_i\) 的分布被截断，患病个体的发病时间对 \(\beta\) 的似然贡献被“条件掉”。本文的破局点是成对伪似然：不条件于单个个体的历史，而是构造个体对 \((i, j)\) 的联合概率。在无删失特例下，核心数学命题是：给定两个患病时间 \(T_i, T_j\) 及截断点 \(R_i, R_j\)，比较 \(T_i\) 与 \(T_j\) 的相对风险。具体地，伪似然贡献为：
\[P(T_i < T_j | \{T_i \le R_i\} \cap \{T_j \le R_j\} \cap \{T_i, T_j \in \text{邻域}\})\]
在 Cox 模型下，这个条件概率退化为仅依赖 \(\beta\) 的简单形式（基线风险 \(\lambda_0\) 被消去）：
\[\frac{\exp(X_i^\top \beta)}{\exp(X_i^\top \beta) + \exp(X_j^\top \beta)}\]
这就是经典的二元条件似然。但关键在于：传统方法要求两个个体在同一风险集（risk set）中，即 \(R_i \le T_j\) 且 \(R_j \le T_i\)，这在左截断下极难满足。本文的跳跃在于：通过放宽风险集的定义，允许患病个体在不满足传统风险集条件时依然构造这种成对比较，只要利用截断概率的对称性进行修正，从而把原本被丢弃的患病信息重新注入估计方程。
核心数学困难：在一般左截断+右删失下，如何保证放宽风险集后构造的伪似然仍然保持无偏性（相合性），且其渐近方差可计算、不爆炸。本文通过引入特定的权重函数（基于截断分布的 Kaplan-Meier 估计）来修正放宽条件带来的偏差。

三、这篇论文做了什么¶

三句话： ①研究了左截断 EHR 数据中如何利用回顾性患病信息估计 Cox 回归系数的问题； ②核心工具是成对伪似然，通过构造所有可能受试者对的似然贡献并引入截断权重修正； ③主要结论是提出了相合且渐近正态的估计量，在有限样本下效率显著优于仅用发病数据的方法，且避免了既有方法的计算与假设瓶颈。

关键设定与假设： - 设定：Cox 比例风险模型 \(\lambda(t|X) = \lambda_0(t) \exp(X^\top \beta)\)，数据为左截断（delayed entry \(R\)）加右删失（\(Z\)）。 - 假设： 1. 独立截断与删失：\(T, R, Z\) 在给定 \(X\) 下相互独立（这是核心识别假设，作者明确指出大多数生物银行满足此条件，而既有方法的“发病与入组独立”假设不满足）。 2. SUTVA / 一致性：个体的发病时间不受他人入组时间影响。 3. 风险集修正条件：定义了放宽的风险集 \(R_{ij} = \{t : t \le \min(Y_i, Y_j), t \ge \max(R_i, R_j)\}\)，要求截断分布在此区间上有支撑。 - 相比已有文献的放宽：不要求 \(T\) 与 \(R\) 独立（放宽了 Kalbfleisch & Lawless 1989 的强假设），不条件于完整历史（放宽了 Andersen & Gill 1982 的信息丢弃）。

主要结果： - 定理 1（相合性与渐近正态性）：在常规正则条件下，成对伪似然估计量 \(\hat{\beta}\) 满足 \(\sqrt{n}(\hat{\beta} - \beta) \xrightarrow{d} N(0, \Sigma^{-1} V \Sigma^{-1})\)，其中 \(\Sigma\) 是信息矩阵，\(V\) 是伪似然方程的方差矩阵。 - 直觉：伪似然方程本质上是一个 U-统计量（成对求和），其渐近正态性来源于 U-统计量的 Hoeffding 分解。 - 必要条件：截断分布的 Kaplan-Meier 估计必须相合，且风险集不能为空（要求 \(\max(R_i, R_j) \le \min(Y_i, Y_j)\) 有正概率）。 - 技术难点：伪似然方程中嵌套了非参数估计（截断分布的 KM 估计），导致估计方程不再是纯粹的 M-估计，而是半参数估计方程，需要处理 nuisance 估计对目标参数渐近分布的渗透效应。 - 效率增益的量化：模拟显示，在患病比例较高时，新方法的渐近方差比仅用发病数据的 Cox 偏似然降低约 30%-50%，具体增益取决于截断强度与删失比例。

证明路线与技术技巧： - 整体路线： 1. 构造成对伪似然目标函数 \(L_P(\beta) = \sum_{i \ne j} w_{ij} \log P(T_i < T_j | \text{放宽风险集})\)，其中 \(w_{ij}\) 是基于截断 KM 估计的权重。 2. 证明伪似然方程在真实参数 \(\beta\) 处的期望为 0（无偏性），这是相合性的基石。 3. 对伪似然方程进行 Hoeffding 分解，将其拆解为线性核（一阶项）与退化核（高阶项）。 4. 证明高阶项的渐近可忽略性（\(o_p(n^{-1/2})\)），从而将估计量的渐近行为归结为线性核的渐近正态性。 5. 计算线性核的方差 \(V\) 与信息矩阵 \(\Sigma\)，得出渐近分布。 - 关键跳跃点： - 权重 \(w_{ij}\) 中嵌套的 KM 估计对渐近分布的影响：这是最吃功夫的引理。作者需要证明 KM 估计的误差不会破坏 U-统计量的渐近正态性。难点在于 KM 估计本身是一个非参数步函数，其与成对求和的交互项在常规 M-估计理论中无法处理。 - 破局办法：利用经验过程理论，将 KM 估计的误差项控制在一个 \(o_p(n^{-1/2})\) 的包络下，从而在 Hoeffding 分解中将其吸收进退化核并证明其可忽略。 - 技术技巧点名： 1. Hoeffding 分解 / 高阶 U-统计量：用于将成对求和的伪似然方程拆解为线性项与退化项，这是整个渐近正态性证明的核心骨架。 2. 经验过程 / 包络控制：用于处理嵌套的非参数 KM 估计误差，确保其不污染一阶渐近分布。 3. 计数过程鞅理论：用于证明 KM 估计的相合性与渐近性质，这是生存分析的标准工具，但在与 U-统计量结合时需要额外的积分控制。

真实例子与应用： - 数据 / 场景：UK Biobank 中的膀胱癌遗传风险变异复制分析。数据包含大量回顾性患病个体（入组前已确诊膀胱癌），存在显著的左截断。 - 怎么用上去：将新方法应用于 Cox 模型，估计已知风险 SNP 与膀胱癌发病年龄的关联，对比仅用发病数据的传统 Cox 偏似然。 - 得到什么结果：新方法发现的显著关联 SNP 数量约为传统方法的两倍（具体数字见原文 Table），且效应估计的标准误更小。 - 想说明什么：展示在真实 EHR 数据中，患病信息携带的效率增益是实质性的，不是理论空谈；新方法在复制分析这种需要高统计功效的场景下具有直接应用价值。

🔎 结论是否比证明窄： - 作者在 Abstract 和 Intro 中泛泛 claim 新方法“successfully using the prevalent data”且“avoid numerical and computational difficulties”，但严格证明只覆盖了截断与删失独立的设定。若 EHR 中存在依赖协变量的截断（如患病者更早入组），证明路线中的 KM 估计相合性与 U-统计量无偏性将失效，而作者未对此做任何条件放宽的 conjecture 或证明。这是一个“在条件 X 下严格证明，却被泛泛 claim 为通用”的典型情况。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界：本文的渐近方差为 \(\Sigma^{-1} V \Sigma^{-1}\)，但未与左截断设定下的半参数效率界进行比较。要证什么：在给定可观测数据 \((R, Y, \Delta, A, X)\) 和独立截断假设下，Cox 回归系数 \(\beta\) 的半参数效率界是多少？本文估计量是否达到该界？（扎根点：Theorem 1 给出了渐近方差，但全文未提及 efficiency bound 的对比或计算）。
依赖协变量的截断：证明假设 \(T, R, Z\) 独立，但 EHR 中入组年龄 \(R\) 常与协变量 \(X\) 相关（如高龄更易入组）。要估什么：当 \(R\) 依赖 \(X\) 时，如何修正权重 \(w_{ij}\) 以保持相合性？（扎根点：Intro 明确声称方法适用于“most biobanks”，但 Theorem 1 的假设排除了 \(R\) 依赖 \(X\) 的常见场景）。
计算复杂度的精确刻画：Intro 声称避免了“computational difficulties”，但成对伪似然的求和项数为 \(O(n^2)\)。要算什么：在 \(n \sim 10^5\) 的生物银行规模下，\(O(n^2)\) 的计算与内存开销是否真的可行？是否存在基于稀疏风险集的 \(O(n \log n)\) 近似？（扎根点：Intro 对 Li et al. 2019 的批评是“computational difficulties”，但未量化本文方法的计算复杂度）。

提醒：要确认第 1 条是否真 gap，去读左截断下效率理论的近期 5 篇 intro——如果都指向“效率界未知”，则是共识真 gap；如果已有文献算出了界但本文没引，则是作者回避的竞争路线。

Maintained by 陈星宇 · Homepage · Source on GitHub

Unlocking Retrospective Prevalent Information in EHRs—A Revisit to the Pairwise Pseudolikelihood¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论