Efficient estimation for left-truncated competing risks regression for case-cohort studies¶
作者: Xi Fang, Kwang Woo Ahn, Jianwen Cai, Soyoung Kim
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujad008
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向解决的根本问题是:在病例队列研究(case-cohort study) 这种成本节约型设计下,如何对左截断(left truncation) 且存在竞争风险(competing risks) 的生存数据进行有效的因果推断。具体而言,是在比例子分布风险模型(proportional subdistribution hazards model, PSH model) 框架下,估计协变量对累积发生率函数(cumulative incidence function, CIF) 的直接效应。当前成熟度:方法学上已有大量工作,但左截断与病例队列设计的结合点尚未被充分探索,且现有方法的效率有提升空间。
发展脉络(history)¶
-
奠基工作:竞争风险与PSH模型
- Fine & Gray (1999):提出了比例子分布风险模型,直接建模协变量对CIF的效应,成为竞争风险数据的标准工具。这是本领域所有后续工作的基础。
- Klein & Andersen (2005):提出了竞争风险数据的逆概率删失加权(IPCW)估计方法,为处理删失数据提供了框架。
-
主要进展:病例队列设计下的PSH模型
- Borgan et al. (2000):首次将病例队列设计引入生存分析,提出了逆概率加权(IPW)估计方法。这是病例队列设计的奠基性工作。
- Kim et al. (2013):将PSH模型与病例队列设计结合,提出了针对竞争风险数据的IPW估计方法。这是本文的直接前驱工作。作者指出,该方法“没有处理左截断”,且“对完全观测协变量的回归参数估计效率较低”。
-
当前Frontier:处理左截断与提升效率
- 左截断的挑战:左截断(如研究开始时个体已存活一段时间)会导致选择偏倚,需要调整风险集。现有病例队列+竞争风险的方法(如Kim et al. 2013)未处理此问题。
- 效率提升:在病例队列设计中,子队列(subcohort)中的协变量被完全观测,但IPW方法仅使用子队列信息,浪费了全队列中其他个体的部分协变量信息。增广逆概率加权(AIPW) 是提升效率的标准工具,但在竞争风险+左截断+病例队列的复合设定下尚未被应用。
-
本文的位置:本文是上述脉络的“显然的下一步”——它同时填补了左截断和效率提升两个缺口。作者将AIPW思想扩展到左截断竞争风险数据的病例队列设计中,并进一步利用其他竞争原因的信息提出更高效的估计量。
子线索聚类¶
这些被引文献大致落在以下2条子线索上:
-
方法学线索:病例队列设计下的生存分析
- 核心工作:Borgan et al. (2000), Kim et al. (2013), 以及本文。
- 共同目标:在病例队列设计下,对删失/竞争风险数据进行有效估计。
- 当前瓶颈:如何处理左截断、如何利用全队列信息提升效率。
-
应用线索:竞争风险数据的因果推断
- 核心工作:Fine & Gray (1999), Klein & Andersen (2005)。
- 共同目标:在存在竞争风险时,估计协变量对CIF的因果效应。
- 当前瓶颈:如何将标准方法(如IPCW、AIPW)适配到更复杂的设计(如病例队列)和数据特征(如左截断)。
这个方向在追问的核心问题¶
- 如何识别:在左截断和病例队列设计下,PSH模型中的回归参数是否可识别?需要哪些假设?
- 如何估计:如何构造一致且渐近正态的估计方程?如何利用全队列信息(如其他竞争原因的信息)提升效率?
- 效率界:在给定设计下,回归参数估计的渐近方差下界是多少?本文提出的AIPW估计量是否达到了这个下界?(本文未讨论此问题,是开放问题)
- 稳健性:当模型假设(如PSH模型、左截断机制)被违反时,估计量的表现如何?
⚠️ 作者的 framing¶
- 作者的缺口frame:作者将缺口frame成“现有方法未处理左截断”且“效率低”。这使得本文成为“显然的下一步”——只需将AIPW思想适配到左截断+病例队列+竞争风险的复合设定下。
- 被淡化/回避的竞争路线:作者没有讨论非参数或半参数方法(如直接对CIF进行非参数估计),而是直接假设PSH模型成立。这回避了模型误设的风险。此外,作者没有讨论工具变量或代理变量等更复杂的因果识别策略,而是假设协变量对CIF的效应是直接且可识别的。
- 什么明显该被引/该存在、却没出现在intro里?:作者没有引用任何关于增广逆概率加权(AIPW) 在生存分析中的通用理论(如Robins & Rotnitzky 1992, van der Laan & Robins 2003)。虽然这些是更早的文献,但它们是AIPW方法的理论基础。作者直接应用了AIPW思想,但没有引用其理论源头。这值得研究者去查:作者是否在方法上做了原创性贡献,还是仅仅是应用了已知技术?此外,没有引用任何关于左截断的通用处理方法(如Andersen et al. 1993的计数过程理论)。
张力¶
未见明显对立引用。所有被引工作都沿着“在病例队列设计下,用IPW/AIPW方法估计PSH模型”这一主线推进,没有出现彼此矛盾或在不同条件下得相反结论的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- 个体:\(i = 1, \dots, n\),来自一个大小为\(N\)的全队列(full cohort)。
- 时间:\(T_i\):失效时间(failure time);\(C_i\):删失时间(censoring time);\(L_i\):左截断时间(left truncation time)。观测到的数据是\((X_i, \delta_i, L_i)\),其中\(X_i = \min(T_i, C_i)\),\(\delta_i\)是失效原因指示(\(\delta_i = 1\)表示感兴趣的原因1失效,\(\delta_i = 2\)表示其他原因失效,\(\delta_i = 0\)表示删失)。
- 协变量:\(Z_i\):\(p\)维协变量向量。
- 病例队列设计:从全队列中随机抽取一个子队列(subcohort),大小为\(\tilde{n}\)。子队列中所有个体的协变量\(Z_i\)被完全观测。此外,所有在随访期间发生感兴趣原因1失效的个体(即\(\delta_i = 1\)的个体,称为“病例”)的协变量也被完全观测。其他个体(非子队列成员且未发生原因1失效)的协变量未被观测。
- 观测指示:\(\xi_i\):个体\(i\)是否被选入子队列(\(\xi_i = 1\)表示是)。\(R_i\):个体\(i\)的协变量是否被完全观测(\(R_i = 1\)表示是)。注意:\(R_i = 1\)当且仅当\(\xi_i = 1\)或\(\delta_i = 1\)。
- 参数:\(\beta\):PSH模型中的\(p\)维回归系数向量,是我们要估计的目标参数(estimand)。
- 风险集:\(Y_i(t) = I(X_i \ge t > L_i)\):个体\(i\)在时间\(t\)是否处于风险中(考虑了左截断)。
- 子分布风险函数:\(\lambda_1(t|Z) = \lambda_{10}(t) \exp(\beta^T Z)\),其中\(\lambda_{10}(t)\)是原因1的基线子分布风险函数。
-
模型:
- 比例子分布风险模型(PSH模型):假设原因1的累积发生率函数\(F_1(t|Z) = P(T \le t, \delta = 1 | Z)\)满足\(F_1(t|Z) = 1 - \exp[-\Lambda_{10}(t) \exp(\beta^T Z)]\),其中\(\Lambda_{10}(t) = \int_0^t \lambda_{10}(s) ds\)是基线累积子分布风险函数。
- 左截断机制:假设左截断时间\(L_i\)与失效时间\(T_i\)和删失时间\(C_i\)独立,给定协变量\(Z_i\)。这是一个标准假设,用于保证风险集\(Y_i(t)\)的条件无偏性。
- 病例队列设计:子队列是随机抽取的,且病例的协变量被完全观测。这导致协变量缺失机制是可忽略的(ignorable),即缺失概率只依赖于可观测的失效状态\(\delta_i\),而不依赖于未观测的协变量\(Z_i\)本身。
-
可观测数据:
- 研究者实际能观测到的是:对于每个个体\(i\),观测到\((X_i, \delta_i, L_i)\)。对于子队列成员(\(\xi_i = 1\))或病例(\(\delta_i = 1\)),还观测到\(Z_i\)。对于其他个体,\(Z_i\)缺失。
- 想要但观测不到的是:非子队列成员且非病例的个体的协变量\(Z_i\)。这是病例队列设计带来的核心缺失数据问题。
第二步:讲最小内核¶
最简特例:假设只有一个协变量(\(p=1\)),且该协变量是二值的(\(Z_i \in \{0, 1\}\))。同时,假设没有左截断(\(L_i = 0\)对所有\(i\)成立),且没有删失(\(C_i = \infty\))。那么,我们观测到每个个体的失效时间\(T_i\)和失效原因\(\delta_i\),以及子队列成员或病例的\(Z_i\)。
在这个特例下,PSH模型退化为:
核心问题:如何利用病例队列设计下的不完全协变量数据,估计\(\beta\)?
标准IPW方法(如Kim et al. 2013)的估计方程为:
IPW的缺点:它只使用了\(R_i = 1\)的个体(即子队列成员和病例)的信息。对于\(R_i = 0\)的个体,其协变量\(Z_i\)缺失,但它们的失效时间\(T_i\)和失效原因\(\delta_i\)是已知的。IPW完全丢弃了这些个体的信息。
本文的AIPW方法:通过引入一个增广项,利用\(R_i = 0\)的个体的信息来提升效率。AIPW估计方程为:
核心思路: 1. 第一项:与IPW相同,使用\(R_i = 1\)的个体的观测协变量\(Z_i\)。 2. 第二项(增广项):对于\(R_i = 0\)的个体,我们无法观测到\(Z_i\),但我们可以用其条件期望\(\hat{E}[Z_i | \delta_i, T_i]\)来“填补”缺失的\(Z_i\)。这个条件期望可以从\(R_i = 1\)的个体中估计出来(例如,通过一个回归模型)。权重\((1 - R_i/\pi_i)\)确保了整个估计方程的无偏性。
为什么这能提升效率?:因为增广项利用了\(R_i = 0\)的个体的信息(通过条件期望),减少了IPW方法中因丢弃数据而带来的方差。当\(\hat{E}[Z_i | \delta_i, T_i]\)是\(E[Z_i | \delta_i, T_i]\)的一致估计时,AIPW估计量是双重稳健(doubly robust) 的:只要PSH模型或缺失机制模型(即\(\pi_i\)的模型)中有一个正确指定,估计量就是一致的。更重要的是,当两个模型都正确时,AIPW估计量的渐近方差小于或等于IPW估计量的渐近方差。
在这个最简特例下:\(Z_i\)是二值的,\(\hat{E}[Z_i | \delta_i, T_i]\)就是给定失效时间和失效原因下,\(Z_i=1\)的条件概率。这个概率可以通过一个简单的逻辑回归从\(R_i=1\)的个体中估计。然后,AIPW估计方程就变成了一个加权后的Cox部分似然方程,其中缺失的\(Z_i\)被其条件概率所替代。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在病例队列设计中,针对存在左截断的竞争风险数据,如何高效地估计比例子分布风险模型中的回归参数。
- 核心工具/方法:提出了增广逆概率加权(AIPW)估计方程,并进一步利用其他竞争原因(原因2)的失效信息,提出了一个更高效的AIPW估计量。
- 主要结论:所提出的两个估计量都是一致且渐近正态的。模拟研究验证了其无偏性和效率提升,尤其是在左截断比例较高时,效率增益更为显著。
关键设定与假设¶
- 设定:在第二节最小记号的基础上,补全完整设定:
- 左截断:\(L_i\)是左截断时间,且\(L_i < X_i\)。风险集定义为\(Y_i(t) = I(X_i \ge t > L_i)\)。
- 病例队列设计:子队列大小为\(\tilde{n}\),从全队列中随机抽取。所有病例(\(\delta_i = 1\))的协变量被完全观测。子队列中所有个体的协变量被完全观测。
- 观测指示:\(R_i = 1\)当且仅当个体\(i\)是子队列成员或病例。\(\xi_i = 1\)当且仅当个体\(i\)是子队列成员。
-
假设:
- H1 (PSH模型):原因1的子分布风险满足\(\lambda_1(t|Z) = \lambda_{10}(t) \exp(\beta^T Z)\)。
- H2 (左截断独立):给定\(Z\),\(L\)与\((T, C)\)独立。这是左截断分析的标准假设,用于保证风险集的条件无偏性。
- H3 (病例队列设计可忽略):协变量缺失机制是可忽略的,即\(P(R_i = 1 | \text{full data}) = P(R_i = 1 | \delta_i)\)。这意味着缺失概率只依赖于可观测的失效状态,而不依赖于未观测的协变量。这是病例队列设计的核心假设。
- H4 (正则条件):一些标准的技术正则条件,如有限时间区间、协变量有界、信息矩阵正定等,用于保证渐近理论成立。
-
相比已有文献的强化/放宽:
- 强化:本文同时处理了左截断和病例队列设计,这是Kim et al. (2013)等前驱工作未做到的。
- 放宽:本文没有假设协变量缺失是完全随机的(MCAR),而是假设了可忽略的缺失机制(MAR),这更符合实际。
主要结果¶
- 定理1 (AIPW估计量的一致性):在假设H1-H4下,AIPW估计量\(\hat{\beta}_{AIPW}\)是\(\beta\)的一致估计。
- 定理2 (AIPW估计量的渐近正态性):在假设H1-H4下,\(\sqrt{n}(\hat{\beta}_{AIPW} - \beta)\)渐近收敛到均值为0的正态分布,其协方差矩阵由三明治方差估计量给出。这个方差估计量包含了IPW部分和增广部分的贡献。
- 定理3 (更高效AIPW估计量):当额外利用其他竞争原因(原因2)的失效信息时,可以构造一个更高效的AIPW估计量\(\hat{\beta}_{AIPW2}\)。其渐近方差小于或等于\(\hat{\beta}_{AIPW}\)的渐近方差。直觉:原因2的失效提供了关于协变量\(Z\)的额外信息,有助于更准确地估计缺失协变量的条件期望,从而提升效率。
- 模拟研究:
- 场景:模拟了不同左截断比例(0%, 20%, 40%)和不同病例队列设计(子队列比例10%, 20%)下的数据。
- 对比方法:与Kim et al. (2013)的IPW方法(未处理左截断)和一种处理了左截断的IPW方法(称为“IPW-LT”)进行对比。
- 结果:
- 所有方法在无左截断时表现良好。
- 当存在左截断时,Kim et al. (2013)的IPW方法存在明显偏倚,而本文的AIPW方法和IPW-LT方法无偏。
- 本文的AIPW方法(尤其是利用原因2信息的AIPW2)的经验标准差和均方误差(MSE) 均小于IPW-LT方法,验证了效率提升。
- 效率增益在左截断比例较高时更为显著。
证明路线与技术技巧¶
-
整体路线:
- 构造AIPW估计方程:从标准的IPW估计方程出发,通过添加一个期望为0的增广项,得到AIPW估计方程。增广项的形式是\((1 - R_i/\pi_i) \times \text{(缺失协变量的条件期望的某种函数)}\)。
- 证明一致性:利用经验过程理论(empirical process theory) 和一致大数定律(uniform law of large numbers),证明AIPW估计方程在真实参数\(\beta\)处的期望为0,且该方程在\(\beta\)的邻域内一致收敛到其期望。然后,利用估计方程的可识别性,证明\(\hat{\beta}_{AIPW}\)收敛到\(\beta\)。
- 证明渐近正态性:对AIPW估计方程进行泰勒展开,得到\(\sqrt{n}(\hat{\beta}_{AIPW} - \beta)\)的线性近似。然后,利用中心极限定理证明该线性近似渐近正态。方差估计量通过三明治公式得到,其中“面包”部分是信息矩阵的逆,“肉”部分是估计方程方差的估计。
- 证明效率提升:通过比较AIPW估计量和IPW估计量的渐近方差,证明AIPW估计量的方差更小。这通常涉及到方差分解:AIPW估计量的方差等于IPW估计量的方差减去一个正定矩阵(由增广项带来的方差缩减)。
- 利用原因2信息:将增广项中的条件期望\(\hat{E}[Z_i | \delta_i, T_i]\)替换为\(\hat{E}[Z_i | \delta_i, T_i, \text{原因2失效信息}]\),从而利用更多信息,进一步降低方差。
-
关键跳跃点:
- 构造增广项:如何构造一个期望为0的增广项,使其既能利用缺失协变量的信息,又能保证估计方程的无偏性?这是AIPW方法的核心。作者直接应用了Robins & Rotnitzky (1992)的通用框架,但需要将其适配到左截断和竞争风险的设定下。
- 处理左截断:左截断使得风险集\(Y_i(t)\)依赖于\(L_i\),这改变了计数过程\(N_{1i}(t)\)的强度。作者需要证明,在左截断下,AIPW估计方程仍然是无偏的。这涉及到对左截断机制的条件独立假设的运用。
- 估计缺失协变量的条件期望:\(\hat{E}[Z_i | \delta_i, T_i]\)需要从\(R_i=1\)的个体中估计。作者假设了一个参数模型(如线性回归或逻辑回归)来估计这个条件期望。这个模型的正确指定会影响AIPW估计量的双重稳健性。
-
技术技巧点名:
- 经验过程理论:用于证明估计方程的一致收敛性,是处理半参数估计的标准工具。
- 泰勒展开:用于推导估计量的渐近分布。
- 三明治方差估计量:用于估计渐近方差,是M-估计的标准方法。
- 逆概率加权(IPW):处理缺失数据的基本方法。
- 增广逆概率加权(AIPW):提升IPW效率的核心技巧。
真实例子与应用¶
- 数据:动脉粥样硬化风险社区研究(Atherosclerosis Risk in Communities Study, ARIC) 数据。这是一个大型前瞻性队列研究,旨在研究动脉粥样硬化的风险因素。
- 场景:研究者关注种族(黑人 vs. 白人) 对冠心病(CHD) 累积发生率的影响,同时考虑非冠心病死亡作为竞争风险。数据存在左截断(个体在研究开始时年龄不同,即已存活了一段时间)。
- 方法应用:
- 从全队列中随机抽取一个子队列(约10%)。
- 对所有发生CHD的病例和子队列成员,收集其协变量(种族、年龄、性别、吸烟状况、血压等)。
- 使用本文提出的AIPW方法(以及IPW-LT方法作为对比)估计PSH模型中种族对CHD的效应。
- 结果:
- 两种方法都显示黑人比白人有更高的CHD风险(风险比 > 1)。
- 本文的AIPW方法估计出的标准误小于IPW-LT方法,表明效率提升。
- 利用原因2(非冠心病死亡)信息的AIPW2方法进一步降低了标准误。
- 这个例子想说明什么:验证了本文方法在实际数据中的可行性和效率优势。它展示了在存在左截断和竞争风险的病例队列研究中,本文方法能够提供更精确的效应估计。
🔎 结论是否比证明窄¶
- 窄的结论:作者在定理中严格证明了AIPW估计量的一致性和渐近正态性,但没有证明其半参数效率最优性。即,作者没有证明AIPW估计量达到了半参数效率下界。作者在文中提到“更高效”,但只是相对于IPW方法而言,并非相对于所有可能的估计量。这是一个重要的限制。
- 泛泛的claim:作者在摘要和引言中声称“更高效”,但模拟和实证中只与IPW方法对比,没有与更复杂的非参数或机器学习方法对比。因此,“更高效”的claim应理解为“比现有IPW方法更高效”,而非“在所有方法中最高效”。
- Conjecture:作者没有明确写出conjecture,但隐含地假设了缺失协变量的条件期望模型(如线性回归)是正确指定的。如果这个模型被误指定,AIPW估计量的效率增益可能会减弱,甚至可能不如IPW方法(尽管它仍然是双重稳健的)。这一点作者没有深入讨论。
四、开放问题¶
- 半参数效率界:本文没有推导在左截断+病例队列+竞争风险设定下,PSH模型回归参数估计的半参数效率下界。一个自然的开放问题是:本文提出的AIPW估计量是否达到了这个下界?如果不是,如何构造一个达到下界的估计量?(扎根于:本文未讨论效率最优性,仅在模拟中与IPW对比。)
- 模型误设的稳健性:本文假设了PSH模型和缺失协变量的条件期望模型(如线性回归)。当这些模型被误设时,AIPW估计量的表现如何?是否存在对模型误设更稳健的估计方法(如基于机器学习的双重稳健估计)?(扎根于:作者假设了参数模型来估计条件期望,但未讨论模型误设的影响。)
- 高维协变量:当协变量维度\(p\)很大(甚至大于样本量\(n\))时,本文的方法是否仍然有效?如何在高维设定下进行变量选择和估计?(扎根于:本文假设协变量维度固定且有限,未讨论高维情形。)
- 其他因果参数:本文关注的是PSH模型下的回归参数。能否将AIPW思想扩展到其他因果参数,如平均处理效应(ATE) 或受限平均生存时间(RMST) 的估计?(扎根于:本文仅关注PSH模型,但AIPW思想是通用的。)
Maintained by 陈星宇 · Homepage · Source on GitHub