Efficient estimation for left-truncated competing risks regression for case-cohort studies¶

作者: Xi Fang, Kwang Woo Ahn, Jianwen Cai, Soyoung Kim
来源: Biometrics
主题: 流行病学
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad008

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在病例队列研究（case-cohort study） 这种成本节约型设计下，如何对左截断（left truncation） 且存在竞争风险（competing risks） 的生存数据进行有效的因果推断。具体而言，是在比例子分布风险模型（proportional subdistribution hazards model, PSH model） 框架下，估计协变量对累积发生率函数（cumulative incidence function, CIF） 的直接效应。当前成熟度：方法学上已有大量工作，但左截断与病例队列设计的结合点尚未被充分探索，且现有方法的效率有提升空间。

发展脉络（history）¶

奠基工作：竞争风险与PSH模型
- Fine & Gray (1999)：提出了比例子分布风险模型，直接建模协变量对CIF的效应，成为竞争风险数据的标准工具。这是本领域所有后续工作的基础。
- Klein & Andersen (2005)：提出了竞争风险数据的逆概率删失加权（IPCW）估计方法，为处理删失数据提供了框架。
主要进展：病例队列设计下的PSH模型
- Borgan et al. (2000)：首次将病例队列设计引入生存分析，提出了逆概率加权（IPW）估计方法。这是病例队列设计的奠基性工作。
- Kim et al. (2013)：将PSH模型与病例队列设计结合，提出了针对竞争风险数据的IPW估计方法。这是本文的直接前驱工作。作者指出，该方法“没有处理左截断”，且“对完全观测协变量的回归参数估计效率较低”。
当前Frontier：处理左截断与提升效率
- 左截断的挑战：左截断（如研究开始时个体已存活一段时间）会导致选择偏倚，需要调整风险集。现有病例队列+竞争风险的方法（如Kim et al. 2013）未处理此问题。
- 效率提升：在病例队列设计中，子队列（subcohort）中的协变量被完全观测，但IPW方法仅使用子队列信息，浪费了全队列中其他个体的部分协变量信息。增广逆概率加权（AIPW） 是提升效率的标准工具，但在竞争风险+左截断+病例队列的复合设定下尚未被应用。
本文的位置：本文是上述脉络的“显然的下一步”——它同时填补了左截断和效率提升两个缺口。作者将AIPW思想扩展到左截断竞争风险数据的病例队列设计中，并进一步利用其他竞争原因的信息提出更高效的估计量。

子线索聚类¶

这些被引文献大致落在以下2条子线索上：

方法学线索：病例队列设计下的生存分析
- 核心工作：Borgan et al. (2000), Kim et al. (2013), 以及本文。
- 共同目标：在病例队列设计下，对删失/竞争风险数据进行有效估计。
- 当前瓶颈：如何处理左截断、如何利用全队列信息提升效率。
应用线索：竞争风险数据的因果推断
- 核心工作：Fine & Gray (1999), Klein & Andersen (2005)。
- 共同目标：在存在竞争风险时，估计协变量对CIF的因果效应。
- 当前瓶颈：如何将标准方法（如IPCW、AIPW）适配到更复杂的设计（如病例队列）和数据特征（如左截断）。

这个方向在追问的核心问题¶

如何识别：在左截断和病例队列设计下，PSH模型中的回归参数是否可识别？需要哪些假设？
如何估计：如何构造一致且渐近正态的估计方程？如何利用全队列信息（如其他竞争原因的信息）提升效率？
效率界：在给定设计下，回归参数估计的渐近方差下界是多少？本文提出的AIPW估计量是否达到了这个下界？（本文未讨论此问题，是开放问题）
稳健性：当模型假设（如PSH模型、左截断机制）被违反时，估计量的表现如何？

⚠️ 作者的 framing¶

作者的缺口frame：作者将缺口frame成“现有方法未处理左截断”且“效率低”。这使得本文成为“显然的下一步”——只需将AIPW思想适配到左截断+病例队列+竞争风险的复合设定下。
被淡化/回避的竞争路线：作者没有讨论非参数或半参数方法（如直接对CIF进行非参数估计），而是直接假设PSH模型成立。这回避了模型误设的风险。此外，作者没有讨论工具变量或代理变量等更复杂的因果识别策略，而是假设协变量对CIF的效应是直接且可识别的。
什么明显该被引/该存在、却没出现在intro里？：作者没有引用任何关于增广逆概率加权（AIPW） 在生存分析中的通用理论（如Robins & Rotnitzky 1992, van der Laan & Robins 2003）。虽然这些是更早的文献，但它们是AIPW方法的理论基础。作者直接应用了AIPW思想，但没有引用其理论源头。这值得研究者去查：作者是否在方法上做了原创性贡献，还是仅仅是应用了已知技术？此外，没有引用任何关于左截断的通用处理方法（如Andersen et al. 1993的计数过程理论）。

张力¶

未见明显对立引用。所有被引工作都沿着“在病例队列设计下，用IPW/AIPW方法估计PSH模型”这一主线推进，没有出现彼此矛盾或在不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- 个体：\(i = 1, \dots, n\)，来自一个大小为\(N\)的全队列（full cohort）。
- 时间：\(T_i\)：失效时间（failure time）；\(C_i\)：删失时间（censoring time）；\(L_i\)：左截断时间（left truncation time）。观测到的数据是\((X_i, \delta_i, L_i)\)，其中\(X_i = \min(T_i, C_i)\)，\(\delta_i\)是失效原因指示（\(\delta_i = 1\)表示感兴趣的原因1失效，\(\delta_i = 2\)表示其他原因失效，\(\delta_i = 0\)表示删失）。
- 协变量：\(Z_i\)：\(p\)维协变量向量。
- 病例队列设计：从全队列中随机抽取一个子队列（subcohort），大小为\(\tilde{n}\)。子队列中所有个体的协变量\(Z_i\)被完全观测。此外，所有在随访期间发生感兴趣原因1失效的个体（即\(\delta_i = 1\)的个体，称为“病例”）的协变量也被完全观测。其他个体（非子队列成员且未发生原因1失效）的协变量未被观测。
- 观测指示：\(\xi_i\)：个体\(i\)是否被选入子队列（\(\xi_i = 1\)表示是）。\(R_i\)：个体\(i\)的协变量是否被完全观测（\(R_i = 1\)表示是）。注意：\(R_i = 1\)当且仅当\(\xi_i = 1\)或\(\delta_i = 1\)。
- 参数：\(\beta\)：PSH模型中的\(p\)维回归系数向量，是我们要估计的目标参数（estimand）。
- 风险集：\(Y_i(t) = I(X_i \ge t > L_i)\)：个体\(i\)在时间\(t\)是否处于风险中（考虑了左截断）。
- 子分布风险函数：\(\lambda_1(t|Z) = \lambda_{10}(t) \exp(\beta^T Z)\)，其中\(\lambda_{10}(t)\)是原因1的基线子分布风险函数。
模型：
- 比例子分布风险模型（PSH模型）：假设原因1的累积发生率函数\(F_1(t|Z) = P(T \le t, \delta = 1 | Z)\)满足\(F_1(t|Z) = 1 - \exp[-\Lambda_{10}(t) \exp(\beta^T Z)]\)，其中\(\Lambda_{10}(t) = \int_0^t \lambda_{10}(s) ds\)是基线累积子分布风险函数。
- 左截断机制：假设左截断时间\(L_i\)与失效时间\(T_i\)和删失时间\(C_i\)独立，给定协变量\(Z_i\)。这是一个标准假设，用于保证风险集\(Y_i(t)\)的条件无偏性。
- 病例队列设计：子队列是随机抽取的，且病例的协变量被完全观测。这导致协变量缺失机制是可忽略的（ignorable），即缺失概率只依赖于可观测的失效状态\(\delta_i\)，而不依赖于未观测的协变量\(Z_i\)本身。
可观测数据：
- 研究者实际能观测到的是：对于每个个体\(i\)，观测到\((X_i, \delta_i, L_i)\)。对于子队列成员（\(\xi_i = 1\)）或病例（\(\delta_i = 1\)），还观测到\(Z_i\)。对于其他个体，\(Z_i\)缺失。
- 想要但观测不到的是：非子队列成员且非病例的个体的协变量\(Z_i\)。这是病例队列设计带来的核心缺失数据问题。

第二步：讲最小内核¶

最简特例：假设只有一个协变量（\(p=1\)），且该协变量是二值的（\(Z_i \in \{0, 1\}\)）。同时，假设没有左截断（\(L_i = 0\)对所有\(i\)成立），且没有删失（\(C_i = \infty\)）。那么，我们观测到每个个体的失效时间\(T_i\)和失效原因\(\delta_i\)，以及子队列成员或病例的\(Z_i\)。

在这个特例下，PSH模型退化为：

\[F_1(t|Z) = 1 - \exp[-\Lambda_{10}(t) \exp(\beta Z)]\]

核心问题：如何利用病例队列设计下的不完全协变量数据，估计\(\beta\)？

标准IPW方法（如Kim et al. 2013）的估计方程为：

\[U_{IPW}(\beta) = \sum_{i=1}^n \frac{R_i}{\pi_i} \int_0^\infty \left[ Z_i - \frac{S^{(1)}(\beta, t)}{S^{(0)}(\beta, t)} \right] dN_{1i}(t) = 0\]

其中： * \(N_{1i}(t) = I(T_i \le t, \delta_i = 1)\)是原因1失效的计数过程。 * \(S^{(k)}(\beta, t) = \sum_{j=1}^n \frac{R_j}{\pi_j} Y_j(t) Z_j^k \exp(\beta^T Z_j)\)是加权后的风险集统计量。 * \(\pi_i = P(R_i = 1 | \text{data})\)是观测概率。在病例队列设计中，\(\pi_i = P(\xi_i = 1) + P(\delta_i = 1) - P(\xi_i = 1, \delta_i = 1)\)。由于子队列是随机抽取的，\(\pi_i\)是已知的（或可估计的）。

IPW的缺点：它只使用了\(R_i = 1\)的个体（即子队列成员和病例）的信息。对于\(R_i = 0\)的个体，其协变量\(Z_i\)缺失，但它们的失效时间\(T_i\)和失效原因\(\delta_i\)是已知的。IPW完全丢弃了这些个体的信息。

本文的AIPW方法：通过引入一个增广项，利用\(R_i = 0\)的个体的信息来提升效率。AIPW估计方程为：

\[U_{AIPW}(\beta) = \sum_{i=1}^n \left[ \frac{R_i}{\pi_i} \int_0^\infty \left( Z_i - \frac{S^{(1)}(\beta, t)}{S^{(0)}(\beta, t)} \right) dN_{1i}(t) + \left(1 - \frac{R_i}{\pi_i}\right) \int_0^\infty \left( \hat{E}[Z_i | \delta_i, T_i] - \frac{S^{(1)}(\beta, t)}{S^{(0)}(\beta, t)} \right) dN_{1i}(t) \right] = 0\]

核心思路： 1. 第一项：与IPW相同，使用\(R_i = 1\)的个体的观测协变量\(Z_i\)。 2. 第二项（增广项）：对于\(R_i = 0\)的个体，我们无法观测到\(Z_i\)，但我们可以用其条件期望\(\hat{E}[Z_i | \delta_i, T_i]\)来“填补”缺失的\(Z_i\)。这个条件期望可以从\(R_i = 1\)的个体中估计出来（例如，通过一个回归模型）。权重\((1 - R_i/\pi_i)\)确保了整个估计方程的无偏性。

为什么这能提升效率？：因为增广项利用了\(R_i = 0\)的个体的信息（通过条件期望），减少了IPW方法中因丢弃数据而带来的方差。当\(\hat{E}[Z_i | \delta_i, T_i]\)是\(E[Z_i | \delta_i, T_i]\)的一致估计时，AIPW估计量是双重稳健（doubly robust） 的：只要PSH模型或缺失机制模型（即\(\pi_i\)的模型）中有一个正确指定，估计量就是一致的。更重要的是，当两个模型都正确时，AIPW估计量的渐近方差小于或等于IPW估计量的渐近方差。

在这个最简特例下：\(Z_i\)是二值的，\(\hat{E}[Z_i | \delta_i, T_i]\)就是给定失效时间和失效原因下，\(Z_i=1\)的条件概率。这个概率可以通过一个简单的逻辑回归从\(R_i=1\)的个体中估计。然后，AIPW估计方程就变成了一个加权后的Cox部分似然方程，其中缺失的\(Z_i\)被其条件概率所替代。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在病例队列设计中，针对存在左截断的竞争风险数据，如何高效地估计比例子分布风险模型中的回归参数。
核心工具/方法：提出了增广逆概率加权（AIPW）估计方程，并进一步利用其他竞争原因（原因2）的失效信息，提出了一个更高效的AIPW估计量。
主要结论：所提出的两个估计量都是一致且渐近正态的。模拟研究验证了其无偏性和效率提升，尤其是在左截断比例较高时，效率增益更为显著。

关键设定与假设¶

设定：在第二节最小记号的基础上，补全完整设定：
- 左截断：\(L_i\)是左截断时间，且\(L_i < X_i\)。风险集定义为\(Y_i(t) = I(X_i \ge t > L_i)\)。
- 病例队列设计：子队列大小为\(\tilde{n}\)，从全队列中随机抽取。所有病例（\(\delta_i = 1\)）的协变量被完全观测。子队列中所有个体的协变量被完全观测。
- 观测指示：\(R_i = 1\)当且仅当个体\(i\)是子队列成员或病例。\(\xi_i = 1\)当且仅当个体\(i\)是子队列成员。
假设：
- H1 (PSH模型)：原因1的子分布风险满足\(\lambda_1(t|Z) = \lambda_{10}(t) \exp(\beta^T Z)\)。
- H2 (左截断独立)：给定\(Z\)，\(L\)与\((T, C)\)独立。这是左截断分析的标准假设，用于保证风险集的条件无偏性。
- H3 (病例队列设计可忽略)：协变量缺失机制是可忽略的，即\(P(R_i = 1 | \text{full data}) = P(R_i = 1 | \delta_i)\)。这意味着缺失概率只依赖于可观测的失效状态，而不依赖于未观测的协变量。这是病例队列设计的核心假设。
- H4 (正则条件)：一些标准的技术正则条件，如有限时间区间、协变量有界、信息矩阵正定等，用于保证渐近理论成立。
相比已有文献的强化/放宽：
- 强化：本文同时处理了左截断和病例队列设计，这是Kim et al. (2013)等前驱工作未做到的。
- 放宽：本文没有假设协变量缺失是完全随机的（MCAR），而是假设了可忽略的缺失机制（MAR），这更符合实际。

主要结果¶

定理1 (AIPW估计量的一致性)：在假设H1-H4下，AIPW估计量\(\hat{\beta}_{AIPW}\)是\(\beta\)的一致估计。
定理2 (AIPW估计量的渐近正态性)：在假设H1-H4下，\(\sqrt{n}(\hat{\beta}_{AIPW} - \beta)\)渐近收敛到均值为0的正态分布，其协方差矩阵由三明治方差估计量给出。这个方差估计量包含了IPW部分和增广部分的贡献。
定理3 (更高效AIPW估计量)：当额外利用其他竞争原因（原因2）的失效信息时，可以构造一个更高效的AIPW估计量\(\hat{\beta}_{AIPW2}\)。其渐近方差小于或等于\(\hat{\beta}_{AIPW}\)的渐近方差。直觉：原因2的失效提供了关于协变量\(Z\)的额外信息，有助于更准确地估计缺失协变量的条件期望，从而提升效率。
模拟研究：
- 场景：模拟了不同左截断比例（0%, 20%, 40%）和不同病例队列设计（子队列比例10%, 20%）下的数据。
- 对比方法：与Kim et al. (2013)的IPW方法（未处理左截断）和一种处理了左截断的IPW方法（称为“IPW-LT”）进行对比。
- 结果：
  - 所有方法在无左截断时表现良好。
  - 当存在左截断时，Kim et al. (2013)的IPW方法存在明显偏倚，而本文的AIPW方法和IPW-LT方法无偏。
  - 本文的AIPW方法（尤其是利用原因2信息的AIPW2）的经验标准差和均方误差（MSE） 均小于IPW-LT方法，验证了效率提升。
  - 效率增益在左截断比例较高时更为显著。

证明路线与技术技巧¶

整体路线：
1. 构造AIPW估计方程：从标准的IPW估计方程出发，通过添加一个期望为0的增广项，得到AIPW估计方程。增广项的形式是\((1 - R_i/\pi_i) \times \text{（缺失协变量的条件期望的某种函数）}\)。
2. 证明一致性：利用经验过程理论（empirical process theory） 和一致大数定律（uniform law of large numbers），证明AIPW估计方程在真实参数\(\beta\)处的期望为0，且该方程在\(\beta\)的邻域内一致收敛到其期望。然后，利用估计方程的可识别性，证明\(\hat{\beta}_{AIPW}\)收敛到\(\beta\)。
3. 证明渐近正态性：对AIPW估计方程进行泰勒展开，得到\(\sqrt{n}(\hat{\beta}_{AIPW} - \beta)\)的线性近似。然后，利用中心极限定理证明该线性近似渐近正态。方差估计量通过三明治公式得到，其中“面包”部分是信息矩阵的逆，“肉”部分是估计方程方差的估计。
4. 证明效率提升：通过比较AIPW估计量和IPW估计量的渐近方差，证明AIPW估计量的方差更小。这通常涉及到方差分解：AIPW估计量的方差等于IPW估计量的方差减去一个正定矩阵（由增广项带来的方差缩减）。
5. 利用原因2信息：将增广项中的条件期望\(\hat{E}[Z_i | \delta_i, T_i]\)替换为\(\hat{E}[Z_i | \delta_i, T_i, \text{原因2失效信息}]\)，从而利用更多信息，进一步降低方差。
关键跳跃点：
- 构造增广项：如何构造一个期望为0的增广项，使其既能利用缺失协变量的信息，又能保证估计方程的无偏性？这是AIPW方法的核心。作者直接应用了Robins & Rotnitzky (1992)的通用框架，但需要将其适配到左截断和竞争风险的设定下。
- 处理左截断：左截断使得风险集\(Y_i(t)\)依赖于\(L_i\)，这改变了计数过程\(N_{1i}(t)\)的强度。作者需要证明，在左截断下，AIPW估计方程仍然是无偏的。这涉及到对左截断机制的条件独立假设的运用。
- 估计缺失协变量的条件期望：\(\hat{E}[Z_i | \delta_i, T_i]\)需要从\(R_i=1\)的个体中估计。作者假设了一个参数模型（如线性回归或逻辑回归）来估计这个条件期望。这个模型的正确指定会影响AIPW估计量的双重稳健性。
技术技巧点名：
- 经验过程理论：用于证明估计方程的一致收敛性，是处理半参数估计的标准工具。
- 泰勒展开：用于推导估计量的渐近分布。
- 三明治方差估计量：用于估计渐近方差，是M-估计的标准方法。
- 逆概率加权（IPW）：处理缺失数据的基本方法。
- 增广逆概率加权（AIPW）：提升IPW效率的核心技巧。

真实例子与应用¶

数据：动脉粥样硬化风险社区研究（Atherosclerosis Risk in Communities Study, ARIC） 数据。这是一个大型前瞻性队列研究，旨在研究动脉粥样硬化的风险因素。
场景：研究者关注种族（黑人 vs. 白人） 对冠心病（CHD） 累积发生率的影响，同时考虑非冠心病死亡作为竞争风险。数据存在左截断（个体在研究开始时年龄不同，即已存活了一段时间）。
方法应用：
1. 从全队列中随机抽取一个子队列（约10%）。
2. 对所有发生CHD的病例和子队列成员，收集其协变量（种族、年龄、性别、吸烟状况、血压等）。
3. 使用本文提出的AIPW方法（以及IPW-LT方法作为对比）估计PSH模型中种族对CHD的效应。
结果：
- 两种方法都显示黑人比白人有更高的CHD风险（风险比 > 1）。
- 本文的AIPW方法估计出的标准误小于IPW-LT方法，表明效率提升。
- 利用原因2（非冠心病死亡）信息的AIPW2方法进一步降低了标准误。
这个例子想说明什么：验证了本文方法在实际数据中的可行性和效率优势。它展示了在存在左截断和竞争风险的病例队列研究中，本文方法能够提供更精确的效应估计。

🔎 结论是否比证明窄¶

窄的结论：作者在定理中严格证明了AIPW估计量的一致性和渐近正态性，但没有证明其半参数效率最优性。即，作者没有证明AIPW估计量达到了半参数效率下界。作者在文中提到“更高效”，但只是相对于IPW方法而言，并非相对于所有可能的估计量。这是一个重要的限制。
泛泛的claim：作者在摘要和引言中声称“更高效”，但模拟和实证中只与IPW方法对比，没有与更复杂的非参数或机器学习方法对比。因此，“更高效”的claim应理解为“比现有IPW方法更高效”，而非“在所有方法中最高效”。
Conjecture：作者没有明确写出conjecture，但隐含地假设了缺失协变量的条件期望模型（如线性回归）是正确指定的。如果这个模型被误指定，AIPW估计量的效率增益可能会减弱，甚至可能不如IPW方法（尽管它仍然是双重稳健的）。这一点作者没有深入讨论。

四、开放问题¶

半参数效率界：本文没有推导在左截断+病例队列+竞争风险设定下，PSH模型回归参数估计的半参数效率下界。一个自然的开放问题是：本文提出的AIPW估计量是否达到了这个下界？如果不是，如何构造一个达到下界的估计量？（扎根于：本文未讨论效率最优性，仅在模拟中与IPW对比。）
模型误设的稳健性：本文假设了PSH模型和缺失协变量的条件期望模型（如线性回归）。当这些模型被误设时，AIPW估计量的表现如何？是否存在对模型误设更稳健的估计方法（如基于机器学习的双重稳健估计）？（扎根于：作者假设了参数模型来估计条件期望，但未讨论模型误设的影响。）
高维协变量：当协变量维度\(p\)很大（甚至大于样本量\(n\)）时，本文的方法是否仍然有效？如何在高维设定下进行变量选择和估计？（扎根于：本文假设协变量维度固定且有限，未讨论高维情形。）
其他因果参数：本文关注的是PSH模型下的回归参数。能否将AIPW思想扩展到其他因果参数，如平均处理效应（ATE） 或受限平均生存时间（RMST） 的估计？（扎根于：本文仅关注PSH模型，但AIPW思想是通用的。）

Maintained by 陈星宇 · Homepage · Source on GitHub