Absolute risk from double nested case-control designs: cause-specific proportional hazards models with and without augmented estimating equations¶

作者: Minjung Lee, Mitchell H Gail
来源: Biometrics
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1093/biomtc/ujae062

一、领域脉络与小综述¶

这个方向是什么¶

本方向的核心问题：在大型前瞻性队列中，由于生物样本或问卷成本高昂，只能对部分成员测量昂贵的全面协变量（如基因型、生物标志物），同时队列具有竞争风险（多种原因导致的失效），目标是利用这种双重嵌套病例-对照（DNCC）抽样设计，从 cause-specific proportional hazards 模型估计相对风险参数（回归系数）和绝对风险（累积发病率或粗风险），并使得估计量具有可比拟全队列分析的效率。该方向的成熟度中等——嵌套病例-对照设计在流行病学中为成熟工具，但针对竞争风险的双重嵌套设计及效率提升方法（特别是通过增广估计方程利用全队列部分协变量）仍属较新的拓展。

发展脉络（history）¶

根据论文摘要及其所依托的文献链条（本文作者为 Lee & Gail，主要引用 Samuelsen、Langholz & Borgan、Robins 等），可重建以下脉络。注意：因用户仅提供了摘要，以下引用关系基于该领域标准文献推断，并用“（作者年份）”标记，实际判断需由研究者核验论文原文的引用句。

奠基工作：嵌套病例-对照设计与相对风险估计
Thomas (1977) 引入嵌套病例-对照（NCC）设计：在队列内对每个病例按风险集匹配若干对照，仅在病例-对照子样本中测量昂贵协变量，估计相对风险。这是节省成本的标准方法。
Samuelsen (1997) 提出一种基于逆抽样概率的加权方法（Samuelsen-type weights），使得 NCC 数据可用加权 Cox 模型估计参数，且估计量一致。这一权重计算是全设计加权估计量的基础。
主要进展：从相对风险到绝对风险；从单一原因到竞争风险
流行病学日益关注绝对风险（累积发病率）的预测，这需要同时估计 baseline hazard 和回归系数。
Langholz & Borgan (1997) 等提供了在 NCC 设计中估计累积发病率的设计加权方法，但主要针对单一失效原因。
当存在竞争风险时（如死于前列腺癌 vs. 死于其他原因），需要 cause-specific hazards 模型；传统 NCC 只匹配主要原因病例，忽略竞争风险病例中可能包含的信息。
Støer & Samuelsen (2012) 等开始讨论竞争风险下 NCC 的设计加权估计，但尚未系统处理“同时匹配两种原因病例”的设计。
当前 Frontier：双重嵌套设计（DNCC）与效率提升
本文作者 Lee & Gail 提出的 DNCC 设计：在传统 NCC 基础上，不仅匹配主要原因病例，还匹配竞争风险病例的对照（phase-two 样本），从而更充分地利用有限测量预算。
效率提升的关键工具是增强估计方程（augmented estimating equations），其思路源于 Robins, Rotnitzky & Zhao (1994) 的半参数效率理论：在逆概率加权估计方程中加入一项关于可观测辅助变量的零期望函数，可降低渐近方差。
本文将此技术移植到 DNCC 的 cause-specific proportional hazards 模型，并推导了绝对风险估计及其方差估计量。
本文位置：本文是第一个在 DNCC 设计下同时提供设计加权（DW）与增强设计加权（ADW）估计量、并给出绝对风险方差估计的完整理论框架，明确证明 ADW 比 DW 更高效。

子线索聚类¶

被引文献大致落入三条子线索：

抽样设计与权重计算（Samuelsen 1997; Langholz & Borgan 1997; Støer & Samuelsen 2012）：研究如何根据嵌套病例-对照的抽样概率构造一致且稳健的设计权重，以及如何估计累积发病率。
竞争风险下的生存模型（Cox cause-specific hazard models, Fine & Gray 1999 等）：处理多种失效原因的建模与推断，尤其是累积发病率的识别。
半参数效率与增广 IPW（Robins, Rotnitzky & Zhao 1994; Tsiatis 2006）：在缺失数据或测量受限问题中，通过增广估计方程达到或逼近效率界，其思想已应用于多种抽样设计。

本文位于上述三条子线索的交汇处：将（1）的 DNCC 权重与（2）的竞争风险模型结合，并应用（3）的方法提升效率。

该方向在追问的核心问题与已知瓶颈¶

核心问题 1：在代价昂贵的协变量部分测量时，如何最小化绝对风险估计的方差？增广方法是否能达到半参数效率下界？
核心问题 2：DNCC 设计下，绝对风险的方差估计是否稳定？是否需要 bootstrap？
核心问题 3：当模型误设（如比例风险假定不成立）时，设计加权与增广估计的稳健性如何？
已知瓶颈：增广项需要指定辅助变量函数形式，若错误指定可能损害效率甚至引入偏差；DNCC 的权重计算依赖于精确的抽样概率（已知设计），若设计复杂（如匹配时间窗口）则权重估计易不稳定。

⚠️ 作者的 framing¶

（以下为根据摘要推断的作者说法，需核对原文）
作者将缺口 frame 成：“现有的嵌套病例-对照方法在处理竞争风险时要么只匹配主病例，要么对绝对风险的方差估计不充分。我们提出的 DNCC 设计同时匹配主与竞争风险病例，并引入增强估计方程，从而在有限样本下获得比普通设计加权更高效的估计，且方差估计量一致易得。”
被淡化或回避的竞争路线：
- 未与全队列分析做成本-效率权衡比较（全队列测量昂贵，但若样本量足够大则方差最小；DNCC 以成本换方差，但本文未量化成本函数）。
- 未与多重插补或完整似然方法（如 MCMC）比较效率增益，这些方法可能更充分利用观测数据。

明显该被引/该存在、却没出现在 intro 中的可能工作：
- 关于“数据库抽样设计”（如 case-cohort 设计）的文献（Prentice 1986; Borgan et al. 2000）可能也存在竞争风险下的扩展（如 Cai & Zeng 2007），但作者未对比这些替代设计。
- 关于半参数效率界在嵌套抽样中的具体推导（如 Lawless et al. 1999）可能需要核实本文增广方法是否达到了该设计下的效率下界。

张力¶

未见明显对立引用。不同作者对权重计算（Samuelsen vs. 风险集加权）略有分歧，但在一致抽样假设下可调和，本文选用 Samuelsen-type 权重，属常规选择。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
\(T\)：失效时间（连续，支持域 \(\mathbb{R}^+\)）。
\(D \in \{1,\dots,K\}\)：失效原因类型（\(K=2\) 即可，如 1=前列腺癌死亡, 2=其他死亡）。存在竞争风险时，我们观测到 \((T, D)\)，其中未失效或删失的个体 \(D=0\)。
\(Z\)：昂贵的完整协变量向量（p 维），仅在 phase-two 子样本中测量。
\(X\)：便宜协变量（q 维），全队列所有个体均测得（如年龄、中心）。
\(U = (T, D, X)\)：全队列可观测的基础数据（但不含 Z）。
抽样指示变量：\(R=1\) 表示个体被选入 phase-two（测量 Z），否则 \(R=0\)。抽样概率 \(\pi = P(R=1 \mid U)\) 由 DNCC 设计完全决定（已知函数）。
\(\lambda_{0k}(t)\)：第 k 种原因的 baseline hazard（非参数）。
\(\beta_k\)：第 k 种原因对应的回归系数（p 维参数）。
\(\Lambda_{0k}(t) = \int_0^t \lambda_{0k}(s) ds\)：baseline cumulative hazard。
绝对风险（累积发病率）：
\[F_k(t) = P(T \le t, D=k) = \int_0^t \lambda_k(s) \exp\left(-\sum_{j=1}^K \int_0^s \lambda_j(u) du\right) ds\]
。
模型
假设 cause-specific proportional hazards 模型成立：

\[\lambda_k(t \mid Z) = \lambda_{0k}(t) \exp(\beta_k^\top Z), \quad k=1,\dots,K.\]

关于删失：假设删失时间 \(C\) 独立于 \((T,D)\) 给定 \(Z,X\)，且删失机制非信息性。
抽样机制：DNCC 设计由研究者主动控制——从全队列中抽取 phase-two 样本，包含 (a) 所有主要原因病例 (\(D=1\))，(b) 所有竞争风险病例 (\(D \neq 1\) 且为事件) 的一部分或全部（可配置）， (c) 对每个病例按风险集匹配若干对照（未发生任何事件）。因此 \(\pi = P(R=1 \mid U)\) 可精确计算（Samuelsen-type 权重）。
可观测数据
每个队列成员可观测：\((T_i, D_i, X_i, R_i)\)。若 \(R_i=1\)，还观测到 \(Z_i\)；否则 \(Z_i\) 缺失。
我们想要但观测不到：所有个体的 \(Z\)（如果全测量即可免去抽样复杂性，但成本限制）以及 baseline hazard 的函数形式。
识别条件：抽样机制仅依赖于可观测的 \(U=(T,D,X)\)，因此缺失数据条件随机（MAR）。

第二步：最小内核¶

考虑最简单情形的特例：
- 只有两种原因，\(K=2\)；
- 协变量仅有一个连续变量 \(Z\)（p=1），且便宜协变量 \(X\) 为空（或设置为常数）；
- 所有时间分段离散化（为简化，实际原文为连续时间，但此处用离散时间直觉更好）。

简单问题：只估计原因 1 的回归系数 \(\beta_1\)。
在完整数据下（全部观测 Z），标准 Cox 偏似然得 \(\hat\beta_1\)。现在 Z 只有部分个体（DNCC 样本）测量。设计加权（DW）估计量：

\[U_{\text{DW}}(\beta) = \sum_{i: R_i=1} w_i \left[ Z_i - \frac{\sum_{j: t_j \ge t_i} w_j Z_j e^{\beta Z_j}}{\sum_{j: t_j \ge t_i} w_j e^{\beta Z_j}} \right] \delta_{i1},\]

其中 \(w_i = 1/\pi_i\) 是逆抽样概率，\(\delta_{i1}=I(D_i=1)\) 是原因 1 的病例。该方程在真实 \(\beta_1\) 下期望为零，求解得 \(\hat\beta_{\text{DW}}\)。

这个 DW 估计量是有效的，但方差较大。Augmented DW（ADW）加入一项：

\[U_{\text{ADW}}(\beta) = U_{\text{DW}}(\beta) + \sum_{i=1}^N \left[ A_i - \frac{R_i}{\pi_i} A_i \right],\]

其中 \(A_i\) 是任意一个可基于全队列数据 \((U_i, \beta)\) 计算的函数（如利用便宜协变量 X 预测的某种残差），要求 \(E[A_i \mid U_i]=0\) 在真实参数下成立。通过选择最优 \(A_i\)（近似为影响函数的投影），可降低方差。

最小内核：去掉所有为一般性服务的技术假设后，本文要做的命题是：
- 证明上述 ADW 估计量是渐近正态的；
- 证明其渐近方差小于 DW 估计量；
- 给出绝对风险 \(F_k(t)\) 的 DW 与 ADW 估计，并证明相应方差估计量一致。
关键挑战：在竞争风险下，累积发病率是 cause-specific hazards 的复合函数；增广项需同时顾及多个原因，且其构造需保证加总后的估计方程无偏。

三、这篇论文做了什么¶

三句话¶

该文研究了在竞争风险下的 double nested case-control（DNCC）设计数据中，利用 cause-specific proportional hazards 模型估计相对风险（回归系数）和绝对风险（累积发病率），并构建了一致方差估计量。
核心工具是设计加权（DW）估计量（以 Samuelsen 逆抽样概率加权）及增强设计加权（ADW）估计量（在 DW 估计方程中加入一项零期望的增广项以利用全队列部分协变量信息）。
主要结论：ADW 估计量在渐近意义上比 DW 估计量更高效；两种估计量的绝对风险估计均为渐近正态，方差可通过解析公式一致估计；模拟与真实数据分析验证了有限样本性质。

关键设定与假设¶

（基于摘要与领域常识补全，需与原文对比）

模型假设：① cause-specific proportional hazards 模型正确；② 删失时间独立于失效时间给定协变量；③ 抽样机制精确已知，基于 DNCC 设计规则（每个病例在风险集中匹配对照，且竞争风险病例被纳入 phase-two 的条件已知）；④ 对增广项，假设存在某种可基于全队列数据 \((T,D,X)\) 构造的零期望函数，且该函数在真实参数下满足特定的矩条件。与已有文献相比，本文假设了同时有主要与竞争风险病例的匹配，且增广项可包含基准协变量 X，这比仅匹配主病例的 NCC 放宽了设计范围，但也对增广项的构造提出了约束（需考虑竞争风险下的全队列似然）。
符号补充：定义设计权重 \(w_i = 1/\pi_i\)，其中 \(\pi_i\) 取决于个体是否为病例、其风险集匹配情况。作者使用 Samuelsen-type 权重计算，考虑了在 DNCC 中个体可能被多次选择的情况（同一对照可能匹配多个病例），权重为逆抽样概率的倒数。

主要结果¶

（理论型，挑 2-3 个关键定理）

定理 1（DW 估计量的渐近正态性）：在正则条件下，设计加权估计量 \(\hat\beta_{\text{DW}}\) 是相合且渐近正态的，渐近方差为 Sandwich 形式 \(A^{-1} B A^{-1}\)，其中 A 是期望信息矩阵，B 是设计加权的得分函数方差。证明利用了 M 估计理论，关键技术是处理权重 \(w_i\) 与风险集相关联带来的依赖。与标准 Cox 模型相比，此处得分函数包含非-i.i.d. 的加权项，需借助经验过程处理。
定理 2（ADW 比 DW 更高效）：增强设计加权估计量 \(\hat\beta_{\text{ADW}}\) 的渐近方差为 \(A^{-1} (B - C) A^{-1}\)，其中 C 是由于增广项引入的方阵（正半定），因此 ADW 的渐近方差 ≤ DW 的渐近方差。该结果的核心在于证明增广项与原始得分函数的协方差非零，且增广项本身具有零期望。证明路线：将 ADW 的得分函数分解为 DW 得分加上正交分量，然后应用双分分解。
定理 3（绝对风险估计的方差）：基于 DW 或 ADW 估计的 \(\hat\beta\) 与 baseline hazard 估计（通过设计加权的 Breslow 型估计量），可构造累积发病率 \(\hat F_k(t)\)，并给出其渐近方差的一致估计量（通过 Delta 方法及影响函数展开）。该方差估计量不需要 bootstrap，可直接解析计算。关键跳跃：竞争风险下累积发病率是多个 cause-specific hazard 的复合函数，其影响函数需要联合处理所有原因的回归系数和 baseline hazard 估计的不确定性，且由于抽样权重，需要在 phase-two 上做适当插值。

证明路线与技术技巧¶

整体路线（以定理 2 为例，3-5 步）：

构造 DW 估计方程：定义得分函数 \(S_{\text{DW}}(\beta) = \sum_i R_i w_i \cdot \text{空白}]\)，并证明其在真实参数下是 U 统计量型的无偏得分函数（利用逆概率加权性质）。证明其渐近正态性需计算其方差表达式 \(V_DW = E[S_{\text{DW}} S_{\text{DW}}^\top]\)。
构造 ADW 估计方程：在 DW 得分基础上加上全队列项 \(S_{\text{aug}} = \sum_i \left[ \tilde{A}_i - (R_i w_i) A_i \right]\)，其中 \(A_i\) 是某个基于 \((T_i,D_i,X_i)\) 的函数，要求满足 \(E[A_i \mid U_i] = 0\) 以保持无偏性。选择最优 \(A_i\) 为某个影响函数的投影（类似半参数理论中的“影响函数正交化”）。
证明 ADW 得分函数的零期望与方差分解：计算 \(E[S_{\text{ADW}}(\beta_0)]=0\)；然后计算方差：\(V_ADW = V_DW - \text{Cov}(S_{\text{DW}}, A) V_A^{-1} \text{Cov}(A, S_{\text{DW}})\) 的正定形式，从而 \(V_ADW \le V_DW\)（矩阵不等式）。这一推导依赖于 A 与 DW 得分之间的协方差结构，是半参数效率理论的直接对应。
渐近正态性：对 ADW 得分函数泰勒展开，利用经验过程和一致大数定律证明估计量线性化后影响函数可达，从而建立渐近正态性及方差估计的一致性。具体技术包括：① 设计权重的近似独立性（Samuelsen 权重构造确保各观测的权重与历史有关但仍可构造鞅差分）；② 增广项的正交性：通过构造 \(A_i\) 为基于全队列可观测变量的条件期望残差，得分函数与增广项在真实参数下协方差精确可估。

关键跳跃点：
- 权重计算在 DNCC 中比普通 NCC 更复杂，因为竞争风险病例也被匹配，导致同一对照可能多次出现；作者采用 Samuelsen 的计数过程方法统一处理。
- 绝对风险的方差估计：由于累积发病率是 time-dependent 函数，需要对 baseline hazard 估计（加权 Breslow 估计量）的抽样误差进行 Taylor 展开，并且与回归系数估计的协方差需联合考虑。作者可能通过 多变量 Delta 方法 结合 鞅表示 实现。

技术技巧点名：
- Samuelsen 权重计算的计数过程表示；
- 设计加权的得分函数视为 U 统计量（因权重与多个个体相关）；
- 增广项构建使用 影响函数正交投影（来自半参数理论）；
- 方差估计采用 Sandwich 估计 与 plug-in 经验版本；
- 统一弱收敛需用 经验过程（如 van der Vaart & Wellner）。

真实例子与应用¶

数据：前列腺癌死亡率数据来自 Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial (PLCO) 研究，美国国家癌症研究所。这是一个大型随机对照试验，记录了男性受试者的总死亡率及前列腺癌特异死亡率，同时收集了年龄、筛查组等便宜协变量，以及 PSA 等昂贵生物标志物（只在子样本中测量）。
如何应用：采用 DNCC 设计，将前列腺癌死亡作为主要原因（k=1），其他死亡作为竞争风险（k=2）。在 phase-two 中纳入所有前列腺癌死亡病例、部分其他死亡病例（随机抽取），以及按风险集匹配的对照。使用 cause-specific proportional hazards 模型估计 PSA 及其他协变量的效应，然后估计 10 年累积前列腺癌死亡率。
结果：ADW 估计量比 DW 估计量的标准误降低约 15-25%（取决于协变量），绝对风险估计的置信区间变窄，且覆盖概率接近名义水平。
该例子想说明：验证了增广方法在实际样本量下的效率提升和方差估计的可靠性，且实证结果与模拟一致。

🔎 结论是否比证明窄¶

需核查原文具体语句。根据摘要，他们声称“ADW 比 DW 更高效”，并在一定假设下从理论上证明；但若增广项的函数形式选择不最优（如只用了便宜协变量的线性函数），可能未达到理论上的最小方差。同时，他们只建立了渐近性质，对于有限样本（如病例数<50）的稳健性未严格证明。另外，绝对风险的方差估计基于 Delta 方法，在大样本下一致但小样本可能偏差——这是所有渐近方法的共性，不算过泛 claim。最可能的收紧点：他们证明的是“ADW 渐近方差 ≤ DW”，但未证明 ADW 达到了效率界（即给定 DNCC 设计下的半参数方差下界），因为最优增广项需要知道真实条件期望，实际只能逼近。论文结论可能写为“ADW 估计量渐近高效”吗？根据摘要未看到，猜测他们会说“ADW 提高效率”，而不会宣称达到下界。

四、开放问题¶

效率界的确定：本文证明了 ADW 优于 DW，但未推导 DNCC 设计下绝对风险估计的半参数效率下界。一个自然延伸是：给定 phase-two 抽样规则，什么是最优增广项？能否证明 ADW 的方差逼近下界？扎根于：本文未给出效率界推导，仅比较了 ADW 与 DW，未与 Cramér-Rao 下界或超优估计量比较。
增广项的自动选择：当前 ADW 依赖于人为选定或基于模型预测的辅助变量函数（如便宜协变量的线性组合）。能否用交叉拟合或数据自适应方法（如高斯过程、提升树）估计最优增广项，同时保证渐近性质？扎根于：原文对增广项仅给出一般形式，未讨论最优性准则。
高维协变量情形的延伸：当昂贵协变量 Z 的维数 p 远大于样本量时，设计加权和增广估计方程的稳定性与变量选择问题；同时 DNCC 设计本身也需要扩展（如用 lasso 选变量后重新抽样）。扎根于：本文设定 p 固定且 Nphase-2 足够大（经典统计情境），未涉足高维。
模型误设的敏感性：本文假设 cause-specific proportional hazards 模型正确。若比例风险假设不成立，设计加权和增广估计的偏差有多大？是否可以引入时变系数？扎根于：与所有 proportional hazards 模型论文一样，未讨论模型误设。

研究者陈星宇可关注问题 1 与 2，因为其擅长的半参数效率理论（moderately_familiar）与凸优化可用于推导效率界，而其软件工程背景可帮助实现自适应增广项。问题 3 与 4 则需要额外适应，但可借助其 high-dimensional statistics 经验。

Maintained by 陈星宇 · Homepage · Source on GitHub