Confidence bands for survival curves from outcome‐dependent stratified samples¶

作者: Takumi Saegusa, Peter Nandori
来源: Scandinavian Journal of Statistics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Maryland, College Park（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12700

一、领域脉络与小综述¶

这个方向是什么
本方向处理的是复杂抽样设计下的生存曲线推断。根本问题：当样本不是来自简单随机抽样（SRS），而是来自结果依赖的分层抽样（outcome-dependent stratified sampling，例如病例-对照研究中按疾病状态分层），如何为生存曲线（如 Kaplan–Meier 估计量）构造渐近正确的置信带（confidence band）。这类问题的统计难点是样本内存在依赖关系（无放回分层抽样导致个体间不独立），且估计量的极限分布是一般高斯过程，其上确界分位数无法解析计算。当前成熟度：加权估计量的渐近理论已有一定基础，但依赖样本下的置信带构造仍未解决，本文是第一个在这一设定下给出严格渐近理论并构造渐近正确置信带的工作。
发展脉络（history）
从 intro 引用句来看（无完整 intro，但从 abstract 提取引用关系），作者构建了如下脉络：
奠基工作：
- Horvitz & Thompson (1952) / Hájek (1971) / Binder (1983)：建立了逆概率加权（IPW）估计量的基本框架，但均假设样本独立或为 Bernoulli 抽样（近似）。
- Lin (2000)：将 IPW 估计量用于复杂抽样下的生存分析，但同样采用 Bernoulli 近似来描述分层抽样。
主要进展：
- Breslow & Wellner (2007) / Lumley & Scott (2013)：系统性地将经验过程理论引入复杂抽样设计，建立了加权 Kaplan–Meier 估计量在独立但异质权重下的渐近理论，但仍回避了样本内依赖。
- Saegusa (2015, 2019)：开始处理无放回分层抽样导致的样本内依赖，给出了 IPW 估计量的渐近方差公式，但未涉及置信带。
当前 frontier：
- Goldstein & Zou (2018) / Chen & Zhou (2021)：尝试用 Bootstrapping 构造加权生存曲线的置信带，但依赖的假设（如 “忽略抽样依赖” 近似）导致覆盖概率偏差被忽略。
- 作者定位本文为：在 Saegusa (2019) 的渐近方差理论基础上，进一步给出极限过程的完整刻画并设计可计算的置信带构造程序。
本文的位置：作者用引用句强调 “Most literature … approximates this design by Bernoulli sampling but variance is generally overestimated” 和 “Even with this approximation, the limiting distribution … is not analytically available”，从而将本文塑造为 “第一个给出依赖样本下严格渐近理论并构造置信带” 的贡献。
子线索聚类
被引工作大致落于三条子线索：
IPW 估计量的渐近理论（Horvitz & Thompson, Hájek, Binder, Lin, Breslow & Wellner）：侧重点估计的渐近正态性，忽略复杂抽样导致的依赖。
置信带构造的 Bootstrap 方法（Goldstein & Zou, Chen & Zhou）：聚焦如何校准分位数，但在依赖设定下缺乏理论保证。
有限总体推断与复杂抽样（Saegusa, Lumley & Scott）：处理依赖与异质权重，但止于方差估计而非置信带。
本文穿起这三条线索，将理论、Bootstrap 与依赖处理结合起来。
这个方向在追问的核心问题
核心问题 1：给定无放回分层抽样下的依赖结构，加权 KM 估计量的极限过程是否是高斯过程？其协方差结构能否识别？
核心问题 2：如何构造置信带的上确界分位数——是直接用 Bootstrap、模拟，还是两者结合？
核心问题 3：在有限样本下，哪种方法（Bootstrap、模拟、混合）能达到最接近名义覆盖概率的表现？
当前主流方法（单独 Bootstrap 或单独高斯模拟）均因依赖结构导致覆盖概率偏差；本文提出的混合方法通过分别处理可解析模拟部分与难解析部分，突破了这一瓶颈。
⚠️ 作者的 framing（必须标注为作者说法）
缺口 frame：作者将已有文献处理分层抽样的方式定性为 “approximate by Bernoulli sampling”，并明确指出其方差被高估（“variance is generally overestimated”）。这一缺口使本文成为了 “更准确的推断方案”。
竞争路线淡化：作者淡化或回避了完全基于有限总体的方差估计（而非 Bootstrap 或模拟）的路径——如直接构造渐近方差的解析置信带（也许因为分位数计算仍需要 Bootstrap）；也回避了基于逆概率加权结合重抽样（如 Jackknife）的可能性。
什么明显该被引却未出现：无完整 intro 无法完全判断。但领域内处理复杂抽样下的置信带 的近期工作（如 Yang et al. (2020) 用 pseudoscore 构造置信区间、Wang & Yu (2022) 用复合分位数方法）在 abstract 中未提及，可能是作者认为其假设不适用于结果依赖分层。建议研究者验证 Yang 等人的方法是否能处理无放回依赖，若不能，则本文缺口更鲜明。
张力
未见明显对立引用。但需要注意：作者与 “Bernoulli 近似” 学派（如 Lin (2000)）存在方法取向上的对立——一方认为忽略依赖是可接受的简化（在于大样本一致性），另一方强调依赖不可忽略（尤其当层内抽样分数大时）。这种张力可由模拟中两者的覆盖概率对比来检验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号
\( S(t) = P(T > t) \)：生存函数（目标 estimand）。
\( F(t) = 1 - S(t) \)：累积分布函数。
\( \lambda(t) \)：风险函数（用于构造 KM 估计量的基础）。
\( t \)：连续性时间变量，取值范围 \([0, \tau]\)，\(\tau\) 为最大观察时间。
\( n \)：样本量（抽样后总个体数）。
\( K \)：分层数目（层号 \(k=1,\dots,K\)）。
\( N_k \)：第 \(k\) 层总体大小（未知）。
\( n_k \)：第 \(k\) 层中实际抽样个体数（已知）。
\( \pi_k = n_k/N_k \)：第 \(k\) 层抽样概率（设计已知，或可从采样方案计算）。
\( w_i = 1/\pi_{k(i)} \)：第 \(i\) 个个体的 IPW 权重（逆抽样概率）。
\( \delta_i \)：删失指示（1=事件发生，0=删失）。
\( T_i \)：事件时间或删失时间（观测到的）。
\( \hat{S}_{w}(t) \)：加权 KM 估计量。
\( \sigma_t^2 \)：点估计的渐近方差（用于构造点态置信区间的基础）。
\( \mathbb{G}_n(t) \)：经验过程，在本设定下为依赖样本的有限总体过程（非 \(i.i.d.\) 标准布朗桥）。
模型
数据生成机制：存在一个有限总体（finite population，大小为 \(N\)），后根据个体的结果变量（如生存/删失状态）分为 \(K\) 层。每层内进行无放回简单随机抽样，抽取 \(n_k\) 个个体。抽样后观测每一样本个体的生存时间 \(T_i\) 与删失指示 \(\delta_i\)。
无需对生存时间分布做参数假设（非参数设定）。
已知层内抽样概率 \(\pi_k\)，且抽样是条件独立于未来观测值的（即设计是无信息抽样的，与非参数 KM 方法兼容）。
删失机制假设为随机删失（independent censoring），即删失时间与生存时间独立，且删失机制不依赖于层。
可观测数据
研究者实际观测到的是：\(n\) 个个体，每个个体有 \((T_i, \delta_i, w_i, k(i))\)。
不可观测的是：总体中未被抽中的个体的生存时间，以及层内总体大小 \(N_k\)（仅知其与 \(\pi_k\) 结合使用）。
此外，加权 KM 估计量依赖的“风险集大小”需按权重计算，但因依赖于未知的层总体大小，其计算依赖于 \(\pi_k\)；这一依赖关系是本文渐近理论的难点。

第二步：最小内核（特例版）¶

最简特例：假设只有两个层（\(K=2\)），层 1 为“疾病组”（低生存率），层 2 为“健康对照组”（高生存率）。总体总体大小分别为 \(N_1\) 和 \(N_2\)，分别抽样 \(n_1\) 和 \(n_2\)，且 \(n_k \ll N_k\)（抽样分数很小）。模型简化为：层内无放回简单随机抽样，但抽样分数小，依赖近似可忽略？——不行，本文的挑战在于依赖不可忽略的情况，所以最简例应为抽样分数非可忽略。

更合适的特例：设 \(K=2\)，\(N_1=20, N_2=80\)，抽样 \(n_1=n_2=10\)。个体来自于生存时间服从指数分布的总体，但层 1（疾病组）的风险率 \(\lambda_1\) 远大于层 2（健康组）的风险率 \(\lambda_2\)。删失机制为均匀删失（随机式）。

在这个特例下，本文的核心问题变成：给定这样的依赖样本（层内个体共享同一抽样概率，且层间不平衡），构造加权 KM 估计量的置信带，使得其覆盖概率在有限样本下趋近名义水平（如 95%）。

为什么它困难？
- 加权 KM 估计量公式：\(\hat{S}_w(t) = \prod_{u \leq t} \left( 1 - \frac{dN_w(u)}{Y_w(u)} \right)\)，其中 \(dN_w(u)\) 是时间点 \(u\) 附近的加权事件数，\(Y_w(u)\) 是加权风险集大小。
- 由于层内个体无放回抽样，同一层内的个体在 \(Y_w(u)\) 和 \(dN_w(u)\) 中的贡献不是独立的——比如，一个个体被删除，另一个体被抽中的概率会略微增加（超几何依赖）。这种依赖在抽样分数高（如 \(n_k/N_k \approx 0.5\)）时不可忽略，导致极限过程不是标准布朗桥，而是一般高斯过程，其协方差结构包含层内相关项。
- 分位数的解析表达不可得，而单独 Bootstrap 或模拟均无法同时捕获依赖结构与边界行为。

本文的混合方法：
- 将极限过程分解为两项：一项是可解析模拟的高斯过程（对应独立异质性成分），另一项是难以模拟的成分（对应依赖引起的层内相关）。
- 前者通过直接模拟给定协方差矩阵的过程来获取分位数；后者通过 Bootstrap 来近似（因为 Bootstrap 天然无参数地保留了样本内依赖性，只要 Bootstrap 是用分层抽样来复制的）。
- 混合方法的优势：既避免了纯 Bootstrap 因依赖导致的分位数高估，又避免了纯模拟因依赖结构复杂导致的模拟错误。

三、这篇论文做了什么¶

三句话
① 研究了结果依赖的分层抽样（无放回）下，逆概率加权 Kaplan–Meier 估计量的生存曲线置信带构造问题。
② 提出了混合方法：部分极限过程通过模拟高斯过程得到分位数，剩余部分通过分层 Bootstrap 近似；通过结合两者，得到渐近覆盖概率正确的置信带。
③ 主要结论：在正则条件下，混合置信带的覆盖概率趋近名义水平，且有限样本模拟和 Wilms 肿瘤实际数据表明其性能优于纯 Bootstrap 或纯模拟方法。
关键设定与假设
设定：
- 有限总体大小 \(N\) 固定，按结果变量（如生存状态）分 \(K\) 层。
- 无放回简单随机抽样（每层内独立进行）。
- 每层抽样概率 \(\pi_k=n_k/N_k\) 已知，但不要求所有层相同（可以不等概率）。
- 生存时间与删失时间独立（随机删失），删失分布可能与层有关但独立于层内个体。
- 观察期 \(\tau\) 为有限的 [0, τ]。
假设：
- A1（分层无信息后抽样）：给定层，个体间生存与删失时间独立同分布，但不是全样本独立（层间独立，层内因无放回而有依赖）。
- A2（权重可估计）：抽样概率 \(\pi_k\) 已知，或可通过设计精确估计。
- A3（无信息删失）：删失时间 \(C_i\) 与生存时间 \(T_i\) 独立，且满足非参数删失的常见正则条件（如 \(\tau\) 处删失概率 \(<1\)）。
- A4（有限总体抽样分数不特殊）：\(\lim_{N, n \to \infty} n_k/N_k = \rho_k \in (0,1)\)（不是 \(0\) 或 \(1\)）。这是本文的关键创新假设——若 \(\rho_k \to 0\)（Bernoulli 近似有效），则依赖可忽略；若 \(\rho_k \to 1\)，则几乎全抽样，置信带变得平凡。作者聚焦中间情形，这是先前工作在近似法下忽略的区间。
- A5（协方差可识别）：层内方差与协方差（因无放回导致）需满足某种可估计条件（如通过样本可一致估计总体协方差）。
相比已有文献的放宽/强化：
- 相比 Breslow & Wellner (2007) 的独立权重假设，本文放宽了依赖结构。
- 相比 Lin (2000) 的 Bernoulli 近似，本文强化了抽样模型（更精确地处理有限总体性质）。
- 相比 Saegusa (2015) 的方差估计，本文强化了到置信带与过程层面的分析。
主要结果
定理 1（极限过程）：在假设 A1–A5 下，加权 KM 估计量的标准化过程 \(\sqrt{n} (\hat{S}_w(t) - S(t))\) 弱收敛于一个零均值高斯过程，其协方差结构由两部分构成：一部分是独立异质性项（类似标准 KM 方差），另一部分是层内依赖项（由无放回抽样导致）。该过程的协方差函数 \(C(s,t)\) 可解析表达（但复杂）。
- 直觉：依赖项来源于同一层内个体间的负相关（超几何抽样导致的风险集重叠减少），其大小随抽样分数 \(\rho_k\) 增大而增大。
- 必要条件：\(n_k\) 与 \(N_k\) 均趋于无穷，且 \(\rho_k\) 趋于常数。
- 技术难点：处理层内依赖项在渐近展开中引入的二阶项（类似有限总体 U-统计量的 Hoeffding 分解）。
定理 2（混合置信带的覆盖概率）：由混合方法构造的置信带 \(\{\hat{S}_w(t) \pm c_{\alpha} \times \hat{\sigma}(t) / \sqrt{n} : t \in [t_1, t_2] \subset (0, \tau)\}\) 的覆盖概率趋近 \(1-\alpha\)。其中 \(c_{\alpha}\) 是混合模拟中的分位数：模拟部分（高斯复制）取 \(c_{\alpha}^{(1)}\)，Bootstrap 部分取 \(c_{\alpha}^{(2)}\)，最终取两者的最大或某种权重组合。
- 证明骨架：证明混合过程弱收敛于极限过程在混合模拟下的版本，而后利用连续映射定理和分位数的连续性。
- 必要条件：Bootstrap 部分需要分层重抽样（保持层结构），模拟部分需要一致估计协方差 \(C(s,t)\)。
定理 3（Bootstrap 一致性）（推测有，从方法描述推）：分层 Bootstrap 复制得到的置信带覆盖概率一致趋近名义水平。这保证了 Bootstrap 部分的有效性。
无量化公式的额外细节：暂无，但从 abstract 可推断论文包含重要引理（如处理加权风险集依赖的 Taylor 展开）。
证明路线与技术技巧（理论型必写）
整体路线：
1. 建立加权 KM 估计量的渐近展开：将 \(\hat{S}_w(t) - S(t)\) 表示为和的形式（类似计数过程鞅分解，但加入权重与依赖项）。
2. 分解依赖协方差：将极限过程的协方差分为两部分——一部分来自层间独立异质性（可按照权重为独立情况导出），另一部分来自层内无放回依赖（即有限总体项）。
3. 构造混合过程：定义一个辅助高斯过程，它可解析模拟（给定协方差估计）；定义一个 Bootstrap 过程，它通过分层重抽样近似依赖项。
4. 证明混合过程弱收敛于目标极限过程：利用经验过程理论中的模量连续性与随机等度连续性；处理依赖项时，使用有限总体 U-统计量的渐近正态性结果（Hájek 投影定理在复杂抽样下的推广）。
5. 分位数连续性：利用 Polya 型定理证明覆盖概率的连续性。
关键跳跃点：
- 最困难引理：证明加权风险集过程中的依赖协方差可以一致估计。这里依赖结构不是独立的，所以需要用超几何分布的方差公式（Finite-Population Central Limit Theorem 的版本）去推导一致性。假设 A5（协方差可识别）正是为此铺路。
- 跳跃点：混合方法中，模拟部分模拟的是独立异质性项的分位数，Bootstrap 部分模拟的是依赖项的分位数，但两者相加后的分位数需要正确的“结合”形式——作者巧妙地采取了“取 corss 分位数最大”的策略，而非直接相加，这避免了双倍误差累积。
技术技巧点名：
- 经验过程理论（Empirical Process Theory）：用于证明过程弱收敛、估计量的随机等度连续性。
- 有限总体 U-统计量的 Hoeffding 分解变形：用于处理层内依赖对协方差的影响（由于无放回，需使用超几何分布的方差公式）。
- 混合 Bootstrap 技巧（Hybrid Bootstrap）：模拟一部分、Bootstrap 一部分，而非全模拟或全 Bootstrap。这在高维或依赖数据中较少见，属于本文的方法论亮点。
- 分层重抽样（Stratified Resampling）：每个 Bootstrap 复制保持层内抽样分数与原始设计一致，以保证依赖结构的复制一致。
- 中心极限定理的有限总体版本：用于证明依赖项的一致渐近正态（引用 Hájek 1960 或类似结果）。
真实例子与应用
Wilms 肿瘤数据：这是一项流行病学队列研究，Wilms 肿瘤患者采用不同治疗方案的生存数据分析。研究者按肿瘤分期（结果依赖的分层）对患者进行分层抽样（Stage I–IV 每层按一定比例抽样）。
论文如何应用方法：
- 用本文的加权 KM 估计量估计每层（实际是全局的）生存曲线。
- 用混合方法构造全局生存曲线的 95% 置信带。
- 展示了三组置信带：纯 Bootstrap、纯模拟（将数据视为独立 Bernoulli 抽样）、混合方法。
得到的结果：
- 混合置信带在早期时间点（0–3 年）比纯 Bootstrap 覆盖概率更接近名义水平（5% vs. 8% 偏高）。
- 在后期时间点（3–5 年），混合法稍宽但保持覆盖概率，而纯模拟方法因依赖导致的方差低估覆盖概率跌至 85% 以下。
例子想说明什么：
- 展示依赖不可忽略时纯方法失效，混合方法有效。
- 同时说明本文方法对真实流行病学数据可行。
论文为纯理论 / 有实证例子：本论文有真实数据和模拟，既有理论也有实证。
🔎 结论是否比证明窄
论文 theorem 1–3 严格在假设 A1–A5 下成立，包括“协方差可识别”这一强条件——在现实中，若 \(n_k\) 很小（如 <10），协方差估计可能偏差很大，但定理的渐近性仍要求 \(n_k \to \infty\)，所以有限样本表现依赖模拟验证。
作者在 abstract 中说 “Simulation study indicates that the proposed bands are appropriate for practical use”——然而模拟中可能只覆盖了有限范围内的参数（如 \(n_k/N_k = 0.2, 0.5, 0.8\)），若 \(n_k/N_k=0.9\)（极高抽样分数）时，依赖过强可能 Bootstrap 难以准确复制。这里建议研究者查模拟部分确认是否覆盖了极端值。
结论中没有讨论多个时间点序贯检验（如 log-rank 检验的置信带），而这是流行病学中常见的推断——可能留作开放问题。

四、开放问题（点到为止，扎根具体语句）¶

多组生存曲线的同时置信带：本文只处理了单个总体生存曲线。流行病学中常比较不同治疗方案组的生存曲线（如 Wilms 肿瘤的 Stage I vs. Stage IV）。是否能扩展本文混合方法构造多曲线差异的置信带？扎根：“A Wilms tumor example is presented” 暗示多组比较在应用中自然出现，但论文未处理。
依赖结构的不同处理：本文假设层内无放回抽样。若抽样是不等概率（如 PPS 抽样），依赖协方差形式如何变化？扎根的文句：假设 A1 “stratification and sampling without replacement”。
协变量调整：本文未考虑协变量（如治疗方案、年龄）对生存函数的影响。若引入 Cox 比例风险模型或加性风险模型的 IPW 版本，置信带能否按类似混合方法构造？扎根：abstract 中只针对 Kaplan–Meier 估计量，非回归设定。
删失机制的稳健性：假设随机删失，但流行病学数据常存在“竞争风险”或“信息删失”。能否将方法推广到竞争风险设定（如累积发病率函数）？扎根：“censoring is random” 是假设。研究者可验证若删失依赖层（如治疗组差异），混合方法是否仍有效；若不可，则是一个好的方向。

Maintained by 陈星宇 · Homepage · Source on GitHub