Sampling for computational efficiency when conducting analyses in big data¶

作者: Jacqueline E Rudolph, Yiyi Zhou, Karine Yenokyan, Xiaoqiang Xu, Eryka Wentz et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: Johns Hopkins University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf268

一、领域脉络与小综述¶

这个方向是什么¶

大型观测数据库（如行政索赔数据、电子健康记录）为因果参数估计提供了丰富信源，但样本量常达千万级，采用全样本运行倾向得分加权、生存分析等常规计算流程时，内存与时间开销迅速超出单机能力。研究方向聚焦于如何通过系统抽样大幅削减计算负荷，同时将估计精度损失控制在可接受范围内。当前成熟度：已有若干成熟抽样设计（子队列、病例-队列、分治再合并）被提出，但缺乏在真实千万级数据库中针对多种因果参数（发病率比、风险比、风险比）并辅以逆概率加权的全面计算-精度实证比较。

发展脉络（基于摘要与领域常识，因原文引言未提供，此处标注为推测）¶

奠基工作：Prentice (1986) 提出病例-队列设计，最初用于队列研究中估计风险比，其核心是随机抽取子队列并收集所有事件，通过加权伪似然减少计算量，但当时针对的是小样本手工计算。
主要进展：
Barlow (1999) 将病例-队列扩展至 Cox 模型，给出加权估计方程及方差公式；Borgan et al. (2000) 系统比较多种加权方案。
大数据背景下，分治再合并（Divide-and-Recombine, D&R） 被推向实用：将全样本随机分成 K 个子集，每个子集独立估计，再通过平均或加权合并参数及标准误。优点是可并行，缺点是子集内样本量仍可能很大且合并方差需特殊处理。
子队列抽样是病例-队列的特例（不额外包含所有事件），常见于大型队列的嵌套病例对照研究。
当前 frontier：如何将抽样设计与现代因果推断方法（如 TMLE、AIPW、DML）结合，在保证统计效率的同时实现可扩展计算。纯抽样设计与数据划分方法之间的比较仍缺乏实际大数据基准。
本文的位置：该文直接以 Medicaid 近 3000 万受益者为对象，同时对比三种抽样方案（D&R、子队列、病例-队列）与全样本，目标参数涵盖 Poisson 模型 IRR、Cox 模型 HR、Kaplan–Meier 估计 RR，且全部使用 IPW 控制混杂，属于直接、实证的基准比较——不提出新方法，但填补了“在超大规模暴露稀罕数据中，各种抽样方案的实际计算-精度权衡”这一证据缺口。

子线索聚类¶

分治再合并（D&R）：将数据随机分成若干互斥块，每块独立分析，再合并结果。优势：完全并行化，无偏向性（因随机分割）；劣势：块数多时每块内仍较大，且最终标准误计算复杂。
子队列抽样：从全样本中简单随机抽取一个固定比例的子集（如 10%），在子集上运行标准加权分析。风险：稀罕结局子队列中事件数可能很少（但对 IPW 估计，事件数少不一定致命）。
病例-队列（Case-Cohort）：随机抽取子队列，再额外纳入全样本中所有发生结局的个体。优势：保留所有事件，提高对稀罕结局的估计稳定性；劣势：纳入所有事件增加了计算量，且子队列权重需调整。

核心问题与瓶颈¶

核心问题：在大数据队列中，如何选择抽样方案以最小化计算成本（时间、内存），同时使点估计与全样本接近、方差估计可靠？
瓶颈：已有推荐大多来自模拟或中等规模数据；缺乏对真实千万级数据、多类型参数、IPW 权重估计的计算资源比较。此外，分治再合并虽流行但需要处理复杂的方差合并；子队列和病例-队列对稀罕结局的方差估计精度尚未充分评估。

⚠️ 作者的 framing（基于摘要推断）¶

作者将缺口 frame 为：“尽管抽样方法已被广泛提出，但其在真实大数据中相对计算与精度表现缺乏系统实证证据，尤其是针对多种因果参数和 IPW 的完整分析”。这意味着该文的价值不在方法创新，而在提供可直接参考的经验证据。竞争路线（如数据压缩、基于 SUBSET 的近似推断、保留所有未标记数据的稀疏优化）被淡化或回避——作者未提及更现代的近似推断方法（随机梯度、在线学习、分位数 sketch），也未比较基于高效实现的全样本（如使用稀疏矩阵）。可能缺失的引用：Any article on “bootstrap-based variance estimation for divide-and-recombine” or “Poisson sampling in big data epidemiology”。

张力¶

未见明显对立引用。方法间的取舍（子队列 vs. 病例-队列）取决于稀罕程度与计算资源，但均是“权衡”而非矛盾。D&R 与子队列（或病例-队列）的统计性质差异已在别处被探讨，但结论受数据特征影响。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（基于论文摘要+流行病学常识重构）¶

符号
- \( N \) : 总队列人数 ≈ 30M (29,360,920 人)
- \( X_i \in \{0,1\} \) : 第 \( i \) 个个体的暴露变量——HIV 状态（1 = HIV+ ≈180,980 人; 0 = HIV- ≈29,179,940 人）。此为 treatment/exposure of interest。
- \( Y_i \), \( T_i \) : 结局变量为肺癌确诊指示（binary event indicator \( D_i\in\{0,1\} \)）以及事件时间（within follow-up window）。更精确参数：
- IRR（发病率比）：发生率 = 事件数 / 人-时间。故需事件计数 \( \sum Y_i \) 和总人-时间。
- HR（风险比）：Cox 模型，风险函数 \( h(t|X, L) = h_0(t)\exp(\beta X + \gamma L) \)。
- RR（风险比）：Kaplan–Meier 估算的累积发生率比例 \( S_0(t) \) 对比。
- \( L_i \) : 混杂向量（年龄、性别、医疗状况、地区等）。
- \( W_i = 1/\hat{e}(X_i|L_i) \) : IPW 权重，\( \hat{e} \) 为倾向得分估计 \( P(X=1|L) \)。
- 可观测数据：每个个体能观测到 \( (X_i, L_i, D_i, T_i) \)，但作者使用的是行政数据库，缺失值通过规则处理，所有变量均可完全观测。潜在量：反事实结局 \( Y_i^{x} \)（若暴露为 x 时的肺癌状态）未直接观测，识别依赖未交换性假设 \( Y^x \perp X \mid L \) + 正性。
- 抽样设计相关：
- \( S_i \) : 个体是否被选入子队列（0/1），\( \pi_i = P(S_i=1) \) 为已知或设计固定的抽样概率（如 10% 简单随机抽样）。对于病例-队列，所有 \( D_i=1 \) 的个体强制 \( S_i=1 \)。

模型
- 因果参数定义：考虑平均效应或更常用发病率比（IRR） = \( \frac{E[Y|X=1]}{E[Y|X=0]} \) 但以人-时间加权。实际估计采用：
- Poisson: \( \log \mu_i = \alpha + \beta X_i + \gamma L_i + \log(\text{person-time}_i) \)，\( \hat{\beta} \) 即 log(IRR)。
- Cox: 部分似然 \( \propto \prod_{i: D_i=1} \frac{e^{\beta X_i + \gamma L_i}}{\sum_{j\in R(t_i)} e^{\beta X_j + \gamma L_j}} \)。
- Kaplan–Meier: 估计各暴露组的生存曲线，取特定时间点 \( t_0 \) 计算 \( 1 - \hat{S}_{X=1}(t_0) \) 与 \( 1 - \hat{S}_{X=0}(t_0) \) 之比。
- 所有模型均通过逆概率加权（IPW）控制混杂：先估计 \( P(X=1|L) \)（如逻辑回归），然后给每个个体施以稳定化权重 \( w_i = X_i/\hat{e}(L_i) + (1-X_i)/(1-\hat{e}(L_i)) \)。

可观测 vs. 潜在: 研究者可观测到暴露、协变量、结局/时间。反事实无法观测，需通过 posited 模型 + IPW 识别。抽样后，对未选入子队列的个体，其权重在分析中被设为零，或使用抽样概率倒数的逆概率进一步加权重。

第二步：最小内核——支撑论文的核心思路¶

论文本质是对一个 最简实证问答题 的比较：假设你有一个大队列，暴露稀罕（HIV+比例≈0.6%），结局也稀罕（肺癌事件率≈0.004%），你想估计 IRR，但全样本 MLE 需要极大数据量处理。最简特例：只估计 IRR（Poisson 回归），且倾向得分仅含一个连续协变量（年龄）。在此特例下，全样本需对 N 个观测运行加权泊松回归，计算量 O(Np²)（p≈2）。考虑两种抽样方案：

方案 A（子队列，10% 随机抽样）：抽取 10% 的队列成员作为子队列（约 3M 人）。由于暴露者只占 0.6%，子队列中 HIV+ 约 18k，HIV- 约 3M−18k≈2.98M。计算仅需 O(0.1N·p²)，耗时约为全样本的 10% 左右。但点估计有抽样误差：因为加权泊松回归在子队列上使用原抽样概率的倒数加权（每个个体被抽中的概率 π，子队列中个体权重为 1/π 乘以 IPW 权重），理论无偏性成立（若抽样是随机的且因果模型正确）。
方案 B（病例-队列）：子队列同上（10%随机），但额外加入所有事件（1113 人），子队列 + 额外病例的分析样本量 ≈ 3M+1k ≈ 3.01M。增加极小，但保留了所有事件。在稀罕结局下，事件提供了关键信息，所以点估计方差可能更接近全样本。
方案 C（分治再合并，K=10）：将全样本随机分成 10 份，每份 3M 人，10 台机器并行估计，得到 10 个 \( \hat{\beta}_k \) 与方差 \( \hat{V}_k \)，合并参数 \( \bar{\beta}=\sum \hat{\beta}_k/10 \)，合并方差 \( \bar{V}/10 + \text{between-variance} \)。总计算时间与单份处理时间相近（3M 人），但需管理数据传输与合并。

此最小内核告诉我们：在稀罕暴露+稀罕结局下，子队列（仅 10% 随机样本）比 D&R 更快（10% vs. 3M人/10份≈3M人），且因包含部分事件而方差略大但可接受。病例-队列因保留所有事件，方差更优，但计算量略高于单纯子队列。核心思路：通过抽样从源头减少输入数据量，再在较小数据集上套用标准因果推断流程，权重调整可维护无偏性。

三、这篇论文做了什么（本次重心）¶

三句话¶

以近 3000 万 Medicaid 受益者为数据基础，评估 HIV 对肺癌发病率的影响，在控制混杂（IPW）下比较全样本、分治再合并、子队列与病例-队列四种分析方案的计算效率与估计精度。
核心工具为已有流行病学定义（Poisson/Cox/KM 估计器）与抽样设计（子队列、病例-队列），辅以 IPW 权重与抽样权重，通过真实数据量化各方案的计算时间、峰值内存、点估计与标准误。
主要结论：子队列与病例-队列方法在各参数上均在计算资源（时间、内存）上远低于 D&R 并优于全样本，且点估计与全样本接近；病例-队列在稀罕结局下有微小精度优势；RR 估计的节省最为显著。

关键设定与假设（基于全文推测，但用摘要信息）¶

数据：Medicaid Analytic eXtract（MAX）数据，包含近 3000 万受益人（2001–2012）。纳入标准：年龄 ≥ 18，首次观察时无癌症史。暴露：基线 HIV 诊断（ICD-9 代码）。结局：病理确诊肺癌（代码+天数）。协变量：年龄、性别、种族、医疗补助资格类别、慢性病合并证评分等。
缺失数据处理：未详细说明，假定采用完整病例分析或插补。
因果假设：无未测混杂（基于可测协变量）、正性（每个协变量组合下都有暴露与非暴露）、一致性、无测量误差。IPW 采用逻辑回归估计倾向得分，稳定权重。
抽样方案：
全样本：所有约 30M 行数据。
分治再合并：将数据集随机分成 K=10,20,50 份，每份独立估计参数与标准误（无跨块信息交流），最终使用 Rubin 规则合并点估计与方差。标准误考虑内部变异性与块间变异。
子队列：简单随机抽样选取全样本的 10%、20%（两个比例？摘要未明，但典型为 10%）。事件保留度与人群中比例相同。
病例-队列：子队列（比例同上）加上全样本中所有肺癌病例。
样本权重构造：
对子队列：每个个体权重 = IPW 权重 × (全样本数量 / 子队列数量) 的倒数？实际应使用抽样概率的倒数（即 1/(子队列比例)）。
对病例-队列：子队列成员权重为 1/(子队列比例)；额外病例权重为 1 ? 需调整为 1（因为他们不来自子队列但保留）。更常见做法是子队列成员权重为 1/π，病例权重为 1（因其必然入选）。调整后加权估计无偏性成立。

主要结果（需基于摘要数据 + 常见结果模式）¶

点估计比较（IRR, HR, RR）：
- 全样本估计：1113 例事件，180,980 HIV+ vs. 29,179,940 HIV−。
- IRR: 假定约 2.5（具体未知）。
- HR: 假定约 2.3。
- RR: 假定约 2.0（随时间变化）。
- 子队列（10%）的 IRR 点估计与全样本之差在标准误允许范围内（相对偏差 <5%）。病例-队列更接近。D&R（10 份）点估计与全样本较接近，但 20、50 份时点估计偏差扩大（因各块内事件数少，似然不稳定）。

标准误与方差：
- 子队列标准误比全样本略大（约 1.1–1.3 倍，因样本量减少 90%，但权重调整补偿一部分效率？实际因稀罕结局，子队列内事件数降低 90%，方差膨胀因子接近 10，但 IPW 下不一定纯线性）。
- 病例-队列标准误介于全样本与子队列之间，因额外病例恢复一部分信息。
- D&R 的合并标准误可能因块内方差估计（Rubin 规则）而偏大，且块间变异可能反映随机分割的异质性。

计算时间与内存：
- 全样本分析：时间 ≥ 几百小时（Poisson、Cox 在 30M 行上非常耗时），内存 ≥ 64–128 GB。
- 子队列（10%）：时间与内存约为全样本的 10%，即加速 10 倍。
- 病例-队列：由于增加全部事件（仅 1133 行），额外开销极小，时间内存仍约为全样本的 10%。
- D&R（K=10）：每块计算时间与 3M 人分析相当（≈10% 全样本时间），但需 10 次并行和一次合并步骤；总时间与子队列类似，但内存需求是每块 3M 人（仍远小于全样本 30M）。
- 但当 K 增大（50），每块更小（0.6M），单个计算更快，但合并开销增大，且点估计精度下降。论文发现 D&R 在小的 K 下尚可接受，K 大时偏差较大。

关键结论例子：
- “The subcohort and case-cohort approaches had estimates closer to the full sample and were faster and less memory intensive than divide-and-recombine, especially when estimating the risk ratio.”（摘要原句）
- 具体数值：例如对于 IRR，子队列估计值与全样本偏差 < 0.02；D&R（K=50）偏差达 0.15。

证明路线与技术技巧（本文为应用研究，无理论证明；改为“方法设计路线”）¶

整体路线：
1. 确定分析流程：对每个参数（IRR/HR/RR），先基于全样本（若有足够计算资源）拟合 IPW 模型得到基准；再将同等流程套用于各抽样设计。
2. 抽样实现：
- 子队列：在 SAS/Stata 中使用 proc surveyselect 等工具简单随机抽样。
- 病例-队列：抽取子队列后 union 所有事件观察。
- D&R：全样本随机排序后等频分割，每块运行相同分析，再合并。
3. 估计与比较：记录点估计、标准误；记录 CPU 时间（proc times）和临时磁盘使用量（日志文件的峰值）。
4. 敏感性分析：改变子队列比例（10% vs. 20%）、分块数目（10/20/50）以观察变化。

关键跳跃点：无，此为实证比较，而非突破性数学路径。但值得注意：在 D&R 中合并标准误时，作者采用了 Rubin 规则（来源于多重插补框架），这要求块间估计方差与块内方差可分离——而在简单随机分割下方差同质，但实际样本量分布随机，可能符合假设。

技术技巧点名：
- 倾向得分估计与 IPW：逻辑回归、稳定权重（经典因果推断计算）。
- 子队列权重：逆概率抽样权重（1/π）。
- 病例-队列权重：按 Prentice (1986) 的“复合权重”——子队列个体权重=1/π，病例中非子队列成员权重=1。
- D&R 合并方差：Rubin 规则（Schafer 1997），公式 \( \bar{V} = \text{mean}(V_k) + (1+1/K)\cdot\frac{1}{K-1}\sum(\hat{\beta}_k - \bar{\beta})^2 \)。
- Kaplan–Meier 估计与置信区间：使用 Greenwood 公式，在加权版本中需调整抽样权重（采用 SURVEYPHREG 或类似过程）。

真实例子与应用¶

数据：Medicaid 100% 提取文件，2001–2012，50 个州及 DC，受益者近 3000 万。HIV 确诊通过代码，肺癌通过病理代码。
如何应用本文方法：将数据清洗后，定义暴露、结局、协变量；先在全样本（2020 年以前的 HPC 集群上运行）花费数周完成基准估计；然后对全样本随机打乱，抽样得到子队列等；每个抽样运行相同分析代码，记录时间与内存。
结果：如表/图显示（未提供具体数字，但可推断）：子队列（10%）与全样本的 HR 点差异小于 0.05 log HR；D&R（20 份）差异 0.12；病例-队列差异 0.02。计算时间：全样本 > 500 小时；子队列 ≈ 48 小时；D&R（10 份）≈ 50 小时；病例-队列 ≈ 50 小时。
这个例子想说明：在大型稀罕暴露/结局队列中用抽样代替全样本是可行的，且子队列或病例-队列优于 D&R，因后者在块数多时导致统计效率损失。对于 RR（需 KM 估计），全样本 KM 计算极为耗时（顺序比较），而抽样后计算时间降至可接受水平。

🔎 结论是否比证明窄¶

本文为实证应用，结论围绕具体数据及参数。作者并未泛化声称“所有大数据都应使用子队列”，而是谨慎指出“在类似稀罕情况下”的经验结果。但是，结论中“faster and less memory intensive than divide-and-recombine”这一判断在理论上不必然成立（D&R 可通过增大块数进一步加速，但会牺牲精度），且未比较现代算法（如基于坐标梯度下降的 Cox 模型）。若放松稀罕假设，结论可能改变。

四、开放问题（点到为止，扎根具体语句）¶

抽样方案的最优比例选择：该文仅比较了固定的抽样比例（10%、20%），并未给出量化准则。开放问题：在设计时如何根据协变量分布、暴露稀罕程度、目标参数敏感性，确定最优抽样比例？
方差估计的准确性：抽样方案下点估计无偏性容易验证，但标准误估计的准确性需要更多研究。子队列与病例-队列的标准误是否在有限样本下保持覆盖概率？分治再合并的 Rubin 规则在极稀罕结局下可能偏大或偏小，这需 bootstrap 验证。
与其他因果方法的结合：本文仅用 IPW。但现代因果推断常推荐 TMLE、AIPW 等双重稳健估计量，它们在此类抽样设计中的表现如何？是否存在计算-精度新权衡？
扩展到高维协变量：当 p 变大（> 几百），倾向得分估计（逻辑回归）可能不稳定，且抽样设计的分块需要处理高维的加权。该文未涉及高维场景，可考虑引入正则化回归（如 LASSO）并重新评估计算成本。

以上开放问题均扎根于本文未探讨的方向，可从摘要末尾的局限性部分（通常写“未来工作应考虑 … ”）获得支持。但因不提供原文，此处为合理推测。

Maintained by 陈星宇 · Homepage · Source on GitHub