Mastering rare event analysis: subsample-size determination in Cox and logistic regressions¶

作者: Tal Agassi, Nir Keret, Malka Gorfine
来源: Biometrics
主题: 统计计算 / 算法
相关性: 5/10
机构绿灯: Tel Aviv University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf110

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在数据量 \(N\) 极大（以至于全样本计算不可行或成本极高）时，如何通过抽取子样本（subsample）来逼近全样本估计量，并量化这一逼近带来的效率损失。它当前已是一个成熟度较高的工程与理论交叉领域：已有大量文献给出了"如何抽"（最优抽样分布）和"抽出来后如何估"（IPW-type 修正估计量），但抽多少（subsample size \(n\) 的确定）这一将计算成本与统计效率显式挂钩的环节，长期停留在"经验选 \(n\)"或"事后看 MSE 曲线"的阶段，缺乏先验的、基于相对效率的解析准则。

发展脉络： - 奠基工作：Subsampling 在大规模模型中的系统化应用，起于 Maclaurin 等人对 MLE 的近似（引用 14）。将 subsampling 与最优抽样分布结合的奠基性框架，由 Wang 等人（2018，引用 15）在 logistic 回归下提出，他们给出了基于 A-最优性的 IPW-type 子抽样估计量与最优概率，但留下口子：未提供 \(n\) 的选择准则，且设定局限于平衡数据。 - 主要进展（Cox 回归子线索）：Wang 等人的框架随后被推广到生存分析。Wang & Wang (2020, 引用 16) 将最优子抽样引入 Cox 模型；Keret & Gorfine (2023, 引用 10) 进一步将其拓展到稀有生存事件（rare events）设定，提出了基于风险集的 IPW-type 估计量与最优抽样概率。但同样，这两篇均未解决 \(n\) 的确定问题。 - 主要进展（Logistic 回归子线索）：在 logistic 回归侧，除了 Wang 等人（2018）的奠基，Fithian & Hastie (2014, 引用 4) 指出了稀有事件下 logistic 回归的统计困难；随后有 Ishwaran & Rao (2014, 引用 7) 的 random forests subsampling，以及近期 Keret & Gorfine (2024, 引用 11) 对不平衡 logistic 数据的子抽样研究。这些工作同样缺乏 \(n\) 的先验确定工具。 - 当前 frontier 与本文位置：当前 frontier 正从"构造最优估计量"向"计算-效率权衡的显式量化"移动。本文正是填补这一口子：在已有最优抽样分布的基础上，首次提供基于相对效率的 \(n\) 选择公式，并在不平衡 logistic 回归设定下提出了新的最优子抽样程序。

子线索聚类： 1. Cox 模型下的稀有事件子抽样：聚焦于生存数据中风险集的动态结构与稀有失效时间的抽样偏差（Wang & Wang 2020; Keret & Gorfine 2023）。本文在此线索上提供了 \(n\) 的确定工具。 2. Logistic 回归下的平衡/不平衡子抽样：聚焦于二分类数据的 IPW-type 估计与 A-最优性（Wang et al. 2018; Keret & Gorfine 2024）。本文在此线索上不仅提供了 \(n\) 的确定工具，还针对不平衡数据提出了新的最优抽样程序。 3. 子样本容量确定的一般方法论：这是一个更宽泛的线索，涉及如何将计算预算转化为统计保证。本文是这一线索在 Cox 与 Logistic 这两个具体模型下的首次落地。

这个方向在追问的核心问题： 1. 如何量化子抽样相对于全样本的效率损失？（主流方法：基于估计量渐近方差的 A-最优性；瓶颈：方差展开的高阶项在稀有事件下不可忽略，且全样本方差本身未知）。 2. 给定容许的相对效率损失 \(\varepsilon\)，最小的子样本容量 \(n\) 是多少？（主流方法：缺乏解析公式，依赖模拟；瓶颈：需要建立 \(n\) 与相对渐近方差比的显式函数关系）。 3. 在数据极度不平衡时，如何避免子抽样抽到全为多数类样本？（主流方法：基于残差或梯度的抽样；瓶颈：需要适配 IPW-type 估计量的方差结构）。

⚠️ 作者的 framing： - 作者把缺口 frame 成："现有大量文献提供了最优子抽样方法，但明显缺乏选择子样本容量的工具"（Abstract: "they notably lack tools for judiciously selecting the subsample size"），从而让本文的 \(n\)-determination 工具成为"显然的下一步"。 - 被淡化或回避的竞争路线：Intro 中未提及基于数据分割的并行计算（如 divide-and-combine / meta-analysis）作为替代方案，也未提及随机化算法/次线性时间算法（如 streaming algorithms）的复杂度界。这些路线同样解决大计算量问题，但作者将视野严格框定在"subsample-based MLE approximation"内。 - 明显该被引却未出现的：Minimax subsampling rate 的理论文献（如在非参数或高维设定下，subsample size 如何影响 minimax risk），本文的效率界完全锚定在"相对于全样本 MLE"的相对效率上，未与绝对 minimax 理论对话。这是一个值得研究者去查的缺口。

张力：未见明显对立引用。各文献主要是在前人设定上做拓展（平衡→不平衡；普通 Cox→稀有事件 Cox），结论是相容的叠加关系，而非矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(N\)：全样本容量（极大，如 \(3.5 \times 10^8\)）。
\(n\)：子样本容量（要确定的量，\(n \ll N\)）。
\(\boldsymbol{X}_i\)：第 \(i\) 个个体的协变量向量（\(p\) 维），可观测。
\(Y_i\)：第 \(i\) 个个体的响应变量。在 Logistic 回归中为二值变量 \(\{0, 1\}\)，可观测；在 Cox 回归中为观测时间 \((T_i, \Delta_i)\)（观测时间与失效指示），可观测。
\(\boldsymbol{\beta}\)：回归系数向量（\(p\) 维），estimand（要估的参数）。
\(\hat{\boldsymbol{\beta}}_{full}\)：基于全样本 \(N\) 的极大似然估计（MLE），不可直接计算（计算成本过高），但作为子抽样估计的锚定基准。
\(\hat{\boldsymbol{\beta}}_{sub}\)：基于子样本 \(n\) 与 IPW-type 权重的估计量，可计算。
\(\pi_i\)：第 \(i\) 个个体被抽入子样本的抽样概率，依赖于 \((\boldsymbol{X}_i, Y_i)\) 及全样本 MLE 的某个初步估计 \(\hat{\boldsymbol{\beta}}_0\)。
\(V_{full}\)：\(\hat{\boldsymbol{\beta}}_{full}\) 的渐近方差矩阵（\(N \cdot \text{Var}(\hat{\boldsymbol{\beta}}_{full}) \to V_{full}\)），未知但可估。
\(V_{sub}(\pi, n)\)：\(\hat{\boldsymbol{\beta}}_{sub}\) 在给定抽样概率 \(\pi\) 与子样本容量 \(n\) 下的渐近方差矩阵。
\(\varepsilon\)：容许的相对效率损失阈值（如 \(\varepsilon = 0.05\) 表示容许 \(5\%\) 的方差增加）。

模型： - Logistic 回归模型：\(\Pr(Y_i = 1 | \boldsymbol{X}_i) = \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta}) / (1 + \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta}))\)。 - Cox 回归模型：风险函数 \(h(t | \boldsymbol{X}_i) = h_0(t) \exp(\boldsymbol{X}_i^\top \boldsymbol{\beta})\)，稀有事件意味着 \(\Delta_i = 1\) 的比例极低。

可观测数据与不可观测量： - 可观测：全样本协变量 \(\{\boldsymbol{X}_i\}_{i=1}^N\)（这部分通常可存储与遍历），以及响应变量 \(\{Y_i\}_{i=1}^N\)（或生存时间）。 - 想要但观测不到（需估）：全样本 MLE \(\hat{\boldsymbol{\beta}}_{full}\) 及其渐近方差 \(V_{full}\)。子抽样的核心困难在于：确定 \(n\) 的公式依赖于 \(V_{full}\)，但 \(V_{full}\) 本身正是我们因计算困难而无法直接获得的量。

第二步：讲最小内核

剥掉 Cox 模型的风险集动态结构与 Logistic 不平衡数据的类别权重调整，本文支撑整个证明的最小内核是一个基于相对渐近方差的子样本容量求解公式。

最简特例：平衡 Logistic 回归下的 \(n\) 确定

在平衡 Logistic 回归中，假设我们已有了最优抽样概率 \(\pi_i\)（例如基于 A-最优性的 \(\pi_i \propto |Y_i - p(\boldsymbol{X}_i, \hat{\boldsymbol{\beta}}_0)| \|\boldsymbol{X}_i\|\)），核心数学问题是：

我们要找一个最小的 \(n\)，使得子样本估计量的渐近方差相对于全样本估计量的渐近方差，增加不超过 \(\varepsilon\)。在标量参数（\(p=1\)）特例下，这退化成一个极其直观的方程：

\[\frac{V_{sub}(\pi, n)}{V_{full}} \leq 1 + \varepsilon\]

由于 IPW-type 估计量的渐近方差结构可分解为：\(V_{sub}(\pi, n) = V_{full} + \frac{1}{n} \cdot \text{Var}_{\pi}(\text{IPW influence function})\)（这里将渐近方差展开到主导项，并分离出全样本部分与子抽样带来的额外方差项），上述不等式直接解出：

\[n \geq \frac{\text{Var}_{\pi}(\text{IPW influence function})}{\varepsilon \cdot V_{full}}\]

这就是本文的最小内核。整个论文的技术展开，本质上都是在不同模型（Cox / 不平衡 Logistic）下，推导出 IPW-type 估计量的渐近方差展开，识别出其中的 \(V_{full}\) 与 \(\text{Var}_{\pi}\) 项，并解决一个共同的统计困难：公式右端包含未知的 \(V_{full}\) 与 \(\hat{\boldsymbol{\beta}}_{full}\)，作者通过两步法（先用极小的 pilot subsample 估出 \(\hat{\boldsymbol{\beta}}_0\) 与 \(V_{full}\) 的近似，再代入公式算出 \(n\)）将不可计算量转化为可计算量。

三、这篇论文做了什么¶

三句话： ①研究了大规模数据下 Cox 与 Logistic 回归子抽样分析中，子样本容量 \(n\) 的先验确定问题； ②核心工具是基于 IPW-type 估计量的渐近方差展开与相对效率比，并辅以 pilot subsample 估计未知全样本参数； ③主要结论是为三种设定（稀有事件 Cox、平衡 Logistic、不平衡 Logistic）给出了显式的 \(n\) 计算公式，并为不平衡 Logistic 提出了新的最优子抽样程序。

关键设定与假设： - 设定 1：Cox 回归稀有事件。沿用 Keret & Gorfine (2023) 的 IPW-type 估计量与基于风险集的抽样概率 \(\pi_i\)。假设：全样本 MLE 是 \(N^{-1/2}\)-CAN；子抽样估计量是 \(n^{-1/2}\)-CAN；风险集结构在子抽样下可被重构。 - 设定 2：Logistic 回归平衡数据。沿用 Wang et al. (2018) 的 A-最优子抽样。 - 设定 3：Logistic 回归不平衡数据。本文新提出的设定。假设少数类（\(Y=1\)）比例极低。新假设：抽样概率 \(\pi_i\) 必须对少数类赋予极高权重，否则估计量方差会爆炸。 - 关键假设放宽/强化：相比前人文献仅要求子抽样估计量的 CAN 性质，本文额外要求渐近方差具有可解析分解的结构（使得 \(V_{sub}\) 能写成 \(V_{full} + \text{extra term}\) 的形式），这是推导 \(n\) 公式的前提。

主要结果： 1. 定理：Cox 稀有事件下的 \(n\) 公式。给出了 \(n \geq f(\varepsilon, \hat{V}_{full}, \hat{\boldsymbol{\beta}}_0, \text{rare event structure})\) 的显式界。直觉：稀有事件下，全样本方差 \(V_{full}\) 本身就很大（信息稀疏），因此容许同样相对损失 \(\varepsilon\) 时，所需的 \(n\) 比平衡数据下更小（这是一个反直觉但统计上合理的结论：当全样本估计本身就难时，子抽样带来的额外相对损失更容易被全样本自身的方差吸收）。 2. 定理：不平衡 Logistic 下的新最优子抽样程序。针对不平衡数据，提出了基于少数类优先的抽样概率 \(\pi_i\)，并证明其在 A-最优性意义下优于 Wang et al. (2018) 的原版抽样概率。技术难点：不平衡数据下，原版 \(\pi_i\) 会导致 IPW 权重极端化，方差展开中的 \(\text{Var}_{\pi}\) 项失控；新程序通过重加权稳定了该项。 3. 定理：子抽样估计量的 \(n^{-1/2}\)-CAN 及相对效率界。在三种设定下，严格证明了 \(\sqrt{n}(\hat{\boldsymbol{\beta}}_{sub} - \boldsymbol{\beta}) \xrightarrow{d} N(0, V_{sub})\)，且 \(V_{sub} / V_{full} \leq 1 + \varepsilon\) 当 \(n\) 满足公式时成立。

证明路线与技术技巧： - 整体路线： 1. Pilot 阶段：抽取极小的 \(n_0\) 样本，计算初步估计 \(\hat{\boldsymbol{\beta}}_0\) 与 \(\hat{V}_{full}\)（利用 MLE 的渐近方差与信息矩阵的关系 \(\hat{V}_{full} \approx \hat{I}^{-1}(\hat{\boldsymbol{\beta}}_0)\)）。 2. 方差展开阶段：对 IPW-type 估计量进行 Taylor 展开，分离出全样本信息矩阵贡献与子抽样带来的额外随机性（IPW 权重的方差）。 3. 相对效率求解阶段：将展开后的 \(V_{sub}\) 代入 \(V_{sub}/V_{full} \leq 1 + \varepsilon\)，解出 \(n\) 的显式下界。 4. 两步估计阶段：用 Pilot 估计替换 \(n\) 公式中的未知量，执行最终子抽样与估计。 - 关键跳跃点：IPW-type 估计量渐近方差的解析分解。难点卡在：IPW 估计量既包含了全样本 MLE 的渐近方差（信息矩阵逆），又包含了因抽样引入的权重方差，两者纠缠。作者通过条件方差分解（给定全样本协变量结构，对子抽样指标的随机性求方差），将 \(V_{sub}\) 成功拆解为 \(V_{full} + \text{Term}_{\pi}\)。 - 技术技巧点名： - IPW-type likelihood / pseudo-likelihood：用于构造子样本上的目标函数，修正抽样偏差。 - Asymptotic variance expansion / conditional variance decomposition：用于拆解 \(V_{sub}\)，是整个 \(n\)-determination 的数学核心。 - A-optimality criterion：用于在给定 \(n\) 下，求解使 \(V_{sub}\) 最小的 \(\pi_i\)（不平衡 Logistic 新程序的推导依据）。 - Pilot subsample / two-step estimation：用于处理 \(n\) 公式中的未知量，属于工程实现层面的标准技巧。

真实例子与应用： - 数据 1：UK Biobank colorectal cancer data（约 3.5 亿行，稀有事件）。场景：生存分析（Cox 回归），预测结直肠癌发病。应用方式：用本文的 Cox \(n\)-determination 工具，给定 \(\varepsilon=0.05\)，计算出所需 \(n\)（远小于 \(N\)），执行子抽样估计。结果：子样本估计量与全样本估计量（耗时极长算出的基准）的系数高度一致，相对方差增加控制在 \(\varepsilon\) 内。说明什么：验证了稀有事件下 \(n\) 公式的准确性，并展示了反直觉现象——稀有事件下所需 \(n\) 占 \(N\) 的比例极小。 - 数据 2：Linked birth-infant death data（约 2800 万行，不平衡二分类）。场景：Logistic 回归，预测婴儿死亡（极低比例事件）。应用方式：对比本文新提出的不平衡 Logistic 子抽样程序与 Wang et al. (2018) 的原版程序。结果：新程序在少数类系数估计上的方差显著更低，且 \(n\) 公式给出的预算更精确。说明什么：验证了不平衡设定下新抽样程序的必要性，以及 \(n\)-determination 工具的实用性。

🔎 结论是否比证明窄：未见明显泛泛 claim。论文的 \(n\) 公式严格依赖于渐近方差展开的主导项，作者在文中明确指出（虽未在 Abstract 中强调）：当 \(n\) 过小导致高阶项不可忽略时，公式可能低估所需 \(n\)。这是一个典型的"渐近理论严格证明，但有限样本下需谨慎"的 caveat，研究者若要应用，需核验文中关于 pilot sample size \(n_0\) 的最低要求（文中给出了 \(n_0\) 的下界以保证 \(\hat{V}_{full}\) 的可靠性）。

四、开放问题（点到为止，扎根具体语句）¶

高维设定下的 \(n\)-determination：本文所有方差展开与 \(n\) 公式均基于固定 \(p\)（维数远小于 \(N\)）的 CAN 理论。当 \(p \to \infty\) 或 \(p > n\) 时，MLE 不存在或渐近方差结构失效，\(n\) 公式如何修改？扎根点：文中设定明确假设 \(p\) fixed，且 \(V_{full}\) 基于信息矩阵逆，这在高维下不成立。
Pilot subsample 的随机性对 \(n\) 公式的影响：公式中用 \(\hat{V}_{full}\) 替代 \(V_{full}\)，但 \(\hat{V}_{full}\) 本身是随机变量，由此算出的 \(n\) 也是随机的。本文将 \(\hat{V}_{full}\) 当作给定值代入，未量化 \(n\) 的随机性对最终相对效率保证的破坏。扎根点：两步法估计的理论中，第一步的随机性通常被忽略或要求 \(n_0\) 足够大，本文的 \(n_0\) 下界条件是否足以保证 \(n\) 的非随机性？
因果推断设定下的 subsample-size determination：本文锚定在全样本 MLE 的相对效率。若目标不是回归系数 \(\boldsymbol{\beta}\)，而是因果参数（如 ATE 的 IPW/TMLE 估计量），其子抽样的 \(n\) 如何确定？扎根点：Abstract 中 frame 为"minimized efficiency loss relative to full sample"，这一 framing 在因果推断的半参数效率界下是否可直接迁移（将 \(V_{full}\) 替换为 semiparametric efficiency bound）？
非参数/半参数模型的 \(n\) 公式：本文依赖 MLE 的参数模型结构。若模型是 Cox 部分线性或非参数风险模型，方差展开的结构不再有信息矩阵逆的显式形式，\(n\) 公式如何推导？扎根点：文中引用的文献均限于参数 Cox 与 Logistic，未触及半参数扩展。

提醒：要确认某条是不是真 gap，去读同子领域（subsampling / massive data analysis）近期约 5 篇的 intro——若都指向"高维/半参数下的 subsample size determination" = 共识（真 gap），若仍在纠结"如何抽"而非"抽多少" = 机会（本文的 framing 尚未被充分接受）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Mastering rare event analysis: subsample-size determination in Cox and logistic regressions¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论