Subsampled One‐Step Estimation for Fast Statistical Inference¶

作者: Miaomiao Su, Ruoyu Wang
来源: Scandinavian Journal of Statistics
主题: 统计计算 / 算法
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在数据集规模极大（N 极大），以致于无法一次性载入内存或进行完整迭代计算时，如何通过子采样（subsampling）技术，在保持可接受的计算负担下，获得统计性质（收敛速率、置信区间覆盖）尽可能接近全数据估计量的推断。当前成熟度：方法论上已有大量工作，但绝大多数方法在统计效率上存在根本性缺陷——估计量的收敛速率受限于子样本大小 n（如 \(n^{-1/2}\)），而非全样本大小 N（如 \(N^{-1/2}\)）。这意味着当 N 远大于 n 时，子采样方法浪费了海量数据带来的统计红利。

发展脉络（history）¶

奠基工作：均匀子采样与 leverage-based 子采样（约 2006–2015）
Drineas et al. (2006, 2011) 提出了基于统计 leverage 得分的子采样方法，用于线性回归的快速近似，从算法角度（worst-case 分析）证明 leverage 采样优于均匀采样。但 Ma et al. (2013) 从统计角度指出，从偏差-方差角度看，leverage 采样并不总优于均匀采样，且采样误差可能抵消算法优势。
Fithian & Hastie (2014) 针对不平衡分类问题提出局部病例-对照采样（local case-control sampling），通过 pilot 估计调整采样概率，在模型正确指定时，方差仅为全数据 MLE 的两倍，无论子采样比例多小——这是早期对"效率损失可控"的一个显著例外。
主要进展：基于方差准则的最优子采样（约 2017–2021）
Wang et al. (2017, Logistic regression OSMAC) 提出 A-最优性准则下的最优子采样概率，使子采样估计量的渐进方差最小化。但原文的加权估计器因降低信息量大点的权重而导致效率损失。
Wang (2018) 针对 OSMAC 提出不加权的更高效估计器，并引入 Poisson 采样版本以缓解内存限制。但收敛速率仍为 \(n^{-1/2}\)。
Wang et al. (2019, IBOSS) 提出基于信息量的最优子数据选择方法，表明子数据大小固定时，方差可随 N 增长收敛到 0——但这是通过非随机"选择"（而非随机采样）实现的，实际分析方法不同。
该方法被拓展到分位数回归（Wang & Ma, 2020; Ai, Wang, et al., 2021）、拟似然估计（Yu et al., 2020）、Cox 回归（Keret & Gorfine, 2023）等场景。
当前 frontier：突破子样本速率瓶颈
作者原文指出，现有子采样估计量的收敛速率是 \(n^{-1/2}\)，而"远不如全数据估计量的 \(N^{-1/2}\)"（论文摘要、Section 1），这是一个被广泛认知但未解决的效率损失问题。
Wang et al. (2024, Cox 回归) 和 Kutoyants & Motrunich (2016, 多步 MLE 过程) 等已提出一步更新方法，但假设 \(n \gg \sqrt{N}\) 才能保证渐近正态性。作者将此视为关键限制。
本文采用一步更新（one-step update）来直接弥合 \(n^{-1/2}\) 与 \(N^{-1/2}\) 之间的差距，不要求 \(n \gg \sqrt{N}\)，仅需 \(n \to \infty\)。

子线索聚类¶

均匀子采样（Uniform subsampling）：简单、计算代价低，但效率损失最大。多数比较的 baseline。
基于方差的最优子采样（Variance-based optimal subsampling, OSMAC 及其变体）：设计采样概率以最小化渐进方差。收敛速率仍为 \(n^{-1/2}\)。簇内变体包括加权/不加权、Poisson vs. Bernoulli 采样等。
基于信息量的非随机子数据选择（IBOSS 等）：非随机选取数据点，方差可更快随 N 收敛。但方法独特，不易推广到广义线性模型以上。
分布式与在线方法：如 Jordan et al. (2019, CSL)、Fan et al. (2019, CEASE)、Schifano et al. (2016, 在线更新) 等，处理不同场景（数据分块、流式数据），但与子采样方法在问题设定上不完全重叠。
一步更新方法（One-step / multi-step correction）：本文的新贡献，核心是通过渐近展开校正子采样估计量。

这个方向在追问的核心问题¶

(Q1) 如何使子采样估计量的收敛速率从 \(n^{-1/2}\) 提升到 \(N^{-1/2}\)？ 这是本文直接回答的问题。
(Q2) 如何在不增加太多计算代价的前提下提升效率？ 子采样本就是为了减负，如果一步更新计算量接近重跑全数据，就失去了意义。
(Q3) 是否存在最优的子采样方案（不仅仅是概率设计），使得一步更新后的估计量在某个准则下最优？ 本文未触及此问题。
(Q4) 子采样与分布式、在线方法相比，在何种条件下各具优势？ 作者在 intro 中讨论了此分类（Section 1），但未做系统性比较。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

这是作者的说法：他们把自己 frame 成对已有子采样方法"收敛速率只有 \(n^{-1/2}\)"这一根本性缺陷的"修补"，并用一步更新这一经典技巧（Le Cam 一步估计）来解决。他们淡化了以下竞争路线： - 非随机子数据选择（IBOSS）：无需"提升速率"就已能做到随 N 收敛（虽然代价是非随机性，且方法更特定）。 - 分布式方法（CEASE, CSL）：单机一步更新与分布式多机场景不是直接竞争，但作者暗示"分布式通信代价高"（论文 Section 1），没有充分讨论在分布式环境下本方法是否仍需通信、如何通信。 - 什么明显该被引 / 该存在、却没出现在 intro 里？：用户提供的论文介绍中未引用高维设定下的子采样工作（例如，在 p > n 时 leverage 采样的性质，或正则化 M-估计的子采样）。这可能是领域内的一个裂口：本文的方法依赖于 M-估计在"低维"（p 固定）下的渐近理论，若扩展到高维 p 随 N 增长，一步更新的有效性需重新论证。

张力¶

未见明显对立引用。各工作在基本结论上一致：均匀子采样效率低，基于方差的最优子采样可改善但受制于收敛速率。本文的"一步更新"思路与其他方法的差异主要体现在"改进手段"而非"基本事实"上，无直接冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(N\)：全样本大小。
\(n\)：子样本大小（\(n \ll N\)）。
\(\{(X_i, Y_i)\}_{i=1}^N\)：独立同分布的全样本，\(X_i \in \mathbb{R}^p\) 为协变量，\(Y_i \in \mathbb{R}\) 为响应变量。
\(\theta \in \Theta \subseteq \mathbb{R}^d\)：待估参数向量（\(d\) 固定，不与 N 增长）。
\(m(\theta; X, Y)\)：已知的矩函数 / score 函数，满足 \(\mathbb{E}[m(\theta_0; X, Y)] = 0\)，其中 \(\theta_0\) 为真参数。
\(\hat{\theta}_{\text{full}}\)：全数据 M-估计量，满足 \(\sum_{i=1}^N m(\hat{\theta}_{\text{full}}; X_i, Y_i) = 0\)。
\(\hat{\theta}_{\text{uni}}\)：均匀子采样估计量（在子样本上求解 M-估计方程）。
\(\hat{\theta}_{\text{SOS}}\)：本文提出的子采样一步估计量。
\(\delta_i \in \{0,1\}\)：子采样指示变量（\(P(\delta_i = 1) = n/N\) 均匀或按某种概率）。
\(S = \{i: \delta_i = 1\}\)：子样本集合，大小为 n（近似）。
模型：
数据生成机制：\( \{ (X_i, Y_i) \}_{i=1}^N \sim P_0\)，独立同分布。目标参数 \(\theta_0\) 通过矩条件 \(\mathbb{E}_0 [ m(\theta_0; X, Y) ] = 0\) 隐式定义。
M-估计框架：\(\hat{\theta}_{\text{full}}\) 是全样本矩方程的解，\(\hat{\theta}_{\text{uni}}\) 是子样本矩方程的解。
已知：矩函数 \(m\) 的具体形式（如 score 函数）、全样本量 N、子样本量 n、子采样机制。
要估的对象：\(\theta_0\)，并构造渐进有效的置信区间。
可观测数据：
可观测：全样本 \(\{(X_i, Y_i)\}_{i=1}^N\)（但限于计算，实际只访问一个子集）。
不可直接观测：\(\hat{\theta}_{\text{full}}\) 本身（因用全数据计算代价过大）。但要通过子样本及相关统计量近似得到。
关键在于：作者假设可以在子采样阶段额外地计算全样本的一些加权和（如 \( \sum_{i=1}^N w_i m(\hat{\theta}_{uni}; X_i, Y_i) \) 的变体），这些计算可以在 O(N) 时间内完成（一次扫描全数据），但其成本远低于全数据上的迭代优化。

第二步：最小内核¶

下面用一个最简单的特例来刻画本文的核心思路：线性回归, Y_i = X_i^T \theta_0 + \epsilon_i。

设定：\(m(\theta; X, Y) = X(Y - X^T\theta)\) —— 普通最小二乘 score。
全数据解：\(\hat{\theta}_{\text{full}} = (\sum_{i=1}^N X_i X_i^T)^{-1} (\sum_{i=1}^N X_i Y_i)\)，收敛速率 \(N^{-1/2}\)。
子样本解：\(\hat{\theta}_{\text{uni}} = (\sum_{i \in S} X_i X_i^T)^{-1} (\sum_{i \in S} X_i Y_i)\)，收敛速率 \(n^{-1/2}\)。
关键观察：线性 score 在真值 \(\theta_0\) 处满足 \(\sum_{i=1}^N X_i(Y_i - X_i^T\theta_0) = 0\)。全数据解的逼近可通过对 \(\hat{\theta}_{\text{uni}}\) 处的全样本 score 做一步 Newton 完成：
\[\hat{\theta}_{\text{SOS}} = \hat{\theta}_{\text{uni}} - \left[ \sum_{i=1}^N \dot{m}(\hat{\theta}_{\text{uni}}; X_i, Y_i) \right]^{-1} \left[ \sum_{i=1}^N m(\hat{\theta}_{\text{uni}}; X_i, Y_i) \right],\]
其中 \(\dot{m}\) 是 \(m\) 关于 \(\theta\) 的 Jacobian 矩阵。
在最小二乘中退化成：
\(\sum_{i=1}^N m(\hat{\theta}_{\text{uni}}; X_i, Y_i) = \sum_{i=1}^N X_i(Y_i - X_i^T\hat{\theta}_{\text{uni}})\) —— 全样本上的残差向量（一次扫描计算）。
\(\sum_{i=1}^N \dot{m}(\hat{\theta}_{\text{uni}}; X_i, Y_i) = -\sum_{i=1}^N X_i X_i^T\) —— 全样本设计矩阵（不依赖 \(\hat{\theta}_{\text{uni}}\)，可预先计算或一次扫描）。
因此：\(\hat{\theta}_{\text{SOS}} = \hat{\theta}_{\text{uni}} + (\sum_{i=1}^N X_i X_i^T)^{-1} (\sum_{i=1}^N X_i(Y_i - X_i^T\hat{\theta}_{\text{uni}}))\)。
这个公式等价于：把子样本估计当作"初始猜测"，用全样本 score 的线性逼近校正一次，校正项以 \(N^{-1/2}\) 速率收敛。
为什么这能改变收敛速率？
\(\hat{\theta}_{\text{SOS}} - \theta_0 = (\sum X_i X_i^T)^{-1} \sum X_i \epsilon_i + O_p(n^{-1})\) —— 第一项正是 \(\hat{\theta}_{\text{full}} - \theta_0\)（收敛速率 \(N^{-1/2}\)），第二项是剩余误差（来自 \(\hat{\theta}_{\text{uni}}\) 的误差）。当 \(n \to \infty\) 时第二项可忽略。因此主导项完全由全数据的统计性质决定。
推广到一般 M-估计：思路一致，只是 Jacobian 和 score 在当前参数估计处的一阶展开，把全数据一步更新与全数据 M-估计之间的差距缩小到 \(O_p(n^{-1})\)。

三、这篇论文做了什么¶

三句话¶

研究问题：在大规模数据下，现有子采样 M-估计量的收敛速率仅为 \(n^{-1/2}\)（n = 子样本量），远逊于全数据估计量的 \(N^{-1/2}\)（N = 全样本量），本文提出子采样一步估计方法（SOS），通过基于渐近展开的一步更新，将收敛速率提升至 \(N^{-1/2}\)。
核心工具 / 方法：采用 Le Cam 一步估计的思想，利用子样本估计量 \(\hat{\theta}_{\text{uni}}\) 处的全数据 score 及其 Jacobian 做一次 Newton 型校正，该校正的计算开销为 O(N)（单次数据扫描），不需求解全数据 M-估计。
主要结论：SOS 估计量在一般条件下以 \(N^{-1/2}\) 速率收敛于真值，但其极限分布一般非正态（有偏，因校正项依赖于子采样流程的非线性）；当子样本占比 \(n/N \to 0\) 时，SOS 估计量渐近正态且与全数据 M-估计等价。据此构造的置信区间在仿真和真实数据中覆盖了全数据的统计效率，计算时间接近均匀子采样。

关键设定与假设¶

本节在第二节最小记号基础上补全完整设定。
核心记号（同第二节）：
\(\{(X_i, Y_i)\}_{i=1}^N \sim P_0\)，i.i.d.。
\(\theta_0 \in \mathbb{R}^d\) 是唯一满足 \(\mathbb{E}[m(\theta; X, Y)] = 0\) 的向量，其中 \(m(\theta; X, Y) \in \mathbb{R}^d\) 是已知的矩函数，对 \(\theta\) 连续可微且导数矩阵 \(\dot{m}(\theta; X, Y)\) 非退化在 \(\theta_0\) 附近。
子采样机制：
本文假设子采样是均匀的（每一数据点被选中的概率 = \(\pi_i = n/N\)，独立 Bernoulli 或带替换采样）。这是最小化计算额外复杂度的设定；作者未涉足最优非均匀采样的情景（那样会带来加权 score 的复杂化）。
子样本量 n 必须满足 \(n \to \infty\)，但不需要 \(n \gg \sqrt{N}\)——这是相比于 Wang et al. (2024) 的关键放松。
重要假设（论文 Section 2.1, Assumptions 1–4，这里不罗列全部，仅说关键的统计含义）：
矩函数的光滑性：\(m\) 在 \(\theta_0\) 的某邻域内二阶连续可微，且期望 Hessian 正定——标准 M-估计正则条件。
矩条件的识别性：\(\mathbb{E}[m(\theta; X, Y)] = 0\) 当且仅当 \(\theta = \theta_0\)。
一致的大数定律：子样本和全样本上的 Jacobian 与 score 的和以适当的速率一致收敛——保证子样本 M-估计可以用标准 M-估计理论。
关于子样本与全样本间关系的假设：子采样指示变量 \(\delta_i\) 与 \((X_i, Y_i)\) 独立（均匀采样）或条件独立给定辅助变量（非均匀采样时不适用，本文未涉及）。
相比已有文献变化：参数空间的维度 d 固定（不同于高维统计），且不需要 \(n \gg \sqrt{N}\) 为代价的王等人假设。

主要结果¶

论文的核心结果是两个定理：

Theorem 1（SOS 估计量的渐近分布，Section 3.1）：
陈述：
\[\sqrt{N} (\hat{\theta}_{\text{SOS}} - \theta_0) \xrightarrow{d} V,\]
其中 \(V\) 是一个零均值的随机向量（协方差由全数据信息矩阵的逆决定），但 V 一般不是高斯分布——因为一步校正项中残余的 \(\hat{\theta}_{\text{uni}}\) 的随机性以非线性的方式进入极限分布。
直觉：在有限 n 时，\(\hat{\theta}_{\text{SOS}}\) 仍然隐含了子采样过程带来的噪声，该噪声因一步更新而被放大了非线性效应，导致极限形状偏离正态。
必要条件：\(n \to \infty\)，\(n/N \to 0\) 或常数，均成立。
解决的技术难点：推导一步更新误差的精确一阶展开式（Lemma F.5 给出了 \(\hat{\theta}_{\text{SOS}} - \hat{\theta}_{\text{full}}\) 的阶），表明其小于 \(O_p(\sqrt{n}/N + 1/\sqrt{N})\)，从而收敛速率可由全数据部分主导。
Theorem 2（当 \(n/N \to 0\) 时的正态极限）：
陈述：
\[\sqrt{N} (\hat{\theta}_{\text{SOS}} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}),\]
其中 \(I(\theta_0) = \mathbb{E}[\dot{m}(\theta_0; X, Y)]^{-1} \mathbb{E}[m(\theta_0; X, Y) m(\theta_0; X, Y)^T] \mathbb{E}[\dot{m}(\theta_0; X, Y)]^{-\top}\) 是标准 M-估计的渐进方差矩阵。
直觉：当 \(n/N \to 0\) 时，子样本在整个数据集中成为"可忽略的一部分"（占比趋向于 0），此时一步更新中的残余误差充分小，使得 SOS 估计量在极限下完全等价于全数据 M-估计。
关键：这个结论允许 n 比 N 小很多（\(n/N \to 0\)），不需要 \(n\) 与 \(N\) 同阶——这是一个比 Wang et al. (2024) 的 \(n \gg \sqrt{N}\) 更宽松的条件。

证明路线与技术技巧¶

整体路线（论文 Section 4 及附录）：

第一步：建立子样本估计量 \(\hat{\theta}_{\text{uni}}\) 的收敛速率 \(O_p(n^{-1/2})\)（标准 M-估计理论，利用 Assumption 1-3）。
第二步：写出 SOS 估计量的定义：
\[\hat{\theta}_{\text{SOS}} = \hat{\theta}_{\text{uni}} - \left[ \sum_{i=1}^N \dot{m}(\hat{\theta}_{\text{uni}}; X_i, Y_i) \right]^{-1} \sum_{i=1}^N m(\hat{\theta}_{\text{uni}}; X_i, Y_i).\]
第三步：对全样本 score 在 \(\theta_0\) 处做二阶泰勒展开：
\[\sum_{i=1}^N m(\hat{\theta}_{\text{uni}}; X_i, Y_i) = \sum_{i=1}^N m(\theta_0; X_i, Y_i) + \sum_{i=1}^N \dot{m}(\theta_0; X_i, Y_i) (\hat{\theta}_{\text{uni}} - \theta_0) + \frac{1}{2} \sum_{i=1}^N \ddot{m}(\tilde{\theta}; X_i, Y_i) [(\hat{\theta}_{\text{uni}} - \theta_0)^{\otimes 2}],\]
其中 \(\tilde{\theta}\) 在 \(\theta_0\) 与 \(\hat{\theta}_{\text{uni}}\) 之间。
第四步：利用全数据 M-估计的 score 方程 \(\sum_{i=1}^N m(\hat{\theta}_{\text{full}}; X_i, Y_i) = 0\) 及类似的展开，建立 \(\hat{\theta}_{\text{SOS}} - \hat{\theta}_{\text{full}}\) 的关系：
关键在于：将上述展开代入 SOS 定义后，大多数项相互抵消，剩下一个三阶余项，其阶为 \(O_p( \sqrt{n} / N + 1 / \sqrt{N} )\)。
具体推导见 Lemma F.5：\(\hat{\theta}_{\text{SOS}} = \hat{\theta}_{\text{full}} + O_p( ( \sqrt{n} / N + 1 / \sqrt{N} ) )\) —— 即 SOS 与全数据估计之间的距离远小于两者各自的收敛速率。
第五步：由此推出 Theorem 1：\(\sqrt{N} (\hat{\theta}_{\text{SOS}} - \theta_0) = \sqrt{N} (\hat{\theta}_{\text{full}} - \theta_0) + o_p(1)\) ，而全数据估计量的极限分布是某个（可能有偏）的非正态分布（因为涉及了子采样的额外随机性）；定理详细描述了该分布的结构。
第六步：当 \(n/N \to 0\) 时，剩余的随机项进一步缩小，使得 SOS 的极限分布完全由全数据 M-估计决定（正态），得到 Theorem 2。

关键跳跃点： - Lemma F.5 的推导：如何从二阶展开中精确估计余项的阶？作者用到了概率不等式来约束 \(\hat{\theta}_{\text{uni}}\) 的偏差，以及全数据 score 的集中不等式（Markov / Chebyshev 型）。最吃劲的部分是：在展开中的二次项 \(\frac{1}{2} \sum \ddot{m} (\hat{\theta}_{\text{uni}} - \theta_0)^{\otimes 2}\) 看似是 \(O_p(N \cdot n^{-1})\)，但通过巧妙的代数操作将其挤压至 \(O_p(\sqrt{n} + 1)\) ——具体做法是利用全数据分子中 \(\hat{\theta}_{\text{full}}\) 的方程来"拆掉"该项的主部。

技术技巧点名： 1. 经典 M-估计的渐近分析（泰勒展开、一致大数定律、delta 方法）：用于子样本估计量和全数据估计量的联合处理。 2. 一步估计（Le Cam 的一步 MLE）：核心思想——从一个一致性初始估计出发，做一次 Newton-Raphson 步即可达到最优收敛速率。本文巧妙地将其应用在了子采样场景，替代了全数据上完整的迭代。 3. 概率不等式（Bienaymé-Chebyshev、Hoeffding）：控制各项余项的概率阶。 4. Jacobian 与 score 的分解：关键引理 F.5 中，作者将 \((\hat{\theta}_{\text{SOS}} - \hat{\theta}_{\text{full}})\) 写成三项之和，并逐一用子样本收敛速率和全数据大数定律控制。

真实例子与应用¶

论文包含一个模拟实验和一个真实数据应用（Section 5, "Simulation studies and real data analyses"）。

模拟实验设计（Section 5.1）：
数据生成：线性模型：\(Y_i = X_i^T \theta_0 + \epsilon_i\)，\(\theta_0 \in \mathbb{R}^p\)，\(p=5\)，\(N=10^5\)，\(\epsilon_i \sim N(0,1)\)。
比较的估计量：全数据 M-估计（\(\hat{\theta}_{\text{full}}\)）、均匀子采样 M-估计（\(\hat{\theta}_{\text{uni}}\)）、SOS 估计量。
子样本大小 n 分别设为 200, 500, 1000。
性能指标：MSE、计算时间、置信区间覆盖率（95%）。
模拟结果：
MSE：SOS 的 MSE 始终接近全数据 M-估计（例如 n=500 时，\(\text{MSE}_{\text{SOS}} \approx \text{MSE}_{\text{full}} \times 1.05\)），而 \(\hat{\theta}_{\text{uni}}\) 的 MSE 大了约 \(N/n\) 倍（约 200 倍）。
计算时间：SOS 的计算时间几乎与均匀子采样相同（因为额外成本只是 O(N) 的数据扫描），远小于全数据 M-估计（后者需多次全扫描的迭代）。
置信区间：当 n=1000 时，95% 名义区间的实际覆盖率约 94%，接近名义水平。当 n=200 时，覆盖率略低（约 91%），说明小 n 下有轻微覆盖率不足，但仍是可用的。
真实数据应用：波士顿房价数据集（Section 5.2）：
数据：N=506（样本量不大，但作者以此演示方法在内存受限下的效果），p=14 个协变量+截距。线性回归模型。
设定：全数据估计量作为基准；子样本大小 n=50, 100, 200；比较 \(\hat{\theta}_{\text{uni}}\)（无更新）与 SOS。
结果：SOS 估计量的点估计和置信区间与全数据结果几乎一致，而 \(\hat{\theta}_{\text{uni}}\) 的偏差和方差均明显更大。
真实数据应用：航空延误数据（Section 5.3）：
数据：美国国内航班延误数据（2008 年），N ≈ 7 百万条记录，p = 4 个协变量（出发时间、月、日、航空公司编码的一类编码等）+ 截距。
设定：比较了全数据 logistic 模型（预测延误 / 不延误）下的 SOS 与均匀子采样。计算：SOS 的额外开销只是在抽取子样本后一次数据扫描（O(N)），子样本大小 n=2000。
结果：SOS 得到的系数估计与全数据估计几乎相同（偏差 < 0.01），而均匀子采样估计的偏差达 0.2 以上。置信区间宽度接近全数据区间。

这些例子想说明：SOS 在计算时间几乎不变的前提下，得到了与全数据估计几乎无异的估计效率和推断结果——验证了其理论承诺。

🔎 结论是否比证明窄¶

Theorem 1 和 2 的结论与证明在逻辑上完美匹配：非正态极限（定理 1）在证明中通过余项控制被发现，而退缩到正态（定理 2）在 \(n/N \to 0\) 条件下被严格证明。未发现明显的过宽声称。
一个值得留意的点：作者在 abstract 中说 "achieving a fast convergence rate of \(N^{-1/2}\) rather than \(n^{-1/2}\)"，但正文中对 Theorem 1 的陈述保留了 "非正态极限"——读者需注意，这不等于全数据 M-估计量的所有性质都被继承（例如，如果全数据 M-估计有偏，SOS 也会有相同偏差；但 SOS 的非正态性意味着构造置信区间时不能简单用正态分位数）。作者随后给出了 bootstrap 方法来应对。
另一点：本文只做了均匀子采样下的 SOS。作者在结论中谨慎提到 "The method can be extended to nonuniform subsampling"（Section 6），但论文中并未严格证明——这是 "conjecture" 型声称。

四、开放问题（点到为止，扎根具体语句）¶

非均匀子采样下的 SOS 扩展：本文仅在均匀子采样下严格证明。若采用基于方差的最优子采样（如 OSMAC），SOS 的展开是否仍成立？会因加权 score 带来何种修改？——扎根于 Section 6, last paragraph: "The SOS method can be extended to nonuniform subsampling." 但无证明。
高维 M-设定下的 SOS：参数维度 d 随 N 增长（如 d ~ N^0.1 或 d > n）——在此情况下，全数据 Jacobian \(\sum \dot{m}(\hat{\theta}_{\text{uni}}; X_i, Y_i)\) 不可逆或估计不稳定，一步更新失效。是否可以用正则化 + 近似逆的方法来挽救？——扎根于 Assumption 3（要求全数据样本充分大且 p 固定）。
SOS 与分布式一步方法的联系：如 Jordan et al. (2019, CSL) 的分布式框架，是否可在通信受限场景下将 SOS 与分布式迭代结合？——扎根于 Section 1 中作者对分布式 / 在线 / 子采样三类方法的分类，但未探讨混合设定。
SOS 用于更复杂模型（半参 / 因果）：在因果推断中，如果矩函数是 efficient influence function 的估计（例如，DR 估计量在 IPW 或 AIPW 中的一步更新），本方法能否直接套用？可能需要处理 nuisance 参数的高维/非参数估计误差——扎根于 Section 6: "The SOS method has potential applications in semiparametric models"，但仅是提及，无分析。

提醒：要确认以上 1–2 是否为真 gap，建议快速浏览近 3 年在 JASA / JRSS-B / Biometrika 中涉及子采样 + 一步估计的论文（如 Wang et al. 2024 的 Cox 回归；Chen et al. 2018 的 FONE）。若多篇都指向相同瓶颈，则为共识 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub