Random Weighting Approximation of M-estimators with Increasing Dimensions of Parameter¶

作者: Ruixing Ming, Chengyao Yu, Min Xiao, Zhanfeng Wang
来源: Statistica Sinica
主题: 高维统计 / 随机矩阵
相关性: 6/10
链接: https://doi.org/10.5705/ss.202025.0132

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当参数维度 \(p\) 随样本量 \(n\) 共同增长（即 \(p_n \to \infty\)）时，如何为 M-估计量（如极大似然估计、最小二乘估计等）提供可靠的、免于估计冗余参数的分布逼近与统计推断。传统渐近理论（如中心极限定理、标准 Bootstrap）大多建立在 \(p\) 固定的假设上；当 \(p\) 增长时，渐近方差矩阵的维度膨胀、条件收紧，传统方法失效或需要估计极其复杂的冗余参数矩阵。该方向目前已有较成熟的固定维度理论，但在 \(p_n \to \infty\) 且 \(p_n/n \to c \in [0,1)\) 的增长设定下，分布逼近与重抽样/加权方法的严格理论仍在不断细化与拓展中。

发展脉络： - 奠基工作：Huber (1967) 与 Portnoy (1984, 1985) 建立了 M-估计在 \(p_n \to \infty\) 下的渐近正态性与 Bahadur 表示的基石，设定了 \(p_n^2/n \to 0\) 或 \(p_n/n \to 0\) 的基本门槛。 - 主要进展：Mammen (1993) 将 Bootstrap 方法推广到 \(p_n \to \infty\) 的 M-估计；Rao (1987) 与 Zhao (2009) 等人发展了随机加权（RW）方法在固定维度下的理论，证明了 RW 估计量与原估计量共享渐近分布，从而绕开了渐近方差中冗余参数的估计。 - 当前 frontier：高维（\(p > n\) 或 \(p/n \to c > 0\)）下的推断转向 Debiased/Orthogonal 方法（如 Zhang & Zhang 2014, Javanmard & Montanari 2014）；而在 \(p_n \to \infty, p_n/n \to 0\) 的中等高维设定下，如何让重抽样/加权方法在更宽松的矩条件或更快的 \(p_n\) 增长速度下成立，仍是细节打磨的焦点（如 El Karoui et al. 2015 对 M-估计渐近方差的刻画）。 - 本文的位置：本文填补了 RW 方法在 \(p_n \to \infty\) 设定下的理论空白——将 Rao (1987) 等人的固定维度 RW 理论，推广到与 Portnoy/Mammen 相当的增长维度设定，证明 RW 估计量与原 M-估计量在增长维度下仍共享渐近分布，并给出 Bahadur 表示与收敛速度。

子线索聚类： 1. 增长维度 M-估计的渐近理论：Huber, Portnoy, Mammen, He & Shao (1996) 等。这一簇在刻画 \(p_n \to \infty\) 下 M-估计量的相合性、渐近正态性与 Bahadur 表示，核心瓶颈在于 \(p_n\) 的增长速度与矩条件的权衡。 2. 重抽样/Bootstrap 在增长维度下的逼近：Mammen (1993), El Karoui et al. (2015) 等。这一簇关注 Bootstrap 分布能否逼近原估计量的真实分布，瓶颈在于残差依赖估计值导致的偏倚。 3. 随机加权（RW）在固定/增长维度下的逼近：Rao (1987), Zhao (2009), 本文。这一簇用外部随机权重（如 Exponential 或 Multinomial 权重）构造条件分布，绕开残差重抽样的偏倚，瓶颈在于权重与估计量非线性交互在 \(p_n \to \infty\) 下的展开控制。

这个方向在追问的核心问题： 1. \(p_n\) 以何种速度增长时，M-估计量的渐近正态性 / Bahadur 表示仍然成立？（已知 \(p_n^2/n \to 0\) 是经典门槛，能否放宽到 \(p_n^3/n \to 0\) 或 \(p_n \log p_n / n \to 0\)？） 2. 重抽样 / 随机加权构造的分布，在 \(p_n \to \infty\) 下能否严格逼近原估计量的分布？逼近误差的收敛速度是多少？ 3. 如何避免估计渐近方差矩阵中随 \(p_n\) 膨胀的冗余参数？（RW 方法天然具有此优势，但需在增长维度下严格证明其条件分布与无条件分布的等价性。）

⚠️ 作者的 framing： - 作者把缺口 frame 成：RW 方法在固定维度下已被证明是 Bootstrap 的灵活替代且无需估计冗余参数，但在 \(p_n \to \infty\) 的实际应用中缺乏理论保障，因此本文是"将 RW 推广到增长维度的显然下一步"。 - 被淡化的竞争路线：作者未在 intro 中讨论 Debiased Lasso / Desparsified Lasso 这条在 \(p_n/n \to c > 0\) 甚至 \(p > n\) 下做推断的主流路线（如 Javanmard & Montanari 2014, van de Geer et al. 2014），也未对比 RW 与 Multiplier Bootstrap 在高维下的异同。RW 本质上与 Multiplier Bootstrap 相近，但作者未点明这一联系与差异。 - 明显该被引却未出现的文献：在讨论高维 M-估计的渐近方差与推断时，El Karoui, Bean, Bickel, Yu (2015, JASA) 这篇刻画高维 M-估计量渐近方差非经典结构的重量级文献未被引用；此外，Multiplier Bootstrap 在高维下的理论（如 Chernozhukov, Chetverikov, Kato 2013 的 Gaussian Approximation for Sup-norm） 也未出现。这是研究者值得去查的信号：作者是否刻意回避了与这些更现代的高维推断路线的对比？

张力：未见明显对立引用。各条路线（Portnoy 的渐近正态、Mammen 的 Bootstrap、Rao 的 RW）在不同设定下得出相容结论，未见彼此推翻。但存在一个隐含张力：Mammen (1993) 的 Bootstrap 在 \(p_n \to \infty\) 下需要处理残差偏倚，而 RW 方法声称绕开了这一偏倚——这两条路线在逼近精度与所需矩条件上是否有严格对比，本文未给出。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量。
\(p_n\)：参数维度，随 \(n\) 增长，满足 \(p_n \to \infty\) 且 \(p_n/n \to 0\)（具体增长速度由定理条件决定，如 \(p_n^2/n \to 0\) 或 \(p_n^3/n \to 0\)）。
\(\theta_0 \in \mathbb{R}^{p_n}\)：真实参数向量（要估的 estimand）。
\(X_i \in \mathbb{R}^{p_n}\)：第 \(i\) 个观测的协变量向量（随机变量）。
\(Z_i = (Y_i, X_i)\)：第 \(i\) 个个体的完整观测数据（\(Y_i\) 为响应变量，具体分布由参数模型决定）。
\(\hat{\theta}_n\)：基于 \(n\) 个观测的 M-估计量，定义为满足 \(\sum_{i=1}^n \psi(Z_i, \hat{\theta}_n) = 0\) 的解，其中 \(\psi(z, \theta)\) 是得分函数（score function / objective function 的导数）。
\(W_i\)：外部随机权重，独立于数据 \(\{Z_i\}\)，通常取 Exponential(1) 或 Multinomial\((n; 1/n, \dots, 1/n)\) 分布。
\(\hat{\theta}_n^*\)：RW 估计量，定义为满足 \(\sum_{i=1}^n W_i \psi(Z_i, \hat{\theta}_n^*) = 0\) 的解。
\(V_n\)：M-估计量的渐近方差矩阵，形式为 \(V_n = A_n^{-1} B_n (A_n^{-1})^\top\)，其中 \(A_n = E[\nabla_\theta \psi(Z, \theta_0)]\)，\(B_n = E[\psi(Z, \theta_0) \psi(Z, \theta_0)^\top]\)。
可观测数据：\(\{Z_i = (Y_i, X_i)\}_{i=1}^n\)，以及独立生成的权重 \(\{W_i\}_{i=1}^n\)。
不可观测 / 需靠假设识别：真实参数 \(\theta_0\)、渐近方差矩阵 \(V_n\) 中的期望矩阵 \(A_n, B_n\)（这些是冗余参数，RW 方法的目的就是避免估计它们）。

第二步：最小内核——线性回归下的最小二乘估计（\(d=1\) 特例）

剥掉一般 M-估计的非线性与高维交互，支撑整篇论文的最小内核是：在线性回归模型 \(Y_i = X_i^\top \theta_0 + \epsilon_i\)（\(\epsilon_i\) 独立同分布，均值为 0）下，最小二乘估计（M-估计的特例，\(\psi(z, \theta) = X(Y - X^\top \theta)\)）的 RW 估计量，在 \(p_n \to \infty\) 下与原 OLS 估计量共享渐近分布。

在最简特例 \(p_n = 1\)（单变量回归，但保留 \(p_n \to \infty\) 的记号以示精神）下： - 原估计量：\(\hat{\theta}_n = (\sum X_i^2)^{-1} \sum X_i Y_i\)，渐近分布为 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, \sigma^2 / E[X^2])\)。 - RW 估计量：\(\hat{\theta}_n^* = (\sum W_i X_i^2)^{-1} \sum W_i X_i Y_i\)。 - 核心命题：在给定数据的条件下，\(\sqrt{n}(\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件分布（关于权重 \(\{W_i\}\)），渐近等价于 \(\sqrt{n}(\hat{\theta}_n - \theta_0)\) 的无条件分布。

为什么成立（最小内核的证明直觉）： 1. 将 \(\hat{\theta}_n^*\) 在 \(\hat{\theta}_n\) 处做 Bahadur 展开（一阶 Taylor）：\(\hat{\theta}_n^* - \hat{\theta}_n \approx (\sum W_i X_i^2)^{-1} \sum W_i X_i (Y_i - X_i \hat{\theta}_n) = (\sum W_i X_i^2)^{-1} \sum W_i X_i \hat{\epsilon}_i\)。 2. 由于 \(\hat{\epsilon}_i = Y_i - X_i \hat{\theta}_n\) 是残差，在 \(p_n/n \to 0\) 下，\(\hat{\epsilon}_i\) 与真实误差 \(\epsilon_i\) 的差距可被控制（Bahadur 表示保证 \(\hat{\theta}_n - \theta_0 = O_p(1/\sqrt{n})\)，残差偏倚为 \(O_p(p_n/\sqrt{n})\)）。 3. 关键跳跃：权重 \(W_i\) 与残差 \(\hat{\epsilon}_i\) 的交互。在固定维度下，\(\sum W_i X_i \hat{\epsilon}_i / n\) 的条件方差为 \(\sum X_i^2 \hat{\epsilon}_i^2 / n^2\)，它逼近 \(E[X^2 \epsilon^2]/n = B_n/n\)；而在 \(p_n \to \infty\) 下，需要证明这个逼近的误差随 \(p_n\) 增长仍可被控制（本文的核心技术难点）。 4. 最终，\(\sqrt{n}(\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件方差逼近 \(V_n\)，条件分布逼近 \(N(0, V_n)\)——与原估计量的渐近分布一致，且完全不需要估计 \(A_n\) 或 \(B_n\)。

一般情形的"加壳"：当 \(\psi\) 是非线性函数、\(p_n > 1\) 且 \(p_n \to \infty\) 时，上述展开中的矩阵求逆 \((\sum W_i \nabla_\theta \psi)^{-1}\) 与残差项 \(\sum W_i \psi(Z_i, \hat{\theta}_n)\) 产生高维交互，需要更精细的矩条件与展开余项控制——这就是本文证明的全部重量所在。

三、这篇论文做了什么¶

三句话： ① 研究了参数维度 \(p_n \to \infty\) 且 \(p_n/n \to 0\) 时，M-估计量的随机加权（RW）逼近问题； ② 核心工具是建立 RW 估计量在增长维度下的 Bahadur 表示，并控制权重与估计量非线性交互的余项； ③ 主要结论是 RW 估计量的条件分布与原 M-估计量的无条件分布渐近等价，从而无需估计冗余参数 \(A_n, B_n\) 即可进行推断，收敛速度为 \(O_p(p_n/\sqrt{n})\)。

关键设定与假设：在第二节最小记号基础上补全： - 模型设定：\(Z_1, \dots, Z_n\) 独立同分布，密度为 \(f(z, \theta_0)\)；M-估计量 \(\hat{\theta}_n\) 满足 \(\sum_{i=1}^n \psi(Z_i, \hat{\theta}_n) = 0\)，\(\psi\) 为取值于 \(\mathbb{R}^{p_n}\) 的得分函数。 - RW 权重：\(W_1, \dots, W_n\) 独立同分布，独立于 \(\{Z_i\}\)，\(E[W_i]=1\), \(\text{Var}(W_i)=\sigma_w^2 > 0\)（如 Exponential(1) 则 \(\sigma_w^2=1\)）。 - 增长条件：\(p_n \to \infty\), \(p_n/n \to 0\)。具体定理要求 \(p_n^2/n \to 0\) 或 \(p_n^3/n \to 0\)（取决于矩条件强弱）。 - 核心假设（逐条说明统计含义）： 1. \(A_n = E[\nabla_\theta \psi(Z, \theta_0)]\) 的非奇异性与下界：\(A_n\) 的最小特征值 \(\lambda_{\min}(A_n) \geq c > 0\)（保证 M-估计量局部可识别，避免参数空间平坦导致估计不稳定）。 2. 矩条件：\(E[\|\psi(Z, \theta_0)\|^k]\) 与 \(E[\|\nabla_\theta \psi(Z, \theta_0)\|^k]\) 对某个 \(k \geq 4\) 有界（控制高维交互项的尾部，\(k\) 越大允许 \(p_n\) 增长越快；若 \(k=4\) 则需 \(p_n^2/n \to 0\)，若更高阶矩有界则可放宽）。 3. Lipschitz 条件：\(\nabla_\theta \psi(z, \theta)\) 在 \(\theta_0\) 邻域内对 \(\theta\) 满足 Lipschitz 条件（保证 Bahadur 展开的二阶余项可控）。 4. 权重矩条件：\(E[W_i^2] < \infty\)（Exponential 或 Multinomial 均满足）。 - 与已有文献的对比：相比 Portnoy (1984) 要求 \(p_n^2/n \to 0\) 与 4 阶矩，本文在 RW 情形下需要类似或略强的条件（因权重交互引入额外方差）；相比 Rao (1987) 的固定维度 RW 理论，本文将 \(p_n\) 从常数推广到随 \(n\) 增长的序列。

主要结果：

定理 1（Bahadur 表示）：
陈述：\(\hat{\theta}_n^* - \hat{\theta}_n = A_n^{-1} \frac{1}{n} \sum_{i=1}^n (W_i - 1) \psi(Z_i, \hat{\theta}_n) + R_n^*\)，其中余项 \(R_n^* = O_p(p_n/\sqrt{n})\)（在给定数据条件下）。
直觉：RW 估计量围绕原估计量的偏差，主要由权重的波动 \((W_i - 1)\) 与得分函数的交互驱动；一阶项是线性交互，余项是非线性与高维交互的残留。
必要条件：\(p_n^2/n \to 0\) 与 4 阶矩条件（或更强条件以控制余项）。
解决的技术难点：在 \(p_n \to \infty\) 下，Taylor 展开的二阶项 \(\nabla_\theta \psi\) 涉及 \(p_n \times p_n\) 矩阵，其范数控制需要特征值假设与矩条件的精细配合。
定理 2（渐近分布等价性）：
陈述：在给定数据的条件下，\(\sqrt{n} V_n^{-1/2} (\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件分布（关于 \(\{W_i\}\)）渐近为 \(N(0, I_{p_n})\)，与 \(\sqrt{n} V_n^{-1/2} (\hat{\theta}_n - \theta_0)\) 的无条件分布相同。
直觉：Bahadur 表示的主项 \(A_n^{-1} \frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\) 在条件下的方差为 \(A_n^{-1} \frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top A_n^{-1} \sigma_w^2\)，它逼近 \(A_n^{-1} B_n A_n^{-1} \sigma_w^2\)；若取 \(\sigma_w^2 = 1\)（如 Exponential 权重），则恰好等于 \(V_n\)。
必要条件：同定理 1，加上 \(\frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top \to B_n\) 的一致性（在 \(p_n \to \infty\) 下需额外控制）。
定理 3（收敛速度）：
陈述：RW 条件分布逼近原分布的误差速度为 \(O(p_n/\sqrt{n})\)（在适当的概率测度下）。
直觉：这是 Bahadur 余项的直接推论——余项 \(O_p(p_n/\sqrt{n})\) 决定了分布逼近的精度。

证明路线与技术技巧：

整体路线（5 步逻辑主干）：
建立原 M-估计量的 Bahadur 表示：\(\hat{\theta}_n - \theta_0 = A_n^{-1} \frac{1}{n} \sum \psi(Z_i, \theta_0) + R_n\)，\(R_n = O_p(p_n/\sqrt{n})\)（引用 Portnoy 型结果）。
建立 RW 估计量的 Bahadur 表示：将 \(\hat{\theta}_n^*\) 在 \(\hat{\theta}_n\) 处展开，得主项 \(A_n^{-1} \frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\) 与余项 \(R_n^*\)。
控制余项 \(R_n^*\)：利用 Lipschitz 条件与权重矩条件，将二阶展开项的范数界控制在 \(O_p(p_n/\sqrt{n})\)；这是最吃功夫的一步。
证明条件方差的一致性：\(\frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top \to B_n\)，利用原估计量的相合性与得分函数的连续性。
应用条件 CLT：对主项 \(\frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\)，在给定数据下对权重 \(\{W_i\}\) 应用 Lindeberg 条件 CLT（需验证 Lindeberg 条件在 \(p_n \to \infty\) 下成立），得条件分布 \(N(0, V_n)\)。
关键跳跃点：
余项 \(R_n^*\) 的控制：难点在于 \(\hat{\theta}_n^* - \hat{\theta}_n\) 的二阶 Taylor 展开涉及 \(\nabla_\theta \psi(Z_i, \hat{\theta}_n^*)\) 与 \(\hat{\theta}_n^* - \hat{\theta}_n\) 的交互，而 \(\hat{\theta}_n^*\) 本身依赖权重，形成循环依赖。作者用迭代控制（先假定 \(\hat{\theta}_n^* - \hat{\theta}_n\) 小，再证明它确实小）与矩阵范数界（利用 \(\lambda_{\min}(A_n)\) 的下界与 \(\nabla_\theta \psi\) 的矩界）绕过这一循环。
技术技巧点名：
Bahadur 表示：用于将 M-估计量与 RW 估计量分别展开为线性主项 + 余项，是高维 M-估计推断的标准工具（用在整个证明路线的第 1-2 步）。
矩阵特征值界 / 谱范数控制：用于控制 \(A_n^{-1}\) 与 \(\nabla_\theta \psi\) 矩阵在高维下的范数膨胀（用在余项控制与方差一致性证明中）。
条件 Lindeberg CLT：用于在给定数据下对权重波动项证明渐近正态性（用在第 5 步，需验证 \(\max_i \| \psi(Z_i, \hat{\theta}_n) \|^2 / n \to 0\) 以满足 Lindeberg 条件）。
迭代论证：用于打破 \(\hat{\theta}_n^*\) 与余项的循环依赖（用在第 3 步）。

真实例子与应用：本文为纯理论论文，无真实数据例子或模拟实验。所有结论以定理形式给出，未提供数值验证。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim "RW 方法可用于增长维度下的统计推断，无需估计冗余参数"，但严格证明仅覆盖 \(p_n/n \to 0\) 且 \(p_n^2/n \to 0\)（或更强增长条件） 的情形。对于 \(p_n/n \to c > 0\)（如 \(p \approx n/2\)）的实际高维场景，本文理论未触及，但作者未在结论中明确划定这一边界。 - 定理 2 的渐近等价性严格依赖于 \(\sigma_w^2 = 1\)（如 Exponential 权重）；若使用其他权重（如 \(\sigma_w^2 \neq 1\)），需手动调整方差，但作者未在定理陈述中强调这一限制。

四、开放问题（点到为止，扎根具体语句）¶

\(p_n/n \to c > 0\) 下的 RW 推断：本文所有定理要求 \(p_n/n \to 0\)（如定理 1 的 \(p_n^2/n \to 0\)）。当 \(p_n/n \to c \in (0,1)\) 时，RW 估计量的条件分布是否仍逼近原分布？这扎根在定理 1 的增长条件与 Portnoy (1984) 的经典门槛——若要突破，需面对 \(A_n\) 矩阵非经典渐近（参考 El Karoui et al. 2015）。
RW 与 Multiplier Bootstrap 在高维下的严格对比：作者未讨论 RW 与 Multiplier Bootstrap（Chernozhukov et al. 2013）在逼近精度与矩条件上的差异。扎根在 intro 中"RW 是 Bootstrap 的灵活替代"这一 claim——需验证在 \(p_n \log p_n / n \to 0\) 等更宽松条件下，两者是否仍有差异。
非线性 M-估计的余项控制是否可放宽：定理 1 的余项 \(O_p(p_n/\sqrt{n})\) 依赖 Lipschitz 条件与 4 阶矩；若得分函数有更高阶光滑性（如 3 阶导数有界），余项是否可改进到 \(O_p(p_n^{1/2}/\sqrt{n})\)？扎根在定理 1 的证明路线中二阶 Taylor 展开的余项界。
缺失的引用与实际高维推断的衔接：intro 未引用 El Karoui et al. (2015) 与 Chernozhukov et al. (2013)——研究者需查证：在 \(p_n/n \to c > 0\) 的实际高维场景中，RW 方法是否已被其他路线（如 Debiased Lasso）取代，还是仍有独特优势（免估计冗余参数）？扎根在 intro 的文献列表缺失。

Maintained by 陈星宇 · Homepage · Source on GitHub

Random Weighting Approximation of M-estimators with Increasing Dimensions of Parameter¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论