跳转至

Random Weighting Approximation of M-estimators with Increasing Dimensions of Parameter

作者: Ruixing Ming, Chengyao Yu, Min Xiao, Zhanfeng Wang
来源: Statistica Sinica
主题: 高维统计 / 随机矩阵
相关性: 6/10
链接: https://doi.org/10.5705/ss.202025.0132


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:当参数维度 \(p\) 随样本量 \(n\) 共同增长(即 \(p_n \to \infty\))时,如何为 M-估计量(如极大似然估计、最小二乘估计等)提供可靠的、免于估计冗余参数的分布逼近与统计推断。传统渐近理论(如中心极限定理、标准 Bootstrap)大多建立在 \(p\) 固定的假设上;当 \(p\) 增长时,渐近方差矩阵的维度膨胀、条件收紧,传统方法失效或需要估计极其复杂的冗余参数矩阵。该方向目前已有较成熟的固定维度理论,但在 \(p_n \to \infty\)\(p_n/n \to c \in [0,1)\) 的增长设定下,分布逼近与重抽样/加权方法的严格理论仍在不断细化与拓展中。

发展脉络: - 奠基工作:Huber (1967) 与 Portnoy (1984, 1985) 建立了 M-估计在 \(p_n \to \infty\) 下的渐近正态性与 Bahadur 表示的基石,设定了 \(p_n^2/n \to 0\)\(p_n/n \to 0\) 的基本门槛。 - 主要进展:Mammen (1993) 将 Bootstrap 方法推广到 \(p_n \to \infty\) 的 M-估计;Rao (1987) 与 Zhao (2009) 等人发展了随机加权(RW)方法在固定维度下的理论,证明了 RW 估计量与原估计量共享渐近分布,从而绕开了渐近方差中冗余参数的估计。 - 当前 frontier:高维(\(p > n\)\(p/n \to c > 0\))下的推断转向 Debiased/Orthogonal 方法(如 Zhang & Zhang 2014, Javanmard & Montanari 2014);而在 \(p_n \to \infty, p_n/n \to 0\) 的中等高维设定下,如何让重抽样/加权方法在更宽松的矩条件或更快的 \(p_n\) 增长速度下成立,仍是细节打磨的焦点(如 El Karoui et al. 2015 对 M-估计渐近方差的刻画)。 - 本文的位置:本文填补了 RW 方法在 \(p_n \to \infty\) 设定下的理论空白——将 Rao (1987) 等人的固定维度 RW 理论,推广到与 Portnoy/Mammen 相当的增长维度设定,证明 RW 估计量与原 M-估计量在增长维度下仍共享渐近分布,并给出 Bahadur 表示与收敛速度。

子线索聚类: 1. 增长维度 M-估计的渐近理论:Huber, Portnoy, Mammen, He & Shao (1996) 等。这一簇在刻画 \(p_n \to \infty\) 下 M-估计量的相合性、渐近正态性与 Bahadur 表示,核心瓶颈在于 \(p_n\) 的增长速度与矩条件的权衡。 2. 重抽样/Bootstrap 在增长维度下的逼近:Mammen (1993), El Karoui et al. (2015) 等。这一簇关注 Bootstrap 分布能否逼近原估计量的真实分布,瓶颈在于残差依赖估计值导致的偏倚。 3. 随机加权(RW)在固定/增长维度下的逼近:Rao (1987), Zhao (2009), 本文。这一簇用外部随机权重(如 Exponential 或 Multinomial 权重)构造条件分布,绕开残差重抽样的偏倚,瓶颈在于权重与估计量非线性交互在 \(p_n \to \infty\) 下的展开控制。

这个方向在追问的核心问题: 1. \(p_n\) 以何种速度增长时,M-估计量的渐近正态性 / Bahadur 表示仍然成立?(已知 \(p_n^2/n \to 0\) 是经典门槛,能否放宽到 \(p_n^3/n \to 0\)\(p_n \log p_n / n \to 0\)?) 2. 重抽样 / 随机加权构造的分布,在 \(p_n \to \infty\) 下能否严格逼近原估计量的分布?逼近误差的收敛速度是多少? 3. 如何避免估计渐近方差矩阵中随 \(p_n\) 膨胀的冗余参数?(RW 方法天然具有此优势,但需在增长维度下严格证明其条件分布与无条件分布的等价性。)

⚠️ 作者的 framing: - 作者把缺口 frame 成:RW 方法在固定维度下已被证明是 Bootstrap 的灵活替代且无需估计冗余参数,但在 \(p_n \to \infty\) 的实际应用中缺乏理论保障,因此本文是"将 RW 推广到增长维度的显然下一步"。 - 被淡化的竞争路线:作者未在 intro 中讨论 Debiased Lasso / Desparsified Lasso 这条在 \(p_n/n \to c > 0\) 甚至 \(p > n\) 下做推断的主流路线(如 Javanmard & Montanari 2014, van de Geer et al. 2014),也未对比 RW 与 Multiplier Bootstrap 在高维下的异同。RW 本质上与 Multiplier Bootstrap 相近,但作者未点明这一联系与差异。 - 明显该被引却未出现的文献:在讨论高维 M-估计的渐近方差与推断时,El Karoui, Bean, Bickel, Yu (2015, JASA) 这篇刻画高维 M-估计量渐近方差非经典结构的重量级文献未被引用;此外,Multiplier Bootstrap 在高维下的理论(如 Chernozhukov, Chetverikov, Kato 2013 的 Gaussian Approximation for Sup-norm) 也未出现。这是研究者值得去查的信号:作者是否刻意回避了与这些更现代的高维推断路线的对比?

张力: 未见明显对立引用。各条路线(Portnoy 的渐近正态、Mammen 的 Bootstrap、Rao 的 RW)在不同设定下得出相容结论,未见彼此推翻。但存在一个隐含张力:Mammen (1993) 的 Bootstrap 在 \(p_n \to \infty\) 下需要处理残差偏倚,而 RW 方法声称绕开了这一偏倚——这两条路线在逼近精度与所需矩条件上是否有严格对比,本文未给出。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(n\):样本量。
  • \(p_n\):参数维度,随 \(n\) 增长,满足 \(p_n \to \infty\)\(p_n/n \to 0\)(具体增长速度由定理条件决定,如 \(p_n^2/n \to 0\)\(p_n^3/n \to 0\))。
  • \(\theta_0 \in \mathbb{R}^{p_n}\):真实参数向量(要估的 estimand)。
  • \(X_i \in \mathbb{R}^{p_n}\):第 \(i\) 个观测的协变量向量(随机变量)。
  • \(Z_i = (Y_i, X_i)\):第 \(i\) 个个体的完整观测数据(\(Y_i\) 为响应变量,具体分布由参数模型决定)。
  • \(\hat{\theta}_n\):基于 \(n\) 个观测的 M-估计量,定义为满足 \(\sum_{i=1}^n \psi(Z_i, \hat{\theta}_n) = 0\) 的解,其中 \(\psi(z, \theta)\) 是得分函数(score function / objective function 的导数)。
  • \(W_i\):外部随机权重,独立于数据 \(\{Z_i\}\),通常取 Exponential(1) 或 Multinomial\((n; 1/n, \dots, 1/n)\) 分布。
  • \(\hat{\theta}_n^*\):RW 估计量,定义为满足 \(\sum_{i=1}^n W_i \psi(Z_i, \hat{\theta}_n^*) = 0\) 的解。
  • \(V_n\):M-估计量的渐近方差矩阵,形式为 \(V_n = A_n^{-1} B_n (A_n^{-1})^\top\),其中 \(A_n = E[\nabla_\theta \psi(Z, \theta_0)]\)\(B_n = E[\psi(Z, \theta_0) \psi(Z, \theta_0)^\top]\)
  • 可观测数据\(\{Z_i = (Y_i, X_i)\}_{i=1}^n\),以及独立生成的权重 \(\{W_i\}_{i=1}^n\)
  • 不可观测 / 需靠假设识别:真实参数 \(\theta_0\)、渐近方差矩阵 \(V_n\) 中的期望矩阵 \(A_n, B_n\)(这些是冗余参数,RW 方法的目的就是避免估计它们)。

第二步:最小内核——线性回归下的最小二乘估计(\(d=1\) 特例)

剥掉一般 M-估计的非线性与高维交互,支撑整篇论文的最小内核是:在线性回归模型 \(Y_i = X_i^\top \theta_0 + \epsilon_i\)\(\epsilon_i\) 独立同分布,均值为 0)下,最小二乘估计(M-估计的特例,\(\psi(z, \theta) = X(Y - X^\top \theta)\))的 RW 估计量,在 \(p_n \to \infty\) 下与原 OLS 估计量共享渐近分布

在最简特例 \(p_n = 1\)(单变量回归,但保留 \(p_n \to \infty\) 的记号以示精神)下: - 原估计量:\(\hat{\theta}_n = (\sum X_i^2)^{-1} \sum X_i Y_i\),渐近分布为 \(\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, \sigma^2 / E[X^2])\)。 - RW 估计量:\(\hat{\theta}_n^* = (\sum W_i X_i^2)^{-1} \sum W_i X_i Y_i\)。 - 核心命题:在给定数据的条件下,\(\sqrt{n}(\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件分布(关于权重 \(\{W_i\}\)),渐近等价于 \(\sqrt{n}(\hat{\theta}_n - \theta_0)\) 的无条件分布

为什么成立(最小内核的证明直觉): 1. 将 \(\hat{\theta}_n^*\)\(\hat{\theta}_n\) 处做 Bahadur 展开(一阶 Taylor):\(\hat{\theta}_n^* - \hat{\theta}_n \approx (\sum W_i X_i^2)^{-1} \sum W_i X_i (Y_i - X_i \hat{\theta}_n) = (\sum W_i X_i^2)^{-1} \sum W_i X_i \hat{\epsilon}_i\)。 2. 由于 \(\hat{\epsilon}_i = Y_i - X_i \hat{\theta}_n\) 是残差,在 \(p_n/n \to 0\) 下,\(\hat{\epsilon}_i\) 与真实误差 \(\epsilon_i\) 的差距可被控制(Bahadur 表示保证 \(\hat{\theta}_n - \theta_0 = O_p(1/\sqrt{n})\),残差偏倚为 \(O_p(p_n/\sqrt{n})\))。 3. 关键跳跃:权重 \(W_i\) 与残差 \(\hat{\epsilon}_i\) 的交互。在固定维度下,\(\sum W_i X_i \hat{\epsilon}_i / n\) 的条件方差为 \(\sum X_i^2 \hat{\epsilon}_i^2 / n^2\),它逼近 \(E[X^2 \epsilon^2]/n = B_n/n\);而在 \(p_n \to \infty\) 下,需要证明这个逼近的误差随 \(p_n\) 增长仍可被控制(本文的核心技术难点)。 4. 最终,\(\sqrt{n}(\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件方差逼近 \(V_n\),条件分布逼近 \(N(0, V_n)\)——与原估计量的渐近分布一致,且完全不需要估计 \(A_n\)\(B_n\)

一般情形的"加壳":当 \(\psi\) 是非线性函数、\(p_n > 1\)\(p_n \to \infty\) 时,上述展开中的矩阵求逆 \((\sum W_i \nabla_\theta \psi)^{-1}\) 与残差项 \(\sum W_i \psi(Z_i, \hat{\theta}_n)\) 产生高维交互,需要更精细的矩条件与展开余项控制——这就是本文证明的全部重量所在。


三、这篇论文做了什么

三句话: ① 研究了参数维度 \(p_n \to \infty\)\(p_n/n \to 0\) 时,M-估计量的随机加权(RW)逼近问题; ② 核心工具是建立 RW 估计量在增长维度下的 Bahadur 表示,并控制权重与估计量非线性交互的余项; ③ 主要结论是 RW 估计量的条件分布与原 M-估计量的无条件分布渐近等价,从而无需估计冗余参数 \(A_n, B_n\) 即可进行推断,收敛速度为 \(O_p(p_n/\sqrt{n})\)

关键设定与假设: 在第二节最小记号基础上补全: - 模型设定\(Z_1, \dots, Z_n\) 独立同分布,密度为 \(f(z, \theta_0)\);M-估计量 \(\hat{\theta}_n\) 满足 \(\sum_{i=1}^n \psi(Z_i, \hat{\theta}_n) = 0\)\(\psi\) 为取值于 \(\mathbb{R}^{p_n}\) 的得分函数。 - RW 权重\(W_1, \dots, W_n\) 独立同分布,独立于 \(\{Z_i\}\)\(E[W_i]=1\), \(\text{Var}(W_i)=\sigma_w^2 > 0\)(如 Exponential(1) 则 \(\sigma_w^2=1\))。 - 增长条件\(p_n \to \infty\), \(p_n/n \to 0\)。具体定理要求 \(p_n^2/n \to 0\)\(p_n^3/n \to 0\)(取决于矩条件强弱)。 - 核心假设(逐条说明统计含义): 1. \(A_n = E[\nabla_\theta \psi(Z, \theta_0)]\) 的非奇异性与下界\(A_n\) 的最小特征值 \(\lambda_{\min}(A_n) \geq c > 0\)(保证 M-估计量局部可识别,避免参数空间平坦导致估计不稳定)。 2. 矩条件\(E[\|\psi(Z, \theta_0)\|^k]\)\(E[\|\nabla_\theta \psi(Z, \theta_0)\|^k]\) 对某个 \(k \geq 4\) 有界(控制高维交互项的尾部,\(k\) 越大允许 \(p_n\) 增长越快;若 \(k=4\) 则需 \(p_n^2/n \to 0\),若更高阶矩有界则可放宽)。 3. Lipschitz 条件\(\nabla_\theta \psi(z, \theta)\)\(\theta_0\) 邻域内对 \(\theta\) 满足 Lipschitz 条件(保证 Bahadur 展开的二阶余项可控)。 4. 权重矩条件\(E[W_i^2] < \infty\)(Exponential 或 Multinomial 均满足)。 - 与已有文献的对比:相比 Portnoy (1984) 要求 \(p_n^2/n \to 0\) 与 4 阶矩,本文在 RW 情形下需要类似或略强的条件(因权重交互引入额外方差);相比 Rao (1987) 的固定维度 RW 理论,本文将 \(p_n\) 从常数推广到随 \(n\) 增长的序列。

主要结果

  1. 定理 1(Bahadur 表示)
  2. 陈述\(\hat{\theta}_n^* - \hat{\theta}_n = A_n^{-1} \frac{1}{n} \sum_{i=1}^n (W_i - 1) \psi(Z_i, \hat{\theta}_n) + R_n^*\),其中余项 \(R_n^* = O_p(p_n/\sqrt{n})\)(在给定数据条件下)。
  3. 直觉:RW 估计量围绕原估计量的偏差,主要由权重的波动 \((W_i - 1)\) 与得分函数的交互驱动;一阶项是线性交互,余项是非线性与高维交互的残留。
  4. 必要条件\(p_n^2/n \to 0\) 与 4 阶矩条件(或更强条件以控制余项)。
  5. 解决的技术难点:在 \(p_n \to \infty\) 下,Taylor 展开的二阶项 \(\nabla_\theta \psi\) 涉及 \(p_n \times p_n\) 矩阵,其范数控制需要特征值假设与矩条件的精细配合。

  6. 定理 2(渐近分布等价性)

  7. 陈述:在给定数据的条件下,\(\sqrt{n} V_n^{-1/2} (\hat{\theta}_n^* - \hat{\theta}_n)\) 的条件分布(关于 \(\{W_i\}\))渐近为 \(N(0, I_{p_n})\),与 \(\sqrt{n} V_n^{-1/2} (\hat{\theta}_n - \theta_0)\) 的无条件分布相同。
  8. 直觉:Bahadur 表示的主项 \(A_n^{-1} \frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\) 在条件下的方差为 \(A_n^{-1} \frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top A_n^{-1} \sigma_w^2\),它逼近 \(A_n^{-1} B_n A_n^{-1} \sigma_w^2\);若取 \(\sigma_w^2 = 1\)(如 Exponential 权重),则恰好等于 \(V_n\)
  9. 必要条件:同定理 1,加上 \(\frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top \to B_n\) 的一致性(在 \(p_n \to \infty\) 下需额外控制)。

  10. 定理 3(收敛速度)

  11. 陈述:RW 条件分布逼近原分布的误差速度为 \(O(p_n/\sqrt{n})\)(在适当的概率测度下)。
  12. 直觉:这是 Bahadur 余项的直接推论——余项 \(O_p(p_n/\sqrt{n})\) 决定了分布逼近的精度。

证明路线与技术技巧

  • 整体路线(5 步逻辑主干):
  • 建立原 M-估计量的 Bahadur 表示\(\hat{\theta}_n - \theta_0 = A_n^{-1} \frac{1}{n} \sum \psi(Z_i, \theta_0) + R_n\)\(R_n = O_p(p_n/\sqrt{n})\)(引用 Portnoy 型结果)。
  • 建立 RW 估计量的 Bahadur 表示:将 \(\hat{\theta}_n^*\)\(\hat{\theta}_n\) 处展开,得主项 \(A_n^{-1} \frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\) 与余项 \(R_n^*\)
  • 控制余项 \(R_n^*\):利用 Lipschitz 条件与权重矩条件,将二阶展开项的范数界控制在 \(O_p(p_n/\sqrt{n})\);这是最吃功夫的一步。
  • 证明条件方差的一致性\(\frac{1}{n} \sum \psi(Z_i, \hat{\theta}_n) \psi(Z_i, \hat{\theta}_n)^\top \to B_n\),利用原估计量的相合性与得分函数的连续性。
  • 应用条件 CLT:对主项 \(\frac{1}{n} \sum (W_i - 1) \psi(Z_i, \hat{\theta}_n)\),在给定数据下对权重 \(\{W_i\}\) 应用 Lindeberg 条件 CLT(需验证 Lindeberg 条件在 \(p_n \to \infty\) 下成立),得条件分布 \(N(0, V_n)\)

  • 关键跳跃点

  • 余项 \(R_n^*\) 的控制:难点在于 \(\hat{\theta}_n^* - \hat{\theta}_n\) 的二阶 Taylor 展开涉及 \(\nabla_\theta \psi(Z_i, \hat{\theta}_n^*)\)\(\hat{\theta}_n^* - \hat{\theta}_n\) 的交互,而 \(\hat{\theta}_n^*\) 本身依赖权重,形成循环依赖。作者用迭代控制(先假定 \(\hat{\theta}_n^* - \hat{\theta}_n\) 小,再证明它确实小)与矩阵范数界(利用 \(\lambda_{\min}(A_n)\) 的下界与 \(\nabla_\theta \psi\) 的矩界)绕过这一循环。

  • 技术技巧点名

  • Bahadur 表示:用于将 M-估计量与 RW 估计量分别展开为线性主项 + 余项,是高维 M-估计推断的标准工具(用在整个证明路线的第 1-2 步)。
  • 矩阵特征值界 / 谱范数控制:用于控制 \(A_n^{-1}\)\(\nabla_\theta \psi\) 矩阵在高维下的范数膨胀(用在余项控制与方差一致性证明中)。
  • 条件 Lindeberg CLT:用于在给定数据下对权重波动项证明渐近正态性(用在第 5 步,需验证 \(\max_i \| \psi(Z_i, \hat{\theta}_n) \|^2 / n \to 0\) 以满足 Lindeberg 条件)。
  • 迭代论证:用于打破 \(\hat{\theta}_n^*\) 与余项的循环依赖(用在第 3 步)。

真实例子与应用: 本文为纯理论论文,无真实数据例子或模拟实验。所有结论以定理形式给出,未提供数值验证。

🔎 结论是否比证明窄: - 作者在摘要与 intro 中泛泛 claim "RW 方法可用于增长维度下的统计推断,无需估计冗余参数",但严格证明仅覆盖 \(p_n/n \to 0\)\(p_n^2/n \to 0\)(或更强增长条件) 的情形。对于 \(p_n/n \to c > 0\)(如 \(p \approx n/2\))的实际高维场景,本文理论未触及,但作者未在结论中明确划定这一边界。 - 定理 2 的渐近等价性严格依赖于 \(\sigma_w^2 = 1\)(如 Exponential 权重);若使用其他权重(如 \(\sigma_w^2 \neq 1\)),需手动调整方差,但作者未在定理陈述中强调这一限制。


四、开放问题(点到为止,扎根具体语句)

  1. \(p_n/n \to c > 0\) 下的 RW 推断:本文所有定理要求 \(p_n/n \to 0\)(如定理 1 的 \(p_n^2/n \to 0\))。当 \(p_n/n \to c \in (0,1)\) 时,RW 估计量的条件分布是否仍逼近原分布?这扎根在定理 1 的增长条件与 Portnoy (1984) 的经典门槛——若要突破,需面对 \(A_n\) 矩阵非经典渐近(参考 El Karoui et al. 2015)。
  2. RW 与 Multiplier Bootstrap 在高维下的严格对比:作者未讨论 RW 与 Multiplier Bootstrap(Chernozhukov et al. 2013)在逼近精度与矩条件上的差异。扎根在 intro 中"RW 是 Bootstrap 的灵活替代"这一 claim——需验证在 \(p_n \log p_n / n \to 0\) 等更宽松条件下,两者是否仍有差异。
  3. 非线性 M-估计的余项控制是否可放宽:定理 1 的余项 \(O_p(p_n/\sqrt{n})\) 依赖 Lipschitz 条件与 4 阶矩;若得分函数有更高阶光滑性(如 3 阶导数有界),余项是否可改进到 \(O_p(p_n^{1/2}/\sqrt{n})\)?扎根在定理 1 的证明路线中二阶 Taylor 展开的余项界。
  4. 缺失的引用与实际高维推断的衔接:intro 未引用 El Karoui et al. (2015) 与 Chernozhukov et al. (2013)——研究者需查证:在 \(p_n/n \to c > 0\) 的实际高维场景中,RW 方法是否已被其他路线(如 Debiased Lasso)取代,还是仍有独特优势(免估计冗余参数)?扎根在 intro 的文献列表缺失。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论