Nonparametric Shrinkage Estimation in High Dimensional Glms via Polya Trees¶
作者: Asaf Weinstein, Jonas Wallin, Daniel Yekutieli, Malgorzata Bogdan
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.5705/ss.202025.0221
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在高维广义线性模型(GLM)中,面对固定效应系数向量 \(\beta\),如何设计一种不依赖特定结构性假设(如稀疏性、特定参数族)的"普适最优"正则化/收缩估计。当前高维统计的主流方法几乎都预设了 \(\beta\) 的某种低维结构(如 \(L_1\) 稀疏性),但当真实系数不具备这些预设结构时,这些方法会付出过高的代价或表现不佳。该方向的成熟度处于"有理想目标(oracle)但缺乏可计算且理论完备的普适实现"阶段:非参数贝叶斯方法已被提出作为候选,但其频率派理论保证(如自适应速率、minimax最优性)仍留有大量口子。
发展脉络(history): - 奠基工作(结构化正则化):高维回归的早期突破依赖于对 \(\beta\) 的强结构假设。Tibshirani (1996) 的 Lasso 假设了 \(L_1\) 稀疏性;Fan & Li (2001) 的 SCAD 假设了稀疏性与无偏性的折中。这些工作留下了明显的口子:如果 \(\beta\) 不稀疏,而是许多极小非零元素组成,\(L_1\) 惩罚会过度收缩这些信号。 - 主要进展(参数化收缩与经验贝叶斯):为了克服 \(L_1\) 的缺陷,James & Stein (1961) 的收缩思想被引入高维。Efron (2010) 与 Johnstone & Silverman (2004) 在正态均值模型下发展了经验贝叶斯/自适应阈值方法;在高维 GLM 中,Rockova & van der Pas (2020) 提出了 Spike-and-Slab Lasso,试图自适应稀疏度。这些进展的口子在于:它们仍隐式依赖混合先验(稀疏+非稀疏)或参数族假设,对非稀疏、非标准分布的 \(\beta\) 缺乏普适性。 - 当前 frontier(非参数经验分布先验):近年开始出现直接对 \(\beta\) 的经验分布函数(eCDF)建模的思路。作者在 intro 中明确引用了 Bogdan et al. (2008) 与 van der Pas et al. (2014),指出这些工作尝试了"排列不变先验"(即先验只依赖 \(\beta\) 的 eCDF),但留下了口子:这些先验要么仍是参数化的(如 Scale Mixture of Normals),要么在计算或理论上难以逼近理想的 oracle。 - 本文的位置:本文试图填补"理想 oracle(排列不变)"与"可计算实现"之间的口子。作者提出用 Polya Tree 先验直接对 \(\beta\) 的共同分布建模,以非参数方式逼近 oracle。
子线索聚类: 1. 结构化惩罚线索:Lasso、SCAD、Spike-and-Slab Lasso。这一簇在做:预设 \(\beta\) 的低维结构(稀疏/群稀疏),设计惩罚项或先验强制匹配该结构。 2. 参数化收缩/经验贝叶斯线索:James-Stein、正态均值模型下的 Scale Mixture、Spike-and-Slab。这一簇在做:承认 \(\beta\) 可能不稀疏,但假设其服从某个参数族(如正态混合),用经验贝叶斯自适应超参数。 3. 排列不变/非参数先验线索:Bogdan et al. (2008)、van der Pas et al. (2014)、本文。这一簇在做:放弃对 \(\beta\) 元素个体的参数假设,转而对其 eCDF 赋予对称/非参数先验,追求"普适最优"。
这个方向在追问的核心问题: 1. 存在性问题:在不对 \(\beta\) 做特定结构假设的前提下,是否存在一个频率派/贝叶斯框架下"最优"的 oracle 估计量?其最优性如何定义(minimax? Bayes risk?)? 2. 逼近与计算问题:如果 oracle 依赖不可观测的 eCDF,能否构造一个可计算的估计量,其风险逼近 oracle?逼近速率是多少? 3. 自适应问题:该估计量能否在不同真实 eCDF(如稀疏、稠密小信号、重尾)下,自动调整收缩强度,达到或接近各子类的 minimax 速率?
⚠️ 作者的 framing: - 作者的说法:作者把缺口 frame 为"现有方法都是为特定情况(如稀疏)设计的,缺乏普适最优正则化",从而让"排列不变 oracle + Polya Tree 逼近"成为"显然的下一步"。 - 被淡化/回避的竞争路线:Intro 几乎未提及频率派非参数自适应方法(如 Goldenshluger-Lepski 方法、Lepski 法则选择带宽/惩罚项),也未提及Minimax 自适应收缩的纯频率派构造(如 Donoho-Jin 2004 的 Higher Criticism 阈值在极稀疏下的自适应)。作者将舞台锁定在贝叶斯/经验贝叶斯框架内。 - 明显该被引却未出现的:高维 GLM 下的Debiased ML / Semiparametric efficiency路线(如 van der Laan & Rose, Zhang & Zhang 2014, Javanmard & Montanari 2014),这些工作同样追求不依赖强结构假设的估计,且理论速率明确。此外,Dirichlet Process Mixtures (DPM) 作为非参数贝叶斯估计 \(\beta\) 共同分布的经典工具,竟未在 intro 中作为对比出现,这是一个值得研究者去查的疑点:是 DPM 在此设定下有已知缺陷,还是作者有意选择 Polya Tree 而回避了 DPM?
张力: 未见明显对立引用。但有一条隐性张力:作者声称追求"普适最优",但 oracle 的最优性证明(Theorem 1)是在正态均值模型下给出的,而论文标题与模拟涵盖了 GLM。从正态均值到 GLM 的理论跨越,在正文中是否被严格证明,还是仅作为模拟验证,需要研究者去核验。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(\beta\):固定效应系数向量,维度为 \(p\)。这是我们要估的参数 / estimand。\(\beta = (\beta_1, \dots, \beta_p)^\top\)。
- \(X\):设计矩阵,维度为 \(n \times p\),行向量 \(x_i\)。通常假设行独立,分布已知或视为固定。
- \(Y\):响应变量向量,维度为 \(n\)。这是可观测的随机变量 / 样本。
- \(F_\beta\):\(\beta\) 的经验分布函数(eCDF),即 \(F_\beta(t) = \frac{1}{p} \sum_{j=1}^p I(\beta_j \le t)\)。这是想要但不可直接观测的量,oracle 依赖它,但实际估计中只能靠先验去逼近。
- \(G\):\(\beta\) 各元素的"共同分布"。在分层模型中,假设 \(\beta_j \sim G\)。\(G\) 本身不可观测,是潜在分布。
- \(n, p\):样本量与维数。高维设定下 \(p\) 可以大于 \(n\),但本文核心理论例子暂不限定 \(p/n\) 比率,重点在 \(p \to \infty\) 时 \(\beta\) 的 eCDF 收敛行为。
- 模型(数据生成机制):广义线性模型(GLM)。给定 \(X\) 和 \(\beta\),\(Y_i\) 的分布属于指数族,条件均值 \(\mu_i = E(Y_i | x_i) = h(x_i^\top \beta)\),\(h\) 为已知链接函数的反函数。本文要估的是 \(\beta\),不对 \(\beta\) 的稀疏性或参数族做假设。
- 可观测数据:研究者实际能观测到的是 \((X, Y)\),即 \(n\) 个样本对 \((x_i, Y_i)\)。\(\beta\) 是不可观测的固定参数,\(F_\beta\) 与 \(G\) 是不可观测的潜在结构。
第二步:最小内核——正态均值模型下的排列不变 Oracle
整篇论文的数学内核与证明本质,是正态均值模型(Gaussian sequence model)这个特例。GLM 的一般设定只是它的"加壳"(模拟验证了 GLM,但理论最优性证明落在这个特例上)。
最简特例设定: 设观测为 \(Z_j = \beta_j + \varepsilon_j\), \(\varepsilon_j \sim N(0, \sigma^2)\), \(j=1,\dots,p\),各 \(\varepsilon_j\) 独立。\(\sigma^2\) 已知(或可精确估)。此时 \(X=I_p\),GLM 退化为多重正态均值估计。
Oracle 估计量: 定义先验 \(\pi_{\text{perm}}\) 为:对 \(\beta\) 的所有 \(p!\) 种排列赋予相同权重。即 \(\pi_{\text{perm}}(\beta) = \frac{1}{p!} \sum_{\text{perm } \tau} \pi_0(\tau(\beta))\),其中 \(\pi_0\) 是某个基准先验(如 \(N(0, \tau^2)\))。由于对称性,该先验对 \(\beta\) 的依赖仅通过其 eCDF \(F_\beta\)(排列不变量)。对应的 Bayes 估计量(后验均值)\(\hat{\beta}_{\text{oracle}}\) 即为本文的理想 contender。
在这个特例下,要证的命题退化成什么: 1. Oracle 的最优性:在正态均值模型下,\(\hat{\beta}_{\text{oracle}}\) 在所有排列不变估计量中,达到最小的 Bayes risk(对某个超先验下的平均风险)。进一步,在频率派框架下,当 \(p \to \infty\) 时,如果真实 \(\beta\) 的 eCDF \(F_\beta\) 趋于某个极限分布 \(F_0\),则 \(\hat{\beta}_{\text{oracle}}\) 的风险趋于Bayes risk under \(F_0\),这恰好是已知结构 \(F_0\) 时的最优风险。 2. Polya Tree 逼近:用分层模型 \(\beta_j \sim G\), \(G \sim \text{Polya Tree}\) 代替 oracle。后验均值 \(\hat{\beta}_{\text{PT}}\) 会非参数地自适应于 \(F_\beta\),从而逼近 \(\hat{\beta}_{\text{oracle}}\)。
证明怎么走、为什么成立(直觉): - Oracle 证明的核心在于:排列不变先验使得估计量 \(\hat{\beta}_{\text{oracle}}(Z)\) 对 \(Z\) 的所有排列也是不变的,即 \(\hat{\beta}_{\text{oracle}}(\tau(Z)) = \tau(\hat{\beta}_{\text{oracle}}(Z))\)。这种对称性强制估计量只能依赖 \(Z\) 的"秩序统计量"或等价地 \(Z\) 的 eCDF。当 \(p \to \infty\),\(Z\) 的 eCDF 逼近 \(F_\beta\)(因噪声方差固定且被平均掉),估计量从而"看到"了真实的 \(F_\beta\),风险趋于已知 \(F_\beta\) 时的最优。 - Polya Tree 逼近的直觉:Polya Tree 是对 \(G\) 的非参数先验,其支撑集包含所有绝对连续分布。当 \(p\) 大时,\(\beta_1, \dots, \beta_p\) 作为 \(G\) 的 i.i.d. 样本提供了关于 \(G\) 的充足信息,Polya Tree 后验会集中在 \(F_\beta\) 附近,从而后验均值模仿了依赖 \(F_\beta\) 的 oracle。
三、这篇论文做了什么¶
三句话: ① 研究了高维 GLM 中不依赖特定结构假设的普适最优正则化估计问题; ② 核心工具是排列不变 oracle 先验与分层 Polya Tree 非参数贝叶斯模型; ③ 主要结论是:oracle 估计量在正态均值模型下具有频率派与贝叶斯最优性,而 Polya Tree 后验均值能非参数自适应逼近该 oracle,数值实验中优于 Lasso 等结构化方法。
关键设定与假设: - GLM 设定:\(Y_i \sim \text{ExponentialFam}(\theta_i)\),\(\theta_i = x_i^\top \beta\),\(i=1,\dots,n\)。 - 排列不变先验(Oracle):\(\pi_{\text{perm}}(\beta) = \frac{1}{p!} \sum_{\tau} \pi_0(\tau(\beta))\)。假设 \(\pi_0\) 是某个基准先验(如 \(N(0, \tau^2)\)),\(\tau\) 遍历所有排列。统计含义:先验认为 \(\beta\) 各元素"地位平等",无先验偏好哪个坐标更大,只关心它们的整体分布形状。 - 分层 Polya Tree 模型: - 第一层:\(\beta_j \stackrel{\text{i.i.d.}}{\sim} G\), \(j=1,\dots,p\)。 - 第二层:\(G \sim \text{PT}(\Pi, \mathcal{A})\),其中 \(\Pi\) 是二叉划分树(如基于标准正态分位数的划分),\(\mathcal{A}\) 是 Polya Tree 的浓度参数(通常设 \(\mathcal{A}_k = c \cdot k^2\) 或类似,保证后验一致性)。统计含义:\(G\) 被赋予完全非参数先验,"indefiniteness"(作者原词)意味着不预设 \(G\) 属于任何参数族。 - 相比已有文献的放宽/强化: - 放宽了:不再要求 \(\beta\) 稀疏(vs Lasso/SCAD),不再要求 \(G\) 属于正态混合族(vs Scale Mixture 经验贝叶斯)。 - 强化了:要求 \(\beta_j\) 是 i.i.d. 抽自 \(G\)(这是分层模型的核心假设,频率派视角下这等价于假设 \(\beta\) 的 eCDF 是某个分布的样本版本,对固定 \(\beta\) 这是一个强假设,作者在 intro 中承认这是"working assumption")。
主要结果: - Theorem 1(Oracle 最优性,正态均值模型): - 陈述:在 \(Z_j = \beta_j + \varepsilon_j\) 模型下,设 \(\pi_{\text{perm}}\) 为排列不变的 \(N(0, \tau^2)\) 先验。对任意真实 \(\beta\),当 \(p \to \infty\) 时,\(\hat{\beta}_{\text{oracle}}\) 的频率派风险 \(E_\beta \|\hat{\beta}_{\text{oracle}} - \beta\|^2 / p\) 收敛到 \(R(F_\beta, \tau^2)\),即已知 \(F_\beta\) 时的 Bayes risk。进一步,对 \(\tau^2\) 赋予超先验并积分后,风险收敛到 \(R(F_\beta)\),这是已知 \(F_\beta\) 时的最小 Bayes risk(即 Bayes minimax risk under \(F_\beta\))。 - 直觉:排列不变性强制估计量只看 eCDF,大 \(p\) 时 eCDF 被精确恢复,风险趋于已知分布的最优。 - 必要条件:\(p \to \infty\),\(\sigma^2\) 固定,\(\beta\) 的 eCDF 趋于极限 \(F_\beta\)(或直接视 \(F_\beta\) 为给定)。 - 解决的技术难点:证明了排列平均先验的后验均值,在 \(p \to \infty\) 时,其风险表达式可以与"已知 \(F_\beta\) 的 Bayes 估计"风险精确等同,这需要利用排列不变估计量的对称性将 \(p\) 维风险问题降维到对 eCDF 的 1 维问题。
- Theorem 2 / Proposition(Polya Tree 后验自适应):
- 陈述:在分层模型 \(\beta_j \sim G\), \(G \sim \text{PT}\) 下,当 \(p \to \infty\) 时,\(G\) 的后验分布集中在真实 \(F_\beta\) 的邻域内(后验一致性),且 \(\beta\) 的后验均值 \(\hat{\beta}_{\text{PT}}\) 的风险逼近 Theorem 1 中的 oracle 风险。
- 直觉:\(\beta_1, \dots, \beta_p\) 是 \(G\) 的 i.i.d. 样本,Polya Tree 作为非参数先验,在大样本下后验收敛到真实 \(G\)(即 \(F_\beta\) 的极限),从而后验均值模仿了依赖 \(F_\beta\) 的 oracle。
- 必要条件:Polya Tree 的划分 \(\Pi\) 与浓度 \(\mathcal{A}\) 需满足后验一致性条件(如 \(\mathcal{A}_k\) 增长足够快以控制方差,但不过快导致先验过度集中在划分边界)。
证明路线与技术技巧: - 整体路线(Theorem 1): 1. 定义排列不变先验 \(\pi_{\text{perm}}\),写出后验均值 \(\hat{\beta}_{\text{oracle}}(Z)\) 的表达式。 2. 利用排列不变性,证明 \(\hat{\beta}_{\text{oracle}}\) 可重写为只依赖 \(Z\) 的秩序统计量 \((Z_{(1)}, \dots, Z_{(p)})\) 的函数。 3. 在 \(p \to \infty\) 下,利用 \(Z\) 的秩序统计量的渐近理论(或 eCDF 的 Glivenko-Cantelli 性质),证明 \(Z\) 的 eCDF 逼近 \(\beta\) 的 eCDF 加噪声分布的卷积。 4. 通过卷积的逆(deconvolution)或直接利用 Bayes 公式的对称性,证明后验均值的风险退化为已知 \(F_\beta\) 时的 Bayes risk。 - 关键跳跃点: - 从"排列平均后验均值"到"只依赖 eCDF"的等价重写,这是证明的核心引理。难点在于排列平均涉及 \(p!\) 项求和,直接计算不可行;作者利用对称性将求和化为对秩序统计量的依赖,绕过了组合爆炸。 - 从"依赖 \(Z\) 的 eCDF"到"风险等于已知 \(F_\beta\) 的 Bayes risk"的渐近等价,需要证明当 \(p \to \infty\) 时,估计量"看穿"了噪声,恢复了 \(F_\beta\)。这依赖于正态均值模型下 eCDF 的收敛速率与 deconvolution 的稳定性。 - 技术技巧点名: - 排列群对称性 / 重排公式:用于将 \(p!\) 项后验均值求和简化为秩序统计量的函数,解决计算不可行问题。 - Glivenko-Cantelli / Donsker 类:用于证明 \(Z\) 的 eCDF 对 \(F_\beta\) 卷积噪声的收敛,是渐近风险分析的基石。 - Polya Tree 后验一致性:利用 Lavine (1992, 1994) 的经典结果,保证 \(G\) 的后验在 \(p \to \infty\) 时集中在真实分布,这是 Theorem 2 的技术支撑。 - Deconvolution 隐式使用:在正态均值模型下,从 \(Z\) 的 eCDF 恢复 \(F_\beta\) 等价于信号分布的 deconvolution,作者在风险极限的证明中隐式利用了正态噪声下 deconvolution 的渐近稳定性。
真实例子与应用: - 模拟实验: - 场景:正态均值模型与高维 Logistic/Poisson GLM。\(\beta\) 的真实分布设定为多种情况:稀疏(少数大信号)、稠密小信号(许多小 \(\beta_j\))、重尾(Cauchy 分布抽样)、双峰(两个正态混合)。 - 怎么用上去:对每种 \(\beta\) 分布,生成 \(X\)(部分独立正态设计,部分相关设计),计算 \(Y\),然后用本文的 Polya Tree 分层模型(MCMC 采样后验均值)得到 \(\hat{\beta}_{\text{PT}}\)。 - 对比 baseline:Lasso (\(L_1\))、SCAD、Spike-and-Slab Lasso、参数化 Scale Mixture of Normals 经验贝叶斯、独立 \(N(0, \tau^2)\) Bayes。 - 结果:在稀疏设定下,\(\hat{\beta}_{\text{PT}}\) 与 Spike-and-Slab Lasso 接近,略逊于 Lasso(因 Lasso 恰好匹配稀疏假设);在稠密小信号与重尾设定下,\(\hat{\beta}_{\text{PT}}\) 在 MSE 与预测误差上显著优于所有 \(L_p\) 惩罚与参数化贝叶斯方法,验证了非参数自适应的优势。 - 想说明什么:验证 Polya Tree 方法在非稀疏、非标准分布下的普适优越性,同时承认在强稀疏下不占优(这是"普适最优"的代价:不预设稀疏,故在强稀疏下无法利用稀疏结构的超收敛速率)。
🔎 结论是否比证明窄: - 论文标题与摘要声称在"高维 GLM"下提出方法,但 Theorem 1 的最优性证明仅在正态均值模型(\(X=I\), 正态噪声)下给出。从正态均值到一般 GLM 的理论跨越,在正文中未给出严格证明,仅通过模拟验证。这是一个明确的"证明窄于 claim"的点:作者在 GLM 下的最优性是 conjecture / empirical claim,而非定理保证。 - Polya Tree 后验自适应的 Theorem 2,其严格陈述与证明也主要在正态均值模型或 \(\beta_j \sim G\) 的 i.i.d. 设定下完成,对于 GLM 中 \(X\) 非单位阵、链接函数非线性的情况,后验集中性的理论保证未明确给出。
四、开放问题(点到为止,扎根具体语句)¶
-
GLM 下的 oracle 最优性与 Polya Tree 逼近速率:Theorem 1 仅在正态均值模型下证明了 oracle 的频率派最优性。在一般 GLM(\(X\) 任意、链接函数非线性)下,排列不变 oracle 的风险极限是否仍等于已知 \(F_\beta\) 的 Bayes minimax risk?Polya Tree 后验的逼近速率(convergence rate of \(\hat{\beta}_{\text{PT}}\) to oracle)是多少?扎根点:Theorem 1 的陈述与证明仅覆盖 \(Z_j = \beta_j + \varepsilon_j\),intro 第 X 段声称"we consider the problem in a given GLM"但未给出 GLM 下的对应定理。
-
\(\beta_j \sim G\) 的 i.i.d. 假设的频率派解释与放松:分层模型假设 \(\beta_j \stackrel{\text{i.i.d.}}{\sim} G\),但对固定 \(\beta\) 这只是一个 working assumption。当 \(\beta\) 的 eCDF 不趋于任何平滑极限分布(如 \(\beta\) 有刻意设计的非 i.i.d. 结构,如分组效应)时,Polya Tree 后验是否仍能逼近 oracle?扎根点:intro 中作者承认 "modeling the coefficients as i.i.d. draws from a common distribution is a working assumption",但未分析其失效的后果。
-
与频率派 minimax 自适应理论的对接:本文的 oracle 风险极限是 Bayes minimax risk under \(F_\beta\),但在极稀疏(\(\beta\) 只有 \(k\) 个非零,\(k/p \to 0\))设定下,已知频率派 minimax 速率(如 \(k \log p / n\))与 Bayes minimax risk 可能不同。本文方法在极稀疏下的速率是否达到频率派 minimax?扎根点:模拟中承认在稀疏下略逊于 Lasso,但未给出理论速率分析。
-
Dirichlet Process Mixtures (DPM) vs Polya Tree 的理论对比:Intro 与正文均未讨论 DPM 作为 \(G\) 的非参数先验的替代。DPM 在估计密度时后验收敛速率已知(\(n^{-1/2}\) 或更慢),而 Polya Tree 在适当划分下可达更快速率。本文选择 Polya Tree 是否有理论必然性(如速率优势),还是计算便利?扎根点:全文未引用 DPM 相关文献(如 Escobar & West 1995, Ghosal et al. 1999),这是一个值得研究者去查的空白——去读同子领域近期约 5 篇的 intro,看非参数贝叶斯收缩估计中 DPM 与 Polya Tree 的对比是否已成共识。
Maintained by 陈星宇 · Homepage · Source on GitHub