Nonparametric Shrinkage Estimation in High Dimensional Glms via Polya Trees¶

作者: Asaf Weinstein, Jonas Wallin, Daniel Yekutieli, Malgorzata Bogdan
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.5705/ss.202025.0221

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在高维广义线性模型（GLM）中，面对固定效应系数向量 \(\beta\)，如何设计一种不依赖特定结构性假设（如稀疏性、特定参数族）的"普适最优"正则化/收缩估计。当前高维统计的主流方法几乎都预设了 \(\beta\) 的某种低维结构（如 \(L_1\) 稀疏性），但当真实系数不具备这些预设结构时，这些方法会付出过高的代价或表现不佳。该方向的成熟度处于"有理想目标（oracle）但缺乏可计算且理论完备的普适实现"阶段：非参数贝叶斯方法已被提出作为候选，但其频率派理论保证（如自适应速率、minimax最优性）仍留有大量口子。

发展脉络（history）： - 奠基工作（结构化正则化）：高维回归的早期突破依赖于对 \(\beta\) 的强结构假设。Tibshirani (1996) 的 Lasso 假设了 \(L_1\) 稀疏性；Fan & Li (2001) 的 SCAD 假设了稀疏性与无偏性的折中。这些工作留下了明显的口子：如果 \(\beta\) 不稀疏，而是许多极小非零元素组成，\(L_1\) 惩罚会过度收缩这些信号。 - 主要进展（参数化收缩与经验贝叶斯）：为了克服 \(L_1\) 的缺陷，James & Stein (1961) 的收缩思想被引入高维。Efron (2010) 与 Johnstone & Silverman (2004) 在正态均值模型下发展了经验贝叶斯/自适应阈值方法；在高维 GLM 中，Rockova & van der Pas (2020) 提出了 Spike-and-Slab Lasso，试图自适应稀疏度。这些进展的口子在于：它们仍隐式依赖混合先验（稀疏+非稀疏）或参数族假设，对非稀疏、非标准分布的 \(\beta\) 缺乏普适性。 - 当前 frontier（非参数经验分布先验）：近年开始出现直接对 \(\beta\) 的经验分布函数（eCDF）建模的思路。作者在 intro 中明确引用了 Bogdan et al. (2008) 与 van der Pas et al. (2014)，指出这些工作尝试了"排列不变先验"（即先验只依赖 \(\beta\) 的 eCDF），但留下了口子：这些先验要么仍是参数化的（如 Scale Mixture of Normals），要么在计算或理论上难以逼近理想的 oracle。 - 本文的位置：本文试图填补"理想 oracle（排列不变）"与"可计算实现"之间的口子。作者提出用 Polya Tree 先验直接对 \(\beta\) 的共同分布建模，以非参数方式逼近 oracle。

子线索聚类： 1. 结构化惩罚线索：Lasso、SCAD、Spike-and-Slab Lasso。这一簇在做：预设 \(\beta\) 的低维结构（稀疏/群稀疏），设计惩罚项或先验强制匹配该结构。 2. 参数化收缩/经验贝叶斯线索：James-Stein、正态均值模型下的 Scale Mixture、Spike-and-Slab。这一簇在做：承认 \(\beta\) 可能不稀疏，但假设其服从某个参数族（如正态混合），用经验贝叶斯自适应超参数。 3. 排列不变/非参数先验线索：Bogdan et al. (2008)、van der Pas et al. (2014)、本文。这一簇在做：放弃对 \(\beta\) 元素个体的参数假设，转而对其 eCDF 赋予对称/非参数先验，追求"普适最优"。

这个方向在追问的核心问题： 1. 存在性问题：在不对 \(\beta\) 做特定结构假设的前提下，是否存在一个频率派/贝叶斯框架下"最优"的 oracle 估计量？其最优性如何定义（minimax? Bayes risk?）？ 2. 逼近与计算问题：如果 oracle 依赖不可观测的 eCDF，能否构造一个可计算的估计量，其风险逼近 oracle？逼近速率是多少？ 3. 自适应问题：该估计量能否在不同真实 eCDF（如稀疏、稠密小信号、重尾）下，自动调整收缩强度，达到或接近各子类的 minimax 速率？

⚠️ 作者的 framing： - 作者的说法：作者把缺口 frame 为"现有方法都是为特定情况（如稀疏）设计的，缺乏普适最优正则化"，从而让"排列不变 oracle + Polya Tree 逼近"成为"显然的下一步"。 - 被淡化/回避的竞争路线：Intro 几乎未提及频率派非参数自适应方法（如 Goldenshluger-Lepski 方法、Lepski 法则选择带宽/惩罚项），也未提及Minimax 自适应收缩的纯频率派构造（如 Donoho-Jin 2004 的 Higher Criticism 阈值在极稀疏下的自适应）。作者将舞台锁定在贝叶斯/经验贝叶斯框架内。 - 明显该被引却未出现的：高维 GLM 下的Debiased ML / Semiparametric efficiency路线（如 van der Laan & Rose, Zhang & Zhang 2014, Javanmard & Montanari 2014），这些工作同样追求不依赖强结构假设的估计，且理论速率明确。此外，Dirichlet Process Mixtures (DPM) 作为非参数贝叶斯估计 \(\beta\) 共同分布的经典工具，竟未在 intro 中作为对比出现，这是一个值得研究者去查的疑点：是 DPM 在此设定下有已知缺陷，还是作者有意选择 Polya Tree 而回避了 DPM？

张力：未见明显对立引用。但有一条隐性张力：作者声称追求"普适最优"，但 oracle 的最优性证明（Theorem 1）是在正态均值模型下给出的，而论文标题与模拟涵盖了 GLM。从正态均值到 GLM 的理论跨越，在正文中是否被严格证明，还是仅作为模拟验证，需要研究者去核验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(\beta\)：固定效应系数向量，维度为 \(p\)。这是我们要估的参数 / estimand。\(\beta = (\beta_1, \dots, \beta_p)^\top\)。
\(X\)：设计矩阵，维度为 \(n \times p\)，行向量 \(x_i\)。通常假设行独立，分布已知或视为固定。
\(Y\)：响应变量向量，维度为 \(n\)。这是可观测的随机变量 / 样本。
\(F_\beta\)：\(\beta\) 的经验分布函数（eCDF），即 \(F_\beta(t) = \frac{1}{p} \sum_{j=1}^p I(\beta_j \le t)\)。这是想要但不可直接观测的量，oracle 依赖它，但实际估计中只能靠先验去逼近。
\(G\)：\(\beta\) 各元素的"共同分布"。在分层模型中，假设 \(\beta_j \sim G\)。\(G\) 本身不可观测，是潜在分布。
\(n, p\)：样本量与维数。高维设定下 \(p\) 可以大于 \(n\)，但本文核心理论例子暂不限定 \(p/n\) 比率，重点在 \(p \to \infty\) 时 \(\beta\) 的 eCDF 收敛行为。
模型（数据生成机制）：广义线性模型（GLM）。给定 \(X\) 和 \(\beta\)，\(Y_i\) 的分布属于指数族，条件均值 \(\mu_i = E(Y_i | x_i) = h(x_i^\top \beta)\)，\(h\) 为已知链接函数的反函数。本文要估的是 \(\beta\)，不对 \(\beta\) 的稀疏性或参数族做假设。
可观测数据：研究者实际能观测到的是 \((X, Y)\)，即 \(n\) 个样本对 \((x_i, Y_i)\)。\(\beta\) 是不可观测的固定参数，\(F_\beta\) 与 \(G\) 是不可观测的潜在结构。

第二步：最小内核——正态均值模型下的排列不变 Oracle

整篇论文的数学内核与证明本质，是正态均值模型（Gaussian sequence model）这个特例。GLM 的一般设定只是它的"加壳"（模拟验证了 GLM，但理论最优性证明落在这个特例上）。

最简特例设定：设观测为 \(Z_j = \beta_j + \varepsilon_j\), \(\varepsilon_j \sim N(0, \sigma^2)\), \(j=1,\dots,p\)，各 \(\varepsilon_j\) 独立。\(\sigma^2\) 已知（或可精确估）。此时 \(X=I_p\)，GLM 退化为多重正态均值估计。

Oracle 估计量：定义先验 \(\pi_{\text{perm}}\) 为：对 \(\beta\) 的所有 \(p!\) 种排列赋予相同权重。即 \(\pi_{\text{perm}}(\beta) = \frac{1}{p!} \sum_{\text{perm } \tau} \pi_0(\tau(\beta))\)，其中 \(\pi_0\) 是某个基准先验（如 \(N(0, \tau^2)\)）。由于对称性，该先验对 \(\beta\) 的依赖仅通过其 eCDF \(F_\beta\)（排列不变量）。对应的 Bayes 估计量（后验均值）\(\hat{\beta}_{\text{oracle}}\) 即为本文的理想 contender。

在这个特例下，要证的命题退化成什么： 1. Oracle 的最优性：在正态均值模型下，\(\hat{\beta}_{\text{oracle}}\) 在所有排列不变估计量中，达到最小的 Bayes risk（对某个超先验下的平均风险）。进一步，在频率派框架下，当 \(p \to \infty\) 时，如果真实 \(\beta\) 的 eCDF \(F_\beta\) 趋于某个极限分布 \(F_0\)，则 \(\hat{\beta}_{\text{oracle}}\) 的风险趋于Bayes risk under \(F_0\)，这恰好是已知结构 \(F_0\) 时的最优风险。 2. Polya Tree 逼近：用分层模型 \(\beta_j \sim G\), \(G \sim \text{Polya Tree}\) 代替 oracle。后验均值 \(\hat{\beta}_{\text{PT}}\) 会非参数地自适应于 \(F_\beta\)，从而逼近 \(\hat{\beta}_{\text{oracle}}\)。

证明怎么走、为什么成立（直觉）： - Oracle 证明的核心在于：排列不变先验使得估计量 \(\hat{\beta}_{\text{oracle}}(Z)\) 对 \(Z\) 的所有排列也是不变的，即 \(\hat{\beta}_{\text{oracle}}(\tau(Z)) = \tau(\hat{\beta}_{\text{oracle}}(Z))\)。这种对称性强制估计量只能依赖 \(Z\) 的"秩序统计量"或等价地 \(Z\) 的 eCDF。当 \(p \to \infty\)，\(Z\) 的 eCDF 逼近 \(F_\beta\)（因噪声方差固定且被平均掉），估计量从而"看到"了真实的 \(F_\beta\)，风险趋于已知 \(F_\beta\) 时的最优。 - Polya Tree 逼近的直觉：Polya Tree 是对 \(G\) 的非参数先验，其支撑集包含所有绝对连续分布。当 \(p\) 大时，\(\beta_1, \dots, \beta_p\) 作为 \(G\) 的 i.i.d. 样本提供了关于 \(G\) 的充足信息，Polya Tree 后验会集中在 \(F_\beta\) 附近，从而后验均值模仿了依赖 \(F_\beta\) 的 oracle。

三、这篇论文做了什么¶

三句话： ① 研究了高维 GLM 中不依赖特定结构假设的普适最优正则化估计问题； ② 核心工具是排列不变 oracle 先验与分层 Polya Tree 非参数贝叶斯模型； ③ 主要结论是：oracle 估计量在正态均值模型下具有频率派与贝叶斯最优性，而 Polya Tree 后验均值能非参数自适应逼近该 oracle，数值实验中优于 Lasso 等结构化方法。

关键设定与假设： - GLM 设定：\(Y_i \sim \text{ExponentialFam}(\theta_i)\)，\(\theta_i = x_i^\top \beta\)，\(i=1,\dots,n\)。 - 排列不变先验（Oracle）：\(\pi_{\text{perm}}(\beta) = \frac{1}{p!} \sum_{\tau} \pi_0(\tau(\beta))\)。假设 \(\pi_0\) 是某个基准先验（如 \(N(0, \tau^2)\)），\(\tau\) 遍历所有排列。统计含义：先验认为 \(\beta\) 各元素"地位平等"，无先验偏好哪个坐标更大，只关心它们的整体分布形状。 - 分层 Polya Tree 模型： - 第一层：\(\beta_j \stackrel{\text{i.i.d.}}{\sim} G\), \(j=1,\dots,p\)。 - 第二层：\(G \sim \text{PT}(\Pi, \mathcal{A})\)，其中 \(\Pi\) 是二叉划分树（如基于标准正态分位数的划分），\(\mathcal{A}\) 是 Polya Tree 的浓度参数（通常设 \(\mathcal{A}_k = c \cdot k^2\) 或类似，保证后验一致性）。统计含义：\(G\) 被赋予完全非参数先验，"indefiniteness"（作者原词）意味着不预设 \(G\) 属于任何参数族。 - 相比已有文献的放宽/强化： - 放宽了：不再要求 \(\beta\) 稀疏（vs Lasso/SCAD），不再要求 \(G\) 属于正态混合族（vs Scale Mixture 经验贝叶斯）。 - 强化了：要求 \(\beta_j\) 是 i.i.d. 抽自 \(G\)（这是分层模型的核心假设，频率派视角下这等价于假设 \(\beta\) 的 eCDF 是某个分布的样本版本，对固定 \(\beta\) 这是一个强假设，作者在 intro 中承认这是"working assumption"）。

主要结果： - Theorem 1（Oracle 最优性，正态均值模型）： - 陈述：在 \(Z_j = \beta_j + \varepsilon_j\) 模型下，设 \(\pi_{\text{perm}}\) 为排列不变的 \(N(0, \tau^2)\) 先验。对任意真实 \(\beta\)，当 \(p \to \infty\) 时，\(\hat{\beta}_{\text{oracle}}\) 的频率派风险 \(E_\beta \|\hat{\beta}_{\text{oracle}} - \beta\|^2 / p\) 收敛到 \(R(F_\beta, \tau^2)\)，即已知 \(F_\beta\) 时的 Bayes risk。进一步，对 \(\tau^2\) 赋予超先验并积分后，风险收敛到 \(R(F_\beta)\)，这是已知 \(F_\beta\) 时的最小 Bayes risk（即 Bayes minimax risk under \(F_\beta\)）。 - 直觉：排列不变性强制估计量只看 eCDF，大 \(p\) 时 eCDF 被精确恢复，风险趋于已知分布的最优。 - 必要条件：\(p \to \infty\)，\(\sigma^2\) 固定，\(\beta\) 的 eCDF 趋于极限 \(F_\beta\)（或直接视 \(F_\beta\) 为给定）。 - 解决的技术难点：证明了排列平均先验的后验均值，在 \(p \to \infty\) 时，其风险表达式可以与"已知 \(F_\beta\) 的 Bayes 估计"风险精确等同，这需要利用排列不变估计量的对称性将 \(p\) 维风险问题降维到对 eCDF 的 1 维问题。

Theorem 2 / Proposition（Polya Tree 后验自适应）：
陈述：在分层模型 \(\beta_j \sim G\), \(G \sim \text{PT}\) 下，当 \(p \to \infty\) 时，\(G\) 的后验分布集中在真实 \(F_\beta\) 的邻域内（后验一致性），且 \(\beta\) 的后验均值 \(\hat{\beta}_{\text{PT}}\) 的风险逼近 Theorem 1 中的 oracle 风险。
直觉：\(\beta_1, \dots, \beta_p\) 是 \(G\) 的 i.i.d. 样本，Polya Tree 作为非参数先验，在大样本下后验收敛到真实 \(G\)（即 \(F_\beta\) 的极限），从而后验均值模仿了依赖 \(F_\beta\) 的 oracle。
必要条件：Polya Tree 的划分 \(\Pi\) 与浓度 \(\mathcal{A}\) 需满足后验一致性条件（如 \(\mathcal{A}_k\) 增长足够快以控制方差，但不过快导致先验过度集中在划分边界）。

证明路线与技术技巧： - 整体路线（Theorem 1）： 1. 定义排列不变先验 \(\pi_{\text{perm}}\)，写出后验均值 \(\hat{\beta}_{\text{oracle}}(Z)\) 的表达式。 2. 利用排列不变性，证明 \(\hat{\beta}_{\text{oracle}}\) 可重写为只依赖 \(Z\) 的秩序统计量 \((Z_{(1)}, \dots, Z_{(p)})\) 的函数。 3. 在 \(p \to \infty\) 下，利用 \(Z\) 的秩序统计量的渐近理论（或 eCDF 的 Glivenko-Cantelli 性质），证明 \(Z\) 的 eCDF 逼近 \(\beta\) 的 eCDF 加噪声分布的卷积。 4. 通过卷积的逆（deconvolution）或直接利用 Bayes 公式的对称性，证明后验均值的风险退化为已知 \(F_\beta\) 时的 Bayes risk。 - 关键跳跃点： - 从"排列平均后验均值"到"只依赖 eCDF"的等价重写，这是证明的核心引理。难点在于排列平均涉及 \(p!\) 项求和，直接计算不可行；作者利用对称性将求和化为对秩序统计量的依赖，绕过了组合爆炸。 - 从"依赖 \(Z\) 的 eCDF"到"风险等于已知 \(F_\beta\) 的 Bayes risk"的渐近等价，需要证明当 \(p \to \infty\) 时，估计量"看穿"了噪声，恢复了 \(F_\beta\)。这依赖于正态均值模型下 eCDF 的收敛速率与 deconvolution 的稳定性。 - 技术技巧点名： - 排列群对称性 / 重排公式：用于将 \(p!\) 项后验均值求和简化为秩序统计量的函数，解决计算不可行问题。 - Glivenko-Cantelli / Donsker 类：用于证明 \(Z\) 的 eCDF 对 \(F_\beta\) 卷积噪声的收敛，是渐近风险分析的基石。 - Polya Tree 后验一致性：利用 Lavine (1992, 1994) 的经典结果，保证 \(G\) 的后验在 \(p \to \infty\) 时集中在真实分布，这是 Theorem 2 的技术支撑。 - Deconvolution 隐式使用：在正态均值模型下，从 \(Z\) 的 eCDF 恢复 \(F_\beta\) 等价于信号分布的 deconvolution，作者在风险极限的证明中隐式利用了正态噪声下 deconvolution 的渐近稳定性。

真实例子与应用： - 模拟实验： - 场景：正态均值模型与高维 Logistic/Poisson GLM。\(\beta\) 的真实分布设定为多种情况：稀疏（少数大信号）、稠密小信号（许多小 \(\beta_j\)）、重尾（Cauchy 分布抽样）、双峰（两个正态混合）。 - 怎么用上去：对每种 \(\beta\) 分布，生成 \(X\)（部分独立正态设计，部分相关设计），计算 \(Y\)，然后用本文的 Polya Tree 分层模型（MCMC 采样后验均值）得到 \(\hat{\beta}_{\text{PT}}\)。 - 对比 baseline：Lasso (\(L_1\))、SCAD、Spike-and-Slab Lasso、参数化 Scale Mixture of Normals 经验贝叶斯、独立 \(N(0, \tau^2)\) Bayes。 - 结果：在稀疏设定下，\(\hat{\beta}_{\text{PT}}\) 与 Spike-and-Slab Lasso 接近，略逊于 Lasso（因 Lasso 恰好匹配稀疏假设）；在稠密小信号与重尾设定下，\(\hat{\beta}_{\text{PT}}\) 在 MSE 与预测误差上显著优于所有 \(L_p\) 惩罚与参数化贝叶斯方法，验证了非参数自适应的优势。 - 想说明什么：验证 Polya Tree 方法在非稀疏、非标准分布下的普适优越性，同时承认在强稀疏下不占优（这是"普适最优"的代价：不预设稀疏，故在强稀疏下无法利用稀疏结构的超收敛速率）。

🔎 结论是否比证明窄： - 论文标题与摘要声称在"高维 GLM"下提出方法，但 Theorem 1 的最优性证明仅在正态均值模型（\(X=I\), 正态噪声）下给出。从正态均值到一般 GLM 的理论跨越，在正文中未给出严格证明，仅通过模拟验证。这是一个明确的"证明窄于 claim"的点：作者在 GLM 下的最优性是 conjecture / empirical claim，而非定理保证。 - Polya Tree 后验自适应的 Theorem 2，其严格陈述与证明也主要在正态均值模型或 \(\beta_j \sim G\) 的 i.i.d. 设定下完成，对于 GLM 中 \(X\) 非单位阵、链接函数非线性的情况，后验集中性的理论保证未明确给出。

四、开放问题（点到为止，扎根具体语句）¶

GLM 下的 oracle 最优性与 Polya Tree 逼近速率：Theorem 1 仅在正态均值模型下证明了 oracle 的频率派最优性。在一般 GLM（\(X\) 任意、链接函数非线性）下，排列不变 oracle 的风险极限是否仍等于已知 \(F_\beta\) 的 Bayes minimax risk？Polya Tree 后验的逼近速率（convergence rate of \(\hat{\beta}_{\text{PT}}\) to oracle）是多少？扎根点：Theorem 1 的陈述与证明仅覆盖 \(Z_j = \beta_j + \varepsilon_j\)，intro 第 X 段声称"we consider the problem in a given GLM"但未给出 GLM 下的对应定理。
\(\beta_j \sim G\) 的 i.i.d. 假设的频率派解释与放松：分层模型假设 \(\beta_j \stackrel{\text{i.i.d.}}{\sim} G\)，但对固定 \(\beta\) 这只是一个 working assumption。当 \(\beta\) 的 eCDF 不趋于任何平滑极限分布（如 \(\beta\) 有刻意设计的非 i.i.d. 结构，如分组效应）时，Polya Tree 后验是否仍能逼近 oracle？扎根点：intro 中作者承认 "modeling the coefficients as i.i.d. draws from a common distribution is a working assumption"，但未分析其失效的后果。
与频率派 minimax 自适应理论的对接：本文的 oracle 风险极限是 Bayes minimax risk under \(F_\beta\)，但在极稀疏（\(\beta\) 只有 \(k\) 个非零，\(k/p \to 0\)）设定下，已知频率派 minimax 速率（如 \(k \log p / n\)）与 Bayes minimax risk 可能不同。本文方法在极稀疏下的速率是否达到频率派 minimax？扎根点：模拟中承认在稀疏下略逊于 Lasso，但未给出理论速率分析。
Dirichlet Process Mixtures (DPM) vs Polya Tree 的理论对比：Intro 与正文均未讨论 DPM 作为 \(G\) 的非参数先验的替代。DPM 在估计密度时后验收敛速率已知（\(n^{-1/2}\) 或更慢），而 Polya Tree 在适当划分下可达更快速率。本文选择 Polya Tree 是否有理论必然性（如速率优势），还是计算便利？扎根点：全文未引用 DPM 相关文献（如 Escobar & West 1995, Ghosal et al. 1999），这是一个值得研究者去查的空白——去读同子领域近期约 5 篇的 intro，看非参数贝叶斯收缩估计中 DPM 与 Polya Tree 的对比是否已成共识。

Maintained by 陈星宇 · Homepage · Source on GitHub

Nonparametric Shrinkage Estimation in High Dimensional Glms via Polya Trees¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论