Posterior consistency of P\'olya trees for deconvolution under the linear model¶

作者: Nakul Shenoy, Asaf Weinstein
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.11406

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么：本子方向研究的是非参数贝叶斯（去卷积）后验一致性。具体而言，在线性回归模型 Y = Xβ + ε 中，每个系数 β_j 被假定为独立同分布于一个未知分布 G_0（即“先验在先验”或empirical Bayes设定），目标是从含噪观测 Y 中估计 G_0 的密度 g_0。该问题的核心统计困难在于：似然函数 L(Y|β) 耦合了所有系数（Y的每个分量依赖整个β向量），因此去卷积比经典的序列模型（每个Y_i只对应自己的β_i）更难。本文研究的是：当采用 Pólya tree (PT) 先验对这个未知密度 g_0 建模时，后验分布 Π(·|Y) 是否能在 sup-norm 下收敛到真实的 g_0（即后验一致性）。该方向当前的成熟度：在序列模型（直接观测β）下已有结果（Castillo, 2017），在回归模型（含噪观测Y）下此前没有任何理论保证——本文是第一个。
发展脉络（history）：这一领域的文献可被串成一条从序列模型到回归模型的脉络：
奠基工作——序列模型下的贝叶斯非参数方法：
- Antoniak (1974)：首次提出用 Dirichlet 过程混合来实现序列模型下的贝叶斯去卷积。
- Lo (1984)：将上述框架一般化，给出了后验密度估计的通用形式。
- Lavine (1994)：引入 Pólya tree 先验，发现其解析后验（在 PT 与序列模型下）可计算，且 PT 可以使 G 几乎必然有密度——这比 Dirichlet 过程更适合连续分布。
- Castillo (2017)：在序列模型（直接观测β_j）下，严格证明了 truncated Pólya tree 的后验在 sup-norm 下的收缩速率。这是本文最直接的基准。
从序列模型到回归模型——方法层面：
- Kim et al. (2024)：在回归模型（4）下，将 G_0 建模为尺度混合 Gaussian，用 variational Bayes（naive mean-field）近似后验。他们证明了方法能简化计算，但没有给出后验一致性的理论保证。作者定位：Kim et al. 的方法在强相关协变量下可能不准确。
- Mukherjee et al. (2023)：分析了 Kim et al. 方法的一个变体，在一定假设下建立了 NPMLE 和该估计量的一致性，但仍使用 mean-field 近似。
- Fan et al. (2023)：针对关联协变量，提出一种更复杂的 NPMLE 近似方法（gradient flow + MCMC），并证明该估计量在比 Mukherjee et al. 更宽松的 X 条件下收敛到 NPMLE。作者定位：Fan et al. 的目标是近似 NPMLE，而非贝叶斯后验。
本文的位置：
- Weinstein et al. (2025)（本文的姊妹篇）提出了“在回归模型中使用 truncated Pólya tree 先验”的实际方法，包含 MCMC Gibbs Sampler 算法并展示了仿真优势。
- 本文（Shenoy & Weinstein, 2026） 的任务是为 Weinstein et al. (2025) 的方法提供严格的后验一致性理论。这是该子方向的第一个后验一致性结果。其核心思想是将 Castillo (2017) 从“直接观测 β ”推广到“通过含噪线性模型观测 Y”，并展示当 X 的条件数（通过 λ_min）足够好时，这个困难场景的收敛速率可以回到 Castillo 的基准速率。
子线索聚类：这些被引文献大致落在以下 3 条子线索上：
序列模型下的贝叶斯/ EB 去卷积（方法 + 理论）：Antoniak (1974)，Lo (1984)，Lavine (1994)，Castillo (2017)，Rousseau & Scricciolo (2024)。核心是在 Y_j | β_j 是独立同分布的条件下工作。
回归模型下的 EB / variational 去卷积（方法 + 近似理论）：Kim et al. (2024)，Mukherjee et al. (2023)，Fan et al. (2023)。核心是用 variational / 梯度流等手段绕过 NPMLE 的计算困难，并向 NPMLE 保证一致性。
回归模型下的贝叶斯去卷积（方法 + 理论）：Weinstein et al. (2025)，以及本文。核心是用 truncated Pólya tree 先验，并用 Bayesian 框架实现后验推断，如今刚有了后验一致性的理论。
这个方向在追问的核心问题：
对哪个目标能够后验一致？——密度 g_0 的 sup-norm 收敛（本文），还是分布 G_0 的 Wasserstein 收敛（Rousseau & Scricciolo, 2024，但限于序列模型），或是系数向量 β_0 的 ℓ_2 收敛（本文 Corollary 4.3）。
可允许的 truncation depth L 受什么因素限制？——直接观测 β 时只受 bias-variance 约束；含噪观测 Y 时，还需受“从 Y 恢复 β 的精度”（通过 λ_min(X^⊤X)）的额外制约。这就是本文的核心创新。
后验收敛速率是否 minimax 最优？——本文没有回答；Castillo (2017) 在序列模型下的 PT 后验收敛速率是 minimax 最优的吗？这仍是开放问题。
在序列模型（X = I_n）下 PT 后验能否一致？——本文证明策略失效（见 Remark 4.4），但作者并未声称后验不一致，只说“需要不同的论证”。这是遗留的明显缺口。
⚠️ 作者的 framing：
作者把缺口 frame 成什么：作者说：“先前关于后验一致性的工作只限于序列模型”（Rousseau & Scricciolo, 2024），而回归模型“本质不同且更难分析”——这个难度是 foundation。他们声称这个缺口由本文填补。
哪些竞争路线被他淡化或回避了：
- Kim et al. (2024) 和 Mukherjee et al. (2023) 的方法也被作者称为“variational EB”，他们得到了 NPMLE 的一致性（在回归模型下），而作者得到的是后验一致性。但作者没有讨论哪种 guarantee 对实践更有价值，也没有比较两种方法在相同条件下的经验表现。
- Fan et al. (2023) 的目标也是回归模型下的 EB 估计，他们的估计量收敛到 NPMLE。作者呈现时只说“我们的方法不同”，但没有说明为什么需要 Bayesan 后验一致性 over 和 NPMLE 的一致性。
什么明显该被引 / 该存在、却没出现在 intro 里？：
- 没有引用任何关于后验收敛速率的下界（minimax 下界）的工作，比如 Ghosal & van der Vaart (2007) 或最近关于“贝叶斯后验 minimax 率”的文章。这暗示作者不关心自己速率的 optimality。
- 没有引用任何关于序列模型 PT 后验收敛速率是否达到 minimax 的工作——如果那已经是已知的，则作者可以声称在 L_noise 不 active 时恢复了这个最优率；反之如果非最优，则本文的速率也不是最优的。
张力：
未见明显对立引用。所有被引文献都同意回归模型比序列模型更难，且一致认为 PT 后验在序列模型下是可处理的。唯一的张力是：Kim et al./Mukherjee et al. 的 variational 方法 vs 本文的 full-Bayes MCMC 方法各自的实践表现（可计算性 vs 理论保证）——作者在 intro 中轻描淡写地处理了，只提到后者的不足是“关联协变量时不准确”，但没提供比较性指标。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：把符号、模型、可观测数据交代清楚
符号：
- n —— 系数向量维度（= β 的个数，也被视为“样本量”）。
- m —— 观测向量 Y 的维度（= 观测次数）。
- X ∈ ℝ^(m×n) —— 固定设计矩阵，列满秩。
- σ² —— 噪声方差（已知）。
- β₀ ∈ ℝ^n —— 真实系数向量，其分量 β₀ⱼ 是 i.i.d. 从真实分布 G₀ 抽出。
- Y ∈ ℝ^m —— 观测向量，满足 Y = Xβ₀ + ε, ε ~ N(0, σ² I_m)。
- G₀ —— 未知的混合分布，有密度 g₀，支撑在已知紧区间 [a, b] 上。
- L = L(m,n) —— Pólya tree 的截断深度（正整数）。
- Π_L —— 定义在密度 g（支撑在 [a,b] 上）上的 level-L truncated Pólya tree 先验。
- Π_L(·|Y) —— 在 working model 下，基于 Y 的后验分布（对 g）。
- Π_{L,β}(·|Y) —— 同样 working model 下，基于 Y 的系数向量 β 的后验分布。
- I^l_k —— 第 l 层 (l=0,...,L)，第 k 个 (k=0,...,2^l-1) 的二进区间。例：I^0_0 = [a,b]，I^1_0 = [a, (a+b)/2]，I^1_1 = [(a+b)/2, b]。
- N_β(I^l_k) —— 向量 β 落入区间 I^l_k 的坐标个数（“bin count”）。
- ε_n(L) —— 由 bias 项和 variance 项构成的收缩尺度： ε_n(L) := (b-a)^α 2^{-αL} + (b-a)^{-1} sqrt( (L 2^L) / n )。第一项是近似误差，第二项是随机误差。
模型：
- 真实生成模型（频率派）：β₀ ~ ∏_{j=1}^n g₀(β₀ⱼ)，然后 Y | β₀ ~ N(Xβ₀, σ² I_m)。
- 工作贝叶斯模型（用于推断）：g ~ Π_L (truncated Pólya tree prior)；β_j | g ~ g；Y | β ~ N(Xβ, σ² I_m)。注意：在这个工作模型下，β 和 Y 不是条件独立于 g 的；Y 通过 β 与 g 耦合。
可观测数据：
- 研究者能观测到的是：Y（长度 m 的向量）和设计矩阵 X。β₀ 是不可观测的（latent）。g₀ 是目标参数（some functional of G₀）但完全未知且被视为固定。σ² 已知。
- 想要但观测不到的是：系数向量 β₀、真实密度 g₀、以及任何含 β₀ 的 bin 计数。
第二步：讲最小内核（剥去一般性假设，找出支撑整篇论文的最小内核）

最简特例：考虑 m = n，X = I_n（即序列模型的特例）。此时 Y_j = β₀ⱼ + ε_j，每个 β 被一个独立噪声观测一次。但作者在 Remark 4.4 中指出他们的证明策略对这个特例失败。因此这不是本文殊途同归的例子。

最小内核（不依赖 X 的比序列更好的假设）：核心思想是把困难场景“通过 Y 恢复 β 的统计精度”量化为：

定理目标的核心命题：在某个截断深度 L 下，后验分布 Π_L(g | Y) 应主要集中在 g₀ 附近的 ε_n(L)-球内部。

这个命题在“最小内核”中退化成什么？：假设 λ_min(X^⊤X) ≥ c·m（即设计强列可辨识——即使 X 不是 I_n，但条件数可控）。那么， - 后验对 β 能实现 ℓ₂ 收缩到半径 ~ σ sqrt( n / (c m) )（Proposition C.1）。 - 选择 L 使得这个半径足够小以保证 β 的 bin count 在扰动下保持稳定（Lemma B.2 + Lemma B.3）。 - 一旦 bin count 稳定，Castillo (2017) 的直接观测基准就可以直接应用。

极端地说，**这个理论的核心可以简洁地表述为：如果从 Y 恢复 β 的精度足够高（即 ℓ₂ 误差 << 2^{-L/2}），那么 PT 后验在回归模型下的收缩率就与直接观测 β_j 时一样。这是本文唯一的、真正吃劲的命题。它的难度在于要证明“恢复精度足够高”和“bin count 稳定性”之间的精确依赖，以及如何协调 L_obs 和 L_Cast 两个约束。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话： ① 研究了什么问题：在线性回归模型 Y = Xβ₀ + ε（β₀ 的分量 i.i.d. 来自未知密度 g₀）设定下，证明了用 truncated Pólya tree 先验得到的 g 的后验分布 Π_L(·|Y) 在 sup-norm 下一致地集中于真实 g₀。 ② 核心工具/方法：将 Castillo (2017) 的 PT 后验一致性结果（直接观测 β₀）作为基准，并利用后验 ℓ₂ 收缩（对 β）与 bin-count 稳定性引理将回归模型“翻译”为直接观测问题，通过限制截断深度 L ≤ min{L_Cast, L_noise} 来协调 bias-variance 与回归恢复精度。 ③ 主要结论（定理 4.2 & 推论 4.5）：在 λ_min(X^⊤X) 足够大、m,n→∞ 且 L→∞ 时，后验的期望在 sup-norm 收敛于 g₀，速率为 ε_n(L)（与直接观测 Castillo 基准相同）。对于随机 Gaussian 设计，若 m / (σ² n^{3/2}) → ∞，则相同的收缩成立。
关键设定与假设：
g₀ 的假设：
1. g₀ 支撑在已知紧区间 [a,b] 上。
2. g₀ 是 α-Hölder 光滑（α∈(0,1]），且被上下界 m₀, M₀ 隔离于 0（即 g₀(x) ≥ m₀ > 0）。
3. g₀ 有界（g₀ ≤ M₀ < ∞）。这些假设保证了 g₀ 与均匀区间上的 Haar 基展开可控，并且其 dyadic 近似误差是有界的。相比 Castillo (2017)，这些假设完全相同。
X 的假设：
1. X ∈ ℝ^(m×n) 列满秩。
2. λ_min(X^⊤X) 足够大（通过 L_noise 的定义，要求 λ_min / (σ² n^{3/2}) 足够大）。这些假设比序列模型（λ_min = 1 但 m=n）更严格，因为后者导致 L_noise 不增长（见 Remark 4.4）。
噪声方差 σ²：已知，允许依赖于 (m,n)（这种依赖没有显式放于符号中）。
截断深度 L：由 L_Cast 和 L_noise 取最小值确定。L_Cast 由 n 与 α 决定；L_noise 由 λ_min / (σ² n^{3/2}) 决定。
主要结果：
定理 4.2 (确定性设计)：设 L = min{L_Cast, L_noise}。若 L→∞ 且 L_noise 条件满足，则存在常数 C₀ > 0 使得 E_g₀[ Π_L(∥g - g₀∥_∞ > C₀ ε_n(L) | Y) ] → 0。
推论 4.3 (系数向量的 ℓ₂ 误差)：假设 g₀ 有界，且 σ² (n + 2^L log(n+1)) / λ_min(X^⊤X) → 0，则 E_g₀[ ∥\hat{β}(Y) - β₀∥²₂ ] → 0。这个推论不要求用到 L_min 的选择；它只要求 X 的条件数足够好。它与后验一致性（定理 4.2）是两个独立的结论：β 收缩是定理 4.2 证明中使用的技巧，但是推论 4.3 的标准形式可以单独成立。
推论 4.5 (随机 Gaussian 设计)：若 X 的行 i.i.d. Gaussian，且 m/(σ² n^{3/2}) → ∞，则相同的后验收缩在 P_X 概率下成立。其中关键是 Lemma D.1 保证了在 m ≥ Γ n 时，λ_min(X^⊤X) ≳ m 以高概率成立。
速率说明：
- 当 L_noise ≥ L_Cast（即回归模型的恢复精度不是瓶颈），L = L_Cast，速率退化为 Castillo (2017) 的基准率。这种情况下，回归模型没有损失。
- 当 L_noise < L_Cast（回归模型是瓶颈），L = L_noise，此时 β 恢复精度限制了可用的分辨水平，收缩率比直接观测更慢。但作者没有显式写出 L_noise 的具体衰减形式（写成了 λ_min / (σ² n^{3/2}) 的隐含不等式）。
证明路线与技术技巧（理论型必写，要具体）：

整体路线（5 步逻辑主干）： 1. 后验混合分解（Lemma B.1）： Π_L(T_g | Y) = ∫ Π_L(T_g | β) Π_{L,β}(dβ | Y) ≤ sup_{β∈B₁} Π_L(T_g | β) + Π_{L,β}(β ∉ B₁ | Y)。将问题分解为两部分：直接观测基准的控制（用 Castillo 的定理 4.1）和 β 的不在“好 bin-count 集合”B₁ 的后验尾巴。 2. 从 β 不在 B₁ 到 ℓ₂ 控制：定义“好”集合 B₀（β₀ 的经验 bin 计数接近其期望）与 B₁（放大系数 M）。利用不等式 |N_β(I) - N_{β₀}(I)| ≤ N_{β₀}(边界带) + ∥β - β₀∥²₂ / τ²（Lemma B.2）。选择合适的 τ_l = c_τ R_l / n（R_l = max{sqrt((l+L) n 2^{-l}), l+L}），再控制边界带计数用 Bernstein 不等式（Lemma B.3），最终将事件 {β ∉ B₁} 简化为 {∥β - β₀∥²₂ > a_L}，其中 a_L ≳ L^{3/2} / (n^{1/2} 2^{3L/2})。 3. 后验 ℓ₂ 收缩（Proposition C.1）：表明在 MCMC 工作模型下，给定 Y 后 β 的后验集中于半径 ~ σ sqrt{ (n + 2^L log(n+1)) / λ_min(X^⊤X) } 的球内。 - 该命题的证明技巧：推导先验密度 π_{L,β}(β) 的下界（式 (32)），然后进行“预测范数”收缩，最后通过 λ_min 转换为 ℓ₂ 范数。 - 关键引理：π_{L,β}(β) ≥ B^{-n} (n+1)^{-2^L}（式 (32)）。 4. 结合选择 L：由 L ≤ L_noise 的定义，该 ℓ₂ 半径 ≤ a_L^{1/2}。因此 β 的后验几乎全部落入 B₁，从而 E[ Π_{L,β}(β ∉ B₁ | Y) ] → 0。 5. 结论：由 Castillo 的直接观测基准（定理 4.1）控制 sup_{β∈B₁} Π_L(T_g | β)，组合即得 E[ Π_L(T_g | Y) ] → 0。

关键跳跃点： - Lemma B.2 与 B.3：是使 β 的 ℓ₂ 精度与 bin-count 精度之间“翻译”的核心技巧。难点在于确定 τ_l 与 R_l 的合理比例，使边界带计数可忽略且 ℓ₂ 稳定阈值 a_L 达到需要的上界。 - π_{L,β} 的下界（式 (32)）：独立于 g₀ 的简洁形式 B^{-n}(n+1)^{-2^L}——这使得从工作模型到真实模型的概率上界（change of measure）成为可能，且不需要对 g₀ 的支撑做额外假设。 - L_noise 的定义：2^{3L/2}/L^{3/2} ≤ c_noise * λ_min/(σ² n^{3/2})。这个不等式的形式是专门为让 ℓ₂ 半径 ≤ a_L^{1/2} 定制的，体现了 β 恢复精度（λ_min/(σ² n^{3/2})）与分辨水平（2^{L/2}）之间的 trade-off。

技术技巧点名： - 直接观测基准（Castillo 2017）本身的技巧：Haar 基展开 + Beta 后验的 tail bound（Lemma A.5）+ 乘积 bound（Lemma A.4）。这些都被重用在附录 A，证明定理 4.1。 - Empirical process + Bernstein 不等式：用于控制边界带的计数（Lemma B.3）— R_l 里的 sqrt(l+L)n2^{-l} 就是 Bernstein 方差上界。 - Change of measure (importance sampling)：在 Proposition C.1 步骤 3 中，用 q₀(β)/π_{L,β}(β) 将工作模型下的后验 tail bound 转移到真实模型下。 - χ² tail bound (Markov + exponential moment)：使用 E e^{S/4} = 2^{n/2} 得到 P(χ²_n > x) ≤ e^{-x/4} 2^{n/2}。

真实例子与应用： 本文为纯理论，无实证例子。所有结果都是定理与推论。Weinstein et al. (2025) 有仿真，但本文只引用了他们的仿真，没重复。
🔎 结论是否比证明窄：
定理 4.2 被证明在“确定性设计 + λ_min 足够大”的条件下。但结论在“随机 Gaussian 设计”（推论 4.5）中被扩展到“以高概率成立”。这是证明直接支持的泛化——Lemma D.1 保证 λ_min ≳ m 以高概率成立，而定理 4.2 对该 λ_min 的条件作出反应。因此结论没有超出证明的范围。
Remark 4.4 明确指出：当 X = I_n（序列模型）时，“theorem does not yield a consistency result”。作者说“not so say that the PT posterior is inconsistent… only that the present proof strategy does not apply”。这是一个严谨的 limitation statement，没有被泛化 claim 为该设定下后验不可能一致。
推论 4.3（β 的 ℓ₂ 一致）使用的是与定理 4.2 相同的 L，但其条件 σ² (n+2^L log(n+1))/λ_min → 0 在定理 4.2 的 L 下可能自动成立，但作者独立验证了它——也就是说没有 claim β 收缩一定在 L_min 选择下成立（它确实成立了，但形式不同）。
无效率对比与 minimax 结论：作者没有声称收缩率是最优的（rates are tight），甚至在直接观测 Castillo (2017) 的基准下也是如此。这已被明确标注为 future work。

四、开放问题（点到为止，扎根具体语句）¶

序列模型下 PT 后验一致性的理论缺失（扎根于 Remark 4.4）： “the theorem does not yield a consistency result in that case… a different argument is required.” 即：X = I_n、固定 σ²、m=n 时，如何才能证明（或证伪）Pólya tree 后验在 sup-norm 下一致？这需要完全避开本文基于 ℓ₂ 收缩的论证路线，可能需要不同的策略（如直接在边际似然空间上工作，或利用序列模型的特殊稀疏性）。
速率的 minimax 最优性（扎根于定理 4.2 的无下界讨论）：对于给定的 α-Hölder 光滑的 g₀，序列模型下的 minimax 收敛率是多少？本文给出的直接观测基准速率 ε_n(L) 是否达到这个 minimax 率？这需要构造 minimax 下界（具体到 Pólya tree 估计量 vs 任意估计量）。如果直接观测基准率达不到 minimax，那么回归模型（L_noise 起主导时）的速率也会 suboptimal。
噪声方差 σ² 未知时的扩展（扎根于全文设定）：全文假定 σ² 已知。但在实际回归中，σ² 往往未知。若 σ² 不已知，L_noise 定义中的 λ_min/(σ² n^{3/2}) 必须估计。能否设计一个数据自适应的方法选择 L（如用 DIC / WAIC），同时保持后验一致性？
支撑非紧情形（扎根于第一节 “compact interval [a,b]”）：如果 g₀ 的支撑不是已知紧区间（例如全实线），truncated Pólya tree 无法直接应用。可以通过用一个覆盖全实线的嵌套区间序列来扩展吗？这对于实际应用（如基因关联分析）非常重要。
更高阶的线性模型（扎根于本文只研究线性模型）：对于广义线性模型（如 logistic regression）下的 PT 去卷积，Weinstein et al. (2025) 有仿真，但没有理论。后验一致性在那里是否会需要完全不同的论证（例如需要用 Pólya tree 先验的性质结合 logistc 似然函数的局部 Lipschitz 性质）？

Maintained by 陈星宇 · Homepage · Source on GitHub

Posterior consistency of P\'olya trees for deconvolution under the linear model¶

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

三、这篇论文做了什么（本次重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论