Posterior consistency of P\'olya trees for deconvolution under the linear model¶
作者: Nakul Shenoy, Asaf Weinstein
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.11406
一、领域脉络与小综述(从 introduction + 参考文献 + 已检索摘要构建)¶
-
这个方向是什么:本子方向研究的是非参数贝叶斯(去卷积)后验一致性。具体而言,在线性回归模型
Y = Xβ + ε中,每个系数β_j被假定为独立同分布于一个未知分布G_0(即“先验在先验”或empirical Bayes设定),目标是从含噪观测Y中估计G_0的密度g_0。该问题的核心统计困难在于:似然函数L(Y|β)耦合了所有系数(Y的每个分量依赖整个β向量),因此去卷积比经典的序列模型(每个Y_i只对应自己的β_i)更难。本文研究的是:当采用 Pólya tree (PT) 先验对这个未知密度g_0建模时,后验分布Π(·|Y)是否能在 sup-norm 下收敛到真实的g_0(即后验一致性)。该方向当前的成熟度:在序列模型(直接观测β)下已有结果(Castillo, 2017),在回归模型(含噪观测Y)下此前没有任何理论保证——本文是第一个。 -
发展脉络(history): 这一领域的文献可被串成一条从序列模型到回归模型的脉络:
-
奠基工作——序列模型下的贝叶斯非参数方法:
- Antoniak (1974):首次提出用 Dirichlet 过程混合来实现序列模型下的贝叶斯去卷积。
- Lo (1984):将上述框架一般化,给出了后验密度估计的通用形式。
- Lavine (1994):引入 Pólya tree 先验,发现其解析后验(在 PT 与序列模型下)可计算,且 PT 可以使 G 几乎必然有密度——这比 Dirichlet 过程更适合连续分布。
- Castillo (2017):在序列模型(直接观测β_j)下,严格证明了 truncated Pólya tree 的后验在 sup-norm 下的收缩速率。这是本文最直接的基准。
- 从序列模型到回归模型——方法层面:
- Kim et al. (2024):在回归模型(4)下,将
G_0建模为尺度混合 Gaussian,用 variational Bayes(naive mean-field)近似后验。他们证明了方法能简化计算,但没有给出后验一致性的理论保证。作者定位:Kim et al. 的方法在强相关协变量下可能不准确。 - Mukherjee et al. (2023):分析了 Kim et al. 方法的一个变体,在一定假设下建立了 NPMLE 和该估计量的一致性,但仍使用 mean-field 近似。
- Fan et al. (2023):针对关联协变量,提出一种更复杂的 NPMLE 近似方法(gradient flow + MCMC),并证明该估计量在比 Mukherjee et al. 更宽松的 X 条件下收敛到 NPMLE。作者定位:Fan et al. 的目标是近似 NPMLE,而非贝叶斯后验。
- Kim et al. (2024):在回归模型(4)下,将
-
本文的位置:
- Weinstein et al. (2025)(本文的姊妹篇)提出了“在回归模型中使用 truncated Pólya tree 先验”的实际方法,包含 MCMC Gibbs Sampler 算法并展示了仿真优势。
- 本文(Shenoy & Weinstein, 2026) 的任务是为 Weinstein et al. (2025) 的方法提供严格的后验一致性理论。这是该子方向的第一个后验一致性结果。其核心思想是将 Castillo (2017) 从“直接观测 β ”推广到“通过含噪线性模型观测 Y”,并展示当 X 的条件数(通过 λ_min)足够好时,这个困难场景的收敛速率可以回到 Castillo 的基准速率。
-
子线索聚类: 这些被引文献大致落在以下 3 条子线索上:
-
序列模型下的贝叶斯/ EB 去卷积(方法 + 理论):Antoniak (1974),Lo (1984),Lavine (1994),Castillo (2017),Rousseau & Scricciolo (2024)。核心是在 Y_j | β_j 是独立同分布的条件下工作。
- 回归模型下的 EB / variational 去卷积(方法 + 近似理论):Kim et al. (2024),Mukherjee et al. (2023),Fan et al. (2023)。核心是用 variational / 梯度流等手段绕过 NPMLE 的计算困难,并向 NPMLE 保证一致性。
-
回归模型下的贝叶斯去卷积(方法 + 理论):Weinstein et al. (2025),以及本文。核心是用 truncated Pólya tree 先验,并用 Bayesian 框架实现后验推断,如今刚有了后验一致性的理论。
-
这个方向在追问的核心问题:
- 对哪个目标能够后验一致?——密度 g_0 的 sup-norm 收敛(本文),还是分布 G_0 的 Wasserstein 收敛(Rousseau & Scricciolo, 2024,但限于序列模型),或是系数向量 β_0 的 ℓ_2 收敛(本文 Corollary 4.3)。
- 可允许的 truncation depth L 受什么因素限制?——直接观测 β 时只受 bias-variance 约束;含噪观测 Y 时,还需受“从 Y 恢复 β 的精度”(通过 λ_min(X^⊤X))的额外制约。这就是本文的核心创新。
- 后验收敛速率是否 minimax 最优?——本文没有回答;Castillo (2017) 在序列模型下的 PT 后验收敛速率是 minimax 最优的吗?这仍是开放问题。
-
在序列模型(X = I_n)下 PT 后验能否一致?——本文证明策略失效(见 Remark 4.4),但作者并未声称后验不一致,只说“需要不同的论证”。这是遗留的明显缺口。
-
⚠️ 作者的 framing:
- 作者把缺口 frame 成什么:作者说:“先前关于后验一致性的工作只限于序列模型”(Rousseau & Scricciolo, 2024),而回归模型“本质不同且更难分析”——这个难度是 foundation。他们声称这个缺口由本文填补。
- 哪些竞争路线被他淡化或回避了:
- Kim et al. (2024) 和 Mukherjee et al. (2023) 的方法也被作者称为“variational EB”,他们得到了 NPMLE 的一致性(在回归模型下),而作者得到的是后验一致性。但作者没有讨论哪种 guarantee 对实践更有价值,也没有比较两种方法在相同条件下的经验表现。
- Fan et al. (2023) 的目标也是回归模型下的 EB 估计,他们的估计量收敛到 NPMLE。作者呈现时只说“我们的方法不同”,但没有说明为什么需要 Bayesan 后验一致性 over 和 NPMLE 的一致性。
-
什么明显该被引 / 该存在、却没出现在 intro 里?:
- 没有引用任何关于后验收敛速率的下界(minimax 下界)的工作,比如 Ghosal & van der Vaart (2007) 或最近关于“贝叶斯后验 minimax 率”的文章。这暗示作者不关心自己速率的 optimality。
- 没有引用任何关于序列模型 PT 后验收敛速率是否达到 minimax 的工作——如果那已经是已知的,则作者可以声称在 L_noise 不 active 时恢复了这个最优率;反之如果非最优,则本文的速率也不是最优的。
-
张力:
- 未见明显对立引用。所有被引文献都同意回归模型比序列模型更难,且一致认为 PT 后验在序列模型下是可处理的。唯一的张力是:Kim et al./Mukherjee et al. 的 variational 方法 vs 本文的 full-Bayes MCMC 方法各自的实践表现(可计算性 vs 理论保证)——作者在 intro 中轻描淡写地处理了,只提到后者的不足是“关联协变量时不准确”,但没提供比较性指标。
二、最核心、最简单的例子 / 数学问题(先把符号 / 模型 / 可观测数据交代清楚)¶
-
第一步:把符号、模型、可观测数据交代清楚
-
符号:
n—— 系数向量维度(= β 的个数,也被视为“样本量”)。m—— 观测向量 Y 的维度(= 观测次数)。X ∈ ℝ^(m×n)—— 固定设计矩阵,列满秩。σ²—— 噪声方差(已知)。β₀ ∈ ℝ^n—— 真实系数向量,其分量β₀ⱼ是 i.i.d. 从真实分布G₀抽出。Y ∈ ℝ^m—— 观测向量,满足Y = Xβ₀ + ε,ε ~ N(0, σ² I_m)。G₀—— 未知的混合分布,有密度g₀,支撑在已知紧区间[a, b]上。L = L(m,n)—— Pólya tree 的截断深度(正整数)。Π_L—— 定义在密度g(支撑在[a,b]上)上的 level-L truncated Pólya tree 先验。Π_L(·|Y)—— 在 working model 下,基于Y的后验分布(对g)。Π_{L,β}(·|Y)—— 同样 working model 下,基于Y的系数向量 β 的后验分布。I^l_k—— 第 l 层 (l=0,...,L),第 k 个 (k=0,...,2^l-1) 的二进区间。例:I^0_0 = [a,b],I^1_0 = [a, (a+b)/2],I^1_1 = [(a+b)/2, b]。N_β(I^l_k)—— 向量 β 落入区间I^l_k的坐标个数(“bin count”)。ε_n(L)—— 由 bias 项和 variance 项构成的收缩尺度:ε_n(L) := (b-a)^α 2^{-αL} + (b-a)^{-1} sqrt( (L 2^L) / n )。第一项是近似误差,第二项是随机误差。
-
模型:
- 真实生成模型(频率派):β₀ ~ ∏_{j=1}^n g₀(β₀ⱼ),然后
Y | β₀ ~ N(Xβ₀, σ² I_m)。 - 工作贝叶斯模型(用于推断):
g ~ Π_L(truncated Pólya tree prior);β_j | g ~ g;Y | β ~ N(Xβ, σ² I_m)。注意:在这个工作模型下,β 和 Y 不是条件独立于 g 的;Y 通过 β 与 g 耦合。
- 真实生成模型(频率派):β₀ ~ ∏_{j=1}^n g₀(β₀ⱼ),然后
-
可观测数据:
- 研究者能观测到的是:
Y(长度 m 的向量)和设计矩阵X。β₀是不可观测的(latent)。g₀是目标参数(some functional of G₀)但完全未知且被视为固定。σ²已知。 - 想要但观测不到的是:系数向量 β₀、真实密度 g₀、以及任何含 β₀ 的 bin 计数。
- 研究者能观测到的是:
-
第二步:讲最小内核(剥去一般性假设,找出支撑整篇论文的最小内核)
最简特例:考虑 m = n,X = I_n(即序列模型的特例)。此时 Y_j = β₀ⱼ + ε_j,每个 β 被一个独立噪声观测一次。但作者在 Remark 4.4 中指出他们的证明策略对这个特例失败。因此这不是本文殊途同归的例子。
最小内核(不依赖 X 的比序列更好的假设):核心思想是把困难场景“通过 Y 恢复 β 的统计精度”量化为:
定理目标的核心命题:在某个截断深度 L 下,后验分布 Π_L(g | Y) 应主要集中在 g₀ 附近的 ε_n(L)-球内部。
这个命题在“最小内核”中退化成什么?:
假设 λ_min(X^⊤X) ≥ c·m(即设计强列可辨识——即使 X 不是 I_n,但条件数可控)。那么,
- 后验对 β 能实现 ℓ₂ 收缩到半径 ~ σ sqrt( n / (c m) )(Proposition C.1)。
- 选择 L 使得这个半径足够小以保证 β 的 bin count 在扰动下保持稳定(Lemma B.2 + Lemma B.3)。
- 一旦 bin count 稳定,Castillo (2017) 的直接观测基准就可以直接应用。
极端地说,**这个理论的核心可以简洁地表述为:如果从 Y 恢复 β 的精度足够高(即 ℓ₂ 误差 << 2^{-L/2}),那么 PT 后验在回归模型下的收缩率就与直接观测 β_j 时一样。这是本文唯一的、真正吃劲的命题。它的难度在于要证明“恢复精度足够高”和“bin count 稳定性”之间的精确依赖,以及如何协调 L_obs 和 L_Cast 两个约束。
三、这篇论文做了什么(本次重心,务必讲透)¶
-
三句话: ① 研究了什么问题:在线性回归模型
Y = Xβ₀ + ε(β₀ 的分量 i.i.d. 来自未知密度 g₀)设定下,证明了用 truncated Pólya tree 先验得到的 g 的后验分布Π_L(·|Y)在 sup-norm 下一致地集中于真实 g₀。 ② 核心工具/方法:将 Castillo (2017) 的 PT 后验一致性结果(直接观测 β₀)作为基准,并利用后验 ℓ₂ 收缩(对 β)与 bin-count 稳定性引理将回归模型“翻译”为直接观测问题,通过限制截断深度 L ≤ min{L_Cast, L_noise} 来协调 bias-variance 与回归恢复精度。 ③ 主要结论(定理 4.2 & 推论 4.5):在 λ_min(X^⊤X) 足够大、m,n→∞ 且 L→∞ 时,后验的期望在 sup-norm 收敛于 g₀,速率为 ε_n(L)(与直接观测 Castillo 基准相同)。对于随机 Gaussian 设计,若 m / (σ² n^{3/2}) → ∞,则相同的收缩成立。 -
关键设定与假设:
- g₀ 的假设:
- g₀ 支撑在已知紧区间 [a,b] 上。
- g₀ 是 α-Hölder 光滑(α∈(0,1]),且被上下界 m₀, M₀ 隔离于 0(即 g₀(x) ≥ m₀ > 0)。
- g₀ 有界(g₀ ≤ M₀ < ∞)。 这些假设保证了 g₀ 与均匀区间上的 Haar 基展开可控,并且其 dyadic 近似误差是有界的。相比 Castillo (2017),这些假设完全相同。
- X 的假设:
X ∈ ℝ^(m×n)列满秩。- λ_min(X^⊤X) 足够大(通过 L_noise 的定义,要求 λ_min / (σ² n^{3/2}) 足够大)。 这些假设比序列模型(λ_min = 1 但 m=n)更严格,因为后者导致 L_noise 不增长(见 Remark 4.4)。
- 噪声方差 σ²:已知,允许依赖于 (m,n)(这种依赖没有显式放于符号中)。
-
截断深度 L:由 L_Cast 和 L_noise 取最小值确定。L_Cast 由 n 与 α 决定;L_noise 由 λ_min / (σ² n^{3/2}) 决定。
-
主要结果:
- 定理 4.2 (确定性设计):设 L = min{L_Cast, L_noise}。若 L→∞ 且 L_noise 条件满足,则存在常数 C₀ > 0 使得
E_g₀[ Π_L(∥g - g₀∥_∞ > C₀ ε_n(L) | Y) ] → 0。 - 推论 4.3 (系数向量的 ℓ₂ 误差):假设 g₀ 有界,且
σ² (n + 2^L log(n+1)) / λ_min(X^⊤X) → 0,则E_g₀[ ∥\hat{β}(Y) - β₀∥²₂ ] → 0。这个推论不要求用到 L_min 的选择;它只要求 X 的条件数足够好。它与后验一致性(定理 4.2)是两个独立的结论:β 收缩是定理 4.2 证明中使用的技巧,但是推论 4.3 的标准形式可以单独成立。 - 推论 4.5 (随机 Gaussian 设计):若 X 的行 i.i.d. Gaussian,且 m/(σ² n^{3/2}) → ∞,则相同的后验收缩在 P_X 概率下成立。其中关键是 Lemma D.1 保证了在 m ≥ Γ n 时,λ_min(X^⊤X) ≳ m 以高概率成立。
-
速率说明:
- 当 L_noise ≥ L_Cast(即回归模型的恢复精度不是瓶颈),
L = L_Cast,速率退化为 Castillo (2017) 的基准率。这种情况下,回归模型没有损失。 - 当 L_noise < L_Cast(回归模型是瓶颈),L = L_noise,此时 β 恢复精度限制了可用的分辨水平,收缩率比直接观测更慢。但作者没有显式写出 L_noise 的具体衰减形式(写成了 λ_min / (σ² n^{3/2}) 的隐含不等式)。
- 当 L_noise ≥ L_Cast(即回归模型的恢复精度不是瓶颈),
-
证明路线与技术技巧(理论型必写,要具体):
整体路线(5 步逻辑主干):
1. 后验混合分解(Lemma B.1):
Π_L(T_g | Y) = ∫ Π_L(T_g | β) Π_{L,β}(dβ | Y) ≤ sup_{β∈B₁} Π_L(T_g | β) + Π_{L,β}(β ∉ B₁ | Y)。
将问题分解为两部分:直接观测基准的控制(用 Castillo 的定理 4.1)和 β 的不在“好 bin-count 集合”B₁ 的后验尾巴。
2. 从 β 不在 B₁ 到 ℓ₂ 控制:
定义“好”集合 B₀(β₀ 的经验 bin 计数接近其期望)与 B₁(放大系数 M)。利用不等式
|N_β(I) - N_{β₀}(I)| ≤ N_{β₀}(边界带) + ∥β - β₀∥²₂ / τ²(Lemma B.2)。
选择合适的 τ_l = c_τ R_l / n(R_l = max{sqrt((l+L) n 2^{-l}), l+L}),再控制边界带计数用 Bernstein 不等式(Lemma B.3),最终将事件 {β ∉ B₁} 简化为 {∥β - β₀∥²₂ > a_L},其中 a_L ≳ L^{3/2} / (n^{1/2} 2^{3L/2})。
3. 后验 ℓ₂ 收缩(Proposition C.1):
表明在 MCMC 工作模型下,给定 Y 后 β 的后验集中于半径 ~ σ sqrt{ (n + 2^L log(n+1)) / λ_min(X^⊤X) } 的球内。
- 该命题的证明技巧:推导先验密度 π_{L,β}(β) 的下界(式 (32)),然后进行“预测范数”收缩,最后通过 λ_min 转换为 ℓ₂ 范数。
- 关键引理:π_{L,β}(β) ≥ B^{-n} (n+1)^{-2^L}(式 (32))。
4. 结合选择 L:
由 L ≤ L_noise 的定义,该 ℓ₂ 半径 ≤ a_L^{1/2}。因此 β 的后验几乎全部落入 B₁,从而 E[ Π_{L,β}(β ∉ B₁ | Y) ] → 0。
5. 结论:
由 Castillo 的直接观测基准(定理 4.1)控制 sup_{β∈B₁} Π_L(T_g | β),组合即得 E[ Π_L(T_g | Y) ] → 0。
关键跳跃点:
- Lemma B.2 与 B.3:是使 β 的 ℓ₂ 精度与 bin-count 精度之间“翻译”的核心技巧。难点在于确定 τ_l 与 R_l 的合理比例,使边界带计数可忽略且 ℓ₂ 稳定阈值 a_L 达到需要的上界。
- π_{L,β} 的下界(式 (32)):独立于 g₀ 的简洁形式 B^{-n}(n+1)^{-2^L}——这使得从工作模型到真实模型的概率上界(change of measure)成为可能,且不需要对 g₀ 的支撑做额外假设。
- L_noise 的定义:2^{3L/2}/L^{3/2} ≤ c_noise * λ_min/(σ² n^{3/2})。这个不等式的形式是专门为让 ℓ₂ 半径 ≤ a_L^{1/2} 定制的,体现了 β 恢复精度(λ_min/(σ² n^{3/2}))与分辨水平(2^{L/2})之间的 trade-off。
技术技巧点名:
- 直接观测基准(Castillo 2017)本身的技巧:Haar 基展开 + Beta 后验的 tail bound(Lemma A.5)+ 乘积 bound(Lemma A.4)。这些都被重用在附录 A,证明定理 4.1。
- Empirical process + Bernstein 不等式:用于控制边界带的计数(Lemma B.3)— R_l 里的 sqrt(l+L)n2^{-l} 就是 Bernstein 方差上界。
- Change of measure (importance sampling):在 Proposition C.1 步骤 3 中,用 q₀(β)/π_{L,β}(β) 将工作模型下的后验 tail bound 转移到真实模型下。
- χ² tail bound (Markov + exponential moment):使用 E e^{S/4} = 2^{n/2} 得到 P(χ²_n > x) ≤ e^{-x/4} 2^{n/2}。
-
真实例子与应用: 本文为纯理论,无实证例子。所有结果都是定理与推论。Weinstein et al. (2025) 有仿真,但本文只引用了他们的仿真,没重复。
-
🔎 结论是否比证明窄:
- 定理 4.2 被证明在“确定性设计 + λ_min 足够大”的条件下。但结论在“随机 Gaussian 设计”(推论 4.5)中被扩展到“以高概率成立”。这是证明直接支持的泛化——Lemma D.1 保证 λ_min ≳ m 以高概率成立,而定理 4.2 对该 λ_min 的条件作出反应。因此结论没有超出证明的范围。
- Remark 4.4 明确指出:当 X = I_n(序列模型)时,“theorem does not yield a consistency result”。作者说“not so say that the PT posterior is inconsistent… only that the present proof strategy does not apply”。这是一个严谨的 limitation statement,没有被泛化 claim 为该设定下后验不可能一致。
- 推论 4.3(β 的 ℓ₂ 一致)使用的是与定理 4.2 相同的 L,但其条件
σ² (n+2^L log(n+1))/λ_min → 0在定理 4.2 的 L 下可能自动成立,但作者独立验证了它——也就是说没有 claim β 收缩一定在 L_min 选择下成立(它确实成立了,但形式不同)。 - 无效率对比与 minimax 结论:作者没有声称收缩率是最优的(rates are tight),甚至在直接观测 Castillo (2017) 的基准下也是如此。这已被明确标注为 future work。
四、开放问题(点到为止,扎根具体语句)¶
- 序列模型下 PT 后验一致性的理论缺失(扎根于 Remark 4.4): “the theorem does not yield a consistency result in that case… a different argument is required.” 即:X = I_n、固定 σ²、m=n 时,如何才能证明(或证伪)Pólya tree 后验在 sup-norm 下一致?这需要完全避开本文基于 ℓ₂ 收缩的论证路线,可能需要不同的策略(如直接在边际似然空间上工作,或利用序列模型的特殊稀疏性)。
- 速率的 minimax 最优性(扎根于定理 4.2 的无下界讨论): 对于给定的 α-Hölder 光滑的 g₀,序列模型下的 minimax 收敛率是多少?本文给出的直接观测基准速率 ε_n(L) 是否达到这个 minimax 率?这需要构造 minimax 下界(具体到 Pólya tree 估计量 vs 任意估计量)。如果直接观测基准率达不到 minimax,那么回归模型(L_noise 起主导时)的速率也会 suboptimal。
- 噪声方差 σ² 未知时的扩展(扎根于全文设定):
全文假定 σ² 已知。但在实际回归中,σ² 往往未知。若 σ² 不已知,L_noise 定义中的
λ_min/(σ² n^{3/2})必须估计。能否设计一个数据自适应的方法选择 L(如用 DIC / WAIC),同时保持后验一致性? - 支撑非紧情形(扎根于第一节 “compact interval [a,b]”): 如果 g₀ 的支撑不是已知紧区间(例如全实线),truncated Pólya tree 无法直接应用。可以通过用一个覆盖全实线的嵌套区间序列来扩展吗?这对于实际应用(如基因关联分析)非常重要。
- 更高阶的线性模型(扎根于本文只研究线性模型): 对于广义线性模型(如 logistic regression)下的 PT 去卷积,Weinstein et al. (2025) 有仿真,但没有理论。后验一致性在那里是否会需要完全不同的论证(例如需要用 Pólya tree 先验的性质结合 logistc 似然函数的局部 Lipschitz 性质)?
Maintained by 陈星宇 · Homepage · Source on GitHub