跳转至

Bernoulli — Vol 32 Issue 3 · 2026-06-18

  • 共 33 篇 · Bernoulli
  • 目录核对 ⚠️ 疑似漏 2 篇(对照 OpenAlex 35 篇):10.3150/25-bej1952、10.3150/25-bej1945

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

本期《Bernoulli》第32卷第3期的33篇论文围绕高维随机矩阵与谱分析、半参数与非参数推断、假设检验与推断稳健性、计算最优传输、以及贝叶斯与概率论若干专题展开。高维随机矩阵主线(6篇)集中在 universality 的推广(块依赖结构、张量GUE强渐近自由)、谱范数与特征值极限(样本协方差矩阵的谱范数释放、椭圆分布下 spiked 特征值渐近)、以及超完全ICA的可识别性。半参数与非参数推断主线(9篇)涵盖ODE的非参数估计、MLE的渐近偏差修正(微分几何)、logistic回归的无维一致界、level set估计、贝叶斯非参数后验合并与话题层次模型识别。假设检验主线(7篇)涉及删失数据独立性检验(SID)、anytime-valid e-process正则化、网络变点检测、算法性能无假设检验的下界、传输分位数崩溃点、极值反集中不等式。计算最优传输主线(2篇)聚焦Langevin重要性采样的最优偏置势、Sinkhorn算法在无界设定下Hessian与收敛速率的定量稳定性。此外,还有misspecified BvM定理、对数凹随机变量矩比较、动能交互扩散LLN、martingale transport与football模型、稳定Galton-Watson树剪枝、紧李群上的最优回归设计等独立贡献。

高维随机矩阵主线中,Universality of estimators for high-dimensional linear models with block dependency将Lindeberg原理从元素独立推广至块依赖结构,覆盖ridge、lasso等估计量;Liberating dimension and spectral norm彻底移除了p/n速率与谱范数有界假设,获得线性谱统计量的调和CLT;Limiting laws for spiked eigenvalues in elliptical distributions则给出了椭圆分布下spiked样本特征值正态极限(均值同时依赖spike与nonspike,方差依赖特征向量)及最大非spike特征的Tracy-Widom律。这三篇共同在随机矩阵理论的最前沿——universality与谱极限——推进了高维协方差矩阵分析的假设条件与适用范围。Identifiability of overcomplete ICA则从识别性角度给出了超完全ICA充要条件,补充了高维隐变量模型的理论基础。

假设检验主线中,SID以计数过程策略将删失数据独立性检验转化为完全观测问题,提供了能检测非线性依赖的非参数度量与wild bootstrap程序;Regularized e-process将e-process框架推广到含不精确先验知识的anytime-valid推断,利用generalized Ville不等式保证在线有效性;Detecting a late changepoint in the preferential attachment model针对网络动态提出了基于最小度节点的渐近正态检验,并揭示了检测盲区;The limits of assumption-free tests for algorithm performance给出黑箱算法性能检验的impossibility结果:除非总样本量远大于评估样本量,否则无法做有效推断。这些论文或在方法创新上(SID、regularized e-process)、或在根本下界上(algorithm performance limits),为假设检验提供了新视角。

与因果推断/半参数效率/高维方向最贴近的论文包括:MLE渐近偏差修正(Asymptotic bias reduction of maximum likelihood estimates via penalized likelihoods with differential geometry)直接使用微分几何构造惩罚似然以实现O(n⁻²)偏差消除,与半参数效率理论对接;Dimension-free uniform concentration bound for logistic regression通过PAC-Bayes与二阶展开获得无维一致界,可应用于高维半参数平均处理效应估计;SID的删失独立性检验适用于因果发现中的变量筛选;高维随机矩阵中universality与spectral norm释放的四篇(Universality of estimators, Liberating dimension and spectral norm, Limiting laws for spiked eigenvalues, Strong convergence for tensor GUE)为高维因果推断中的估计量分布近似与协方差结构检验提供了工具。

高维统计 / 随机矩阵 (high_dim_rmt, 6 篇)

1. 10.3150/25-bej1941 · arXiv — Universality of estimators for high-dimensional linear models with block dependency

  • 作者: Toshiki Tsuda, Masaaki Imaizumi
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 9/10 · novelty: weaker_assumption
  • 摘要: 在高维线性模型设定下,研究估计量分布的 universality 性质,即估计量分布是否不依赖于协变量是否服从高斯分布;关键假设是协变量具有块依赖结构(块内可相关、块间独立),且非高斯协变量与高斯协变量共享相同矩。核心方法是发展适用于块依赖的广义 Lindeberg 原理,并推导相关协变量元素下的新误差界,从而证明高斯协变量下估计量的分布可被同矩非高斯协变量下的分布近似。结果覆盖多种高维估计量(如 ridge、lasso 等),将现有要求元素独立的高维 universality 结论推广到块依赖情形。对您有用:直接推进高维统计与 RMT 中 universality / Lindeberg 原理的边界,与您的高维渐近理论兴趣紧密相连。
  • 关键技术: generalized Lindeberg principle, block-dependent covariates, high-dimensional universality, moment-matching approximation, error bounds for correlated variables
  • 为什么对您有用: 直接连接您的高维统计与 RMT 兴趣中的 universality / 高维渐近理论子方向,将经典的元素独立 Lindeberg 原理推广到块依赖结构。您武器库中 very_familiar 的 high-dimensional asymptotics 与 minimax bounds 可直接用来验证其误差界在更一般依赖结构下的紧性,或拓展到其他估计量。判断:立即可做——用您熟悉的高维渐近工具即可着手验证/推广该块依赖 Lindeberg 原理的边界。

2. 10.3150/25-bej1933 · arXiv — Strong convergence for tensor GUE random matrices

  • 作者: Benoît Collins, Wangjun Yuan
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在多维张量态空间上研究 iid GUE 随机矩阵的强渐近自由性,目标 estimand 是矩阵多项式在维数趋于无穷时的几乎必然收敛极限,关键假设是各子站点维数的相对增长条件。核心机制是对混合分量与恒等分量交替作用的张量 GUE,利用 Bandeira-Boedihardjo-van Handel 近期引入的插值技术,将强收敛证明转化为对插值路径上期望与方差的精细控制。该方法绕开了传统 Haagerup-Thorbjørnsen 的复杂解析框架,直接通过矩阵浓度不等式与自由概率的组合获得强收敛。主要理论结果证明了在适当维数增长条件下,张量 GUE 仍保持强渐近自由性。对您可能有用:此文的张量态空间结构与插值技术可直接连接到您对高维 RMT 及张量收缩/计算复杂度的兴趣。
  • 关键技术: strong asymptotic freeness, GUE random matrices, interpolation method (Bandeira-Boedihardjo-van Handel), tensor product state space, matrix concentration inequality, free probability
  • 为什么对您有用: 本文直接连接到您 primary interest 中的高维统计与随机矩阵理论(RMT),特别是张量态空间上的 GUE 强收敛,与您 very_familiar 中的高维渐近及张量收缩计算形成自然交汇。您可以用 very_familiar 的张量收缩/einsum 视角审视其插值技术中矩阵多项式的计算复杂度,寻找更紧的方差界或更高效的收缩路径。Follow-up 判断:中期可做——需先在 moderately_familiar 的自由概率与强收敛解析工具上长肌肉,才能将插值技术迁移到您关心的 U-statistic 张量网络框架中。

3. 10.3150/25-bej1954 · arXiv — Liberating dimension and spectral norm: A universal approach to spectral properties of sample covariance matrices

  • 作者: Yanqing Yin
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 9/10 · novelty: weaker_assumption
  • 摘要: 在高维样本协方差矩阵的谱性质研究中,本文提出一种普适的约束原则与归一化技术,目标是在 \(p,n\to\infty\) 时不限制 \(p/n\) 的相对速率、且不要求总体协方差矩阵谱范数有界的设定下获得谱极限定理。核心机制是对原始样本协方差矩阵施加合适的归一化,使得不同极限框架下的谱行为统一和谐;在此基础上,建立了线性谱统计量的调和中心极限定理(harmonic CLT for LSS)。关键技术工具涉及 RMT 的归一化处理与 LSS 渐近分析,彻底移除了传统 CLT 对总体谱范数有界及 \(p/n\) 速率的依赖。主要理论结果在协方差结构检验中展示了威力,实现了 \(p\)\(n\) 的双重解放。对您有用:直接推进了您 primary interest 中 RMT 高维渐近与假设检验的交叉领域,为无界谱范数设定下的高维检验提供了新工具。
  • 关键技术: sample covariance matrix normalization, harmonic central limit theorem, linear spectral statistics, unbounded spectral norm relaxation, covariance structure testing
  • 为什么对您有用: 本文直接连接您 primary interest 中的高维统计(RMT)与假设检验子方向,在无界谱范数、无 \(p/n\) 速率约束的设定下给出 LSS 的 CLT,突破了经典 RMT 检验理论的瓶颈。您武器库中 very_familiar 的 minimax bounds 与 high-dimensional asymptotics 可直接用来验证该调和 CLT 在检验问题中的效率性质与 rate 紧性。follow-up 判断:立即可做——用 very_familiar 的高维渐近工具即可着手分析该归一化框架下其他谱统计量(如极大特征值)的极限行为或检验功效。

4. 10.3150/25-bej1957 · arXiv — Limiting laws for spiked eigenvalues and largest non-spiked eigenvalues of sample covariance matrices in elliptical distributions

  • 作者: Jiahui Xie, Long Yu, Wang Zhou
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在椭圆分布下的一般协方差矩阵模型中,研究样本协方差矩阵的 spiked eigenvalues 与最大非 spiked eigenvalue 的渐近分布,设定为 spiked eigenvalues 发散而其余 eigenvalues 有界但任意。核心发现:spiked 样本 eigenvalues 的极限正态分布之渐近均值同时依赖 population spikes 与 nonspikes,渐近方差一般依赖 population eigenvectors;最大非 spiked 样本 eigenvalue 则服从 Tracy-Widom 极限律。结果在 spiked 个数发散时仍成立,并附带 spike 数量估计与 leading eigenvectors 收敛分析。关键技术工具是建立了一类随机向量与随机矩阵相依的随机二次型 CLT,该结果具独立价值。对您有用:直接推进了 RMT 在高维 inference 的 spiked model 理论,为高维 PCA / factor model 的 eigenvalue-based 检验与估计提供了更精确的渐近刻画。
  • 关键技术: spiked covariance model, elliptical distribution, random quadratic form CLT, Tracy-Widom law, eigenvector convergence, divergent spikes
  • 为什么对您有用: 直接连接您 primary interest 中的 high-dimensional statistics 与 Random matrix theory 子方向,尤其是 spiked model 下 eigenvalue 的精确渐近分布。您武器库中 very_familiar 的 high-dimensional asymptotics 可直接用来审视本文二次型 CLT 的证明路径与 eigenvector 依赖的 variance 结构,判断其是否可迁移至您关注的 inverse problems with random noise 或高维因果推断的 debiased estimator 场景。立即可做:用 very_familiar 的高维渐近工具复现/检验其二次型 CLT 与 variance 依赖结构。

5. 10.3150/25-bej1929 · arXiv — Identifiability of overcomplete independent component analysis

  • 作者: Kexin Wang, Anna Seigal
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究超完全独立成分分析(overcomplete ICA)的可识别性问题,即当潜在独立源数目超过观测变量数目时,混合矩阵能否被唯一恢复。经典 ICA 的可识别性条件是至多一个源为高斯分布,但这一结论仅适用于源数不超过观测数的设定。本文给出超完全情形下可识别性的充要条件,证明主要依赖于秩一对称矩阵的线性空间结构;对于一般混合矩阵,可识别性仅由源数与观测数决定。基于该理论,作者设计了一种从数据中恢复混合矩阵的算法,并在合成数据和两个真实数据集上进行验证。该工作将 ICA 的可识别性理论推广到更实际的高维欠定情形,对高维统计学和隐变量模型的可识别性研究具有理论意义。对您而言,本文的高维识别性分析可链接至高维统计和因果推断中潜在变量的可识别性问题。
  • 关键技术: Overcomplete independent component analysis, Identifiability characterization, Linear spaces of rank one symmetric matrices, Generic mixing condition, Spectrum-based recovery algorithm
  • 为什么对您有用: 本文直接连接至高维统计中的可识别性理论,尤其是超完全因子模型/隐变量模型。您的very_familiar武器库中的minimax界工具可用于分析该可识别性条件下估计量的信息论下界,高维渐近理论可研究算法在大样本时的统计行为。立即可做:用minimax率和经验过程分析混合矩阵估计的最优收敛速度。

6. 10.3150/25-bej1947 · arXiv — Max-sliced Wasserstein concentration and uniform ratio bounds of empirical measures on RKHS

  • 作者: Ruiyu Han, Cynthia Rush, Johannes Wiesel
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 该论文研究最大切片Wasserstein距离(max-sliced Wasserstein)在无界再生核希尔伯特空间(RKHS)上的集中性与均匀比率界。最大切片Wasserstein通过将高维最优运输问题转化为一维投影的最大值,旨在缓解维度灾难。作者在RKHS上建立经验测度与真实测度之间最大切片Wasserstein距离的期望上界和集中不等式,并在一般性假设下证明其以(接近)参数速率一致收敛。主要技术工具包括有限维情形的改进界限、经验过程理论和RKHS的范数控制。理论结果显示,即使分布支撑无界,一维子空间上的经验测度也能实现接近参数速率的均匀收敛。该结果对高维统计中基于Wasserstein距离的推断(如两样本检验、分布鲁棒学习)有直接的理论支撑。
  • 关键技术: max-sliced Wasserstein distance, concentration inequalities, empirical processes, reproducing kernel Hilbert space (RKHS), uniform ratio bounds, parametric rates
  • 为什么对您有用: 该论文直接关联研究者在高维统计和非参数理论方面的兴趣,尤其是针对维度灾难问题的理论工具。研究者非常熟悉的非参数统计和minimax界技术可立即用于理解文中的集中速率和RKHS技巧,从而为后续在因果推断(如分布鲁棒性)中的应用提供支撑。这是一篇纯粹的理论论文,无需额外工具即可深入阅读,属于立即可做的范畴。

非参数 / 半参数 (nonparam_semipara, 11 篇)

1. 10.3150/25-bej1936 · arXiv — Nonparametric estimation of ordinary differential equations: Snake and stubble

  • 作者: Christof Schötz
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 8/10 · novelty: new_method
  • 摘要: 研究问题:在常微分方程(ODE)系统中,目标是非参数估计驱动系统动态的未知函数 f: R^d -> R^d,观测为带有独立噪声的解的离散时间点。引入两种新模型来解决观测位置对 f 的依赖性问题:Stubble模型(观测许多短轨迹,初始点覆盖感兴趣区域)和Snake模型(观测少数长轨迹,覆盖区域)。Stubble模型下,基于多元局部多项式回归和单变量多项式插值构建估计量;Snake模型下,组合单变量局部多项式估计与多元多项式插值。两种模型均获得误差界:对β-光滑函数(Hölder类),收敛速率为 n^{-β/(2(β+1)+d)},并在Stubble模型下证明达到极小极大最优,Snake模型在部分条件下也最优。本文的贡献在于将非参数回归方法系统性地扩展到ODE设定,并给出了清晰的速率刻画。对您有用:本文直接涉及非参数估计理论与极小极大下界,与您非常熟悉的非参数统计和极小极大界工具高度匹配。
  • 关键技术: local polynomial regression, polynomial interpolation, minimax lower bound, Hölder class, multivariate local polynomial estimation
  • 为什么对您有用: 本文研究的是ODE系统中的非参数估计问题,属于非参数理论与极小极大率的研究范畴,与您的首要兴趣(非参数统计、极小极大界)直接相关。您可以用您非常熟悉的非参数统计和极小极大界工具来审视该方法的最优性,甚至探索将您擅长的更高阶U统计量或张量收缩技术应用于估计ODE系统中的高阶交互效应。基于现有武器库,您可以在非参数统计和极小极大界方面立即可做,因为只需代入ODE设定即可。

2. 10.3150/25-bej1938 · arXiv — Asymptotic bias reduction of maximum likelihood estimates via penalized likelihoods with differential geometry

  • 作者: Masayo Y. Hirose, Shuhei Mano
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在一般参数模型下,本文研究 MLE 的渐近偏差修正问题,目标 estimand 为任意参数函数,关键假设为模型满足标准正则条件以允许微分几何工具的引入。核心方法是通过最大化一个惩罚似然函数获得修正估计量,其惩罚函数需满足一阶拟线性偏微分方程(PDE)。作者利用微分几何(特别是 Efron 的统计曲率与联络)将 PDE 的求解转化为几何积分问题,从而构造出显式的惩罚项。该估计量以 plug-in 形式实现,具有 \(O(n^{-2})\) 的偏差阶数,应用覆盖了 GLM、线性混合效应模型与位置-尺度族。对您有用:本文将微分几何与高阶渐近理论结合,直接对接您在 semiparametric efficiency 与 higher-order influence function 方向的技术储备。
  • 关键技术: penalized likelihood, quasi-linear PDE for bias reduction, differential geometry of statistical models, statistical curvature and connection, asymptotic bias correction, plug-in estimator
  • 为什么对您有用: 本文直接对接您 primary interest 中的 semiparametric / efficiency theory(高阶渐近偏差修正)以及 higher-order U-statistics(高阶渐近展开)。您 very_familiar 的 minimax bounds 与 moderately_familiar 的 HOIF / M-estimation theory 正是攻入本文的口子——可以用 HOIF 的视角审视其 PDE 惩罚项是否等价于某种 higher-order influence function 修正,并验证其 \(O(n^{-2})\) 偏差阶数是否在半参数模型下仍可保持。Follow-up 判断:中期可做——需先在 moderately_familiar 的 HOIF 与微分几何(统计曲率)上长肌肉,才能将本文的参数几何方法推广至半参数模型。

3. 10.3150/25-bej1960 · arXiv — Optimal level set estimation for non-parametric tournament and crowdsourcing problems

  • 作者: Maximilian Graf, Alexandra Carpentier, Nicolas Verzelen
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: sharper_rate
  • 摘要: 在 crowdsourcing 与 tournament 设定下,部分观测 n 个专家对 d 个问题的正确率矩阵 M,假设 M 在行列置换后满足 bi-isotonic(当 n=d 时涵盖 SST 模型)。目标是识别 M 中大于 p+h 与小于 p-h 的 level set,即区分高/低正确率条目,这对 crowdsourcing 中的 worker-task 分配至关重要。作者提出了基于 isotonic regression 与最大似然估计的 level set estimator,并建立了 minimax lower bound。理论结果显示,在 bi-isotonic 假设下,level set recovery 的 minimax rate 为 (nh)^{-1}(当 n≤d 时),且所提 estimator 达到该 minimax optimal rate。对您有用:本文在非参数结构假设下的 minimax rate 与 estimator 设计,直接对应您 nonparametric statistics 与 minimax bounds 的核心武器。
  • 关键技术: bi-isotonic matrix estimation, minimax lower bound, level set recovery, isotonic regression, SST tournament model
  • 为什么对您有用: 本文直接连接您 primary interest 中的 nonparametric statistics 与 minimax bounds for estimation problems——bi-isotonic 结构下的 minimax rate 结果是经典非参数估计的延伸。您武器库中 very_familiar 的 minimax bounds 工具可以直接用来审视其 lower bound 证明的紧性,甚至推广到更一般的单调结构或不同 loss function。follow-up 判断:立即可做——用 minimax bound 与 nonparametric statistics 武器即可复现/拓展其 rate 结果。

4. 10.3150/25-bej1931 · arXiv — Dimension-free uniform concentration bound for logistic regression

  • 作者: Shogo Nakakita
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 6/10 · novelty: sharper_rate
  • 摘要: 在约束 logistic 回归设定下,目标是建立经验风险函数的 dimension-free uniform concentration bound,关键假设为参数空间有界且设计分布满足特定矩条件。核心方法结合 PAC-Bayes approach 与二阶展开(second-order expansion),将展开的残差项用基于 Rademacher complexity 的界控制,从而绕开传统直接使用 Rademacher complexity 或 McDiarmid 不等式时对维度的依赖。所得 bound 提供了比传统方法更宽松的 uniform LLN 充分条件,实现了真正的 dimension-free 性质。对您有用:此 dimension-free concentration 技术可直接用于高维 M-estimation 的一致性分析,为 semiparametric / debiased ML 中 nuisance estimator 的收敛率论证提供更精细的工具。
  • 关键技术: PAC-Bayes concentration bound, second-order expansion, Rademacher complexity, dimension-free uniform LLN, constrained logistic regression
  • 为什么对您有用: 本文直接连接 semiparametric theory 与 high-dimensional M-estimation 子方向:dimension-free concentration 是证明高维 nuisance estimator 一致收敛的关键工具,而后者是 debiased ML / efficiency theory 的基石。用您 very_familiar 的 minimax bounds 与 M-estimation theory 可以审视该 bound 在具体 semiparametric 模型中是否真正 sharpen 了 nuisance rate 的 sufficient condition。立即可做:用 very_familiar 的 minimax / M-estimation 武器验证该 dimension-free bound 在部分线性模型等具体设定下对 nuisance 收敛率的改善程度。

5. 10.3150/25-bej1930 · arXiv — Merging rate of opinions via optimal transport on random measures

  • 作者: Marta Catalano, Hugo Lavenant
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文在贝叶斯非参数模型框架下,研究两种不同随机测度先验对应的后验分布随样本量增大而合并的速率。作者首先定义了一种基于最优传输的新距离,该距离在地面空间上采用有界Lipschitz度量,适用于不平衡测度,从而能够比较随机测度的概率律。针对完全随机测度(包括泊松和伽马随机测度),推导了该距离的紧解析界,并将其与Lévy测度之间的扩展Wasserstein距离建立联系。利用这些界,定量分析了归一化伽马和广义伽马先验的后验合并速度,得到了渐近和有限样本下的具体结论,且不依赖于真实数据生成过程的特定假设。主要技术工具包括最优传输理论、Wasserstein几何以及随机测度的概率分析。该论文为非参数理论中关于概率测度收敛速率的研究提供了一个新视角,尤其是通过最优传输将两个不同先验的合并问题转化为测度之间的距离问题,有助于您拓展非参数方法在贝叶斯语境下的应用理解。
  • 关键技术: Wasserstein distance, bounded Lipschitz metric, completely random measures, Lévy measures, posterior merging rate
  • 为什么对您有用: 本文与非参数理论(primary interest)中的测度收敛问题直接相关,您熟悉的minimax bound工具可以用来评判其解析界是否最优,并且其最优传输框架与您武器库中的nonparametric statistics和high-dimensional asymptotics有潜在交叉。整体来看,本文属于方法学驱动的新框架,当前武器库中缺乏对贝叶斯非参数和最优传输的深度积累,但非参数最小化界的能力足以理解其理论核心;建议作为中期可读—先通过非参数统计的视角切入,再考虑是否补充最优传输的底层知识。

6. 10.3150/25-bej1953 · arXiv — Learning topic hierarchies by tree-directed latent variable models

  • 作者: Sunrit Chakraborty, Rayleigh Lei, XuanLong Nguyen
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文研究带层次结构的主题模型(tree-directed latent variable model),即每个文档的主题分布受一棵有根有向树约束,使主题间形成可解释的层次关系。该模型可视为一组LDA诱导分布的有限混合,但混合权重由树结构决定。作者首先在正则条件下证明了层次结构的可识别性,然后推导了模型参数的后验收缩率(posterior contraction rates)。技术工具包括层次狄利克雷先验、树结构约束的变分逼近以及后验一致性的贝叶斯非参数理论。模拟实验和纽约时报文章数据验证了模型在实际数据中的可解释性和推断性能。本文对主题模型的识别性分析(特别是树结构带来的约束)与您所关注的非参数/半参数理论中的潜变量模型识别问题有直接关联。
  • 关键技术: tree-structured latent variable model, posterior contraction rates, identifiability analysis, hierarchical Dirichlet prior, variational inference for topic models
  • 为什么对您有用: 本文核心问题是潜变量模型在树结构约束下的可识别性与后验收缩率,这属于您的primary interest中semiparametric/nonparametric theory范畴内的latent variable identification问题。您技术库中非常熟悉的nonparametric statistics和minimax bounds可用于检查本文后验收缩率是否为最优速率,例如比较其收缩速率与参数维度的关系。中期可做:需先在中度熟悉的semiparametric theory上加强贝叶斯后验收敛的工具,才能严格追击类似model的渐近效率;目前暂不可做纯贝叶斯后验收缩的快速产出。

7. 10.3150/25-bej1951 · arXiv — Convergence in χ2 distance to the normal distribution for sums of independent random variables

  • 作者: Vytas Zacharovas
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在独立随机变量之和逼近正态分布的经典设定下,目标是在 χ² 距离度量下给出 Berry-Esseen 型的精确收敛速率,关键假设是各变量与正态分布的 χ² 距离平均值足够小。核心机制是利用 χ² 距离的 Fourier 分析与卷积性质,将 n 个独立变量之和的 χ² 散度分解并逐阶控制,避免了传统特征函数逐点界所需的复杂有界性条件。理论结果证明:在平均 χ² 距离受控的温和假设下,标准化部分和到正态的 χ² 距离收敛速率为 O(1/n),这比 Kolmogorov 距离下的经典 O(1/√n) 界更紧,且 χ² 距离本身控制了所有光滑函数类上的误差。对您可能有用:该 O(1/n) 的 χ² 收敛率为高维渐近理论中随机矩阵谱分布的局部极限定理提供了潜在更强工具,也为 semiparametric efficiency bound 证明中常见的正态逼近步骤给出更精细的量化。
  • 关键技术: chi-squared distance, Fourier analysis of convolutions, Berry-Esseen theorem, local limit theorem, independent sum approximation
  • 为什么对您有用: 直接连接到 primary interest 中的 high-dimensional asymptotics 与 nonparametric statistics:χ² 距离的 O(1/n) 界比 Kolmogorov 距离界更紧,在随机矩阵 Marchenko-Pastur 型局部极限定理及 semiparametric influence function 的正态逼近中可提供更精细的控制。用 very_familiar 中的 minimax bounds 与 high-dimensional asymptotics 武器即可审视该界在 RMT 或 HOIF 场景下的迁移性。判断:立即可做——将此 χ² 收敛率尝试嵌入您熟悉的 RMT 谱分布或 HOIF 余项分析中验证是否带来 sharper rate。

8. 10.3150/25-bej1965 · arXiv — Stability of Khintchine inequalities with optimal constants between the second and the p-th moment for p≥3

  • 作者: Jacek Jakimiuk
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 4/10 · novelty: sharper_rate
  • 摘要: 本文研究经典 Khintchine 不等式在 \(p \ge 3\) 时的稳定性与强化形式,目标 estimand 为 Rademacher 求和的 \(L^p\) 范数与 \(L^2\) 范数之比的最优常数界。在已知最优常数的基础上,作者引入了依赖于 Rademacher 求和系数向量的 deficit(亏值)项,刻画了当系数向量偏离使不等式取等的最坏情形时,不等式两端差距的定量放大。核心技术工具为 Rademacher 序列的矩精确计算与极值系数配置的扰动分析,属于高维概率与非参数矩界理论的范畴。主要理论结果给出了带 deficit 的强化 Khintchine 不等式的显式表达,证明了最优常数仅在特定系数结构下达到,偏离时具有严格的二次型或多项式型 deficit。对您可能有用:该 deficit 结构可直接用于分析 higher-order U-statistic 的矩收敛速率与尾部浓度,为高阶统计量的 minimax 界提供更紧的常数刻画。
  • 关键技术: Khintchine inequality with optimal constants, Rademacher sum moment bounds, deficit / stability analysis, Lp norm ratio characterization, high-dimensional probability
  • 为什么对您有用: 本文连接到 higher-order U-statistics 与 nonparametric minimax bounds 子方向:Khintchine 不等式是控制 Rademacher / 高阶多项式统计量尾部与矩的核心工具,带 deficit 的强化形式能更精确刻画系数结构对矩界的影响。用 technical_arsenal 中 very_familiar 的 minimax bounds for estimation problems 与 moderately_familiar 的 theory of higher-order U-statistics,可以分析 U-statistic 投影核的系数向量如何决定其高阶矩的 deficit,从而验证或改进现有 minimax rate 的常数项。follow-up 粗判:立即可做——用 very_familiar 的 minimax 理论与 U-stat 计算工具,可将此 deficit 结构嵌入高阶统计量的矩界推导中。

9. 10.3150/25-bej1948 · arXiv — Generalizing super/sub mot using weak ℓ1 transport

  • 作者: Erhan Bayraktar, Dominykas Norgilas
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文在实线上研究带 barycentric cost 的弱最优运输(WOT)问题,刻画了两个概率测度 μ 与 ν 之间最优耦合的结构:左尾通过 submartingale 耦合,右尾通过 supermartingale 耦合,中间区域则由 martingale 耦合。进而考虑以 WOT 的 L^1 cost 最优耦合为约束的受限运输问题,该设定推广了 Beiglböck–Juillet 与 Nutz–Stebegg 的 (sub/super-) martingale optimal transport(MOT)框架。最后引入广义 shadow measure 并建立其与 WOT 的联系,将此前仅在 MOT 下的 shadow 结果统一推广。理论结果完全基于概率测度与凸序假设,未涉及统计估计或收敛率。对您而言,本文提供了 MOT 与 WOT 的结构刻画,可作为理解因果推断中 distributional treatment effect 与 IV 约束下分布识别的数学基础读物。
  • 关键技术: weak optimal transport, barycentric cost function, martingale optimal transport, shadow measure, convex ordering
  • 为什么对您有用: 本文连接到因果推断中 distributional/quantile treatment effect 的 identification 理论——MOT 是 IV 下分布约束的经典工具,WOT 的统一框架为更一般的 barycentric 约束提供了新视角。用您 very_familiar 的 minimax bounds 与 inverse problems 工具,可以尝试将该 WOT 结构转化为统计估计问题,研究有限样本下耦合估计的收敛率。中期可做:需先在 moderately_familiar 的 identification theory 上长肌肉,将 WOT 约束与因果 IV 的分布识别假设对接,再切入估计理论。

10. 10.3150/25-bej1937 · arXiv — Sample path properties of the fractional Wiener–Weierstrass bridge

  • 作者: Alexander Schied, Zhenyuan Zhang
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文研究 fractional Wiener–Weierstrass bridge 的样本路径性质,该过程是将经典 Weierstrass 函数中的三角函数替换为 fractional Brownian bridge 而得到的 Gaussian 过程。核心 estimand 为过程的局部/一致连续性模、Φ-变差、Hausdorff 维数及最大值位置等路径特征,关键假设为过程的 Gaussian 结构与 fractional 参数设定。方法上,分析严重依赖于 fractional integrals 的上下界估计,并建立了一个对特殊阶梯函数类 fractional integrals 的 Hardy–Littlewood 不等式的改进。主要理论结果给出了上述路径性质的精确刻画及改进的积分不等式。对您可能有用:该改进的 fractional integral 界可作为非参数理论中处理奇异积分或 inverse problems with random noise 的技术工具。
  • 关键技术: fractional Brownian bridge, Hardy-Littlewood inequality improvement, fractional integrals bounds, sample path modulus of continuity, Hausdorff dimension, Φ-variation
  • 为什么对您有用: 连接到非参数理论中 fractional/integral 界的技术需求,以及 inverse problems with random noise 中处理奇异核的上下界估计;用 very_familiar 的 inverse problems with random noise 视角可审视该改进不等式在核估计收敛率中的潜在应用。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将该 fractional integral 界嵌入到具体非参数 M-estimator 的 minimax rate 分析中。

11. 10.3150/25-bej1946 · arXiv — On the passage times of self-similar Gaussian processes on curved boundaries

  • 作者: Davar Khoshnevisan, Cheuk Yin Lee
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 研究自相似 Gauss 过程 X(指标 α>0)穿越曲线边界 ±ct^β 的首达时 T_{c,β} 的矩性质。在 β>α 时,T_{c,β} 以正概率为无穷;β<α 且 X 满足 Pitt 强局部非确定性(SLND)时,T_{c,β} 所有阶矩有限;临界情形 β=α 加 SLND 条件下,存在严格递减连续函数 λ(c) 划分矩有限/无限的阈值 μ。核心工具是 SLND 条件下的 Gauss 场小球概率估计与热核界,将 Breiman–Shepp 关于 Brownian motion 穿越平方根边界的经典结果推广至一般自相似 Gauss 过程与 SPDE 解过程。对您可能有用:SLND 与小球概率是非参数统计中研究极值与边界穿越的经典概率工具,本文的临界阈值刻画可类比 semiparametric efficiency bound 处临界参数速率的 phase transition 分析。
  • 关键技术: self-similar Gaussian process, strong local nondeterminism (Pitt), small ball probability, passage time moment thresholds, Breiman-Shepp theorem extension, linear SPDE solution process
  • 为什么对您有用: 本文属于非参数概率论与 Gauss 过程极值理论,连接您 primary interest 中的 nonparametric statistics 与 minimax bounds(小球概率是 minimax rate 证明的核心工具之一)。您武器库中 very_familiar 的 inverse problems with random noise 与 nonparametric statistics 可直接用来理解本文的小球概率论证与 SLND 条件在统计逆问题中的平行角色。中期可做:若想将此类临界 phase transition 结果迁移到 semiparametric / efficiency bound 的临界速率分析,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是将 SLND 小球估计与 HOIF 的余项控制做对接。

数理统计 / 假设检验 (hypothesis_testing, 8 篇)

1. 10.3150/25-bej1927 · arXiv — SID: A novel class of nonparametric tests of independence for censored outcomes

  • 作者: Jinhong Li, Jicai Liu, Jinhong You, Riquan Zhang
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对右删失结局与协变量之间的独立性检验问题,提出了一类新的非参数度量——生存独立散度(SID)。核心思路是利用计数过程策略,将删失数据下的不可直接检验的独立性假设等价转化为完全观测数据上的检验问题,从而规避了删失机制引起的推断困难。SID 具有零值当且仅当响应变量与协变量独立,且能检测多种非线性依赖关系。论文给出了 SID 的经验估计量并建立了其渐近性质(一致性、收敛速率),进一步设计了野自助法(wild bootstrap)来估计临界值并证明了检验的一致性。数值实验表明,在多种设定下 SID 检验优于现有方法。对您而言,本文直接涉及假设检验与非参数统计的核心兴趣,其计数过程与自助法的结合技术可借鉴于处理因果推断中删失/缺失数据下的非参数检验问题。
  • 关键技术: counting process, wild bootstrap, independence divergence, nonparametric test, censored data, asymptotic consistency
  • 为什么对您有用: 本文直接对接您的第一兴趣:假设检验(hypothesis testing)与非参数统计(nonparametric theory),提出一种针对右删失数据的新型非参数独立性检验。您非常熟悉的非参数统计武器(如经验过程、渐近理论)可直接用于理解并验证本文的渐近结果与自举检验的一致性,且工具库中的‘nonparametric statistics’与‘high-dimensional asymptotics’足以支撑您快速消化全文。follow-up 判为立即可做:只需将 SID 思想与您的因果推断中删失/缺失数据问题(如混杂调整后的独立性检验)结合即可动手。

2. 10.3150/25-bej1939 · arXiv — Regularized e-processes: Anytime valid inference with knowledge-based efficiency gains

  • 作者: Ryan Martin
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在 anytime-valid inference / e-process 框架下,目标是解决数据依赖样本量下的可靠推断问题,并在研究者拥有相关但不完整先验信息时提升效率。本文提出 regularized e-process,通过基于知识的 imprecise-probabilistic regularization 构建新检验过程,核心工具为 generalized Ville's inequality,保证推断在新的 knowledge-dependent 意义下 anytime valid。该方法同时实现 possibility-theoretic 不确定性量化,兼具 frequentist-like calibration 与 Bayesian-like 性质(满足似然原理、避免 sure-loss、提供可靠性保证的决策框架)。主要理论结果是广义 Ville 不等式及相应的效率提升界,对您有用在于为 sequential hypothesis testing 提供了一个融合 imprecise probability 与 e-value 的新视角。
  • 关键技术: e-process, anytime-valid inference, imprecise probability regularization, generalized Ville's inequality, possibility-theoretic uncertainty quantification
  • 为什么对您有用: 本文直接连接 hypothesis testing 子方向,将 e-process 与 imprecise probability 结合以提升 sequential inference 效率。用 technical_arsenal 中 nonparametric statistics / minimax bounds 的经验可以分析其 efficiency gain 的理论界是否紧,或与 classical sequential test 的 power 做对比。中期可做:需先在 moderately_familiar 的 M-estimation theory 上补充 imprecise probability / game-theoretic probability 的基础,才能深入其 calibration 与 sure-loss avoidance 的证明细节。

3. 10.3150/25-bej1935 · arXiv — Detecting a late changepoint in the preferential attachment model

  • 作者: Gianmarco Bet, Kay Bogerd, Rui M. Castro, Remco van der Hofstad
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在 preferential attachment 随机图模型下,基于网络单次快照检测附着机制是否发生变点,estimand 为变点时间 τ_n = n - cn^γ 处的参数从 δ_0 跳变至 δ_1。原假设为常数 δ_0 的 affine attachment,备择假设为未知 τ_n 处参数跳变至 δ_1。提出两个基于最小度节点数的检验统计量,在 1/2 < γ < 1 时具有渐近全势(asymptotically powerful),并证明统计量渐近正态以校准检验;第二个检验无需已知 δ_0 仍达同等势保证。猜想 γ < 1/2 时无有力检验,暗示存在检测盲区。对您有用:该文将网络变点检测严格化为 hypothesis testing 问题并给出渐近正态校准,与您 primary interest 中的 mathematical statistics (hypothesis testing) 直接相关。
  • 关键技术: preferential attachment model, changepoint detection, asymptotically powerful test, minimal-degree vertex count, asymptotic normality of test statistic, late changepoint regime
  • 为什么对您有用: 本文直接连接您 primary interest 中的 hypothesis testing 子方向,在随机图变点检测设定下给出渐近正态校准和势分析。您武器库中的 minimax bounds for estimation problems 和 nonparametric statistics 可用来分析该文猜想 γ<1/2 时的检测不可能性——即刻画统计与计算/信息阈值之间的 gap。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将当前基于最小度数的检验推广到更一般的网络统计量,并严格证明 γ<1/2 的 impossibility bound。

4. 10.3150/25-bej1944 — On some geometric identities involving the sample covariance matrix and its adjugate

  • 作者: Alexander Dürre, Davy Paindaveine
  • 期刊/来源: Bernoulli
  • 机构: Leiden University · Université Libre de Bruxelles
  • 分类: vol 32 · issue 3
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在有限二阶矩的一般分布与椭圆分布设定下,研究样本协方差矩阵 S 的 adjugate adj(S) 及其与样本均值 X̄ 组合的矩阵泛函的统计性质。核心几何机制是将 adj(S) 的元素与基于数据的单纯形/平行体的 Lebesgue 测度建立恒等式,从而将 Wilks 广义方差 det(S) 的经典标量恒等式推广至矩阵泛函。基于这些恒等式,构造了对应总体量的一致最小风险无偏 (UMRU) 估计量,并指出在椭圆分布(部分不相关)与一般分布(部分中位数不相关)框架下,这些结果可替代条件独立性用于偏相关性检验。对您可能有用:adj(S) 恒等式为高维协方差结构检验提供了新的矩阵级工具,直接连接到您的高维渐近理论与假设检验兴趣。
  • 关键技术: adjugate matrix identities, geometric measure of simplices, UMRU estimation, partial uncorrelatedness testing, Wilks generalized variance, elliptical distributions
  • 为什么对您有用: 本文直接连接到您的高维统计(随机矩阵泛函)与假设检验子方向,将经典标量恒等式推广至 adj(S) 矩阵级,为偏相关性检验提供新视角。您武器库中的 high-dimensional asymptotics 可直接用于分析 adj(S) 在 p/n → γ 极限下的谱行为,验证 UMRU 估计量的大 p 渐近性质。立即可做:用 very_familiar 的高维渐近理论计算 adj(S) 在 Marčenko-Pastur 律下的极限谱分布,探索高维偏相关检验的渐近功效。

5. 10.3150/25-bej1961 · arXiv — Functional central limit theorem for the subgraph count of the voter model on dynamic random graphs

  • 作者: Simone Baldassarri, Nikolai Kriukov
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文研究动态随机图上两意见 voter 模型的子图计数向量联合演化,设定为边动态受顶点意见单向反馈而意见动态不受图结构影响的 Markov 系统,estimand 为子图计数向量的泛函极限分布。核心机制基于子图计数的 U-statistic 结构分解与投影技术,利用 Markov 过程的 ergodic 性质与泛函鞅中心极限定理,在顶点数 n 趋于无穷的渐近框架下建立收敛。主要理论结果为:经适当中心化与 n^{-1/2} 缩放后,子图计数向量泛函收敛到特定多维 Gauss 过程,给出了极限协方差结构的显式刻画。对您可能有用:该子图计数的 U-statistic 投影与高阶分解路径与您 higher-order U-statistics 的 tensor contraction 视角有直接结构对应。
  • 关键技术: U-statistic projection, functional martingale central limit theorem, subgraph count vector, Markov ergodic dynamics, one-way feedback voter model
  • 为什么对您有用: 直接连接您 primary interest 中的 higher-order U-statistics:子图计数本质上是图数据上的高阶 U-statistic,本文的投影与分解路径可用您 very_familiar 的 treewidth / tensor contraction / einsum 视角重新审视其计算复杂度与渐近方差结构。follow-up 判断:立即可做——用您已有的 higher-order U-statistic 计算框架分析该模型下更高阶子图计数的 einsum contraction cost 与 minimax rate。

6. 10.3150/25-bej1962 · arXiv — On the breakdown point of transport-based quantiles

  • 作者: Marco Avella Medina, Alberto González-Sanz
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文研究基于最优传输定义的多元分位数(transport-based quantiles)的稳健性,具体推导出其崩溃点(breakdown point)。作者证明,在Chernozhukov等人(2017)和Hallin等人(2021)定义的运输中位数具有崩溃点1/2,且深度轮廓中阶数τ ∈ [0,1/2]的点的崩溃点为τ。该结果将一元分位数崩溃点的经典性质推广到多元设置,证明多元运输深度与一元深度享有相同的崩溃特性。证明的核心是通过建立运输映射在给定点处的崩溃点与该点在参考测度中Tukey深度之间的通用联系,从而将问题转化为几何深度分析。该工作为多元稳健统计提供了理论基础,也揭示了最优传输框架与经典深度概念的内在关联。对于您在数学统计与假设检验方面的兴趣,崩溃点的精确刻画可直接用于构建稳健的统计推断程序,尤其适用于多元分布设置下的异常值诊断和检验。
  • 关键技术: optimal transport, center-outward quantiles, breakdown point, Tukey depth, multivariate depth contour
  • 为什么对您有用: 本文直接关联您对数学统计与假设检验的兴趣,特别是统计量的稳健性分析这一基础问题。文中使用的Tukey深度与崩溃点论证是您非常熟悉的非参数统计与极小极大界思想的延伸——崩溃点本质上刻画了估计量的极小极大抗污染能力,与您武器库中的minimax bounds工具可自然衔接。后续可中期探索:若先补上最优传输理论(目前不在您武器库中),即可利用崩溃点结果构造多元假设检验的稳健p值或置信区域,或推广到因果推断中的分布平衡检验。

7. 10.3150/25-bej1943 · arXiv — Sharp anti-concentration inequalities for extremum statistics via copulas

  • 作者: Matias D. Cattaneo, Ricardo P. Masini, William G. Underwood
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在一般相依结构下,研究 \(d\) 个同边际分布随机变量最大值统计量的点wise concentration function 的上下界,estimand 是 \(\mathbb{P}(M - t \leq \epsilon)\)\(\epsilon\) 的依赖关系。第一主定理不加任何边际与 copula 限制,证明 concentration function 对维度 \(d\) 的严格亚线性依赖在一般情况下不可能,给出紧的下界。随后引入凸对角截面 copula 类,在该限制下获得更优的 concentration function 上界,进而导出一系列维度无关或仅 poly-logarithmic-in-\(d\) 的 anti-concentration 不等式。理论在若干特例下改进了已知最优结果,并在高维推断中给出应用,具体针对 factor model 下 Gaussian mixture approximation 的分布保证。对您有用:anti-concentration 是 high-dimensional hypothesis testing(如 bootstrap / Gaussian approximation 的 validity)的核心工具,本文的 copula 视角为相依结构下的 max-statistic 推断提供了更紧的界。
  • 关键技术: copula theory, convex diagonal section copula, anti-concentration inequality, extremum statistic concentration function, Gaussian mixture approximation, factor model high-dimensional inference
  • 为什么对您有用: 直接连接 hypothesis testing 与 high-dimensional statistics:anti-concentration 是高维 max-statistic(如 simultaneous inference / bootstrap validity)的理论基石,本文的 copula 视角与 convex diagonal 假设为相依数据下的 sharper rate 提供了新口子。用 technical_arsenal 中 very_familiar 的 minimax bounds for estimation problems 思路,可以审视本文 concentration function 下界的紧性是否可进一步在更具体的高维 testing 场景中收紧。follow-up 判断:立即可做——用 very_familiar 的高维渐近工具验证本文 factor model 应用中 Gaussian mixture approximation 的实际改进幅度,并尝试将 convex diagonal copula 条件翻译为常见 time-series / spatial dependence 的可验证条件。

8. 10.3150/25-bej1959 · arXiv — The limits of assumption-free tests for algorithm performance

  • 作者: Yuetian Luo, Rina Foygel Barber
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在黑箱算法设定下,研究对算法 A 在训练样本量 n 下的期望性能进行推断的根本限制;核心 estimand 是算法的期望风险而非单次拟合模型的条件风险。作者证明:任何仅依赖经验观测的黑箱检验,若总样本量 N 未远大于评估样本量 n,则无法对算法性能做有效推断;相反,评估单次拟合模型的风险在此情形下却可能容易。进一步引入算法稳定性假设,发现除非拟合模型近乎确定性(高稳定性极端情形),否则同样的 hardness 结果依然成立;多算法比较问题亦有类似下界。对您可能有用:该工作为黑箱算法评估提供了类似于 minimax 下界的 impossibility 结果,直接呼应 hypothesis testing 与有限样本推断的根本限制。
  • 关键技术: black-box testing framework, algorithm performance inference, sample size hardness lower bound, algorithmic stability assumption, fitted model vs algorithm evaluation distinction
  • 为什么对您有用: 直接连接 hypothesis testing 子方向:本文本质是在黑箱设定下建立算法性能推断的 impossibility / lower bound,与经典 minimax bounds for estimation problems 的思路一致。用您 very_familiar 的 minimax bound 工具可以直接审视其下界构造是否紧、是否可推广到 semiparametric estimand 的黑箱检验场景。立即可做:用 minimax 下界语言重述其 hardness threshold,并尝试在更一般的 loss / estimator 类下验证 N ≫ n 的必要条件是否仍成立。

统计计算 / 算法 (stat_computing, 2 篇)

1. 10.3150/25-bej1934 · arXiv — Optimal importance sampling for overdamped Langevin dynamics

  • 作者: Martin Chak, Tony Lelièvre, Gabriel Stoltz, Urbain Vaes
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_method
  • 摘要: 该文针对多模态分布的平均值估计问题,利用overdamped Langevin dynamics的MCMC方法中常见的metastability导致的高方差,提出了一个重要性采样框架。核心思想是通过修改势函数来加速过程遍历,再通过重加权项纠正偏差。在一维情形下给出了最小化渐近方差的最优偏置势的显式表达式,并为多维情形设计了数值逼近方法。同时,还探讨了对一类可观测量的渐近方差加权最小化策略。数值实验验证了方法对势垒跨越和加速收敛的有效性。对您来说,这项工作直接关联统计计算领域,特别是算法设计和数值优化,而一维解析解和多维数值策略可为您的高维随机模拟或软件实现提供可参考的降噪技术。
  • 关键技术: overdamped Langevin dynamics, importance sampling, asymptotic variance minimization, biasing potential, reweighting estimator, multimodal distributions
  • 为什么对您有用: (1) 文献主题属于stat_computing,具体是MCMC加速与重要性抽样设计,这与您对统计计算(数值方法、算法)的主要兴趣完全匹配。 (2) 您的武器库中'非参数统计'、'逆问题随机噪声'可用于分析该文渐近方差的估计准确性和收敛性;'软件发展'可直接应用于实现其数值算法。 (3) 属于中期可做:若您想推广该文的多维最优势数值方法至更高维或复杂可观测类,需先在'半参数理论'方面增加工具积累(比如渐近效率与正交得分),否则目前只能在固定低维情形下直接复现实验。

2. 10.3150/25-bej1956 · arXiv — Hessian stability and convergence rates for entropic and Sinkhorn potentials via semiconcavity

  • 作者: Giacomo Greco, Luca Tamanini
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文在一般无界设定下首次建立了熵正则化最优传输问题对偶解(熵势)的Hessian定量稳定性界。证明策略依赖熵势的半凹性以及将熵传输计划表示为前向和后向扩散过程(Schrödinger桥)的表示。该框架同时给出了熵传输计划和势的梯度的定量稳定性界的一个随机化证明。作为直接推论,得到了Sinkhorn迭代中梯度和Hessian的指数收敛速率,该问题在无界设定下此前尚未解决;收敛速率对正则化参数具有多项式依赖。本文主要贡献在于提供了二阶定量稳定性分析,并弥合了Sinkhorn算法理论中的一个空白。对您而言,Sinkhorn算法是计算最优传输的核心方法,其收敛速率的精细刻画对统计计算中涉及大规模传输问题的算法设计有参考价值。
  • 关键技术: entropic optimal transport, semiconcavity, Schrödinger bridge, Sinkhorn algorithm, stability bounds, exponential convergence rates
  • 为什么对您有用: 本文属于统计计算中离散最优传输算法的理论分析,与您「statistical computing (numerical methods, algorithm)」兴趣直接对应。您的武器库中「high-dimensional asymptotics」和「inverse problems」可辅助理解其稳定性分析框架,但Sinkhorn算法的收敛理论需要先熟悉最优传输基础,目前算「中期可做」——需先在「software development」之外补充该算法实现和数值实验经验。

其他 (other, 6 篇)

1. 10.3150/25-bej1940 · arXiv — Misspecified Bernstein–von Mises theorem for hierarchical models

  • 作者: Geerten Koers, Botond Szabó, Aad van der Vaart
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文在错误指定(misspecified)且非独立同分布的分层模型框架下,推导了贝叶斯后验分布的 Bernstein-von Mises 定理,目标是证明后验渐近正态性成立的条件,即使模型设定有误。作者将定理应用至包含非线性算子的分层模型,具体包括平方积分算子和 PDE 约束的反问题:稳态 Schrödinger 方程(带参数边界条件)和一般抛物型 PDE(带参数势能与边界条件)。技术核心在于利用后验分布的 Laplace 型展开,结合函数数据分析中的经验过程工具,处理 misspecified 模型带来的偏差。数值模拟验证了平方积分算子和 Schrödinger 方程设定下后验置信区间的覆盖性质。这对您作为非参数统计与反问题领域的熟悉者具有参考价值:本文从贝叶斯角度给出了反问题中模型错误指定下的推断理论,可补充您以频率学派为主的 inverse problems with random noise 工具库。
  • 关键技术: Bernstein-von Mises theorem, hierarchical models, misspecified models, PDE-constrained inverse problems, squared integral operator, Schrödinger equation
  • 为什么对您有用: 连接到您 primary interest 中 inverse problems with random noise 这一子方向,本文处理的 PDE 反问题(Schrödinger 方程、抛物型 PDE)正是该领域典型模型。您可以用 very_familiar 的 minimax bounds for estimation problems 框架分析本文定理给出的后验收缩速率在 misspecified 下是否最优;由于贝叶斯方法依赖的叠加积分 operator 也可与 higher-order U-statistics 的 computation(treewidth/einsum)建立边界的先验验算。跟进判断:立即可做——您已有的 inverse problems 与 nonparametric statistics 知识可直接阅读理论部分,并尝试将 misspecified BvM 定理推广至其他反问题(如线性算子)。

2. 10.3150/25-bej1958 · arXiv — Comparing moments of real log-concave random variables

  • 作者: Daniel Murawski
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文研究均值零的对数凹实随机变量的矩比较不等式。主要结果:当p≥q≥1时,有||X||_p ≤ (p/q)||X||_q,这是已知对称情形的重要推广。进一步,在所有对数凹实随机变量中,矩比||X||_p/||X||_q在某个移位指数分布达到最大值。由此导出任意对数凹随机变量的上界||X||_p ≤ C0·(p/q)||X||_q,其中最佳常数C0=e^{W(1/e)}≈1.3211(W为Lambert函数)。证明依赖于对数凹密度函数的性质、极值问题和凸分析技术。该结果对高维统计中常见对数凹分布假设下的矩分析提供了精确的工具,可用于改进浓度不等式和协方差估计的界。
  • 关键技术: log-concave random variables, moment comparison inequalities, Lambert W function, extremal problem, shifted exponential distribution
  • 为什么对您有用: 该结果直接服务于高维统计中广泛使用的对数凹分布假设(如协方差矩阵估计),与您的高维渐近性和非参数统计兴趣相关。然而,本文是纯概率理论,不涉及统计方法或算法,武器库中缺乏对数凹分布的精细分析方法(如log-concave maxima理论),因此当前只能作为背景知识储备,暂不可直接转化为统计方法改进。

3. 10.3150/25-bej1950 · arXiv — A law of large numbers for kinetic interacting diffusions

  • 作者: Carlo Bellingeri, Fabio Coppini
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 本文研究有限时间域上受独立布朗运动驱动的交互动能粒子系统经验测度的收敛性,目标是在仅要求初始分布弱收敛(无需独立性或矩条件)的设定下证明其收敛到非线性 Fokker-Planck PDE。核心机制利用了动能非线性 PDE 的最新进展,通过弱收敛初始条件放宽了经典 McKean-Vlasov 型极限所需的强假设,证明了经验分布依概率收敛到对应的非线性 Fokker-Planck 方程解。主要理论结果是在更弱的初始数据假设下建立了交互动能扩散的 LLN,对您可能有用之处在于:该粒子系统的经验测度收敛框架与您熟悉的高维渐近理论及逆问题中的随机噪声处理有数学结构上的相似性,但主题偏离统计推断核心。
  • 关键技术: McKean-Vlasov limit, kinetic Fokker-Planck PDE, empirical measure convergence, weak convergence initial datum, interacting particle system
  • 为什么对您有用: 本文属于概率论与随机分析方向,与您 primary interests 中的因果推断、高维统计、效率理论等无直接交集;其经验测度收敛框架虽在数学结构上与您 very_familiar 的高维渐近理论有远距离相似,但核心 PDE 工具不在您的武器库中。对您而言属于暂不可做:核心机器(动能 PDE 分析、McKean-Vlasov 理论)完全不在 technical_arsenal 中,且缺乏统计推断目标(estimand / efficiency),不建议深入阅读。

4. 10.3150/25-bej1955 · arXiv — The football model, stochastic ordering and martingale transport

  • 作者: Gaoyue Guo, Nicolas Juillet, Wenpin Tang
  • 期刊/来源: Bernoulli
  • 机构: Mathématiques et Informatique pour la Complexité et les Systèmes · Centre de Recherche en Informatique · Columbia University
  • 分类: vol 32 · issue 3
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在锦标赛排序设定下,目标是给 Aldous–Kolesnik 的 football model(刻画可行比分序列的随机模型)提供显式构造,而非原先的非构造性存在证明。核心机制是将附加的随机序约束转化为 martingale transport 问题:寻找使边际分布满足给定 majorization 序的 martingale coupling。文中给出两种显式解——一是通过 Sinkhorn 算法求解熵优化问题,二是利用 shadow coupling 思路——两者均自然导出 strong stochastic transitivity 性质;同时讨论了非传递情形。主要理论结果是给出了 Moon 定理概率诠释的 constructive 版本,对您可能有用之处在于 martingale transport 与 Sinkhorn 算法在最优传输/统计计算中的交叉工具。
  • 关键技术: martingale transport, majorization order, Sinkhorn algorithm, entropy optimization, shadow coupling, stochastic transitivity
  • 为什么对您有用: 本文核心是 martingale transport 与最优传输的 constructive 方法,与您 primary interest 中的 statistical computing(数值方法与算法)直接相连,Sinkhorn 算法与 shadow coupling 是您 very_familiar 的软件开发与数值计算武器可直接攻的口子。但模型设定(tournament score sequence / stochastic ordering)与因果推断、高维或半参数效率理论无交集,理论 novelty 属于概率/传输方向而非统计推断。Follow-up 判断:立即可做——若对 Sinkhorn 在 martingale transport 中的数值实现感兴趣,可用 very_familiar 的软件开发与数值计算工具直接复现与探索;但若寻求与因果/效率理论的连接,则本文不提供入口。

5. 10.3150/25-bej1949 · arXiv — Convergence of the pruning processes of stable Galton-Watson trees

  • 作者: Gabriel Berzunza Ojeda, Anita Winter
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 1/10 · novelty: new_theory
  • 摘要: 本文研究稳定 Galton-Watson 树的剪枝过程(pruning process)在离散与连续框架下的统一与收敛问题。设定为临界条件化 Galton-Watson 树,其后代分布属于指数 α∈(1,2] 的稳定律吸引域,目标是验证经适当 rescaling 后的离散树序列在 leaf-sampling weak vague topology 下收敛到 α-稳定 Lévy 树。核心机制利用了 Löhr, Voisin 和 Winter (2015) 引入的 bi-measure R-树空间及 Feller-连续 Markov 过程框架,将离散与连续剪枝过程视为同一过程的不同初始条件,从而在 Skorokhod 空间(càdlàg 路径)中建立收敛。主要理论结果确认了从离散 Galton-Watson 树到连续 Lévy 树的剪枝过程收敛性,属于概率论与随机树结构的经典工作。对您而言,本文涉及随机树极限与 Markov 过程收敛,与您关注的 causal/高维/效率理论/U-统计量方向无直接交集。
  • 关键技术: Galton-Watson tree pruning process, bi-measure R-tree space, leaf-sampling weak vague topology, Skorokhod topology on cadlag paths, stable Levy tree convergence, domain of attraction of stable law
  • 为什么对您有用: 本文属于概率论随机树结构的经典收敛理论,与您 primary interests 中的 causal inference、高维 RMT、U-统计量、效率理论等方向均无直接技术连接。武器库中的 minimax bounds、HOIF、tensor contraction 等工具无法切入此论文的 Markov 过程与测度树拓扑框架。暂不可做:核心机器(随机树极限理论、càdlàg 空间上的 Markov 过程收敛)不在武器库里,且与您当前研究议程无交集,不建议展开阅读。

6. 10.3150/25-bej1932 · arXiv — Optimal designs for regression on Lie groups

  • 作者: Somnath Chakraborty, Holger Dette, Martin Kroll
  • 期刊/来源: Bernoulli
  • 分类: vol 32 · issue 3
  • 相关性 1/10 · novelty: new_theory
  • 摘要: 本文研究紧连通李群上复值响应、李群值预测变量的线性回归模型,使用拉普拉斯-贝尔特拉米算子的特征函数作为基函数。主要理论贡献是证明归一化Haar测度对于所有Kiefer Φ_p-准则都是近似最优设计。受代数组合中t-设计概念启发,作者引入λ-设计,用于构造固定样本量下的精确Φ_p-最优设计,并针对SU(2)和SO(3)两个具体李群给出了显式构造。文章最后用一个生物学应用展示了理论结果的实用价值。该工作将经典最优设计理论推广到流形结构预测变量,给出了紧李群上的具体设计方案。对非参数回归和统计设计交叉领域有兴趣的读者,可从流形基展开视角获得启发。
  • 关键技术: Haar measure, Φ_p-optimal design, λ-design, Laplace-Beltrami eigenfunctions, compact Lie groups
  • 为什么对您有用: 本文涉及流形上非参数回归的设计问题,与研究者对非参数理论与统计计算(算法设计)的兴趣有交集,特别是特征基展开思想与半参数理论中基函数技术一脉相承。但是,核心工具(紧李群调和分析、Haar测度性质)不在研究者当前技术武器库中,所以暂不可直接迁移。可作为拓展阅读,了解流形上实验设计的理论框架,但跟进实现需要先补李群基础。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论