跳转至

AoS — 54(2), 54(1), 53(6), 53(5) · 2026-05-17

  • 共 69 篇 · Annals of Statistics

因果推断 (causal_inference, 3 篇)

1. 10.1214/25-aos2597 — Parameter identification in linear non-Gaussian causal models under general confounding

  • 作者: Daniele Tramontano, Mathias Drton, Jalal Etesami
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在线性非高斯因果模型(LiNGAM)下,研究存在潜在变量时直接因果效应的参数识别问题,核心设定是允许潜在混淆变量对观测变量产生任意非线性影响。以往基于过完备独立成分分析(overcomplete ICA)的识别框架通常要求混淆为线性,本文突破了这一限制。主要理论结果是一个图准则(graphical criterion),证明了该准则是判定直接因果效应generic identifiability的充要条件。此外,给出了该准则的多项式时间算法实现,并基于识别结果探讨了估计启发式方法及向有环模型的推广。对您有用:直接推进了因果推断中的identification理论,特别是放松了latent confounding的函数形式假设,对处理复杂未观测混淆的因果模型(如proximal CI或IV中的非线性混淆)具有重要理论参考价值。
  • 关键技术: linear non-Gaussian causal models, generic identifiability, overcomplete ICA, graphical criterion, non-linear latent confounding, polynomial-time algorithm
  • 为什么对您有用: 直接推进了因果推断中的identification理论,放松了latent confounding必须为线性的假设;对您关注的因果识别(特别是存在未观测混淆时的设定)提供了新的图准则和算法,理论价值高。

2. 10.1214/25-aos2569 — Berry–Esseen bounds for design-based causal inference with possibly diverging treatment levels and varying group sizes

  • 作者: Lei Shi, Peng Ding
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在 Neyman 随机化模型下,本文研究处理水平数可能发散且各组样本量不等情况下的设计因果推断问题,目标是对线性及二次因果效应进行精确推断。作者将因果效应估计量表述为线性置换统计量,并基于 Stein 方法推导了该估计量线性与二次函数的 Berry–Esseen 界,给出了正态逼近的显式非渐近收敛速率。针对无重复的多样本实验,本文提出了新的方差估计量,填补了该设定下方差估计的理论空白。这些结果为发散维因果效应的设计推断提供了更强的有限样本理论保证。对您在设计因果推断与假设检验的高阶渐近理论交叉研究有直接参考价值。
  • 关键技术: design-based causal inference, Berry-Esseen bounds, Stein's method, linear permutational statistic, Neyman's randomization model, variance estimation
  • 为什么对您有用: 直接契合您在因果推断(设计推断框架)与数理统计(假设检验的高阶渐近性质/Berry-Esseen界)两个核心兴趣的交叉点,提供了处理水平发散时正态逼近的精确收敛速率与新的方差估计量。

3. 10.1214/25-aos2519 — Counterfactual inference in sequential experiments

  • 作者: Raaz Dwivedi, Katherine Tian, Sabina Tomkins, Predrag Klasnja, Susan Murphy, Devavrat Shah
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究纵向自适应序贯实验中的反事实推断问题,目标是在对自适应干预策略做极弱假设下,推断最小尺度(个体-时间点)上的反事实均值。由于未知参数远多于观测数据点,文章引入反事实均值的潜因子模型,作为非线性混合效应模型和双线性潜因子模型的非参数推广。估计上采用最近邻变体进行非参数拟合,利用潜因子结构克服维度灾难。理论上给出了反事实均值的非渐近高概率误差界,并在正则条件下,当个体数与时间点以合适速率联合趋于无穷时,构建了渐近有效的置信区间。该工作对您有用:它将纵向因果推断与潜因子模型及非参数理论结合,为微观随机化试验(如mHealth流行病学应用)提供了个体级推断的严格数学框架。
  • 关键技术: counterfactual mean estimation, latent factor model, nearest neighbor estimation, nonasymptotic error bound, adaptive treatment policy
  • 为什么对您有用: 直接契合您在纵向因果推断与序贯设计的核心兴趣,同时涉及非参数理论及流行病学应用(HeartSteps试验);其非渐近界和潜因子结构对高维/矩阵推断亦有方法论启发。

高维统计 / 随机矩阵 (high_dim_rmt, 18 篇)

1. 10.1214/25-aos2601 — Generalized linear spectral statistics of high-dimensional sample covariance matrices and its applications

  • 作者: Yanlin Hu, Qing Yang, Xiao Han
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 10/10 · novelty: new_theory
  • 摘要: 本文在高维设定下(n/N → c>0)研究样本协方差矩阵的广义线性谱统计量(GLSS)tr f(S_n)B_n,通过引入辅助矩阵 B_n 与测试函数 f 捕捉更丰富的谱特征。在对 B_n 和总体分布的温和假设下,作者建立了不同测试函数下 GLSS 的联合渐近正态性,并确定其收敛速率为 √(N/rank(B_n))。基于该理论,文章提出了一种新的泛函投影方法,用于对“总体尖刺”协方差矩阵的特征空间进行假设检验,并揭示了尖刺大小上的普适性现象。数值研究验证了 GLSS 的理论精度及新检验程序的优越性。该工作将经典 LSS 推广至带辅助矩阵的广义形式,对您在高维 RMT 理论及特征空间假设检验的研究具有直接参考价值。
  • 关键技术: Generalized Linear Spectral Statistics, Random Matrix Theory, joint asymptotic normality, spiked covariance model, functional projection approach, universality phenomenon
  • 为什么对您有用: 直接推进了您 primary interest 中的高维统计与随机矩阵理论(RMT),给出了带辅助矩阵的 LSS 渐近正态性与精确收敛速率,并提供了基于 RMT 的特征空间假设检验新方法。

2. 10.1214/25-aos2602 — Reviving pseudo-inverses: Asymptotic properties of large dimensional Moore–Penrose and ridge-type inverses with applications

  • 作者: Taras Bodnar, Nestor Parolya
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在高维渐近机制下(p/n → c > 1),研究样本协方差矩阵的Moore-Penrose逆及岭型逆的渐近性质,不假设总体协方差矩阵为单位阵倍数且无正态性假设。推导了广义逆矩阵加权样本迹矩的渐近行为,其解析表达式通过部分指数Bell多项式给出,便于实际计算。证明了Moore-Penrose逆在高维下渐近地充当总体协方差矩阵的正则化器。基于此构建了完全数据驱动的精度矩阵改进收缩估计器。理论与实证显示该收缩变换在多项应用中表现与现有基准相当或更优,且计算时间极短。对您研究高维统计中的RMT应用及统计计算(矩阵求逆的数值方法)有直接参考价值,提供了无正态假设下的新理论工具。
  • 关键技术: Moore-Penrose inverse, random matrix theory, high-dimensional asymptotics, partial exponential Bell polynomials, shrinkage estimation, precision matrix
  • 为什么对您有用: 直接推进您primary interest中的高维统计与RMT方向,放松了正态与标量协方差假设,给出了广义逆迹矩的显式Bell多项式表达,对精度矩阵估计和统计计算中的矩阵正则化方法有直接借鉴意义。

3. 10.1214/25-aos2575 — Optimality of approximate message passing for spiked matrix models with rotationally invariant noise

  • 作者: Rishabh Dudeja, Songbin Liu, Junjie Ma
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在加性旋转不变噪声的 spiked matrix model 设定下,研究秩一信号矩阵的估计问题。提出一类新的近似消息传递(AMP)算法,并在高维极限下通过 state evolution 给出其动态的简洁刻画。算法每步迭代对观测矩阵特征值应用非线性矩阵去噪器(利用噪声谱结构),并对前一步迭代应用非线性迭代去噪器(利用信号先验)。推导了矩阵与迭代去噪器的最优选择,证明所得算法在固定迭代预算下的一类广泛迭代算法中达到最低的渐近估计误差(渐近最优性)。对您而言,该文将 RMT 谱分析与 AMP 算法设计深度结合,直接推进了高维统计与 RMT 中 spiked model 的最优估计与计算方法。
  • 关键技术: approximate message passing, spiked matrix model, rotationally invariant noise, eigenvalue denoising, state evolution, asymptotic optimality
  • 为什么对您有用: 直接推进了高维统计与随机矩阵理论(RMT)中 spiked model 的最优估计理论,且提出的 AMP 算法对统计计算方向有直接参考价值。

4. 10.1214/25-aos2591 — Finite- and large sample inference for model and coefficients in high-dimensional linear regression with repro samples

  • 作者: Peng Wang, Min-ge Xie, Linjun Zhang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在高维线性回归设定下,本文旨在解决真实稀疏模型及回归系数的有限样本与大样本推断问题,克服传统方法无法处理模型选择不确定性的缺陷。基于repro samples框架(通过模拟数据生成机制构造人工样本),结合创新的Fisher inversion技术构建模型候选集,从而在Gaussian与非Gaussian误差下以接近1的概率覆盖真实模型。在此基础上,分别构建针对真实模型、单个/多个系数以及模型与系数联合的置信集,规避了全模型空间搜索的计算困难。理论上提供了有限样本与渐近性能保证;数值实验表明,相较于debiased ML与bootstrap方法,该方法在保证覆盖率的同时具有更小的置信集体积。对您有用:该文为高维推断提供了区别于debiased ML的新路径,且填补了高维模型选择不确定性推断与有限样本保证的空白,直接关联您的高维统计与假设检验兴趣。
  • 关键技术: repro samples framework, Fisher inversion, high-dimensional model selection, finite-sample inference, confidence set construction
  • 为什么对您有用: 直接关联您的高维统计与假设检验兴趣;为高维系数推断提供了区别于debiased ML的新路径,并填补了高维模型选择不确定性推断与有限样本保证的空白。

5. 10.1214/25-aos2582 — Analysis of singular subspaces under random perturbations

  • 作者: Ke Wang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究低秩信号加高斯噪声矩阵模型下的奇异向量与奇异子空间扰动问题。作者在先前工作基础上,将 Davis-Kahan-Wedin 定理完全一般化推广至任意酉不变矩阵范数。核心结果包括奇异向量的 ℓ∞ 界、奇异子空间的 ℓ2,∞ 界,以及奇异向量线性和双线性函数的精细扰动分析。同时推导了按奇异值加权的扰动奇异向量 ℓ2,∞ 界,并将理论应用于高斯混合模型与子矩阵定位问题。对您而言,这些 entrywise 和行向扰动界是高维推断(如 PCA 推断、debiased ML 残差控制)的关键理论工具,直接推进了您关注的随机矩阵理论方向。
  • 关键技术: signal-plus-noise matrix model, Davis-Kahan-Wedin theorem, unitarily invariant matrix norm, singular subspace perturbation, entrywise max-norm bounds
  • 为什么对您有用: 直接推进您 primary interest 中的高维统计与随机矩阵理论,提供了比传统谱范数更精细的 entrywise 和 ℓ2,∞ 扰动界,对后续做高维推断或 debiased 估计量的有限样本误差控制有直接理论价值。

6. 10.1214/25-aos2584 — Optimal eigenvalue shrinkage in the semicircle limit

  • 作者: David L. Donoho, Michael J. Feldman
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在非比例增长渐近框架($p/n \to 0$ 或 $\infty$)下的 spiked covariance model 中,研究总体协方差矩阵低秩扰动成分的最优特征值收缩估计。当 $p/n \to 0$ 时,样本协方差矩阵的谱极限由 Marchenko-Pastur 律转变为 Wigner 半圆律,催生了比例框架下未见的全新相变现象。针对 15 种不同的损失函数,作者推导出了闭式最优收缩与阈值规则,并证明仅需依赖数据纵横比 $\gamma_n$ 的统一规则即可在比例与非比例框架下同时达到完全渐近最优性。此外,利用 $\gamma_n \to 0$ 时 spiked covariance 与 spiked Wigner 模型的深刻联系,导出了后者的最优特征值收缩规则。该工作将经典 RMT 的极限谱定律从比例框架拓展至半圆极限,对您在高维统计与随机矩阵理论中的协方差估计与特征值收缩研究提供了更普适的最优解与理论工具。
  • 关键技术: spiked covariance model, Wigner semicircle law, eigenvalue shrinkage, disproportional-growth asymptotics, spiked Wigner model, minimax optimal thresholding
  • 为什么对您有用: 直接推进了您 primary interest 中的高维统计与随机矩阵理论,将特征值收缩的极限谱分析从 Marchenko-Pastur 比例框架拓展至半圆律非比例框架,提供了更弱假设下的闭式最优收缩规则,对高维协方差估计与推断方法具有直接可迁移性。

7. 10.1214/25-aos2538 — Yurinskii’s coupling for martingales

  • 作者: Matias D. Cattaneo, Ricardo P. Masini, William G. Underwood
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 8/10 · novelty: weaker_assumption
  • 摘要: 本文研究近似鞅在 $\ell_p$-范数下的 Yurinskii 耦合问题,旨在为非渐近分布分析提供显式误差界的高斯强逼近。作者将经典 $\ell_2$-独立向量结果推广至 $\ell_p$-范数下的近似鞅,并大幅弱化了已有文献的正则性条件;同时允许耦合变量服从更一般的高斯混合分布,并提出一种新的三阶耦合方法以在特定设定下获得更紧的逼近。基于此,导出了鞅经验过程的一致高斯混合强逼近,并特化至混合鞅与独立数据情形。理论结果被应用于非参数分块回归、局部多项式回归的分布逼近,以及高维鞅向量的中心极限定理。这对您研究高维统计中的非渐近推断、假设检验及非参数理论非常有用,提供了更弱假设下的强逼近与经验过程工具。
  • 关键技术: Yurinskii's coupling, Gaussian strong approximation, martingale empirical process, third-order coupling, high-dimensional CLT, local polynomial regression
  • 为什么对您有用: 直接关联您的高维统计与假设检验兴趣,为高维鞅向量的非渐近分布逼近提供了更弱假设下的理论工具,可应用于高维推断和非参数回归的分布理论。

8. 10.1214/25-aos2525 — Structured matrix learning under arbitrary entrywise dependence and estimation of Markov transition kernel

  • 作者: Jinhang Chai, Jianqing Fan
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究在噪声矩阵具有任意逐元素依赖的一般设定下,带噪低秩加稀疏矩阵恢复问题。提出非相干约束最小二乘估计量,并证明其在确定性下界及多种噪声分布下的匹配极小极大风险意义下是紧致的。核心理论贡献在于证明任意两个低秩非相干矩阵之差必然将能量分散到各元素(即不能过于稀疏),揭示了非相干低秩矩阵的结构性质。算法层面,采用交替最小化近似求解该非凸优化问题,数值实验显示其通常在几步内收敛。应用方面,该方法在估计结构化马尔可夫转移核及条件均值算子时达到极小极大最优,并拓展至多任务回归与结构化协方差估计。该工作在任意相依噪声下获得极小极大率,且涉及低秩矩阵结构与交替最小化算法,直接关联您对高维统计(RMT与矩阵估计)及统计计算的兴趣。
  • 关键技术: low-rank-plus-sparse matrix recovery, incoherent-constrained least-square, minimax optimality, alternating minimization, Markov transition kernel estimation
  • 为什么对您有用: 该工作在任意相依噪声下建立低秩矩阵恢复的极小极大最优性,直接关联您对高维统计与RMT的兴趣;其交替最小化算法与马尔可夫核估计也触及您的统计计算与半参数理论方向。

9. 10.1214/25-aos2573 — Communication-efficient and distributed-oracle estimation for high-dimensional quantile regression

  • 作者: Songshan Yang, Yifan Gu, Hanfang Yang, Xuming He
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究分布式设定下高维分位数回归的通信高效估计与推断问题,目标参数为折叠凹惩罚下的回归系数,关键设定为数据分块存储且受通信约束。提出迭代多步算法(IMSA)解决目标函数非凸挑战,并引入“分布式神谕估计量”(distributed-oracle estimator)新概念。理论上证明IMSA估计量以大概率收敛至该分布式神谕估计量,且相比ℓ1惩罚方法具有更快的收敛速率与更弱的支持恢复条件。进一步将框架扩展至高维模型中预指定低维成分的分布式推断,推导了检验统计量在原假设与局部备择假设下的极限分布。此外,设计了特征分割算法以适应分布式系统中的高维数据。该工作对您有用,因为它在高维框架下结合了分布式计算算法与假设检验理论,直接关联您的高维统计与统计计算兴趣,且局部备择下的功效分析对数理统计推断有参考价值。
  • 关键技术: distributed-oracle estimator, folded-concave penalty, iterative multi-step algorithm, high-dimensional quantile regression, distributed inference, feature-splitting algorithm
  • 为什么对您有用: 直接关联您的高维统计与统计计算兴趣,其分布式推断与局部备择假设下的极限分布推导对数理统计中的假设检验研究有直接参考价值。

10. 10.1214/25-aos2556 — A geometrical analysis of kernel ridge regression and its applications

  • 作者: Georgios Gavrilopoulos, Guillaume Lecué, Zong Shang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文在 RKHS 框架下研究核岭回归(KRR)的估计误差上界,对所有非负正则化参数给出统一的几何分析视角。核心工具包括:(1) 弱矩假设下椭球体的 Dvoretzky-Milman 定理;(2) 带嵌入指标条件的 RKHS 限制等距性质(RIP);(3) 有限阶多项式核的集中不等式。基于此,在次高斯设计与非渐近框架下证明了 KRR 估计误差上界的多重下降(multiple descent)现象,统一了此前多项式核的证明;给出了 Gaussian Equivalent Conjecture 的单边等距版本;将非线性核矩阵的线性化推广到多项式核的幂次机制;并将理论拓展到数据依赖核与弱矩假设。对您而言,该文将高维统计中的 multiple descent 与 Gaussian equivalence 问题通过 RKHS 几何工具统一处理,与您的高维统计/RMT 兴趣直接相关,且弱矩假设下的 Dvoretzky-Milman 定理和 RKHS-RIP 可能为高维推断中的矩条件放松提供新路径。
  • 关键技术: Dvoretzky-Milman theorem under weak moments, Restricted Isomorphic Property in RKHS, multiple descent phenomenon, Gaussian Equivalent Conjecture, kernel matrix linearization, concentration inequality for polynomial kernels
  • 为什么对您有用: 直接推进高维统计中 overparameterization 下的 multiple descent 与 Gaussian equivalence 理论,与您的高维统计/RMT 兴趣高度契合;弱矩假设下的几何工具和 RKHS-RIP 可迁移至高维推断中放松矩条件或分析 kernel-based debiased 方法。

11. 10.1214/25-aos2539 — Near optimal sample complexity for matrix and tensor normal models via geodesic convexity

  • 作者: Cole Franks, Rafael Oliveira, Akshay Ramachandran, Michael Walter
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文研究矩阵与张量正态模型中协方差矩阵Kronecker因子的估计问题,目标是在无需良好条件数或稀疏性假设下获得非渐近样本复杂度与误差率。作者证明了最大似然估计(MLE)在Fisher-Rao与Thompson度量下达到近乎最优的minimax误差率;其核心洞察是,在充分样本下负对数似然函数在Fisher信息度量诱导的正定矩阵几何下具有强测地凸性。该强凸性由特定随机量子信道的扩张性质决定,且分析不依赖初始值。同时,证明了实际计算MLE的flip-flop算法以高概率线性收敛。对于矩阵正态模型,所有界在对数因子内minimax最优;对张量正态模型,在足够样本下最大因子与整体协方差矩阵的界在常数因子内minimax最优。这对您研究高维统计中的矩阵/张量协方差估计理论及统计计算中的优化算法收敛性分析有直接参考价值。
  • 关键技术: Kronecker product covariance, geodesic convexity, Fisher-Rao metric, minimax optimal rate, flip-flop algorithm, random quantum channels
  • 为什么对您有用: 直击您在“高维统计(矩阵/张量模型)”与“统计计算(算法收敛性)”方向的兴趣;其基于测地凸性放松条件数假设的minimax最优率证明,为高维协方差估计与优化算法理论提供了新工具与更紧的界。

12. 10.1214/25-aos2523 — High-dimensional statistical inference for linkage disequilibrium score regression and its cross-ancestry extensions

  • 作者: Fei Xue, Bingxin Zhao
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文在固定效应数据整合框架下研究连锁不平衡得分回归(LDSC),目标是对高维 GWAS 汇总统计量进行推断,关键假设为汇总统计量存在全基因组依赖且估计的 LD 得分具有块对角依赖结构。作者将 LDSC 建模为高维推断问题,推导了其渐近正态性:在全基因组变体(如遗传方差估计)下估计量较易达到 n^{-1/2}-CAN,而在小子集变体(如分区遗传力分析)下渐近正态性则极难成立。进一步,通过建模不同种群间 LD 模式的差异,将 LDSC 扩展至跨血统分析。理论结果通过 UK Biobank 真实遗传数据得到验证。对您可能有用:该文处理高维依赖结构与块对角协方差矩阵的渐近理论,其高维推断框架对您的高维统计与数学统计兴趣有直接参考价值。
  • 关键技术: high-dimensional GWAS summary statistics, block-diagonal dependence, asymptotic normality, linkage disequilibrium score regression, cross-ancestry data integration
  • 为什么对您有用: 直接关联您的高维统计与数学统计兴趣:文章处理高维 GWAS 汇总数据的全基因组依赖与块对角结构,推导了估计量的渐近正态性,其高维推断理论框架可为您在其他高维依赖结构下的推断问题提供借鉴。

13. 10.1214/25-aos2521 — The functional graphical lasso

  • 作者: Kartik G. Waghmare, Tomas Masak, Victor M. Panaretos
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文研究在稀疏高维设定(n≪p,每个元素至多与d≪p个元素相关)下,恢复p个联合分布的Hilbert空间随机元素之间的条件独立性结构。作者提出了graphical lasso的无穷维推广——functional graphical lasso,无需对函数数据进行有限截断或施加额外结构限制即可直接估计稀疏精度算子。方法具有plug-in性质,适用于稀疏/稠密观测设计及序列相关数据,且可从相合的极大似然哲学自然导出。理论上证明了在自然假设下的模型选择相合性,将经典有限维graphical lasso的多项结果推广至无穷维。对您而言,该工作将高维稀疏图模型估计从有限维拓展至函数空间,与您的高维统计及非参数/半参数理论兴趣直接相关,其无需截断的思路可为函数数据下的高维推断提供新路径。
  • 关键技术: functional graphical lasso, Hilbertian random elements, sparse precision operator estimation, model selection consistency, maximum likelihood in infinite dimensions
  • 为什么对您有用: 直接推进高维统计方向:将经典graphical lasso理论推广至无穷维函数数据,无需截断即达模型选择相合性,对您关注的高维稀疏估计与非参数理论交叉有方法论启发。

14. 10.1214/25-aos2592 — Inferring the dependence graph density of binary graphical models in high dimension

  • 作者: Julien Chevallier, Eva Löcherbach, Guilherme Ost
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文在由有向 Erdős–Rényi 随机图(未知参数 p)编码的 N 维二元交互链系统(含兴奋与抑制两个群体,均值场交互)下,研究如何仅从 T 个时间点的观测推断图的连通密度 p。作者提出一个易于计算的估计量,并证明其收敛速率为 N^{-1/2} + N^{1/2}/T + (log(T)/T)^{1/2}。理论分析的核心在于精确刻画交互链时空相关性的衰减,这通过定义系统向后再生表示的聚合随机游走来实现。此外,该向后再生表示还允许从平稳分布中完美采样该系统。主要理论贡献在于给出了高维图模型密度估计的收敛速度,且对 N, T 的相对尺度要求明确。对您而言,该文在高维图推断中的相关性衰减技巧与概率表示方法,可为高维统计中处理复杂依赖结构提供新的数学工具借鉴。
  • 关键技术: Erdős–Rényi random graph, mean field interaction, backward regeneration representation, coalescing random walks, spatiotemporal correlation decay
  • 为什么对您有用: 本文属于高维统计推断范畴,其对高维交互系统时空相关性衰减的精确概率刻画(通过聚合随机游走),为您在高维统计方向处理复杂依赖结构提供了可借鉴的数学理论工具。

15. 10.1214/25-aos2562 — Fundamental limits of community detection from multi-view data: Multi-layer, dynamic and partially labeled block models

  • 作者: Xiaodong Yang, Buyu Lin, Subhabrata Sen
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文在多视角网络(多层、动态、部分标注随机块模型)设定下,研究社区检测的信息论极限与互信息刻画。核心方法是在度数充分大的正则条件下,推导观测数据与潜在社区标签之间的互信息精确表达式。基于此统一框架,分别导出了非均匀多层块模型的社区检测尖锐阈值、动态随机块模型的弱恢复阈值,以及非平衡部分标注块模型的极限互信息。算法层面,提出了基于近似消息传递(AMP)的迭代算法以逼近上述理论极限。对您有用:该文将高维统计中的互信息计算与 AMP 算法应用于多视角网络相变分析,其极限刻画技巧和 AMP 框架可直接迁移至您关注的高维推断与随机矩阵理论研究中。
  • 关键技术: Approximate Message Passing (AMP), Mutual information characterization, Stochastic Block Model, Sharp detection threshold, Multi-layer network analysis
  • 为什么对您有用: 直接关联您的高维统计与随机矩阵理论(RMT)兴趣:文章利用互信息刻画与 AMP 算法推导多视角网络的尖锐相变阈值,其高维极限分析技巧和 AMP 框架对高维推断与 RMT 研究具有直接借鉴价值。

16. 10.1214/25-aos2579 — Trace test for high-dimensional cointegration

  • 作者: Alexei Onatski, Chen Wang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 本文研究高维数据下 Johansen 协整迹检验的渐近性质,设定为截面维度 N 与时间维度 T 成比例趋向无穷。作者证明了经过平移和缩放修正的迹统计量收敛于高斯分布,并给出了平移/缩放参数及高斯极限均值与方差的显式公式。蒙特卡洛模拟表明,该渐近检验的尺寸性质优于 Bartlett 修正版本,尤其在 N/T 较大时表现突出。模拟还揭示了检验功效的非单调性,并对其来源进行了理论解释。对您有用:直接结合了高维统计(RMT 比例极限)与假设检验,且协整检验是计量经济学核心,可借鉴其高维时间序列下 RMT 修正技巧。
  • 关键技术: Johansen's trace test, high-dimensional cointegration, random matrix theory, proportional asymptotics, Gaussian approximation
  • 为什么对您有用: 直接结合了您的主攻方向“高维统计(RMT)”与“假设检验”,且协整检验是“经济理论”的核心工具,可借鉴其在高维时间序列下利用 RMT 进行检验统计量修正的技巧。

17. 10.1214/25-aos2586 — Spectrum-aware debiasing: A modern inference framework with applications to principal components regression

  • 作者: Yufan Li, Pragya Sur
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在高维线性回归比例渐近设定下,传统自由度调整的 debiasing 受限于 i.i.d. 与 sub-Gaussian 假设,本文提出 Spectrum-Aware Debiasing 框架以处理具有行列依赖、重尾及潜在低秩结构的协变量。该方法通过重标度梯度下降步实现去偏,重标度因子源自样本协方差矩阵的谱性质。在协变量满足右旋转不变条件下,证明了去偏估计量的渐近正态性,并建立谱普适性(spectral universality)将保证推广至更广分布。作为推论,该方法首次修正了高维主成分回归(PCR)的偏差,并提出检验信号与样本协方差特征向量是否对齐的假设检验。对您有用:本文将 RMT 谱分析与高维 debiasing 深度结合,不仅推进了高维统计与随机矩阵理论在 inference 中的应用,其信号对齐检验也为高维假设检验提供了新工具。
  • 关键技术: spectrum-aware debiasing, random matrix theory, right-rotationally invariant, spectral universality, principal components regression, high-dimensional hypothesis testing
  • 为什么对您有用: 直接推进了您在 primary interest 中的高维统计与随机矩阵理论(RMT)方向,将谱分析引入 debiasing 框架放松了传统假设,其信号对齐检验也为高维假设检验提供了新工具。

18. 10.1214/25-aos2590 — Precise asymptotics of bagging regularized M-estimators

  • 作者: Takuya Koriyama, Pratik Patil, Jin-Hong Du, Kai Tan, Pierre C. Bellec
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在比例渐近(proportional asymptotics, n/p → γ ∈ (0,∞))设定下,研究子样本聚合正则化 M-estimator 的平方预测风险精确渐近行为及一致性风险估计。模型允许 M≥1 个异质正则化 M-estimator(不同子样本大小、凸损失与凸正则项)。核心技术创新是建立了重叠子样本上估计量与残差误差相关性的联合渐近行为,通过一个可证明压缩的非线性方程组刻画。辅以自由度相关的迹泛函收敛性证明,将已有 ridge/lasso 的结果推广至一般凸正则 M-estimator。理论揭示了集成与子样本规模产生的隐式正则化效应;在全集成(M→∞)且显式正则化消失时,最优子样本规模倾向于过参数化区域。联合优化子样本、集成规模与正则项可显著优于全样本单独调参。对您有用:该工作利用非线性压缩方程组精确刻画风险,是高维统计与 RMT 工具在集成学习中的前沿应用,对理解高维 M-estimator 的自由度与风险结构有直接启发。
  • 关键技术: proportional asymptotics, subagging, regularized M-estimators, contractive nonlinear system, trace functionals, degrees of freedom
  • 为什么对您有用: 比例渐近与迹泛函收敛属于高维统计与 RMT 的核心工具,该文通过非线性压缩方程组精确刻画集成 M-estimator 风险,直接契合您对高维统计与 RMT 的研究兴趣,且对高维正则化估计量的自由度理论有重要推广。

非参数 / 半参数 (nonparam_semipara, 28 篇)

1. 10.1214/25-aos2568 — Multivariate root-n-consistent smoothing parameter-free matching estimators and estimators of inverse density weighted expectations

  • 作者: Hajo Holzmann, Alexander Meister
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文研究多元逆密度加权期望(等价于回归函数的 Lebesgue 积分)的估计问题,该 estimand 在平均因果效应(ATE)、随机系数模型及 Berkson 测量误差中常见,而传统多元匹配估计在此存在严重的偏差问题。作者提出基于 K 阶 Voronoi 镶嵌单元的多项式最小二乘拟合来修正最近邻与匹配估计量。该方法在回归函数温和光滑且对协变量密度无需任何光滑假设下,即可达到 √n-CAN 速率。与现有偏差修正方法不同,该估计量完全避免非参数函数估计与依赖于样本量的平滑参数(如带宽)选择。理论部分通过信息论方法给出下界,证明回归函数的某种光滑性是实现参数速率的必要条件。对您有用:为因果推断中匹配估计的偏差修正提供了无需调参的 √n-相合方案,且其 Voronoi 镶嵌多项式拟合技术在半参数效率理论与非参数估计中具有方法论迁移价值。
  • 关键技术: matching estimator bias correction, Voronoi tessellation, polynomial least squares, inverse density weighted expectation, root-n-consistent estimation, information-theoretic lower bounds
  • 为什么对您有用: 直接关联因果推断中的 ATE 匹配估计与半参数理论中的 √n-CAN 估计;其无需平滑参数的偏差修正策略,为高维匹配和逆概率加权问题提供了新思路,并放松了对协变量密度的光滑假设。

2. 10.1214/25-aos2571 — Semiparametric Bernstein–von Mises phenomenon via Isotonized Posterior in Wicksell’s problem

  • 作者: Francesco Gili, Geurt Jongbloed, Aad van der Vaart
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在 Wicksell 逆问题(由2D截面投影估计3D分布)的非参数估计设定下,目标是实现渐近有效推断与自动不确定性量化。作者放弃对不可观测分布直接放 Dirichlet Process (DP) 先验的传统做法,转而对可观测分布放 DP 先验,利用共轭性简化计算,随后将后验投影到单调右连续函数的 L_2 子空间上,得到 Isotonized Inverse Posterior (IIP)。IIP 满足 Bernstein–von Mises (BvM) 现象,其渐近方差达到极小化极大速率 g_0(x)/2\gamma(\gamma>1/2 为真实 cdf 的 Hölder 连续度),且无需估计光滑度 \gamma 即可提供自动的不确定性量化。这是首个针对逆问题中基于投影的 DP 先验的半参数 BvM 定理,对您的非参数/半参数效率理论(BvM 与极小化极大速率)及天文统计(星系三维分布推断)研究均有直接参考价值。
  • 关键技术: Dirichlet Process prior, Bernstein-von Mises phenomenon, isotonized projection, Wicksell's inverse problem, minimax asymptotic variance
  • 为什么对您有用: 直接推进了非参数/半参数理论中逆问题的 BvM 现象与极小化极大效率研究;同时 Wicksell 问题是天文统计的经典应用(由2D投影推断3D星体分布),兼具理论深度与天文学背景。

3. 10.1214/25-aos2587 — Scalable inference for nonparametric stochastic approximation in reproducing kernel Hilbert spaces

  • 作者: Meimei Liu, Zuofeng Shang, Yun Yang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究非参数回归模型中再生核希尔伯特空间(RKHS)下的随机逼近问题,目标是对非线性回归函数进行在线估计与逐点/全局统计推断。作者基于 RKHS 中的泛函随机梯度下降(SGD)算法,提出在线乘数 Bootstrap 方法,构建了渐近有效的置信区间与置信带。理论核心在于刻画泛函 SGD 估计量的非渐近行为:通过在 supremum 范数下建立该估计量的高阶展开,并结合非独立同分布加权经验过程上确界的 Gauss 逼近,证明了 Bootstrap 方法的一致性。研究进一步揭示了 SGD 步长调节对估计效率与不确定性量化精度的权衡关系。对您有用:本文的泛函高阶展开技术与经验过程 Gauss 逼近可直接借鉴到您关注的非参数理论及高阶 U 统计量研究中,且其在线推断算法对统计计算方向有参考价值。
  • 关键技术: reproducing kernel Hilbert space, functional stochastic gradient descent, online multiplier bootstrap, higher-order expansion, Gaussian approximation of empirical process, supremum norm
  • 为什么对您有用: 本文在 RKHS 框架下对泛函 SGD 估计量进行了 supremum 范数下的高阶展开,这与您关注的非参数理论及高阶 U 统计量/展开技术高度契合;同时在线推断算法与步长-推断权衡关系对统计计算方向有直接参考价值。

4. 10.1214/25-aos2572 — Optimal convex M-estimation via score matching

  • 作者: Oliver Y. Feng, Yu-Chun Kao, Min Xu, Richard J. Samworth
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在线性回归设定下,本文研究如何构造数据驱动的凸损失函数,使得经验风险最小化在估计回归系数时达到最优渐近方差。在总体水平上,最优凸损失的负导数是噪声分布对数密度导数的最佳递减近似;该问题等价于在Fisher散度下对噪声分布进行对数凹投影,可通过非参扩展的score matching实现。在样本水平上,提出的半参估计量具有计算高效性,且被证明在所有凸M估计量中达到了最小的渐近协方差矩阵。以非对数凹的Cauchy误差为例,最优凸损失呈Huber形式,其相对于已知误差分布的MLE渐近效率大于0.87,兼顾了鲁棒性、凸计算便利性与高统计效率。对您有用:该工作将非参score matching与半参效率理论结合,在凸约束下推导效率下界,对您关注的半参/非参理论及效率理论(最优渐近方差)有直接的方法论启发,且附带R包便于计算验证。
  • 关键技术: convex M-estimation, score matching, log-concave projection, Fisher divergence, asymptotic covariance minimization, semiparametric efficiency
  • 为什么对您有用: 直接连接到您关注的半参/非参理论与效率理论:在凸M估计类中推导并达到最小渐近协方差(效率下界),同时使用非参score matching与对数凹投影,为鲁棒估计中的效率-计算权衡提供了新视角,附带R包asm也契合您的统计计算兴趣。

5. 10.1214/25-aos2559 — High-dimensional Hilbert–Schmidt linear regression with Hilbert manifold variables

  • 作者: Changwon Choi, Byeong U. Park
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究协变量与响应均取值于 Hilbert 流形的高维线性回归问题,estimand 为连接不同函数空间的 Hilbert–Schmidt 算子,设定允许协变量个数随样本量指数增长且部分变量位于无穷维空间。方法在一般非凸惩罚框架下提出变量选择与估计,涵盖 SCAD、MCP 等多种惩罚函数。理论上利用 Hilbert 流形上的现代统计理论,证明了估计量的 oracle property 并导出 error bounds;收敛分析处理了无穷维流形结构与超高维协变量同时存在的复合困难。计算方面给出了求解约束优化问题的高效算法。该工作将传统有限维高维惩罚回归推广至流形上的函数数据,对您在 semiparametric/nonparametric 理论与高维统计交叉方向的研究有直接参考价值,尤其是无穷维参数空间下 oracle inequality 与 error bound 的推导技术可迁移至其他泛函估计问题。
  • 关键技术: Hilbert–Schmidt operator, Hilbert manifold regression, nonconvex penalization, oracle property, error bound, infinite-dimensional variable selection
  • 为什么对您有用: 直接连接您 primary interest 中的高维统计与 semiparametric/nonparametric 理论:Hilbert 流形上的高维回归是两个方向的交叉,其 oracle property 与 error bound 证明技术可迁移至您关注的泛函估计与效率理论问题。

6. 10.1214/25-aos2548 — The empirical copula process in high dimensions: Stute’s representation and applications

  • 作者: Axel Bücher, Cambyse Pakzad
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究高维设定下的经验 copula 过程,允许维度 d 相对于样本量 n 呈指数级增长,并在底层 copula 的弱平滑假设下展开。核心理论贡献是证明了 Stute 表示定理的高维有效性:固定维数的低维边际经验 copula 过程可由低维边际标准经验过程的泛函逼近,且几乎必然误差项关于边际一致有界。基于该表示定理,文章将其应用于高维成对随机独立性检验,推广了现有文献结果。对于基于成对关联度量的检验统计量,在互独立性之外的更一般模型下仍可实现第一类错误控制;同时证明了基于 Bootstrap 的临界值可对一大类数据生成过程实现强族错误率(FWER)控制。该工作将非参数经验过程逼近理论拓展至 d ≫ n 情形,对您有用,因为其高维假设检验的框架和非参数渐近表示工具直接契合您在假设检验与非参数理论方面的核心兴趣。
  • 关键技术: empirical copula process, Stute's representation, high-dimensional asymptotics, pairwise independence testing, bootstrap critical values, familywise error rate control
  • 为什么对您有用: 直接关联您在数学统计(假设检验)和非参数理论方面的核心兴趣;Stute 表示定理在高维 d ≫ n 下的推广,为构建高维依赖/独立性检验提供了严格的非参数渐近工具,且弱平滑假设放松了传统理论限制。

7. 10.1214/25-aos2529 — Symmetry: A general structure in nonparametric regression

  • 作者: Louis Goldwater Christie, John A. D. Aston
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文提出非参数回归中对称性(symmetry)的一般框架,将协变量稀疏性(covariate sparsity,即回归函数仅依赖至多 s<d 个协变量)推广为平移对称性(translation symmetry with linear orbits)的特例,并进一步扩展到刻画低维行为的非线性对称结构。核心方法包括:构造偏对称化算子(partial symmetrisation operators)作用于常规估计量以利用已知对称性获得加速收敛率;以及提出两步 M-估计量估计回归函数的最大对称性。在未知对称性但作用满足 Lipschitz 条件时,对称性可被足够快地估计,从而仍获得与已知对称性相同的加速率。模拟验证了有限样本表现。该框架对您在非参数/半参数理论方向理解结构假设如何改善 minimax rate 有直接借鉴意义,偏对称化算子的构造思路也可能迁移至半参数效率理论中的结构利用问题。
  • 关键技术: partial symmetrisation operator, two-step M-estimator, Lipschitz action, covariate sparsity generalization, minimax rate acceleration, translation symmetry with linear orbits
  • 为什么对您有用: 直接推进您 primary interest 中的非参数理论:将稀疏性假设统一为对称性框架,给出更一般的 rate 加速结果;偏对称化算子的显式构造和两步 M-估计思路可迁移至半参数效率理论中对结构信息的利用。

8. 10.1214/25-aos2576 — Information theoretic limits of robust sub-Gaussian mean estimation under star-shaped constraints

  • 作者: Akshay Prasadan, Matey Neykov
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在均值为有界星形集合 $K \subseteq \mathbb{R}^n$ 约束的位置模型中,研究存在 $\epsilon$ 比例对抗性污染且噪声为次高斯分布时的均值估计 minimax 风险。作者推导了平方 $\ell_2$ 损失下的极小化极大速率:$\max(\eta^{2},\sigma^2\epsilon^2)\wedge d^2$,其中临界值 $\eta^$ 由集合 $K$ 的局部熵 $\log \mathcal{M}_K^{\operatorname{loc}}(\eta,c)$ 隐式定义。对于已知或对称的次高斯噪声,所提算法可达此速率;当噪声分布未知时,速率略慢,变为 $\max(\eta^{*2},\sigma^2\epsilon^2\log(1/\epsilon))\wedge d^2$。该结果还进一步推广至无界星形约束集合的情形。本文完整刻画了星形约束下鲁棒均值估计的信息论极限,对您研究非参数理论中的 minimax 速率及局部熵工具的应用有直接参考价值。
  • 关键技术: minimax rate, local metric entropy, robust estimation, adversarial corruption, star-shaped constraint, sub-Gaussian noise
  • 为什么对您有用: 直接关联您在非参数理论和效率理论方面的兴趣:本文利用局部熵精确刻画了星形约束下鲁棒均值估计的 minimax rate,为处理复杂约束下的极小化极大下界提供了信息论极限和局部熵工具的范例。

9. 10.1214/25-aos2561 — Online estimation with rolling validation: Adaptive nonparametric estimation with streaming data

  • 作者: Tianyu Zhang, Jing Lei
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在流数据设定下,本文研究在线非参数估计器(如 SGD 变体)的模型选择与超参数调优问题,目标是在保持在线性质的同时实现自适应收敛率。提出加权滚动验证(weighted rolling validation),作为 leave-one-out CV 的在线变体,对典型 SGD 估计器几乎不增加额外计算量。理论分析基于一般的统计稳定性假设而非具体算法细节,使框架具有广泛适用性;类似批量 CV,该方法能提升基础估计器性能并达到自适应收敛率。模拟研究强调了发散权重(diverging weights)的必要性,并在候选估计器差异微小时展示出良好的敏感性。该工作将非参数自适应理论与在线计算结合,对您在非参数理论(自适应收敛率)和统计计算(在线算法调优)的交叉兴趣有直接参考价值。
  • 关键技术: weighted rolling validation, online leave-one-out cross-validation, stochastic gradient descent, statistical stability, adaptive convergence rate, diverging weights
  • 为什么对您有用: 直接连接您在非参数理论(自适应收敛率)和统计计算(在线算法)两个 primary interest 的交叉点;其基于稳定性假设而非具体算法的分析框架,可为在线非参数推断的效率理论研究提供可迁移思路。

10. 10.1214/25-aos2605 — Adaptive Bayesian regression on data with low intrinsic dimensionality

  • 作者: Tao Tang, Nan Wu, Xiuyuan Cheng, David Dunson
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文研究高斯过程(GP)先验下的后验收缩率如何自适应于预测变量的低内在维度与回归函数的光滑度,核心设定为紧域上非参数贝叶斯回归,关键正则条件涉及数据域的覆盖数与Minkowski维数。作者证明无需显式利用低维结构知识的通用GP先验即可达到自适应收缩率,后验收缩率在覆盖数意义下自适应于内在维度,至多损失对数因子。在数据域为紧流形的特殊情形下,通过新颖的RKHS逼近分析,证明GP先验的RKHS可逼近流形上任意阶内在Hölder函数,从而获得最优自适应后验收缩率。方法上提出基于kernel affinity与k-NN统计量的经验贝叶斯先验来选择核带宽,绕过内在维度的显式估计。该工作对您在非参数理论方向的理解有直接价值:GP先验在流形结构下的自适应率分析及RKHS逼近技巧可迁移至半参数效率理论中无穷维参数的先验构造问题。
  • 关键技术: Gaussian process prior, posterior contraction rate, RKHS approximation on manifolds, Minkowski dimension / covering number, empirical Bayes bandwidth selection, kernel affinity and k-NN statistics
  • 为什么对您有用: 直接推进非参数理论中GP先验自适应收缩率的研究,RKHS逼近流形上Hölder函数的新分析技巧可迁移至您关注的半参数效率理论中无穷维 nuisance 参数的先验/正则化构造;经验贝叶斯带宽选择方案对统计计算方向也有参考价值。

11. 10.1214/25-aos2505 — On the structural dimension of sliced inverse regression

  • 作者: Dongming Huang, Songtao Tian, Qian Lin
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文研究充分降维中切片逆回归(SIR)在结构维度d>4时表现不佳的长期难题,设定为多指标模型Y=f(PX)+ε且X服从p维标准正态分布。作者首先对链接函数f赋予高斯过程先验,证明Cov[E(X|Y)]的第d个特征值λd以高概率满足λd≤Ce^{-θd}的指数衰减。随后聚焦λd≤d^{-8.1}的低信号区间,推导出估计中心空间的极小极大风险下界为dp/(nλd)。结合这两步,从理论上严格证明了当d较大时信号特征值过小导致SIR失效,解决了困扰近三十年的经验现象。该极小极大下界与特征值衰减的联合分析,为高维半参数降维的估计极限提供了深刻洞见。
  • 关键技术: sliced inverse regression, sufficient dimension reduction, multiple index model, Gaussian process prior, minimax lower bound, eigenvalue decay
  • 为什么对您有用: 本文对高维协方差矩阵特征值指数衰减与极小极大下界的严格推导,直接契合您对高维统计(特征值行为)和半参数理论(估计极限与效率)的primary interest。

12. 10.1214/25-aos2566 — Pseudo-Labeling for kernel ridge regression under covariate shift

  • 作者: Kaizheng Wang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 本文研究协变量偏移下核岭回归的估计问题,目标是在目标分布上最小化均方误差,假设源分布与目标分布的特征边际不同但条件期望不变。方法将标注数据分为两份,分别训练一组候选模型与一个插补模型,后者为无标签目标数据生成伪标签,进而通过模型选择挑出最优候选。非渐近超额风险界表明,估计量能自适应目标分布结构与协变量偏移程度,且通过“有效样本量”概念量化源数据对目标任务的贡献。估计量达到极小极大最优误差率(至多相差 polylog 因子),且伪标签用于模型选择不会显著损失性能。该工作对您在半参数效率与协变量偏移下因果推断的设定有直接借鉴价值,尤其是伪标签构造与有效样本量的分析思路可迁移至 proximal CI 或 debiased ML 中的协变量偏移修正。
  • 关键技术: kernel ridge regression, covariate shift, pseudo-labeling, nonasymptotic excess risk bound, minimax optimal rate, effective sample size
  • 为什么对您有用: 协变量偏移下的核岭回归与半参数效率理论及因果推断中的 selection bias / proximal CI 设定高度相关,有效样本量与伪标签模型选择的分析可迁移至 debiased ML 中的协变量偏移修正。

13. 10.1214/25-aos2555 — Kurtosis-based projection pursuit for matrix-valued data

  • 作者: Una Radojičić, Klaus Nordhausen, Joni Virta
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文针对具有自然矩阵形式的数据,发展了基于峰度的投影追踪方法,提出了经典峰度和 Mardia 多元峰度的矩阵扩展作为投影指标。第一种指标同时估计矩阵两侧的投影方向,第二种指标则分别独立估计两侧投影;两者均在完全无标签信息下证明能恢复两群高斯混合的最优分离投影。理论上,作者建立了对应样本估计量的强一致性。模拟与手写邮政编码数据实证展示了方法的有效性。对您而言,矩阵值数据的降维框架与您在 random matrix theory 和统计计算(matrix/tensor)方向的兴趣直接相关,且强一致性证明可作为非参数理论参考。
  • 关键技术: projection pursuit, kurtosis-based projection index, Mardia's multivariate kurtosis, matrix-valued data, strong consistency, Gaussian mixture separation
  • 为什么对您有用: 矩阵值数据的投影追踪框架与您在 RMT 和统计计算(matrix/tensor)方向的兴趣直接相关;强一致性证明和非参数投影指标设计也可为非参数/半参数理论提供参考。

14. 10.1214/25-aos2531 — Theory of functional principal component analysis for discretely observed data

  • 作者: Hang Zhou, Dongyi Wei, Fang Yao
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在离散观测函数数据的设定下,本文研究具有发散指标(diverging index)的特征函数估计问题,目标是建立其在一般采样率下的矩界(moment bounds)。作者提出新方法处理扰动级数(perturbation series)中的各项,并克服了由估计偏差引起的可和性(summability)问题。通过精细的非参数分析,推导出特征函数与特征值的矩界,并在较弱的假设下证明了发散指标特征函数的矩界在极小化(minimax)意义下达到最优。这是首次针对离散观测函数数据获得发散指标特征函数的最优收敛率,填补了全观测理想情形与含噪声离散观测现实之间的理论空白。该结果与逆问题模型有深刻联系,值得进一步探究。对您有用:本文的极小化最优率证明与扰动级数处理技巧,直接丰富了您关注的非参数理论工具箱,对处理半参数/非参数模型中的算子估计与逆问题具有方法论迁移价值。
  • 关键技术: functional principal component analysis, perturbation series, minimax optimal rate, moment bounds, diverging eigen-index, inverse problem
  • 为什么对您有用: 本文聚焦发散指标特征函数的极小化最优率,属于非参数理论的核心进展;其处理扰动级数与偏差可和性的技巧,对您关注的非参数/半参数理论及逆问题中的算子估计有直接的迁移价值。

15. 10.1214/25-aos2536 — Trimmed sample means for robust uniform mean estimation and regression

  • 作者: Roberto I. Oliveira, Lucas Resende
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 本文研究在重尾分布与对抗性数据污染设定下,基于截断样本均值的鲁棒估计问题,目标是在给定函数族上一致估计期望以及二次损失下的回归系数。针对一致均值估计,作者将截断均值推广至一般范数下的随机向量均值估计,并导出了关于污染水平的最优依赖界;针对二次损失回归,提出了基于截断均值的线性回归方法。理论结果表明,所提估计器在对抗性污染水平下首次达到了最优极小极大速率,并在重尾设定下匹配或改进了现有最优界。模拟实验显示截断均值回归在重尾和污染数据下优于OLS和中位数均值法。对您而言,该文在函数族上一致估计的理论框架及对抗污染下的最优速率结果,对非参数理论和高维鲁棒推断具有直接参考价值。
  • 关键技术: trimmed sample mean, uniform error bounds, adversarial contamination, minimax rate, robust linear regression, median-of-means
  • 为什么对您有用: 本文在对抗污染下证明了截断均值的最优极小极大速率,对您关注的非参数理论(函数族一致估计界)和高维统计中的鲁棒推断具有直接的理论与速率借鉴意义。

16. 10.1214/25-aos2535 — Pseudo-likelihood-based M-estimation of random graphs with dependent edges and parameter vectors of increasing dimension

  • 作者: Jonathan R. Stewart, Michael Schweinberger
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在单观测、依赖边随机图模型下,目标是估计指数参数化离散无向图模型中维数递增的参数向量,其似然函数不可解。作者证明基于伪似然的 M-estimator 在参数维数随样本量增长时仍可获得收敛速率,核心工具为伪似然替代全似然以实现计算可扩展性,并通过控制依赖结构(重叠子群体)建立一致性。文章重点揭示了相变(phase transition)与模型近退化(near-degeneracy)两类现象对收敛速率的定量影响,并在广义 β-模型(dense 与 sparse 图设定)中给出具体收敛速率结果。对您有用之处在于:高维 M-estimation 收敛速率的证明技术(维数递增设定下的 rate 分析)可迁移至您关注的 semiparametric efficiency 与高维推断问题,伪似然作为计算替代方案的思路也可借鉴于统计计算方向。
  • 关键技术: pseudo-likelihood M-estimation, convergence rates under increasing dimension, exponential-family graphical models, phase transitions in random graphs, generalized beta-models, model near-degeneracy
  • 为什么对您有用: 维数递增设定下 M-estimator 收敛速率的理论分析直接关联您的高维统计与 semiparametric theory 兴趣;伪似然替代不可解似然的计算策略对统计计算方向有借鉴价值。

17. 10.1214/25-aos2558 — Optimal sequencing depth for single-cell RNA-sequencing in Wasserstein space

  • 作者: Jakwang Kim, Sharvaj Kubal, Geoffrey Schiebinger
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在非参数分布设定下,研究单细胞RNA测序中总测序深度有限时细胞数量与每细胞reads数之间的最优权衡,目标是最小化经验分布与真实总体之间的Wasserstein距离。核心机制:在测序深度预算约束下,增加细胞数必然降低单细胞测量精度,作者对经验分布与总体分布的Wasserstein距离建立了匹配的上界与下界。关键技术工具涉及Wasserstein距离的concentration inequality与非参数分布估计的minimax分析,不依赖细胞分布的参数化假设。主要理论结果给出了给定总测序深度下细胞数与每细胞reads数的最优分配策略,仿真在真实单细胞数据上验证了界的紧性。对您而言,Wasserstein距离的非参数上下界分析可迁移至一般分布估计的minimax理论;最优采样设计思路对统计计算中的资源分配问题有参考价值。
  • 关键技术: Wasserstein distance bounds, nonparametric distribution estimation, concentration inequality, minimax rate analysis, optimal experimental design
  • 为什么对您有用: Wasserstein距离的非参数界与您primary interest中的非参数理论直接相关;最优测序深度分配属于统计计算中的实验设计问题,方法可迁移至其他有限资源下的采样权衡场景。

18. 10.1214/25-aos2527 — Estimation and inference in distributional reinforcement learning

  • 作者: Liangyu Zhang, Yang Peng, Jiadong Liang, Wenhao Yang, Zhihua Zhang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文在生成模型(generative model)设定下研究分布强化学习中的策略评估问题,目标是估计给定策略 π 下的完整回报分布 η^π。采用确定性等价(certainty-equivalence)方法构建估计量 η̂^π,证明了在 p-Wasserstein 距离下所需样本复杂度为 Õ(|S||A|/(ε^{2p}(1-γ)^{2p+2})),而在 Kolmogorov 和全变差(TV)距离下仅需 Õ(|S||A|/(ε^{2}(1-γ)^{4}))。进一步,利用经验过程理论,证明了 √n(η̂^π−η^π) 在由 Lipschitz 函数类、指示函数类和有界可测函数类构成的赋范空间中弱收敛于高斯过程。该渐近结果为 η^π 的一大类统计泛函提供了统一的统计推断与假设检验框架。对您有用:该文将非参数经验过程与高斯过程弱收敛理论应用于 RL 序贯决策设定,其推断框架对您在纵向因果推断中的动态处理策略评估及非参数假设检验具有直接的方法论迁移价值。
  • 关键技术: distributional reinforcement learning, certainty-equivalence estimator, empirical process theory, weak convergence to Gaussian process, Wasserstein metric, sample complexity
  • 为什么对您有用: 本文核心是利用经验过程理论建立非参数分布估计的渐近高斯过程收敛,直接契合您对非参数/半参数理论与假设检验的兴趣;同时,RL 策略评估与纵向因果推断中的动态处理机制高度同构,其推断框架可迁移至 off-policy 推断。

19. 10.1214/25-aos2583 — Versatile differentially private learning for general loss functions

  • 作者: Qilong Lu, Song Xi Chen, Yumou Qiu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在差分隐私约束下,本文研究一般损失函数(包括 check loss 和 hinge loss 等非光滑损失)的 M-估计问题,提出基于零膨胀对称多元 Laplace 噪声的 ZIL 隐私释放机制。ZIL 机制无需预先指定后续分析任务,不限制分析次数,且可适应在线场景下的数据增长,并推导了刻画其隐私保护水平的 trade-off 函数。在 M-估计框架下,提出双随机修正损失 DRCL,在差分隐私约束下获得了目标参数的一致且渐近正态的估计。DRCL 避免了对噪声数据进行数值积分和求导,计算简便,适用于广泛的损失函数类。理论结果和模拟(logistic/quantile regression)验证了方法的有效性。对您可能有用:本文在非光滑损失下的 M-估计修正与渐近正态性推导,与您关注的半参数理论及统计计算(避免数值积分)直接相关。
  • 关键技术: differential privacy, zero-inflated multivariate Laplace mechanism, M-estimation, doubly random corrected loss, asymptotic normality, non-smooth loss function
  • 为什么对您有用: 本文处理非光滑损失函数的 M-估计并避免数值积分,与您关注的半参数理论及统计计算(数值方法)直接相关,修正损失函数的思路可迁移至其他有测量误差或数据污染的因果推断设定。

20. 10.1214/25-aos2580 — Estimation of grouped time-varying network vector autoregressive models

  • 作者: Degui Li, Bin Peng, Songqiao Tang, Weibiao Wu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 3/10 · novelty: sharper_rate
  • 摘要: 在大规模时变网络向量自回归(NAR)模型设定下,本文对节点异质的时变动量与网络溢出效应施加潜分组结构以降低待估参数维度。方法上,结合基于非参数距离矩阵的层次聚类与比率准则,实现分组数目与成员关系的一致估计。随后提出分组后局部线性平滑方法估计组特定时变系数,显著提升了忽略潜结构的初步估计的收敛速率。理论进一步涵盖组员关系、组数或系数函数存在结构突变的情形。对您有用:本文在非参数估计中通过潜分组实现收敛速率提升的思路,对您在半参数/非参数理论中的效率与收敛速率研究有直接参考价值,且NAR模型常用于经济理论应用。
  • 关键技术: network vector autoregression, latent group structure, local linear smoothing, agglomerative clustering, convergence rate improvement, structural breaks
  • 为什么对您有用: 本文通过潜分组结构提升非参数局部线性估计的收敛速率,直接关联您在半参数/非参数理论中的效率与收敛速率研究;同时网络VAR模型与经济理论应用高度相关。

21. 10.1214/25-aos2554 — Clustering by hill-climbing: Consistency results

  • 作者: Ery Arias-Castro, Wanli Qiao
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文研究 Fukunaga–Hostetler 提出的基于 hill-climbing 的聚类方法,在连续空间和离散空间(medoid 变体)两种设定下建立一致性。核心设定是密度模式聚类(density-mode clustering),假设数据来自混合密度且各模式可分离;hill-climbing 从每个样本点沿密度梯度上升至局部众数,以此划分簇。作者在连续情形下证明梯度上升轨迹收敛到真实密度众数,在离散 medoid 情形下利用经验密度替代建立类似一致性。关键技术工具涉及密度估计的收敛率、梯度场正则性条件及经验过程的控制。对您而言,本文的非参数一致性论证思路(密度梯度场 + 经验过程)可迁移至 semiparametric 框架下模式/极值估计的理论分析,但与您关注的效率界/因果推断方向距离较远。
  • 关键技术: density-mode clustering, hill-climbing algorithm, medoid variant, kernel density estimation, consistency proof, gradient ascent
  • 为什么对您有用: 与非参数理论及统计计算(hill-climbing 算法)有方法学重叠,一致性证明中密度梯度场与经验过程的技术可借鉴到 semiparametric 估计理论,但与核心兴趣(效率界/因果推断)关联较弱。

22. 10.1214/25-aos2546 — Clustering risk in nonparametric hidden Markov and I.I.D. models

  • 作者: Élisabeth Gassiat, Ibrahim Kaddouri, Zacharie Naulet
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文在非参数隐马尔可夫模型(HMM)和i.i.d.混合模型设定下,研究了聚类的贝叶斯风险,关注潜在标签不可观测时的最优聚类问题。作者比较了聚类风险与分类风险的差异,证明了基于贝叶斯分类器进行聚类虽不绝对最优,但两者差异主要停留在理论层面,贝叶斯分类器在聚类任务中仍接近最优。研究提炼出一个关键量来刻画分类与聚类任务的根本难度。利用HMM的可识别性,作者在一般非参数设定下推导了plug-in贝叶斯分类器的聚类超额风险上界。该结果为实践中广泛使用的plug-in聚类方法提供了非参数理论保障。对您有用:该文对非参数潜变量模型的风险界分析直接契合您的非参数理论兴趣,其利用可识别性推导超额风险的技术路线也可为因果推断中潜变量/不可观测混淆的理论分析提供借鉴。
  • 关键技术: nonparametric hidden Markov models, Bayes risk of clustering, excess risk bounds, model identifiability, plug-in Bayes classifier
  • 为什么对您有用: 直接契合您在非参数理论方面的兴趣;利用模型可识别性推导非参数超额风险界的技术路线,对因果推断中处理潜变量和不可观测混淆的理论分析有借鉴价值。

23. 10.1214/25-aos2522 — Deep horseshoe Gaussian processes

  • 作者: Ismaël Castillo, Thibault Randrianarisoa
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 在随机设计的非参数回归设定下,本文研究具有组合结构(compositional structure)的未知回归函数的贝叶斯推断问题。提出 Deep Horseshoe Gaussian Process (Deep-HGP) 先验,基于平方指数核的深度高斯过程并利用 Horseshoe 先验实现长度尺度参数的数据驱动选择。证明了其后验分布在二次损失下自适应收敛于真实曲线,速率至多差一个对数因子且达到最优。该速率同时自适应于函数光滑度与组合结构,且对维度的依赖显式,允许输入维度 d 随 n 增长。主要理论结果给出了高维设定下的精确后验收缩速率。对您可能有用:本文为高维非参数贝叶斯推断提供了严格的收缩速率理论,其处理维度增长与自适应结构的方法可为您在非参数理论及高维统计方面的研究提供借鉴。
  • 关键技术: deep Gaussian processes, horseshoe prior, posterior contraction rates, compositional structure, adaptive estimation
  • 为什么对您有用: 属于非参数理论和高维统计的交叉,给出了维度 d 随 n 增长时的后验收缩速率,对您在非参数理论及高维统计方向的研究有直接的理论参考价值。

24. 10.1214/25-aos2542 — Spectral density estimation of function-valued spatial processes

  • 作者: Rafail Kartsioukas, Stilian Stoev, Tailen Hsing
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 3/10 · novelty: sharper_rate
  • 摘要: 本文研究取值于可分 Hilbert 空间的连续时间空间平稳过程的谱密度非参数估计问题。提出的估计量基于核平滑,适用于不规则空间位置采样。在混合域渐近设定下,推导了估计量的偏差与方差收敛速率;当数据在规则网格观测且算子协方差函数按幂律衰减时,最优速率达到 minimax rate。对高斯 Hilbert 空间值过程,在一般条件下建立了谱密度估计量的渐近正态性,并将结果专门化到 RKHS 中离散采样函数数据情形。该工作为无限维空间数据提供了 minimax 最优性与渐近推断基础。对您有用:直接契合您在非参数理论(minimax rate、RKHS、渐近正态性)方面的兴趣,且不规则空间采样设定对天文统计(astrostats)中的空间数据分析有迁移价值。
  • 关键技术: kernel smoothing, mixed-domain asymptotics, minimax rate, operator-covariance functions, RKHS, asymptotic normality
  • 为什么对您有用: 契合您在非参数理论(minimax rate、RKHS、渐近正态性)方面的核心兴趣,同时不规则空间采样设定对天文统计(astrostats)中的空间数据处理有直接迁移价值。

25. 10.1214/25-aos2596 — PCA for point processes

  • 作者: Franck Picard, Vincent Rivoirard, Angelina Roche, Victor M. Panaretos
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 本文在重复点过程设定下,将实现视为随机测度,提出基于累积质量函数的泛函主成分分析框架。核心理论贡献包括建立随机测度的 Karhunen-Loève 展开与协方差测度的 Mercer 定理,并引入“主测度”概念刻画驱动观测点模式的潜在过程。估计策略易于实现,且特征元素估计量达到了 n^{-1/2} 参数收敛率。方法在 Poisson 和 Hawkes 过程下得到完全解析刻画,并提供了 R 包 pppca。该工作将 fPCA 拓展至随机测度,其严谨的非参数理论框架与参数率收敛结果,对您在非参数/半参数理论方面的兴趣有直接参考价值。
  • 关键技术: functional Principal Component Analysis, Karhunen-Loève expansion, Mercer theorem for covariance measures, random measures, parametric convergence rates
  • 为什么对您有用: 本文将 fPCA 与 Karhunen-Loève 展开拓展至随机测度,其严谨的非参数理论框架与 n^{-1/2} 参数率收敛结果,对您在非参数/半参数理论方面的兴趣有直接参考价值;R 包实现也契合统计计算兴趣。

26. 10.1214/25-aos2567 — Change point estimation for a stochastic heat equation

  • 作者: Markus Reiß, Claudia Strauch, Lukas Trottner
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 在随机热方程对应的 SPDE 变点模型中,假设空间依赖的扩散系数在未知点 τ 处发生分段常数跳跃,目标是基于空间分辨率 δ 的局部观测同时估计扩散系数值与变点。作者构造了同时估计扩散系数与变点的 M-estimator,证明了变点估计量收敛速率为 δ,而扩散系数收敛速率为 δ^{3/2}。当扩散参数已知且跳跃高度随空间分辨率趋于零而消失时,推导了变点估计量的极限分布并识别了极限分布的具体形式。在数学分析上,发展了处理不连续系数 SPDE 的精确理论、解的二次泛函的紧集中不等式以及经典 M-估计量的推广。该研究对您在非参数/半参数理论中研究 M-估计的收敛速率及集中不等式技术具有直接的方法论借鉴意义。
  • 关键技术: M-estimation, stochastic partial differential equation, concentration inequality, change point estimation, quadratic functionals
  • 为什么对您有用: 本文属于非参数理论与数理统计的深度结合,其针对 SPDE 变点模型推导的 M-estimator 收敛速率与紧集中不等式技术,对您在非参数/半参数理论及数理统计方向的研究具有直接的方法论启发。

27. 10.1214/25-aos2570 — Neural networks generalize on low complexity data

  • 作者: Sourav Chatterjee, Timothy Sudijono
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 1/10 · novelty: new_theory
  • 摘要: 本文研究前馈ReLU神经网络在低复杂度数据上的泛化能力,基于一种简单编程语言定义的数据生成模型和最小描述长度(MDL)准则。作者证明了插值数据的MDL网络能以高概率泛化,例如在素性检验任务中,对从1到N均匀抽取的n个样本,泛化误差概率为O((ln N)/n)。该理论不依赖网络结构的先验设计,而是通过最小描述学习自动发现具有泛化能力的插值网络。此外,文章将结论扩展到含噪数据,表明MDL神经网络插值器呈现“温和过拟合”(tempered overfitting)现象。主要理论结果给出了基于MDL的有限样本泛化界,属于非参数学习理论的纯数理统计工作。对您而言,本文提供了ReLU网络在特定非参数设定下的泛化误差率证明思路,对研究非参数理论中的过拟合现象与有限样本界具有参考价值。
  • 关键技术: minimum description length (MDL), ReLU neural network interpolation, finite sample generalization bound, tempered overfitting, nonparametric learning theory
  • 为什么对您有用: 本文属于数理统计与非参数理论范畴,给出了ReLU网络插值器的有限样本泛化界,对您研究非参数估计中的过拟合现象与泛化误差率有理论参考价值。

28. 10.1214/25-aos2598 — Generalized multilinear models for sufficient dimension reduction on tensor-valued predictors

  • 作者: Daniel Kapla, Efstathia Bura
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 本文研究张量值预测变量的监督学习问题,在给定响应变量的预测变量条件分布属于二次指数族的设定下,推导多线性充分降维。针对连续和二元张量预测变量分别提出充分降维估计程序,利用流形理论证明估计量的一致性与渐近正态性。对于连续预测变量,所提算法计算效率高,且在降维维度超过样本量时依然适用。理论与实证均验证了方法的有效性。对您有用:张量降维的流形渐近理论与高效计算算法契合您的半/非参理论与统计计算兴趣,且张量结构在天文图像与经济面板数据中广泛存在,方法可直接迁移应用。
  • 关键技术: sufficient dimension reduction, quadratic exponential family, tensor-valued predictors, manifold theory, asymptotic normality, multilinear models
  • 为什么对您有用: 张量数据的充分降维涉及半/非参渐近理论(流形上的渐近正态性)与高维计算算法,契合您的半/非参理论与统计计算兴趣;此外,张量结构在天文图像和经济学面板数据中广泛存在,方法可直接迁移至这些次级兴趣领域。

效率理论 / Debiased ML (efficiency_dml, 7 篇)

1. 10.1214/25-aos2563 — Average partial effect estimation using double machine learning

  • 作者: Harvey Klyne, Rajen D. Shah
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 10/10 · novelty: new_method
  • 摘要: 在非参数回归设定下,目标估计量为平均偏效应(APE),即回归函数对目标预测变量斜率的平均,传统双稳健方法需估计条件均值导数与条件得分,在高维下极具挑战且不兼容树类等非可微机器学习方法。本文提出一种基于双重机器学习(DML)的 APE 估计框架:通过对初始非可微回归估计量进行再平滑以获得可微版本,并利用位置-尺度模型对目标预测变量的条件分布建模。理论证明,在该假设下,条件得分估计误差可被条件均值误差、条件标准差误差及一元得分估计误差之和控制,从而避免了直接高维密度比估计。此外,作者给出了 Lipschitz 得分函数次高斯性的新理论结果。估计量在较弱的条件下达到 n^{-1/2} 收敛率,且在模型误设下数值表现稳健。该工作对您有用:它将 DML 与半参数效率理论拓展至非可微 ML 估计量与偏效应估计,其再平滑技巧与得分函数次高斯界对您关注的 semiparametric efficiency 与 debiased ML 方向具有直接的方法论启发。
  • 关键技术: double machine learning, average partial effect, resmoothing regression estimator, location-scale model, doubly robust estimation, sub-Gaussianity of Lipschitz score
  • 为什么对您有用: 直接推进了您 primary interest 中的 efficiency theory (debiased ML) 与 semiparametric theory;其通过再平滑处理非可微 ML 估计量并控制条件得分误差的技巧,对高维/非参数下的稳健推断具有可迁移的方法论价值。

2. 10.1214/24-aos2450 — Near-optimal inference in adaptive linear regression

  • 作者: Koulik Khamaru, Yash Deshpande, Tor Lattimore, Lester Mackey, Martin J. Wainwright
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在自适应数据收集的线性回归设定下,由于破坏了样本独立性,OLS 估计量丧失渐近正态性,导致传统假设检验与置信区间失效。本文提出一族在线去偏估计量,利用数据集的协方差结构修正 OLS 的分布异常,在信息积累更多的方向上给出更锐利的估计。在温和的自适应条件下,证明了该去偏估计量的渐近正态性并构建了渐近精确的置信区间。此外,本文证明了自适应线性回归问题的极小化极大下界,并在多种条件下证明所提估计量达到该下界。对您有用:该工作将去偏推断从 i.i.d. 拓展至自适应数据,其极小化极大下界与在线去偏机制对您在效率理论、假设检验以及带自适应干预的因果推断研究有直接启发。
  • 关键技术: online debiasing, minimax lower bound, adaptive data collection, asymptotic normality, covariance structure correction
  • 为什么对您有用: 直接关联您的效率理论与假设检验兴趣;将 debiased 方法拓展至非 i.i.d. 的自适应数据场景,并给出极小化极大下界,对处理带自适应干预的因果推断或序列经济数据推断极具参考价值。

3. 10.1214/25-aos2498 — Dualizing Le Cam’s method for functional estimation I: General theory

  • 作者: Yury Polyanskiy, Yihong Wu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 8/10 · novelty: weaker_assumption
  • 摘要: 本文研究泛函估计中 Le Cam 方法(两点法)下界的紧致性问题,设定为一般分布的线性泛函及指数族估计,无需传统的 Hölder 模连续性假设。核心机制是通过凸对偶性,将寻找最佳两点下界的最大化问题转化为在一族估计量上最小化二次风险上界的最小化问题。利用极小极大定理证明这两个对偶问题的值相同,从而在通用常数因子内刻画了最优估计率。对于分布的线性泛函估计,该工作去除了 Donoho-Liu (1991) 对模连续性的 Hölder 假设;对于指数族,在更弱假设下刻画了二次损失下的极小极大风险,扩展了 Juditsky-Nemirovski (2009) 的结果。理论进一步扩展至高维设定下的可分泛函估计。该对偶框架为泛函估计的极小极大率提供了精确的上下界匹配,对您研究 efficiency theory 中的半参数效率界与极小极大率具有直接的基石性参考价值。
  • 关键技术: Le Cam two-point method, convex duality, minimax theorem, modulus of continuity, linear functional estimation, high-dimensional separable functionals
  • 为什么对您有用: 本文通过凸对偶将 Le Cam 下界与极小极大风险上界统一,直接关联您 primary interest 中的 efficiency theory(半参数效率界与极小极大率)和 mathematical statistics,为证明泛函估计的最优率提供了更锐利且假设更弱的工具。

4. 10.1214/25-aos2526 — Online statistical inference in decision-making with matrix context

  • 作者: Qiyu Han, Will Wei Sun, Yichen Zhang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究带有矩阵上下文且真实参数具有低秩结构的在线决策问题,目标是实现模型参数与最优策略值的在线统计推断。针对低秩估计偏差与自适应数据收集带来的双重偏差,提出了一种新的在线去偏方法。该方法基于新开发的低秩随机梯度下降(SGD)估计量,通过构造去偏得分同时消除这两种偏差。理论上证明了该在线去偏估计量在参数推断和最优策略值推断任务中均具有渐近正态性,并验证了置信区间的有效性。对您有用:该文将低秩矩阵模型与在线去偏推断结合,直接契合您在 debiased ML 与高维矩阵统计方面的兴趣,其处理自适应样本下低秩偏差的技巧可迁移至其他高维因果推断设定。
  • 关键技术: online debiasing, low-rank stochastic gradient descent, adaptive data collection, asymptotic normality, matrix contextual bandit
  • 为什么对您有用: 直接契合您在 efficiency theory (debiased ML) 和 high-dimensional statistics (matrix/low-rank) 的核心兴趣;其处理自适应数据下低秩估计偏差的在线去偏技巧,对高维因果推断中处理自适应/序贯样本的 debiased 估计具有方法迁移价值。

5. 10.1214/25-aos2533 — Online estimation and inference for robust policy evaluation in reinforcement learning

  • 作者: Weidong Liu, Jiyuan Tu, Xi Chen, Yichen Zhang
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在强化学习的策略评估(policy evaluation)设定下,本文针对存在异常值污染和重尾奖励分布的情形,提出了一种鲁棒的在线估计算法,并对模型参数提供在线统计推断。方法核心是将鲁棒估计(如 Huber-type 或 median-of-means 思想)嵌入时序差分(TD)学习框架,同时构造在线推断程序以避免经典 online bootstrap 的计算负担。理论上,所提方法比经典 TD 学习更快收敛至最小渐近方差(即达到渐近效率界),且无需选择步长(step size)超参数。数值实验验证了在重尾和异常值场景下估计与推断的效率及鲁棒性。对您而言,该工作将效率理论(最小渐近方差/效率界)与在线计算结合,可迁移至因果推断中 off-policy evaluation 的鲁棒推断问题。
  • 关键技术: temporal difference learning, robust estimation under heavy tails, online statistical inference, asymptotic efficiency bound, off-policy evaluation
  • 为什么对您有用: 直接连接 efficiency theory(最小渐近方差/效率界)和 statistical computing(在线算法免步长选择);off-policy evaluation 与因果推断的 treatment effect estimation 有天然对应,鲁棒推断思路可迁移至 proximal CI 或 IV 中的重尾/异常值场景。

6. 10.1214/25-aos2578 — Distributionally robust learning for multisource unsupervised domain adaptation

  • 作者: Zhenyu Wang, Peter Bühlmann, Zijian Guo
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在多源无监督域适应设定下,针对源域与目标域分布偏移导致经验风险最小化失效的问题,目标是构建对目标域分布具有鲁棒性的条件期望模型。提出一种分布鲁棒优化方法,通过在目标分布的不确定性集合上优化解释方差的对抗奖励来保证泛化性。理论证明该鲁棒模型等价于源域条件期望模型的加权平均,从而允许使用随机森林或神经网络等任意机器学习算法进行估计。进一步引入针对聚合权重的偏差校正步骤,以消除非参数机器学习估计器引入的正则化偏差,提升权重精度。该框架可解释为满足隐私约束的分布鲁棒联邦学习;对您而言,其偏差校正机制与 debiased ML 思想高度契合,且分布偏移下的模型聚合可直接迁移至因果推断中的效应可迁移性(transportability)研究。
  • 关键技术: distributionally robust optimization, unsupervised domain adaptation, model aggregation, bias-correction, debiased machine learning, explained variance
  • 为什么对您有用: 论文对基于ML的聚合权重进行偏差校正,与您关注的 debiased ML 和半参数理论直接相关;同时,多源域适应下的分布鲁棒性与因果推断中的外部有效性/可迁移性高度同构,方法可迁移。

7. 10.1214/25-aos2530 — A unified analysis of likelihood-based estimators in the Plackett–Luce model

  • 作者: Ruijian Han, Yiming Xu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在 Plackett-Luce 排序聚合模型下,本文研究随比较对象数增长时效用向量的 full、marginal 与 quasi-likelihood 估计的渐近理论。通过解析估计方程,作者在适当的图拓扑条件下对确定性图序列建立了一致相合性与渐近正态性。核心贡献在于统一刻画了不同似然估计量在统计效率与计算复杂度之间的权衡。理论结果进一步应用于非均匀随机超图模型和超图随机块模型等采样场景。对您可能有用:本文对效率-计算权衡的严格刻画直接契合您在 efficiency theory 与 statistical computing 方向的兴趣,且排序模型在 econometrics 的离散选择中亦有广泛应用。
  • 关键技术: Plackett-Luce model, asymptotic normality, statistical efficiency vs computation trade-off, quasi-likelihood, hypergraph stochastic block model, uniform consistency
  • 为什么对您有用: 本文严格分析了不同似然估计量的统计效率与计算复杂度权衡,直接契合您在 efficiency theory 和 statistical computing 方向的兴趣;Plackett-Luce 模型在 economic theory 的选择模型中也有广泛应用。

数理统计 / 假设检验 (hypothesis_testing, 7 篇)

1. 10.1214/25-aos2540 — Tests of missing completely at random based on sample covariance matrices

  • 作者: Alberto Bordino, Thomas B. Berrett
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文研究高维数据下缺失完全随机(MCAR)假设的检验问题,将MCAR检验松弛为对一组协方差矩阵相容性的检验,允许维度随样本量增长。作者定义了基于半正定规划(SDP)最优值的协方差矩阵不相容性度量,并建立关键的对偶性定理以支持计算与解释。通过分析该度量自然插入估计量的集中不等式性质,提出了基于Bootstrap校准的假设检验方法,证明其对任意不相容协方差矩阵的分布均具有功效。在特定的缺失结构下,证明了该检验的minimax rate optimality;同时该方法可推广至带噪声的半正定矩阵补全问题。该文将高维协方差矩阵相容性与MCAR假设检验结合,其SDP对偶与minimax最优性分析对您的高维假设检验与因果推断缺失数据假设检验有直接借鉴价值。
  • 关键技术: MCAR testing, covariance matrix compatibility, semi-definite programming, concentration inequality, bootstrap calibration, minimax rate optimality
  • 为什么对您有用: 直接切中您的高维统计与假设检验兴趣;将MCAR假设转化为协方差相容性检验的思路,对因果推断中处理缺失数据假设(如可忽略性)的检验具有方法迁移价值,且SDP与minimax rate分析提供了理论工具借鉴。

2. 10.1214/25-aos2543 — Improving knockoffs with conditional calibration

  • 作者: Yixiang Luo, William Fithian, Lihua Lei
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在 fixed-X 与 model-X knockoff 框架下的多重检验问题中,目标是在控制 FDR 的前提下提升检验功效,关键假设是条件校准(conditional calibration)框架。本文提出 calibrated knockoff procedure,利用条件校准机制对任意给定的 knockoff 过程实现功效的一致性提升。核心技术在于重新校准 knockoff 统计量的零分布,克服传统方法在拒绝集较小或设计矩阵结构导致 knockoff 变量构造质量差时的严重保守性。理论证明该方法严格保证 FDR 控制,且在 knockoff 几乎失效的极端设定下功效提升尤为显著。实证结果显示,在这些困难场景下,calibrated knockoffs 甚至优于 dependence-adjusted BH 等经典 FDR 控制方法。对您有用:直接推进您关注的多重假设检验方向,提供了一种在高维变量选择中通过条件校准放松 knockoff 保守性、提升检验势的新方法。
  • 关键技术: knockoff filter, conditional calibration, FDR control, multiple testing, model-X knockoffs, fixed-X knockoffs
  • 为什么对您有用: 直接推进您关注的多重假设检验与高维统计交叉方向;提供在 knockoff 功效低下时通过条件校准放松保守性、提升检验势的新理论工具。

3. 10.1214/25-aos2553 — A flexible defense against the winner’s curse

  • 作者: Tijana Zrnic, William Fithian
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在选择性推断框架下,本文研究从多个竞争候选者中挑选最优者后的有效统计推断问题,旨在克服“胜者诅咒”导致的向上偏差。提出名为“zoom correction”的新方法,通过条件推断框架修正选择偏差。该方法具有高度灵活性:既适用于参数模型也适用于非参数模型,允许候选者之间存在任意依赖结构,并能自动适应选择偏差的强度。技术上,该方法可自然扩展至前k个胜者的推断、总体胜者的身份与取值推断以及“近胜者”推断。理论上保证了在较弱模型假设下的有效置信区间构建。这对您在假设检验(特别是选择性推断)方面的兴趣有直接的理论贡献,其非参数设定下的条件推断技巧也可为半参数/非参数理论提供借鉴。
  • 关键技术: selective inference, winner's curse, zoom correction, conditional inference, post-selection inference
  • 为什么对您有用: 直接推进了您在假设检验方向对选择性推断的研究,其处理任意依赖结构和非参数设定的条件推断框架,对半参数/非参数理论下的 post-selection 有效性问题具有方法迁移价值。

4. 10.1214/25-aos2565 — A computational transition for detecting correlated stochastic block models by low-degree polynomials

  • 作者: Guanyi Chen, Jian Ding, Shuyang Gong, Zhangsong Li
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文研究一对相关稀疏随机块模型(SBM)的图相关性检测问题,设定为从具有k=O(1)对称社区、平均度λ=O(1)和发散参数ϵ的父SBM中,以子采样概率s生成图对,目标是在计算约束下区分该模型与一对独立的Erdős-Rényi图。作者聚焦于基于邻接矩阵元素的低阶多项式检验,精确刻画了计算上的易解与难解分界线:当且仅当s > min{α, 1/(λϵ²)}时该类检验可区分两模型,其中α≈0.338为Otter常数,1/(λϵ²)为Kesten-Stigum阈值。难解性的证明基于条件低阶似然计算的条件变体,并结合规约论证推导出s < min{α, 1/(λϵ²)}时部分恢复和检测的低阶硬度。该结果精确刻画了稀疏图相关性检测的计算统计权衡,对您研究高维假设检验中的计算相变与低阶方法有直接参考价值。
  • 关键技术: low-degree polynomials, stochastic block model, low-degree likelihood calculation, Kesten-Stigum threshold, computational hardness
  • 为什么对您有用: 直接关联您在数学统计(假设检验)和高维统计的兴趣:本文刻画了高维图模型检测问题的计算相变与统计极限,低阶多项式方法是当前高维推断中替代RMT刻画计算硬度的重要工具,对理解假设检验的计算边界极具启发。

5. 10.1214/25-aos2517 — Low-degree hardness of detection for correlated Erdős–Rényi graphs

  • 作者: Jian Ding, Hang Du, Zhangsong Li
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 5
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 研究两个相关 Erdős–Rényi 图的关联检测 (detection) 问题:在潜在顶点对应关系下,边相关系数为 ρ,目标是区分相关图对与独立图对。对低阶多项式算法类建立计算下界:一般情形下,不存在阶数 O(ρ⁻¹) 的多项式算法能成功检测;在稀疏情形 q=n⁻¹⁺ᵒ⁽¹⁾ 下,当 ρ 小于 Otter 常数 α≈0.338 且阶数 d 满足 d=exp(o(log n · log(nq)∧log n)) 时,同样不存在成功的低阶多项式算法。核心工具是 low-degree polynomial framework 对 likelihood ratio 的矩逼近分析,结合 Otter 常数刻画树计数瓶颈。结果表明现有关联检测与精确匹配恢复的最优算法可能本质上是不可改进的。对您有用:这是高维假设检验中 low-degree hardness 的前沿工作,直接关联您的高维统计与假设检验兴趣,low-degree 框架可作为分析其他高维检测问题计算壁垒的通用工具。
  • 关键技术: low-degree polynomial hardness, computational lower bounds, correlated Erdős-Rényi graphs, Otter's constant, likelihood ratio moment analysis, graph matching detection
  • 为什么对您有用: 直接关联您的高维统计与假设检验兴趣:low-degree polynomial framework 是当前高维检测问题计算复杂度下界的主流工具,本文将其成功应用于图匹配检测,方法可迁移至其他高维假设检验场景的计算壁垒分析。

6. 10.1214/25-aos2552 — Rank tests for PCA under weak identifiability

  • 作者: Davy Paindaveine, Laura Peralvo Maroto, Thomas Verdebout
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在三角阵列框架下,研究从p维椭圆分布中抽样检验其形状矩阵首特征向量θ是否等于给定向量,其中前两大特征值之比趋于1导致弱可识别性。作者深入分析了弱可识别下的极限实验,证明其可能是LAN或非LAN的。通过建立三角阵列下二次均值可微(QMD)族的原创性结果,将研究从高斯分布推广至一般椭圆分布,并利用Le Cam第一与第三引理推导了多元秩检验的渐近性质。理论证明,非参数秩检验在弱可识别下不仅能保持名义水平,还维持出色的均匀效率性质;特别地,Gaussian-score秩检验在任意弱可识别下的渐近相对效率(ARE)仍一致优于参数伪高斯竞争者。这对您研究假设检验的极限理论及效率界在非标准正则条件下的表现有直接启发。
  • 关键技术: Le Cam theory, local asymptotic normality (LAN), quadratic mean differentiability (QMD), multivariate rank tests, asymptotic relative efficiency (ARE), weak identifiability
  • 为什么对您有用: 直接关联您对数学统计假设检验与效率理论的兴趣;展示了在非LAN极限实验下如何利用Le Cam理论与QMD技术证明非参数秩检验的渐近效率优势,为非标准正则条件下的推断提供了新理论工具。

7. 10.1214/25-aos2595 — Object detection under the linear subspace model with application to cryo-EM images

  • 作者: Keren Mor Waknin, Amitay Eldar, Samuel Davenport, Tamir Bendory, Armin Schwartzman, Yoel Shkolnisky
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在含噪数据的线性子空间模型(假设目标可在已知基如 Fourier 基下展开)下,研究多目标检测问题,目标是在控制 FWER 或 FDR 的前提下渐近保证检测出所有目标。提出一种结合基展开与多重检验程序的目标检测算法,理论证明了其渐近检测保证;数值模拟显示在非渐近及高噪声环境下仍保持高功效与误差率控制。该方法在冷冻电镜数据上优于现有软件;对您而言,其多重检验(FWER/FDR)在信号检测中的渐近理论推导,可为高维假设检验与半参数/非参数模型下的信号识别提供方法学借鉴。
  • 关键技术: linear subspace model, multiple testing, family-wise error rate (FWER), false discovery rate (FDR), asymptotic detection guarantee, sieve expansion
  • 为什么对您有用: 涉及多重假设检验(FWER/FDR)的渐近理论保证与半参数形式的线性子空间模型,直接关联您对数学统计(假设检验)及半参数理论的兴趣,其检验构造和误差控制思路可迁移至高维推断场景。

统计计算 / 算法 (stat_computing, 2 篇)

1. 10.1214/25-aos2564 — Solving the Poisson equation using coupled Markov chains

  • 作者: Randal Douc, Pierre E. Jacob, Anthony Lee, Dootika Vats
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究如何利用在随机迭代次数后精确相遇的耦合马尔可夫链(coupled Markov chains)求解泊松方程,从而生成其解的无偏估计量。基于此连接,作者重新推导了马尔可夫链平稳分布期望的已知无偏估计量,并给出了其矩有限的条件。进一步,文章构造了马尔可夫链遍历平均渐近方差的无偏估计量,并证明在二阶矩有限条件下,独立副本的均值以 Monte Carlo rate(n^{-1/2})收敛至渐近方差,优于 batch means 和 spectral variance estimators 的已知收敛率。数值实验验证了理论结果。对您有用:直接关联统计计算方向,为 MCMC 渐近方差估计提供了 sharper rate 的新无偏方法,可迁移至需要精确方差量化的因果推断或效率理论计算场景。
  • 关键技术: coupled Markov chains, Poisson equation, unbiased estimation, asymptotic variance of MCMC, meeting time of chains, Monte Carlo rate
  • 为什么对您有用: 直接关联您 primary interest 中的统计计算(数值方法与算法);为 MCMC 渐近方差估计提供了 sharper convergence rate 的无偏方法,在需要精确方差量化(如效率理论中的方差估计、因果推断的置信区间构建)时可迁移使用。

2. 10.1214/25-aos2549 — Scalable inference in functional linear regression with streaming data

  • 作者: Jinhan Xie, Enze Shi, Peijun Sang, Zuofeng Shang, Bei Jiang, Linglong Kong
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在函数线性回归模型下,针对流数据场景,目标是仅通过单次数据遍历(one pass)实现斜率函数的估计与统计推断。作者提出了函数随机梯度下降(FSGD)算法进行在线估计,并构造在线自助法(online bootstrap)重抽样过程以解决推断问题。理论上证明了 FSGD 估计量的收敛速率与渐近分布,并证明自助法生成的扰动估计量具有相同的渐近性质,从而为在线置信区间构建提供了理论保证。这是首个针对流数据下函数线性回归的推断结果,仿真与北京空气质量数据验证了方法的有效性。对您有用:该工作将 SGD 与在线自助法拓展至函数空间,直接契合您对统计计算(在线算法)与半/非参数理论(函数型数据渐近分布)的交叉兴趣,其单遍历推断框架对大规模流数据处理具有方法可迁移性。
  • 关键技术: functional stochastic gradient descent, online bootstrap resampling, asymptotic distribution, one-pass algorithm, functional linear regression
  • 为什么对您有用: 直接契合您对统计计算(在线算法与自助法)与半/非参数理论(函数型数据渐近性质)的交叉兴趣,其单遍历推断框架对大规模流数据处理具有方法可迁移性。

其他 (other, 4 篇)

1. 10.1214/25-aos2577 — Confounder selection via iterative graph expansion

  • 作者: F. Richard Guo, Qingyuan Zhao
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 1
  • 相关性 8/10
  • 摘要: { "topic": "causal_inference", "summary_zh": "在观测研究的因果推断中,confounder selection 是控制混杂的核心步骤,传统方法(如 back-door criterion)需预先指定完整因果图,实践中常不可行。本文提出一种交互式 confounder selection 程序,无需预先指定因果图或观测变量集。该程序通过寻找"primary adjustment sets"逐步扩展因果图,可视为对底层因果图一系列边际化的逆操作。每步仅需用户提供 primary adjustment sets 的结构信息,直至找到有效调整集或判定其不存在,无需指定混杂变量间的因果关系。理论上证明:若用户每步正确指定 primary adjustment sets,该程序具有 soundness 和 completeness。对您有用:该工作为因果 identification 提供了无需完整图假设的新路径,与您关注的 causal inference identification 子方向直接相关,可与 proximal CI 等放松图假设的方法体系形成对照与互补。", "key_techniques": [ "primary adjustment sets", "back-door criterion",

2. 10.1214/25-aos2547 — Causal effect estimation under network interference with mean-field methods

  • 作者: Sohom Bhattacharya, Subhabrata Sen
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 8/10
  • 摘要: { "topic": "causal_inference", "summary_zh": "在观测数据的网络干扰设定下,基于 chain graph 框架(Tchetgen Tchetgen et al. 2021)研究因果效应估计,允许相邻单元结果交互及长程干扰(远距单元的处理影响目标单元结果)。针对"平均场"交互网络,提出可扩展的迭代算法估计因果效应;对高斯加权网络,引入基于 Approximate Message Passing (AMP) 的估计算法。参数估计采用最大伪似然,在所有参数区域下建立 √n-一致性;在"高温"条件下证明代入估计参数后的下游估计量一致性。该方法可处理稠密交互——现有技术无法覆盖的设定,算法源自高维统计中的变分推断思想。对您有用:将 AMP/变分推断从高维统计引入因果干扰估计,直接连接您 primary interest 中的因果推断(interference 设定)与高维统计/RMT(AMP 理论),且 √n-一致性结果对效率理论有参考价值。", "key_techniques": ["Approximate Message Passing", "maximum pseudo-likelihood", "mean-field variational inference", "chain graph interference model"

3. 10.1214/25-aos2581 — Large-scale multiple testing: Fundamental limits of false discovery rate control and compound oracle

  • 作者: Yutong Nie, Yihong Wu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 54 · issue 2
  • 相关性 7/10
  • 摘要: { "topic": "hypothesis_testing", "summary_zh": "在两分组随机混合模型下,本文研究当假设检验数量趋于无穷时,错误发现率(FDR)与错误未发现率(FNR)之间的渐近最优权衡问题。核心发现是,与边际FDR/mFDR(由可分决策规则实现最优)截然不同,FDR-FNR的最优权衡即使在简单高斯位置模型和大样本极限下也必须依赖复合决策规则(compound rules)。这严格证明了可分规则在FDR准则及最大化期望真实发现数等目标下的次优性。此外,针对FDP的高概率控制,其最优权衡与mFDR-mFNR一致,并将结果推广至固定非零比例模型。该工作刻画了FDR控制下的基本极限,确立了复合预言机(compound oracle)的必要性。对您有用:直接推进您在"数学统计(假设检验)"方向对大规模多重检验基本极限的理解,揭示了经典阈值法的次优性与复合决策规则的理论优势。", "key_techniques": [ "multiple testing", "false discovery rate", "compound decision rules", "two-group mixture model", "asymptotic optimality", "separable rules" ]

4. 10.1214/25-aos2557 — A two-way heterogeneity model for dynamic networks

  • 作者: Binyan Jiang, Chenlei Leng, Ting Yan, Qiwei Yao, Xinyang Yu
  • 期刊/来源: Annals of Statistics
  • 分类: vol 53 · issue 6
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文提出一种针对动态网络的二维异质性参数模型,每个节点配备两个参数分别刻画建连倾向与保连倾向。虽然负对数似然函数非凸,但在真实参数向量的邻域内具有局部凸性。作者提出一种新的矩估计方法作为初始值,通过梯度下降算法获得一致的局部极大似然估计(MLE)。为建立MLE的估计误差上界,推导了一个新的均匀偏差界(uniform deviation bound),该界本身具有独立的理论价值。模拟与实证分析支持了模型与理论的有效性。对您而言,该文推导的均匀偏差界与局部凸性论证技巧可能在处理非凸目标函数的M-estimation理论时具有参考价值。
  • 关键技术: method of moments initialization, local maximum likelihood estimation, uniform deviation bound, non-convex optimization, dynamic network modeling
  • 为什么对您有用: 虽然属于网络模型,其非凸目标函数的局部凸性论证与均匀偏差界推导技巧,对您在数学统计中处理复杂M-estimation的误差上界有方法论上的参考价值。

Maintained by 陈星宇 · Homepage · Source on GitHub