AoS — Vol 54 Issue 2 · 2026-05-26¶
- 共 22 篇 · Annals of Statistics
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
这一期《AoS》第54卷第2期的六篇论文,整体上围绕高维统计推断、非参数/半参数方法、以及因果与分布鲁棒学习三条主线展开。高维方向占据主导,涵盖随机矩阵理论(RMT)在协整检验、主成分分析弱识别、以及LASSO预测误差中的新应用;非参数/半参数方向则聚焦于再生核希尔伯特空间中的随机逼近推断与张量预测变量的充分降维;因果与分布鲁棒方向涉及无监督域适应的分布鲁棒学习与复合决策规则。此外,还有一篇关于交互链系统参数估计的论文,其时空相关性分析技术具有跨领域参考价值。
高维统计与随机矩阵理论是本期最突出的主线,共三篇论文。其中,《Trace test for high-dimensional cointegration》将RMT高维渐近工具引入经典Johansen协整检验,在p/T→c>0设定下推导出修正迹统计量的正态极限,直接服务于高维时间序列的假设检验。《Rank tests for PCA under weak identifiability》则针对弱识别下的主成分分析,提出基于秩的检验方法,可能涉及RMT中特征值分布的精细结果。《The distributionally robust prediction error of the LASSO and related estimators》虽以LASSO预测误差为题,但其核心分析依赖于向后再生表示(coalescing random walks)刻画时空相关性衰减,为高维随机图结构上的交互过程推断提供了新工具,与RMT的谱分析思路形成互补。
非参数与半参数方法方面,两篇论文分别处理不同设定下的推断问题。《Scalable inference for nonparametric stochastic approximation in reproducing kernel Hilbert spaces》在replicated point process框架下,将点过程实现视为随机测度,提出基于累积质量函数的functional PCA,并建立随机测度的Karhunen-Loève展开与Mercer定理,估计达到参数速率,适用于群体层面变异性刻画。《Generalized multilinear models for sufficient dimension reduction on tensor-valued predictors》则在高维回归(p/n→γ)中,针对结构化行-列依赖、重尾、非对称及潜在低秩协变量,提出Spectrum-Aware Debiasing方法,通过一步rescaled gradient descent实现去偏,渐近正态性依赖于样本协方差矩阵的谱性质。
因果与分布鲁棒学习方向,一篇论文《Distributionally robust learning for multisource unsupervised domain adaptation》在两组随机混合模型下,严格刻画了FDR与FNR的渐近最优权衡,证明最优FDR-FNR权衡必须依赖复合决策规则(compound rules),揭示了可分规则在FDR控制下的根本次优性,并扩展到高概率控制FDP的情形。该文对复合决策规则的深入分析,与因果推断中多重假设检验的FDR控制问题直接相关。
对于因果推断方向的研究者,建议优先关注《Distributionally robust learning for multisource unsupervised domain adaptation》中关于FDR-FNR权衡与复合决策规则的分析;对于半参数效率方向,《Scalable inference for nonparametric stochastic approximation in reproducing kernel Hilbert spaces》中的参数速率估计与Karhunen-Loève展开值得细读;对于高维统计方向,《Trace test for high-dimensional cointegration》与《Rank tests for PCA under weak identifiability》分别提供了RMT在协整检验与PCA弱识别中的新应用。
因果推断 (causal_inference, 1 篇)¶
1. 10.1214/25-aos2597 · arXiv — Parameter identification in linear non-Gaussian causal models under general confounding¶
- 作者: Daniele Tramontano, Mathias Drton, Jalal Etesami
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 8/10 · novelty:
weaker_assumption - 摘要: 在线性非高斯因果模型(LiNGAM)含潜变量的设定下,本文研究直接因果效应(线性系数)在允许任意非线性潜变量混淆时的 generic identifiability。以往基于过完备独立成分分析(ICA)的识别结果要求观测变量对潜变量有线性依赖;本文放弃此假设,允许任意非线性混淆路径。核心贡献是提出了一个图准则,证明了它是判定直接因果效应 generic identifiability 的充要条件。此外,给出了该准则的多项式时间算法实现,并探讨了基于此识别结果的估计启发式方法及向反馈环模型的推广。对您有用:直接推进了因果推断中 identification theory 子方向,突破了 LiNGAM 潜变量线性假设的瓶颈。
- 关键技术:
linear non-Gaussian causal models (LiNGAM),generic identifiability,overcomplete independent component analysis (ICA),non-linear latent confounding,graphical criterion for identification,polynomial-time identification algorithm - 为什么对您有用: 点名连接到 causal inference 的 identification theory 子方向,特别是 LiNGAM 潜变量设定下突破线性混淆的识别问题。研究者 moderately_familiar 的 identification theory in causal inference 可用来审视其估计启发式方法能否走向严格的半参数有效估计,或用 very_familiar 的 software development 实现其多项式图准则算法并做仿真验证。中期可做:识别理论本身是图论推导,但将文中提到的 estimation heuristics 发展为具有 n^{-1/2}-CAN 性质及 semiparametric efficiency bound 的估计量,需先在 moderately_familiar 的 M-estimation / semiparametric theory 上长肌肉。
高维统计 / 随机矩阵 (high_dim_rmt, 8 篇)¶
1. 10.1214/25-aos2601 · arXiv — Generalized linear spectral statistics of high-dimensional sample covariance matrices and its applications¶
- 作者: Yanlin Hu, Qing Yang, Xiao Han
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 9/10 · novelty:
new_theory - 摘要: 在高维样本协方差矩阵的随机矩阵理论(RMT)框架下,目标是通过引入辅助矩阵 B_n 与测试函数 f 定义广义线性谱统计量(GLSS) tr f(S_n)B_n,以捕捉不同谱特征,并在 p/n→c 设定下建立其渐近正态性。文章证明了不同测试函数对应 GLSS 的联合渐近正态性,其收敛速率由 √(N/rank(B_n)) 决定,揭示了辅助矩阵秩对统计量方差的关键调控作用。基于此,提出了一种 functional projection 方法,用于对 population-spiked 协方差矩阵的特征空间进行假设检验。该检验展示了 spike magnitude 的 universality phenomenon,即检验统计量的渐近行为不依赖于特定分布细节。主要理论贡献是将经典 LSS 扩展至带辅助矩阵的 GLSS 并给出精确的 CLT 与收敛阶,实证验证了新检验在 spiked eigenspace 检验中的优势。对您有用:直接推进了您在 high-dimensional statistics (RMT) 与 hypothesis testing 交叉方向的理论工具库,特别是 GLSS 的 √(N/rank(B_n)) 速率与 functional projection 检验为高维协方差结构推断提供了新视角。
- 关键技术:
Generalized Linear Spectral Statistics (GLSS),joint asymptotic normality,convergence rate sqrt(N/rank(B_n)),functional projection approach,spiked covariance eigenspace testing,universality phenomenon - 为什么对您有用: 直接命中您 primary interest 中的 high-dimensional statistics (Random matrix theory) 与 mathematical statistics (hypothesis testing),特别是 RMT 中 LSS 的渐近理论及 spiked model 的检验问题。您武器库中 high-dimensional asymptotics (very_familiar) 完全可以用来审视其 CLT 推导,而 GLSS 的结构 tr f(S_n)B_n 可与您 computation of higher-order U-statistics (tensor contraction) 的视角结合,思考辅助矩阵 B_n 引入后的计算与代数简化。立即可做:用 very_familiar 的高维渐近工具即可复现/审视其 CLT 与速率结果,并可尝试将 GLSS 结构映射到您熟悉的 U-statistic/tensor contraction 框架中寻找计算或理论上的等价变形。
2. 10.1214/25-aos2593 · arXiv — Eigenvector overlaps in large sample covariance matrices and nonlinear shrinkage estimators¶
- 作者: Zeqin Lin, Guangming Pan
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 9/10 · novelty:
sharper_rate - 摘要: 在 \(M/N \to c\) 的高维渐近设定下,本文研究样本协方差矩阵的奇异向量重叠量 \(\langle \mathbf{u}_i, D_k \mathbf{u}_j \rangle\) 等的收敛行为,其中 \(D_k\) 为有界算子范数的确定性矩阵。核心机制是利用随机矩阵理论中的留数公式与局部定律,推导出重叠量向其确定性等价物的依概率收敛,并给出显式收敛速率。基于此重叠量结果,作者对 Ledoit-Wolf 非线性收缩估计器的损失函数给出了更精确的刻画,改进了以往仅依赖极限分布而无速率的结果。对您可能有用:该重叠量公式是高维推断(如 debiased ML / semiparametric efficiency bound 在高维设定下)的关键中间量,可直接用于推导 spiked 模型下投影估计的方差界。
- 关键技术:
eigenvector overlap,random matrix theory,deterministic equivalent,nonlinear shrinkage estimator,local law,resolvent formula - 为什么对您有用: 直接连接到 primary interest 中的高维统计与 RMT:重叠量公式是高维推断(如 DML 的方差修正、spiked covariance 下的 semiparametric efficiency bound)的基础工具。用 very_familiar 中的高维渐近与 minimax bound 武器,可以验证本文给出的收敛速率是否紧,并探索将该重叠量结果嵌入到您熟悉的 inverse-problem-with-random-noise 或 HOIF 框架中。立即可做:用 very_familiar 的高维渐近工具复现并拓展重叠量速率到更一般的 \(D_k\) 结构。
3. 10.1214/25-aos2582 · arXiv — Analysis of singular subspaces under random perturbations¶
- 作者: Ke Wang
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 9/10 · novelty:
sharper_rate - 摘要: 在 signal-plus-noise 矩阵模型(低秩信号 + 随机高斯噪声)下,本文对奇异向量与奇异子空间的扰动给出了全面分析。核心是将 Davis–Kahan–Wedin 定理推广至任意 unitarily invariant 矩阵范数,建立在 O'Rourke–Vu–Wang 之前的工作之上。细粒度结果包括:奇异向量的 ℓ∞ 界、奇异子空间的 ℓ2,∞ 算子范数界、奇异向量线性/双线性函数的扰动界,以及按对应奇异值加权后的 ℓ2,∞ 界。最后在 Gaussian mixture model 与 submatrix localization 两个经典问题上展示了这些界的实际含义。对您有用:本文的 ℓ2,∞ / ℓ∞ entrywise 界是高维随机矩阵推断(如 debiased spectral clustering、entrywise PCA)的关键工具,直接服务于您对 RMT 与高维统计效率的兴趣。
- 关键技术:
Davis–Kahan–Wedin theorem generalization,unitarily invariant matrix norm,ℓ∞ entrywise singular vector bound,ℓ2,∞ singular subspace bound,signal-plus-noise matrix model,submatrix localization - 为什么对您有用: 直接连接您 primary interest 中的高维统计与随机矩阵理论(RMT)子方向,尤其是 entrywise / ℓ2,∞ 扰动界在 debiased ML / spectral method 的效率分析中不可或缺。您 very_familiar 中的 high-dimensional asymptotics 与 minimax bounds 可直接用来验证本文声称的界是否紧,或将其嵌入您熟悉的 semiparametric efficiency / HOIF 框架做进一步推断。立即可做:用您已有的 minimax / RMT 工具审视这些界在更一般噪声(非 Gaussian / heteroscedastic)下的可推广性。
4. 10.1214/25-aos2602 · arXiv — Reviving pseudo-inverses: Asymptotic properties of large dimensional Moore–Penrose and ridge-type inverses with applications¶
- 作者: Taras Bodnar, Nestor Parolya
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 8/10 · novelty:
new_theory - 摘要: 本文在 high-dimensional asymptotic regime(p/n → c ∈ (0,∞))下推导了样本协方差矩阵的 Moore-Penrose 逆及各类 ridge-type 逆的加权样本 trace moments 的渐近行为,结果以 partial exponential Bell polynomials 表出,可实际计算。相比既有伪逆文献,本文在三方面做了推广:(i) 不要求 population covariance Σ 为 identity 的倍数;(ii) 不依赖正态假设;(iii) 在高维渐近框架下推导。作者发现 Moore-Penrose 逆在渐近下对 Σ 起到某种正则化作用,对其施加 shrinkage 变换后,在 precision matrix 估计与最优组合权重等任务上可匹敌甚至超越现有 benchmark,且计算代价极低。对您可能有用:本文将 RMT 中伪逆的渐近刻画从 iid/正态设定解放出来,为高维 precision matrix 的 shrinkage 估计提供了新的理论工具。
- 关键技术:
Moore-Penrose inverse,ridge-type generalized inverse,partial exponential Bell polynomials,high-dimensional asymptotics,shrinkage estimator,sample trace moments - 为什么对您有用: 直接连接到 primary interest 中的 high-dimensional statistics / Random matrix theory:在非正态、非 identity Σ 的高维渐近设定下刻画伪逆与 ridge 逆的 trace moments,是 RMT 应用于 precision matrix 估计的重要理论推进。用 very_familiar 中的 high-dimensional asymptotics 与 minimax bounds 工具可以验证其 shrinkage estimator 是否达到 minimax rate,或将其渐近公式嵌入您熟悉的 inverse problems with random noise 框架做进一步推断。立即可做:用 very_familiar 武器(高维渐近、minimax)检查其 shrinkage 估计的 rate sharpness 与 semiparametric efficiency bound 的关系。
5. 10.1214/25-aos2584 · arXiv — Optimal eigenvalue shrinkage in the semicircle limit¶
- 作者: David L. Donoho, Michael J. Feldman
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 8/10 · novelty:
new_theory - 摘要: 在 disproportional-growth 渐近框架下(\(p/n \to 0\) 或 \(\to \infty\)),研究 spiked covariance model 的协方差估计与特征值收缩问题,打破了传统 \(p/n \to \gamma>0\) 的 proportional limit 设定。针对 15 种不同损失函数,推导出闭式最优特征值收缩与阈值规则。核心现象是当 \(\gamma_n \to 0\) 时,样本协方差矩阵的谱极限从 Marchenko-Pastur 律过渡到 Wigner 半圆律,并与 spiked Wigner model 建立了等价联系。提出了一套仅依赖 \(\gamma_n\) 的统一收缩规则,在 proportional 与 disproportional 两种框架下均达到完全渐近最优性。理论结果揭示了 disproportional 极限下需要更大幅度的特征值收缩,且相较于经验协方差估计有显著性能提升。对您有用:本文直接拓展了 RMT 在高维协方差估计中的经典 minimax/efficiency 视角,将半圆律与 spiked model 的最优收缩理论统一,是高维渐近与 RMT 方向的必读之作。
- 关键技术:
spiked covariance model,disproportional-growth asymptotics,Wigner semicircle law,optimal eigenvalue shrinkage,spiked Wigner model,minimax shrinkage rules - 为什么对您有用: 直接命中 primary interest "high-dimensional statistics (Random matrix theory)" 中的 spiked model 与谱极限理论。用 very_familiar 的 "minimax bounds for estimation problems" 和 "high-dimensional asymptotics" 可以直接审视本文 15 种损失下最优收缩规则的紧性,或探讨 disproportional limit 下 semiparametric efficiency bound 的变化。立即可做——用 very_familiar 的高维渐近工具复现/验证这些闭式规则,或将其迁移到您关注的 inverse problems with random noise 的 disproportional 设定中。
6. 10.1214/25-aos2590 · arXiv — Precise asymptotics of bagging regularized M-estimators¶
- 作者: Takuya Koriyama, Pratik Patil, Jin-Hong Du, Kai Tan, Pierre C. Bellec
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 在 proportional asymptotics(n/p, k_m/n 固定)设定下,本文刻画了 subagging 正则化 M-estimator 的平方预测风险并构造了风险的一致估计量。核心机制是建立重叠子样本上估计量与残差误差相关性的联合渐近行为,由一个可证收缩的非线性方程组控制。作为副产品,在非 ensemble(M=1)情形下推广了 trace functional(自由度相关)的收敛结果,从先前仅覆盖平方损失+ridge/lasso 扩展到一般凸可微损失+凸正则化器。对同质 ensemble,风险刻画揭示了由 ensemble 规模 M 和子样本规模 k 诱导的隐式正则化效应;最优子样本规模 k 在显式正则化消失时落入过参数化区域(k≤min{n,p})。联合优化 (M,k,λ) 可显著优于仅在全数据上优化正则化参数。对您有用:proportional asymptotics 下 M-estimator 的 risk 精确刻画与 RMT/高维渐近直接相关,非线性收缩方程组技术可能为高维因果推断中 debiased M-estimator 的 risk 分析提供新工具。
- 关键技术:
proportional asymptotics,subagging (subsample bootstrap aggregating),regularized M-estimator,contractive nonlinear system of equations,trace functional convergence,degrees-of-freedom - 为什么对您有用: 直接连接高维统计与 RMT 的 proportional asymptotics 设定,刻画正则化 M-estimator ensemble 的精确风险;非线性收缩方程组与 trace functional 收敛是核心技术,与您 very_familiar 的高维渐近工具直接对接。可立即用 very_familiar 的高维渐近与 minimax bound 工具验证其风险刻画是否紧,并探索该框架在 debiased M-estimator / semiparametric efficiency 中的迁移潜力。Follow-up 判断:立即可做。
7. 10.1214/25-aos2599 — The distributionally robust prediction error of the LASSO and related estimators¶
- 作者: José Luis Montiel Olea, Cynthia Rush, Amilcar Velez, Johannes Wiesel
- 期刊/来源: Annals of Statistics
- 机构: Cornell University · Columbia University · University of Copenhagen
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 本文在高维线性模型(n/p → δ 的 proportional asymptotics 设定)下,研究 LASSO 及相关正则化估计量的 distributionally robust prediction error:即在 Wasserstein-2 球(半径 ε)内对测试分布取 worst-case 时的预测风险。核心工具是 Convex Gaussian Min-Max Theorem (CGMT),将原始高维 min-max 优化问题精确等价为一个标量优化问题,从而给出 robust prediction error 的 exact asymptotic characterization——不是 minimax upper bound,而是可显式求解的极限风险曲线。文中完整刻画了 robustness 参数 ε 与正则化参数 λ 对预测风险的联合效应,并将结果延伸至 ridge 等估计量。主要理论结果:robust prediction error 的极限值由一个低维 convex-concave optimization 的解给出,且与经典 LASSO risk curve 有精确对照。对您有用:CGMT 是 RMT Gaussian comparison 引理发展出的核心降维工具,本文将其与 distributionally robust minimax 结合,直接对接您的高维渐近与 minimax 武器库。
- 关键技术:
Convex Gaussian Min-Max Theorem,Wasserstein distributionally robust optimization,exact asymptotic risk characterization,high-dimensional proportional asymptotics,LASSO out-of-sample prediction error,Gaussian comparison lemma - 为什么对您有用: 直接命中您的高维统计与 RMT primary interest——CGMT 是从 RMT 的 Gaussian comparison 引理发展出的核心工具,本文用它给出 distributionally robust prediction error 的 exact asymptotic(而非 minimax upper bound),与您 very_familiar 的 minimax bounds for estimation 和 high-dimensional asymptotics 完全对接。用您 very_familiar 的 minimax bound 视角可验证其 exact characterization 的紧性,并厘清 Wasserstein robustness 与 minimax worst-case 之间的精确关系。立即可做:用 very_familiar 的高维渐近工具复现 scalar optimization 的推导,并探索 finite-sample 下 robust prediction error 的 sharper bound。
8. 10.1214/25-aos2592 · arXiv — Inferring the dependence graph density of binary graphical models in high dimension¶
- 作者: Julien Chevallier, Eva Löcherbach, Guilherme Ost
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 5/10 · novelty:
new_theory - 摘要: 本文研究 N 个二元交互链组成的系统,其交互结构由参数 p 的有向 Erdős–Rényi 随机图编码,系统分为兴奋与抑制两个群体并通过平均场耦合。目标是在仅观测 T 时间单位交互链轨迹的设定下,推断连接密度参数 p。作者提出一个易计算的估计量,并证明其收敛速率为 N^{-1/2}+N^{1/2}/T+(log(T)/T)^{1/2},核心分析依赖于通过向后再生表示(coalescing random walks)精确刻画交互链的空间-时间相关性衰减。该再生表示还使得可以从平稳分布完美采样系统(条件于给定图实现)。对您可能有用:该文的时空相关性衰减分析与再生表示技术,为高维随机图结构上的交互过程推断提供了新的概率工具,可连接到您的高维统计与随机矩阵理论兴趣。
- 关键技术:
Erdős–Rényi random graph,coalescing random walks,backward regeneration representation,spatiotemporal correlation decay,mean-field interaction,perfect sampling - 为什么对您有用: 本文连接到您的高维统计(随机图上的交互过程推断)子方向。您 very_familiar 的高维渐近理论可用来审视该估计量在 N,T 联合渐近下的速率是否紧(特别是 N^{1/2}/T 项的 minimax 性)。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-估计理论或随机图上的经验过程工具上长肌肉,以验证该速率的 minimax 下界或拓展到更一般图模型。
非参数 / 半参数 (nonparam_semipara, 5 篇)¶
1. 10.1214/25-aos2587 — Scalable inference for nonparametric stochastic approximation in reproducing kernel Hilbert spaces¶
- 作者: Meimei Liu, Zuofeng Shang, Yun Yang
- 期刊/来源: Annals of Statistics
- 机构: Virginia Tech · Department of Mathematical Sciences · Mathematical Sciences Research Institute · University of Maryland, College Park
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 本文研究 RKHS 中非参数最小二乘的随机近似(SA)框架,目标是在流数据/大规模设定下对非参数回归函数进行在线统计推断。核心方法是构造 functional SGD 在 RKHS 中的迭代估计量,并通过 online multiplier bootstrap 建立逐点置信区间与同时置信带。理论贡献包括:在 sup-norm 下建立 functional SGD 估计量的高阶展开,证明 multiplier bootstrap 的一致性,以及揭示 SGD 步长调节在估计精度与不确定性量化之间的权衡关系。对您可能有用:本文的高阶展开与 sup-norm 下 Gaussian approximation 技术与 higher-order U-statistics / HOIF 的投影与展开思路有结构相似性,且 online bootstrap 为 streaming-data 下的 semiparametric inference 提供了新路径。
- 关键技术:
functional stochastic gradient descent in RKHS,online multiplier bootstrap,higher-order expansion under supremum norm,Gaussian approximation of empirical processes,nonparametric least squares in RKHS,step-size tuning for uncertainty quantification - 为什么对您有用: 本文直接连接 nonparametric theory 与 statistical computing 两个 primary interest 子方向:RKHS 非参数回归的在线推断。用您 very_familiar 的 nonparametric statistics 与 minimax bounds 工具可以审视其 sup-norm 高阶展开的紧致性;moderately_familiar 的 HOIF 理论可用来对比其展开阶数与 influence function 视角的差异。Follow-up 判断:中期可做——需先在 moderately_familiar 的 HOIF 上长肌肉,以 HOIF 视角重新审视 functional SGD 的高阶展开是否可 sharper。
2. 10.1214/25-aos2605 · arXiv — Adaptive Bayesian regression on data with low intrinsic dimensionality¶
- 作者: Tao Tang, Nan Wu, Xiuyuan Cheng, David Dunson
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 在非参数回归设定下,研究当预测变量具有低内在维度时,GP 先验的后验收缩率如何依赖于内在维度与回归函数的光滑度。证明不依赖内在结构知识的通用 GP 先验能根据数据域的覆盖数(Minkowski 维度)自适应调整后验收缩率(至对数因子)。对于紧流形域,通过新颖的 RKHS 逼近分析,证明了对流形上任意阶内在 Hölder 函数的逼近,从而获得最优自适应后验收缩率。提出基于核亲和度与 k-NN 统计量的经验 Bayes 先验来选择核带宽,避免了显式估计内在维度。主要理论结果填补了 GP 先验在低维结构上的自适应收缩空白,实证验证了方法的有效性。对您有用:直接推进了您关注的非参数理论中 minimax/收缩率与 RKHS 逼近的交叉方向,且经验 Bayes 带宽选择为高维/流形数据的非参数计算提供了新思路。
- 关键技术:
Gaussian process prior,posterior contraction rate,RKHS approximation,intrinsic dimensionality,Minkowski dimension,empirical Bayes - 为什么对您有用: 本文直接推进非参数理论中 minimax 收缩率与 RKHS 逼近的交叉方向。您可以用 very_familiar 的 'minimax bounds for estimation problems' 直接审视其 RKHS 逼近证明与收缩率是否紧。立即可做:用 minimax bound 验证其声称的 rate 是否紧,或用 very_familiar 的软件开发技能复现其 k-NN 经验 Bayes 带宽选择算法。
3. 10.1214/25-aos2596 · arXiv — PCA for point processes¶
- 作者: Franck Picard, Vincent Rivoirard, Angelina Roche, Victor M. Panaretos
- 期刊/来源: Annals of Statistics
- 机构: Université Claude Bernard Lyon 1 · École Normale Supérieure de Lyon · Centre de Recherche en Mathématiques de la Décision
- 分类: vol 54 · issue 2
- 相关性 6/10 · novelty:
new_theory - 摘要: 本文在 replicated point process 设定下,将点过程实现视为随机测度,提出基于累积质量函数的 functional PCA 框架,目标是刻画点模式在群体层面的变异性。核心理论贡献包括:为随机测度建立 Karhunen-Loève 展开、为协方差测度建立 Mercer 定理,并引入 principal measures 作为驱动观测点模式的潜过程概念。估计策略易于实现,对 eigenelements 的估计达到参数速率(parametric rate)。方法在 Poisson 和 Hawkes 过程下给出完全刻画,并在地震学、单细胞生物学和神经科学数据上验证。对您可能有用:该框架的 Mercer 定理与 Karhunen-Loève 展开为非参数/半参数理论中的协方差算子分析提供了新视角,principal measures 的潜过程建模思路可启发因果推断中 longitudinal/treatment trajectory 的降维表示。
- 关键技术:
functional PCA for random measures,Karhunen-Loève expansion,Mercer theorem for covariance measures,cumulative mass functions,principal measures,parametric rate estimation - 为什么对您有用: 本文连接到非参数/半参数理论子方向(functional data analysis 的协方差算子谱分析),其 Mercer 定理与 Karhunen-Loève 展开的技术工具与您 very_familiar 的 minimax bounds 和高维渐近理论有直接交集。用您 moderately_familiar 的 M-estimation 理论可以分析其 eigenelement 估计量的渐近性质(如是否达到 semiparametric efficiency bound),这是一个中期可做的 follow-up:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,具体是验证该估计在更一般测度过程下的 efficiency 性质。
4. 10.1214/25-aos2598 — Generalized multilinear models for sufficient dimension reduction on tensor-valued predictors¶
- 作者: Daniel Kapla, Efstathia Bura
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 在 tensor-valued predictors 的回归/分类设定下,本文将条件分布建模为 quadratic exponential family 成员,推导 multilinear sufficient dimension reduction (SDR) 的 identification 与估计。对连续和 binary tensor predictors 分别提出估计程序:连续情形基于 closed-form MLE,binary 情形则用 gradient-based 优化。利用 manifold theory(参数空间为 Grassmann manifold)证明估计量的 consistency 与 asymptotic normality,给出了具体的收敛速率。连续情形的算法计算效率高,且在 reduction dimension 超过 sample size 时仍可运行,突破了经典 SDR 的 sample size 限制。对您有用:tensor-valued SDR 的估计核心是 tensor decomposition / contraction,与您 higher-order U-statistics 的 einsum / tensor contraction 视角有直接结构相似性。
- 关键技术:
sufficient dimension reduction,quadratic exponential family,Grassmann manifold asymptotics,multilinear tensor decomposition,MLE on manifold,tensor-valued predictors - 为什么对您有用: 连接到 semiparametric theory (SDR 本质是 semiparametric 方法) 和 statistical computing (tensor 操作) 两个 primary interest 子方向。用 very_familiar 的 'computation of higher-order U-statistics (treewidth / tensor contraction / einsum)' 可以直接分析其 tensor decomposition 的计算复杂度结构,甚至探索 einsum 优化其算法的可行性。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉(SDR 的 semiparametric efficiency bound),之后可研究 tensor SDR 的 efficiency bound 或将 einsum/treewidth 视角引入其计算流程。
5. 10.1214/25-aos2580 · arXiv — Estimation of grouped time-varying network vector autoregressive models¶
- 作者: Degui Li, Bin Peng, Songqiao Tang, Weibiao Wu
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 在大型时间序列的网络向量自回归(NVAR)框架下,目标是对节点异质的时间变化动量效应与网络溢出效应进行估计,通过施加潜在分组结构大幅减少待估时变系数数量。方法分两阶段:先用非参数估计的距离矩阵结合经典凝聚聚类与ratio准则,一致估计分组数与成员归属;再用post-grouping局部线性平滑估计各组特异时变系数,收敛速率显著优于忽略分组结构的初步估计。理论证明了分组数与成员的一致性、post-grouping估计的速率提升,并扩展允许分组成员、分组数或组特异系数函数的结构突变。Annals of Statistics 级别的非参数+半参数理论工作,对您在非参数估计与高维降维交叉方向有直接参考价值。
- 关键技术:
local linear smoothing,agglomerative clustering with nonparametric distance,ratio criterion for group number,post-grouping estimation,time-varying coefficient VAR,structural break detection - 为什么对您有用: 本文核心落在 semiparametric/nonparametric theory(局部线性平滑估计时变系数)与 high-dimensional dimension reduction(潜在分组结构降维)的交叉点。您 very_familiar 的 minimax bounds 工具可直接用来检验 post-grouping 估计声称的收敛速率是否达到 minimax optimal,以及 ratio 准则选分组数的理论保证是否可进一步收紧。Follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上补充网络 VAR 的 M-估计框架细节,但非参数收敛速率分析本身已在武器库内。
效率理论 / Debiased ML (efficiency_dml, 2 篇)¶
1. 10.1214/25-aos2586 · arXiv — Spectrum-aware debiasing: A modern inference framework with applications to principal components regression¶
- 作者: Yufan Li, Pragya Sur
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 在高维回归(p/n → γ ∈ (0,∞))设定下,目标是构造对结构化行-列依赖、重尾、非对称及潜在低秩协变量均适用的 debiased estimator,突破经典 degrees-of-freedom 调整仅限 iid + sub-Gaussian 的瓶颈。提出 Spectrum-Aware Debiasing:通过一步 rescaled gradient descent 实现去偏,rescaling factor 由样本协方差矩阵的谱性质(特征值/特征向量)导出。在协变量满足 right-rotational invariance 条件下,证明 estimator 渐近正态性,并建立 spectral universality 结果将保证推广到更广协变量分布类;同时构造渐近方差的一致估计量。副产品之一是给出高维 principal components regression 的首个 debiased estimator;另一副产品是提出检验信号与样本协方差 eigenvectors 是否 aligned 的 principled test,对 AMP / leave-one-out / RMT / CGMT 方法均有独立诊断价值。对您有用:本文将 RMT 谱工具嵌入 debiasing 框架,直接连接您的高维渐近论与 efficiency/debiased ML 两个 primary interest;signal-eigenvector alignment test 可作为未来高维因果推断 debiasing 的诊断工具。
- 关键技术:
spectrum-aware debiasing,rescaled gradient descent,right-rotational invariance,spectral universality,debiased principal components regression,signal-eigenvector alignment test - 为什么对您有用: 直接连接 efficiency/debiased ML(primary interest)——提出超越 degrees-of-freedom 调整的新 debiasing 框架,且核心机器是 RMT 谱分析,同时命中您的高维统计/RMT primary interest。您的 very_familiar 武器'high-dimensional asymptotics'可直接审视其 spectral universality 证明路径;moderately_familiar 的'semiparametric theory'可用来对比其 rescaled-GD debiasing 与 classical one-step / orthogonal score 的结构差异。Follow-up:立即可做——用高维渐近论工具验证其 universality claim 在更一般依赖结构下的适用边界,或将其 rescaled-GD debiasing 思路迁移到高维因果推断(IV / proximal CI)的 debiasing 问题中。
2. 10.1214/25-aos2578 — Distributionally robust learning for multisource unsupervised domain adaptation¶
- 作者: Zhenyu Wang, Peter Bühlmann, Zijian Guo
- 期刊/来源: Annals of Statistics
- 机构: Rutgers Sexual and Reproductive Health and Rights · ETH Zurich · Zhejiang University
- 分类: vol 54 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 在多源无监督域适应设定下,目标域无标签、源域有标签,estimand 为目标域条件期望模型,核心假设为协变量偏移且目标分布落在源分布凸包定义的扰动集内。提出 distributionally robust model,优化对抗性 explained variance reward,证明最优解是各源域条件模型的加权平均,权重由源-目标密度比决定。引入 bias-correction 步骤修正聚合权重,使任意 ML 算法均可作为基学习器且修正后权重达 n^{-1/2}-CAN 收敛。理论给出 excess risk bound 与权重估计的有限样本保证,模拟与真实数据验证有效。对您有用:bias-correction 与 debiased ML / orthogonal score 同构,是 semiparametric efficiency 在域适应聚合权重中的具体实例。
- 关键技术:
distributionally robust optimization,explained variance reward,density-ratio weighting,bias-correction / debiased aggregation,excess risk bound,federated learning interpretation - 为什么对您有用: 直接连接 efficiency_dml 子方向:bias-correction 本质是构造 orthogonal score 修正密度比权重估计偏差,与您熟悉的 debiased ML / one-step correction 同构。用 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory 可直接分析该权重估计器是否达到 semiparametric efficiency bound。follow-up:立即可做——用 minimax bound 验证 excess risk rate 是否紧,或用 HOIF 视角审视更高阶修正潜力。
数理统计 / 假设检验 (hypothesis_testing, 5 篇)¶
1. 10.1214/25-aos2581 · arXiv — Large-scale multiple testing: Fundamental limits of false discovery rate control and compound oracle¶
- 作者: Yutong Nie, Yihong Wu
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 8/10 · novelty:
new_theory - 摘要: 在两组随机混合模型(如 Gaussian location model)下,当假设数量趋于无穷时,本文确定了 FDR 与 FNR 的渐近最优权衡。与由可分决策规则(separable rules)实现的最优 mFDR-mFNR 权衡不同,最优 FDR-FNR 权衡即使在渐近极限下也必须依赖复合决策规则(compound rules),这揭示了可分规则在 FDR 控制下的根本次优性。进一步,针对 FDP 仅控制期望而不控制波动的问题,作者证明了在高概率控制 FDP 时的最优权衡与 mFDR-mFNR 权衡一致,并对固定非零比例模型给出扩展结果。对您有用:本文严格刻画了 compound decision rule 在 FDR 控制中的必要性,直接推进了 mathematical statistics 中 hypothesis testing 的 minimax 理论。
- 关键技术:
compound decision rules,FDR-FNR tradeoff,two-group random mixture model,separable vs compound rules,high-probability FDP control,Bayes oracle - 为什么对您有用: 直接推进 hypothesis testing 的 minimax 理论,明确揭示 compound decision rule 在 FDR 控制下的必要性,与您 primary interest 中的 mathematical statistics (hypothesis testing) 紧密相连。用您 very_familiar 的 minimax bounds 工具即可分析其最优权衡的紧性;follow-up 判断:立即可做——用 minimax bound 验证其声称的 sharper rate 是否紧,或扩展到高维设定。
2. 10.1214/25-aos2579 — Trace test for high-dimensional cointegration¶
- 作者: Alexei Onatski, Chen Wang
- 期刊/来源: Annals of Statistics
- 机构: University of Cambridge · University of Hong Kong
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 本文研究高维设定下 Johansen 协整迹检验的渐近性质,设定为截面维度 p 与时间维度 T 同比例增长(p/T→c>0)。作者证明经位移与缩放修正的迹统计量收敛到正态分布,并给出位移、缩放参数及正态极限均值、方差的显式公式。Monte Carlo 表明该渐近检验的 size 性质优于 Bartlett 校正版,尤其在 p/T 较大时;同时发现检验 power 存在非单调性并分析其来源。对您有用:将 RMT 高维渐近工具引入经典计量经济学协整检验,直接连接您的高维统计与假设检验兴趣。
- 关键技术:
Johansen trace test,high-dimensional asymptotics (p/T proportional growth),random matrix theory,Gaussian limit of modified trace statistic,Bartlett correction,nonmonotonic power analysis - 为什么对您有用: 直接连接您的高维统计(RMT)与假设检验两个 primary interest 子方向:用 RMT 高维渐近(p/T→c)修正经典协整迹检验,给出正态极限的显式参数。您 very_familiar 的高维渐近工具可直接攻其位移/缩放公式的推导细节;若想深入 power 非单调性的理论解释,需在 moderately_familiar 的 M-estimation theory 上补充局部渐近功率分析。立即可做:用您熟悉的高维渐近与 RMT 工具复现/扩展其极限分布推导。
3. 10.1214/25-aos2552 — Rank tests for PCA under weak identifiability¶
- 作者: Davy Paindaveine, Laura Peralvo Maroto, Thomas Verdebout
- 期刊/来源: Annals of Statistics
- 机构: Université Libre de Bruxelles
- 分类: vol 54 · issue 2
- 相关性 7/10 · novelty:
new_theory - 摘要: 在三角阵列框架下,研究从 p 维椭圆分布中抽样 n 个观测时,形状矩阵 V_n 的主导单位特征向量 θ 的检验问题 H₀: θ=θ₀ vs H₁: θ≠θ₀,核心设定是“弱可识别性”:V_n 的前两大特征值之比随 n 趋于 1,导致参数 θ 在极限下不可识别。作者系统研究了该弱可识别性下的极限实验,证明其可能是 LAN 或非 LAN。不同于以往仅限 Gaussian 的工作,本文允许任意椭圆分布,为此发展了三角阵列下二次均值可微族(quadratic mean differentiable families)的新结果。基于 Le Cam 第一与第三引理,即使在非 LAN 实验中,也能推导出多元秩检验的渐近零分布与非零性质。这些非参数秩检验在弱可识别性下不仅严格保持目标名义水平,还维持出色的均匀效率;特别地,Gaussian-score 秩检验在任意弱可识别性下,其渐近相对效率仍均匀优于参数化 pseudo-Gaussian 竞争者。对您有用:本文将 Le Cam 理论与秩检验推进到弱可识别性设定,直接呼应您在 hypothesis testing 与 semiparametric efficiency 上的核心兴趣,并为高维 spiked model inference 提供了新的数学统计视角。
- 关键技术:
Le Cam's first and third lemmas,Local Asymptotic Normality (LAN / non-LAN),Quadratic mean differentiable families,Multivariate rank tests,Weak identifiability (spiked eigenvalues),Asymptotic relative efficiency (ARE) - 为什么对您有用: 直接连接到您 primary interest 中的 mathematical statistics (hypothesis testing) 与 semiparametric & nonparametric theory(椭圆分布的半参数模型与秩检验的效率理论)。您 very_familiar 的 minimax bounds for estimation problems 与 moderately_familiar 的 semiparametric theory 可以用来审视本文在弱可识别性下声称的“均匀效率”是否达到 minimax optimal,或者用 HOIF 视角探索是否能在更高阶上改进非 LAN 下的检验效力。Follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory(特别是非 LAN 极限实验的 Le Cam 理论)上长肌肉,才能深入复现其极限实验推导并探索高维 p/n→ρ 设定下的类似检验。
4. 10.1214/25-aos2591 · arXiv — Finite- and large sample inference for model and coefficients in high-dimensional linear regression with repro samples¶
- 作者: Peng Wang, Min-ge Xie, Linjun Zhang
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 本文在高维线性回归设定下(p>n,稀疏模型),提出基于 repro samples framework 的有限样本与大样本推断方法,目标是对真实稀疏模型、单个/多个系数及模型-系数联合构造置信集。核心机制是利用 Fisher inversion 技术构造模型候选集,以 1-o(1) 概率覆盖真实模型,从而避免遍历所有子模型的计算困难;在此基础上对系数做 repro-sample-based 置信集,有限样本下保证覆盖率,大样本下渐近有效。理论给出有限样本覆盖保证与渐近性质,数值上比 debiasing 和 bootstrap 方法覆盖更准、置信集更小。对您有用:该文为高维推断提供有限样本保证的新路径,与您关注的 debiased ML / 效率理论形成直接对比。
- 关键技术:
repro samples framework,Fisher inversion,model candidate set,finite-sample coverage guarantee,high-dimensional linear regression,confidence set for model and coefficients - 为什么对您有用: 直接连接高维推断与假设检验两个 primary interest 子方向,填补有限样本推断空白,与您熟悉的 debiased ML / semiparametric efficiency bound 形成方法论对照。您可用 minimax bound 与 high-dimensional asymptotics 工具验证其声称的置信集大小是否达到 rate-optimal,这是立即可做的 follow-up。
5. 10.1214/25-aos2595 · arXiv — Object detection under the linear subspace model with application to cryo-EM images¶
- 作者: Keren Mor Waknin, Amitay Eldar, Samuel Davenport, Tamir Bendory, Armin Schwartzman, Yoel Shkolnisky
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 本文研究在噪声数据中检测多个未知物体的问题,设定为线性子空间模型(物体可展开为已知基如 Fourier 基的线性组合),目标是在控制 FWER 或 FDR 的前提下渐近保证检测所有物体。核心方法是基于线性子空间模型的 scan statistic / maximum projection 检验,利用已知基将信号参数化后构造检测统计量,并通过 Gaussian approximation / extreme value theory 推导 max-projection 的渐近分布以实现多重检验误差控制。理论结果给出了噪声水平与信号强度条件下的渐近检测保证;数值模拟表明在非渐近、高噪声 regime 下仍保持高功效与误差控制;cryo-EM 实验数据验证算法优于现有软件。对您有用:该文的线性子空间模型下多重检测框架与您在 inverse problems with random noise 和 hypothesis testing 的兴趣直接对接。
- 关键技术:
linear subspace model,multiple testing with FWER/FDR control,scan statistic / maximum projection,Gaussian approximation for maxima,cryo-EM particle picking - 为什么对您有用: 本文直接连接 hypothesis testing 与 inverse problems with random noise 两个子方向:线性子空间模型下 max-projection scan statistic 的渐近分布推导,是您 very_familiar 的 high-dimensional asymptotics / Gaussian approximation 武器可直接切入的口子。follow-up 判断:立即可做——用您熟悉的 high-dimensional asymptotics 工具可以验证其渐近阈值是否紧,或推广到更一般的基设定。
统计计算 / 算法 (stat_computing, 1 篇)¶
1. 10.1214/25-aos2583 · arXiv — Versatile differentially private learning for general loss functions¶
- 作者: Qilong Lu, Song Xi Chen, Yumou Qiu
- 期刊/来源: Annals of Statistics
- 分类: vol 54 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 在差分隐私(DP)约束下的M-estimation框架中,目标是提供无需预先指定后续分析任务、适用于一般loss function(含非光滑loss如check loss与hinge loss)的一致且渐近正态参数估计。提出ZIL(zero-inflated symmetric multivariate Laplace)隐私机制,基于零膨胀对称多元Laplace噪声添加,推导了刻画隐私保护水平的trade-off function。在M-estimation框架下提出doubly random corrected loss (DRCL),对ZIL噪声数据进行修正,无需数值积分与微分即可计算,给出DP约束下目标参数的一致且渐近正态M-估计量。方法适用于光滑与非光滑loss、不限制分析次数、可适应在线场景数据增长。主要理论结果为ZIL的trade-off function刻画与DRCL的渐近正态性保证;对您可能有用之处在于,DRCL的噪声修正思路与semiparametric efficiency中的debiased/one-step correction有概念平行,且计算简便性直接关联statistical computing方向。
- 关键技术:
zero-inflated multivariate Laplace mechanism,doubly random corrected loss (DRCL),differential privacy trade-off function,M-estimation under privacy constraints,asymptotic normality for non-smooth loss - 为什么对您有用: 本文连接到M-estimation theory(moderately_familiar)和statistical computing(primary interest),DRCL的修正机制与debiased ML / one-step correction在概念上平行——用M-estimation theory可以审视DRCL的渐近正态性是否触及semiparametric efficiency bound,或分析非光滑loss下correction的最优性。中期可做:需先在differential privacy的f-DP / trade-off function框架上长肌肉,才能深入审视隐私-效用权衡的理论tightness;当前DP核心机器不在武器库里。
Maintained by 陈星宇 · Homepage · Source on GitHub