AoS — Vol 53 Issue 4 · 2026-06-20¶
- 共 17 篇 · Annals of Statistics
- 目录核对 ✅ 未见遗漏(对照 OpenAlex 2 篇,权威目录可能尚未完全收录本期)
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期《统计年鉴》(AoS Vol 53 Issue 4)共收录17篇论文,整体可归纳为四条主线:高维随机矩阵与谱方法(5篇)、非参数与半参数方法(5篇)、因果推断与策略学习(3篇),以及分散的假设检验、计算方法与其它主题(4篇)。高维随机矩阵主线集中关注特征向量/主成分的精确渐近分布、偏差校正与推断,以及在高维回归和因子模型中的应用;非参数半参主线则覆盖纵向网络、协方差建模、分布回归、迁移学习和聚类理论,强调效率最优和凸优化框架;因果推断主线聚焦离线策略学习中的重叠假设放松、随机化实验的高维协变量调整以及个体异质性MDP的强化学习。
在高维随机矩阵主线上,多篇论文共同推进了谱估计的高阶渐近理论与逐元素(entrywise)行为。例如,“Higher-order entrywise eigenvectors analysis”通过Edgeworth展开和bootstrap给出了特征向量分量的高阶校正;“The high-dimensional asymptotics of principal component regression”利用multi-resolvent traces技术导出PCR风险的精确极限,揭示了尖峰协方差模型下的偏差;“Entrywise dynamics and universality of general first order methods”建立了递归leave-k-out技术,证明了GFOM迭代在poly-log步内的逐元素universality;“On the multiway principal component analysis”则指出multiway PCA无需eigengap条件,样本量要求大幅降低;“Optimal vintage factor analysis with deflation varimax”通过逐行求解正交矩阵实现因子载荷的minimax最优估计。这些工作从不同角度深化了对高维随机矩阵中谱分解与主成分推断的理解。
非参数与半参数主线中,“Semiparametric modeling and analysis for longitudinal network data”通过构造半参数有效得分方程和商流形几何处理干扰参数,实现潜空间参数的oracle效率;“Entropic covariance models”将线性约束置于协方差矩阵的不同变换上,基于凸M估计获得一般渐近理论,并给出无约束参数化;“Improved learning theory for kernel distribution regression with two-stage sampling”引入near-unbiased条件,得到更紧的minimax收敛速率;“Robust transfer learning with unreliable source data”提出TAB方法,用歧义水平控制负迁移,达到minimax最优;“Asymptotic theory of geometric and adaptive k-means clustering”将Pollard的相合性结果推广至黎曼流形等几何空间,去掉了唯一性假设。该主线体现了从半参数效率到非参数收敛速率的广泛覆盖。
因果推断主线的三篇论文各具侧重:“Policy learning ‘without’ overlap”提出悲观策略学习(PPL),利用下置信界完全绕开统一重叠假设,次优性上界仅依赖最优策略的重叠程度;“Debiased regression adjustment in completely randomized experiments with moderately high-dimensional covariates”在p/n→c∈(0,1)时构造去偏回归调整估计量,以随机化机制为唯一源实现渐近正态,无需稀疏性;“Reinforcement learning for individual optimal policy from heterogeneous data”引入个体潜变量异质性MDP和P4L算法,在部分覆盖假设下取得fast rate regret。此外,分布无关预测推断的“Algorithmic stability implies training-conditional coverage”证明算法稳定性可恢复full conformal及jackknife+的训练条件覆盖保证;另一篇“Spectral gap bounds for reversible hybrid Gibbs chains”则通过谱分析量化近似Gibbs链的收敛速率。
对于关注因果推断、半参数效率或高维统计的读者,可优先阅读因果推断主线的三篇(Policy learning without overlap、Debiased regression adjustment、Reinforcement learning for individual optimal policy),半参数效率方向的Semiparametric modeling for longitudinal network data和Entropic covariance models,以及高维随机矩阵主线中的Higher-order entrywise eigenvectors analysis和The high-dimensional asymptotics of principal component regression。
因果推断 (causal_inference, 3 篇)¶
1. 10.1214/25-aos2511 · arXiv — Policy learning “without” overlap: Pessimism and generalized empirical Bernstein’s inequality¶
- 作者: Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 9/10 · novelty:
new_method - 摘要: 本文研究离线策略学习(offline policy learning)问题,目标是从事先收集的观测数据中学习最优个体化决策规则,使总体结果最优。现有方法依赖统一的overlap假设,即所有行动对所有个体特征的倾向得分必须下有界,但离线数据可能违反该假设,尤其是当行为策略随时间自适应变化时倾向得分可能趋于零。作者提出悲观策略学习(PPL)算法,不再优化策略值的点估计,而是构造下置信界(LCB)并最大化该下界,LCB利用已知的行为策略信息构建。理论上,无需任何统一的overlap条件,算法次优性的数据依赖上界仅依赖于最优策略的overlap和策略类的复杂度;对于自适应收集的数据,只要最优行动倾向得分下有界(次优行动可任意快衰减)即可保证高效学习。分析中发展了一类新的自归一化型浓度不等式,将经典的empirical Bernstein不等式推广到无界、非独立同分布数据,用于逆概率加权估计量的集中性。算法通过Majorization-Minimization和策略树搜索实现高效优化,模拟和真实数据验证了方法有效性。该论文直接切入因果推断中策略学习的关键假设松弛问题,其自归一化浓度不等式技术可迁移到其他因果推断情境(如离线评估动态处理方案时的置信区间构造)。
- 关键技术:
pessimistic policy learning,lower confidence bounds,self-normalized concentration inequality,generalized empirical Bernstein's inequality,Majorization-Minimization optimization,policy tree search - 为什么对您有用: 本文直接对应因果推断子方向——offline policy learning under limited overlap,解决了均匀overlap假设过强这一实际痛点。技术层面,武器库中'very_familiar'的非参数统计和高维渐近工具可用于检验其自归一化不等式是否紧;'moderately_familiar'的识别理论可用于将该方法推广到更复杂的多阶段策略学习。本文属'立即可做':研究者可直接复现并基于其浓度不等式框架开展后续敏感性分析或处理动态离策略评估。
2. 10.1214/25-aos2513 · arXiv — Debiased regression adjustment in completely randomized experiments with moderately high-dimensional covariates¶
- 作者: Xin Lu, Fan Yang, Yuhao Wang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 8/10 · novelty:
new_method - 摘要: 在完全随机实验的随机化推断框架下,本文研究协变量维度p与样本量n同阶(p/n→c∈(0,1))时的处理效应估计与推断问题。现有方法要求p远小于n或潜在结果线性表示满足稀疏性假设;本文无需任何稀疏性约束,提出了一个去偏回归调整估计量。该估计量以处理分配机制的随机性为唯一源,通过构造偏差校正项实现渐近正态性,且不依赖模型假设。理论部分证明了估计量的正态收敛性,并讨论了不同维度约束下相对于未调整估计量的效率改进。数值模拟表明,在中等高维场景下该估计量优于传统回归调整方法。对您而言,该工作直接拓展了因果推断中随机化实验的协变量调整方法至高维情形,您可用熟悉的因果推断估计理论和高维渐近工具分析其偏差校正机制及效率界。
- 关键技术:
debiased regression adjustment,randomization-based inference,moderately high-dimensional covariates,asymptotic normality,model-free estimation,covariate adjustment - 为什么对您有用: 本论文属于您主要兴趣的子方向——随机化实验中的协变量调整因果推断,特别处理p与n同阶时不依赖稀疏性的推断问题。您熟悉的因果推断估计理论(very_familiar)可直接用于分析其去偏构造的偏差与方差;同时您的高维渐近工具(very_familiar)可用于验证其渐近正态条件是否紧以及效率界是否可达。综合来看,该论文所需核心技术均在您当前武器库内,立即可做——可复现数值结果、推导有限样本更高阶性质,或将其去偏思想推广到更复杂实验设计(如分层、配对)。
3. 10.1214/25-aos2512 · arXiv — Reinforcement learning for individual optimal policy from heterogeneous data¶
- 作者: Rui Miao, Babak Shahbaba, Annie Qu
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 7/10 · novelty:
new_method - 摘要: 在离线强化学习设定下,针对异质性时间平稳 MDP,目标是估计个体最优策略以最大化期望总奖励,关键假设为个体潜变量驱动的异质性与行为策略的部分覆盖。本文提出含个体潜变量的异质 MDP 模型以高效估计个体 Q-function,并构建 P4L(Penalized Pessimistic Personalized Policy Learning)算法。P4L 结合 pessimism 机制与惩罚项,在行为策略仅需部分覆盖(partial coverage)的弱假设下,保证平均 regret 达到 fast rate。模拟与真实数据验证了方法相较于传统同质策略的数值优势。对您可能有用:该框架将个体潜变量与部分覆盖下的 pessimistic 优化结合,为 longitudinal / dynamic treatment regime 的异质性因果推断提供了新视角。
- 关键技术:
offline reinforcement learning,heterogeneous Markov decision process,individual latent variable model,pessimistic policy optimization,partial coverage assumption,fast regret rate - 为什么对您有用: 本文直接连接到 causal inference 的 longitudinal / dynamic treatment regime 子方向,将个体潜变量引入 MDP 并在部分覆盖下做 pessimistic 优化,与您熟悉的 identification theory 和 estimation theory 形成对话。您可以用 very_familiar 中的 minimax bounds for estimation problems 工具审视其 fast regret rate 是否紧,或用 moderately_familiar 的 semiparametric theory 探究个体 Q-function 估计的 semiparametric efficiency bound 是否可达。Follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以严格刻画 P4L 惩罚项下的 M-estimator 收敛性质与 influence function。
高维统计 / 随机矩阵 (high_dim_rmt, 5 篇)¶
1. 10.1214/25-aos2520 · arXiv — Higher-order entrywise eigenvectors analysis of low-rank random matrices: Bias correction, Edgeworth expansion and bootstrap¶
- 作者: Fangzheng Xie, Yichi Zhang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 9/10 · novelty:
new_theory - 摘要: 该论文研究低秩信号加噪声矩阵模型中特征向量分量(entrywise eigenvector)的精确分布,目标是建立高阶随机展开并用于推断。方法上,首先证明特征向量扰动可分解为一阶项(噪声的线性函数)和二阶项(噪声平方的线性函数),该二阶项具有自平滑效应。基于此展开,作者提出特征向量偏差修正程序,并推导了学生化特征向量统计量的Edgeworth展开公式,且证明在温和条件下无需Cramér光滑性条件。进一步,利用Edgeworth展开结果证明了残差bootstrap方法的高阶正确性。理论结果适用于网络分析、矩阵降噪等广泛统计学习问题。对您而言,此文直接对接高维随机矩阵中谱估计的精确渐近理论,Edgeworth展开和bootstrap为假设检验提供新工具,可沿此探索更复杂模型(如异质性噪声)下的推断方法。
- 关键技术:
stochastic expansion,Edgeworth expansion,residual bootstrap,low-rank signal-plus-noise matrix model,entrywise eigenvector analysis,bias correction - 为什么对您有用: (1)子方向:高维统计中的随机矩阵理论,具体涉及低秩矩阵模型下特征向量分量的高阶渐近分布,与研究者的高维随机矩阵兴趣直接匹配。(2)武器库中“very_familiar”的“高维渐近”和“非参数统计”可用来理解论文的核心渐近工具,而“moderately_familiar”中目前缺少Edgeworth展开和bootstrap高阶理论,但可借助高维渐近基础快速切入。(3)follow-up粗判:中期可做——需先补充Edgeworth展开和bootstrap高阶校正的细节知识(属moderately_familiar中的新工具),但高维渐近背景足够支持泛读和初步复现。
2. 10.1214/25-aos2532 · arXiv — The high-dimensional asymptotics of principal component regression¶
- 作者: Alden Green, Elad Romanov
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 9/10 · novelty:
new_theory - 摘要: 在高维回归 n/p → γ 的渐近框架下,该文对主成分回归 (PCR) 的估计风险和预测风险给出了精确极限公式。公式由总体协方差特征值、真实信号与总体主成分的偏差以及所选主成分个数共同决定。由于样本协方差不是总体的一致估计,样本主成分可能无法揭示潜在的低维结构,作者通过尖峰协方差模型等案例加以说明。为求解预测风险,他们引入了统计文献中尚不多见的多预解迹 (multi-resolvent traces) 技术,这是随机矩阵理论中处理相关统计量的新工具。该文为高维 PCR 提供了一套严谨的渐近理论,也为随机矩阵理论在统计学中的精细应用树立了范例。对您而言,本文在高维统计(随机矩阵理论)方向直接推进了精确渐近分析,并且其技术思路可能平滑迁移至您熟悉的高维渐近与逆问题工具。
- 关键技术:
principal component regression (PCR),multi-resolvent traces,random matrix theory,spiked covariance model,asymptotic risk analysis,proportional asymptotics - 为什么对您有用: 本文直接对接您 primary interest 中的高维统计与随机矩阵理论子方向,精确刻画了 PCR 在 n/p → 常数下的极限风险。您熟悉的“高维渐近”和“逆问题”武器库可立即用于验证或推广该极限公式,例如构造新的风险边界。由于多预解迹是高级 RMT 工具,但您已有坚实的随机矩阵基础,可中期学习并纳入自己的分析工具箱;当前阶段理解主要结论与推导思路已具备条件。
3. 10.1214/25-aos2544 · arXiv — Entrywise dynamics and universality of general first order methods¶
- 作者: Qiyang Han
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 6/10 · novelty:
new_theory - 摘要: 本文在一般随机矩阵模型下研究一般一阶方法(GFOM,含梯度下降与AMP变体)迭代的非渐近逐元素动力学。核心 estimand 是 GFOM 迭代序列每个坐标的精确随机行为,关键假设为随机矩阵的异质性与矩条件。方法上,作者提出递归 leave-k-out 技术,为 GFOM 迭代及其对底层矩阵的高阶导数提供“几乎”去定位(delocalization)控制,从而在 poly-log 迭代步数内建立逐元素 universality。作为推论,首次给出超越 Gaussian ensemble 的 GFOM 迭代经验分布非渐近描述;应用一通过 GFOM 构造算法化证明路径,建立正则化最小二乘与逻辑回归 MLE 的逐元素 universality;应用二对非凸损失下的梯度下降给出逐元素 Gaussian 逼近与非渐近 state evolution。对您有用:本文的 leave-k-out 与高阶导数去定位分析直接连接高维渐近与 RMT,其算法化 universality 证明路径为高维推断与 debiased ML 的分布逼近提供了新工具。
- 关键技术:
general first-order methods (GFOM),recursive leave-k-out method,entrywise universality,delocalization of higher-order derivatives,nonasymptotic state evolution,algorithmic universality proof - 为什么对您有用: 本文直接连接您 primary interest 中的高维统计与 RMT(逐元素 universality 与 state evolution),以及 efficiency theory / debiased ML(正则化估计量的逐元素分布逼近是 debiased inference 的核心前提)。您武器库中 very_familiar 的 high-dimensional asymptotics 可直接切入本文的 state evolution 与经验分布推论;但核心证明机器——递归 leave-k-out 与高阶导数去定位——需要 moderately_familiar 的 M-estimation theory 中对估计量关于样本的路径导数(path derivative / leave-one-out)分析做肌肉增强。Follow-up 判断:中期可做——需先在 leave-k-out / path derivative 分析上长肌肉,之后可将本文的 universality 框架迁移到您关注的 debiased ML 估计量的逐元素推断。
4. 10.1214/25-aos2508 · arXiv — On the multiway principal component analysis¶
- 作者: Jialin Ouyang, Ming Yuan
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 5/10 · novelty:
new_theory - 摘要: 本文研究多路(tensor)数据的 PCA 理论,目标是在一般 multiway PCA 设定下厘清其与传统矩阵 PCA 的概念差异及估计/推断性质。核心发现是:multiway PCA 与 multiway SVD 存在微妙区别,且 multiway PC 的估计不需要传统 PCA 所依赖的 eigengap 条件,样本量要求也大幅降低。作者证明样本 multiway PC 之间渐近独立,单个 PC 的渐近分布不依赖其他 PC,从而允许对 population PC 进行分离且更精确的推断。数值与实例验证了方法优势。对您有用:multiway PCA 的 eigengap-free 估计与渐近独立推断直接连接到您的高维渐近理论与 tensor contraction 计算(einsum)视角。
- 关键技术:
multiway principal component analysis,tensor SVD vs PCA distinction,eigengap-free estimation,asymptotic independence of sample PCs,per-component inference,high-dimensional asymptotics - 为什么对您有用: 本文直接连接到您的高维统计与 RMT 方向,特别是 multiway/tensor PCA 的渐近理论;您武器库中 very_familiar 的 tensor contraction / einsum 计算视角可用来审视 multiway PC 的计算复杂度与 contraction-order 优化,moderately_familiar 的高维渐近理论可用来验证其 eigengap-free rate 是否紧。Follow-up 判断:立即可做——用 einsum/treewidth 框架分析 multiway PC estimator 的计算代价,并尝试用 minimax bound 检查其声称的 sharper sample size requirement。
5. 10.1214/25-aos2518 · arXiv — Optimal vintage factor analysis with deflation varimax¶
- 作者: Xin Bing, Xin He, Dian Jin, Yuqian Zhang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 3/10 · novelty:
new_theory - 摘要: 本文研究vintage factor analysis(经典因子分析)中最常用的PCA结合varimax旋转的两步程序,目标是估计因子载荷矩阵。现有方法因varimax需要在正交矩阵集上求解非凸优化而缺乏理论保证。作者提出deflation varimax(逐行求解正交矩阵)替代标准varimax,能灵活处理因子数增长、维度超过样本量等情形。理论方面,在因子模型下证明两步估计量(PCA+deflation varimax)在信噪比适中或大时达到minimax最优速率;在低SNR情形下,通过利用噪声结构的改进算法也可达到全部SNR regime下的minimax最优。理论结果适用于有限样本,允许潜在因子数和维度随样本量增长甚至超越样本量。大量仿真和真实数据分析验证理论结论。对您有用:本文属于高维统计中因子模型估计的深入研究,涉及minimax最优速率和非参数渐近理论,与您非常熟悉的高维渐近和minimax bound工具箱高度匹配,亦可作为理解deflation类算法的统计计算案例。
- 关键技术:
deflation varimax,principal component analysis (PCA),orthogonal rotation,minimax optimal rate,factor loading matrix estimation,signal-to-noise ratio regimes - 为什么对您有用: 本文直接关联您的高维统计与minimax理论兴趣:因子模型估计在高维渐近、最小最大速率方面是经典问题。您的技术武库中“minimax bounds for estimation problems”和“high-dimensional asymptotics”可立即用于验证其finite-sample optimality证明的紧性;deflation varimax的序贯计算策略也与您熟悉的计算成本分析(如einsum复杂度)有潜在类比。评估:立即可做——您已有的高维与非参数工具足以深度理解并可能提出扩展(如推广到更一般的因子结构或引入稀疏性惩罚)。
非参数 / 半参数 (nonparam_semipara, 5 篇)¶
1. 10.1214/25-aos2506 · arXiv — Semiparametric modeling and analysis for longitudinal network data¶
- 作者: Yinqiu He, Jiajin Sun, Yuang Tian, Zhiliang Ying, Yang Feng
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 9/10 · novelty:
new_method - 摘要: 该论文针对纵向网络数据引入了一个半参数潜空间模型,其中包含一个静态的潜空间分量和一个随时间变化的节点特定基线分量(干扰参数)。核心目标是估计潜空间参数,作者构造了关于该参数的半参数有效得分方程,通过对基线分量进行正交调整实现效率最优。估计采用一步更新估计量(one-step update)和适当的惩罚极大似然估计量(penalized MLE)两种方案,并推导了两种估计量的oracle误差界。从商流形(quotient manifold)视角处理了模型的可识别性问题,保证了参数空间的几何结构合理。实验基于纽约Citi Bike数据集展示了方法的实际应用。该工作与您的半参数理论、效率理论(EIF、正交得分)兴趣直接相连,为处理带有无限维干扰的网络数据提供了半参数效率框架,是纵向结构数据推断的方法论进展。
- 关键技术:
semiparametric efficient score,one-step update estimator,penalized MLE,quotient manifold,oracle error bounds - 为什么对您有用: 该论文属于半参数与效率理论方向,直接关联您的primay interests中的semiparametric & nonparametric theory和efficiency theory。您的技术武器库中very_familiar的非参数统计和high-dimensional asymptotics可用于理解其干扰参数的正交化机制;moderately_familiar的semiparametric theory是理解本文核心(有效得分方程构造)的必备工具。中期可做:将本文的商流形识别性思路与您熟悉的einsum/treewidth框架结合,拓展到更高阶U-statistic网络统计量的计算成本分析;暂不可做(若想跟进纵向网络更深)需先熟悉动态网络概率模型的基本工具(如隐马尔可夫/时间异质性设定)。
2. 10.1214/24-aos2474 · arXiv — Entropic covariance models¶
- 作者: Piotr Zwiernik
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 7/10 · novelty:
new_theory - 摘要: 在协方差矩阵估计中,本文针对线性约束施加于协方差矩阵不同变换(如 Σ、Σ⁻¹、log Σ)上的设定,提出统一的 entropic covariance models 框架,目标参数为变换空间中的线性子空间。核心估计方法为求解凸优化问题的 M-estimator,在一般情形下可推导渐近理论,在 Gaussian 假设下获得有限样本分析,收敛速率恢复标准的 n/d rate(d 为模型参数维度)。几何视角揭示了变换空间的凸性与曲率关系,并由此给出相关矩阵空间的无约束参数化,替代了近期基于 matrix logarithm 的结果。对您可能有用:该框架的凸 M-estimation 与渐近分析可直接对接您 semiparametric efficiency 与 M-estimation theory 的兴趣。
- 关键技术:
convex M-estimation,matrix logarithm transformation,entropic covariance model,unrestricted correlation parametrization,finite sample Gaussian analysis,n/d convergence rate - 为什么对您有用: 本文连接到您 semiparametric & nonparametric theory 以及 efficiency theory 的兴趣——它将多种协方差约束模型统一为凸 M-estimation,其渐近与有限样本分析为研究 semiparametric efficiency bound 在此类模型中是否可达提供了清晰入口。您武器库中 M-estimation theory(moderately_familiar)可直接攻这篇的渐近部分;若要进一步追问该 M-estimator 是否达到 semiparametric efficiency bound,需先在 semiparametric theory 上长肌肉。Follow-up 判断:中期可做。
3. 10.1214/25-aos2537 · arXiv — Improved learning theory for kernel distribution regression with two-stage sampling¶
- 作者: François Bachoc, Louis Béthune, Alberto González-Sanz, Jean-Michel Loubes
- 期刊/来源: Annals of Statistics
- 机构: Université Toulouse III - Paul Sabatier · Institut National des Sciences Appliquées de Toulouse · Institut de Mathématiques de Toulouse · Apple (United States) · Columbia University
- 分类: vol 53 · issue 4
- 相关性 7/10 · novelty:
sharper_rate - 摘要: 在两阶段抽样(two-stage sampling)的分布回归设定下,目标是从输入分布的有限样本而非完整分布中学习回归函数,核心假设是核函数基于Hilbertian嵌入且满足新提出的near-unbiased条件。本文引入near-unbiased条件,通过新的误差界分析严格刻画了两阶段抽样对估计误差的影响,替代了以往依赖有偏嵌入的较粗糙界。对基于最优传输和均值嵌入(mean embedding)的三类重要核,证明了near-unbiased条件成立,从而获得了更紧的收敛速率。理论结果辅以数值实验验证。对您有用:本文的minimax收敛速率改进与您在nonparametric minimax bounds方向的武器直接对接,且两阶段抽样误差分析可类比因果推断中proxy变量替代真实混杂的噪声注入问题。
- 关键技术:
kernel distribution regression,two-stage sampling,Hilbertian embedding,near-unbiased condition,optimal transport kernel,mean embedding kernel - 为什么对您有用: 直接连接到nonparametric statistics与minimax bounds方向:本文对分布回归收敛速率的严格改进,可用您very_familiar的minimax bounds工具验证其声称的sharper rate是否紧,甚至构造更优的下界。两阶段抽样设定下用有限样本替代真实分布的误差分析,与proximal CI中用negative control proxy替代未观测混杂的identification噪声有结构相似性,为中期可做:需先在moderately_familiar的semiparametric theory上长肌肉,将near-unbiased条件迁移到proxy embedding的偏差-方差分解中。
4. 10.1214/25-aos2534 · arXiv — Robust transfer learning with unreliable source data¶
- 作者: Jianqing Fan, Cheng Gao, Jason M. Klusowski
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 3/10 · novelty:
new_method - 摘要: 在迁移学习设定下,本文研究目标域与源域分布存在 Bayes 分类器歧义及弱可迁移信号时的稳健估计问题,核心 estimand 为目标域的 excess misclassification error,关键假设为源-目标回归函数差异由新定义的“歧义水平”(ambiguity level)量化。提出 TAB(Transfer Around Boundary)方法,通过阈值机制在目标与源数据贡献间做平衡,避免负迁移;理论证明 TAB 的风险改进直接由歧义水平控制,且在非参分类与 logistic 回归下达到 minimax 最优(至 log 因子)。此外,给出无需迁移学习专识即可界定 excess misclassification error 的通用方法。对您可能有用:TAB 的阈值选择与歧义水平的 minimax 界定思路,可直接迁移到 proximal CI 中处理 negative-control 代理变量信号弱或模型歧义时的稳健估计设计。
- 关键技术:
ambiguity level,Transfer Around Boundary (TAB),minimax optimal rate,excess misclassification error,nonparametric classification,negative transfer avoidance - 为什么对您有用: 本文直接连接非参理论中的 minimax 最优率与歧义水平界定,对您在 proximal CI 处理 negative-control 信号弱/模型歧义时的稳健估计有方法论启发。用您 very_familiar 的 minimax bounds 可验证 TAB 声称的 sharper rate 是否紧,用 moderately_familiar 的 M-estimation theory 可分析 TAB 阈值机制的局部渐近性质。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将 TAB 的阈值平衡机制移植到 semiparametric efficiency bound 框架下做理论分析。
5. 10.1214/25-aos2514 · arXiv — Asymptotic theory of geometric and adaptive k-means clustering¶
- 作者: Adam Quinn Jaffe
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 3/10 · novelty:
weaker_assumption - 摘要: 本文重新审视了Pollard关于欧氏空间中k-means聚类相合性的经典结果,并将其向两个方向推广:第一,数据可能来自黎曼流形、自反Banach空间或Wasserstein空间等几何结构;第二,部分参数(如k-medoids或肘部法中的k)可自适应地从数据中选择。作者建立了一个统一的理论框架,证明所有这些聚类过程都是强相合的,并且证明方法不依赖于最优聚类中心集的唯一性假设。该框架进一步可导出超越强相合性的渐近极限定理。从技术上看,证明核心依赖于M-估计量的经验过程理论,通过去掉唯一性条件扩大了适用面。该工作对非参数统计和M估计的渐近理论有直接贡献,尤其为在复杂几何空间中应用聚类方法提供了理论保障。对于您而言,其M-估计的渐近分析框架可与您武器库中的非参统计和minimax界技术对接,帮助思考因果推断中高维或流形数据下的聚类识别问题。
- 关键技术:
k-means clustering,strong consistency,M-estimation,empirical process theory,Pollard's Theorem,Wasserstein space - 为什么对您有用: 本文属于非参数统计和M估计理论的交叉,与您主要兴趣中的非参数理论、估计理论和M-estimation(moderately_familiar)紧密相连。您武器库中的非参数统计和minimax bounds可以直接用于验证该统一框架是否达到最优收敛速率,或将其扩展到被截尾、缺省等更复杂的因果推断设定中。同时,本文对几何空间(如Wasserstein空间)的处理是您当前武器库尚未覆盖的,属于中期可做:需要在M-estimation渐近理论上进一步积累,以评估该框架能否处理分布数据或因果效应度量中的聚类问题。
数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶
1. 10.1214/25-aos2510 · arXiv — Algorithmic stability implies training-conditional coverage for distribution-free prediction methods¶
- 作者: Ruiting Liang, Rina Foygel Barber
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 5/10 · novelty:
new_theory - 摘要: 在分布无关预测推断设定下,目标是建立不依赖数据分布与模型训练算法的预测区间,并追求比边际覆盖更强的训练条件覆盖(training-conditional coverage)性质。此前已知 split conformal 满足此性质,但 Bian & Barber (2023) 证明在无额外假设下 full conformal 与 jackknife+ 无法保证训练条件覆盖。本文证明若训练算法满足算法稳定性(algorithmic stability)假设,则 full conformal 与 jackknife+ 可恢复训练条件覆盖的有效性保证。核心机制是将算法稳定性与 conformal 残差的分布一致性挂钩,从而在大多数训练集抽取下控制非覆盖概率。对您可能有用:此结果将算法稳定性这一经典统计学习理论工具引入 conformal inference 的条件覆盖问题,为研究依赖特定算法(如 DML / semiparametric estimator)的预测推断提供了新视角。
- 关键技术:
conformal prediction,training-conditional coverage,algorithmic stability,jackknife+,distribution-free predictive inference - 为什么对您有用: 本文直接连接到您 primary interest 中的 hypothesis testing / estimation theory:训练条件覆盖本质上是条件概率下的非覆盖概率控制问题,而算法稳定性是评估 estimator 对数据扰动敏感度的核心工具。您武器库中 very_familiar 的 M-estimation theory 与 moderately_familiar 的 semiparametric theory 可直接攻入此 paper 的口子——具体而言,可用 M-estimator 的稳定性条件(如稳健性 / 弱连续性)替代本文的通用算法稳定性假设,推导 semiparametric estimator(如 debiased DML)在 conformal 框架下的训练条件覆盖。Follow-up 粗判:立即可做——用 very_familiar 的 minimax bounds 与 M-estimation 稳定性工具,验证常用 debiased estimator 是否满足本文的稳定性条件,从而建立 DML + conformal 的条件覆盖理论。
统计计算 / 算法 (stat_computing, 1 篇)¶
1. 10.1214/25-aos2516 · arXiv — Spectral gap bounds for reversible hybrid Gibbs chains¶
- 作者: Qian Qin, Nianqiao Ju, Guanyang Wang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 5/10 · novelty:
new_theory - 摘要: 在 reversible hybrid Gibbs sampling 框架下,目标是量化用近似 Markov chain(如 Metropolis-within-Gibbs)替代精确条件分布后,整体 hybrid chain 的收敛速率。核心设定为 reversible random-scan hybrid Gibbs 及 hybrid data augmentation,关键假设是近似链与精确链均具有 absolute spectral gap。方法通过谱分析,将 hybrid chain 的 absolute spectral gap 分解为精确 Gibbs chain 的 absolute spectral gap 与各近似条件分布 Markov chain 的 absolute spectral gap 的乘积型下界,从而给出收敛速率的显式控制。理论结果将经典 Gibbs 收敛界推广至近似条件分布情形,并在 random-scan Metropolis-within-Gibbs、block update 及 hybrid slice sampler 三个实例中给出具体界。对您可能有用:该谱分解技术为评估 MCMC 计算算法的收敛提供了清晰的数学工具,与您在 stat_computing 和高维渐近理论中对矩阵谱分析的熟悉度直接对接。
- 关键技术:
absolute spectral gap,reversible Markov chain convergence,random-scan Gibbs sampler,Metropolis-within-Gibbs,hybrid data augmentation,spectral decomposition bound - 为什么对您有用: 本文直接连接 stat_computing 子方向,为 MCMC 收敛评估提供了基于 absolute spectral gap 的乘积型下界,而非空泛的几何收敛声明。您武器库中 high-dimensional asymptotics 与 inverse problems with random noise 所依赖的矩阵谱分析工具,可直接用来审视其 spectral gap 分解的紧性与适用边界。判断为立即可做:用 very_familiar 的高维渐近与谱理论,可验证该界在高维或病态条件分布下的退化速率,并探索是否可用 tensor contraction / einsum 视角优化 block update 的谱界计算。
其他 (other, 2 篇)¶
1. 10.1214/25-aos2515 · arXiv — Fixed and random covariance regression analyses¶
- 作者: Tao Zou, Wei Lan, Runze Li, Chih-Ling Tsai
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 4/10 · novelty:
new_theory - 摘要: 协方差回归模型通过解释变量X(可为向量、矩阵或张量)解释响应变量的协方差结构,现有文献几乎都假设X固定(Fixed-X)。本文首次系统处理X随机(Random-X)的情形,构建了完整的估计与模型评估理论。在随机设定下,证明了拟极大似然估计和加权最小二乘估计均一致且渐近正态,并推导了偏差-方差分解,揭示从Fixed-X转向Random-X会同时增加期望测试误差的偏差和方差。进而提出了两种设定下期望测试误差的估计量,为模型选择提供了理论依据。模拟实验和美国股票市场实证验证了所提方法的实用性。该工作对您在高维统计中处理带有随机协变量的协方差建模,以及因果推断中纵向数据协方差结构的识别问题,均有方法学参考价值。
- 关键技术:
Covariance regression,Quasi-maximum likelihood estimation,Weighted least squares,Bias-variance decomposition,Expected test error,Fixed-X vs Random-X - 为什么对您有用: 与您high-dimensional statistics兴趣中随机协变量下的协方差估计直接相关,可用您very_familiar的
high-dimensional asymptotics工具验证其渐近结果在高维情形下的适用性。本文的偏差-方差分解对您estimation theory in causal inference中中介模型的协方差结构推断也有启示——可视为inverse problems with random noise的一个具体例子。中期可做:将Random-X理论拓展到高维正则化协方差回归,需先在semiparametric theory中的协方差建模上巩固。
2. 10.1214/25-aos2545 · arXiv — Efficiently matching random inhomogeneous graphs via degree profiles¶
- 作者: Jian Ding, Yumou Fei, Yuanzheng Wang
- 期刊/来源: Annals of Statistics
- 分类: vol 53 · issue 4
- 相关性 4/10 · novelty:
new_method - 摘要: 本文研究两个具有高度异质性且边缘概率未知的随机图之间的隐式顶点对应恢复问题。目标是在最小平均度至少 Omega(log^2 n)、最小相关性至少 1-O(log^{-2}n) 的条件下,设计一个高效匹配算法。作者扩展了 Ding, Ma, Wu, Xu (2021) 的基于度序列的匹配方法,使其适用于边概率非均匀的随机图。算法利用顶点度数的剖面信息,通过比较两图的度序列来推断对应关系。该工作在理论上给出了近最优的阈值条件,并且算法具有多项式时间复杂度。文中还通过数值实验验证了所提算法的有效性。该结果对您的高维网络分析与统计-计算折衷兴趣有间接关联,尤其可作为理解网络对齐问题中计算可行性的基准案例。
- 关键技术:
Degree profiles,Correlated random graphs,Graph matching,Inhomogeneous edge probabilities - 为什么对您有用: 该论文关联到您的统计-计算折衷兴趣:它展示了一个在特定条件(异质性图、相关性下界)下可多项式时间求解的对齐问题。您可以用 high-dimensional asymptotics 武器分析算法的相变阈值(例如检查平均度对数条件是否紧),但核心的图匹配组合优化工具不在武器库内。因此,此文属于中期可读:需先熟悉 correlated random graph 类模型与对齐算法文献,再考虑能否将 U-统计量或张量收缩视角引入该问题。
Maintained by 陈星宇 · Homepage · Source on GitHub