跳转至

EJS — Vol 20 Issue 1 · 2026-06-18

  • 共 59 篇 · Electronic Journal of Statistics
  • 目录核对 ⚠️ 疑似漏 3 篇(对照 OpenAlex 60 篇):10.1214/26-ejs2492、10.1214/26-ejs2524、10.1214/26-ejs2533

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

这一期共 59 篇论文,整体围绕统计推断的多个前沿方向展开,可归纳为四条主线:因果识别与推断(高维非参数 IV、异质性处理效应 DML、中介未测量混杂、测量误差鲁棒贝叶斯、高维 G 估计 post-selection、非概率抽样因果加权、SEM 正性),高维统计与随机矩阵(双稀疏精确恢复、矩阵补全锐界、旋转稀疏岭回归、Hilbert 流形分位数、ℓ₁-正则化 GLS、单位根模型选择、负矩界与模型选择),非参数与半参数方法(加性分位数均匀 Bahadur 表示、ODE 下界、高维部分线性趋势过滤、Fredholm 积分方程 Wasserstein 流、骨骼回归、光滑边界分类、随机波动方程、岭正则化路径、区间删失对数凹密度、CAT(0) 空间密度、两层采样权衡、GLM 聚合、协变量偏移 group-weighted CP、持久同调回归结构、随机森林不平衡重要性抽样、空间变系数 BPST、过参神经网络、测度分类、Markov 切换 AR),以及假设检验与多重比较(无偏检验代数方法、分布自由平滑检验、anytime-valid 多重检验、Nyström 两样本检验、RKHS 时间序列推断、模式独立性效率、函数回归变换检验、Markov 网络变点检测、实际显著变化多尺度检验、治愈模型充分随访、图两样本检验、点过程同步分离率、Gaussian 随机场 FWER 控制)。

因果推断主线在本期推进了多个识别与推断瓶颈的解决方案。高维非参数 IV 回归用 group lasso 选择工具变量并执行去偏推断,提供渐近有效的置信区间;异质性处理效应 DML 结合核平滑与最优工具变量投影,在弱工具变量下仍保持稳健;中介分析引入伪代理变量处理平行中介与结局间的未测量混杂,并通过部分惩罚估计同时实现筛选与一致推断;测量误差的贝叶斯非参数学习框架通过 Dirichlet 过程中心测度选择对 Classical/Berkson 误指定鲁棒;高维 G 估计的 post-selection 推断采用 polyhedral selection-adjusted 方法修正 naive sandwich 方差;非概率抽样将逆概率加权与增强 IPW 移植至不可忽略参与机制,导出渐近正态估计量;SEM 正性研究证明了非负系数等价于条件递增序列性质,并给出凸 MLE。

非参数与半参数主线集中于估计量的理论性质、收敛速率与计算框架。加性分位数向后拟合的均匀 Bahadur 表示扩展至部分线性结构;ODE 非参数估计给出 Hölder 光滑类的 minimax 下界,技术核心为通用回归下界主定理;高维部分线性趋势过滤用自适应基函数达到最优速率;骨骼回归通过图 Skeleton 捕捉流形结构并给出赋予非参数回归的收敛率;光滑边界分类用局部化 deep ReLU 网络绕过有序边界非识别性;随机波动方程增强 MLE 与能量泛函建立渐近正态性;岭回归正则化路径比较将共轭梯度的风险归约至梯度流,实现 oracle 级风险控制;区间删失对数凹密度 NPMLE 达到 n^{-2/5} 全局速率;CAT(0) 空间已建立核密度与对数凹 MLE 的相合性;两层采样设计给出函数估计 minimax 风险与个体 / 观测数权衡;GLM 聚合在 KL 风险下获得 sharp oracle inequality;协变量偏移 group-weighted CP 利用离散组结构消除密度比估计误差对覆盖率的负面影响;持久同调回归用超水平集拓扑刻画曲线形状;随机森林不平衡采用重要性抽样去偏并比较渐近方差;空间变系数 BPST 在任意区域一致估计;过参神经网络无正则化梯度下降在 Hölder 类下达到 n^{-1/(1+d)} 速率;测度分类的 Rademacher 复杂度界直接依赖基分类器;Markov 切换 AR 在不相关误差下建立矩估计渐近性。

高维统计与随机矩阵主线关注精确恢复、最优速率与误差分解。双稀疏模型的两阶段迭代硬阈值算法在 sharp 信号条件下实现精确恢复并保持 oracle 渐近正态性;矩阵补全利用 Brailovskaya 不等式改进谱范数界,证明极小极大最优;旋转稀疏岭回归依赖 spiked 协方差结构导出预测误差的充要条件;Hilbert 流形分位数通过谱分解与卷积平滑处理非欧协变量;ℓ₁-正则化 GLS 对 AR 误差采用白化旋转改善设计矩阵条件,推导非渐近误差界;单位根模型选择中 FHTD 算法结合函数型 CLT 和最小特征值下界证明选择相合性;负矩界为条件异方差过程构造了模型选择准则。

与本方向最贴的论文包括:因果推断领域的高维非参数 IV异质性处理效应 DML中介伪代理测量误差鲁棒贝叶斯高维 G 估计 post-selection;半参数效率相关的加性分位数均匀表示两层采样设计高维部分线性趋势过滤GLM 聚合;高维 / 随机矩阵方向的矩阵补全锐界旋转稀疏岭回归双稀疏精确恢复ℓ₁-正则化 GLS单位根模型选择,适合优先阅读。

因果推断 (causal_inference, 8 篇)

1. 10.1214/26-ejs2525 · arXiv — Estimation and inference for high-dimensional nonparametric additive instrumental-variables regression

  • 作者: Ziang Niu, Yuwen Gu, Wei Li
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文研究高维非参数加性工具变量回归,其中工具变量与处理变量之间为加性非参数模型,而处理变量与结果变量之间保持线性模型以使系数具有直接因果解释。采用两阶段框架:第一阶段用group lasso从高维加性模型中选择最优工具变量(即基函数组),第二阶段将结果变量对第一阶段拟合值做线性回归以估计处理效应。提供非渐近的估计误差上界,并通过去偏推断程序(debiased inference)实现渐近有效的置信区间和假设检验。数值实验表明该方法在多种设定下优于现有线性高维IV方法,并在小鼠肥胖数据中发现了新的显著关联。对您可能有用:直接连接到您对IV因果推断及高维非参数方法的兴趣,其去偏推断技术可与debiased ML知识进行对比。
  • 关键技术: instrumental variables, high-dimensional additive models, group lasso, two-stage estimation, debiased inference, non-asymptotic analysis
  • 为什么对您有用: 本文直接连接到您primary interest中causal inference下的instrumental variables方法以及high-dimensional statistics中的非参数正则化方法。您武器库中very_familiar的nonparametric statistics可用来评估加性模型的逼近误差,high-dimensional asymptotics可用于验证group lasso的非渐近界的紧性。follow-up粗判:中期可做——您需先在moderately_familiar的semiparametric theory上深入,以将该文的识别假设扩展到更一般的半参数模型或比较效率界。

2. 10.1214/26-ejs2498 · arXiv — Inference for heterogeneous treatment effects with efficient instruments and machine learning

  • 作者: Cyrill Scheidegger, Zijian Guo, Peter Bühlmann
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在存在内生性的 IV 设定下,本文目标是估计异质性处理效应(CATE)。作者提出基于 double/debiased machine learning (DML) 与 efficient machine learning instruments (MLIV) 的核平滑估计量,利用最优工具变量投影降低第一阶段估计方差。在常规 IV 假设与核平滑 regularity 条件下,证明了估计量的 consistency 与 n^{-1/2}-CAN 性质,并构建了对弱工具变量更稳健的置信集。文中亦给出同质处理效应(ATE)下 MLIV-DML 估计量的易读讨论。实证与合成数据验证了方法,并提供 R 包 IVDML。对您有用:本文将 DML 与 efficient IV 结合拓展至 CATE,直接连接您 primary interest 中的 IV 估计与 efficiency theory。
  • 关键技术: double/debiased machine learning, efficient machine learning instruments, kernel smoothing, weak-instrument robust inference, Neyman orthogonality, cross-fitting
  • 为什么对您有用: 本文直接连接您 primary interest 中的 IV 估计与 semiparametric efficiency theory(efficient IV 即最优投影工具变量),并涉及异质性因果效应的 inference。您武器库中的 very_familiar(estimation theory in causal inference)与 moderately_familiar(semiparametric theory)足以攻入本文的理论口子,例如用 HOIF 或 higher-order U-stat 视角审视其核平滑估计量的高阶偏差项与弱 IV 置信集的 sharpness。Follow-up 判断:立即可做——用 very_familiar 的因果估计理论即可复现并审视其 DML-IV influence function 的构造。

3. 10.1214/26-ejs2517 · arXiv — Mediation analysis with unmeasured confounding between parallel mediators and outcome

  • 作者: Kang Shuai, Lan Liu, Yangbo He, Wei Li
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文针对平行中介(parallel mediators)框架下的中介分析,解决中介变量与结局之间未测量混杂(unmeasured mediator-outcome confounding)的识别问题。在假定线性结构方程模型的前提下,引入一个伪代理变量(pseudo proxy)来捕捉未观测到的混杂因子,从而在无需完全观测所有混杂的条件下实现对因果参数的识别。基于该代理变量,提出了一种部分惩罚估计方法(partially penalized method),同时进行中介筛选与参数估计,保证重要中介变量被选入模型。理论上证明了所提估计量的一致性,以及非零参数估计的渐近正态性,并进一步构造了能够以高概率一致选择活跃中介路径(active mediation pathways)的程序。模拟研究展示了该方法在有限样本下的优越性能,并应用于基因组数据,识别出可能介导基因变异对小鼠肥胖影响的基因表达。本文关注因果推断中中介分析的识别与估计问题,对于处理平行中介中未测量混杂的方法论推进有直接参考价值。
  • 关键技术: pseudo proxy variable, parallel mediators mediation analysis, unmeasured mediator-outcome confounding, partially penalized estimation, active mediation pathway selection
  • 为什么对您有用: 本文直接切入研究者主兴趣中因果推断的中介分析子方向,特别是平行中介设置下未测量混杂的识别挑战,为处理实际观测研究中常见的混杂偏误提供了可操作的代理变量方法。研究者对identification theory in causal inference(中等熟悉)可直接匹配本文的核心识别机制——通过伪代理变量解耦未测量混杂,若在此基础上熟悉相关识别假设并掌握高维惩罚方法(very_familiar中的high-dimensional asymptotics),则中期内可尝试将其扩展至非线性模型或更复杂的中介路径检验。因此本文为中期可做:需先在中介识别理论(moderately_familiar)上进一步积累理解。

4. 10.1214/26-ejs2487 · arXiv — Robust Bayesian inference for measurement error misspecification: The Berkson and classical cases

  • 作者: Charita Dellaporta, Theodoros Damoulas
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在协变量含测量误差(Classical / Berkson)的回归与因果效应估计设定下,现有方法常依赖已知误差分布或重复测量等强假设,本文提出一种对这些假设误指定具有鲁棒性的 Bayesian Nonparametric Learning 框架。核心机制是通过 Dirichlet Process 的先验中心测度选择来统一处理 Classical 与 Berkson 误差,且无需重复测量数据。框架允许根据回归模型类型灵活选择损失函数,并基于 Maximum Mean Discrepancy (MMD) 损失给出了泛化误差界,从而覆盖非高斯误差与非线性协变量-响应关系。实证部分在真实数据上展示了框架对现有方法的优势。对您可能有用:该框架为因果推断中测量误差导致的 identification 与 estimation 偏倚提供了鲁棒的非参数贝叶斯视角。
  • 关键技术: Bayesian Nonparametric Learning, Dirichlet Process centering measure, Maximum Mean Discrepancy (MMD), Berkson measurement error, Classical measurement error, generalization error bounds
  • 为什么对您有用: 直接连接因果推断中的测量误差问题(identification 与 estimation 偏倚),属于 primary interest 中 causal inference 的 sensitivity / robustness 子方向。用您 very_familiar 的 minimax bounds 视角可以审视其 MMD 泛化误差界是否紧,或用 moderately_familiar 的 semiparametric theory 比较该非参数贝叶斯框架与经典 semiparametric correction 的效率差异。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以将此框架的鲁棒性与 semiparametric efficiency bound 做严格对比。

5. 10.1214/26-ejs2520 · arXiv — Valid post-selection inference for penalized G-estimation

  • 作者: Ajmery Jaman, Ashkan Ertefaie, Michèle Bally, Renée Lévesque, Robert W. Platt, Mireille E. Schnitzer
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维协变量下,本文研究结构嵌套均值模型(SNMM)中 proximal treatment effect 的 effect modifier 经数据驱动筛选后的有效推断问题。目标 estimand 为 effect modification 参数,关键挑战是 penalized G-estimation 的 post-selection 导致 naive sandwich variance 估计严重低估 type I error。作者将两种 post-selection inference 方法(poSI 的 polyhedral selection-adjusted projection 与 selective inference 的 conditioning-on-selection)扩展至 penalized G-estimation,证明所得区间在各自框架下渐近有效。模拟显示 naive 方法 type I error 严重膨胀,而两种调整方法均能控制误差率,polyhedral 方法区间更窄。实证应用于终末期肾病透析的 effect heterogeneity。对您有用:将 SNMM 与 proximal CI 的 effect modification 结合,直接触及您 causal inference 中 proximal / longitudinal 子方向的 identification 与 estimation 理论。
  • 关键技术: penalized G-estimation, structural nested mean model, post-selection inference, polyhedral selection-adjusted projection, conditioning-on-selection inference, proximal treatment effect
  • 为什么对您有用: 直接连接您 causal inference 中 proximal CI 与 longitudinal/IV 子方向:SNMM 是 longitudinal causal 的经典模型,本文将其与 proximal treatment effect 融合并解决高维 post-selection inference。用您 very_familiar 的 estimation theory in causal inference 可直接审视其 G-estimation 渐近论证;用 moderately_familiar 的 semiparametric theory 可追问其 penalized SNMM 是否达到 semiparametric efficiency bound。Follow-up 判断:立即可做——用您熟悉的 semiparametric efficiency 理论验证该 penalized G-estimator 的 influence function 与效率下界,或探讨 cross-fitting / debiased ML 在此 SNMM post-selection 框架下的改进。

6. 10.1214/26-ejs2531 · arXiv — Statistical inference with nonignorable non-probability survey samples

  • 作者: Yang Liu, Meng Yuan, Pengfei Li, Changbao Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 针对非概率抽样调查中参与机制不可忽略的问题,本文提出一种伪似然方法估计参与概率,所需辅助信息来自已有的参考概率样本。在此框架下构造了三种有限总体均值估计量:基于回归的预测估计量、逆概率加权(IPW)估计量以及增强逆概率加权(AIPW)估计量,并推导了它们的渐近正态性和方差公式。作者采用线性化方法给出方差的一致估计,从而支持传统的基于正态的置信区间构建。模拟研究显示,在非忽略参与机制下所提估计量优于忽略性假设下的常规方法,西班牙COVID‑19疫情调查(ESPACOV)的真实数据分析进一步验证了实用性。该方法本质上将因果推断中处理非随机处理的倾向得分加权技术移植到抽样调查领域,对于研究者关注的因果推断中处理选择偏差问题具有直接参考价值。
  • 关键技术: pseudo-likelihood, inverse probability weighting (IPW), augmented IPW (AIPW), nonignorable participation mechanism, finite population mean estimation, linearization variance estimation
  • 为什么对您有用: 该论文处理非概率样本的选择偏差,核心工具为IPW和AIPW,与研究者因果推断兴趣中的倾向得分加权高度契合。研究者可借助其已有的非参数估计和渐近理论功底(very_familiar中的nonparametric statistics和estimation theory in causal inference)验证该方法的有限样本表现或拓展至高维协变量场景。由于AIPW本身就是半参数有效估计的特例,也连接了研究者对efficiency theory的兴趣。本文属于可借鉴的分析模式,研究者可从中期可做的角度,考虑将其方法推广到纵向或中介分析设定。

7. 10.1214/26-ejs2493 · arXiv — Positivity in linear Gaussian structural equation models

  • 作者: Asad Lodhia, Jan-Christian Hütter, Caroline Uhler, Piotr Zwiernik
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本论文研究线性高斯结构方程模型(SEM)中系数非负性约束下的正性概念。证明该约束等价于分布满足条件递增序列(CIS)性质,这是一个已知的正相关随机变量子类。在无噪声设定下,提出一种算法恢复CIS排序(若存在),并扩展到有噪声设定并给出恢复条件。进一步,刻画了CIS DAG模型的马尔可夫等价类。关键结果是,当CIS排序已知时,对应的高斯分布族的最大似然估计(MLE)转化为凸优化问题,显著简化了计算。理论贡献包括等价性证明、算法可识别性条件以及凸性保证。对您(因果推断研究者)来说,该工作直接关联SEM的识别与估计,且凸性结果可能启发更高效的计算方法,适合作为中期可做的延伸方向(需先熟悉identification theory中的DAG等价类)。
  • 关键技术: linear Gaussian SEM, conditional increasing in sequence (CIS), Markov equivalence of DAGs, convex MLE, non-negativity constraint
  • 为什么对您有用: 直接关联 causal inference 中的 SEM 识别与估计:正性约束下的参数空间简化,MLE 的凸性保证。武器库中 very_familiar 的非参数统计和 estimation theory 可用于分析该约束下的收敛性质,moderately_familiar 的 identification theory 可用于理解其等价类与经典 DAG 理论的衔接。中期可做:拓展到非线性或非高斯情形的凸性条件。

8. 10.1214/26-ejs2518 · arXiv — Hyperplane representations of interventional characteristic imset polytopes

  • 作者: Joseph Johnson, Benjamin Hollering, Liam Solus
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究特征网络集多面体(characteristic imset polytope)的超平面表示问题,该多面体是因果发现中线性规划方法的可行域,其顶点对应表示有向无环图(DAG)的0/1向量。作者利用toric fiber products理论和干预特征网络集多面体的新概念,首次为底层邻接图为树(tree)的DAG对应的多面体给出了显式的超平面刻画。该结果推广到干预设定下的多面体,并由此设计了一个基于线性优化的因果发现算法,能够从观测数据和干预数据中学习全树(polytree)因果网络。理论部分依赖组合几何和代数方法,算法部分采用线性规划求解,未涉及传统统计推断中的影响函数或效率界。这篇论文对您可能有用之处在于它连接了因果推断中的结构学习(因果发现)与干预数据,属于因果推断的拓展方向,但方法工具与您的武器库(非参数统计、U统计、半参效率)交叉较小。
  • 关键技术: characteristic imset polytope, toric fiber product, polytree causal networks, linear programming causal discovery, interventional data
  • 为什么对您有用: (1)该论文涉及因果推断中的因果发现(结构学习)并使用干预数据,属于您primary_interests中'causal inference'的子方向,但更侧重组合优化而非估计或识别。(2)您的武器库中'very_familiar'项(如非参数统计、最小化上界、高维渐近)难以直接攻入该文的几何代数工具(toric fiber products),而'moderately_familiar'的'因果推断中的识别理论'可帮助理解干预设定的模型假设,但不足以直接改进或应用其结果。(3)follow-up粗判:暂不可做——核心机器(toric fiber产品、多面体超平面刻画)不在武器库中,需从零学习代数组合方法。

高维统计 / 随机矩阵 (high_dim_rmt, 9 篇)

1. 10.1214/26-ejs2486 · arXiv — Exact recovery in the double sparse model: Sufficient and necessary signal conditions

  • 作者: Shixiang Liu, Zhifan Li, Yanhang Zhang, Jianxin Yin
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 在 double sparse linear model(系数同时具有 group-wise 和 element-wise sparsity)设定下,本文研究 exact support recovery 的充分与必要最小信号条件。提出两阶段 double sparse iterative hard thresholding (DSIHT) 算法,在所给的 sharp signal condition 下实现 exact support recovery,且估计量保持与已知真实 support 下的 OLS 估计量一致的渐近正态性,从而具有 oracle property。反之,证明若违反该信号条件,任何方法均无法实现 exact support recovery,填补了该模型 minimax optimality 理论的空白。数值实验验证了理论相合性。对您有用:本文的 sharp minimax 必要条件与 oracle property 分析,直接连接到您的高维渐近理论与 M-estimation 理论兴趣。
  • 关键技术: double sparse model, iterative hard thresholding, exact support recovery, minimax necessary condition, oracle property, asymptotic normality
  • 为什么对您有用: 本文直接连接到您 primary interest 中的高维统计 minimax 理论与 M-estimation 理论:它给出了 double sparse 设定下 support recovery 的 sharp minimax 边界(统计阈值),并证明了算法的 oracle property。您可以用 very_familiar 的 minimax bounds for estimation problems 工具审视其必要条件证明的紧性,或用 moderately_familiar 的 M-estimation 理论审视其渐近正态性推导。Follow-up 判断:立即可做——用您熟悉的高维 minimax 与 M-estimation 武器即可展开对其 sharp 边界与 oracle property 的验证或拓展。

2. 10.1214/26-ejs2503 · arXiv — Sharp bounds for multiple models in matrix completion

  • 作者: Dali Liu, Haolei Weng
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 该论文研究矩阵补全(matrix completion)中多个常见估计量的收敛速率,目标是在低秩假设下消除传统上界中与维度相关的因子,从而缩小与极小极大下界之间的差距。作者利用 Brailovskaya 2024 提出的先进矩阵浓度不等式,通过更精确的谱范数分析,为三种主流矩阵补全估计量(如核范数惩罚估计等)建立了新的上界。这些上界不再包含额外的维度因子,从而证明了这些估计量的极小极大最优性。该工作表明,通过选择合适的浓度工具可以显著改进高维矩阵问题的理论分析。对您而言,这项工作直接关联到高维统计与随机矩阵理论中的谱范数分析,您熟悉的极小极大下界和高维渐近理论可以用于验证其结果的紧致性。这是立即可做的,因为您对高维渐近和极小极大方法非常熟悉。
  • 关键技术: Advanced matrix concentration inequalities, Spectral norm analysis, Nuclear norm penalized estimation, Minimax lower bounds, Sharp convergence rates
  • 为什么对您有用: 本文直接属于高维统计与随机矩阵理论方向,具体为矩阵补全的极小极大最优速率问题。您武器库中‘高维渐近’与‘极小极大估计界’这两项非常熟悉的工具可直接用于评估和扩展其技术。该结果属于立即可做的范畴——您无需额外学习即可理解其证明思路,并可能将其浓度不等式技巧迁移至其他高维问题。

3. 10.1214/26-ejs2496 · arXiv — On ridge estimation in high-dimensional rotationally sparse linear regression

  • 作者: Libin Liang, Zhiqiang Tan
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 研究高维线性回归中岭估计在旋转稀疏设定下的预测表现。假设协变量向量经正交变换后,仅少量分量具有大方差(spiked),其余方差较小(tail)。通过区分基于tail方差有效秩与样本量比值的两种regime,利用集中不等式推导了样本外和样本内预测误差的高概率上下界,不依赖传统的oracle假设或独立成分假设。首次给出了岭估计预测误差达到O(d/n)阶的充要条件:spiked与tail方差之间的差距需足够大。还发现最优样本外预测误差可能显著小于最优样本内预测误差,这是一个新现象。对您的高维统计与随机矩阵理论研究有直接参考,尤其是spiked协方差模型与正则化的分析。
  • 关键技术: ridge estimation, rotationally sparse linear regression, concentration inequalities, effective rank, spiked covariance model, in-sample vs out-sample prediction error
  • 为什么对您有用: 直接对应高维统计中的正则化预测问题,尤其是spiked协方差结构下的渐近分析,属于您high-dimensional statistics研究方向的核心对象。您非常熟悉的高维渐近理论(high-dimensional asymptotics)可以直接用于验证本文预测误差界的紧性,或设计更细化的条件。可作为文献基础,并可考虑扩展至其他正则化方法(如lasso)或异方差设定——立即可做。

4. 10.1214/26-ejs2530 — High-dimensional convolution-smoothed quantile linear models for Hilbert manifold covariates

  • 作者: Changwon Choi
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Seoul National University
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 该论文研究高维分位数线性模型,其中协变量取值于Riemannian Hilbert流形(非欧氏空间),响应变量为标量。通过Hilbert-Schmidt算子构建条件分位数函数,并利用谱分解将其转化为实值分数,从而将非欧氏协变量映射到可处理的低维表示。为克服传统分位数损失的非光滑性和缺乏强凸性,引入卷积平滑技术,使得优化问题可微且强凸。优化采用分组迭代局部自适应MM算法(majorize-minimization),通过迭代更新参数。理论上推导了初始LASSO估计的ℓ2和ℓ1误差界,并证明了迭代估计序列在一定条件下的收缩性质。当使用具有消失梯度性质的惩罚函数(如SCAD)时,建立了强oracle性质,即估计量以渐近概率恢复真实稀疏支撑集且达到最优收敛速度。论文通过数值模拟和一例真实数据(如fMRI或形状分析)展示了方法的实际效果。这篇文章对您的高维统计兴趣有直接连接,尤其是将分位数回归推广到流形协变量的理论框架,其卷积平滑技巧和惩罚理论可迁移到其他高维非欧问题。
  • 关键技术: convolution smoothing, quantile regression, Hilbert-Schmidt operator, spectral decomposition, majorize-minimization (MM) algorithm, oracle property
  • 为什么对您有用: 本文直接对应您 primary interest 中的高维统计方向,尤其展示了在非欧氏协变量(Hilbert流形)下如何构造分位数回归并进行惩罚估计。武器库中 'high-dimensional asymptotics' 和 'nonparametric statistics' 两项可用来理解其误差界推导和收缩性证明,但流形上的谱分解与算子理论目前不在您的熟悉工具中,因此属于中期可做的方向:需先在 moderate_familiar 的非参数工具上补充流形背景。总体而言,这是一篇值得关注的方法学论文,其理论分析模式可为您后续处理结构型协变量提供参考。

5. 10.1214/26-ejs2515 — ℓ1-regularized generalized least squares

  • 作者: Kaveh S. Nobari, Alex Gibberd
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: London School of Economics and Political Science · Lancaster University
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在高维线性回归设定下,当误差项服从自回归(AR)过程时,研究 ℓ1-正则化广义最小二乘(GLS-LASSO)估计器的理论性质与可行算法。核心方法为三步可行程序:先做初始 LASSO 回归,再对残差拟合 AR 模型,最后在旋转(白化)后的数据上执行第二阶段 LASSO。理论分析聚焦于 sub-Gaussian 随机设计设定下,白化旋转对设计矩阵条件数/受限特征值的影响,并据此推导出估计误差的非渐近界。结果表明,当误差存在显著自相关时,可行 GLS-LASSO 的估计误差严格小于未调整的 LASSO;而在白噪声误差下两者表现持平。对您有用:本文将高维稀疏回归与时间序列误差结构结合,其白化旋转对设计矩阵高维性质的刻画,可补充您对高维估计理论的 arsenal。
  • 关键技术: ℓ1-regularized generalized least squares, feasible GLS-LASSO, autoregressive error process, whitening rotation, restricted eigenvalue condition, sub-Gaussian random design
  • 为什么对您有用: 本文连接到高维统计中带相关误差的稀疏回归问题,其白化旋转对设计矩阵高维性质的刻画直接触及您 very_familiar 的高维渐近与 minimax bound 工具。您可用 minimax 理论验证其声称的误差界是否紧,或用 higher-order U-stat/tensor contraction 视角审视残差 AR 拟合步骤的计算代价。立即可做:用 very_familiar 的高维估计理论工具即可动手分析其白化旋转下 restricted eigenvalue 条件的更精细刻画。

6. 10.1214/26-ejs2495 · arXiv — Negative moment bounds for sample autocovariance matrices of stationary processes driven by conditional heteroscedastic errors and their applications

  • 作者: Hsueh-Han Huang, Ching-Kang Ing, Shu-Hui Yu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本研究针对由条件异方差误差驱动的平稳过程,建立了样本自协方差矩阵的负矩界。该负矩界使得能够将最小二乘预测器的均方预测误差(MSPE)渐近分解为模型复杂度、模型误设和条件异方差三项之和。核心方法依赖于随机矩阵理论中的矩不等式,在条件异方差(非独立同分布)设定下推导出逆矩的一致有界性。基于该分解,进一步提出一种模型选择准则,可在存在误设和条件异方差时渐近识别最优子集AR模型(按MSPE)。数值模拟验证了理论结果的有效性。对您而言,该工作展示了处理非独立数据下随机矩阵负矩的一种分析技术,可连接至高维统计中的随机矩阵理论以及时间序列因果推断中的模型选择问题。
  • 关键技术: negative moment bound, sample autocovariance matrix, conditional heteroscedastic errors, subset AR model selection, mean squared prediction error decomposition
  • 为什么对您有用: 该论文直接对接您的高维统计(随机矩阵理论)兴趣,提供了在条件异方差驱动的过程中样本自协方差矩阵负矩界的理论,这扩展了独立同分布设定下的经典结果。您武器库中的「高维渐近」和「逆问题」技术可用于检验该矩界的紧性,或推广至其他类型的相依数据。作为后续,您可立即可做:尝试将该矩界的思想用于因果推断中工具变量估计量的协方差矩阵分析,因为您的现有工具已足够处理相关的渐近论证。

7. 10.1214/26-ejs2529 · arXiv — Model selection for unit-root time series with many predictors

  • 作者: Shuo-Chieh Huang, Ching-Kang Ing, Ruey S. Tsay
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究当外生预测变量个数 p 随样本量 n 增长时、存在单位根的时间序列的模型选择问题。目标是从大量候选变量中一致地选出对响应有预测能力的变量子集,同时允许单位根位置和重数未知、且存在条件异方差。提出 FHTD 算法:先用前向逐步回归(FSR)做初筛,再通过高维信息准则(HDIC)进行后向消除,最后用数据驱动阈值(DDT)截断。理论核心是两个独立有趣的技术贡献:针对多元线性过程的函数型中心极限定理,以及样本协方差矩阵最小特征值的统一下界,从而在宽松假设下证明了 FSR 的确定筛选性质和 FHTD 的选择相合性。模拟表明 FHTD 的有限样本表现优于现有方法,并将该算法应用于美国月度住房开工与失业率数据。对研究者而言,高维时间序列中模型选择的理论问题(特征值下界、选择相合性)可直接使用您熟悉的高维渐近工具进行分析,且经济应用案例提供了实际数据处理模板。
  • 关键技术: forward stepwise regression (FSR), high-dimensional information criterion (HDIC), backward elimination, data-driven thresholding (DDT), functional central limit theorem for linear processes, eigenvalue lower bound for sample covariance matrices
  • 为什么对您有用: 本文直接对应您primary interest中的高维统计与随机矩阵理论子方向,特别是大p小n下协方差矩阵谱性质的分析。您very_familiar中的“high-dimensional asymptotics”和“minimax bounds for estimation problems”可以立刻用于评估该算法选择相合性的收敛速度是否最优;同时“software development”技能允许您快速复现并扩展该算法至其他设定(如工具变量回归中的变量筛选)。立即可做:运用您已有的高维渐近工具和编程能力可实现论文的全部模拟和理论验证。

8. 10.1214/26-ejs2505 · arXiv — Fair Community Detection and Structure Learning in Heterogeneous Graphical Models

  • 作者: Davoud Ataee Tarzanagh, Laura Balzano, Alfred O. Hero
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在带有节点人口属性的概率图模型设定下,目标是同时学习稀疏无向图结构及其社区划分,并保证各人口属性组在社区内的公平代表性。核心方法是对已知图结构提出凸半正定规划(SDP)做公平社区检测,对未知图提出 ℓ₁-正则化伪似然(pseudo-likelihood)联合估计图与公平社区。理论部分在 Gaussian 图模型和 Ising 模型下分别证明了图恢复与公平社区恢复的高概率一致性,给出了具体的稀疏度与样本量条件。对您可能有用:该文的 ℓ₁-伪似然 + SDP 组合框架及一致性证明,为高维图模型推断提供了新的约束设定视角。
  • 关键技术: ℓ₁-regularized pseudo-likelihood, convex semidefinite programming, fair community detection, Gaussian graphical model selection, Ising model consistency, statistical consistency under fairness constraints
  • 为什么对您有用: 本文连接到高维统计与图模型学习方向,其 ℓ₁-伪似然一致性证明与 SDP 框架属于您 very_familiar 的高维渐近理论范畴。您可以用 minimax bound 验证其声称的 consistency rate 是否紧,或用 moderately_familiar 的 M-estimation 理论审视其伪似然目标函数在公平约束下的极值性质。Follow-up 粗判:立即可做——用 very_familiar 的高维 minimax 工具即可动手分析其收敛率是否达到最优。

9. 10.1214/26-ejs2538 · arXiv — Weighted Random Dot Product Graphs

  • 作者: Bernardo Marenco, Paola Bermolen, Marcelo Fiori, Federico Larroca, Gonzalo Mateos
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文扩展随机点积图(RDPG)模型到加权图,提出非参数加权RDPG(WRDPG)模型。每个节点被赋予一组潜在位置向量,节点间内积通过矩生成函数确定所连边权分布的各阶矩,从而能区分均值相同但高阶矩不同的分布。方法上,采用邻接谱嵌入(ASE)估计潜在位置,并证明估计量的一致性和渐近正态性。此外,还提出一个生成框架,可从拟合的WRDPG中采样图,用于图指标分析。理论推导依赖随机矩阵理论中关于邻接矩阵特征分解的渐近结果。对您可能有用:本文的谱嵌入方法涉及高维随机矩阵的极限性质,与您熟悉的高维渐近学(如Marčenko-Pastur定律)有技术重叠,可作为了解图模型中谱方法的入口。
  • 关键技术: Random Dot Product Graph, Weighted graph, Adjacency spectral embedding, Latent position estimation, Asymptotic normality, Moment-generating functions
  • 为什么对您有用: 该论文连接到高维统计中的随机矩阵理论(谱嵌入的渐近性质)。技术库中的「high-dimensional asymptotics」可用来分析ASE估计量的收敛速度或检验其最优性。但核心的图模型和谱嵌入工具不在武器库中,因此暂不可直接上手复现或扩展;需先补充网络数据分析基础(随机图模型、谱聚类)才能深入。

非参数 / 半参数 (nonparam_semipara, 20 篇)

1. 10.1214/25-ejs2481 — Uniform Bahadur representation of the backfitting estimator for additive quantile models and its applications

  • 作者: Efang Kong, Lan Wang, Yichao Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: University of Electronic Science and Technology of China · University of Miami · University of Illinois Chicago
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文针对非参数加性分位数回归模型中的向后拟合估计器,建立了均匀Bahadur表示,并给出了强一致收敛速率。该结果将Linton等(2003)的两步估计器作为特例包含在内,为加性分位数回归的统计推断提供了理论基础。在技术层面,作者通过经验过程和浓度不等式技术,导出了估计器在一致范数下的线性表示,同时控制了高阶余项。文章展示了该结果的两个应用:一是部分线性加性分位数回归模型中参数分量的根n一致性估计,二是非参数加性分位数回归模型的结构恢复问题。该工作对非参数统计理论有直接贡献,尤其是分位数回归中的加性结构估计,其证明框架可推广到其他非参数估计量的推断问题。对于您关心的非参数统计理论(特别是估计量的渐近表示和推断),本文提供了可迁移的技术工具。
  • 关键技术: Additive quantile regression, Backfitting algorithm, Bahadur representation, Uniform consistency, Empirical process theory, Partially linear model
  • 为什么对您有用: 本文直接关联您的首要兴趣中的非参数统计理论,特别是加性模型估计量的渐近表示和一致收敛性,这与您熟悉的“非参数统计”和“high-dimensional asymptotics”技术相呼应。您可以用非常熟悉的非参数极大风险分析工具来验证该均匀收敛速率的最优性,或将其扩展至分位数处理效应的推断问题。中期可做:若想将均匀Bahadur表示推广至更一般的半参数模型(如部分线性分位数回归中的参数推断),需先在中度熟悉的“半参数理论”上加强(如效率影响函数计算)。

2. 10.1214/26-ejs2484 · arXiv — Lower bounds for nonparametric estimation of ordinary differential equations

  • 作者: Christof Schötz, Maximilian Siebel
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文考虑从带噪观测中非参数估计常微分方程 \(\dot u = f(u)\) 中的函数 \(f\),其中状态维度为 \(d\)\(f\) 属于 Hölder 光滑类(光滑参数 \(\beta\))。作者研究了两种典型观测方案:snake 模型(少数长轨迹)和 stubble 模型(多条短轨迹),并给出了 \(f\) 估计的 minimax 下界。下界主要依赖于样本量 \(n\)、维度 \(d\) 和光滑参数 \(\beta\),在两种模型下平方误差的最优率均为 \(n^{-2\beta/(2(\beta+1)+d)}\)。推导的关键技术是一个通用的非参数回归下界 master theorem,它将 ODE 估计问题转化为标准回归问题,使得下界证明更系统化。该结果在若干设定下达到了 minimax 最优,并且 master theorem 本身可独立应用于其他非参数回归问题。对于研究者而言,这篇论文直接贡献于非参数 minimax 下界理论,其 master theorem 可推广到因果推断中 nuisance 函数的非参数估计问题(如 CATE 或密度比),属于武器库中非常熟悉的领域。
  • 关键技术: minimax lower bounds, nonparametric regression, ODE estimation, Hölder smoothness, master theorem for lower bounds
  • 为什么对您有用: 本文直接对应研究者 primary interests 中的非参数统计与 minimax 界理论。研究者对 nonparametric statistics 和 minimax bounds 非常熟悉,可以立即利用本文提出的 master theorem 推广到其他非参数估计问题(例如因果推断中的 nuisance 函数 \(g(X)\)\(m(X)\) 的下界),从而丰富自己的工具链。这是立即可做的工作,无需额外工具。

3. 10.1214/26-ejs2522 · arXiv — High-dimensional partial linear model with trend filtering

  • 作者: Sang Kyu Lee, Erikka Loftfield, Hyokyoung G. Hong, Haolei Weng
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对高维生物学数据中复杂非线性关联难以建模的问题,提出了一种高维部分线性回归模型。该模型将协变量分为线性部分和非线性部分,线性部分保持可解释性,非线性部分通过趋势过滤(trend filtering)灵活捕捉局部平滑变化。在理论上,模型在合适的正则性条件下达到了极小化极大最优收敛速率,适用于高维且结构复杂的设定。方法采用趋势过滤的自适应基函数,避免了传统核或样条方法对全局平滑参数的敏感依赖。文章还将模型应用于AARP互动饮食与活动追踪(IDATA)研究,识别与超加工食品摄入相关的代谢物生物标志物。实证结果表明该方法在膳食代谢组学数据分析中有实际效用,为营养流行病学提供了新的分析工具。对您而言,这项研究涉及高维非参数统计与半参数建模,并展示了极小化极大率在非参数分量上的表现,与您熟悉的高维渐近理论和非参数统计紧密相关。
  • 关键技术: trend filtering, partial linear model, high-dimensional nonparametric regression, minimax optimal rate, adaptive local smoothness
  • 为什么对您有用: 本文直接关联您primary interests中的高维统计与非参数/半参数理论,特别是趋势过滤(一种能在高维下自适应局部平滑度的非参数方法)与部分线性模型的结合。从技术武装看,您熟稔非参数统计的minimax界和高维渐近理论,可以立即评估其极小化极大率是否为紧界,或尝试将趋势过滤思想推广到您的因果推断(如部分线性IV)中。中期可做:若想将该模型中的非线性部分替换为更高阶的结构(例如U-统计量型非参数项),需先熟悉higher-order U-statistics的树宽计算,但评估论文本身的rate紧性不需要新工具,属立即可做的range。

4. 10.1214/26-ejs2504 · arXiv — Solving Fredholm integral equations of the second kind via Wasserstein gradient flows

  • 作者: Francesca R. Crucinio, Adam M. Johansen
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究第二类 Fredholm 积分方程的近似求解,设定为解本身是概率测度。核心方法构造了一个泛函,其 Wasserstein gradient flow 的 minimizer 对应原方程解的正则化版本,并用 mean-field particle system 近似模拟该流。理论部分证明了 gradient flow minimizer 与正则化解的对应关系及粒子系统的收敛性;数值实验验证了方法在若干典型方程上的可行性。对您有用:该框架为概率测度空间上的逆问题与积分方程提供了基于 optimal transport 的计算视角,与您熟悉的 inverse problems with random noise 及 nonparametric statistics 直接相关。
  • 关键技术: Wasserstein gradient flow, Fredholm integral equation of the second kind, mean-field particle system, probability measure optimization, regularized solution
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 nonparametric theory 与 technical_arsenal 中的 inverse problems with random noise,将 Fredholm 第二类方程的求解转化为概率测度空间上的 Wasserstein gradient flow 优化问题。您可以用 very_familiar 的 nonparametric statistics 与 minimax bounds 工具分析该正则化解的收敛率与统计效率,判断其是否达到 minimax rate。follow-up 判断:立即可做——用现有武器即可分析其正则化偏差与粒子系统有限样本误差的理论性质。

5. 10.1214/26-ejs2509 · arXiv — Skeleton regression: A graph-based approach to estimation with manifold structure

  • 作者: Zeyu Wei, Yen-Chi Chen
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文提出一种针对大规模复杂数据的新型回归框架,假设数据围绕低维流形并带有噪声。首先通过构建图表示(称为skeleton)来捕捉底层几何结构,然后在skeleton图上定义度量,并应用非参数回归技术(如核方法、局部多项式)结合基于图的特征变换进行估计。方法的核心优势在于能够处理多个流形的并集、加性噪声以及噪声观测,并给出了估计量的统计保证(收敛率)。文中讨论了非参数回归器在一般度量空间(如skeleton图)上的局限性,并通过模拟和真实数据验证了有效性。该工作连接了流形学习与非参数回归,特别是其图构造思路可能对高维数据下的非参数推断问题(如半参数效率理论中的结构估计)有启发。
  • 关键技术: graph Laplacian, skeleton graph, nonparametric regression on metric spaces, manifold learning, feature transformation via graph
  • 为什么对您有用: 本文直接关联您 primary interest 中的非参数统计理论(very_familiar),特别是高维数据下利用图结构进行非参数回归的框架。您的技术武器库中非参数统计和 minimax 界工具可用于分析该方法的收敛速率是否最优,或提出更高效(如基于树宽)的图构造策略。follow-up判断:立即可做——您在非参数统计和 high-dimensional asymptotics 上的基础足以理解并扩展该方法的理论性质(如影响函数、效率界)。

6. 10.1214/26-ejs2512 · arXiv — Statistical learnability of smooth boundaries via pairwise binary classification with deep ReLU networks

  • 作者: Hiroki Waida, Takafumi Kanamori
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在 pairwise binary classification 设定下研究有序多重光滑边界(ordered multiple smooth boundaries)的非参数可学习性,其中观测为成对协变量与反映二者统计关系的二元响应,而非传统的单协变量–响应配对。核心难点在于光滑子集顺序的非识别性(non-identifiability),导致泛化性与可学习性之间存在鸿沟。作者对给定的向量值函数类引入 localization argument,构造局部化的 deep ReLU network 类来定义分类算法,从而绕过非识别性障碍。理论结果证明了在特定条件下,有序多重光滑边界可通过该局部化 deep ReLU network 分类算法被学习,并给出了相应的收敛率。对您有用之处:本文将非参数边界估计与 deep ReLU network 的逼近/估计理论结合,localization argument 可与 minimax bound 及 M-estimation 理论对话。
  • 关键技术: pairwise binary classification, non-identifiability of ordered boundaries, localization argument for vector-valued function class, deep ReLU network approximation, nonparametric boundary estimation, statistical learnability
  • 为什么对您有用: 本文连接非参数估计与 deep ReLU network 学习理论,属于 nonparametric theory 子方向;您武器库中 minimax bounds for estimation problems 与 M-estimation theory 可直接用来审视其 localization argument 是否能推出更紧的 minimax rate,或验证非识别性设定下效率界是否存在。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将 localization argument 系统嵌入 semiparametric / M-estimator 的收敛分析框架。

7. 10.1214/26-ejs2491 · arXiv — Non-parametric estimation for the stochastic wave equation

  • 作者: Eric Ziebell
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在空间-时间白噪声驱动的随机波动方程设定下,目标是通过局部观测方案估计空间依赖的波速参数。在固定时间 horizon 下,当观测分辨率趋于零时,作者证明了增强极大似然估计量(augmented MLE)的渐近正态性。核心机制在于:观测 Fisher 信息的期望与方差与对应确定性波动方程的动能存在内在联系,并利用渐近 Riemann-Lebesgue 算子证明了渐近能量等分原理。该结果为随机偏微分方程的非参数估计提供了精确的渐近理论,对您有用之处在于:它展示了高维/连续逆问题中 MLE 的渐近效率与物理能量泛函的深刻联系,为 inverse problems with random noise 方向提供了新视角。
  • 关键技术: augmented maximum likelihood estimation, stochastic wave equation, space-time white noise, asymptotic Riemann-Lebesgue operators, asymptotic equipartition of energy, observed Fisher information
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 inverse problems with random noise 与 nonparametric statistics:它将随机 PDE 的非参数估计问题转化为 Fisher 信息与确定性物理方程动能的等价关系,给出了精确的渐近正态与效率刻画。您武器库中 very_familiar 的 inverse problems with random noise 与 minimax bounds 可直接攻入本文的口子:验证该 augmented MLE 是否达到 minimax rate 或 semiparametric efficiency bound,以及能量等分原理是否暗示某种信息几何结构。Follow-up 判断:立即可做——用 minimax 理论审视其效率界是否紧,并探索该 Riemann-Lebesgue 算子框架能否推广到更一般的随机 PDE 逆问题。

8. 10.1214/26-ejs2497 · arXiv — Comparing regularisation paths of (conjugate) gradient estimators in ridge regression

  • 作者: Laura Hucker, Markus Reiß, Thomas Stark
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: sharper_rate
  • 摘要: 在线性回归 ridge 惩罚准则下,研究标准梯度下降/梯度流与共轭梯度迭代估计量的正则化路径统计性质差异;核心 estimand 为预测误差,关键设定为线性模型与 early-stopping 正则化。共轭梯度虽数值收敛快,但因非线性与迭代依赖性,其统计风险分析困难;梯度流则是线性方法,early-stopping 的正则化性质已知。本文通过显式的非标准误差分解,将共轭梯度迭代的预测误差上界归结为梯度流在变换迭代步数下的预测误差,从而实现两条正则化路径的风险比较。主要理论结果:oracle 共轭梯度迭代的风险与梯度流及 ridge oracle 的最优性共享至常数因子水平;数值实验验证了路径相似性。对您有用:将 iterative algorithm 的正则化路径与统计风险显式连接,为 early-stopping 与 implicit regularization 的理论分析提供了新视角。
  • 关键技术: early-stopping regularization, conjugate gradient iteration, gradient flow risk bound, prediction error decomposition, ridge regression oracle, implicit regularization
  • 为什么对您有用: 本文连接了统计计算(迭代算法路径)与估计理论(minimax 风险界),属于您 primary interest 中 statistical computing 与 efficiency theory 的交叉。您武器库中 very_familiar 的 minimax bounds for estimation 与 high-dimensional asymptotics 可直接用于检验该常数因子界在高维设定下是否仍紧——这是一个立即可做的 follow-up:将本文的显式误差分解推广至随机设计高维线性模型,验证共轭梯度 oracle 的常数因子最优性是否随维度比变化。

9. 10.1214/26-ejs2540 · arXiv — Nonparametric estimation for a log-concave distribution function with interval-censored data

  • 作者: Chi Wing Chu, Hok Kan Ling, Chaoyu Yuan
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 针对混合型区间删失数据,在分布函数对数凹(log-concave)假设下,研究事件时间分布函数的非参数最大似然估计(NPMLE)。该假设比传统的对数凹密度或凹分布函数更宽松,涵盖常见生存分析参数族,并允许多峰和重尾分布。证明了NPMLE的存在性、唯一性和一致性,并建立了Hellinger距离下的全局收敛速率:分离条件下为 n^{-2/5},无分离条件下为 n^{-2/5} log^{1/10}(n)。计算上采用 active set 算法结合迭代凸最小化(ICM)算法,设计高效数值程序。数值实验和两个真实数据案例表明,相比无约束NPMLE,引入对数凹形状约束显著提升了有限样本效率,且相比密度对数凹假设在鲁棒性上更优。附带 R 包 iclogcondist(CRAN)可直接使用。对您而言,这是非参数形状约束估计的前沿工作,非常适合利用您熟悉的非参数理论(如 minimax 速率推导)和软件开发技能进行方法学扩展或应用于流行病学区间删失数据场景。
  • 关键技术: nonparametric maximum likelihood, log-concave distribution function, interval-censored data, active set algorithm, iterative convex minorant algorithm, Hellinger distance convergence rate
  • 为什么对您有用: 本文属于非参数形状约束估计的经典方向,直接对应您 primary interest 中的非参数理论。您 very_familiar 的 minimax 界和非参数推断工具箱可直接用于验证或改进其收敛速率的紧性。R 包实现也便于您快速上手在流行病学区间删失数据分析中测试该方法。属于中期可做的 follow-up:在 shape-constrained M-estimation 上您已有足够基础,但若要推导自适应速率或处理协变量调整,需先加强半参数效率理论(moderately_familiar 项)。

10. 10.1214/26-ejs2501 · arXiv — Consistency of nonparametric density estimators in CAT(0) orthant space

  • 作者: Yuki Takazawa, Tomonari Sei
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在进化树推断中,BHV树空间是一类CAT(0)度量空间,用于表示系统发育树样本。本文在更一般的CAT(0) orthant空间中研究了非参数密度估计的相合性,包括核密度估计和对数凹最大似然估计两种方法。针对对数凹MLE,作者将对数凹逼近技术扩展到该非欧几里得空间,通过对数凹投影映射的连续性建立了弱相合性。对于核密度估计,修正了边界偏差,并利用经验过程理论在CAT(0) orthant空间上证明了均匀相合性。这是首次在CAT(0) orthant空间中为这两种常用密度估计器建立大样本下相合性的理论结果。该工作将经典非参数密度估计理论推广到流形空间,为非欧数据统计推断提供了严格理论基础。
  • 关键技术: kernel density estimation, log-concave maximum likelihood estimation, CAT(0) orthant space, BHV tree space, empirical process theory, log-concave projection map
  • 为什么对您有用: 本文直接对应您第一兴趣中的非参数理论方向,特别是密度估计在非标准空间中的大样本性质。您对经典非参数统计的熟练掌握(very_familiar中的nonparametric statistics)使您能立即理解证明中的经验过程技巧与对数凹投影方法。后续您可以将您的U-统计量理论(higher-order U-statistics)应用于该空间下密度泛函的估计,例如采用U-统计量估计熵或积分平方密度,这条路立即可尝试,因为您对U-统计量的计算(treewidth/einsum)非常熟悉。

11. 10.1214/26-ejs2539 · arXiv — Sampling depth trade-off in function estimation under a two-level design

  • 作者: Akira Horiguchi, Li Ma, Botond T. Szabó
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在两层抽样设计下(先随机抽取个体,再对每个个体进行重复观测),研究总体函数与个体特异函数估计中采样深度与个体数的权衡问题。基于层次高斯过程模型,从贝叶斯和频率派两个视角建立 L2 极小极大风险率,量化了采样更多个体与加深个体内采样的优化策略。结果表明,个体特异函数学习有时反而通过增加个体数获益更大,而非深层采样。构造了适应未知光滑性的估计量并证明其达到相应的极小极大率。通过模拟实验和两个真实数据集验证了理论。该工作直接关联非参数函数估计的极小极大理论,研究者兵器库中的 minimax bounds 技术可立即用于理解此类分层设计的效率,属于立即可做的方向。
  • 关键技术: Minimax rate, Two-level sampling, Hierarchical Gaussian process, Adaptive estimation, L2 risk
  • 为什么对您有用: 本文属于非参数函数估计的极小极大率分析,与研究者 primary interest 中的 nonparametric statistics 和 minimax bounds for estimation problems 直接匹配。武器库中 very_familiar 的 minimax bounds 技能可直接复用于扩展其理论(如更一般的协方差结构或分层因果推断)。立即可做,无需额外学习新工具。

12. 10.1214/26-ejs2516 · arXiv — Kullback-Leibler excess risk bounds for exponential weighted aggregation in generalized linear models

  • 作者: The Tien Mai
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在广义线性模型(GLM,响应服从指数族分布)框架下,研究稀疏聚合问题,目标是用预测变量的稀疏线性组合逼近真实参数向量。核心方法是指数加权聚合(EWA)方案,在 Kullback-Leibler(KL)风险下证明了 leading constant 等于 1 的 sharp oracle inequality,同时达到聚合的 minimax 最优速率。进一步通过建立 excess risk 的高概率界强化了结果。对您有用:该文在 GLM KL 风险下给出 EWA 的 minimax rate 与 sharp oracle inequality,与您 primary interest 中的 minimax bounds 及 semiparametric efficiency 理论直接相关。
  • 关键技术: exponential weighted aggregation, sharp oracle inequality, Kullback-Leibler risk, minimax rate of aggregation, generalized linear models, high-probability bounds
  • 为什么对您有用: 本文直接连接您 primary interest 中的 minimax bounds for estimation problems,在 GLM KL 风险下给出了 EWA 的 minimax 最优速率与 sharp oracle inequality。您武器库中 very_familiar 的 minimax bounds 工具可直接用来验证其声称的 minimax rate 是否紧,或尝试将 KL 风险界推广到您熟悉的 inverse problems with random noise 设定。Follow-up 判断:立即可做——用 minimax bounds 武器即可动手验证或扩展。

13. 10.1214/26-ejs2506 · arXiv — Group-weighted conformal prediction

  • 作者: Aabesh Bhattacharyya, Rina Foygel Barber
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在协变量偏移(covariate shift)下的 conformal prediction 设定中,目标是构建分布自由的预测区间并保证边际覆盖率。经典加权 conformal prediction (WCP) 依赖测试与训练协变量分布的似然比,当似然比估计有误时覆盖率保证会退化。本文考虑观测属于有限个组(group)的特殊情形,组身份完全决定了协变量偏移结构(如分层抽样)。在此设定下,作者证明 WCP 的覆盖率保证可以大幅超越现有基于似然比估计误差的一般退化界,实质上消除了有限组结构下密度比估计误差对覆盖率的冲击。核心机制在于利用离散组结构将连续的密度比问题转化为有限维的组权重调整,从而获得更紧的有限样本覆盖界。对您有用:本文在有限组协变量偏移下给出了更紧的覆盖率界,与 semiparametric theory 中离散/连续参数效率差异的经典现象(参数子模型下估计更易达到效率界)逻辑同构。
  • 关键技术: weighted conformal prediction, covariate shift, distribution-free coverage guarantee, finite-sample coverage bound, stratified sampling
  • 为什么对您有用: 本文直接处理协变量偏移下的分布自由推断,与 causal inference 中 selection bias / transportability 的设定高度同构(有限组即离散调整变量)。您可用 very_familiar 中的 minimax bounds for estimation problems 工具,审视其覆盖率界在连续调整变量下是否仍紧,或用 moderately_familiar 的 semiparametric theory 分析其组权重估计的效率极限。Follow-up 判断:立即可做——用 minimax / semiparametric efficiency 框架验证其有限组界是否可进一步收紧至效率下界。

14. 10.1214/26-ejs2532 · arXiv — A novel characterization of structures in smooth regression curves: From a viewpoint of persistent homology

  • 作者: Satish Kumar, Subhra Sankar Dhar
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在非参数回归设定下,本文利用持久同调(persistent homology)刻画平滑回归曲线的单调性、凸性与模态等结构特征。核心机制是对回归函数的一阶导数构造超水平集(super-level sets),通过其持久同调的 0 维与 1 维特征提取导函数的拓扑信息,从而间接推断原函数的形状结构。作者扩展了回归函数导数持久同调的估计程序,并在适当平滑性假设下建立了其一致性。此外,基于导数持久同调比原函数同调更能揭示隐藏结构的观察,提出了推断单调性、凸性与模态的统计显著性度量。实证部分在模拟与真实数据上验证了方法的有效性。对您可能有用:若将持久同调视为一种多尺度的非参数形状约束工具,其与 higher-order U-statistics 或 HOIF 在刻画高阶导数结构时可能有理论交叉。
  • 关键技术: persistent homology, super-level sets, nonparametric regression derivative estimation, topological data analysis, shape-constrained inference, consistency of topological estimators
  • 为什么对您有用: 本文连接到非参数理论中的形状约束推断(单调性/凸性/模态检验),属于 hypothesis testing 与 nonparametric theory 的交叉。从 technical_arsenal 看,您 very_familiar 的 nonparametric statistics 与 minimax bounds 可直接审视本文一致性结果的收敛速率是否达到最优;但持久同调的计算代数拓扑工具不在武器库中。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 之外,补充持久同调与超水平集的拓扑代数基础(如 Vietoris-Rips 复形、barcode 统计量的极限分布),才能将 minimax 理论与 rate 结果推进到该拓扑推断设定。

15. 10.1214/26-ejs2536 · arXiv — Infinite random forests for imbalanced classification tasks

  • 作者: Moria Mayala, Olivier Wintenberger, Charles Tillier, Clément Dombry
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 在类别不平衡的分类设定下,本文研究随机森林的预测概率推断,关注两种简化变体:子抽样无限随机森林(IRF)与欠抽样 IRF,并建立其渐近正态性。欠抽样通过重抽样平衡两类数据以增强少数类表示,但引入模型偏差;作者提出基于重要性抽样(IS)与 odds ratio 的去偏修正程序。以 1-NN 为基学习器实例化 IRF,证明对 Lipschitz 连续目标函数该方法具有近 minimax 最优性;同时证明 IS bagged 1-NN 估计量在保持与子抽样版本相同收敛速率的同时,在多数情形下达到更低的渐近方差。仿真实验验证了理论结果。对您可能有用:本文的 IS 去偏程序与渐近方差比较,为 semiparametric efficiency 视角下评估重抽样策略的效率性质提供了具体案例。
  • 关键技术: Infinite Random Forests, importance sampling debiasing, odds ratio correction, 1-nearest neighbor base learner, near-minimax optimality, asymptotic normality
  • 为什么对您有用: 本文连接到 semiparametric efficiency 与 nonparametric theory 子方向:IS 去偏修正本质上是一种 odds ratio 加权的效率调整,与 semiparametric efficiency bound 中讨论的方差最优性直接相关。用您 very_familiar 的 minimax bounds for estimation problems 工具,可以审视其声称的 near-minimax optimality 是否紧、Lipschitz 条件下 1-NN 的 rate 是否可进一步 sharpen。follow-up 判断:立即可做——用 minimax bound 与 nonparametric statistics 武器即可动手验证其 rate claim,并可将 IS 去偏与 one-step / DR 估计的效率框架做形式化类比。

16. 10.1214/26-ejs2541 — Estimation and model selection of generalized partially linear spatially varying coefficient models

  • 作者: Liying Jin, Jingru Mu
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Kansas State University
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究广义部分线性空间变系数模型(GPLSVCM)的估计与模型选择问题,目标参数为线性系数与空间变系数函数,关键假设为拟似然设定与三角剖分上的 bivariate penalized spline (BPST) 正则条件。方法上,作者用 BPST 逼近变系数函数,通过拟似然最大化构造估计量,并基于 BIC 区分常数效应与变效应协变量。理论方面,证明了变系数估计的一致性以及线性系数在常规条件下的渐近正态性,但未讨论半参数有效界或影响函数。对您可能有用:该文将 BPST 推广至任意形状区域与复杂边界,为空间半参数模型的 sieve 估计提供了一个新实例。
  • 关键技术: bivariate penalized spline over triangulation, quasi-likelihood maximization, spatially varying coefficient model, BIC model selection, asymptotic normality of linear coefficients
  • 为什么对您有用: 本文属于半参数估计理论,连接到您 primary interest 中的 semiparametric theory 与 sieve M-estimation。您可用 very_familiar 的 minimax bounds 工具审视其 BPST sieve 逼近的收敛率是否达到最优,或用 moderately_familiar 的 semiparametric theory 检查其线性系数估计是否达到半参数有效界(当前理论缺失此点)。中期可做:需先在 moderately_familiar 的 semiparametric efficiency bound 理论上补课,才能将本文的拟似然估计量改造为 one-step efficient estimator。

17. 10.1214/26-ejs2489 · arXiv — Analysis of the expected L2 error of an over-parametrized deep neural network estimate learned by gradient descent without regularization

  • 作者: Selina Drews, Michael Kohler
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文研究过参数化深度神经网络在无显式正则化的条件下,通过梯度下降学习回归函数的L2误差收敛性质。在适当的网络初始化、梯度下降步数和步长设定下,证明该估计量对有限预测变量具有普遍一致性。若真实回归函数满足Hölder光滑性(指数1/2至1),L2误差收敛速率为n^{-1/(1+d)}。对于交互模型(回归函数为d^*个分量Hölder光滑函数之和),推导出与输入维度d无关的收敛速率。结论说明正则化项并非实现过参数化神经网络良好泛化性能的必要条件。该工作提供了深度神经网络在非参数回归中收敛率的新视角,可与经典minimax界限对比,验证其是否最优。
  • 关键技术: over-parametrized deep neural networks, gradient descent without regularization, Hölder smoothness, interaction model, universal consistency
  • 为什么对您有用: 该论文直接关联您的 primary interest 中的非参数与半参数理论。您可以用 very_familiar 工具“minimax bounds for estimation problems”检验该文收敛速率是否达到最优 minimax 率,特别是交互模型下维度无关速率的紧致性。从 follow-up 看,这是立即可做的:您已掌握非参数 minimax 理论,只需将经典低维 Hölder 类的 minimax 速率与本文结果对比即可。

18. 10.1214/26-ejs2482 · arXiv — Statistical learning on measures: An application to persistence diagrams

  • 作者: Olympio Hacquard, Gilles Blanchard, Clément Levrard
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究测度空间上的二分类问题,观测为紧空间X上的测度及其标签,目标是构建泛化性能良好的分类器。基于给定的基分类器集合F,作者构建了测度分类器(如通过对测度积分),并推导出该分类器类的Rademacher复杂度上下界,其表达式简洁地依赖于F的相应量。当测度为有限集上的均匀分布时,退化至多实例学习问题,但框架更具灵活性。主要应用是拓扑数据分析中的持续图,即R^2上的离散测度,刻画拓扑特征存在的尺度范围。作者提出了多种测度分类器,并通过理论和实验论证了它们在不同设定下的分类性能。对您有用:本文的非参数分类器泛化界分析可直接用您十分熟悉的minimax界工具验证其sharpness,同时持续图在astrostatistics中有应用潜力(如宇宙网结构),可作为进入拓扑数据分析的入门阅读。
  • 关键技术: Rademacher complexity, classification on measures, persistence diagrams, multi-instance learning, topological data analysis
  • 为什么对您有用: 直接连接非参数统计学习理论中的分类器泛化界分析,可用武器库中的 minimax bounds for estimation problems 验证论文给出的Rademacher复杂度上下界是否sharp,属于立即可做的后续工作。同时,持续图作为拓扑数据分析工具在天体数据中已用于分析宇宙大尺度结构,该文可作gateway reading进入该方向,但需额外了解TDA基础知识(当前不熟,但短期内可补)。

19. 10.1214/26-ejs2534 · arXiv — Estimating weak Markov-switching AR(1) models

  • 作者: Yacouba Boubacar Maïnassara, Armel Bra, Landy Rabehasaina
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: weaker_assumption
  • 摘要: 本文研究 Markov-switching AR(1) 模型在误差过程仅满足不相关而非独立假设下的矩估计量渐近性质,目标 estimand 为 AR 系数与转移概率。核心放松了传统创新过程独立性假设,仅依赖不相关条件,通过建立矩估计的一致性与渐近正态性来扩展模型适用范围。关键技术工具包括鞅差分/弱相依序列的极限定理、渐近协方差矩阵的显式估计,以及针对 Markov 隐状态的特定必要条件推导。模拟与小时级气象数据应用验证了理论。对您有用之处在于:其弱相依假设下的渐近分析框架可迁移至您关注的 semiparametric / nonparametric 理论中处理弱相依数据的效率界问题。
  • 关键技术: moment estimation, Markov-switching model, weak dependence (uncorrelated errors), asymptotic normality under martingale difference, asymptotic covariance matrix estimation
  • 为什么对您有用: 本文连接到您 primary interest 中的 semiparametric & nonparametric theory 子方向——弱相依(不相关而非独立)假设下的渐近理论是 semipara 效率界推导中常遇的技术难点。您武器库中 very_familiar 的 minimax bounds 与 moderately_familiar 的 M-estimation theory 可直接攻其渐近正态性证明口子,验证其协方差矩阵估计是否达到 semiparametric efficiency bound。follow-up 判断:立即可做——用 M-estimation theory 检查该矩估计在弱相依设定下是否为最优,或尝试构造 one-step efficient estimator 改进。

20. 10.1214/26-ejs2507 · arXiv — Generative semi-supervised classification

  • 作者: Tong Wang, Shanshan Song, Guohao Shen, Yuanyuan Lin, Jian Huang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文在半监督分类设定下,目标估计量为条件类概率函数 P(Y|X),利用其与条件生成函数的等价性构建联合目标函数,同时利用标注与未标注数据的信息。方法通过深度神经网络非参数地逼近分类器与条件生成器,属于深度 sieve M-estimation 范畴。理论部分在适当正则条件下建立了估计量在某度量下的相合性与收敛性质,但摘要未明确给出收敛速率(如 minimax rate 或 n^{-1/2}-CAN)及是否达到半参数有效界。数值实验表明在标注样本量小时,该方法优于现有半监督及纯监督分类方法。对您可能有用:本文将深度 sieve 逼近引入半监督概率估计,可作为审视深度非参数估计收敛速率与半参数效率界差距的案例。
  • 关键技术: deep generative model, semi-supervised classification, conditional generator, sieve M-estimation, nonparametric approximation, consistency and convergence
  • 为什么对您有用: 本文连接到非参数理论(深度 sieve 逼近)与半监督估计设定,属于您 primary interest 中 nonparametric / semiparametric theory 的边缘应用。用您 very_familiar 的 minimax bounds for estimation problems 武器,可以审视本文声称的收敛性质是否给出了 sharper rate 或仅是相合性,并判断其是否触及半参数效率界;若速率结果偏弱,立即可做:用 HOIF 或 semiparametric efficiency bound 工具推导该半监督条件概率估计的有效界并对比。

数理统计 / 假设检验 (hypothesis_testing, 13 篇)

1. 10.1214/26-ejs2511 · arXiv — The existence of unbiased hypothesis tests: An algebraic approach

  • 作者: Andrew McCormack
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究离散统计模型中无偏检验的存在性问题,目标是为给定零假设和备择假设集合判断是否存在一个无偏检验。作者将无偏检验的存在性转化为一个代数判据:存在无偏检验当且仅当存在一个多项式分离零假设集与备择假设集,这赋予零假设类一个强半代数限制。分离多项式的最小次数对应所需的最小样本量,称为无偏阈值,并通过Gröbner基技术给出上界,许多情形下可精确确定。对于一致最优势无偏检验的存在性问题,文中表明其依赖于检验的水平与样本容量,且关系微妙。大量例子涵盖列联表、线性模型、对数线性模型和混合模型。本文的方法论是构造性的,一旦证明存在,便可显式构造该检验。该工作将假设检验中的经典无偏性概念与交换代数工具结合,为离散模型的检验问题提供了新的理论视角,对您的假设检验研究方向有直接启发。
  • 关键技术: unbiased test, separating polynomial, Gröbner basis, unbiasedness threshold, semialgebraic geometry, discrete statistical models
  • 为什么对您有用: 本文直接涉及您的首要兴趣之一——假设检验,并在离散模型情境下为无偏检验的存在性提供了严格的代数刻画,这与您对经典检验理论的长期关注高度吻合。您武器库中'minimax bounds for estimation problems'的界限思维可用于理解无偏阈值与样本量的关系,而'nonparametric statistics'的背景有助于类比连续情形下的无偏性概念。但核心工具(Gröbner基、半代数几何)在您的武器库中尚属空白,属于中期可做:需先在'moderately familiar'的某个方向(如代数统计基础)上补强,才能独立推进该代数方法在您高维/因果检验问题上的应用。

2. 10.1214/26-ejs2542 · arXiv — A new class of asymptotically distribution-free smooth tests

  • 作者: Xiangyu Zhang, Sara Algeri
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文基于经验过程理论的最新发展,构建了一族新的渐近分布自由的平滑检验(smooth tests),用于拟合优度或模型诊断等假设检验问题。该检验的分布自由性质在参数估计、模型选择和中等样本量下仍然成立,使其在实际应用中具有稳健性。方法核心是通过经验过程构造检验统计量,避免了对未知参数的高度敏感性。此外,作者提出了一种计算高效的替代方法,替代传统的参数自助法,显著降低了计算成本。主要理论结果建立了检验的渐近分布自由性,并提供了算法实现。这篇论文直接关联您对假设检验方法的兴趣,同时其计算效率设计也契合您对统计计算算法的关注。
  • 关键技术: empirical process theory, smooth tests, distribution-free property, parametric bootstrap alternative, model selection robustness
  • 为什么对您有用: 直接对应您对假设检验(distribution-free tests)的兴趣,特别是平滑检验的新构造。您对非参数统计和高维渐近性的熟悉度(very_familiar)足以快速理解该方法的理论核心,并可能将其推广到高维或半参数检验情景。此外,论文中计算高效的替代方法对您统计计算兴趣有直接启发。总体而言,这篇论文立即可读并可能产生后续工作思路。

3. 10.1214/26-ejs2514 · arXiv — Multiple testing with anytime-valid Monte Carlo p-values

  • 作者: Lasse Fischer, Timothy Barry, Aaditya Ramdas
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在多假设检验场景(如遗传学、神经影像数据)中,置换检验因其对I型误差的有限样本保证常被视为金标准,但计算成本极高。本文提出一种将anytime-valid置换p值集成到Benjamini-Hochberg等通用多重检验程序中的新框架,允许根据数据自适应地决定每个检验的置换次数。该方法的关键机制是数据驱动的提前停止:当足够证据积累时即终止置换,从而显著减少计算量。作者证明,尽管自适应停止引入的p值依赖会违反BH过程的常规假设,但在温和条件下该方法仍能控制假发现率(FDR)。在真实的基因组学数据集上,该方法将计算时间从三天以上降至不到四分钟,同时拒绝了更多假设。这一工作直接关联到假设检验中的多重比较问题,并展示了计算效率与统计有效性之间的巧妙平衡,对您在数学统计和计算统计方向的研究具有直接参考价值。
  • 关键技术: anytime-valid p-values, multiple testing, Benjamini-Hochberg procedure, Monte Carlo permutation test, false discovery rate control, data-adaptive stopping
  • 为什么对您有用: 本文聚焦于假设检验中的多重比较与计算效率,直接对应您的数学统计与假设检验主兴趣。其核心创新——自适应停止置换检验并保持FDR控制——是一个清晰的方法学贡献,且您对非参数统计和高维渐近理论的熟练掌握(属于very_familiar武器)足以立即评估其理论边界和潜在扩展(如结合其他FDR控制程序)。立即可做:您可以使用现有的多重检验知识分析该方法在更宽模型(如相关检验)下的表现,或开发类似的anytime-valid方法用于其他置换检验场景。

4. 10.1214/26-ejs2537 — A scalable Nyström-based kernel two-sample test with permutations

  • 作者: Antoine Chatalic, Marco Letizia, Nicolas Schreuder, Lorenzo Rosasco
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Institut polytechnique de Grenoble · Centre National de la Recherche Scientifique · GIPSA-Lab · Université Grenoble Alpes · University of Genoa · Laboratoire d'Informatique Gaspard-Monge
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: sharper_rate
  • 摘要: 在非参数两样本检验设定下,目标是判断两组数据是否来自同一分布,以 MMD 为检验统计量但面临 O(n²) 计算瓶颈。本文引入 Nyström 低秩近似构造近似 MMD 检验统计量,结合 permutation 检验流程实现可计算的两样本检验。核心理论结果是给出了该检验在 MMD 范数下分布分离度的有限样本 power bound,且证明其分离速率达到已知 minimax 最优速率。数值实验验证了方法在大规模科学数据上的实用性。对您有用:此工作将 minimax 最优速率与 Nyström 计算近似结合,直接触及非参数检验与计算约束的交叉点。
  • 关键技术: maximum mean discrepancy, Nyström approximation, permutation test, minimax optimal separation rate, finite-sample power bound, kernel two-sample test
  • 为什么对您有用: 直接连接非参数假设检验与 minimax rate 两个 primary interest 子方向,且触及统计计算(Nyström 近似降维)的效率问题。可用 very_familiar 的 minimax bounds 工具审视其声称的 minimax 最优速率是否紧,或用 moderately_familiar 的 higher-order U-statistics 视角分析 Nyström MMD 的高阶投影结构。立即可做:用 minimax bound 与 higher-order U-stat 工具验证其速率与 power bound 的紧性。

5. 10.1214/26-ejs2488 · arXiv — Resampling-free inference for time series via RKHS embedding

  • 作者: Deep Ghoshal, Xiaofeng Shao
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对多元或函数型时间序列的非参数推断问题,包括拟合优度检验、变点检验和独立性检验。现有方法大多依赖带宽选择的bootstrap或子抽样,计算昂贵且对带宽敏感。作者提出一类基于RKHS嵌入的检验统计量,利用样本分裂、投影和自归一化(SN)技术构建。通过新的条件化技巧,证明在强混合和适当矩条件下,检验统计量的零分布是渐近枢轴的(pivotal),不依赖于未知参数。进一步分析了局部备择假设下的功效性质。模拟和实例表明,该方法在尺寸准确性和计算效率上优于已有方法。对您而言,本文直接关联您对假设检验的兴趣,且非参数框架与您熟悉的nonparametric statistics高度吻合,可立即可用于深度评读。
  • 关键技术: RKHS embedding, self-normalization, sample splitting, conditioning technique, pivotal limiting distribution
  • 为什么对您有用: 本文提出一种时间序列非参数检验的新方法,直接服务于您primary interest中的hypothesis testing子方向。由于您对nonparametric statistics(核方法、渐近理论)极为熟悉,无需额外工具即可理解其统计机制。另外,您对statistical computing的兴趣可借此评估其计算优势,而未来或可将自归一化思路与higher-order U-statistics结合,拓展到复杂相依数据的检验问题。粗判为立即可做:用very_familiar的nonparametric statistics工具即可深入评读。

6. 10.1214/26-ejs2527 · arXiv — Efficiency of pattern-based independence test

  • 作者: Ludwig Baringhaus, Rudolf Grübel
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 本文研究基于模式的独立性检验的效率问题。模式检验使用数据中模式(如长度为2的Kendall's tau、长度为4或5的Hoeffding型统计量)来检测独立性,与离散数学中的拟随机性概念有密切联系。作者对Chan等人(2020)提出的四模式集合对应的检验,完整描述了其极限零分布,并推导了局部渐近相对效率(ARE)。结果覆盖多种备择假设设定,包括经典的一类局部备择。理论分析通过copula和置换序列的极限建立联系。模拟实验支持了ARE的理论发现。本文为假设检验领域提供了模式检验效率的系统理论,对您直接相关的假设检验和U统计量工具(如Hoeffding模式长度五的检验)有理论深化作用。
  • 关键技术: pattern-based independence test, asymptotic relative efficiency, quasi-randomness, copula, permutation sequences, U-statistics
  • 为什么对您有用: 直接属于您的primary interest中的hypothesis testing子方向,且模式检验与Hoeffding型U统计量高度相关,您的higher-order U-statistics理论背景可直接理解其极限分布推导。由于您对nonparametric statistics和minimax bounds非常熟悉,本文的ARE推导和效率比较可立即转化为对现有独立性检验方法效率评估的延伸思考,属于立即可做的阅读。

7. 10.1214/26-ejs2535 · arXiv — Identifying arbitrary transformation between the slopes in scalar-on-function regression

  • 作者: Pratim Guha Niyogi, Subhra Sankar Dhar
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 该论文研究在两样本标量-函数回归中,斜率函数之间是否存在任意纵轴变换的假设检验问题。检验统计量基于未知变换的二阶导数构造,利用经验过程理论推导其渐近分布。为处理小样本,提出bootstrap算法并证明其与原检验渐近等价。模拟实验和DTI脑影像数据分析验证了方法的有效性。该工作将函数型数据的假设检验与非参数经验过程工具结合,对您已有的假设检验和非参数统计兴趣有直接关联。
  • 关键技术: scalar-on-function regression, empirical process, bootstrap hypothesis test, second derivative estimation
  • 为什么对您有用: 本文属于您primary interest中的hypothesis testing和非参数理论方向。您非常熟悉的非参数统计、经验过程以及逆问题工具可直接用于理解其证明框架和拓展可能——例如,检验斜率变换是否可延伸至noisy观测或高维协变量场景。暂不可做:目前未见直接可与higher-order U-statistics或计算-统计折衷联结的入口,但作为假设检验的方法论文献值得跟踪。

8. 10.1214/26-ejs2523 · arXiv — Random interval distillation for detection of change-points in Markov chain Bernoulli networks

  • 作者: Xinyuan Fan, Weichi Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在动态 Markov 链 Bernoulli 网络设定下,目标是检测与定位低秩网络序列中的多个变点(change-points),无需最小间距的先验知识。本文提出随机区间蒸馏(RID)方法,通过收集具有充分信号强度的随机区间并重组为信息短区间序列,结合稀疏通用奇异值阈值(SUSVT),实现了检测与定位的近 minimax 最优界。核心机制利用邻接矩阵 CUSUM 的算子范数构建检验统计量,基于近期非渐近界理论,免去了前人方法所需的样本分割步骤。实证与理论表明,RID 在低秩网络变点检测中达到了与独立网络情形几乎同等的 minimax 界。对您可能有用:CUSUM 算子范数与 SUSVT 的非渐近分析直接连接到高维 RMT 与 minimax 界工具。
  • 关键技术: random interval distillation, CUSUM operator norm, sparse universal singular value thresholding, minimax change-point detection, low-rank Markov network, nonasymptotic bound
  • 为什么对您有用: 本文直接连接到高维统计与 minimax 界两个子方向:CUSUM 算子范数的非渐近界分析属于高维 RMT 范畴,而检测/定位的 minimax 最优性属于您熟悉的 minimax bounds for estimation problems。用 very_familiar 的高维渐近与 minimax 理论即可审视其声称的 rate 是否紧,算子范数 CUSUM 的 concentration 分析是可立即切入的口子。判断:立即可做。

9. 10.1214/26-ejs2485 · arXiv — Multiscale detection of practically significant changes in a gradually varying time series

  • 作者: Patrick Bastian, Holger Dette
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文考虑逐渐变化的时间序列中均值是否发生实际显著变化的问题——与基准时间 \(t_0\) 相比,后续序列的均值偏差超过一个预先给定的实际阈值(practical significance)才视为有意义的变化,而非统计显著但幅度很小。现有方法功率低、依赖平滑参数选择、要求均值演化足够光滑。作者提出一种多尺度检验程序,不需要平滑参数选择,对均值变化的形态(光滑与否)更鲁棒,理论上证明了该程序对相关变化(relevance changes)的一致性,并推导了检验的渐近大小和功效。方法核心是将多尺度比较(不同窗口长度)整合成一个统一的检验统计量,并通过重抽样(wild bootstrap)实现有限样本校准。模拟和真实数据(如气候序列)展示了相比现有方法(如 MOSUM 类检验)的显著功率提升。对您而言,该工作直接连接到 hypothesis testing 与 nonparametric statistics 中的变化点检测,且多尺度框架可迁移至更复杂的因果结构变化检测问题,工具库中 minimax bounds 和 nonparametric 技巧是攻此文献的即战力。
  • 关键技术: multiscale testing, practical significance testing, change point detection in time series, wild bootstrap, relevance change point
  • 为什么对您有用: 本文聚焦于序列均值变化的实际显著性检验,属于您primary interest中的hypothesis testing方向,且使用了multiscale非参数框架,可与您very_familiar中的nonparametric statistics和minimax bounds工具对接。中期可做:将多尺度检验的思路推广到高维或因果推断中的结构变化检测,需先在moderately_familiar的semiparametric theory上加强(如利用influence function构造检验统计量)。暂不可做:暂无。

10. 10.1214/26-ejs2528 · arXiv — Testing for sufficient follow-up in cure models with categorical covariates

  • 作者: Tsz Pang Yuen, Eni Musta, Ingrid Van Keilegom
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文在治愈模型(cure model)中研究充分随访(sufficient follow-up)检验问题。现有检验未纳入协变量信息,作者将其扩展至分类协变量情景。传统的交集-并集(intersection-union)检验因需对所有协变量值拒绝原假设而过于保守、功效不足。为改进这一不足,作者提出基于一个恰当选择的协变量值进行检验的新程序,核心假设是未治愈生存时间的条件密度在尾部区域非增(non-increasing)。文章证明了两种检验方法均渐近达到显著性水平 α,并通过模拟和皮肤黑色素瘤数据集评估了有限样本性能。该工作直接关联到您对假设检验(mathematical statistics & hypothesis testing)的兴趣,且非增密度假设为一种较弱的正则条件,可视为对现有检验方法的实质性改进。
  • 关键技术: cure model, practically sufficient follow-up, intersection-union test, conditional density non-increasing, asymptotic level
  • 为什么对您有用: 本文直接针对假设检验这一您的主要兴趣,发展了基于协变量的充分随访检验,方法上依赖条件密度非增这一非参数假设。您对非参数统计(very_familiar)非常熟悉,可以立即从非参数视角审视该检验的构造和功效,例如利用经验过程或密度估计改进尾部处理。该问题与您关注的高维或U统计量暂无直接交叉,但作为假设检验的新应用场景,立即可做,值得从方法学上评估其推广潜力。

11. 10.1214/26-ejs2508 · arXiv — Nonparametric two-sample hypothesis testing for low-rank random graphs of differing sizes

  • 作者: Joshua Agterberg, Minh Tang, Carey Priebe
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对两个大小不同的网络(图)是否来自同一分布的两样本检验问题,在广义随机点积图(GRDPG)框架下正式定义了分布相等性。该方法假设网络具有独立边且期望矩阵低秩,提出一种非参数两样本检验统计量:先对每个网络进行邻接矩阵谱分解得到顶点嵌入,然后利用最优运输(optimal transport)估计旋转以对齐两个嵌入,最后应用最大均值差异(MMD)进行检验。理论结果表明,在足够密集的图条件下,经适当缩放后检验统计量相合,并且分析了不同稀疏度下的收敛速度。数值模拟验证了方法的有效性。该研究将非参数两样本假设检验拓展到网络数据,与假设检验和非参数理论方向直接相关,对研究者可能有用。
  • 关键技术: generalized random dot product graph, adjacency spectral embedding, optimal transport for alignment, maximum mean discrepancy, nonparametric two-sample test, sparsity regimes convergence
  • 为什么对您有用: 本文属于假设检验方向,将两样本检验方法推广到网络(图)数据,这是研究者primary interest中的数学统计与假设检验的一个新兴应用场景。研究者熟悉高维渐近理论(very_familiar)和非参数统计(very_familiar),可以立即分析该检验的minimax最优性,并利用einsum知识(very_familiar)加速MMD计算。因此,该论文立即可做:研究者无需额外工具即可深入阅读理论部分并尝试数值复现。

12. 10.1214/26-ejs2483 · arXiv — Separation rates for the detection of synchronization of interacting point processes in a mean field frame. Application to neuroscience

  • 作者: Josué Tchouanti, Éva Löcherbach, Patricia Reynaud-Bouret, Etienne Tanré
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Université Côte d'Azur · Laboratoire Jean-Alexandre Dieudonné · Mersen (France) · Institut national de recherche en sciences et technologies du numérique · Centre Inria d'Université Côte d'Azur
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文研究检测两个点过程之间同步性(依赖性)的排列检验的分离率问题。在神经科学中,神经元尖峰序列的同步检测是理解神经元交流的关键。作者给出了保证排列检验第二类错误非渐近控制所需的条件,即分离率准则。针对两种主流神经科学模型——jittering Poisson模型和均值场交互的Hawkes过程(包含M个分量,在平稳状态下演化),推导了检测两个神经元之间依赖性所需样本量n的下界。该下界体现了信号强度(依赖强度)与样本量之间的权衡,属于非渐近的极小极大下界风格。对您而言,本文提供了假设检验中非渐近误差控制的一个具体实例,所用分离率下界技术可与您熟悉的极小极大下界工具对接。
  • 关键技术: Permutation test, non-asymptotic Type II error control, separation rate, Hawkes process, mean field interaction, lower bound on sample size
  • 为什么对您有用: 本文连接了primary interest中的假设检验(hypothesis testing)和非参数统计中的minimax下界方法。您very_familiar中的‘minimax bounds for estimation problems’可以直接用于审视其下界是否紧,并尝试将分离率结果推广到更一般的点过程模型。中期来看,若能将下界与上界结合可形成完整的minimax率,这属于moderately_familiar的非参数统计武器可延展的方向。
  • 作者: Fabian J. E. Telschow, Samuel Davenport
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Humboldt-Universität zu Berlin · University of California San Diego
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: weaker_assumption
  • 摘要: 本文聚焦于高斯及高斯相关随机场的族系错误率(FWER)控制问题。传统方法基于高斯运动公式(GKF)并依赖“好格点假设”(good lattice assumption),该假设仅在数据足够平滑时成立,否则会导致控制过保守或假阳性膨胀。作者提出“Riding the SuRF”框架,直接从连续域的随机场理论出发,去除了对格点假设的依赖。该框架允许任意平滑程度和非平稳性,利用修正后的GKF实现精确的FWER控制。理论证明新方法在非保守意义下依然有效,与标准GKF相比显著减小了保守性。数值实验验证了方法在合成数据和真实神经成像数据上的表现。该工作直接关联假设检验中的多重比较问题,且涉及高维随机场的渐近理论,与您的高维统计和假设检验兴趣契合。
  • 关键技术: Gaussian Kinematic Formula, Random Field Theory, Familywise Error Rate Control, Good Lattice Assumption, Non-stationary Random Fields, SuRF method
  • 为什么对您有用: 本文直接属于假设检验中的多重比较校正,是数学统计与假设检验兴趣的核心应用。您可以用熟悉的nonparametric statistics工具分析其平滑条件放松的合理性,或用high-dimensional asymptotics评估其FWER阈值在高维下的性能。立即可做:您对nonparametric statistics和高维渐近已非常熟悉,可以快速理解本文的方法并验证其理论条件,进一步可用minimax bounds评估其控制的最优性。

统计计算 / 算法 (stat_computing, 2 篇)

1. 10.1214/26-ejs2502 · arXiv — Analysis of Multiple-try Metropolis via Poincaré inequalities

  • 作者: Rocco Caprio, Sam Power, Andi Q. Wang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文在Poincaré不等式的框架下分析Multiple-try Metropolis(MTM)算法,将MTM视为理想Metropolis-Hastings算法的一种辅助变量实现,通过重采样近似目标分布。在重要性权重满足适当矩条件的前提下,推导了MTM与理想算法之间的显式Poincaré比较结果,从而量化了谱间隙的差异。进一步刻画了理想算法的谱间隙,并在高斯情形下通过比较得到了MTM的非渐近收敛界。该工作为MTM的收敛性提供了理论保证,深化了对该类MCMC算法混合行为的理解。对您而言,该文使用的Poincaré不等式和谱间隙分析是统计计算中评估算法效率的核心工具,与您对统计计算方法(特别是算法理论)的兴趣直接相关。
  • 关键技术: Multiple-try Metropolis, Poincaré inequalities, spectral gap, non-asymptotic convergence bounds, auxiliary variable MCMC, importance sampling approximation
  • 为什么对您有用: 本文属于MCMC算法理论,直接对应您的primary interest中的“statistical computing(numerical methods, algorithm)”。研究者在statistical-computational tradeoff方面是outsider,但本论文并未涉及计算折衷,而是纯粹的收敛性分析,可作为统计计算基础理论的补充。您武器库中“very_familiar”的非参数统计和高维渐近工具可以用于理解Poincaré不等式技术,但MCMC本身并非核心方向,因此属于“中期可做”——若想在该方向上深入,需在马尔可夫链混合时间理论(moderately_familiar级别)上先补齐。本文值得泛读,理解MCMC理论的最新进展,但未必需要立即跟进。

2. 10.1214/26-ejs2494 · arXiv — Box confidence depth: Simulation-based inference with hyper-rectangles

  • 作者: Elena Bortolato, Laura Ventura
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文提出一种基于模拟的置信区域构建方法,适用于参数模型、生成模型及小样本场景,传统渐近近似失效时尤具优势。方法利用数据深度概念,通过在样本空间中生成随机超矩形(即盒子)并改变输入参数,建立模拟分布。采用概率接受规则从参数空间中提取深度-置信分布,从而同时获得点估计和校准的置信集。该方法特别针对参数和检验统计量均为多变量的情形设计,无需似然函数或正则渐近理论。数值实验表明,该方法在有限样本下能提供精确的覆盖率和良好的统计性质。对您可能有用:该工作属于统计计算中的模拟推断新算法,与您对统计计算(数值方法、算法)的兴趣直接相关;其基于超矩形和数据深度的构造思路或可启发高维或因果推断中置信区间的计算策略。
  • 关键技术: simulation-based inference, data depth, hyper-rectangles, confidence distribution, generative models, acceptance rule
  • 为什么对您有用: 本文属于统计计算中基于模拟的推断新方法,直接对应您primary interest中的统计计算(数值方法、算法)子方向。技术上有明确的新算法(概率接受规则与深度-置信分布),但目前武器库中缺乏数据深度和模拟接受规则的直接工具(moderately_familiar中无此项),故为暂不可做;若未来欲将此类模拟方法融入您的高维或因果推断工具箱,需先熟悉数据深度文献(中期可做)。

流行病学 (epidemiology, 1 篇)

1. 10.1214/26-ejs2500 · arXiv — The Markov approximation of the periodic multivariate Poisson autoregression

  • 作者: Mahmoud Khabou, Edward A. K. Cohen, Almut E. D. Veraart
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: application
  • 摘要: 本文提出一种周期性多变量泊松自回归模型,允许无限记忆,特别针对网络设定。利用收缩技术研究过程的稳定性,给出达到周期平稳上界。为获得计算效率,基于指数函数性质和密度结果提出马尔可夫近似,并证明该近似的MLE具有强相合性。在模型误设下通过仿真检验其稳健性。将模型应用于柏林每周轮状病毒病例预测,表现优于现有PNAR模型。对您有用的是:该工作展示了计数时间序列模型在流行病学监测中的应用,其MLE一致性和稳健性分析思路可借鉴到您熟悉的因果推断纵向数据设定中。
  • 关键技术: Periodic multivariate Poisson autoregression, Markov approximation, Contraction techniques, Maximum likelihood estimation, Network time series
  • 为什么对您有用: 本文属于流行病学应用方向,使用轮状病毒真实数据并比较模型预测性能,可作为流行病学数据建模的入门阅读。您的技术武器库中非参数统计和软件发展经验有助于理解其近似方法,但核心模型与您主要兴趣(因果推断、高维统计)距离较远,暂不可直接复用。若未来涉足传染病传播的因果问题(如干预效果评估),本文的周期性泊松框架可提供基础建模参考。

其他 (other, 6 篇)

1. 10.1214/26-ejs2499 · arXiv — Two-sample covariance inference in high-dimensional elliptical models

  • 作者: Nina Dörnemann
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 本文考虑高维椭圆分布下两个总体协方差矩阵相等的检验问题。检验统计量基于U-统计量估计两协方差矩阵的Frobenius范数差的平方,该统计量最初由Li和Chen(2012)在独立成分模型下提出。本文的核心理论贡献是在椭圆分布假设下建立了该U-统计量的中心极限定理,该定理在零假设和备择假设下均成立,从而能够渐近控制检验水平并进行功效分析。据作者所知,这是首个对椭圆数据有理论保证的此类检验方法。方法仅对协方差矩阵施加温和假设,无需稀疏性假设,也不要求维度与样本量之比有明确的增长条件。通过模拟和真实数据实验验证了理论结果。该工作直接连接了您在高阶U-统计量理论和高维假设检验方面的兴趣,特别是利用U-统计量构造检验统计量并证明其渐近正态性的思路。
  • 关键技术: U-statistic, central limit theorem, elliptical distribution, Frobenius norm, two-sample covariance test
  • 为什么对您有用: 本文在高维椭圆模型下建立了U-统计量的中心极限定理,直接关联您对higher-order U-statistics理论和高维假设检验的兴趣。您可以使用very_familiar的high-dimensional asymptotics工具验证其CLT的紧致性,也可以考虑扩展至更高阶U-统计量或更一般的分布族(需用到moderately_familiar的U-statistic深层理论)。这篇论文的检验框架与您熟悉的minimax bounds和nonparametric statistics视角互补,是立即可读且可启发的理论性工作。

2. 10.1214/26-ejs2526 · arXiv — Consistency of Lloyd’s algorithm under perturbations

  • 作者: Hui Shen, Dhruv Patel, Shankar Bhamidi, Vladas Pipiras, Yufeng Liu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: weaker_assumption
  • 摘要: 本文研究Lloyd算法在样本受扰动情况下的聚类一致性。假设真实样本来自子高斯混合模型,但观测样本经过预处理(如谱方法)产生扰动。作者证明,在初始化适当且扰动幅度小于子高斯噪声的条件下,Lloyd算法的误聚类率在O(log n)次迭代后指数衰减到零。该结果将Lu与Zhou(2016)的经典结论推广到更实际的扰动设定。方法上采用概率不等式和耦合论证,并导出k-means++等初始化算法的界。应用包括高维时间序列、多维缩放和稀疏网络社区检测的谱聚类管道。对您而言,本文属于统计计算中算法稳健性的理论分析,与您的主要兴趣方向联系较弱,但可作为算法收敛性分析的案例参考。
  • 关键技术: Lloyd's algorithm, sub-Gaussian mixture, mis-clustering rate, perturbation analysis, spectral clustering, exponential bound
  • 为什么对您有用: 本文属于统计计算中经典聚类算法的理论分析,与您的stat_computing兴趣(numerical methods, algorithm)有连接,但并非您的主要兴趣方向。您的武器库中 nonparametric statistics 和 high-dimensional asymptotics 可以理解其扰动分析框架,但聚类问题本身不属于您当前的研究主线。本文可视为中等相关度的计算理论文献,适合粗略浏览以了解 Lloyd 算法在扰动下的已有理论保证,但不太可能直接催生后续工作。

3. 10.1214/26-ejs2513 · arXiv — Unifying different theories of conformal prediction

  • 作者: Rina Foygel Barber, Ryan J. Tibshirani
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 本文构建了一个统一框架来理解 conformal prediction 领域中的多种方法,包括标准 CP、加权 CP、非可交换 CP 和随机局部化 CP 等。核心思想是,所有 conformal 方法都基于揭示数据的部分信息,并给定该部分信息下的条件分布假设。不同方法源于不同的部分信息选择以及相应的(近似)条件分布。该框架不仅恢复并统一了现有结果,还导出了现有方法的新理论保证以及方法的新扩展。具体而言,作者通过将预测区间构造问题转化为条件分位数估计,展示了如何从统一视角推导出覆盖率的有限样本保证。这一工作为 conformal prediction 的理论基础提供了清晰的层次结构。对于您而言,本文是理解预测不确定性量化领域前沿理论的极佳入口,但与您的主要兴趣方向(因果推断、高维统计)无直接交集,可作为方法论储备阅读。
  • 关键技术: conformal prediction, weighted conformal prediction, nonexchangeable conformal prediction, randomly-localized conformal prediction, exchangeability, partial information conditioning
  • 为什么对您有用: 本文属于预测推断的方法论综合,统一了多种 conformal prediction 变体,但未直接涉及因果推断、高维统计或半参效率理论等您的主要兴趣方向。从技术武器库看,您的非参统计基础有助于理解其理论框架,但核心的交换性论证和条件分布构造并非您熟悉的工具(如 treewidth 或高阶 U-统计量),因此暂不可做。本文可作为 gateway reading 扩展视野,但投入全文深读的优先级较低。

4. 10.1214/26-ejs2519 · arXiv — An omnibus embedding of multiple random graphs and implications for multiscale network inference

  • 作者: Keith Levin, Avanti Athreya, Minh Tang, Vince Lyzinski, Youngser Park, Carey E. Priebe
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文提出了一种面向多个随机图的联合嵌入方法(omnibus embedding),可将共享顶点集的多个图同时映射到同一低维潜空间,从而简化图之间的比较与多尺度网络推断。该方法通过将各邻接矩阵堆叠成块矩阵并执行奇异值分解(SVD),得到每个图的潜表示,其理论框架基于随机点积图(Random Dot Product Graph)模型。理论贡献包括参数估计的一致性(随图规模增大收敛至真值)和中心极限定理(CLT),为后续的假设检验及图级/顶点级差异识别提供了渐近分布基础。模拟实验表明,当图生成结构相同时嵌入的估计精度接近最优,而图结构不同时仍能保持足够区分能力。在真实神经科学数据中,该方法成功识别出与病理变化相关的特定脑区,验证其实用价值。对您而言,本文的谱嵌入与高维随机矩阵理论紧密相关,您熟悉的高维渐近分析可直接用于验证其收敛性质,同时SVD计算也与您的统计计算兴趣吻合。
  • 关键技术: omnibus embedding, random dot product graph, joint spectral embedding, central limit theorem, singular value decomposition, multiscale network inference
  • 为什么对您有用: 本文的谱嵌入方法连接了您对高维统计(随机矩阵谱分析)的兴趣。您非常熟悉的高维渐近理论(very_familiar中的high-dimensional asymptotics)可直接用于严格推导该嵌入的收敛速率和CLT;同时,您的minimax bounds工具可用于评估该方法在异质图下的估计最优性。立即可做:您对谱方法和渐近分析的掌握足以立即理解并可能改进该框架,例如将高阶U统计量的张量网络计算(treewidth/einsum)应用于多图联合推断的更高阶统计量设计。

5. 10.1214/26-ejs2510 · arXiv — Parametric estimation and LAN property of the birth-death-move process with mutations

  • 作者: Lisa Balsollier, Frédéric Lavancier
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Sapir College · Laboratoire de Mathématiques Jean Leray · Centre for Research in Engineering Surface Technology · Centre de Recherche en Économie et Statistique · Center for Responsible Travel
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究带有突变的分支-死亡-移动过程(birth-death-move process with mutations)的参数估计问题,该过程是一个标记粒子系统在时间上演化,包含移动、出生、死亡以及标记突变。在参数模型假设下,推导了似然函数的显式表达式,并证明了模型满足局部渐近正态性(LAN)性质,从而得到最大似然估计的渐近效率、正态分布以及协方差矩阵的显式形式。验证了几类自然参数设定下技术假设的成立条件。作为应用,使用该模型分析了活细胞中两种蛋白质(涉及胞吐作用)的联合动力学,量化了共定位现象,回答了微生物学中的重要问题。该工作属于经典渐近理论在点过程模型中的推广,其LAN性质直接支撑了参数假设检验与置信区间构造。对您的数据统计与假设检验兴趣来说,本文展示了如何将LAN框架应用于复杂演化过程,但模型类型(点过程)与您目前主要关注的高维、因果推断等方向距离较远。
  • 关键技术: Local asymptotic normality (LAN), Maximum likelihood estimation, Marked point process, Likelihood derivation for spatial-temporal processes, Martingale estimating equations
  • 为什么对您有用: 本文与您'数学统计与假设检验'兴趣中的参数渐近理论直接相关,LAN性质是局部最优检验的基础。技术武器库中'moderately_familiar'的'M-estimation theory'可用于理解其MLE的渐近论证,但点过程本身的工具不在当前武器库内。总的来说是早期可读的经典渐近方法案例,但因模型类型差距较大,属于'中期可做':需要先补点过程知识和马尔可夫跳过程的基础,才能将LAN论证迁移到类似模型。

6. 10.1214/25-ejs2480 — A note on the limit theorems for hitting times of path-dependent functionals of Itô semimartingales

  • 作者: Yifan Li
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Manchester University
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: minor
  • 摘要: 本文研究连续Itô半鞅的路径依赖泛函的hitting times计数的渐近性质。在固定时间窗内,证明了hitting times计数可用于构造二次变分的一致且渐近正态的估计量。该估计量相比传统的realized variance方法可实现显著的方差降低(即更高的统计效率)。技术核心依赖于鞅中心极限定理和连续半鞅的随机分析工具。虽然方向与您的主流兴趣(因果推断、高维U统计、半参效率)距离较远,但方差比较与极限定理的方法论对理解更高效的估计量设计有一定参考价值。
  • 关键技术: hitting times, Itô semimartingale, quadratic variation estimation, martingale central limit theorem, variance reduction, path-dependent functional
  • 为什么对您有用: 本文属于连续时间随机过程的渐近理论,与您的primary interests(因果推断、高维U统计、半参效率)无直接关联。technical_arsenal中的非参数统计和渐近理论虽可用于理解极限展开,但核心的连续时间随机分析工具(局部时、随机积分)不在您熟悉的武器库中。Follow-up判断:暂不可做,因为需要深入学习连续时间过程理论,这并非您的技术储备方向。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论