跳转至

EJS — Vol 20 Issue 1 · 2026-05-18

  • 共 48 篇 · Electronic Journal of Statistics

因果推断 (causal_inference, 7 篇)

1. 10.1214/26-ejs2518 — Hyperplane representations of interventional characteristic imset polytopes

  • 作者: Joseph Johnson, Benjamin Hollering, Liam Solus
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在因果发现(从数据推断 DAG 结构)的线性规划框架下,目标是刻画 characteristic imset (CIM) 多面体的超平面表示(facet description),该多面体是 DAG 对应 0/1-向量(characteristic imset)的凸包。此前一般 CIM 多面体的 facet 刻画一直未解决,本文针对底层邻接图为树(polytree)的 DAG 集合,利用 toric fiber product 理论及新提出的 interventional CIM 多面体概念,完整给出了其超平面表示。该结果作为更一般的 interventional CIM 多面体 facet 刻画定理的推论得到,同时覆盖了观测与干预数据的混合设定。基于所得 facet 不等式,作者提出了一个 LP 型因果发现算法,可从观测+干预数据学习 polytree 因果网络。对您而言,该文将代数组合方法引入因果结构学习,虽与您关注的 identification/estimation 侧重点不同,但 interventional CIM 多面体的框架对理解干预下因果发现的可行域有参考价值。
  • 关键技术: characteristic imset, toric fiber product, interventional CIM polytope, linear programming relaxation, polytree causal discovery
  • 为什么对您有用: 与您 primary interest 中的因果推断相关,但侧重因果发现/结构学习而非效应估计;interventional CIM 多面体的 facet 刻画为干预数据下的因果推断提供了新的组合优化视角,对理解因果发现可行域有间接参考价值。

2. 10.1214/26-ejs2525 — Estimation and inference for high-dimensional nonparametric additive instrumental-variables regression

  • 作者: Ziang Niu, Yuwen Gu, Wei Li
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在高维工具变量(IV)设定下,针对第一阶段存在非线性关系的情形,本文研究非参数可加IV模型的估计与推断,目标参数为保持因果解释的第二阶段线性系数。第一阶段采用非参数可加模型建模工具变量与处理变量的关系,并使用 group lasso 进行高维工具变量选择。第二阶段基于第一阶段的拟合值对结果变量进行回归,以识别和估计处理效应。理论上给出了估计误差的非渐近界,并进一步提出去偏过程以实现有效的统计推断。数值实验表明该方法优于现有高维线性IV方法,并在小鼠肥胖基因数据中展示了新发现。对您有用:该文结合了高维IV、非参数可加模型与去偏推断,对您在因果推断(IV)与效率理论(debiased ML)的交叉研究有直接参考价值,其基因数据应用也对流行病学因果分析有借鉴意义。
  • 关键技术: instrumental variables, nonparametric additive model, group lasso, non-asymptotic analysis, debiased inference
  • 为什么对您有用: 直接推进了高维IV与半参数/非参数理论的交叉研究,其去偏推断方法对您在效率理论(debiased ML)和高维因果推断方面的工作有直接参考价值,同时基因数据应用对流行病学因果推断有借鉴意义。

3. 10.1214/26-ejs2498 — Inference for heterogeneous treatment effects with efficient instruments and machine learning

  • 作者: Cyrill Scheidegger, Zijian Guo, Peter Bühlmann
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 本文在存在内生性的框架下,研究异质性处理效应(HTE)的工具变量(IV)估计问题,目标是构建具有渐近正态性且对弱工具变量稳健的置信集。作者提出基于 Double/Debiased Machine Learning (DML) 的新估计量,结合高效机器学习工具变量(MLIV)与核平滑方法。理论上,利用 DML 的 Neyman 正交性缓解非参数/机器学习第一步估计的正则化偏差,证明了估计量的一致性与 n^{-1/2}-CAN 性质。针对弱工具变量问题,文章构建了更为稳健的置信集,同时讨论了同质处理效应下 MLIV 估计量的性质。方法已在 R 包 IVDML 中实现。对您而言,该文将 DML 效率理论与 IV 因果推断结合,特别是弱 IV 稳健推断与核平滑 HTE 的半参数理论,直接契合您在因果推断 IV 方向与效率理论 DML 的核心兴趣。
  • 关键技术: double machine learning, efficient machine learning instruments, kernel smoothing, weak instrument robust inference, Neyman orthogonality
  • 为什么对您有用: 直接契合您在因果推断(IV 估计)与效率理论(DML)的核心兴趣;弱 IV 稳健推断与核平滑 HTE 的半参数渐近理论对研究内生性下的异质性因果作用有直接的方法论借鉴价值,且提供了 R 包 IVDML 便于统计计算层面的复现与迁移。

4. 10.1214/26-ejs2531 — Statistical inference with nonignorable non-probability survey samples

  • 作者: Yang Liu, Meng Yuan, Pengfei Li, Changbao Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在非概率抽样调查中,针对参与机制不可忽略(nonignorable,即MNAR)的设定,目标是利用参考概率样本的辅助信息对有限总体均值进行识别与估计。提出伪似然(pseudo-likelihood)方法估计不可忽略的参与概率,并基于此构建了回归预测、逆概率加权(IPW)和增强IPW(AIPW)三种估计量。研究了估计量的渐近性质与方差估计,其中AIPW估计量具备双重稳健性。实证分析使用了评估COVID-19影响的ESPACOV调查数据。对您有用:该文处理MNAR选择偏差的AIPW方法与因果推断中的选择偏差/缺失数据理论高度相关,且其流行病学数据集对您在流行病学应用方向有参考价值。
  • 关键技术: pseudo-likelihood, nonignorable missing (MNAR), inverse probability weighting (IPW), augmented IPW (AIPW), double robustness, survey sampling
  • 为什么对您有用: 处理不可忽略参与机制的AIPW方法直接关联因果推断中的选择偏差与缺失数据理论;同时,文中的COVID-19西班牙ESPACOV调查数据集对您在流行病学应用方向有数据集参考价值。

5. 10.1214/26-ejs2520 — Valid post-selection inference for penalized G-estimation

  • 作者: Ajmery Jaman, Ashkan Ertefaie, Michèle Bally, Renée Lévesque, Robert W. Platt, Mireille E. Schnitzer
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在高维协变量与结构嵌套均值模型(SNMM)设定下,本文研究数据驱动的效应修饰变量选择后对 proximal 处理效应进行有效推断(post-selection inference, PSI)的问题。针对惩罚 G-估计(penalized G-estimation),作者扩展了两种 PSI 方法以修正模型选择带来的不确定性,克服了基于三明治方差估计的朴素推断导致的第一类错误膨胀。理论上证明了所提方法在选择后推断中的渐近有效性。模拟研究验证了其有限样本下对第一类错误的控制优于朴素方法,并应用于终末期肾病纵向重复测量的血液透析数据。对您有用:直接关联您在因果推断(纵向 SNMM、高维效应修饰)与假设检验(post-selection inference)方面的核心兴趣,提供了高维因果模型中选择后有效推断的新方法。
  • 关键技术: penalized G-estimation, post-selection inference, structural nested mean model, effect modification, sandwich variance estimator
  • 为什么对您有用: 直接关联您在因果推断(纵向 SNMM、高维效应修饰)与假设检验(post-selection inference)方面的核心兴趣,提供了高维因果模型中选择后有效推断的新方法。

6. 10.1214/26-ejs2517 — Mediation analysis with unmeasured confounding between parallel mediators and outcome

  • 作者: Kang Shuai, Lan Liu, Yangbo He, Wei Li
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在平行中介的线性结构方程模型设定下,本文研究存在未观测中介-结局混杂时的因果参数识别与估计问题。作者引入伪代理变量(pseudo proxy variable)捕捉未观测混杂,实现了中介效应的识别;基于此识别策略,提出部分惩罚估计方法以筛选显著中介。理论上证明了估计量的相合性,且非零参数估计具有渐近正态性,同时证明了中介路径选择的大概率一致性。模拟与基因组数据应用验证了方法表现。该文将 proxy 思想引入多中介混杂识别,结合高维惩罚估计与渐近理论,直接契合您在中介分析与高维因果推断方面的核心兴趣。
  • 关键技术: pseudo proxy variable, parallel mediators, linear structural equation model, partially penalized estimation, variable selection consistency, asymptotic normality
  • 为什么对您有用: 直接契合您在因果推断(中介分析、未观测混杂的 proxy 识别)和高维统计(部分惩罚估计与变量选择一致性)方面的核心兴趣,提供了平行中介设定下 proxy 方法的识别策略与渐近理论。

7. 10.1214/26-ejs2493 — Positivity in linear Gaussian structural equation models

  • 作者: Asad Lodhia, Jan-Christian Hütter, Caroline Uhler, Piotr Zwiernik
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在线性高斯结构方程模型(SEM)对应的DAG设定下,研究系数非负约束所诱导的“正性”概念,即条件递增序列(CIS)性质。作者证明SEM系数非负等价于联合分布为CIS,而CIS要求存在一个节点排序使得非负约束成立。针对CIS排序的恢复,文中给出了无噪设定下的精确恢复算法及证明,并推广至有噪设定给出可恢复性条件。此外,刻画了CIS DAG模型的Markov等价类,并证明当CIS排序已知时,对应高斯分布族的极大似然估计(MLE)为凸优化问题。该工作为正系数高斯DAG的结构学习提供了可恢复性保证与凸估计理论,对您在因果推断中DAG结构学习与SEM参数估计的理论理解有参考价值。
  • 关键技术: linear Gaussian SEM, conditionally increasing in sequence (CIS), DAG structure learning, Markov equivalence characterization, convex maximum likelihood estimation
  • 为什么对您有用: 连接到因果推断的DAG与SEM设定,对正系数约束下的因果结构学习与凸MLE理论有直接参考价值。

高维统计 / 随机矩阵 (high_dim_rmt, 11 篇)

1. 10.1214/26-ejs2503 — Sharp bounds for multiple models in matrix completion

  • 作者: Dali Liu, Haolei Weng
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 本文研究高维矩阵补全问题,目标是在低秩假设下消除收敛率中的维度因子,从而缩小与极小极大下界的差距。作者利用一类高级矩阵集中不等式,通过更精确的谱范数分析,移除了三种常见矩阵补全估计器收敛率中的维度依赖项。该分析填补了高维设定下上下界之间的关键空白,证明了这些估计器的极小极大最优性。对您有用:直接推进了高维统计与随机矩阵理论在谱范数界与极小极大最优性方面的前沿,提供了去除维度因子的精细分析工具。
  • 关键技术: matrix concentration inequality, spectral norm analysis, minimax rate optimality, matrix completion, dimensional factor removal
  • 为什么对您有用: 直接推进了您关注的“高维统计与随机矩阵理论”方向,展示了如何利用高级矩阵集中不等式和谱范数分析消除高维收敛率中的维度依赖,获得极小极大最优的 sharp bound。

2. 10.1214/26-ejs2486 — Exact recovery in the double sparse model: Sufficient and necessary signal conditions

  • 作者: Shixiang Liu, Zhifan Li, Yanhang Zhang, Jianxin Yin
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在双重稀疏线性模型(同时具备组稀疏与元素稀疏)下,本文研究精确支持集恢复(exact support recovery)的最小信号充分必要条件。提出两阶段双重稀疏迭代硬阈值(DSIHT)算法,在所提信号条件下以适当阈值参数实现精确支持集恢复。该估计量在给定真实支持集时保持与OLS估计量一致的渐近正态性,从而具备oracle性质。反之,本文证明若违反该信号条件,任何方法均无法实现精确恢复,填补了双重稀疏模型支持集恢复的minimax最优性理论空白。数值实验验证了理论发现的相变边界。对您有用:直接推进了高维统计中稀疏模型支持集恢复的minimax理论,其oracle性质与渐近正态性结论对您关注的高维假设检验与推断有直接参考价值。
  • 关键技术: double sparse linear model, exact support recovery, iterative hard thresholding, minimax optimality, oracle property, asymptotic normality
  • 为什么对您有用: 直接推进了高维统计中双重稀疏模型的minimax最优性理论,其关于支持集恢复的相变边界与渐近正态性结论,对您关注的高维假设检验与推断有直接参考价值。

3. 10.1214/26-ejs2530 — High-dimensional convolution-smoothed quantile linear models for Hilbert manifold covariates

  • 作者: Changwon Choi
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在高维设定下,研究标量响应、协变量取值于 Riemannian Hilbert 流形上的分位数线性模型,目标是估计条件分位数函数中的 Hilbert-Schmidt 算子系数。通过谱分解将算子系数参数化为实值得分,采用卷积平滑 (convolution smoothing) 技术克服传统分位数损失的非光滑与弱凸性问题。对惩罚优化问题提出 groupwise iteratively locally adaptive majorize-minimization 算法求解,推导了初始 LASSO 估计的 ℓ₂ 和 ℓ₁ 误差界,并证明迭代估计序列的收缩性质。在惩罚函数满足 vanishing-gradient 性质时建立 strong oracle property。数值模拟与实例验证了方法实用性。该文将卷积平滑分位数回归从欧氏协变量推广至 Hilbert 流形,其高维误差界与 oracle property 分析框架可迁移至您关注的 high-dimensional statistics 与 semiparametric theory 交叉问题。
  • 关键技术: convolution smoothing, Hilbert-Schmidt operator, spectral decomposition on Riemannian manifold, group LASSO, strong oracle property, majorize-minimization algorithm
  • 为什么对您有用: 直接连接您 primary interest 中的 high-dimensional statistics(高维分位数回归的 ℓ₂/ℓ₁ 误差界与 oracle property)与 semiparametric theory(非欧流形协变量下的分位数模型),卷积平滑技术与流形谱分解的结合为高维半参数推断提供了可迁移的新工具。

4. 10.1214/26-ejs2495 — Negative moment bounds for sample autocovariance matrices of stationary processes driven by conditional heteroscedastic errors and their applications

  • 作者: Hsueh-Han Huang, Ching-Kang Ing, Shu-Hui Yu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究条件异方差误差驱动的平稳过程中,样本自协方差矩阵的负矩界(negative moment bound)。在 stationarity 与条件异方差(如 GARCH 型误差)设定下,作者建立了该矩阵负阶矩的一致上界。利用此矩界,将最小二乘预测的 MSPE 渐近分解为三项:模型复杂度、模型误设与条件异方差贡献,从而提出一种新的子集 AR 模型选择准则,证明其可渐近识别 MSPE 意义下的最优子集。模拟实验验证了理论结果。对您而言,样本自协方差矩阵的负矩界是 RMT 在时间序列中的精细工具,可直接服务于高维自协方差矩阵谱分析及推断的理论需求。
  • 关键技术: negative moment bound, sample autocovariance matrix, conditional heteroscedasticity, MSPE decomposition, subset AR model selection
  • 为什么对您有用: 直接关联您的高维统计与 RMT 兴趣:样本自协方差矩阵的负矩界是高维谱统计量推断的基础工具,且条件异方差设定放松了经典 iid 假设,为高维时间序列 RMT 理论提供了更锐的矩不等式。

5. 10.1214/26-ejs2526 — Consistency of Lloyd’s algorithm under perturbations

  • 作者: Hui Shen, Dhruv Patel, Shankar Bhamidi, Vladas Pipiras, Yufeng Liu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: new_theory
  • 摘要: 本文研究子高斯混合模型下,当输入样本受预处理(如谱方法)扰动时 Lloyd 算法的聚类一致性,目标为误聚类率在适当初始化下的指数衰减界。作者证明,若扰动量相对于子高斯噪声足够小,Lloyd 算法在扰动样本上的误聚类率在 O(log n) 次迭代后仍被指数界控制。在具有真实聚类的典型设定下,推导了 k-means++ 初始化满足该条件的概率界。该理论被用于建立 SigClust(聚类显著性检验)的统计保证,并延伸至高维时间序列、多维标度及稀疏网络社区发现(谱聚类)等场景的误聚类率保证。对您研究高维统计中的谱方法扰动分析及假设检验(聚类显著性)有参考价值。
  • 关键技术: Lloyd's algorithm, sub-Gaussian mixture, perturbation analysis, spectral clustering, SigClust
  • 为什么对您有用: 本文将聚类算法的扰动界与谱方法结合,涉及高维数据(时间序列、网络社区发现)的统计保证,对您关注的高维统计(谱聚类扰动)与假设检验(SigClust 显著性)有直接的方法论借鉴意义。

6. 10.1214/26-ejs2523 — Random interval distillation for detection of change-points in Markov chain Bernoulli networks

  • 作者: Xinyuan Fan, Weichi Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 本文研究动态 Markov 链 Bernoulli 网络中的多变点检测与定位问题,设定为低秩网络结构。提出了一种名为随机区间蒸馏(RID)的新方法,通过收集具有足够信号强度的随机区间并重组为信息短区间,结合稀疏通用奇异值阈值(SUSVT)进行检测。该方法基于邻接矩阵 CUSUM 的算子范数构建检验统计量,无需样本分割或最小间距的先验知识即可运行。理论上证明了 RID 在检测和定位界上均达到了近乎极小极大最优性。实践中引入了基于聚类的数据驱动程序来确定最优信号阈值。该工作将算子范数与 CUSUM 结合的策略,对您在高维统计中利用随机矩阵理论进行假设检验与变点检测的研究具有直接参考价值。
  • 关键技术: random interval distillation (RID), operator norm of CUSUM, sparse universal singular value thresholding (SUSVT), minimax optimality, low-rank dynamic network
  • 为什么对您有用: 本文利用邻接矩阵 CUSUM 的算子范数(随机矩阵理论核心工具)实现高维网络变点检测的极小极大最优率,直接契合您在“高维统计与随机矩阵理论”及“假设检验”方向的核心兴趣,提供了无需样本分割的新颖检验构造思路。

7. 10.1214/26-ejs2529 — Model selection for unit-root time series with many predictors

  • 作者: Shuo-Chieh Huang, Ching-Kang Ing, Ruey S. Tsay
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 本文研究带有大量外生预测变量的单位根时间序列模型选择问题,在允许特征根位置与重数未知及条件异方差的设定下进行。提出FHTD算法,结合逐步向前回归(FSR)、高维信息准则(HDIC)、基于HDIC的向后消除及数据驱动阈值(DDT)方法。理论上证明了FSR的sure screening性质与FHTD的选择一致性。核心技术贡献包括证明多元线性过程的泛函中心极限定理,以及给出样本协方差矩阵最小特征值的均匀下界。模拟与美国房屋开工与失业率数据的实证验证了FHTD的优越性。对您有用:其中关于样本协方差矩阵最小特征值均匀下界的证明思路,可为您在高维统计与随机矩阵理论中的相关研究提供技术参考,且实证部分契合经济理论的数据应用兴趣。
  • 关键技术: high-dimensional information criterion, sure screening property, functional central limit theorem, minimum eigenvalue lower bound, forward stepwise regression
  • 为什么对您有用: 样本协方差矩阵最小特征值均匀下界的技术贡献与高维统计/随机矩阵理论直接相关,可提供矩阵理论证明思路;实证应用契合经济理论的时序数据兴趣。

8. 10.1214/26-ejs2505 — Fair Community Detection and Structure Learning in Heterogeneous Graphical Models

  • 作者: Davoud Ataee Tarzanagh, Laura Balzano, Alfred O. Hero
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在异构图模型设定下,当节点具有人口统计属性时,传统社区检测可能违反公平性约束(某些群体在特定社区过度/不足代表)。本文假设真实图存在社区结构,提出一种 ℓ1-正则化伪似然方法,以同时学习稀疏无向图及其满足公平约束的社区。当图结构已知时,进一步提出一种凸半定规划(SDP)方法进行公平社区检测。针对高斯图模型和 Ising 模型(分别对应连续与二元数据),本文证明了所提方法在恢复图结构与公平社区上的统计一致性(高概率恢复)。核心技术工具包括 ℓ1-正则化伪似然、凸半定规划以及高维稀疏估计的一致性理论。对您而言,本文的高维稀疏图模型一致性证明和凸优化算法设计,可为高维统计与统计计算方向提供带约束下高维估计与 SDR 求解的参考。
  • 关键技术: ℓ1-regularized pseudo-likelihood, convex semidefinite programming, fair community detection, sparse graphical model selection, statistical consistency
  • 为什么对您有用: 本文涉及高维稀疏图模型的一致性理论与凸优化计算,与您的高维统计和统计计算兴趣有方法学重叠,可提供带公平约束下高维估计一致性与 SDP 算法设计的参考。

9. 10.1214/26-ejs2515 — ℓ1-regularized generalized least squares

  • 作者: Kaveh S. Nobari, Alex Gibberd
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在高维回归设定下,当误差项服从自回归(AR)过程时,研究 ℓ1 正则化广义最小二乘 (GLS-LASSO) 估计量的性质,假设设计矩阵为 sub-Gaussian 随机设计。提出三步 feasible 估计程序:先做 LASSO 回归,对残差拟合 AR 模型,再对旋转(白化)后的数据做第二阶段 LASSO。理论分析了旋转对设计矩阵条件的影响及其对估计误差界的作用,证明了在误差存在 AR 结构时,所提估计量的误差界小于未调整的 LASSO;当误差为白噪声时,其表现与 LASSO 相当。对您的高维统计研究有用,特别是处理时间序列或空间数据中的高维回归时,提供了一种在自相关误差这一更弱假设下获得更小估计误差的可行方法与理论保证。
  • 关键技术: ℓ1-regularized GLS, feasible GLS-LASSO, autoregressive error process, sub-Gaussian random design, data whitening/rotation
  • 为什么对您有用: 直接关联您的高维统计兴趣,针对高维回归中误差自相关这一更弱假设,提供了比标准 LASSO 更优的估计误差界与可行算法。

10. 10.1214/26-ejs2499 — Two-sample covariance inference in high-dimensional elliptical models

  • 作者: Nina Dörnemann
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在高维广义椭圆模型下,提出两样本协方差矩阵检验,目标参数为两总体协方差矩阵之差的 Frobenius 范数平方。检验统计量基于 Li and Chen (2012) 的 U-statistic 估计量,该估计量原在独立成分模型下提出。核心理论贡献:在椭圆分布数据下建立该 U-statistic 的新中心极限定理,在原假设与备择假设下均成立,从而实现渐近水平控制与功效分析。该方法不要求协方差矩阵稀疏性,也不需维度-样本量比率的显式增长条件,据作者所知是首个在椭圆数据下有理论保证的此类检验。对您有用:直接推进高维协方差检验与高阶 U-statistic 理论的交叉,其 CLT 证明技术可迁移至您关注的 U-statistic 投影与高维 inference 问题。
  • 关键技术: U-statistic estimator of squared Frobenius norm, central limit theorem for U-statistics under elliptical data, two-sample covariance matrix test, generalized elliptical model, high-dimensional inference without sparsity
  • 为什么对您有用: 同时命中您的高维统计(RMT)、高阶 U-statistic 和假设检验三个 primary interest:在椭圆分布下给出 U-statistic 的新 CLT,放松了独立成分假设,为高维协方差检验提供了更广适用性的理论工具。

11. 10.1214/26-ejs2496 — On ridge estimation in high-dimensional rotationally sparse linear regression

  • 作者: Libin Liang, Zhiqiang Tan
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: sharper_rate
  • 摘要: 本文在旋转稀疏高维线性回归设定下研究岭估计的预测误差,其中响应信号仅与少数具有spiked方差的协变量对齐,其余协方差具有tail方差。通过区分tail方差有效秩与样本量n之比的两个不同regime,利用concentration inequality推导了out-sample和in-sample预测误差的高概率上下界,无需以往工作中的oracle假设或独立成分假设。基于所得误差界,首次给出了岭估计预测误差达到O(d/n)阶的充分必要条件:spiked与tail方差之间的差距必须足够大。此外,比较了最优out-sample与in-sample预测误差的阶,发现最优out-sample预测误差可能显著小于in-sample预测误差这一新现象。该研究对您理解高维统计与随机矩阵理论中spiked covariance model下的岭回归极值行为及预测误差界有直接参考价值。
  • 关键技术: ridge regression, spiked covariance model, concentration inequality, high-probability error bounds, effective rank
  • 为什么对您有用: 直接推进了高维统计与随机矩阵理论中spiked model下岭估计的预测误差理论,提供了无需oracle假设的sharper rate和新现象,对您的高维统计与RMT研究有重要参考价值。

非参数 / 半参数 (nonparam_semipara, 12 篇)

1. 10.1214/26-ejs2522 — High-dimensional partial linear model with trend filtering

  • 作者: Sang Kyu Lee, Erikka Loftfield, Hyokyoung G. Hong, Haolei Weng
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维部分线性模型设定下,线性部分具有高维稀疏系数,非参数部分函数的导数具有有界变差,目标是实现两者的联合估计。本文提出 partial linear trend filtering 方法,采用基于 ℓ1 惩罚与全变差(TV)惩罚的双重惩罚最小二乘法。该方法不仅计算高效,且对非参数函数的估计达到了最优误差率,进而使线性部分估计达到 oracle rate(如同真实非参数函数已知)。理论证明,当底层函数具有异质平滑性时,该方法优于传统的平滑样条方法。实证部分将该方法应用于 IDATA 流行病学数据,识别与超加工食品摄入相关的关键代谢物。该研究结合了高维稀疏结构与半参数模型,其 oracle rate 的推导对您的高维半参数估计与效率理论研究有直接参考价值,流行病学数据应用也契合您的 secondary interest。
  • 关键技术: partial linear model, trend filtering, total variation penalty, doubly penalized least squares, oracle rate, heterogeneous smoothness
  • 为什么对您有用: 结合了高维统计与半参数理论,推导了非参数最优误差率与线性部分的 oracle rate,直接契合您在半参数效率与高维推断方面的 primary interest;同时其流行病学(IDATA)数据应用也符合您的 secondary interest。

2. 10.1214/26-ejs2484 — Lower bounds for nonparametric estimation of ordinary differential equations

  • 作者: Christof Schötz, Maximilian Siebel
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 研究在带噪声观测下非参数估计常微分方程 (ODE) u̇=f(u) 的问题,其中状态空间维度为 d,未知模型函数 f 属于 Hölder 平滑类(参数 β)。考虑两种互补设定:“snake” 模型(少数长轨迹)与 “stubble” 模型(多数短轨迹),分别推导了估计 f 的极小化极大下界。证明了在最优渐近机制下,两种模型的平方误差收敛率一致,关于总观测数 n 的指数为 -2β/(2(β+1)+d)。为推导此结果,建立了一个适用于一般非参数回归问题下界的 master theorem,统一并简化了证明过程。结果在部分设定下达到了极小化最优率。对您有用:直接推进了您关注的非参数理论中的极小化极大速率研究,且 master theorem 技术可迁移至其他非参数下界证明。
  • 关键技术: minimax lower bounds, Hölder smoothness class, ODE nonparametric estimation, snake and stubble models, master theorem for lower bounds
  • 为什么对您有用: 直接推进了您关注的非参数理论中的极小化极大速率研究,且其提出的非参数下界 master theorem 可作为通用工具迁移至其他非参数估计问题的理论分析中。

3. 10.1214/26-ejs2516 — Kullback-Leibler excess risk bounds for exponential weighted aggregation in generalized linear models

  • 作者: The Tien Mai
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 本文研究广义线性模型(GLM)中的稀疏聚合问题,目标是在指数族分布假设下,用预测变量的稀疏线性组合逼近真实参数向量。作者证明指数加权聚合(exponential weighted aggregation)方案在 Kullback-Leibler 风险下达到 leading constant 等于 1 的 sharp oracle inequality,同时获得聚合的 minimax 最优速率。进一步,文章建立了超额风险的高概率界(high-probability bounds),强化了有限样本下的理论保证。核心工具包括 PAC-Bayes 型界和指数权重的后验分布分析。对您有用:该工作在 GLM 框架下给出 sharp oracle inequality 与 minimax rate 的完整刻画,与您关注的 semiparametric/nonparametric 理论及 efficiency theory(minimax 最优性)直接相关,sharp constant 的结果可为类似聚合或 model selection 问题提供参考界。
  • 关键技术: exponential weighted aggregation, sharp oracle inequality, Kullback-Leibler risk, minimax rate of aggregation, PAC-Bayes bound, generalized linear models
  • 为什么对您有用: 与您 primary interest 中的 semiparametric/nonparametric 理论和 efficiency theory(minimax 最优速率)直接相关;sharp oracle inequality 的 leading constant = 1 结果可为聚合/模型选择问题提供更紧的理论界参考。

4. 10.1214/26-ejs2491 — Non-parametric estimation for the stochastic wave equation

  • 作者: Eric Ziebell
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文在由时空白噪声驱动的随机波动方程框架下,基于局部观测方案,对空间依赖的波速进行非参数估计。作者提出了一种增强最大似然估计器,并在观测分辨率趋于零时证明了其渐近正态性。研究发现,观测Fisher信息的期望和方差与对应确定性波动方程中的动能存在内在联系。此外,利用渐近Riemann-Lebesgue算子的概念,证明了渐近能量均分原理。该研究揭示了SPDE参数估计中Fisher信息与物理动能的深刻联系。对您而言,虽然应用领域较远,但其非参数估计的渐近正态性证明和Fisher信息分析技术,可为处理复杂依赖结构下的非参数理论提供参考。
  • 关键技术: augmented maximum likelihood estimator, stochastic wave equation, asymptotic normality, observed Fisher information, asymptotic Riemann-Lebesgue operators
  • 为什么对您有用: 涉及非参数估计的渐近正态性与Fisher信息分析,与您关注的非参数/半参数理论有方法学重叠,可借鉴其在复杂依赖结构(SPDE)下处理局部观测与信息界的技术思路。

5. 10.1214/26-ejs2501 — Consistency of nonparametric density estimators in CAT(0) orthant space

  • 作者: Yuki Takazawa, Tomonari Sei
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文研究 CAT(0) 正交空间(包含 Billera-Holmes-Vogtmann 系统发育树空间)上的非参数密度估计一致性问题,estimand 为树空间上的概率密度函数。作者将 log-concave 逼近技术推广至 CAT(0) 正交空间,利用 log-concave 投影映射的连续性证明了 log-concave MLE 的一致性;同时对核密度估计器进行边界偏差修正,借助经验过程理论建立了一致一致性。两种方法在此类非正曲率度量空间上的理论性质此前基本未被探索。主要贡献是将经典非参数密度估计理论从欧氏空间推广至具有分片线性结构的 CAT(0) 空间。对您而言,若关注非参数理论在非标准度量空间上的推广或经验过程理论的应用,本文提供了技术参考,但与您核心的效率理论/因果推断方向距离较远。
  • 关键技术: kernel density estimation with boundary correction, log-concave maximum likelihood estimation, CAT(0) metric space geometry, empirical process theory, log-concave projection continuity
  • 为什么对您有用: 与非参数理论(primary interest)有方法学重叠——经验过程理论证明一致一致性、log-concave 投影连续性——但设定为系统发育树空间,与您关注的效率界/半参数理论方向距离较远,技术可迁移性有限。

6. 10.1214/26-ejs2512 — Statistical learnability of smooth boundaries via pairwise binary classification with deep ReLU networks

  • 作者: Hiroki Waida, Takafumi Kanamori
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 3/10 · novelty: new_theory
  • 摘要: 在 pairwise binary classification 设定下研究有序多重光滑边界(ordered multiple smooth boundaries)的非参数可学习性,其中观测对象为成对协变量及其二元关系变量,而非传统的单协变量-响应配对。核心难点在于光滑子集序的非识别性(non-identifiability),导致泛化性与可学习性之间存在 gap。作者提出基于给定向量值函数类的 localization argument 来直接处理该非识别性问题,并在局部化 deep ReLU network 类上定义 pairwise 分类算法。理论结果证明了在 localization 条件下,部分有序多重光滑边界可通过该算法被 learn,给出了可学习性的充分条件。对您研究 nonparametric theory 中边界估计与识别性问题的理论工具有参考价值,localization argument 的证明技巧或可迁移至其他非识别性场景。
  • 关键技术: pairwise binary classification, deep ReLU networks, localization of vector-valued function class, non-identifiability of boundary order, statistical learnability
  • 为什么对您有用: 直接关联 primary interest 中的 nonparametric theory:光滑边界的非参数估计与可学习性分析;localization argument 处理非识别性的证明策略对其他半参数/非参数模型中的 identification 问题有方法学迁移价值。

7. 10.1214/26-ejs2489 — Analysis of the expected L2 error of an over-parametrized deep neural network estimate learned by gradient descent without regularization

  • 作者: Selina Drews, Michael Kohler
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: weaker_assumption
  • 摘要: 在有界协变量的非参数回归设定下,本文研究过参数化深度神经网络经梯度下降(无显式正则化)学习后估计量的期望 L2 误差。作者证明在合适的网络初始化、梯度下降步数与步长条件下,无正则化项的估计量具有普遍一致性(universal consistency)。当回归函数满足 Hölder 指数 1/2 ≤ p ≤ 1 的光滑条件时,L2 误差收敛速率约为 n^{-1/(1+d)};而在交互模型(回归函数为若干 d* 元 Hölder 光滑函数之和)下,所得收敛速率不依赖于全输入维度 d。核心技术手段是利用早停梯度下降的隐式正则化效应替代显式惩罚项,从而在放松假设的前提下恢复此前正则化估计的理论保证。该工作与您的非参数理论兴趣相关:交互模型下维度无关的 rate 对高维非参估计有参考价值,但整体 rate 并非 minimax optimal。
  • 关键技术: over-parametrized deep neural network, gradient descent without regularization, Hölder smoothness, interaction model, universal consistency, early stopping as implicit regularization
  • 为什么对您有用: 与您 primary interest 中的 nonparametric theory 相关:去掉了此前正则化 DNN 估计所需的显式惩罚假设(weaker assumption),交互模型下维度无关 rate 对高维非参设定有启发;但收敛率非 minimax optimal,理论深度有限。

8. 10.1214/26-ejs2482 — Statistical learning on measures: An application to persistence diagrams

  • 作者: Olympio Hacquard, Gilles Blanchard, Clément Levrard
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 在输入数据为紧空间上测度(而非有限维向量)的二分类监督学习设定下,目标是构建基于测度的分类器并分析其泛化界。通过将紧空间上的基分类器类 F 提升到测度空间,作者给出了提升后分类器类的 Rademacher 复杂度的上下界,且该界可直接由基类 F 的对应量显式表达。当测度为有限集上的均匀测度时,该问题退化为多示例学习(multi-instance learning),但此框架允许更灵活的输入数据结构。文章重点将此框架应用于拓扑数据分析中的持续图(persistence diagrams),将其视作 R^2 上的离散测度进行分类。该工作为测度空间上的分类器提供了严格的 Rademacher 复杂度上下界;对您而言,其非参数学习理论(Rademacher 复杂度界)的推导思路可迁移至非参数理论兴趣,且持续图等拓扑描述子在 astrostatistics 中有潜在应用场景。
  • 关键技术: Rademacher complexity bounds, measure-valued inputs, topological data analysis, persistence diagrams, multi-instance learning
  • 为什么对您有用: 涉及非参数理论中的 Rademacher 复杂度上下界推导,且持续图等拓扑描述子在 astrostatistics 中有应用潜力,可提供方法学迁移与数据集思路。

9. 10.1214/26-ejs2507 — Generative semi-supervised classification

  • 作者: Tong Wang, Shanshan Song, Guohao Shen, Yuanyuan Lin, Jian Huang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文在半监督分类设定下,提出一种基于深度生成模型的非参数估计方法,目标是在标注样本稀缺时利用无标注样本提升条件类别概率(CCP)的估计精度。核心思想是将学习 CCP 函数等价转化为学习条件生成器函数,从而构建一个自然融合标注与无标注信息的目标函数。方法利用深度神经网络的逼近能力对分类器和条件生成器进行非参数逼近,并证明了在适当正则条件下估计量的一致性与特定度量下的收敛性。数值研究表明,该方法在小标注样本场景下显著优于现有半监督及纯监督方法。对您而言,该文将深度生成模型与非参数收敛理论结合的框架,可为半监督因果推断中利用无标注数据提升效率或统计计算中的算法设计提供参考。
  • 关键技术: deep generative model, semi-supervised classification, nonparametric convergence rate, deep neural network approximation, conditional class probability
  • 为什么对您有用: 涉及非参数理论(DNN 逼近与收敛率)与统计计算,其利用无标注数据提升估计精度的半监督思想与您关注的半参数效率理论(如 unlabeled data 在 causal inference 中的效率提升)有方法论上的共通性。

10. 10.1214/26-ejs2509 — Skeleton regression: A graph-based approach to estimation with manifold structure

  • 作者: Zeyu Wei, Yen-Chi Chen
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在协变量位于低维流形附近(含噪声或多流形并集)的设定下,目标是估计非参数回归函数。方法首先构造图表示(skeleton)捕捉底层几何结构,然后在图上定义度量,结合基于图的特征变换与非参数回归技术进行估计。文章讨论了一般度量空间(如 skeleton graph)下非参数回归子的局限性,并为所提方法提供了统计保证(如收敛率)。该框架在处理多流形并集、加性噪声和噪声观测时具有额外优势。对您有用:直接关联您的非参数理论兴趣,特别是流形假设下非参数回归的收敛率分析及度量空间上的统计保证。
  • 关键技术: skeleton graph, nonparametric regression, manifold learning, metric space regression, graph-based feature transformation
  • 为什么对您有用: 关联您的非参数理论兴趣,特别是流形假设下非参数回归的收敛率分析及度量空间上的统计保证,提供了一种处理多流形与噪声的新图方法视角。

11. 10.1214/26-ejs2487 — Robust Bayesian inference for measurement error misspecification: The Berkson and classical cases

  • 作者: Charita Dellaporta, Theodoros Damoulas
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在 Classical 与 Berkson 测量误差模型下,目标是在误差分布或方差假设误设时仍稳健地进行回归及因果效应推断,无需重复测量。作者提出 Bayesian Nonparametric Learning 框架,通过 Dirichlet Process (DP) 先验中心测度的不同设定统一处理两类误差模型,并允许依回归类型灵活选择损失函数。基于 Maximum Mean Discrepancy (MMD) 损失给出泛化误差界,可推广至非高斯误差与非线性协变量-响应关系,放松了传统方法中误差分布已知或需重复测量的强识别假设。实证表明在含 Berkson 或 Classical 误差的真实数据上优于现有方法。对您研究因果推断中测量误差对 ATE 估计的影响及 semiparametric 稳健推断有直接参考价值,尤其是 DP 先验中心测度设定与 MMD 界的技术路线可迁移至 proximal CI 中 negative control 测量误差场景。
  • 关键技术: Bayesian Nonparametric Learning, Dirichlet Process prior centering measure, Maximum Mean Discrepancy (MMD) generalization bound, Berkson measurement error model, classical measurement error model, robustness to prior misspecification
  • 为什么对您有用: 直接关联因果推断中测量误差对因果效应估计的干扰问题;DP 先验中心测度统一两类误差模型的思路及 MMD 泛化界可为 proximal CI 中 negative control 设定下的测量误差稳健推断提供新方法路径。

12. 10.1214/25-ejs2481 — Uniform Bahadur representation of the backfitting estimator for additive quantile models and its applications

  • 作者: Efang Kong, Lan Wang, Yichao Wu
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 本文研究非参数可加分位数回归(AQR)模型下 Backfitting (BF) 估计量的渐近性质,目标是在常规正则条件下建立其 Bahadur 表示的强一致收敛率。作者证明了 BF 估计量(包含两阶段估计为特例)的 Bahadur 表示,并对其高阶余项实现了严格的一致控制。该结果是 AQR 模型统计推断的基础,使得将 BF 估计量作为插件(plug-in)代入其他泛函时仍能保证有效推断。文中给出两个应用:部分线性 AQR 模型参数估计的 n^{-1/2}-相合性,以及非参数 AQR 的结构恢复。对您有用:Bahadur 表示是半参数效率理论和高阶渐近的核心工具,本文对高阶余项的一致控制技巧可直接迁移到您关注的半参数泛函 influence function 推导与推断中。
  • 关键技术: Bahadur representation, additive quantile regression, backfitting estimator, uniform consistency, higher-order remainder control, partially linear model
  • 为什么对您有用: 直接关联您 primary interest 中的非参数/半参数理论与高阶渐近性质;Bahadur 表示的高阶余项控制是推导 influence function 和证明 n^{-1/2}-相合性的关键技术,对您研究半参数效率界和泛函推断具有直接参考价值。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1214/26-ejs2510 — Parametric estimation and LAN property of the birth-death-move process with mutations

  • 作者: Lisa Balsollier, Frédéric Lavancier
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究带突变的生灭移动过程(birth-death-move process with mutations)的参数估计问题,该模型描述了交互标记粒子的马尔可夫演化,假设参数化设定。作者推导了该模型的似然函数表达式,并证明了其局部渐近正态性(LAN property)。基于 LAN 性质,推导了最大似然估计(MLE)的渐近分布与渐近有效性,并给出了其协方差矩阵的显式表达式。文中验证了若干自然参数化设定满足所需的正则条件。实证部分将模型应用于活细胞中两种蛋白质的联合动力学分析,量化了共定位现象。对您而言,本文在特定空间点过程下严格证明了 LAN 性质与 MLE 的渐近有效性,可为研究复杂随机过程的 efficiency theory 提供理论参考。
  • 关键技术: Local Asymptotic Normality (LAN), Maximum Likelihood Estimation (MLE), asymptotic efficiency, spatial point processes, birth-death-move process
  • 为什么对您有用: 涉及您 primary interest 中的 efficiency theory(LAN 性质与 MLE 的渐近有效性推导),虽然模型是参数化的空间点过程而非半参数,但其 LAN 证明与协方差矩阵显式推导的技术对研究复杂随机过程的渐近效率有参考价值。

数理统计 / 假设检验 (hypothesis_testing, 11 篇)

1. 10.1214/26-ejs2511 — The existence of unbiased hypothesis tests: An algebraic approach

  • 作者: Andrew McCormack
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 本文研究离散统计模型中严格无偏假设检验的存在性问题,关注零假设空间与备择假设空间在有限样本下的可分离性。核心结论是将无偏检验的存在性等价于一个代数判据:存在无偏检验当且仅当存在一个多项式能够分离零假设集与备择假设集,这给具有无偏检验的零假设类施加了强半代数限制。分离多项式的最小次数恰好对应实现无偏检验所需的最小样本量,即无偏阈值(unbiasedness threshold)。通过 Gröbner 基技术,可以给出无偏阈值的上界甚至在多数情况下精确求解该阈值。文章还探讨了 UMPU 检验的存在性如何敏感地依赖于检验水平和样本量,并在列联表、对数线性模型和混合模型中给出了构造性示例。对您而言,该文将代数几何工具引入假设检验有限样本理论,为数学统计与统计计算(Gröbner 基算法)的交叉提供了新颖视角。
  • 关键技术: strict unbiasedness, polynomial separation, semialgebraic geometry, Gröbner basis, unbiasedness threshold
  • 为什么对您有用: 直接契合您在数学统计(假设检验)方向的兴趣,且利用 Gröbner 基等计算代数工具构造检验与求解有限样本阈值,对统计计算与算法设计有直接启发。

2. 10.1214/26-ejs2527 — Efficiency of pattern-based independence test

  • 作者: Ludwig Baringhaus, Rudolf Grübel
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究基于模式(pattern)的独立性检验的局部渐近相对效率与极限零分布,设定为连续随机变量间的独立性假设检验,核心关注基于排列模式的统计量。文章扩展了离散数学中拟随机性(quasi-randomness)与检验相合性的联系,涵盖长度为2(Kendall's tau)、4(Bergsma-Dassios)及5(Hoeffding)等模式的检验。作者给出了这些模式检验统计量在零假设下极限分布的完整解析刻画。在功效分析方面,推导了各检验的局部渐近相对效率(ARE),以量化不同模式长度对检验效能的影响。理论结果与模拟均表明不同模式检验在局部备择假设下具有明确的效率差异。对您可能有用:本文将高阶U统计量与渐近效率理论结合,直接契合您对假设检验、效率理论及高阶U统计量的核心兴趣,为理解非参数独立性检验的效率界提供了严格的理论参考。
  • 关键技术: pattern-based independence test, local asymptotic relative efficiency, quasi-randomness, limiting null distribution, U-statistic, copula
  • 为什么对您有用: 直接契合您在假设检验、效率理论(局部渐近相对效率)及高阶U统计量方面的核心兴趣,为非参数独立性检验的效率比较提供了严格的理论框架与具体计算。

3. 10.1214/26-ejs2508 — Nonparametric two-sample hypothesis testing for low-rank random graphs of differing sizes

  • 作者: Joshua Agterberg, Minh Tang, Carey Priebe
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在广义随机点积图(GRDPG)框架下,本文研究不同规模网络的非参数两样本检验问题,假设网络边独立且由低秩概率矩阵生成。提出的检验统计量基于图嵌入行向量的最大均值差异(MMD),并利用最优传输估计旋转矩阵以对齐不同规模网络的潜变量表示。理论分析了该统计量在不同图稀疏度条件下的收敛性质,证明了在足够稠密的图上经适当缩放后的检验具有相合性。该方法避免了参数化假设,直接在潜空间进行非参数分布比较。对您有用:直接契合您对非参数假设检验的兴趣,且最优传输对齐与MMD结合的思路可迁移至其他高维/流形数据的两样本检验问题。
  • 关键技术: generalized random dot product graph, maximum mean discrepancy, optimal transport alignment, spectral embedding, sparsity regimes
  • 为什么对您有用: 直接契合您在数学统计中的假设检验与非参数理论兴趣;最优传输对齐与MMD结合处理不同规模高维数据的思路,对高维统计与非参数检验有方法迁移价值。

4. 10.1214/26-ejs2506 — Group-weighted conformal prediction

  • 作者: Aabesh Bhattacharyya, Rina Foygel Barber
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: sharper_rate
  • 摘要: 在协变量偏移(covariate shift)下的加权保形预测(WCP)设定中,目标是当似然比仅通过有限个分组变量确定时,构建具有分布自由覆盖保证的预测区间。传统 WCP 依赖精确的似然比,而似然比的估计误差通常会导致覆盖保证退化。本文针对分组协变量偏移(如分层抽样),证明在此特殊结构下,WCP 的覆盖保证可以大幅优于现有基于似然比估计误差的一般界。核心在于有限分组结构限制了似然比估计误差对分位数构造的影响,从而获得更锐利的覆盖界。对您在因果推断中处理分布外泛化/可移植性(transportability)时的预测推断有帮助,且其分布自由的锐利界推导属于数理统计假设检验范畴。
  • 关键技术: weighted conformal prediction, covariate shift, distribution-free coverage, stratified sampling, quantile construction
  • 为什么对您有用: 协变量偏移下的分布自由推断与因果推断中的可移植性(transportability)和外推问题直接相关,且本文对覆盖界的锐利化推导属于数理统计假设检验/推断范畴,可为您提供在有限离散结构下放松假设或获得更优率的理论参考。

5. 10.1214/26-ejs2485 — Multiscale detection of practically significant changes in a gradually varying time series

  • 作者: Patrick Bastian, Holger Dette
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在逐渐变化的时间序列设定下,研究检测均值相对于基准期偏离是否超过给定阈值(即“实际显著变化”)的假设检验问题,而非传统的任意微小变点检测。现有方法功效低、依赖平滑参数选择且要求均值函数高度正则化,本文提出一种多尺度(multiscale)检验程序以克服这些限制。该方法无需选择平滑参数,且不要求均值具有平滑性假设,理论上证明了其渐近性质并验证了有限样本下的高功效。实证分析在合成数据与真实数据上展示了方法的稳健性。对您在 mathematical statistics (hypothesis testing) 和 nonparametric theory 的兴趣有直接参考价值,提供了一种在非平滑设定下无需调参的多尺度检验新思路。
  • 关键技术: multiscale testing, relevant change point detection, nonparametric hypothesis testing, gradually varying mean
  • 为什么对您有用: 直接关联您在 mathematical statistics (hypothesis testing) 和 nonparametric theory 的兴趣;提供在非平滑设定下无需调参的多尺度检验新方法,可迁移至其他非参数检验问题。
  • 作者: Fabian J. E. Telschow, Samuel Davenport
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: weaker_assumption
  • 摘要: 在神经影像等随机场数据分析中,传统基于高斯运动公式 (GKF) 与随机场理论 (RFT) 的体素推断旨在控制 FWER,但其依赖于数据足够平滑的“好格假设” (good lattice assumption)。本文指出该假设是导致传统 GKF 方法 FWER 控制保守及 cluster-size 推断假阳性膨胀的主因。作者提出 SuRF 方法,将离散格点映射到连续随机场,从而彻底移除了 good lattice assumption。理论上,该方法在任意施加的平滑度与非平稳性下,对高斯及高斯相关随机场均能提供精确的 FWER 控制。对您可能有用:本文放松了随机场假设检验中的关键正则条件,对您在数学统计(假设检验/多重检验)和非参数理论中理解随机场推断的边界有直接参考价值。
  • 关键技术: Gaussian Kinematic Formula (GKF), Random Field Theory (RFT), Familywise Error Rate (FWER), good lattice assumption, non-stationary random fields, continuous field approximation
  • 为什么对您有用: 直接关联您在数学统计(假设检验)方向的兴趣,通过放松随机场多重检验中的核心平滑假设,提供了更精确的 FWER 控制理论与方法,对非参数随机场推断有理论借鉴意义。

7. 10.1214/26-ejs2483 — Separation rates for the detection of synchronization of interacting point processes in a mean field frame. Application to neuroscience

  • 作者: Josué Tchouanti, Éva Löcherbach, Patricia Reynaud-Bouret, Etienne Tanré
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 在点过程依赖性检测的置换检验框架下,目标是给出控制 Type II 误差的非渐近分离率(separation rate)准则,设定为 M 分量均值场交互的 Hawkes 过程与抖动 Poisson 模型。核心方法是构造置换检验统计量,并在平稳机制下推导检测依赖性所需的样本量 n 的下界;关键技术工具包括均值场近似下的耦合论证与点过程的强度界。对抖动 Poisson 模型和 Hawkes 过程分别给出了具体的分离率与最小样本量下界,确保检验在有限样本下同时控制两类错误。该工作对您在 hypothesis testing 方向关注非渐近检验理论与点过程设定下的依赖性推断有直接参考价值。
  • 关键技术: permutation test, separation rate, Hawkes process, mean field interaction, non-asymptotic Type II error control, jittering Poisson model
  • 为什么对您有用: 直接关联您 primary interest 中的 hypothesis testing:提供了点过程依赖性置换检验的非渐近分离率理论,是有限样本检验功效分析的新理论结果。

8. 10.1214/26-ejs2513 — Unifying different theories of conformal prediction

  • 作者: Rina Foygel Barber, Ryan J. Tibshirani
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_theory
  • 摘要: 本文旨在为共形预测的多种变体(standard CP, WCP, NexCP, RLCP等)建立统一的理论框架,核心设定是基于数据部分信息揭示与条件分布假设。核心机制将共形方法抽象为两步:揭示数据的部分信息,并对给定该部分信息的条件分布进行(近似)建模。不同的CP方法本质上对应于不同的部分信息选择与相应的条件分布构造。在此统一视角下,文章不仅恢复并整合了现有CP方法的有限样本覆盖保证(finite-sample coverage guarantees),还为已有方法推导了新的理论界,并提出了新的CP扩展。对您有用:该框架将分布自由的预测推断与条件分布的数学结构深度关联,对您在数学统计与假设检验方向理解预测区间与检验的对偶性及理论边界具有启发价值。
  • 关键技术: conformal prediction, weighted conformal prediction, nonexchangeable conformal prediction, conditional distribution, distribution-free inference, partial information
  • 为什么对您有用: 共形预测是分布自由推断与假设检验的重要分支,本文的统一理论框架对您在数学统计与假设检验方向理解预测区间构造的底层逻辑与理论边界有直接启发。

9. 10.1214/26-ejs2528 — Testing for sufficient follow-up in cure models with categorical covariates

  • 作者: Tsz Pang Yuen, Eni Musta, Ingrid Van Keilegom
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在带分类协变量的 cure model 设定下,研究如何检验“实际充分随访”(practically sufficient follow-up)假设,即事件在研究结束后发生的概率是否极小。直接将 intersection-union test (IUT) 扩展至多协变量水平虽能保证渐近水平 α,但过于保守。本文提出一种新检验程序:在未治愈生存时间条件密度在尾部非递增的半参数假设下,仅依赖一个恰当选择的协变量取值来做检验决策。证明了新方法与 IUT 均具有渐近水平 α,模拟显示新方法功效显著提升,并在皮肤黑色素瘤数据上进行了实证演示。对您有用之处:该文为数学统计中的假设检验提供了一个放松 IUT 保守性的巧妙构造,且黑色素瘤数据对流行病学应用有参考价值。
  • 关键技术: cure model, intersection-union test, sufficient follow-up, asymptotic level alpha, non-increasing tail density
  • 为什么对您有用: 涉及数学统计中的假设检验构造(对保守的 intersection-union test 的改进)与半参数生存模型,且包含流行病学(黑色素瘤)数据集,对您在假设检验理论及流行病学应用方向有直接参考价值。

10. 10.1214/26-ejs2488 — Resampling-free inference for time series via RKHS embedding

  • 作者: Deep Ghoshal, Xiaofeng Shao
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 本文研究多变量或函数型时间序列的非参数假设检验问题(拟合优度、变点、独立性),设定在强混合与温和矩假设下。为避免传统 bootstrap/subsampling 的计算昂贵与带宽敏感性,作者提出一类基于 RKHS embedding 的核检验,结合样本分割、投影与自正则化(self-normalization)技术构造检验统计量。通过一种新的条件化技术,证明了检验统计量在原假设下具有 pivotal 的极限分布,无需重抽样即可推断,并分析了局部替代假设下的极限功效。对您有用:直接关联您对假设检验与非参数理论的兴趣,其 resampling-free 与 self-normalization 结合 RKHS 的技巧为时间序列非参数检验提供了无需调参的新思路。
  • 关键技术: RKHS embedding, self-normalization, sample splitting, strong mixing, pivotal limiting distribution, local power analysis
  • 为什么对您有用: 直接关联您对假设检验与非参数理论的兴趣,其 resampling-free 与 self-normalization 结合 RKHS 的技巧为时间序列非参数检验提供了无需调参的新思路。

11. 10.1214/26-ejs2514 — Multiple testing with anytime-valid Monte Carlo p-values

  • 作者: Lasse Fischer, Timothy Barry, Aaditya Ramdas
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在高维多重检验(如基因组成像数据)设定下,目标是控制 FDR 的同时降低 Monte Carlo 置换检验的巨大计算负担。作者将 anytime-valid permutation p-values 引入包括 BH 在内的大类多重检验程序,允许根据数据与当前拒绝数自适应地停止抽样(即动态调整置换次数)。尽管这种数据自适应停止会导致 p 值间产生依赖(破坏 BH 过程的经典 PRDS 假设),文章在温和假设下证明了该方法仍能严格控制 FDR。理论证明该方法大幅减少所需置换次数且不损失 power;在真实基因组数据上,计算时间从3天降至4分钟且增加了拒绝数。该工作直击您在 hypothesis testing 与 statistical computing 的交叉兴趣,提供了在多重检验中结合 anytime-valid inference 放松独立性假设并大幅节省计算的新思路。
  • 关键技术: anytime-valid p-values, Monte Carlo permutation tests, Benjamini-Hochberg procedure, false discovery rate control, data-adaptive stopping
  • 为什么对您有用: 直接推进您在 mathematical statistics (hypothesis testing) 和 statistical computing 的交叉兴趣;提供了在多重检验中放松 p 值独立性假设并大幅节省计算的新理论,其 anytime-valid 思想可迁移至其他高维推断场景。

统计计算 / 算法 (stat_computing, 4 篇)

1. 10.1214/26-ejs2497 — Comparing regularisation paths of (conjugate) gradient estimators in ridge regression

  • 作者: Laura Hucker, Markus Reiß, Thomas Stark
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在线性回归的岭回归框架下,本文比较了标准梯度下降/梯度流(GF)与共轭梯度法(CG)作为迭代算法最小化惩罚准则时的统计与计算性质。CG虽具有更快的数值收敛速度,但其迭代估计量的统计性质因非线性和依赖性难以分析;而GF作为线性方法,其早停的正则化性质已被熟知。本文通过一种非标准的误差分解,将CG迭代步的预测误差上界转化为特定变换迭代步数下GF的预测误差。理论结果表明,CG在整个正则化路径上的风险可由GF和岭回归的正则化路径控制,且oracle CG迭代步与GF/岭回归oracle共享至多相差常数因子的最优性。对您有用:该文将数值算法(CG)的迭代行为与统计正则化路径显式联系,对您在统计计算(数值迭代算法的统计性质)和高维早停正则化理论方面的研究有直接借鉴价值。
  • 关键技术: conjugate gradients, early stopping regularization, ridge regression, gradient flow, prediction error decomposition, regularization path
  • 为什么对您有用: 直接关联您primary interest中的统计计算(数值迭代算法)与高维统计(早停正则化),展示了如何用非标准误差分解将非线性优化算法的统计风险与线性方法的经典理论桥接,为分析复杂算法的统计性质提供了新视角。

2. 10.1214/26-ejs2504 — Solving Fredholm integral equations of the second kind via Wasserstein gradient flows

  • 作者: Francesca R. Crucinio, Adam M. Johansen
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对解为概率测度的第二类 Fredholm 积分方程,提出了一种基于 Wasserstein 梯度流的近似求解方法。核心机制是构造一个泛函,使其 Wasserstein 梯度流的极小值点对应原方程的正则化解;随后利用平均场粒子系统对该梯度流进行近似模拟,将积分方程求解转化为粒子系统的演化与采样问题。文章给出了该方法的收敛性理论保证,并通过数值实验验证了算法的有效性。此方法为概率测度空间上的积分方程数值求解提供了新思路,对您在统计计算(数值方法与算法)方面的兴趣有直接参考价值,且平均场粒子系统的模拟框架可能对非参数估计的近似推断有迁移潜力。
  • 关键技术: Wasserstein gradient flow, Fredholm integral equation of the second kind, mean-field particle system, probability measure optimization, regularized solution
  • 为什么对您有用: 直接对应您 primary interest 中的统计计算(数值方法与算法),提供了基于粒子系统和 Wasserstein 几何的积分方程求解新算法;第二类 Fredholm 方程在非参数估计和经验 Bayes 中常见,该方法具备向其他统计推断问题迁移的潜力。

3. 10.1214/26-ejs2502 — Analysis of Multiple-try Metropolis via Poincaré inequalities

  • 作者: Rocco Caprio, Sam Power, Andi Q. Wang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 本文在 Poincaré 不等式框架下研究 Multiple-try Metropolis (MTM) 算法的收敛性质,将 MTM 描述为对理想 Metropolis-Hastings 算法的重采样近似及其辅助变量实现。在关于重要性权重的矩条件下,作者推导了 MTM 与理想算法之间显式的 Poincaré 比较结果。进一步刻画了理想算法的谱隙,并在目标分布为高斯的情况下,通过比较方法证明了 MTM 的显式非渐近收敛界。该工作为 MCMC 计算中的 MTM 算法提供了基于谱隙的严格收敛保证,对您在统计计算与数值方法方向理解 MTM 的非渐近性质有直接参考价值。
  • 关键技术: Poincaré inequality, Multiple-try Metropolis, spectral gap, auxiliary variable method, non-asymptotic convergence bound, importance weighting
  • 为什么对您有用: 直接关联您在统计计算(数值方法与算法)方向的兴趣,提供了 MTM 算法基于谱隙和 Poincaré 不等式的非渐近收敛新理论,可迁移至高维 MCMC 算法分析。

4. 10.1214/26-ejs2494 — Box confidence depth: Simulation-based inference with hyper-rectangles

  • 作者: Elena Bortolato, Laura Ventura
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_method
  • 摘要: 在参数模型下,针对有限样本或渐近近似失效(如生成模型)的场景,研究基于模拟的多维参数置信域构建方法。提出 Box confidence depth 方法,通过变化输入参数进行模拟,在样本空间生成随机超矩形(box)。结合数据深度(data depth)与概率接受规则,构建参数的 Depth-Confidence Distribution,从中直接读取点估计与校准的置信集。该方法避免了传统似然计算与渐近展开,天然适配多维参数与统计量。理论与模拟表明该置信集具有校准性质且在有限样本下优于渐近近似。对您有用:此工作为统计计算与假设检验(多维置信域)提供了新的模拟推断(类 ABC)算法思路,适用于似然难计算或渐近失效的模型。
  • 关键技术: simulation-based inference, data depth, confidence distribution, approximate Bayesian computation, multivariate confidence region
  • 为什么对您有用: 连接到您的 primary interest 统计计算与假设检验(多维置信域构建);在似然不可得或渐近失效的有限样本场景下,提供了一种基于模拟与数据深度的数值推断算法思路。

流行病学 (epidemiology, 1 篇)

1. 10.1214/26-ejs2500 — The Markov approximation of the periodic multivariate Poisson autoregression

  • 作者: Mahmoud Khabou, Edward A. K. Cohen, Almut E. D. Veraart
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在周期性多元 Poisson 自回归设定下,本文研究具有潜在无限记忆的计数过程,重点关注网络结构下的稳定性与估计。利用压缩技术(contraction techniques),作者证明了过程的稳定性并给出了达到周期平稳状态的速度上界。基于指数函数性质与密度结果,提出一种计算高效的 Markov 近似来截断无限记忆。理论上证明了该 Markov 近似下极大似然估计(MLE)的强相合性,并在模拟中验证了模型误设下的稳健性。实证将模型应用于柏林每周轮状病毒发病数预测,表现优于现有 PNAR 模型。对您可能有用:该文提供了流行病学计数时间序列数据集,且其无限记忆的 Markov 近似计算方法对高维纵向计数数据的统计计算有参考价值。
  • 关键技术: periodic Poisson autoregression, contraction techniques, Markov approximation, MLE strong consistency, count time series
  • 为什么对您有用: 提供了流行病学(轮状病毒)的计数时间序列数据集与应用案例,其无限记忆过程的 Markov 近似计算方法对您在统计计算与纵向数据建模方面的兴趣有一定参考价值。

其他 (other, 1 篇)

1. 10.1214/25-ejs2480 — A note on the limit theorems for hitting times of path-dependent functionals of Itô semimartingales

  • 作者: Yifan Li
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 20 · issue 1
  • 相关性 0/10 · novelty: new_theory
  • 摘要: 在连续 Itô 半鞅框架下,本文研究路径依赖泛函的逐次命中时间计数的渐近性质,目标是底层半鞅二次变差的估计。作者证明,对一大类泛函,命中时间计数可构造二次变差的一致且渐近正态(CAN)估计量。在相同采样频率下,该估计量相比传统的 realized variance 方法能实现显著的方差缩减。核心技术依赖于 Itô 半鞅的极限定理与路径依赖泛函的结构分析。主要理论结果给出了估计量的渐近分布及方差缩减的显式刻画。对您可能有用:本文在非标准泛函设定下展示了极限定理与方差缩减(效率提升)的数学统计技巧,且二次变差估计常用于经济理论中的高频数据建模,可提供方法学借鉴。
  • 关键技术: Itô semimartingale, hitting time limit theorem, quadratic variation estimation, asymptotic normality, variance reduction
  • 为什么对您有用: 涉及数学统计中的极限定理与估计效率(方差缩减),且 Itô 半鞅二次变差估计常用于经济理论中的高频数据建模,对您在效率理论及经济理论应用方向有参考价值。

Maintained by 陈星宇 · Homepage · Source on GitHub