跳转至

EJS — Vol 19 Issue 2 · 2026-06-18

  • 共 34 篇 · Electronic Journal of Statistics
  • 目录核对 ⚠️ 疑似漏 40 篇(对照 OpenAlex 72 篇):10.1214/25-ejs2459、10.1214/25-ejs2451、10.1214/25-ejs2411、10.1214/25-ejs2407、10.1214/25-ejs2431 等

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

本期《EJS》第19卷第2期的34篇论文可以归纳为几条密切交织的主线:高维统计与随机矩阵理论、非参数/半参数方法的收敛速率与自适应推断、假设检验的新框架及其在高维/复杂数据下的拓展、以及因果推断与缺失数据处理在识别和估计上的进展。此外,统计计算方面也有两项关于随机EM和交叉随机效应模型可扩展算法的理论分析。

高维统计与随机矩阵主线最为密集,核心是借助谱分析工具处理高维协方差/谱相干矩阵的统计推断。“Correlation tests and sample spectral coherence matrix”将RMT的线性谱统计量CLT推广到滑动窗谱相干矩阵,用于高维时间序列独立性检验;“Sparse linear regression when noises and covariates are heavy-tailed”在重尾+对抗污染下给出稀疏估计的near-optimal非渐近界;“Concentration and consistency of sample covariance matrix functionals”在sub-Gaussian框架下建立了各类泛函的dimension-free浓度界;“Posterior contraction rates in a sparse non-linear mixed-effects model”填补了高维非线性贝叶斯渐近理论空白,给出后验收缩速率;“High-dimensional change point detection with missing values”利用正则化与插补结合的算法,量化了缺失比例对变点检测收敛速率的影响。这几篇共同推进了高维结构下随机矩阵工具的适用范围与理论保证。

非参数与半参数方法是另一条主干,覆盖了收敛速率刻画、形状约束、函数型数据、测量误差等多个方向。“Characterizing the minimax rate of nonparametric regression”将最小最大速率推广到有界星形函数类,由局部度量熵的临界方程直接定义速率;“Deconvolution of repeated measurements corrupted by unknown noise”在噪声分布完全未知时实现了信号密度的可识别性与最优收敛速度;“Nonparametric regression for a circular response”针对圆形响应+测量误差提出了反卷积修正估计;“Convergence rates for estimating multivariate scale mixtures of uniform densities”证实了多元均匀混合MLE的一维立方根收敛率猜想;“Functional adaptive group lasso”与“Inference for dependent error functional data”分别通过新概念(扩展相关算子)和两步B样条处理函数型预测变量选择与协方差推断;“Local Fréchet regression with spherical predictors”将核方法推广至球面预测空间并给出相合性;“Automatic structure identification and variable selection for additive AFT model”在超高维下实现了线性/非线性成分识别与变量筛选的oracle性质;“Balancing weights for non-monotone missing data”利用矩平衡直接估计propensity odds,绕开显式模型拟合。这些工作共同丰富了非参数估计的收敛理论、自适应策略与实际应用场景。

与因果推断方向最贴近的论文是“Domain adaptation under hidden confounding”,它直接处理隐藏混杂下的跨环境预测,将因果参数嵌入生成模型实现概率对齐。此外,“Balancing weights for non-monotone missing data”中的权重估计方法可移植至因果推断中的倾向性评分或重加权,“Mixed semi-supervised generalized linear regression”关于未标记数据整合的理论也为提升结果模型效率提供了思路。半参数效率方向可优先看“Characterizing the minimax rate of nonparametric regression”与“Parametric convergence rate of some nonparametric estimators in mixtures of power series distributions”。高维方向则以“Correlation tests and sample spectral coherence matrix”、“Sparse linear regression when noises and covariates are heavy-tailed”与“High-dimensional change point detection with missing values”为代表。

因果推断 (causal_inference, 1 篇)

1. 10.1214/25-ejs2474 · arXiv — Domain adaptation under hidden confounding

  • 作者: Carlos García Meixide, David Ríos Insua
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在存在隐藏混杂且源-目标分布不同的域适应设定下,本文提出一种新的预测机制,目标 estimand 捕捉响应噪声与协变量的依赖结构,将因果参数嵌入生成模型以自适应复制目标环境的条件分布。识别性在一个可直接经验验证的假设下成立;估计方法无需 worst-case 优化或对测试干预强度的假设,即可在任意干预下实现与目标分布的概率对齐。理论保证侧重于识别性与分布对齐的一致性,仿真与心血管疾病数据表明其优于现有 invariance-based 与域适应方法。对您有用:本文直接触及 causal inference 中的 hidden confounding 与跨环境 identification 问题,为 sensitivity / proximal CI 的跨分布推广提供了新 estimand 视角。
  • 关键技术: hidden confounding, domain adaptation, causal identification under distribution shift, invariance-based prediction, generative model for conditional distribution alignment, empirical verifiability assumption
  • 为什么对您有用: 本文连接到 causal inference 的 hidden confounding 与跨分布 identification 子方向,与您关注的 proximal CI / sensitivity 分析设定有直接交集。用您 very_familiar 的 identification theory in causal inference 可以审视其经验可验证假设的合理性,用 moderately_familiar 的 semiparametric theory 可评估其估计器的效率与收敛率(文中未显式给出)。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以补全本文缺失的 semiparametric efficiency bound 与 rate-of-convergence 分析。

高维统计 / 随机矩阵 (high_dim_rmt, 5 篇)

1. 10.1214/25-ejs2467 · arXiv — Correlation tests and sample spectral coherence matrix in the high-dimensional regime

  • 作者: Philippe Loubaton, Alexis Rosuel, Pascal Vallet
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Laboratoire d'Informatique Gaspard-Monge
  • 分类: vol 19 · issue 2
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在高维复 Gauss 时间序列设定下,目标是检验各分量是否相互独立;关键渐近假设为样本量 N、维度 M 与平滑窗宽 B 同时趋于无穷,满足 M=O(N^α) (α<1) 且 MB→c∈(0,1)。本文首先证明了平滑周期图估计的谱相干矩阵的线性谱统计量(LSS)在逐频点上满足中心极限定理。进而推导出两种基于频域平均与频域平方和的重中心化/重归一化 LSS 统计量,在选定频率网格上亦收敛至正态分布,由此构建了具有可控渐近水平的独立性检验。数值模拟验证了两种检验的性能。对您有用:本文将 RMT 的 LSS-CLT 工具拓展至谱相干矩阵,为高维时间序列独立性检验提供了显式渐近分布,直接关联您的高维统计与假设检验兴趣。
  • 关键技术: linear spectral statistics, spectral coherence matrix, smoothed periodogram, central limit theorem for LSS, high-dimensional asymptotic regime, independence test
  • 为什么对您有用: 本文直接连接您的高维统计(RMT)与数理统计(假设检验)两个子方向:用 LSS-CLT 机制在高维谱相干矩阵上构造独立性检验,给出了显式渐近正态分布。您武器库中 very_familiar 的 'high-dimensional asymptotics' 完全可以攻入本文的渐近分析口子,甚至可用 minimax bound 视角审视该检验在局部替代下的功效界。follow-up 判断:立即可做——用您熟悉的高维渐近工具即可复现并拓展其 CLT 证明或检验功效分析。

2. 10.1214/25-ejs2448 · arXiv — Sparse linear regression when noises and covariates are heavy-tailed and contaminated by outliers

  • 作者: Takeyuki Sasai, Hironori Fujisawa
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 9/10 · novelty: weaker_assumption
  • 摘要: 在高维稀疏线性回归设定下,研究协变量与噪声均可能重尾且被异常值污染时的系数估计问题,目标 estimand 为稀疏 β。作者提出基于有限峰度假设的鲁棒估计器,在无异常值情形下给出非渐近误差界,虽不如 Lasso 在子高斯设定下的最优率紧,但仍为 near-optimal;在对抗性污染情形下,误差界额外包含正比于异常值比例平方根的项,该依赖形式已知在某些条件下 near-optimal。数值实验验证了估计器的有效性。对您可能有用:该文在重尾+污染双重设定下给出 near-optimal 界,直接连接高维统计与鲁棒估计理论。
  • 关键技术: sparse linear regression, heavy-tailed covariates, finite-kurtosis assumption, adversarial contamination, non-asymptotic error bound, robust M-estimation
  • 为什么对您有用: 直接连接高维统计中重尾设计与鲁棒估计的 error-bound 分析,属于 primary interest 'high-dimensional statistics'。用 very_familiar 的 minimax bounds 工具可验证其声称的 near-optimal 界是否紧,或用 moderately_familiar 的 M-estimation theory 推导其估计器的具体形式与收敛条件。follow-up 判断:立即可做——用 minimax rate 对比验证其界在有限峰度设定下的紧性。

3. 10.1214/25-ejs2447 — Concentration and consistency of sample covariance matrix functionals in sub-Gaussian models

  • 作者: Anna Skripka
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: University of New Mexico
  • 分类: vol 19 · issue 2
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 在 sub-Gaussian 设定下,目标是建立样本协方差矩阵泛函的非渐近 concentration,关键假设为 Σ 的 effective rank r(Σ) 有限且无稀疏/结构约束。核心机制利用 r(Σ) 控制偏差与方差,证明线性谱统计量(bounded Lipschitz 导数函数)与双线性形式(Lipschitz 函数,Σ 可逆时含部分非 Lipschitz 函数)的 plug-in 估计量具有与 Σ 本身一致的收敛率。进一步将结果推广到谱测度的 concentration 与一致性。主要理论结果给出了 dimension-free 的 error bound,确保 r(Σ)/n → 0 时泛函估计一致收敛;对您有用之处在于为高维 RMT 中线性谱统计量的非渐近分析提供了不依赖 Marchenko-Pastur 的有效秩框架。
  • 关键技术: effective rank, linear spectral statistics, nonasymptotic concentration inequality, sub-Gaussian matrix model, spectral measure concentration, dimension-free error bounds
  • 为什么对您有用: 直接连接到 primary interest 的高维统计与 RMT 子方向,为线性谱统计量提供了基于 effective rank 的非渐近 concentration,绕过了经典 MP 极限的渐近框架。您武器库中 very_familiar 的 minimax bounds 与高维渐近理论可直接用来验证本文声称的 rate 是否紧,或将其嵌入 HOIF / higher-order U-stat 的偏差-方差分解中做 sharper rate 分析。立即可做:用 minimax 视角检验 bound 的紧性,并探索将 r(Σ) 框架迁移到您熟悉的 higher-order U-statistic 线性谱泛函的计算与收敛分析。

4. 10.1214/25-ejs2449 · arXiv — Posterior contraction rates in a sparse non-linear mixed-effects model

  • 作者: Marion Naveau, Maud Delattre, Laure Sansonnet
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Département mathématiques, informatique, sciences de la donnée et technologies du numérique · Mathématiques et Informatique Appliquées · Mathématiques et Informatique Appliquées du Génome à l'Environnement
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究高维稀疏非线性混合效应模型的后验收缩率,假设残差方差已知,回归系数和随机效应协方差矩阵未知。稀疏回归系数采用 spike-and-slab 先验(点质量混合 Laplace 分布),随机效应协方差使用 Inverse-Wishart 先验。首先证明了模型的有效维度以高后验概率有界,然后推导了协方差参数和响应向量预测的后验收缩速率。在额外假设下,进一步证明了稀疏回归向量本身的恢复速率与已知线性情形相当。主要贡献在于填补了高维非线性贝叶斯模型渐近理论的空白,为混合效应模型中的变量选择提供了理论支撑。该结果与高维统计中的 minimax 速率理论可相互印证,对您熟悉的高维渐近分析有直接参考价值。
  • 关键技术: spike-and-slab prior, Laplace prior, Inverse-Wishart prior, posterior contraction rate, effective dimension bound, non-linear mixed-effects model
  • 为什么对您有用: 本文连接您主要兴趣中的高维统计与数学统计理论,具体是后验收缩率这一频率学派渐进概念在高维非线性贝叶斯模型中的推广。您武器库中的高维渐近minimax界限可用于验证其速率是否最优,并与频率学派结果对比。因您对贝叶斯非参数技术(如 testing by prior concentration)中等熟悉,建议列为中期可做:需要先熟悉贝叶斯收缩率论证体系。

5. 10.1214/25-ejs2455 — High-dimensional change point detection with missing values

  • 作者: Yanxi Liu, Abolfazl Safikhani
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: University of Florida · George Mason University
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究高维均值漂移模型中的变点检测问题,允许观测数据存在缺失值。提出一个四步算法:首先将序列分块,通过正则化估计(如Lasso)同时估计参数并插补缺失值;然后对估计结果进行阈值处理以减少误检;接着重新插补以修正初始步骤的设定偏差;最后执行穷举搜索定位变点。理论部分证明了变点个数和位置估计的一致性,并显式量化了缺失比例对收敛速率的影响。通过合成数据和两个真实数据实验(如空气质量监测数据)验证了方法有效性。本文与您的高维统计兴趣直接相关,其中的正则化估计和缺失数据插补技术可迁移至因果推断中高维协变量的缺失场景,但变点检测的时间序列结构本身可能需要额外熟悉。
  • 关键技术: high-dimensional mean shift model, regularized estimation (Lasso), missing data imputation, change point consistency, block splitting, thresholding
  • 为什么对您有用: 连接到 primary interest 中的高维统计方向,具体为高维均值模型的变点检测。您非常熟悉的高维渐近理论(high-dimensional asymptotics)可直接用于理解本文的一致性证明和速率推导,属于立即可做的深度阅读。此外,本文处理缺失数据的策略可能启发因果推断中缺失协变量的问题(如纵向数据),但需结合因果识别假设。

非参数 / 半参数 (nonparam_semipara, 16 篇)

1. 10.1214/25-ejs2419 · arXiv — Characterizing the minimax rate of nonparametric regression under bounded star-shaped constraints

  • 作者: Akshay Prasadan, Matey Neykov
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在非参数回归设定下,目标是在有界星形函数类 \(\mathcal{F}\)(放宽了经典 sup-norm 一致有界与 \(L\)-sub-Gaussian 假设)中估计回归函数,损失为 population \(L_2\) 距离。本文证明了 minimax rate 为 \(\varepsilon^{\ast 2} \wedge \mathrm{diam}(\mathcal{F})^2\),其中 \(\varepsilon^{\ast}\) 由局部 metric entropy 的临界方程 \(n\varepsilon^2 \le \log M^{\mathrm{loc}}(\varepsilon,c)\) 定义,推广了 Yang & Barron (1999) 的全局熵结果。核心估计器基于 Neykov (2022) 的 Gaussian sequence 框架与算法方案,并在凸约束情形下实现了对真实函数的 adaptivity。理论同时适用于 sub-Gaussian 噪声,并在多元单调函数、椭球上线性泛函与 Lipschitz 类上展示了具体 rate 的刻画。对您有用:本文直接推进了 minimax estimation 理论,其基于局部熵的 rate 求解机制与凸约束下的 adaptivity 结果,为您用 very_familiar 的 minimax bounds 工具分析更复杂约束(如因果推断中的 semiparametric 约束)提供了直接的技术参照。
  • ⚠️ 摘要不完整,待重跑(python -m research_news.rerun
  • 关键技术: local metric entropy, minimax rate characterization, star-shaped function class, Gaussian sequence model reduction, adaptive estimation, sub-Gaussian noise
  • 为什么对您有用: 本文直接连接到 primary interest 中的 nonparametric theory 与 minimax bounds:它给出了由局部熵定义的 minimax rate 的显式刻画,并去掉了经典的 sup-norm 有界假设,这对您在 causal inference 中处理 semiparametric 约束(如 proximal CI 的 bridge function 空间)时的 rate 分析有直接借鉴。您可以用 very_familiar 的 minimax bounds 工具立刻验证文中几个 example(如 monotone / Lipschitz)的 rate 是否紧,并尝试将该局部熵框架迁移到您熟悉的 inverse problems with random noise 设定中——这是一个立即可做的 follow-up 方向。

2. 10.1214/25-ejs2415 · arXiv — Deconvolution of repeated measurements corrupted by unknown noise

  • 作者: Jérémie Capitao-Miniconi, Elisabeth Gassiat, Luc Lehéricy
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Université Paris-Saclay · Laboratoire de Mathématiques d'Orsay · Centre Inria de Saclay · Centre National de la Recherche Scientifique · Université Côte d'Azur · Laboratoire Jean-Alexandre Dieudonné · Institut de Biologie Valrose
  • 分类: vol 19 · issue 2
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究重复测量模型中的去卷积问题,目标是在噪声分布完全未知的条件下估计信号的密度。模型假设同一信号X的两次独立测量Y1=X+ε1, Y2=X+ε2,其中噪声ε1, ε2独立且坐标独立,但无其他分布假设。作者首先证明了在此设定下信号密度是可识别的,放宽了传统去卷积对噪声分布已知的要求。他们提出基于核的估计器,利用两个测量之间的协方差结构构建,并推导了估计量的收敛速度,证明在信号支撑为紧集时该速率达到非参数最小最大最优。此外,通过模型选择程序实现自适应的带宽选择。数值实验表明方法在中等样本量下表现良好。本文与您非参数统计和逆问题方向紧密相关,其识别策略和最优性分析可直接迁移至类似两样本测量误差问题。
  • 关键技术: kernel density deconvolution, repeated measurements with additive noise, minimax optimality over compactly supported densities, model selection via penalized contrast, identifiability without noise distribution
  • 为什么对您有用: 本文直接对应您兴趣中的非参数统计与逆问题方向,尤其是您非常熟悉的逆问题随机噪声估计工具(核方法、最小最大界限)。您可用现有非参数经验快速复现其估计量,并尝试推广至更一般的误差结构或高维情形。立即可做:您的武器库完全覆盖该文方法,可立即动手实现与扩展。

3. 10.1214/25-ejs2437 · arXiv — Nonparametric regression for a circular response with error-in-covariate

  • 作者: Nicholas Woolsey, Xianzheng Huang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本论文研究圆形响应变量对含测量误差线性协变量的非参数回归问题,目标是在协变量测量误差存在时一致地估计回归函数。作者从现有假设协变量无误差的估计量出发,基于反卷积算子提出三种修正估计策略,分别通过不同方式利用该算子在估计中融入误差结构。同时发展了针对测量误差场景的新带宽选择方法,相比现有方法计算效率更高。理论方面建立了所提估计量的渐近性质(包括一致性和收敛速度),数值实验验证了有限样本下的表现。对您有用:该工作是非参数统计与测量误差问题的结合,其中的反卷积技术可迁移至因果推断中处理代理变量误差的场景,与您的'带随机噪声的反问题'武器库直接对接。
  • 关键技术: nonparametric kernel regression, circular response, measurement error (error-in-covariate), deconvolution operator, bandwidth selection
  • 为什么对您有用: 本文属于非参数统计方法发展,直接匹配您的首要兴趣中的非参数统计和m-估计理论。技术核心是反卷积算子处理测量误差,您武器库中'inverse problems with random noise'技能可以直接复用于分析其估计量的偏差-方差权衡。中期可做:将该反卷积策略扩展到高维协变量或因果推断中的误测情境,需先在'moderately_familiar'中的identification理论方面加强。

4. 10.1214/25-ejs2423 · arXiv — Parametric convergence rate of some nonparametric estimators in mixtures of power series distributions

  • 作者: Fadoua Balabdaoui, Harald Besdziek, Yong Wang
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: sharper_rate
  • 摘要: 研究问题为估计具有无限支撑的幂级数分布混合(如泊松、几何、负二项等),目标是非参数最大似然估计(NPMLE)的收敛速度。该文证明在极其温和假设下,NPMLE以Hellinger距离以速率 (log n)^{3/2} n^{-1/2} 收敛于真实混合分布,并引用近期下界表明该对数因子不可改进。进一步,通过构造加权最小二乘估计量(WLS)与混合估计量,证明它们在 ℓ_p 范数(p∈[1,∞] 或 [2,∞])下达到参数速率 n^{-1/2},实现从非参数到参数速率的跃升。核心机制是利用NPMLE的渐近线性表示并引入适当的权重函数进行再估计。模拟显示NPMLE在Hellinger、ℓ1、ℓ2距离下均最优;bootstrap方法用于构建置信区间并评估覆盖率和长度。该结果为非参数混合模型提供了清晰的理论速率界线,对您深入理解非参数收敛率及构造参数化速率估计量具有直接参考价值,尤其在因果推断中的密度比估计或倾向得分构建中可类比应用。
  • 关键技术: Nonparametric maximum likelihood estimator (NPMLE), Weighted least squares estimator, Hybrid estimator, Hellinger distance, ℓ_p-norm convergence rate, Bootstrap confidence intervals
  • 为什么对您有用: 直接关联您“非参数与半参数理论”兴趣方向中的收敛速度分析。您熟悉的“非参数统计”与“最小最大界”武器可立即用于验证速率的最优性,并可将WLS构造法迁移至因果推断中非参数组件(如IV或倾向得分)的参数速率估计。立即可做:基于现有武器库,可尝试将该速率论证思路应用于其他混合模型或作为非参数函数估计的改进工具。

5. 10.1214/25-ejs2414 — Functional adaptive group lasso with its non-asymptotic bounds

  • 作者: Sehun Jang, Jun Song
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Statistics Korea · Korea University
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_method
  • 摘要: 针对标量-函数回归(scalar-on-function regression)中多元函数型预测变量的选择问题,现有方法缺乏严格理论验证或依赖过强且不可验证的假设。本文引入两个新概念——扩展相关算子(extended correlation operator)和标准化回归算子(standardized regression operator),以刻画多元函数型数据的内在结构。基于此框架,提出自适应组套索(adaptive group lasso)惩罚方案,并在更宽松、合理的假设下建立变量选择和估计一致性的非渐近误差界。模拟实验和人类脑功能数据集的应用表明,该方法在变量选择和预测精度上优于现有方法。该理论框架和惩罚模式可推广至其他函数型数据的稀疏估计问题。对您而言,该工作属于非参数/半参数理论在函数型回归方向的前沿进展,其中的非渐近界技术可直接调用您的minimax bounds知识进行评估,并探索其在函数型因果推断中的可能性。
  • 关键技术: functional data analysis, adaptive group lasso, non-asymptotic bounds, correlation operator, scalar-on-function regression, variable selection
  • 为什么对您有用: 连接到非参数/半参数理论中的函数型数据分析子方向;您熟悉的minimax bounds和非参数统计工具可直接用于检验其非渐近界是否紧,并考虑如何推广至函数型因果推断(如标量-函数中介分析)。中期可做:需先在函数型数据基本工具(如FPCA、RKHS算子估计)上补充知识,但您已有的非参数和minimax功底提供了坚实基础。

6. 10.1214/25-ejs2426 · arXiv — Convergence rates for estimating multivariate scale mixtures of uniform densities

  • 作者: Arlene K. H. Kim, Gil Kur, Adityanand Guntuboyina
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 本文研究多元尺度混合均匀分布(scale mixtures of uniform densities)类的非参数最大似然估计。该估计是Grenander单变量估计的多元推广,被Pavlides和Wellner提出,但收敛速度一直未解决。作者证明该多元估计量达到一维立方根收敛速率(仅含对数维数因子),在附加下界假设下证实了Pavlides和Wellner的猜想。证明依赖于凸密度类上MLE的Hellinger精度的通用结果,避免了通常的维数灾难。文中还提供了计算该估计量的算法,并在模拟和真实数据上展示性能。这项理论工作对shape-constrained密度估计的minimax速率研究有直接推进,与您非参数统计和minimax界方面的兴趣高度吻合。
  • 关键技术: Grenander estimator, multivariate scale mixtures of uniform densities, Hellinger accuracy of MLE over convex classes, cube root rate, curse of dimensionality avoidance, algorithm for computing MLE
  • 为什么对您有用: 直接关联您非常熟悉的非参数统计和minimax界——论文在一个具体shape-constrained类(尺度混合均匀分布)上给出了MLE的收敛速度,且证明技术(凸类上MLE的Hellinger精度)是您武器库中nonparametric statistics和minimax bounds可以直接处理的。此文属于立即可做的阅读,理解后或可类比到其他形状约束问题的rate分析。

7. 10.1214/25-ejs2397 · arXiv — On mixing rates for Bayesian CART

  • 作者: Jungeum Kim, Veronika Ročková
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在 Bayesian nonparametrics 设定下,研究 Bayesian CART MCMC 算法的 mixing time 上界与下界,目标 estimand 为基于 tree 的后验分布。利用 tree 的 wavelet 表示,证明在信号满足 hierarchical connectivity 限制时,标准 grow-and-prune Bayesian CART 可达到 polynomial mixing;同时给出负面结果:对深层孤立信号,标准 proposal 的 mixing time 下界为 exponential。提出 Twiggy Bayesian CART(整体 twig attach/detach 而非单节点),在无 connectivity 假设下实现 polynomial mixing;informed 变体可达更快收敛。仿真对比了 spike-and-slab prior 与 Bayesian CART 在不同 proposal 下的表现差异。对您有用:本文将 MCMC 计算复杂度与信号结构假设显式挂钩,为 Bayesian nonparametric estimator 的 stat-computing tradeoff 提供了具体 rate 分析。
  • 关键技术: mixing time bounds, wavelet representation of trees, Bayesian CART MCMC, polynomial vs exponential convergence, Twiggy Bayesian CART, informed proposals
  • 为什么对您有用: 本文直接触及 stat-computing tradeoff 这一 primary interest,将 MCMC mixing rate 与信号空间结构假设(connectivity vs isolated)显式挂钩,给出了 polynomial-time achievability 与 exponential barrier 的清晰阈值。用您 very_familiar 的高维渐近与 minimax bound 视角,可以直接审视其 polynomial mixing 上界是否紧;其 tree proposal 的组合复杂度分析也与您 moderately_familiar 的 higher-order U-statistics treewidth / tensor contraction 视角有结构相似性(组合对象的局部 vs 全局操作成本)。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以将本文的 mixing rate 分析框架迁移到您熟悉的 semiparametric estimator 的 MCMC 实现场景。

8. 10.1214/25-ejs2408 — Automatic structure identification and variable selection for additive accelerated failure time model with ultra high dimensional covariates

  • 作者: Li Liu, Jiaxiang Chen, Wen Su, Xingqiu Zhao
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Wuhan University · City University of Hong Kong · Hong Kong Polytechnic University
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在超高维 additive AFT 模型下,目标是同时实现变量选择、模型结构识别(区分线性与非线性成分)与参数估计,允许协变量维度随样本量指数增长。核心方法是 weighted sieve least squares 损失函数上的 doubly penalized regularization,结合 group/SCAD-type penalty 做结构识别与变量筛选。理论证明了估计量的 oracle property 与模型结构可识别性,且 sieve 基维度可随 n 指数增长。计算上采用 blockwise majorization descent (BMD) 算法降低复杂度,并提供了 R 包 AFTBMD。对您可能有用:该文将 sieve M-estimation 与超高维 penalty 结合,是 semiparametric theory 在生存分析场景的一个具体实例。
  • 关键技术: weighted sieve least squares, doubly penalized regularization, oracle property, additive AFT model, blockwise majorization descent, ultra-high dimensional variable selection
  • 为什么对您有用: 直接连接 semiparametric & nonparametric theory 子方向,具体是 sieve M-estimation 在超高维生存模型中的 oracle property 证明。用 very_familiar 的 minimax bounds for estimation problems 可以验证其声称的指数增长 sieve 维度下的收敛率是否紧,或用 moderately_familiar 的 M-estimation theory 检查其 penalty 条件与 regularity 假设的边界。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,才能严格审视其 oracle property 证明中 penalty 与 sieve 交互的精细条件。

9. 10.1214/25-ejs2438 · arXiv — Balancing weights for non-monotone missing data

  • 作者: Jianing Dong, Raymond K. W. Wong, Kwun Chuen Gary Chan
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在非单调缺失数据与 CCMV(complete-case missing variable)假设下的 MNAR 设定中,目标是利用各缺失模式与完全观测子样本的关系构造加权估计量,其权重为条件观测概率之比(propensity odds)的求和。传统 propensity odds 的 plug-in 估计可能无界导致不稳定;本文利用 propensity odds 与跨模式矩平衡的等价关系,通过函数基展开(functional basis expansion)与定制损失函数直接估计 propensity odds,无需显式拟合条件概率模型。提出两种惩罚项分别控制模型光滑度与经验不平衡度,所得估计量在温和光滑假设下一致,并建立渐近正态性与效率理论。对您可能有用:本文将 balancing weights 从单调缺失推广至 MNAR 非单调场景,其基于矩平衡的半参数估计思路与效率分析可迁移至因果推断中多干预/纵向缺失的 IPW/DR 估计问题。
  • 关键技术: balancing weights, propensity odds, non-monotone missing data, MNAR (missing not at random), functional basis expansion, semiparametric efficiency
  • 为什么对您有用: 本文直接连接因果推断中的 IPW/DR 估计与缺失数据处理,将 balancing weights 推广至更难的 MNAR 非单调场景,其矩平衡思路与效率理论对纵向因果推断中的缺失处理有迁移价值。用 very_familiar 中的 minimax bounds 与 estimation theory 可验证其声称的效率界是否紧,或用 moderately_familiar 的 semiparametric theory 检查其 influence function 推导是否可进一步做 HOIF 高阶修正以改善有限样本表现。判断:立即可做——用现有武器库即可展开效率界验证与 HOIF 扩展的理论探索。

10. 10.1214/25-ejs2462 — Local Fréchet regression with spherical predictors

  • 作者: Chang Jun Im, Jeong Min Jeon, Byeong U. Park
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Seoul National University · Ewha Womans University
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 该文研究非欧几里得响应(度量空间取值)与球面预测变量的一般回归问题。针对响应为复杂对象(如分布、流形)且预测变量位于球面的设定,提出局部常数与局部线性两类 Fréchet 估计量,利用核权重对 Fréchet 均值进行局部加权。在温和的正则条件下,建立了估计量的相合性与收敛速率;证明依赖于 Fréchet 函数在测地线距离下的光滑性以及核密度的收敛性质。模拟与三组实际数据(方向风速、脑皮质表面、蛋白质构象)表明所提方法在 MSE 与预测精度上优于全局 Fréchet 回归与局部常数估计。对您的价值:该文是非参数回归方法在特殊预测空间(球面)上的系统性扩展,您可以用熟悉的非参数统计与核方法工具直接理解其收敛理论与带宽选择问题。
  • 关键技术: Local Fréchet regression, Kernel smoothing on sphere, Fréchet mean, Local constant estimator, Local linear estimator, Non-Euclidean response
  • 为什么对您有用: 连接到您的非参数统计子方向——球面预测变量上的非参数回归,这是非参数方法在流形化数据中的前沿应用。您非常熟悉的“非参数统计”与“高维渐近”工具可直接用于理解其核权重设计与收敛速率论证,例如带宽的阶数选择与边界效应。立即可做:您可尝试将局部线性估计的渐近偏差方差分析移植到您关心的其他度量空间(如 Wasserstein 空间),或利用您的高阶 U-统计量经验讨论其估计量的方差结构。

11. 10.1214/25-ejs2428 · arXiv — smoothEM: A new approach for the simultaneous assessment of smooth patterns and spikes

  • 作者: Huy Dang, Marzia A. Cremona, Francesca Chiaromonte
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 该文提出 smoothEM 方法,用于同时估计函数型数据中的平滑曲线和识别不规则尖峰,设定为观测序列由潜在平滑信号、稀疏尖峰和随机误差组成。方法结合了正则化样条平滑与 EM 算法,在误差分布假设下证明了 EM 估计的一致性。通过大量模拟验证了有限样本下的良好性能和对假设偏离的鲁棒性。应用于美国年度热浪指数和爱尔兰周电力消费数据,成功刻画了长期平滑趋势并定位极端事件。该方法属于非参数函数数据分析,使用的样条平滑和 EM 算法是您熟悉的统计计算工具,可直接对接您的非参数理论和软件实现经验。
  • 关键技术: regularized spline smoothing, Expectation-Maximization algorithm, functional data analysis, spike detection, consistency proof under misspecification
  • 为什么对您有用: 本文连接您的非参数统计兴趣(函数型数据平滑)和统计计算兴趣(EM 算法/数值方法)。由于您对非参数统计和算法开发非常熟悉,可立即分析其样条收敛率或改进尖峰检测的鲁棒性;中期可尝试将 EM 与交叉验证或更高效的优化结合,属于立即可做的方向。

12. 10.1214/25-ejs2458 — Inference for dependent error functional data: Covariance function

  • 作者: Sijie Zheng, Kun Huang, Lijian Yang
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Tsinghua University · Texas A&M University
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 针对具有相依误差的函数型数据(如脑电图数据),提出协方差函数的统计推断方法,目标是在误差相关下仍能构造渐近正确的联合置信域。采用两步B样条估计:第一步估计所有个体轨迹,第二步用估计轨迹替代真实轨迹估计协方差函数。在温和假设下,该估计量与“oracle”估计量(若轨迹完全观测)具有相同渐近效率。进一步构造协方差函数的联合置信域,证明其覆盖概率的渐近正确性。仿真实验验证了估计量的精度和置信域的有限样本表现。在真实EEG数据上给出了简化的三角形式函数型数据。该工作直接连接您'非参数统计'这一非常熟悉的武器库,且联合推断涉及假设检验,与您的数学统计兴趣紧密相关。
  • 关键技术: B-spline estimation, simultaneous confidence envelope, dependent error functional data, oracle efficiency
  • 为什么对您有用: 该论文涉及函数型数据协方差函数的非参数估计与推断,直接对应您'非参数统计'这一非常熟悉的武器库。同时,其构造联合置信域的方法可用于假设检验,连接您对数学统计与假设检验的兴趣。此外,估计量的oracle性质与您的效率理论兴趣呼应。

13. 10.1214/25-ejs2443 · arXiv — Adjusting inverse regression for predictors with clustered distribution

  • 作者: Wei Luo, Yan Guo
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在充分降维(SDR)的逆回归框架下,经典方法要求预测变量 X 满足线性条件 E(X|β^TX) 与常数条件方差 var(X|β^TX),本文旨在放宽这些条件以处理 X 的聚类分布。作者对一阶与二阶逆回归方法进行调整,在 X 的混合模型假设下建模 E(X|β^TX) 与 var(X|β^TX),使这些条件项能传递更复杂的模式。所提方法在逆回归与局部 SDR 方法之间建立了自然桥梁,兼具两者优势:具有 √n-一致性、计算高效、可直接推广至高维设定,且能完全恢复目标降维预测变量 β^TX。仿真与实际数据表明该方法对非聚类数据同样有效。对您可能有用:该文在半参数/非参数理论中处理条件矩建模的方式,可为聚类结构下的 semiparametric efficiency bound 讨论提供参考。
  • 关键技术: sufficient dimension reduction, inverse regression, mixture model assumption, conditional moment modeling, √n-consistent estimation, localized SDR
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向中的充分降维与条件矩建模问题。您武器库中 very_familiar 的 minimax bounds for estimation problems 可用于审视该 √n-一致性估计量在混合模型下的效率是否达到 semiparametric efficiency bound,或是否存在 sharper rate 的可能。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以推导该调整逆回归估计量的 influence function 并验证其效率性质。

14. 10.1214/25-ejs2472 — Existence and breakdown analysis of M-quantiles in general Hilbert spaces

  • 作者: Dimitri Konen, Davy Paindaveine
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: University of Cambridge · Université Libre de Bruxelles
  • 分类: vol 19 · issue 2
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 在一般 Hilbert 空间(含无穷维函数空间)框架下研究 M-quantile 的存在性与全局鲁棒性(breakdown point)。目标 estimand 为 M-quantile,核心 regularity 假设为凸损失函数的 mild 条件与 regular variation 性质。作者先用弱拓扑论证解决了该框架下 M-quantile 的存在性这一开放问题,随后在极宽松的凸损失假设下推导 breakdown point,引入 regular variation 的新结果以克服一般性带来的技术困难,并定义 lower/upper breakdown point 以处理 M-quantile 的非唯一性。理论结果比以往几乎仅针对 quantile 的分析更广泛,且首次覆盖了 functional M-quantile。对您有用:若您在 M-estimation theory 上想拓展到无穷维或关注鲁棒性-效率权衡的精细刻画,本文提供了严格的拓扑与变分工具。
  • 关键技术: M-quantile, breakdown point analysis, weak topology arguments, regular variation of convex loss functions, Hilbert space M-estimation, lower/upper breakdown point
  • 为什么对您有用: 本文直接连接到 M-estimation theory 这一 semiparametric/nonparametric 核心子方向,并在无穷维 Hilbert 空间下推进了鲁棒性理论。您武器库中 moderately_familiar 的 M-estimation theory 可以直接攻本文的 breakdown point 推导口子,而 weak topology 与 regular variation 部分需在 moderately_familiar 的 semiparametric theory 上稍作补充即可跟进。判断:中期可做——需先在 regular variation 与弱拓扑收敛的细节上长肌肉(点名 semiparametric theory 中的拓扑工具),但整体框架对您并不陌生。

15. 10.1214/25-ejs2420 · arXiv — Transform-scaled process priors for trait allocations in Bayesian nonparametrics

  • 作者: Mario Beraha, Stefano Favaro
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在 Bayesian nonparametric (BNP) trait allocation 设定下,目标是新数据点所展现的“新特征”数量的后验预测分布。经典完全随机测度 (CRM) 先验导致该预测分布为 Poisson 分布,且仅依赖样本量 n 而与已观测到的 distinct traits 数量无关,这使得后验完全由先验参数估计决定。本文提出 transform-scaled process (T-SP) 先验,通过对 CRM 施加随机缩放变换来丰富新特征的后验结构,同时保持解析可处理性。在 Stable T-SP 先验下,新特征数的预测分布变为负二项分布,且显式依赖于样本量 n 与已观测 distinct traits 数 K_n,从而突破了 CRM 的 Poisson 独立性瓶颈。进一步利用分层 T-SP 先验,将框架推广至多组/多子群 trait allocation。理论推导给出了具体的后验预测公式,数值实验与真实数据验证了模型灵活性。对您可能有用:该文在 BNP 框架内通过随机缩放改变后验预测结构的技术,与 semiparametric theory 中通过 tilting / scaling 调整 influence function 的思路有形式上的对称性。
  • 关键技术: completely random measures, transform-scaled process priors, negative-binomial predictive distribution, Stable CRM, hierarchical BNP priors, trait allocation
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向中的 BNP 先验设计,核心是修正 CRM 后验预测的结构性缺陷。用您 very_familiar 中的 nonparametric statistics 知识可以直接读懂其后验推导逻辑;但若要沿此方向做理论深化(如 T-SP 先验下 trait allocation 的 minimax rate 或 semiparametric efficiency bound),需先在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是将 BNP 后验收敛分析与 semiparametric efficiency 对接的工具。当前对您而言属于中期可做。

16. 10.1214/25-ejs2445 — A signature-based functional spatial autoregressive model

  • 作者: Camille Frévent
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Université de Lille · Centre Hospitalier Universitaire de Lille · Evaluation des technologies de santé et des pratiques médicales
  • 分类: vol 19 · issue 2
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文提出了基于签名(signature)方法的函数型空间自回归模型,将函数表示为无穷级数迭代积分,避免传统基函数选择的困难。该方法适用于多种过程,作者证明了其理论保证(估计的收敛性等)。通过模拟研究和真实数据集,本文展示了签名模型在预测准确性上优于传统函数型空间自回归模型。签名方法通过对函数路径的逐层积分提取序列化特征,本质上是非参数表示的一种新工具。文章属于函数型数据分析和空间统计的交叉,是非参数建模的扩展。对于有非参数统计背景的读者,理解其理论需要先熟悉签名方法的基本框架。
  • 关键技术: signature method, iterated integrals, functional autoregressive model, spatial functional data, nonparametric function representation
  • 为什么对您有用: 本文与您的非参数统计兴趣(尤其是函数型数据的非参数表示)相连接。技术武器库中'非参数统计'的成熟经验可用于评估其理论保证(如收敛性),但签名方法本身不在当前武器库中,属于中期可做,需先学习签名方法的基本概念。该文不是因果推断或高维统计方向,作为方法论拓展值得了解。

数理统计 / 假设检验 (hypothesis_testing, 8 篇)

1. 10.1214/25-ejs2456 · arXiv — Unified and robust tests for cross sectional independence in large panel data models

  • 作者: Zhenhong Huang, Zhaoyuan Li, Jianfeng Yao
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在大型面板数据模型中,目标是检验无截面依赖性的零假设,设定允许固定效应、弱外生及滞后因变量回归元、非正态误差。本文提出统一 LM 检验及其 power-enhanced 版本,核心机制利用随机矩阵理论(RMT)在时间维度与截面维度同比增长的 simultaneous limit scheme 下建立渐近有效性。关键工具为 RMT 的谱分析技术,使检验在广泛模型设定下保持 robust,power-enhanced 技术则在不破坏 size 控制的前提下提升局部功效。Monte Carlo 实验验证了两种检验的鲁棒性与 power enhancement 的有效性。对您可能有用:本文将 RMT 直接应用于假设检验的渐近理论,连接了您的高维 RMT 与假设检验两个 primary interest。
  • 关键技术: Lagrange multiplier test, Random Matrix Theory, simultaneous limit scheme, power enhancement technique, cross-sectional dependence, panel data asymptotics
  • 为什么对您有用: 直接连接您的高维 RMT 与假设检验两个 primary interest 子方向:用 RMT 谱理论解决面板截面独立性检验在 \(T,n\) 同比增长下的渐近分布问题。您武器库中 very_familiar 的 high-dimensional asymptotics 可直接用来审视其 simultaneous limit scheme 的假设是否可进一步放松(如非比例增长)。follow-up 判断:立即可做——用您熟悉的 RMT 工具可复现其渐近推导,并探索 power enhancement 在更一般误差协方差结构下的 size/power tradeoff。

2. 10.1214/25-ejs2473 · arXiv — Randomization tests for conditional group symmetry

  • 作者: Kenny Chiu, Alex Sharp, Benjamin Bloem-Reddy
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文首次系统研究条件分布关于指定局部紧群作用的对称性(不变性或等变性)的非参数随机化检验问题。在设定中,给定协变量,检验响应变量的分布是否在群变换下保持不变或等变。方法基于群作用下样本的排列构造随机化检验,通过核方法(如最大均值差异或核协变差)构建检验统计量,实现了有限样本下类型I误差的精确控制,并给出了有限样本检验功效的下界。对于大规模数据,还提出了近似版本且证明了渐近一致性。模拟和两个高能粒子物理实例验证了方法的有效性。该工作直接关联研究者的假设检验兴趣,且核方法框架可与因果推断中的不变性检验(如invariant prediction)衔接,属于细致的方法论新贡献。
  • 关键技术: randomization tests, conditional symmetry, locally compact group, kernel methods (MMD, kernel covariance), finite-sample Type I error control, power lower bound
  • 为什么对您有用: 本文直接落在研究者核心兴趣<假设检验>的子方向<随机化检验与对称性检验>,提供了有限样本下条件分布对称性的检验新框架。研究者可使用<非参数统计>的功底快速理解其核方法嵌入与排列检验的渐近理论,并可尝试将此类检验推广至因果推断中的不变性假设(如proximal causal inference中的negative control条件)。<立即可做>:用已有非参数统计和假设检验知识即可复现、扩展或对比其有限样本表现。

3. 10.1214/25-ejs2439 · arXiv — k-sample inference via multimarginal optimal transport

  • 作者: Natalia Kravtsova
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文提出基于多边际最优传输(MOT)的 k 样本推断框架,用于同时比较 k ≥ 2 个有限支撑的分布。在零假设(所有分布相同)和备择假设(至少两个不同)下,推导了经验 MOT 规划最优值的渐近分布。利用 bootstrap 一致估计该渐近分布,并设计了低复杂度的线性规划来近似检验阈值,从而构造出具有一致性和 power 保证的检验。模拟和真实数据(如 2004-2020 年美国癌症数据)验证了方法的有效性。该工作直接针对假设检验中的 k 样本问题,为研究者关注的非参数检验提供了最优传输视角的新工具。
  • 关键技术: Multimarginal Optimal Transport, k-sample hypothesis test, bootstrap approximation, linear programming approximation, asymptotic distribution theory
  • 为什么对您有用: 本论文连接您对假设检验(特别是 k 样本检验)的兴趣,利用 MOT 构造非参数检验统计量并推导其渐近性质。您的技术武器库中「nonparametric statistics」可以用于评估该检验相对于传统秩和检验的效率;「software development」则可直接帮助实现并对比该方法的计算表现。中期可做:需先熟悉最优传输的基础理论(目前不在武器库中),然后即可在您的假设检验方向上拓展新工具。

4. 10.1214/25-ejs2454 · arXiv — Confidence sets in a sparse stochastic block model with two communities of unknown sizes

  • 作者: B. J. K. Kleijn, J. van Waaij
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在稀疏随机块模型(SBM)中,假设两个社区大小未知,本文旨在为社区分配构建频率置信集。作者首先推导了两条后验集中不等式,证明在sparsity界限(与planted bi-section模型已知的sharp界限相当)下,后验分布可以实现几乎精确的社区恢复。然后,基于后验可信集构造了社区分配的置信集,适用于非渐近有限图大小,使得贝叶斯后验模拟可用于精确的不确定性量化。一个关键发现是:可信水平与置信水平之间不存在比例关系;对于给定边概率和目标置信水平,存在一个临界图大小,在此大小处所需可信水平从接近1急剧降至接近0,此时只需包含少数高后验概率分配(如MAP估计)即可达到置信覆盖。论文进一步论证,MCMC后验采样可采用早期停止策略(当采样集中在少数高概率分配时终止),从而在更大图规模下实现置信集的计算。该工作对社区检测中的频率推断提供了非渐近保证,与您在高维统计和假设检验方面的兴趣直接相关,尤其可借助您对minimax界限和高维渐近的熟悉来评估其理论最优性。
  • 关键技术: posterior concentration inequality, credible sets, confidence sets, stochastic block model, early stopping MCMC
  • 为什么对您有用: 连接您的假设检验和高维统计兴趣:该论文为网络社区分配提供了精确的频率置信集构造,属于非渐近不确定性量化的前沿。您非常熟悉的minimax bounds和high-dimensional asymptotics可直接用于检验其稀疏恢复界限是否最优,以及临界图大小现象是否具有普适性。立即可做:用基本minimax工具验证后验集中率与已知sharp bounds的一致性,并探索更高阶U-statistic视角下社区结构估计的误差分布。

5. 10.1214/25-ejs2416 · arXiv — Selective inference using randomized group lasso estimators for general models

  • 作者: Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在 group lasso 选模型后的 selective inference 设定下,目标是针对广义线性模型及 quasi-likelihood(如过离散计数数据)构建条件于选中分组变量的 post-selection likelihood 与置信域。核心机制是在 group-regularized 优化中引入额外随机化(randomization),使得在条件于分组变量选中事件后,可推导出恰当的 post-selection likelihood,并由此构造 selective point estimator 与 Wald-type 置信域。理论证明该置信域体积有界(bounded volume),避免了无随机化 selective inference 中置信域体积趋于无穷的问题;模拟与 NHANES 数据实证了方法的有效性。对您可能有用:本文将随机化机制从 Gaussian/线性推广至广义/群组设定,为高维分组选择后的有效推断提供了新框架。
  • 关键技术: randomized group lasso, post-selection likelihood, selective inference, quasi-likelihood, Wald-type confidence region, bounded volume guarantee
  • 为什么对您有用: 本文直接连接 hypothesis testing 与高维 selective inference 子方向,处理选模型后参数推断的 over-coverage 与无穷体积问题。用您 very_familiar 的高维渐近理论可以分析其 randomized group lasso 在不同 SNR 下的 selection probability 与置信域收敛率,验证 bounded volume 界的紧性。属于中期可做:需先在 moderately_familiar 的 M-estimation 理论上补充 quasi-likelihood 下 randomized objective 的渐近分析,再可切入其 selective point estimator 的 efficiency 比较。

6. 10.1214/25-ejs2479 · arXiv — Exact bounds of Spearman’s footrule in the presence of missing data with applications to independence testing

  • 作者: Yijin Zeng, Niall Adams, Dean Bodenham
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究缺失数据下 Spearman's footrule 的精确上下界。下界通过顺序构造插补序列得到,每次插补使得 footrule 值非增;上界通过考虑所有可能的插补值集合并逐步施加约束缩小搜索范围得到,复杂度分别为 O(n^2) 和 O(n^3)。基于这些界,提出一种新的两样本独立性检验方法,在任意缺失机制下均能控制第一类错误。模拟显示,当缺失对比例低于15%时,检验具有良好的功效。该方法为缺失数据下的非参数独立性检验提供了理论保证,尤其适用于观测数据中变量同时缺失的场景。对您而言,本文的精确界构造思路和检验方法可直接应用于因果推断中的混杂因素独立性检验或敏感性分析,属于您主要兴趣中的假设检验方向。
  • 关键技术: Spearman's footrule, exact bounds via imputation, two-sample independence test, missing data imputation, type I error control
  • 为什么对您有用: 本文直接关联您主要兴趣中的假设检验,尤其是非参数独立性检验。您非常熟悉的非参数统计和 minimax 界工具可以用于理解和评估本文的界构造;此外,该检验方法可应用于因果推断中处理缺失数据时的独立性验证(例如检验工具变量与未观测混杂的独立性假设),属于立即可做的事情——只需将您的非参数检验知识迁移到缺失数据设定即可。

7. 10.1214/25-ejs2418 · arXiv — Asymptotic properties of the maximum likelihood estimator for hidden Markov models indexed by binary trees

  • 作者: Julien Weibel
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Université de Tours · Université d'Orléans · CERMICS · Institut Denis Poisson
  • 分类: vol 19 · issue 2
  • 相关性 4/10 · novelty: new_theory
  • 摘要: 本文考虑二叉树索引的隐马尔可夫模型(HMM),其中隐状态空间为一般度量空间。基于仅观测到的变量,研究模型参数的极大似然估计(MLE)的渐近性质。在平稳和非平稳两个设定下,证明了在标准假设下MLE的强相合性和渐近正态性。这些标准假设要求初始分布相对于观测具有一致的指数遗忘性质。证明依赖于树索引马尔可夫链的遍历定理以及邻域依赖函数。该工作为树结构HMM的参数推断提供了理论基础。对于您关注的理论假设检验方向,理解非i.i.d.数据下MLE的渐近行为可为构建检验统计量提供依据。
  • 关键技术: maximum likelihood estimation, hidden Markov models indexed by binary trees, strong consistency, asymptotic normality, ergodic theorem for tree-indexed Markov chain, exponential memorylessness
  • 为什么对您有用: 本文的核心在于树索引HMM的MLE渐近理论,这与您对假设检验的兴趣紧密相关(渐近正态性可构造Wald型检验)。您 moderately_familiar 的M估计理论可用于类比分析,但由于树结构依赖,现有工具不足以直接处理,属于中期可做方向:需先在树索引马尔可夫链的遍历理论上提升。建议精读以拓展检验理论的应用边界。

8. 10.1214/25-ejs2425 — Projection-posterior for variable selection: Weak limit and coverage

  • 作者: Samhita Pal, Subhashis Ghosal
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: North Carolina State University
  • 分类: vol 19 · issue 2
  • 相关性 4/10 · novelty: new_method
  • 摘要: 论文研究多重线性回归中变量选择下的贝叶斯可信集渐近频率覆盖率。设定为稀疏线性模型,初始忽略变量选择,使用共轭正态先验;随后通过最小化加权ℓ2距离与ℓ1惩罚的稀疏诱导映射获得投影后验。方法的核心机制是利用投影后验替代自然共轭后验进行推断,通过构造使变量选择步骤直接融入后验分布。理论分析证明,当预测变量渐近不相关时,适当提高可信水平的区间能实现精确频率覆盖率;若不满足,可通过数据一致估计覆盖率。模拟实验和R包credInt提供了实现。对您可能有用:变量选择是高维统计的核心问题,本文的覆盖率为假设检验提供了新视角,可参考其投影后验思路改进因果推断中的变量筛选。
  • 关键技术: projection-posterior, sparse-inducing map, ℓ1-penalty, credible interval coverage, variable selection, Bayesian frequentist coverage
  • 为什么对您有用: 直接连接您高维统计中变量选择的方法兴趣,尤其投影后验的渐近理论可补充您对假设检验的理解。您武器库中的 minimax bounds 可用于检验本文覆盖率是否最优,但核心机器(贝叶斯变量选择渐近理论)属于 moderately_familiar 领域,中期可做:需先熟悉贝叶斯后验收敛性工具。

统计计算 / 算法 (stat_computing, 2 篇)

1. 10.1214/25-ejs2405 — An analysis of precision in estimation with the stochastic EM algorithm

  • 作者: Alexander B. Sharp, Ryan P. Browne
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: University of Waterloo
  • 分类: vol 19 · issue 2
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究随机EM(Stochastic EM)算法在参数估计中的精度问题。随机EM通过蒙特卡洛近似替换E步,以逃离局部极大值,但会牺牲单调性。现有两种估计策略:对马尔可夫链尾部取平均,或选取链中似然最大的值。作者证明后者在高维参数空间中会以高概率偏离最大似然估计(MLE),但在标量参数时链长精度更高。基于此,提出一种新估计量,理论证明其能在多维参数推断中达到与标量情形相同的精度。仿真实验表明,新方法在链长效率和估计准确性上均优于现有方法。对您而言,本文展示了高维情形下随机算法的精度-偏差权衡,其理论分析可迁移到因果推断中潜变量模型的EM实现(如工具变量或代理变量框架)。
  • 关键技术: Stochastic EM, Monte Carlo E-step, Tail averaging, Maximum likelihood estimator, High-dimensional divergence
  • 为什么对您有用: 本文直接对应您的主要兴趣方向“统计计算(数值方法与算法)”,具体是EM算法的随机变体精度分析。您中等熟悉的M-estimation理论可用于形式化S-EM的收敛性,而您非常熟悉的高维渐近工具可直接用于理解维度对估计量行为的影响(证明高维下链中最大值估计量发散)。综合看,阅读本文属于立即可做:您的M-estimation和高维渐近知识足以理解核心理论,并可尝试将类似的精度分析推广到因果推断中的潜变量EM算法(如proximal CI中的负对照模型)。

2. 10.1214/25-ejs2461 — Scalable solutions for crossed random-effect models with random slopes

  • 作者: Disha Ghandwani, Swarnadip Ghosh, Trevor Hastie, Art Owen
  • 期刊/来源: Electronic Journal of Statistics
  • 机构: Stanford University · Radix (United States)
  • 分类: vol 19 · issue 2
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在交叉随机效应模型下,目标是估计含随机斜率的方差成分与固定效应,克服标准算法 O(N^{3/2}) 的计算瓶颈。先前可扩展方法仅支持随机截距,本文引入随机斜率后,方差矩阵估计的计算量剧增,作者采用变分 EM(variational EM)算法实现可扩展求解。方法同时支持对角协方差与无结构协方差设定,仿真显示大 N 下速度远超 lme4 等标准软件,且比 OLS 更准确地刻画参数抽样不确定性。实证在 MovieLens 与 Stitch Fix(5M 观测)数据上验证了算法的可扩展性。对您有用:若您在纵向因果推断或推荐系统场景中需处理交叉随机效应,此算法提供了可扩展的计算方案。
  • 关键技术: crossed random effects, random slopes, variational EM algorithm, unstructured covariance estimation, scalable matrix computation
  • 为什么对您有用: 直接连接统计计算与纵向数据(primary interest 的 longitudinal CI 与 statistical computing 子方向),交叉随机效应是纵向/面板因果推断中常见的混杂结构,可扩展算法为大规模数据下的方差估计提供基础。用 very_familiar 的 software development 与 high-dimensional asymptotics 经验可评估其矩阵运算复杂度与收敛性(立即可做);若要在因果推断中嵌入此模型做 debiased estimation,需先在 moderately_familiar 的 semiparametric theory 上补课(中期可做)。

流行病学 (epidemiology, 1 篇)

1. 10.1214/25-ejs2450 · arXiv — Cross-validation approaches for multi-study predictions

  • 作者: Boyu Ren, Prasad Patil, Francesca Dominici, Giovanni Parmigiani, Lorenzo Trippa
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文关注多研究(multi-study)预测问题,即整合来自多个不同研究的数据以构建对新研究(unseen study)具有泛化能力的预测模型。作者提出两类交叉验证方法用于多研究 stacking(一种集成方法,线性组合各研究特定的基学习器),并证明在温和正则条件下,所提方法得到的堆叠预测函数具有 oracle 性质。此外,他们通过解析推导识别出相比传统数据复用的 stacking 能提升预测精度的情景。模拟实验验证了理论结果,并将方法应用于预测长期空气污染物暴露与死亡率的关系(实际流行病学数据集)。该论文的交叉验证设计与 oracle 分析思路对于处理异质性多源数据的泛化问题有参考价值,且其应用案例与您关注的流行病学数据集和预测建模需求直接相关。
  • 关键技术: multi-study stacking, leave-one-study-out cross-validation, K-fold cross-validation, oracle property, ensemble learning
  • 为什么对您有用: (1) 本文应用场景为预测死亡率与空气污染物暴露,属于流行病学中典型的多中心暴露-结局建模问题,与您对流行病学数据集的兴趣吻合。(2) 您可以用非常熟悉的非参数统计与 minimax 理论来检验所提 oracle 性质的紧性,或用高维渐近分析 stacking 权重的稳定性,这些都是您已有的工具。(3) 立即可做:您可以直接将本文的交叉验证策略移植到流行病学因果推断中的样本外预测或迁移学习问题中。

其他 (other, 1 篇)

1. 10.1214/25-ejs2466 · arXiv — Mixed semi-supervised generalized linear regression with applications to deep learning and interpolators

  • 作者: Oren Yuval, Saharon Rosset
  • 期刊/来源: Electronic Journal of Statistics
  • 分类: vol 19 · issue 2
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文提出一种混合半监督回归(mixed-SSL)方法,针对广义线性模型(GLM)和线性插值器,通过引入混合参数α控制未标记数据的权重,旨在提升回归预测性能。方法核心是设计多种整合未标记数据的机制(如基于模型插补和正则化惩罚),并证明在平方误差风险下,使用非零α始终优于纯监督学习。作者进一步给出最优α的渐近估计量,并证明其一致性。通过大量模拟和真实数据实验(包括深度神经网络回归),验证了该方法在多种设定下均能带来显著改进。对您可能有用:本文关于半监督整合的理论分析(风险分解、α的估计)可迁移到因果推断中利用未标记数据提高结果模型或倾向性评分精度的场景,与您关注的效率理论和U统计相结合可能产生新方向。
  • 关键技术: semi-supervised learning, generalized linear models, interpolators, risk decomposition, mixing parameter estimation, deep learning regression
  • 为什么对您有用: 本文的核心半监督回归框架与您在因果推断中利用辅助未标记数据提升估计效率的需求高度相关(例如在ATE估计中通过半监督学习改进结果回归模型)。技术方面,您可运用“非参数统计”和“高维渐近”工具分析其α估计的有限样本性质,特别是当模型为高维时。Follow-up判断:中期可做,您需要在“半参数理论”方向先熟悉半监督整合的误差分析方法,才能将此类半监督策略系统性地融入因果推断中。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论