EJS — Vol 18 Issue 1 · 2026-06-23¶

共 15 篇 · Electronic Journal of Statistics
目录核对 ⚠️ 疑似漏 52 篇（对照 OpenAlex 67 篇）：10.1214/24-ejs2217、10.1214/23-ejs2196、10.1214/24-ejs2219、10.1214/24-ejs2218、10.1214/24-ejs2258 等

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

本期内容围绕非参数与逆问题理论、高维随机矩阵与模型选择、以及假设检验与多重推断三条主线展开，同时涵盖因果推断、在线优化与统计计算等应用方向。非参数与逆问题方向汇集了五篇论文，涵盖线性逆问题最优加权、潜伏期分布估计、可逆回归极小极大率、稀疏可加模型分类以及离散 Copula 推断；高维与随机矩阵方向关注相依重尾矩阵和的维数自由界及 Tensor Ising 模型的有效估计；假设检验方向则涉及函数型协方差算子的传输 ANOVA、自适应方向性 FDR 控制以及基于 e-value 的后选择推断。

非参数与逆问题主线在方法论上推进显著。针对不适定线性逆问题，Optimal weighting for linear inverse problems 推导了使 MISE 最小的最优加权算子闭式表达，解决了 Tikhonov 正则化中加权与正则化参数的联合选择；Nonparametric estimation of the incubation time distribution 则处理潜伏期分布估计这一反向卷积问题，证明光滑泛函的 MLE 具有渐近正态性与更快收敛速度，并指出标准 Bootstrap 在此设定下不一致。两者均触及逆问题中正则化与渐近分布的核心难点。此外，Minimax Analysis for Inverse Risk in Nonparametric Planer Invertible Regression 证明了可逆性约束不改变双 Lipschitz 函数估计的极小极大收敛速率；Classification by sparse generalized additive models 将极小极大理论扩展至高维稀疏可加模型的分类场景。

高维统计与假设检验主线侧重于复杂结构下的推断界限。Dimension-free bounds for sums of dependent matrices and operators with heavy-tailed distributions 针对相依重尾矩阵和推导了仅依赖有效秩的维数自由上界，克服了传统浓度不等式对独立轻尾假设的依赖；Efficient estimation in tensor Curie-Weiss and Erdős-Rényi Ising models 则揭示了 Tensor Ising 模型中 MPLE 与 MLE 的 Bahadur 等效性及估计阈值。检验方面，Transportation-based functional ANOVA and PCA for covariance operators 利用最优多传输映射构建协方差算子齐性检验；Post-selection inference for e-value based confidence intervals 提出了 e-BY 过程，在任意依赖结构与选择标准下有效控制错误覆盖率；Adaptive procedures for directional false discovery rate control 证明了自适应程序在独立设定下对方向性 FDR 的强控制能力。

对于关注因果推断的研究者，Wilcoxon-Mann-Whitney statistics in randomized trials with non-compliance 在主分层框架下利用工具变量识别局部处理效应，并给出了敏感性分析界，最为贴切。对于关注半参数效率与非参数理论的读者，Optimal weighting for linear inverse problems、Nonparametric estimation of the incubation time distribution 以及 Copula-like inference for discrete bivariate distributions with rectangular supports（涉及算子可微性与 M 估计理论）值得优先阅读。对于高维与随机矩阵方向，Dimension-free bounds for sums of dependent matrices 一文提供的浓度不等式工具具有广泛的方法论价值。

因果推断 (causal_inference, 1 篇)¶

1. 10.1214/23-ejs2209 — Wilcoxon-Mann-Whitney statistics in randomized trials with non-compliance¶

作者: Lu Mao
期刊/来源: Electronic Journal of Statistics
机构: University of Wisconsin–Madison
分类: vol 18 · issue 1
相关性 8/10 · novelty: new_method
摘要: 本文研究随机试验中存在不可忽略依从性偏差时 Mann–Whitney 处理效应（MWTE）的因果识别与推断问题，目标 estimand 是 complier 群体上的局部随机优势参数 P(Y₁>Y₀)。作者采用 principal stratification 框架，将随机化分配作为 instrumental variable (IV)，通过两阶段方法识别并估计局部 MWTE。在排除限制和单调性假设可能被违反的设定下，作者推导了局部效应的 sensitivity bounds，给出了识别区域随假设违背程度的显式表达。渐近理论方面，作者证明了 IV-based MWTE 检验的渐近正态性，并推导了其与标准 intent-to-treat 检验的渐近相对效率界，在 location-shift alternative 下 IV-based 检验通常更优。实证部分使用 National Job Training Partnership Act 数据展示方法。对您而言，这是 IV 框架下非参数因果 estimand 与 sensitivity analysis 的具体应用案例，连接到因果推断中的 IV 与 sensitivity analysis 子方向。
关键技术: instrumental variable, principal stratification, Mann-Whitney treatment effect, sensitivity analysis, asymptotic relative efficiency, local average treatment effect
为什么对您有用: 本文直接连接到因果推断中的 IV 方法和 sensitivity analysis 子方向，将经典的 Wilcoxon-Mann-Whitney 统计量重新表述为因果 estimand 并在 non-compliance 设定下给出完整的识别—估计—敏感性分析—效率比较链条。您 very_familiar 的 estimation theory in causal inference 和 moderately_familiar 的 identification theory 可以直接用来审视其 IV identification 策略和 sensitivity bounds 的紧致性。立即可做：用您熟悉的 minimax bound 工具分析其 sensitivity bounds 是否可以进一步收紧，或用 semiparametric efficiency 理论检验其估计是否达到效率下界。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶

1. 10.1214/24-ejs2224 · arXiv — Dimension-free bounds for sums of dependent matrices and operators with heavy-tailed distributions¶

作者: Shogo Nakakita, Pierre Alquier, Masaaki Imaizumi
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 7/10 · novelty: new_method
摘要: 本文针对高维随机矩阵和的偏差不等式，允许观测矩阵之间存在时间依赖性且具有重尾分布，目标是在不假设独立同分布或轻尾的条件下得到维数自由的上界。核心方法结合两种技术：(i) 利用矩母函数对偶的变分近似来控制偏差概率，(ii) 通过对矩阵特征值进行截断以实现鲁棒化处理，从而克服重尾和依赖带来的技术困难。所得到的上界不显式依赖矩阵的维数，而仅依赖其有效秩，因此在高维场景中更具实用性。该结果推广了现有独立矩阵和的浓度不等式，并在协方差矩阵估计、隐马尔可夫模型和过参数化线性回归三个典型问题中展示了应用。对您而言，该工作直接对应 high-dimensional statistics 和 random matrix theory 中矩阵浓度不等式的核心问题，且依赖性与重尾假设更贴近实际数据，可辅助因果推断中高维敏感度分析的设计。
关键技术: variational approximation of dual MGF, eigenvalue truncation robustification, dimension-free bound, effective rank, dependent matrix concentration, heavy-tailed matrix
为什么对您有用: 本文直接对应于您在 high-dimensional statistics 和 random matrix theory 这一 primary interest 中的具体子方向——矩阵浓度不等式的维数自由界。您 very_familiar 武器库中的 high-dimensional asymptotics 和 minimax bounds 可以用来验证该文上界的最优性，或进一步推导更紧的常数。立即可做：利用熟悉的浓度不等式工具可以尝试将本文的界推广到更一般的相依结构（如 m-dependence 或 mixing），或用于改进因果推断中高维协方差矩阵估计的误差界。

2. 10.1214/24-ejs2255 — Efficient estimation in tensor Curie-Weiss and Erdős-Rényi Ising models¶

作者: Somabha Mukherjee, Jaesung Son, Swarnadip Ghosh, Sourav Mukherjee
期刊/来源: Electronic Journal of Statistics
机构: Bristol-Myers Squibb (Germany) · National University of Singapore · Columbia University · Radix (United States)
分类: vol 18 · issue 1
相关性 7/10 · novelty: new_theory
摘要: 本文研究 tensor Ising 模型（离散指数族，刻画网络上高阶依赖关系）中参数的估计问题，目标参数为温度参数 β。作者聚焦 tensor Curie-Weiss 模型，证明最大伪似然估计器（MPLE）在 Bahadur 效率意义下与不可计算的最大似然估计器（MLE）等价——在 2-spin 模型中全局成立，在更高阶 tensor 模型中当 null 参数 β₀ > log 2 时成立。核心发现是存在估计阈值：低于该阈值时一致估计不可能；在阈值与 log 2 之间的狭窄窗口内，除非 alternative 参数很大，否则 MPLE 与 MLE 仍等效率。结果推广至稀疏 Erdős-Rényi 超图 Ising 模型。对您有用：这是高阶交互网络模型中计算-统计权衡的精确刻画，MPLE 作为多项式时间算法达到了信息论最优效率。
关键技术: tensor Ising model, maximum pseudolikelihood estimator (MPLE), Bahadur efficiency, estimation threshold, Curie-Weiss model, Erdős-Rényi hypergraph
为什么对您有用: 直接连接到您 primary interest 中的 high-dimensional statistics 与 statistical-computational tradeoff：本文精确刻画了多项式时间可计算的 MPLE 何时达到信息论最优（Bahadur 效率），是典型的 computation-statistics gap 问题。您武器库中 very_familiar 的「computation of higher-order U-statistics (treewidth / tensor contraction / einsum)」可直接用于分析该模型中高阶交互项的计算复杂度——tensor Ising 模型的 partition function 恰好涉及高阶张量收缩。立即可做：用您的 treewidth / tensor contraction 视角重新审视 MPLE 的计算成本，或探索更高阶 spin 模型中估计阈值的 tightness。

非参数 / 半参数 (nonparam_semipara, 6 篇)¶

1. 10.1214/23-ejs2197 — Optimal weighting for linear inverse problems¶

作者: Jean-Pierre Florens, Senay Sokullu
期刊/来源: Electronic Journal of Statistics
机构: Université Fédérale de Toulouse Midi-Pyrénées · University of Bristol · The Priory Hospital
分类: vol 18 · issue 1
相关性 9/10 · novelty: new_theory
摘要: 研究线性逆问题中估计量的最优加权算子选择，设定为 Hilbert 空间上的线性算子方程，解不连续（ill-posed），需正则化。核心贡献是推导出使 MISE 最小的最优加权算子的闭式表达，并据此构造可行的最优估计量。技术路线涉及 Tikhonov 正则化、算子谱分解、MISE 渐近展开，给出最优正则化参数与加权算子的联合选择准则。模拟显示小样本下 MISE 改进显著。对您有用：这是 inverse problems with random noise 方向的经典理论问题，与您 very_familiar 的 inverse problems 工具直接对接。
关键技术: Tikhonov regularization, optimal weighting operator, MISE minimization, operator spectral decomposition, ill-posed inverse problems, functional linear equations
为什么对您有用: 直接连接您 very_familiar 的 inverse problems with random noise，涉及正则化参数选择与算子估计的最优性。可用 minimax bounds 工具验证其声称的 optimality 是否在更广的函数类下成立，或拓展到高维设定。立即可做：用熟悉的 inverse problems 和 minimax 理论框架即可动手。

2. 10.1214/24-ejs2243 · arXiv — Nonparametric estimation of the incubation time distribution¶

作者: Piet Groeneboom
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 8/10 · novelty: new_theory
摘要: 本文研究疾病潜伏期分布的非参数估计问题，目标是在不假设参数形式（如Weibull或Gamma）下估计潜伏时间的分布函数。由于观测数据存在删失或反向卷积结构，该问题本质上是逆问题，传统的非参数MLE的极限分布非正态（如Chernoff分布）。然而，作者证明对于光滑泛函（如分布函数的积分或局部均值），MLE对应的泛函具有渐近正态分布和更快的收敛速度。方法上采用非参数MLE结合光滑泛函，并讨论使用平滑bootstrap构造置信区间，因为经典bootstrap在此设定下被证明不一致。理论结果包括极限分布的正态性和收敛速率。该工作直接连接到您的primary interest中的非参数理论和逆问题，技术工具（非参数MLE、Chernoff分布、bootstrap）与您的武器库中的inverse problems with random noise高度契合。
关键技术: nonparametric MLE, smooth functionals, Chernoff distribution, smoothed bootstrap, inverse problems, incubation time distribution
为什么对您有用: 本文属于非参数逆问题中的经典理论，直接对应您的primary interest中的非参数统计和逆问题方向。您所熟悉的inverse problems with random noise和minimax bounds工具可直接用于理解文中MLE泛函的收敛率是否达到最优。这是一篇值得精读的经典论文，可加深对非参数逆问题中光滑泛函渐近性质的理解，且为后续在流行病学潜伏期估计中的应用提供理论支撑（属于secondary interest epidemiology），但核心仍是理论贡献。

3. 10.1214/23-ejs2202 · arXiv — Minimax Analysis for Inverse Risk in Nonparametric Planer Invertible Regression¶

作者: Akifumi Okuno, Masaaki Imaizumi
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 8/10 · novelty: sharper_rate
摘要: 本文在二维平面上研究非参数可逆回归（invertible regression）的minimax风险，目标是在保持估计量本身可逆的前提下估计一个双Lipschitz函数及其逆函数。首先定义了两类L^2风险来评估可逆估计量的表现——一类针对函数本身，一类针对逆函数。接着推导了这两个风险的minimax下界和上界：下界通过构造一个硬子集和Fano不等式得到，上界则利用level-set表示构造了一个几乎处处可逆的估计量，并证明该估计量的风险达到下界（仅差对数因子）。关键结论是：可逆性这一形状约束并不会改变估计的非参数收敛速率——该速率与不要求可逆性的双Lipschitz函数的minimax率相同。证明技术依赖于水平集几何和光滑性假设，没有使用复杂的经验过程工具。对于您而言，该工作直接给出了一个非参数minimax分析的新设定（可逆函数族），且结论“可逆性不增加速率复杂度”具有理论洞察，可以与您非常熟悉的minimax界推导技术无缝对接。
关键技术: minimax lower bound via Fano's inequality, level-set representation, bi-Lipschitz function class, L^2 risk for inverse estimation, sieve estimator with invertibility constraint
为什么对您有用: (1) 直接属于您的primary interest“非参数统计”和“minimax bounds for estimation problems”——这是一篇纯理论minimax分析论文，研究可逆函数这一新的形状约束。 (2) 您的technical_arsenal中“nonparametric statistics”和“minimax bounds for estimation problems”均为very_familiar，恰好可以立即可做地复现并尝试推广该结论到更高维度（如d维平面），或者验证其对数因子是否可以去除。 (3) 该工作没有引入高维或随机矩阵工具，门槛低，适合作为深入阅读——但注意设定仅限于二维，扩展性待评估。

4. 10.1214/24-ejs2246 · arXiv — Classification by sparse generalized additive models¶

作者: Felix Abramovich
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 7/10 · novelty: new_method
摘要: 本文考虑稀疏广义可加模型（SpAM）用于二分类问题。模型假设类别对数几率由未知的加性函数构成，每个加性分量用正交基（如 Fourier、小波）展开，并通过 group Lasso/Slope 型惩罚实现稀疏性和光滑性的自适应选择。在稀疏组特征值条件下，证明了所提分类器在整个解析、Sobolev 和 Besov 函数类上达到几乎极小极大最优率（仅差对数因子）。模拟和实际数据实验验证了方法在有限样本下的表现。本文的理论分析将高维非参数估计的极小极大下界技术扩展到分类损失场景，对您在高维统计和非参数理论方面的研究有直接参考价值（可用 minimax 界验证其率的紧性）。
关键技术: sparse additive models, group Lasso, Slope penalty, logistic loss, minimax rate, orthonormal series expansion
为什么对您有用: 本文属于高维非参数统计方向，直接关联您的主要兴趣“非参数理论”和“高维统计”。所需武器如 minimax 下界技术和 high-dimensional asymptotics 您已熟悉（very_familiar），可立即用于评估其定理中率的紧性或扩展至其他损失函数。中期可进一步利用 HOIF 思想处理加性分量间交互的推断问题。

5. 10.1214/24-ejs2261 · arXiv — Copula-like inference for discrete bivariate distributions with rectangular supports¶

作者: Ivan Kojadinovic, Tommaso Martini
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 4/10 · novelty: new_theory
摘要: 本文研究有限支撑上二元离散分布的 copula 分解问题，目标是将联合 pmf 分解为边缘分布与具有均匀边缘的离散 copula。核心工具是 Csiszár I-projection，通过 IPFP（Sinkhorn 算法）在 Fréchet 类上迭代求解。作者给出了 I-projection 关于参数的可微性结果，这是推导估计量渐近分布的关键。提出了非参数和参数两种估计程序，以及相应的 goodness-of-fit 检验，证明了估计量的 CAN 性质和检验的渐近水平/功效。对您而言，这是 semiparametric theory 中关于算子可微性与 M-估计渐近理论的具体案例。
关键技术: I-projection, IPFP / Sinkhorn algorithm, Fréchet class, differentiability of operators, goodness-of-fit test, M-estimation theory
为什么对您有用: 连接到 semiparametric theory 的算子可微性框架，I-projection 的可微性结果与您熟悉的 M-estimation theory 直接相关。IPFP 的收敛性与计算复杂度可用您 very_familiar 的 tensor contraction / einsum 视角分析（迭代矩阵缩放本质是逐行列归一化）。立即可做：用 very_familiar 的 M-estimation theory 和 software development 能力即可复现或扩展。

6. 10.1214/24-ejs2229 · arXiv — Multiclass classification for multidimensional functional data through deep neural networks¶

作者: Shuoyang Wang, Guanqun Cao
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 3/10 · novelty: new_theory
摘要: 研究问题是在多维函数数据（图像、视频等）设定下的多分类问题，目标是通过 DNN 构造分类器并建立 excess risk 的收敛速率理论。方法核心是 sparse deep ReLU neural network 配合 cross-entropy loss，针对函数数据的无限维特性设计分类架构。理论贡献包括：在 fully observed 和 discretely observed 两种情形下，推导了 misclassification excess risk 的收敛速率，依赖于函数数据的 smoothness 参数和网络逼近误差分析。实证部分通过模拟和多个 benchmark 数据集验证方法效果。对您在 nonparametric theory 和 minimax bounds 方面的兴趣有直接参考价值。
关键技术: sparse deep neural network, ReLU activation, cross-entropy loss, excess risk convergence rate, functional data classification, multidimensional domain
为什么对您有用: 本文属于 nonparametric statistics 与 deep learning theory 的交叉，涉及 excess risk rate 的理论分析——这与您 very_familiar 的 minimax bounds for estimation problems 有直接技术连接。您可以用 minimax 理论审视其声称的收敛速率是否紧，或用 moderately_familiar 的 M-estimation theory 分析其优化 landscape。中期可做：需先在 deep learning theory 的 approximation-generalization 分析框架上补充背景（如 neural tangent kernel、Rademacher complexity for DNN），目前武器库中缺少深度学习理论的标准工具。

数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶

1. 10.1214/24-ejs2253 · arXiv — Post-selection inference for e-value based confidence intervals¶

作者: Ziyu Xu, Ruodu Wang, Aaditya Ramdas
期刊/来源: Electronic Journal of Statistics
机构: University of Waterloo · Carnegie Mellon University
分类: vol 18 · issue 1
相关性 6/10 · novelty: new_method
摘要: 后选择推断中，当数据依赖地选择参数子集时，原始置信区间因选择偏差而失效，传统Benjamini-Yekutieli (BY) 方法对选择标准和依赖结构有严格限制。本文提出e-BY过程，它仅适用于一类特殊但广泛的置信区间——基于e值的置信区间（e-CIs），例如由超鞅、通用推断或Chernoff界限构建的区间。该方法只需报告(1-δ|S|/K)-CI，即可在任意依赖结构和任意未知选择标准下控制错误覆盖率（FCR），无需任何额外假设。理论上证明了e-BY是可容许的，且通过特定标定器可还原BY过程。该方法还自然适用于序列检验、停机时间、连续监测的置信序列和bandit采样等动态场景。模拟与Twitter A/B测试数据验证了有效性。对您的假设检验兴趣直接相关，e值框架也为因果推断中的自适应选择或多重比较提供了新思路。
关键技术: e-values, FCR control, post-selection inference, supermartingale methods, universal inference, Chernoff-style bounds, confidence sequences
为什么对您有用: 直接连接您的假设检验兴趣，特别是后选择推断中FCR控制这一经典问题。e值构造方法（超鞅、通用推断）与您非常熟悉的nonparametric statistics和高维渐近工具兼容，可用这些框架分析e-CIs的渐近效率。立即可做：您可直接将e-BY方法应用于因果推断中的敏感性分析或交互式多重比较，无需额外学习复杂计算。

2. 10.1214/24-ejs2213 · arXiv — Adaptive procedures for directional false discovery rate control¶

作者: Dennis Leung, Ninh Tran
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 6/10 · novelty: new_theory
摘要: 在多假设检验中，自适应程序通过估计真零假设比例 π₀ 来提高功效。本文在独立检验统计量的设定下，研究两种经典自适应FDR控制方法（如Storey's adaptive procedure）在同时声明符号（方向）时对方向性FDR（FDR_dir）的控制能力。作者证明，在独立假设下，这些自适应方法能在强意义下控制FDR_dir，即控制错误地声明非零效应方向的比例。这一结果尤其重要，因为当参数配置中真零假设较少时（真实效应占多数），自适应程序具有最大的功效增益潜力，而此时的FDR_dir比传统FDR更有意义。理论证明依赖于π₀估计的一致性和BH阈值调整，并利用独立假设下的p值联合分布。本文为自适应多重比较中方向性决策提供了坚实的理论保证，直接连接研究者的假设检验兴趣，特别是多重比较方向性错误控制这一子方向。
关键技术: adaptive FDR control, directional false discovery rate (FDR_dir), true null proportion estimation, sign declarations, strong control
为什么对您有用: 本文直接关联研究者对假设检验（多重比较方向性决策）的兴趣。研究者非常熟悉的高维渐近工具（high-dimensional asymptotics）可用于分析π₀估计的一致性及其对FDR_dir控制的影响，也可检验独立假设的敏感性。基于现有武器库（非参数统计、高维渐近），研究者可以立即理解并评估本文结果，进而考虑在更一般的依赖结构下推广，属于立即可做的工作。

3. 10.1214/24-ejs2240 · arXiv — Transportation-based functional ANOVA and PCA for covariance operators¶

作者: Valentina Masarotto, Victor M. Panaretos, Yoav Zemel
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 5/10 · novelty: new_method
摘要: 本文针对多组随机过程样本的二阶结构（协方差算子）是否相等的问题，提出了基于最优多传输（optimal multitransport）的假设检验方法——传输ANOVA。核心思路是将每个协方差算子与一个中心高斯过程对应，通过构造这些高斯过程的最优同时耦合，将耦合中的线性映射与恒等映射在某种范数诱导距离下进行对比，从而构建检验统计量。该方法通过置换检验校准p值，且被证明在局部备择假设下仍具有显著功效，优于现有方法。当拒绝原假设后，进一步利用传输映射的几何结构在切空间上进行PCA（传输PCA），揭示协方差变异的主要模式。作为理论准备，文中证明了最优多传输映射的存在性和有界性，这对高斯过程传输理论也有独立意义。对于您而言，该方法提供了一种创新的非参数假设检验工具来处理高维/函数型数据的协方差结构比较问题，与您对假设检验和非参数统计的兴趣直接相关。
关键技术: optimal transport, covariance operators, functional ANOVA, permutation test, tangent space PCA, Gaussian process coupling
为什么对您有用: 该论文直接连接到您对假设检验的兴趣，特别是检验多个样本的二阶结构是否相等这一非参数问题。您可以利用武器库中的非参数统计和高维渐近工具来分析本文检验统计量的渐近分布（目前仅用置换检验），进而可能推导解析p值或改进功效。当前属于中期可做：需要先熟悉最优传输的理论细节（不在当前武器库中，但学习成本不高），之后可结合您熟悉的U统计量或经验过程技巧给出更深刻的渐近结果。

统计计算 / 算法 (stat_computing, 1 篇)¶

1. 10.1214/24-ejs2223 — Renewable Huber estimation method for streaming datasets¶

作者: Rong Jiang, Lei Liang, Keming Yu
期刊/来源: Electronic Journal of Statistics
机构: Donghua University · Anqing Normal University · Brunel University of London
分类: vol 18 · issue 1
相关性 4/10 · novelty: new_method
摘要: 本文研究流数据场景下的鲁棒回归估计与变量选择问题，采用Huber损失函数以抵抗重尾误差和异常值。针对Huber损失一阶导数不可微导致的可更新估计困难，提出一种平滑版本的一阶导数，并设计快速可扩展的在线优化算法。该方法仅需当前数据批次和历史汇总统计量即可实现参数更新，无需存储全量数据。理论上证明，所提统计量与基于全数据批次的标准化估计具有相同的渐近性质。模拟和真实数据分析验证了有限样本表现。该可更新框架与您熟悉的统计计算和算法开发实践高度契合，尤其适用于大规模流式数据场景。
关键技术: renewable estimation, Huber loss, robust regression, streaming data, smoothed derivative, online optimization
为什么对您有用: 该论文直接对应您主要兴趣中的统计计算（流数据算法），其可更新估计框架与您熟悉的软件开发和数值方法相通。您的高维渐近理论和统计计算经验可用于分析其算法收敛性及扩展至更复杂模型。立即可做：您可基于现有武器实现并比较该方法与其他流数据鲁棒回归方法。

其他 (other, 2 篇)¶

1. 10.1214/23-ejs2208 · arXiv — Stochastic online convex optimization. Application to probabilistic time series forecasting¶

作者: Olivier Wintenberger
期刊/来源: Electronic Journal of Statistics
分类: vol 18 · issue 1
相关性 5/10 · novelty: sharper_rate
摘要: 本文提出随机在线凸优化（OCO）的统一框架，旨在获得快速率的随机遗憾界。作者证明在线牛顿步（ONS）和无尺度的Bernstein在线聚合算法在无界随机环境下达到了当前已知最优遗憾率。该框架应用于校准非平稳次高斯时间序列的概率预测器参数，得到的遗憾界具有任意时间有效性。证明过程结合了自界不等式和针对鞅与次高斯随机变量的泊松不等式，核心假设是随机exp-凹性。该方法在理论上保证了参数校准的渐近最优性。对于专注因果推断与高维统计的研究者来说，该论文主题（在线学习与时间序列预测）与核心兴趣的直接关联较弱，但其中涉及的优化理论和概率不等式可作为方法论储备。
关键技术: stochastic online convex optimization, online Newton steps, Bernstein online aggregation, self-bounded inequalities, exponential concavity, time series calibration
为什么对您有用: 本文属于统计学习中的在线优化与时间序列预测，与主要兴趣无直接重叠。但研究者对统计计算（算法）有兴趣，本文的算法分析和遗憾界证明是方法论参考。不过，当前武器库中的'nonparametric statistics'和'high-dimensional asymptotics'无法直接处理在线学习的鞅极限结构，中等熟悉的'M-estimation theory'虽提供部分联系，但仍需补充鞅不等式和在线学习专用工具。因此判为暂不可做，可作为统计计算方向的拓展阅读。

2. 10.1214/24-ejs2231 — Gaussian random fields on the product of spheres: Theory and applications¶

作者: Alfredo Alegría, Galatia Cleanthous, Athanasios G. Georgiadis, Emilio Porcu, Philip A. White
期刊/来源: Electronic Journal of Statistics
机构: Federico Santa María Technical University · National University of Ireland, Maynooth · Trinity College Dublin · Khalifa University of Science and Technology · Brigham Young University
分类: vol 18 · issue 1
相关性 4/10 · novelty: new_theory
摘要: 本文研究乘积球面（如 S^d × S^d）上的高斯随机场，通过协方差函数刻画样本轨迹的正则性与 Hölder 连续性。利用 Karhunen–Loève 展开的截断近似来逼近随机场，并给出近似误差的理论上界。数值模拟验证了截断阶数与近似精度之间的权衡。在实证部分，采用每小时风速数据和全球空间-时间云覆盖数据，在贝叶斯框架下用截断级数近似的协方差函数进行建模，展示了该模型在球面空间数据中的适用性。对于研究者的统计计算兴趣，该文的级数近似与截断方法可作为处理大规模球面协方差矩阵的数值技巧；而其中的 Hölder 连续性分析工具可迁移至非参数回归中的光滑性假设检验。总体而言，该文为乘积球面高斯过程提供了系统的理论与计算框架，适合作为球面空间统计的参考。
关键技术: Karhunen–Loève expansion, Hölder continuity, truncated series approximation, Bayesian inference on spheres, covariance function on product manifolds
为什么对您有用: 1) 研究者对统计计算（数值方法）有次要兴趣，该文的级数截断近似、误差界及模拟实验直接涉及高效近似大尺度协方差矩阵，可视为入门球面计算方法的素材。2) 研究者的技术栈中“非参数统计”与“高维渐近”较为熟悉：文中使用 Hölder 正则性和 Karhunen–Loève 展开展开，这些工具可试用于非参数回归中光滑参数的选择或假设检验。3) 文中的乘积球面模型在宇宙微波背景（CMB）等天文球面数据上有潜在应用（属研究者次要兴趣 astrostatistics），但本文未使用天文数据，因此作为 gateway reading 的评分中等（需额外补天文学背景）。

Maintained by 陈星宇 · Homepage · Source on GitHub