跳转至

Model Sweep — 2026-05-16 (jmlr)

固定 rich prompt + 最佳可用内容(HTML/PDF > full abstract),沿 model 维度横向对比:deepseek-chat, glm-5.1, deepseek-reasoner.

Token 总览(in / out per model): - deepseek-chat: 14801 / 3079 - glm-5.1: 14947 / 13629 - deepseek-reasoner: 14801 / 8826

jmlr:v27/22-0483 — The surrogate Gibbs-posterior of a corrected stochastic MALA: Towards uncertainty quantification for neural networks

  • 作者: Sebastian Bieringer, Gregor Kasieczka, Maximilian F. Steffen, Mathias Trabs
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文针对贝叶斯神经网络的不确定性量化问题,提出了一种修正的随机MALA(csMALA)算法。该算法在标准sMALA的基础上引入一个简单的修正项,旨在使算法生成的代理后验分布与目标吉布斯后验分布之间的差异随总样本量增大而减小,同时保持对大数据的可扩展性。在非参数回归模型中,作者为代理后验证明了PAC-Bayes oracle不等式。理论分析表明,对于浅层网络,代理后验生成的置信球具有可控的直径和覆盖率;对于深度网络,代理后验能达到最优的收缩速率。模拟实验在高维参数空间验证了csMALA估计器的实际优势。这项工作为贝叶斯神经网络的可靠不确定性量化提供了新的计算工具,对您可能有用的是其将MCMC算法与PAC-Bayes理论结合的分析框架,可用于统计计算中算法收敛性保证的研究。

key_techniques: corrected stochastic MALA (csMALA), Gibbs-posterior, PAC-Bayes oracle inequality, credible ball coverage, optimal contraction rates, Bayesian neural networks

为什么相关: 直接关联您对统计计算(数值方法、算法)的兴趣,特别是MCMC算法在高维/复杂模型(如神经网络)中的收敛性与不确定性量化理论,提供了将算法设计与非参数理论结合的分析范例。


model=deepseek-chat · source=abstract-full · tokens in/out = 1489/326 · 127.8s
glm-5.1 topic: stat_computing

摘要: 在 Gibbs 后验框架下,针对大规模数据集上 stochastic MALA (sMALA) 导致目标分布偏移的问题,本文提出 corrected sMALA (csMALA),通过简单修正项使 surrogate 后验与原始 Gibbs 后验的距离随全样本量递减,同时保持可扩展性。在非参数回归模型中,作者证明了 surrogate 后验的 PAC-Bayes oracle 不等式;对浅层神经网络分析了 credible ball 的直径与覆盖度,对深层神经网络证明了最优收缩率(contraction rate)。其中 credible ball 覆盖结果独立于修正项,也适用于标准 Gibbs 后验。高维参数空间模拟验证了 csMALA 估计量的实际优势。对您而言,该文在统计计算(MCMC 算法修正)和非参数理论(PAC-Bayes 收缩率)的交叉处提供了新工具,可迁移至高维推断场景。

key_techniques: stochastic gradient MCMC, PAC-Bayes oracle inequality, Gibbs posterior, credible ball coverage, optimal contraction rate, Metropolis-adjusted Langevin algorithm

为什么相关: 涉及统计计算(可扩展 MCMC 算法设计)与非参数理论(PAC-Bayes 收缩率、credible ball 覆盖),对您在非参数效率界与高维推断的计算实现有方法迁移价值。


model=glm-5.1 · source=abstract-full · tokens in/out = 1499/654 · 73.5s
deepseek-reasoner topic: stat_computing

摘要: 在贝叶斯神经网络的背景下,本文旨在解决随机MALA(sMALA)算法产生的代理后验与目标吉布斯后验之间的偏差问题。作者提出了一种修正的随机MALA(csMALA),通过引入一个简单的修正项,使得代理后验与真实后验的距离随全样本量增加而减小,同时保持了算法的可扩展性。在非参数回归模型中,他们为代理后验证明了PAC-Bayes oracle不等式。理论分析涵盖了浅层神经网络的置信球直径与覆盖性,以及深层网络的最优收缩率。高维参数空间的模拟研究表明,基于csMALA代理后验的估计器在实践中具有理论优势。该方法为大规模贝叶斯推断提供了可扩展且理论可靠的MCMC算法,对您统计计算中关于数值方法与算法的研究有参考价值。

key_techniques: corrected stochastic MALA (csMALA), PAC-Bayes theory, uncertainty quantification for Bayesian neural networks, MCMC in high-dimensional parameter space, surrogate Gibbs-posterior, credible ball analysis

为什么相关: 连接至您对统计计算(数值方法、算法)的兴趣,特别是大规模贝叶斯推断的MCMC算法。论文提供了具有理论保证(收缩率、覆盖性)的可扩展采样方法,其算法设计与分析思路可能对您处理其他高维或复杂模型的数值计算问题有启发。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1489/793 · 349.8s

jmlr:v27/23-0274 — Online Detection of Changes in Moment--Based Projections: When to Retrain Deep Learners or Update Portfolios?

  • 作者: Ansgar Steland
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: hypothesis_testing

摘要: 本文研究在高维非平稳时间序列数据下,基于二阶矩投影的在线变化点检测问题,用于触发深度学习模型的重训练或投资组合的更新。核心方法是将网络预测的监控问题转化为对投影后二阶矩的序列监控,提出了开环和闭环监控规则。理论基于投影部分和的高斯近似,允许使用估计的投影向量,并分析了在经典非稀疏和稀疏设定下的投影向量估计。主要结果为监控统计量在原假设和备择假设下的渐近分布提供了理论保证,允许训练数据非独立同分布。该方法通过模拟和合成数据实验验证。对您可能有用:它将假设检验中的序列分析/变化点检测与高维统计和统计计算结合,为监控复杂模型(如深度学习)的性能漂移提供了严格的数学框架。

key_techniques: sequential monitoring, change-point detection, projected second moments, Gaussian approximation of partial sums, high-dimensional time series, non-stationary data

为什么相关: 直接关联您对数学统计(假设检验)和统计计算的兴趣,特别是序列分析和变化点检测在高维非平稳数据下的理论扩展,其方法框架可迁移至监控其他统计或因果模型的稳定性。


model=deepseek-chat · source=abstract-full · tokens in/out = 1464/297 · 22.1s
glm-5.1 topic: hypothesis_testing

摘要: 本文研究高维非平稳时间序列下基于投影二阶矩的在线变点监测问题,旨在决定深度学习模型何时需重训练或投资组合何时需更新。提出了开环与闭环序贯监测规则,在训练样本与监测期观测的温和假设下,利用投影部分和的Gaussian逼近处理含估计投影向量的情形。针对最优投影依赖未知协方差矩阵的情况,分别在经典非ℓ₀稀疏与稀疏假设下研究了投影向量的估计,并分析了硬/软阈值化估计量的性质。理论结果证明了监测程序在非独立同分布高维数据下的渐近性质,仿真与合成数据实验支持了方法的有效性。对您有用:该文将高维假设检验(序贯监测)与稀疏估计结合,且涉及投资组合更新的经济理论应用,直接契合您对假设检验、高维统计及经济理论应用的研究兴趣。

key_techniques: sequential monitoring, projected partial sums, Gaussian approximation, high-dimensional time series, sparse projection estimation, change-point detection

为什么相关: 将高维假设检验(序贯监测)与稀疏估计结合,并涉及投资组合更新的经济理论应用,直接契合您对假设检验、高维统计及经济理论应用的研究兴趣。


model=glm-5.1 · source=abstract-full · tokens in/out = 1480/1481 · 32.8s
deepseek-reasoner topic: hypothesis_testing

摘要: 该研究在非平稳高维时间序列设定下,提出了一种基于投影二阶矩的在线监控方法,用于检测数据分布变化并触发深度神经网络的重训练或投资组合的更新。核心方法基于投影部分和的高斯近似,允许使用估计的投影向量,并研究了开环和闭环两种监控规则。理论分析在温和假设下进行,支持高维非i.i.d.训练数据,并探讨了在经典非稀疏和稀疏设定下的投影向量估计问题,包括对未知协方差矩阵依赖时的硬阈值和软阈值估计。主要贡献是建立了监控统计量的渐近理论,并通过模拟实验验证了方法的有效性。对您可能有用的是,它将经典的假设检验框架(如CUSUM)扩展到了高维、非平稳的投影矩监控问题,与您在数学统计和假设测试方面的兴趣直接相关。

key_techniques: projected second moments monitoring, Gaussian approximation of projected partial sums, open-end and closed-end monitoring rules, hard- and soft-thresholded estimators, high-dimensional non-stationary time series, change-point detection

为什么相关: 直接关联您对数学统计和假设测试(primary interest)的研究兴趣。论文提供了一个将经典假设检验(监控/变化点检测)框架应用于高维、非平稳序列并建立严格渐近理论的案例,其监控规则的设计和渐近分析技术对您研究纵向因果推断中的稳定性检验或模型漂移检测可能有方法上的启发。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1464/734 · 201.4s

jmlr:v27/23-0737 — Efficient frequent directions algorithms for approximate decomposition of matrices and higher-order tensors

  • 作者: Maolin Che, Yimin Wei, Hong Yan
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文在 Frequent Directions (FD) 算法框架下,为低秩矩阵近似开发了两种高效算法,分别基于稀疏嵌入矩阵与标准高斯矩阵的乘积,以及稀疏嵌入矩阵与子采样随机 Hadamard 变换 (SRHT) 矩阵的乘积。理论分析基于标准高斯矩阵奇异值的界,以及 SpEmb 和 SRHT 矩阵的现有理论结果。对于高阶张量,作者进一步提出了基于 FD 的随机化变体,用于计算给定 Tucker 秩的张量近似 Tucker 分解(T-HOSVD 和 ST-HOSVD),以及计算给定 TT 秩的张量近似 TT 分解。算法在合成和真实矩阵/张量数据上验证了其效率和精度。对您可能有用:该工作属于统计计算中的高效数值算法,其核心的随机化低秩近似技术可迁移至高维统计推断或因果估计中的大规模协方差/设计矩阵处理。

key_techniques: Frequent Directions (FD), sparse embedding (SpEmb), subsampled randomized Hadamard transform (SRHT), Tucker decomposition, tensor-train (TT) decomposition, randomized low-rank approximation

为什么相关: 连接您的 primary interest 'statistical computing (numerical methods, algorithm)'。该文提供了具体的高效随机化矩阵/张量分解算法,其技术(如 SRHT、稀疏嵌入)可用于加速高维统计或因果推断中的大规模矩阵运算,是实用的计算工具。


model=deepseek-chat · source=abstract-full · tokens in/out = 1467/354 · 21.2s
glm-5.1 topic: stat_computing

摘要: 在 frequent directions (FD) 框架下,本文研究低秩矩阵与高阶张量的随机近似分解,核心设定为混合 sketching 嵌入(SpEmb+Gaussian 或 SpEmb+SRHT)下的奇异值界。提出两种高效 FD 矩阵低秩近似算法,利用高斯矩阵奇异值界及 SpEmb/SRHT 理论保证近似精度。进一步将 FD 推广至高阶张量,设计基于 FD 的随机化 T-HOSVD、ST-HOSVD(Tucker 分解)及 Tensor-Train 分解算法。理论上给出了混合嵌入下的奇异值界证明,合成与真实数据验证了算法在效率与精度上的权衡。对您有用:直接契合您在 statistical computing (numerical methods, algorithm) 方向的兴趣,提供了高维矩阵与张量降维的高效数值算法,其奇异值界分析对高维统计计算有参考价值。

key_techniques: frequent directions, randomized matrix sketching, sparse embedding, subsampled randomized Hadamard transform, Tucker decomposition, Tensor-Train decomposition

为什么相关: 契合您在 statistical computing (numerical methods, algorithm) 方向的兴趣,提供了高维矩阵与张量降维的高效随机化数值算法,其奇异值界分析对高维统计计算有参考价值。


model=glm-5.1 · source=abstract-full · tokens in/out = 1478/1430 · 32.2s
deepseek-reasoner topic: stat_computing

摘要: 在频繁方向(FD)算法框架下,针对低秩矩阵和张量的近似分解,设计计算高效的随机化算法。核心是使用稀疏嵌入(SpEmb)矩阵与标准高斯矩阵或子采样随机哈达玛变换(SRHT)矩阵的乘积作为嵌入矩阵,其理论保证基于这些矩阵的奇异值界。算法随后扩展到张量分解,在给定Tucker秩下,提出了基于FD的随机化T-HOSVD和ST-HOSVD变体;在给定TT秩下,提出了基于FD的随机化TT分解算法。实验在合成和真实矩阵/张量数据上验证了算法的效率与精度。对您可能有用:该工作属于统计计算中的数值线性代数与张量计算,为处理大规模张量数据的压缩与降维提供了具体的算法设计思路。

key_techniques: Frequent Directions (FD) algorithm, Sparse embedding matrices (SpEmb), Subsampled Randomized Hadamard Transform (SRHT), Tucker decomposition, Tensor-Train (TT) decomposition, Randomized algorithms

为什么相关: 连接您对统计计算(数值方法、算法)的兴趣,提供了针对大规模矩阵和张量数据的高效近似分解算法,其随机化与嵌入技术对高维数据降维有参考价值。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1467/787 · 46.5s

jmlr:v27/23-1023 — Identifying Weight-Variant Latent Causal Models

  • 作者: Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Anton van den Hengel et al.
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: causal_inference

摘要: 该研究聚焦于因果表示学习中的可识别性问题,旨在从观测数据中恢复具有瞬时因果关系的潜在因果变量。模型设定为线性高斯模型,其因果系数与高斯噪声的分布由一个额外的观测变量所调制。核心识别条件包括存在一个“参考条件”,在该条件下潜在因果影响消失,从而克服了由传递性导致的不可识别性。理论结果表明,在此条件下,潜在因果变量可被识别至平凡的置换与尺度变换;即使部分变量违反参考条件,仍可获得部分识别结果。基于此,作者提出了SuaVE(Structural caUsAl Variational autoEncoder)方法,联合学习潜在因果表示、其间的因果关系以及到观测变量的映射。这项工作为具有异质性因果机制的潜在因果模型提供了识别理论,对您在因果推断(特别是识别理论与因果表示学习)和统计计算(变分推断算法)方面的研究有直接参考价值。

key_techniques: causal representation learning, identifiability theory, linear-Gaussian model, modulated causal coefficients, variational autoencoder, reference condition

为什么相关: 直接关联您对因果推断(识别理论)和统计计算(变分推断算法)的兴趣,提供了在异质性设定下潜在因果模型的可识别性新理论及配套的估计算法。


model=deepseek-chat · source=abstract-full · tokens in/out = 1569/313 · 17.9s
glm-5.1 topic: causal_inference

摘要: 在因果表征学习框架下,研究从观测数据中识别潜在瞬时因果变量的可识别性问题,设定为线性高斯潜在因果模型,其因果系数和噪声方差受额外观测变量调制。分析了阻碍可识别性的三种内在不确定性(传递性、置换、尺度),指出传递性是导致不可识别的关键因素。引入“参考条件”(reference condition,即潜在因果影响消失)以打破传递性,证明了在该条件下潜在变量可识别至平凡的置换和尺度变换;若部分变量违反参考条件,则可得部分可识别性结果。基于此理论,提出结构因果变分自编码器(SuaVE),联合学习因果表征、潜在因果结构及潜在到观测的映射。理论证明了可识别性及估计一致性,并在合成与真实数据上验证了SuaVE的有效性。对您有用:虽然侧重表征学习而非传统半参数因果推断,但其通过辅助变量与参考条件解决潜在变量不可识别性的理论推导,对您在因果推断(identification子方向)的思考有概念启发。

key_techniques: causal representation learning, latent variable identifiability, linear-Gaussian model, variational autoencoder (VAE), reference condition

为什么相关: 涉及因果推断的核心问题——identification,虽然属于表征学习视角,但其通过辅助观测变量和参考条件解决潜在变量不可识别性的理论思路,对您在因果推断(identification子方向)的研究有概念上的启发。


model=glm-5.1 · source=abstract-full · tokens in/out = 1583/1466 · 33.9s
deepseek-reasoner topic: causal_inference

摘要: 在线性高斯潜在因果模型框架下,研究当因果系数和噪声分布被一个额外观测变量调制时,潜在因果变量的可识别性问题。关键假设是存在一个参考条件,使得潜在因果影响消失。论文提出了SuaVE(结构因果变分自编码器)方法,直接学习因果表示及其间的因果关系。理论结果表明,在参考条件下,潜在变量可识别至置换和缩放;当参考条件对部分变量不成立时,仍可获得部分可识别性。实验在合成和真实数据上验证了可识别性和方法的一致性。该研究为因果表示学习提供了新的可识别性理论和实用方法,对您深入理解因果推断中的识别问题(特别是潜在变量模型)有直接参考价值。

key_techniques: causal representation learning, identifiability theory, structural causal variational autoencoder (SuaVE), linear-Gaussian latent causal model, reference condition

为什么相关: 直接针对您核心兴趣‘因果推断’中的识别问题,特别是潜在变量模型的识别,这与您对因果推断和数学统计的兴趣高度相关。阅读可获得关于可识别性理论的新见解,并了解一种结合变分推断的实用方法。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1569/1052 · 60.6s

jmlr:v27/24-0290 — Classification Under Local Differential Privacy with Model Reversal and Model Averaging

  • 作者: Caihong Qin, Yang Bai
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文研究在本地差分隐私(LDP)约束下的分类问题,将隐私噪声视为源域,原始干净数据视为目标域,重构为一个迁移学习任务。核心方法包括:基于噪声二元反馈的数据集效用评估机制、通过反转决策边界来挽救性能不佳分类器的模型反转技术,以及基于估计效用对多个反转模型进行加权的模型平均方法。作者提供了LDP下的理论超额风险界,证明了所提方法能有效降低风险。实证结果表明,在模拟和真实数据集上分类准确率均有显著提升。对您可能有用的是,其将隐私噪声建模为域偏移的视角,以及模型反转与平均的算法设计,可为统计计算中处理带噪声或隐私保护的数据分析提供新思路。

key_techniques: local differential privacy, transfer learning, model reversal, model averaging, excess risk bound, binary feedback evaluation

为什么相关: 连接到您的统计计算兴趣,特别是处理带噪声数据的算法设计。本文的模型反转与平均技术,以及将隐私噪声问题重构为域偏移的视角,对设计稳健的数值方法有启发。


model=deepseek-chat · source=abstract-full · tokens in/out = 1446/277 · 15.0s
glm-5.1 topic: stat_computing

摘要: 本文在局部差分隐私(LDP)设定下研究分类问题,目标是在给定隐私预算下最小化分类器的 excess risk。作者将 LDP 下的私有学习重新解释为迁移学习问题(带噪数据为源域,未观测真实数据为目标域),并提出三种新机制:基于带噪二元反馈的数据效用评估机制、通过反转决策边界恢复欠佳分类器性能的模型反转(model reversal)方法,以及基于估计效用对多个反转分类器赋权的模型平均方法。理论上给出了 LDP 下的 excess risk 上界,并证明了所提方法能够有效降低该风险。实证表明该方法在模拟与真实数据上显著提升了分类准确率。虽然核心是差分隐私与分类,但其将噪声分布纳入理论分析的 excess risk bound 推导及纠偏算法设计思路,对您在统计计算(数值算法)或带测量误差的半参数推断中的算法设计有一定参考价值。

key_techniques: local differential privacy, transfer learning reinterpretation, model reversal, model averaging, excess risk bounds

为什么相关: 将带噪数据视为源域的迁移学习视角及 excess risk bound 推导,对您在统计计算(算法设计)或带测量误差的半参数推断中的纠偏算法设计有启发。


model=glm-5.1 · source=abstract-full · tokens in/out = 1462/1933 · 48.3s
deepseek-reasoner topic: other

摘要: 在本地差分隐私(LDP)框架下,研究目标是提升分类器的性能,其核心是将带噪声的隐私数据视为源域、未观测的干净数据视为目标域,重构为一个迁移学习问题。作者提出了三个关键技术:基于噪声二元反馈的效用评估机制,用于估计数据集的信息价值;模型反转,通过反转性能不佳分类器的决策边界来挽救它们;以及模型平均,根据估计的效用为多个反转后的分类器分配权重。理论分析给出了在LDP约束下的超额风险界,阐明了所提方法如何降低这一风险。实证结果表明,在模拟和真实数据集上,该方法能显著提升分类准确率。这项工作虽非核心统计理论,但其模型平均与集成思想对您在高维统计中的模型聚合可能有所启发,且隐私保护框架对处理敏感数据的经济学或流行病学应用具有参考价值。

key_techniques: local differential privacy, transfer learning formulation, model reversal, model averaging, excess risk bounds, binary feedback mechanism

为什么相关: 虽然与您的主要理论兴趣不直接相关,但其中的模型平均(model averaging)技术可视为一种集成方法,对高维统计中的预测模型聚合有借鉴意义;同时,隐私保护学习框架对您在涉及敏感数据的应用领域(如经济或流行病学)进行因果推断时,提供了处理数据约束的新视角。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1446/852 · 52.3s

jmlr:v27/24-0637 — Stochastic Gradient Methods: Bias, Stability and Generalization

  • 作者: Shuang Zeng, Yunwen Lei
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文研究了一类带偏置的随机梯度方法(BSGMs,如零阶SGD、Clipped-SGD)的稳定性与泛化性能。在凸且光滑的问题设定下,作者引入了一个关于梯度估计器与偏置的广义Lipschitz型条件,并在此条件下建立了一个通用的稳定性上界,用以刻画偏置和梯度估计器如何影响算法的稳定性。作为应用,他们首次为零阶SGD和Clipped-SGD在合理的步长序列下建立了稳定性上界,这些上界在适当的平滑/截断参数下与标准SGD的稳定性界相匹配。结合收敛性分析,他们为零阶SGD和Clipped-SGD推导出了阶为O(1/√n)的过剩风险界。这项工作为理解带偏置优化算法的泛化能力提供了首个理论框架,对您从事统计计算与算法理论研究,特别是分析随机优化方法的统计性质,具有直接的参考价值。

key_techniques: biased stochastic gradient methods (BSGMs), stability analysis, generalization bound, excess risk bound, Zeroth-order SGD, Clipped-SGD

为什么相关: 直接关联您的‘统计计算(数值方法、算法)’兴趣,提供了分析带偏置随机优化算法泛化性能的理论框架,其稳定性分析技术可迁移至其他统计计算算法的理论研究中。


model=deepseek-chat · source=abstract-full · tokens in/out = 1523/332 · 17.0s
glm-5.1 topic: stat_computing

摘要: 本文在凸且光滑的优化设定下,研究有偏随机梯度方法(BSGMs,如Zeroth-order SGD、Clipped-SGD)的算法稳定性与泛化界。作者引入关于梯度估计与偏置的广义Lipschitz条件,建立统一的稳定性界以刻画偏置对稳定性的影响。基于此框架,推导出合理步长下Zeroth-order SGD与Clipped-SGD的首个稳定性界,且在适当平滑/裁剪参数下与无偏SGD的界匹配。结合稳定性与收敛分析,为上述两种BSGMs导出$O(1/\sqrt{n})$的超额风险界。对您有用:该文对有偏优化算法的稳定性与收敛率分析,可为统计计算(数值算法)中非标准梯度方法的统计保证提供理论工具。

key_techniques: biased stochastic gradient methods, algorithmic stability, generalized Lipschitz condition, excess risk bounds, Zeroth-order SGD, Clipped-SGD

为什么相关: 涉及统计计算(数值算法)中的优化算法理论,对有偏梯度下降的稳定性与收敛率分析可为高维/非参M估计中的非标准优化求解提供统计保证。


model=glm-5.1 · source=abstract-full · tokens in/out = 1542/1359 · 32.5s
deepseek-reasoner topic: stat_computing

摘要: 在凸平滑优化问题中,研究偏置随机梯度方法(如 Zeroth-order SGD 和 Clipped-SGD)的稳定性和泛化性能。引入广义 Lipschitz-type 条件来描述梯度估计器和偏置的性质,基于此开发了一个通用的稳定性界,揭示了偏置和梯度估计器对稳定性的影响。将该框架应用于 Zeroth-order SGD 和 Clipped-SGD,首次推导出合理步长序列下的稳定性界。在适当平滑/裁剪参数下,这些稳定性界与标准 SGD 的界相匹配。结合稳定性和收敛性分析,得到了 Zeroth-order SGD 和 Clipped-SGD 的 excess risk 界为 $O(1/\sqrt{n})$,其中 n 是样本量。对您可能有用:这项工作为随机优化算法的理论分析提供了新框架,与您的统计计算兴趣中的数值方法和算法设计直接相关。

key_techniques: biased stochastic gradient methods, stability analysis, generalization bounds, excess risk bounds, Lipschitz-type condition, convex optimization

为什么相关: 这篇论文与您的统计计算兴趣相关,特别是数值方法和算法理论,因为它提供了偏置随机梯度方法的稳定性和泛化分析的新框架,有助于理解优化算法的统计性质。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1523/1313 · 67.8s

jmlr:v27/24-1057 — Extending Mean-Field Variational Inference via Entropic Regularization: Theory and Computation

  • 作者: Bohan Wu, David M. Blei
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文提出了一种基于熵正则化的变分推断新方法(Ξ-VI),用于高维贝叶斯模型的近似后验推断。该方法通过引入最优传输中的熵正则项,扩展了朴素平均场,其变分后验能有效恢复真实后验的依赖性,其中似然函数被一个正则化参数降权。作者分析了参数空间维度对近似精度和计算复杂度的影响,刻画了统计精度与计算量之间的权衡。理论方面,建立了Ξ-VI的相合性、渐近正态性、高维渐近性质及算法稳定性,并给出了算法达到多项式时间收敛的充分条件。实证结果表明,Ξ-VI在模拟和真实数据集上的推断性能优于平均场VI和标准化流等方法。对您而言,该方法在统计计算与高维近似推断的算法设计和理论分析上提供了新视角,其关于统计-计算权衡的刻画与高维统计理论相关。

key_techniques: entropic regularization, variational inference, Sinkhorn algorithm, optimal transport, mean-field approximation, statistical-computational trade-off

为什么相关: 直接关联您的‘统计计算(数值方法、算法)’兴趣,Ξ-VI 是一种新颖的近似推断算法,其理论分析(高维渐近、稳定性)也与数学统计和高维统计的交叉领域相关。


model=deepseek-chat · source=abstract-full · tokens in/out = 1505/329 · 17.7s
glm-5.1 topic: stat_computing

摘要: 本文在贝叶斯近似推断设定下,提出通过熵正则化扩展朴素均值场变分推断的 Ξ-VI 方法,目标是在放松独立性假设的同时逼近真实后验分布。Ξ-VI 将变分推断与熵最优传输问题建立联系,利用 Sinkhorn 算法实现高效计算;其变分后验通过正则化参数下调似然函数来恢复真实后验的依赖结构。理论上,文章刻画了参数空间维度对近似精度与计算复杂度的影响,揭示了统计精度与计算代价之间的 trade-off。在频率学派框架下,证明了 Ξ-VI 的一致性、渐近正态性、高维渐近性质及算法稳定性,并给出了算法多项式时间收敛的充分条件。实验表明 Ξ-VI 在恢复后验依赖性和推断精度上优于均值场 VI 及 normalizing flow 等方法。对您有用:该文对高维变分推断的频率渐近理论分析及统计-计算 trade-off 的刻画,直接契合您在 high-dimensional statistics 与 statistical computing 上的兴趣,其 Sinkhorn 算法与多项式收敛保证也为数值算法研究提供了新思路。

key_techniques: entropic regularization, Sinkhorn algorithm, entropic optimal transport, frequentist asymptotic normality, high-dimensional asymptotics, statistical-computational trade-off

为什么相关: 文章对高维变分推断建立了一致性与渐近正态性等频率学派理论,并刻画了高维设定下的统计-计算 trade-off,直接契合您在 high-dimensional statistics 与 statistical computing 上的核心兴趣,其算法收敛性分析对数值方法研究有参考价值。


model=glm-5.1 · source=abstract-full · tokens in/out = 1527/1601 · 35.9s
deepseek-reasoner topic: stat_computing

摘要: 在高维贝叶斯模型的近似推断框架下,本文提出了一种通过熵正则化扩展朴素平均场的变分推断新方法(Ξ-VI)。该方法与熵最优传输问题紧密相连,其核心计算依赖于高效的Sinkhorn算法。Ξ-VI通过正则化参数对似然函数进行降权,使变分后验能有效恢复真实后验的依赖结构。作者分析了参数空间维数对近似精度和计算复杂度的影响,刻画了统计精度与计算代价之间的权衡关系。论文还建立了Ξ-VI的频率性质,包括一致性、渐近正态性、高维渐近性及算法稳定性,并给出了算法实现多项式时间收敛的充分条件。对您而言,这项工作为统计计算中近似推断算法的收敛性与权衡提供了系统的理论分析,可借鉴于设计更稳健的变分算法。

key_techniques: entropic regularization, Sinkhorn algorithm, Ξ-variational inference, statistical-computational trade-off, high-dimensional asymptotics, polynomial-time convergence

为什么相关: 直接关联您的主要兴趣“统计计算(数值方法、算法)”,提供了关于变分推断算法理论性质(收敛性、权衡)的深入分析,有助于理解复杂近似推断方法的统计与计算基础。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1505/784 · 44.5s

jmlr:v27/24-1840 — skwdro: a library for Wasserstein distributionally robust machine learning

  • 作者: Vincent Florian, Waïss Azizian, Franck Iutzeler, Jérôme Malick
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文介绍了 skwdro,一个用于基于 Wasserstein 距离的分布鲁棒优化(DRO)的 Python 库。该库的核心是通过对原始鲁棒目标进行熵平滑,以确保最大的模型灵活性,并提供了与 PyTorch 和 scikit-learn 兼容的接口。它旨在通过最小化代码改动,使鲁棒模型的训练对更广泛的用户群体变得容易。主要实现包括对 PyTorch 模块的包装器和对流行目标的 scikit-learn 兼容估计器。这是一个工具库,方法学上的新颖性有限,主要贡献在于软件实现和易用性。对您而言,它在统计计算和算法实现方面提供了一个实用的、基于最优传输的鲁棒学习工具包。

key_techniques: Wasserstein distributionally robust optimization (DRO), entropic smoothing, optimal transport, PyTorch wrapper, scikit-learn compatible estimators

为什么相关: 直接对应您的‘统计计算(数值方法、算法)’兴趣,提供了一个具体的、基于前沿理论(Wasserstein DRO)的算法实现库,可用于稳健的机器学习建模,具有实用价值。


model=deepseek-chat · source=abstract-full · tokens in/out = 1415/277 · 27.8s
glm-5.1 topic: stat_computing

摘要: 本文介绍了 skwdro,一个基于 Wasserstein 距离的分布鲁棒优化(DRO)Python 库,旨在通过最小代码修改实现机器学习模型的鲁棒化。该库的核心算法利用了原始鲁棒目标的熵平滑近似,将极小极大优化问题转化为可微且易于计算的形式,从而保证模型灵活性。它提供了 PyTorch 模块封装器与 scikit-learn 兼容估计器,降低了鲁棒损失函数的实现门槛。作为一个开源计算工具,它主要贡献在于算法工程与软件实现。对您而言,该库在统计计算与数值算法方向提供了 DRO 的现成实现,且 Wasserstein DRO 的极小极大框架与您关注的效率理论及半参数鲁棒性有理论交叉。

key_techniques: Wasserstein distributionally robust optimization, entropic smoothing, minimax optimization, PyTorch wrapper, robust loss function

为什么相关: 该库直接对应您在统计计算与数值算法方向的兴趣,提供了 Wasserstein DRO 的工程实现参考;同时,DRO 的极小极大理论与您关注的半参数效率界和鲁棒估计存在理论联系,可借此探索鲁棒性与效率的权衡。


model=glm-5.1 · source=abstract-full · tokens in/out = 1424/1639 · 43.6s
deepseek-reasoner topic: stat_computing

摘要: 本文介绍了skwdro,一个用于基于Wasserstein距离的分布鲁棒优化(DRO)训练机器学习模型的Python库。该库的核心设计是通过一个PyTorch模块的包装器,使用户能以最小的代码改动实现模型损失的鲁棒化。它同时提供了与scikit-learn兼容的估计器,适用于一些常见的目标函数。实现的关键在于对原始鲁棒目标函数进行熵平滑处理,这确保了模型的最大灵活性。该库旨在为更广泛的受众简化鲁棒模型的训练流程。虽然不直接涉及因果或高维推断,但其实现的鲁棒优化框架和高效的数值算法,对您统计计算中算法实现与优化的兴趣有直接参考价值。

key_techniques: Wasserstein distributionally robust optimization, entropic smoothing, PyTorch wrapper, scikit-learn compatible estimators

为什么相关: 直接对应您‘统计计算(数值方法、算法)’的主要兴趣,提供了一个模块化、设计良好的算法实现范例;其鲁棒优化的思想也可能迁移到处理因果推断中未观测混杂的敏感性分析框架。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1415/639 · 36.2s

jmlr:v27/25-0012 — Guaranteed Nonconvex Low-Rank Tensor Estimation via Scaled Gradient Descent

  • 作者: Tong Wu
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: stat_computing

摘要: 本文研究在 t-SVD 框架下,从带有缺失项或稀疏噪声的损坏张量数据中恢复低秩张量因子的问题。提出了一种缩放梯度下降(ScaledGD)算法,并设计了针对性的谱初始化方法。理论证明,该算法以与真实低秩张量条件数无关的恒定速率线性收敛,同时保持了梯度下降的低单次迭代成本。这是首个在 t-SVD 框架下被证明具有此性质的算法。对您可能有用的是,该算法在统计计算中优化高维张量估计的收敛性,其缩放梯度思想或可迁移至其他高维统计优化问题。

key_techniques: scaled gradient descent, tensor singular value decomposition (t-SVD), tensor-tensor product, spectral initialization, linear convergence, condition number independent rate

为什么相关: 连接您的‘统计计算(数值方法、算法)’兴趣,展示了一种针对高维张量结构(与高维统计相关)的优化算法,其理论保证(与条件数无关的收敛率)在计算统计中具有借鉴价值。


model=deepseek-chat · source=abstract-full · tokens in/out = 1498/278 · 15.7s
glm-5.1 topic: high_dim_rmt

摘要: 在 t-product 与 t-SVD 框架下,研究带缺失项或稀疏噪声的低秩张量估计问题,目标是直接恢复张量因子。本文提出 Scaled Gradient Descent (ScaledGD) 算法,配合定制的谱初始化,处理张量 RPCA、张量补全与张量回归。理论上证明 ScaledGD 具有线性收敛速度,且收敛率不依赖于真实低秩张量的条件数,同时保持梯度下降的低迭代复杂度;这是 t-SVD 框架下首个可证明具有此性质的算法。数值实验验证了其在病态低秩张量估计中加速收敛的有效性。对您在统计计算(非凸数值优化算法)和高维统计(低秩恢复与谱初始化)方面的兴趣有直接的方法论参考价值。

key_techniques: scaled gradient descent, tensor singular value decomposition (t-SVD), tensor-tensor product (t-product), spectral initialization, condition-number-independent convergence, nonconvex optimization

为什么相关: 该文提出的 ScaledGD 算法在非凸低秩张量恢复中实现了不依赖条件数的线性收敛,对您在统计计算(数值优化算法)和高维统计(低秩结构恢复与谱方法)方面的兴趣有直接的方法论借鉴意义。


model=glm-5.1 · source=abstract-full · tokens in/out = 1510/1472 · 39.9s
deepseek-reasoner topic: high_dim_rmt

摘要: 该研究在t-SVD框架下,解决从含缺失或稀疏噪声的损坏张量中恢复低秩分量的估计问题。核心方法是提出ScaledGD算法,通过预调节梯度来加速收敛。理论证明该算法在张量鲁棒PCA、张量补全和回归等任务中,能以与真实张量条件数无关的恒定速率实现线性收敛。这突破了传统梯度下降在病态问题上的收敛瓶颈。主要结果为非凸优化提供了新的理论保证,并展示了在计算成像等应用中的有效性。对您可能有用:它为高维张量恢复问题提供了一个计算高效且理论坚实的优化工具,与您的高维统计和统计计算兴趣直接相关。

key_techniques: Scaled gradient descent, tensor-tensor product (t-product), tensor singular value decomposition (t-SVD), tensor robust PCA, tensor completion, linear convergence independent of condition number

为什么相关: 该工作属于高维统计(张量恢复)与统计计算(优化算法)的交叉领域,其提出的ScaledGD算法在理论上保证了与条件数无关的快速收敛,为您在高维估计问题的优化算法设计提供了新思路和理论工具。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1498/750 · 42.3s

jmlr:v27/25-0376 — A Data-Augmented Contrastive Learning Approach to Nonparametric Density Estimation

  • 作者: Chenghao Li, Yuanyuan Lin
  • 来源: JMLR
  • 分类: JMLR v27
  • 内容抓取: source=fallback-abstract, intro=0 chars, sections=0, conclusion=0 chars
model output
deepseek-chat topic: nonparam_semipara

摘要: 本文提出了一种基于数据增强对比学习的非参数密度估计方法。该方法利用噪声对比估计(NCE)框架,通过深度神经网络学习密度比,无需对网络施加归一化约束即可实现一致且渐近自动归一化的密度估计。核心贡献在于引入了一种新颖的数据增强程序,以减轻参考分布选择对估计性能的影响。理论分析建立了期望L2风险和总变差距离的非渐近上界,证明了该方法在一般设定下达到极小极大最优收敛速率,并在数据具有复合低维结构时展现出更快的自适应收敛速率。该方法提供了一种免模拟、一步评估的高效非参数密度估计器,其理论框架与您对非参数理论和统计计算算法的兴趣高度相关。

key_techniques: noise contrastive estimation (NCE), deep neural networks, data augmentation, minimax optimal rate, adaptive estimation, nonparametric density estimation

为什么相关: 直接关联您对非参数理论和统计计算算法的兴趣,提供了一种结合深度学习和经典理论框架(NCE)的新估计方法,并给出了严格的极小极大最优速率和自适应性质,其理论分析工具(如非渐近上界)可迁移至其他非参数问题。


model=deepseek-chat · source=abstract-full · tokens in/out = 1425/296 · 15.8s
glm-5.1 topic: nonparam_semipara

摘要: 本文在非参数密度估计设定下,提出基于数据增强的噪声对比估计方法,利用深度神经网络逼近目标密度。通过对比学习框架,估计器实现了一步且免模拟的求解,无需对神经网络施加约束,且具备一致性与渐近自动归一化性质。引入数据增强程序以削弱参考分布选择对估计的影响,并基于此建立了期望 L2 风险与全变差距离的非渐近上界,达到 minimax 最优收敛速率。在数据具有组合低维结构假设下,方法展现出内在自适应性,获得更快的收敛率。该工作对您在非参数理论及统计计算方向的兴趣有直接参考价值,提供了深度学习结合非参数估计的 minimax rate 及自适应理论。

key_techniques: noise contrastive estimation, data augmentation, deep neural networks, non-asymptotic L2-risk bound, minimax optimal rate, compositional structure adaptivity

为什么相关: 直接推进非参数理论方向,提供了 DNN 密度估计的 minimax 最优速率与低维自适应理论,同时一步免模拟的计算特性对统计计算兴趣有借鉴意义。


model=glm-5.1 · source=abstract-full · tokens in/out = 1442/594 · 13.5s
deepseek-reasoner topic: nonparam_semipara

摘要: 在非参数密度估计框架下,提出一种基于深度神经网络和数据增强的噪声对比估计方法。该方法通过对比学习构建密度估计器,实现一步且无需模拟的评估过程,对神经网络架构无约束。理论证明估计器具有一致性和渐近自动归一化性质。建立了期望L2风险和总变差距离的非渐近上界,达到极小极大最优收敛率。在数据满足组合结构假设时,方法能自适应低维结构,获得更快收敛速度。数值实验显示其与最先进方法竞争;对您可能有用:该工作提供了非参数估计的新算法与理论分析,可丰富您在非参数理论方面的工具库。

key_techniques: noise contrastive estimation, data augmentation, deep neural networks, minimax optimal rates, asymptotic normalization, L2-risk bounds

为什么相关: 连接到您的主要兴趣‘半参数与非参数理论’,具体是非参数密度估计的理论与算法,提供了新的估计方法、极小极大最优率分析及低维结构适应性,可借鉴于非参数建模的效率研究。


model=deepseek-reasoner · source=abstract-full · tokens in/out = 1425/1122 · 60.2s