JMLR — Vol 27 · 2026-05-26¶

共 50 篇 · JMLR

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

这一期 JMLR 的 50 篇论文可归纳为四条主线：因果识别与表征学习（约 6 篇）、非参数/半参数方法与逼近理论（约 10 篇）、高维与随机矩阵理论（约 1 篇，但结果深刻）、以及统计计算与优化（约 12 篇，涵盖变分推断、分布式算法、自动微分等）。其余论文分散在假设检验、在线学习、图模型、应用案例等方向，与核心主线交集较少。

因果识别主线最为突出，多篇论文从不同角度推进了识别理论。Hierarchical Causal Models 利用嵌套数据的层级结构（inner plates）推广 do-calculus，证明在仅有汇总统计量时也能实现非层级数据下不可能的识别，直接对接因果图识别理论。Identifying Weight-Variant Latent Causal Models 则聚焦潜变量因果模型，引入权重变异条件（因果系数与噪声方差受额外变量调制）来克服传递性导致的不可识别，将潜变量识别推进到瞬时因果关系场景。Neural Network Parameter-optimization of Gaussian Pre-marginalized DAGs 另辟蹊径，将潜变量因果图的参数估计转化为神经网络优化问题，建立了严格对偶性。在估计层面，Flexible Functional Treatment Effect Estimation 针对函数型处理效应，提出不依赖处理选择模型的 WMKRR 估计量，通过直接优化 uniform balancing error 实现高效计算；A causal fused lasso 则利用 1D fused lasso 对 propensity score 排序后的差值序列做分段常数 CATE 估计，实现数据驱动的子群划分。Boosted Control Functions 将控制函数与分布泛化结合，提出强不变性概念，在非线性非可识别结构下仍可泛化。

非参数/半参数主线覆盖了密度估计、回归、逼近等多个子方向。Error Analysis for Deep ReLU Feedforward Density-Ratio Estimation 在 Bregman 散度框架下给出密度比估计的 minimax 最优率（有限支撑），并证明 data-splitting 构造的 KL 散度估计量是 n^{-1/2}-CAN。Nonparametric Estimation of a Factorizable Density using Diffusion Models 利用稀疏权重共享网络架构，证明扩散模型隐式密度估计器在 TV 距离下达到 minimax 最优率，且能自适应低维结构。A Data-Augmented Contrastive Learning Approach 在噪声对比估计框架下，证明深度神经网络密度估计达到 minimax 最优率，且在低维复合结构下具有自适应性。Transformers Can Overcome the Curse of Dimensionality 从逼近角度证明，基于 Kolmogorov-Arnold 叠加定理的 Transformer 能以对数深度逼近 Hölder 函数类，克服维数灾难。Nonlocal Techniques for the Analysis of Deep ReLU Neural Network Approximations 则利用非局部 Riesz 基重新证明 ReLU 网络逼近结果，显式追踪隐式常数。此外，Decorrelated Local Linear Estimator 在高维可加模型中通过 decorrelation weights 实现导数推断的渐近正态性，直接连接高维半参数推断。

高维与随机矩阵主线虽仅一篇，但结果深刻：The Distribution of Ridgeless Least Squares Interpolators 在一般非 Gauss 随机设计、高维比例极限下，给出 ridgeless interpolator 的精确分布刻画，将其与关联 Gauss 序列模型中的 ridge estimator 等价，从而在最一般分布意义下量化了 implicit regularization，并完整刻画了加权 ℓ_q risk。

统计计算与优化主线中，多篇论文关注变分推断与分布式算法。Extending Mean-Field Variational Inference via Entropic Regularization 通过熵正则化（Ξ-VI）恢复后验依赖结构，建立了频率学性质（一致性、渐近正态性）并刻画了统计精度与计算代价的 trade-off。Online Bernstein-von Mises theorem 在在线学习设定下，利用变分近似保证每步后验渐近正态，证明顺序更新后验与全数据后验渐近不可区分。Communication-efficient Distributed Statistical Inference 针对异质性外部辅助信息，构建整合似然并给出通信高效迭代算法，证明估计量可达与个体数据相当的统计效率。LazyDINO 针对高维贝叶斯逆问题，利用导数信息驱动的神经网络代理实现快速摊销后验近似。在优化理论方面，Stochastic Gradient Methods 将偏差与稳定性显式关联，给出有偏 SGD 的 uniform stability 界；A Symplectic Analysis of Alternating Mirror Descent 通过辛数值积分器分析，将 AMD 的 total regret 改进至 O(K^{1/5})。

对于因果推断方向的研究者，优先关注 Hierarchical Causal Models（识别理论）、Identifying Weight-Variant Latent Causal Models（潜变量识别）、Flexible Functional Treatment Effect Estimation（函数型处理效应估计）和 Boosted Control Functions（分布泛化）。对于半参数效率方向，Decorrelated Local Linear Estimator（高维可加模型推断）和 Communication-efficient Distributed Statistical Inference（异质性信息整合效率）最相关。对于高维方向，The Distribution of Ridgeless Least Squares Interpolators（精确分布刻画）和 Error Analysis for Deep ReLU Feedforward Density-Ratio Estimation（minimax 最优率）值得细读。

因果推断 (causal_inference, 6 篇)¶

1. jmlr:v27/25-0899 — Hierarchical Causal Models¶

作者: Eli N. Weinstein, David M. Blei
期刊/来源: JMLR
分类: JMLR v27
相关性 9/10 · novelty: new_method
摘要: 在嵌套数据（如学生-学校、细胞-患者）的因果推断设定下，本文目标是利用层级结构实现单位级与子单位级变量间因果效应的 identification。作者提出层级因果模型，通过在图模型中引入 inner plates 刻画嵌套数据，并发展了推广 do-calculus 的图化识别技术。核心理论贡献在于证明：层级数据（甚至仅有单位级汇总统计量时）能实现非层级数据下不可能的因果识别。估计方面，本文采用层级贝叶斯模型而非半参数效率框架，并在模拟与经典 eight schools 数据中验证。对您有用之处在于：此框架的 identification 理论直接对接您关注的因果识别方向，且层级结构在流行病学与经济学数据中极常见。
关键技术: hierarchical causal models, inner plates, generalized do-calculus, graphical identification, hierarchical Bayesian estimation
为什么对您有用: 直接对接 causal inference 的 identification 子方向，且层级嵌套数据是流行病学与经济学（secondary interests）的典型结构。您可用 moderately_familiar 的 identification theory in causal inference 来审视其 generalized do-calculus 的完备性，或用 very_familiar 的 estimation theory in causal inference 探索该层级设定下的半参数 efficient estimator（替代其贝叶斯估计）。中期可做：需先在 moderately_familiar 的 identification theory 上长肌肉以理清层级 do-calculus 规则，进而可推导层级因果模型的半参数效率界。

2. jmlr:v27/23-0944 — Flexible Functional Treatment Effect Estimation¶

作者: Jiayi Wang, Raymond K. W. Wong, Xiaoke Zhang, Kwun Chuen Gary Chan
期刊/来源: JMLR
分类: JMLR v27
相关性 8/10 · novelty: weaker_assumption
摘要: 在因果推断的函数型处理 (functional treatment) 设定下，本文研究 scalar-on-function marginal structural model 中平均潜在结果泛函的估计问题。提出 weight-modified kernel ridge regression (WMKRR) 估计量，其权重不依赖处理选择模型，而是通过直接最小化 WMKRR 估计量分解导出的 uniform balancing error 来构造。借助 representer theorem，将 uniform balancing error 的优化转化为有限维凸优化，实现高效计算。理论上证明 WMKRR 估计量可达最优收敛速率，且无需对真实权重函数施加平滑性假设。对您有用：本文将 balancing weight 与 RKHS 结合处理函数型因果推断，其无权重平滑假设的 rate 结果及凸优化计算方案，直接连接到您 causal inference estimation 与 nonparametric theory 的 primary interests。
关键技术: scalar-on-function marginal structural model, weight-modified kernel ridge regression, uniform balancing error, representer theorem, RKHS estimation
为什么对您有用: (1) 直接连接到 causal inference 中的 continuous/functional treatment effect estimation，以及 nonparametric theory 中的 RKHS 估计与收敛速率；(2) 您的 very_familiar 武器库中的 "nonparametric statistics" 与 "estimation theory in causal inference" 完全可以攻入本文的 balancing error 分解与 WMKRR rate 证明，特别是可以审视其 "无需权重平滑假设" 的 rate 是否与 minimax bounds for estimation problems 一致；(3) 立即可做——用 minimax bound 验证其声称的 rate 是否紧，或用软件开发经验复现其有限维凸优化算法。

3. jmlr:v27/23-1249 — Neural Network Parameter-optimization of Gaussian Pre-marginalized Directed Acyclic Graphs¶

作者: Mehrzad Saremi
期刊/来源: JMLR
分类: JMLR v27
相关性 8/10 · novelty: new_theory
摘要: 在潜变量因果模型设定下，本文指出现有因果图结构在高斯贝叶斯网络（GBN）边际化下不稳定，进而提出能忠实表示 GBN 边际的新型图结构 "pre-marginalized DAG"。核心理论贡献是建立了该潜变量模型的参数优化与在分布参数空间中训练前馈神经网络的严格对偶性。基于此对偶性，作者开发了利用观测分布进行图参数优化的算法，并给出了高斯设定下因果效应可识别性的条件及检验元算法。该工作将因果图参数估计转化为神经网络优化问题，为潜变量因果推断提供了新的计算视角。对您在因果推断 identification 理论与 estimation（特别是潜变量/IV/proximal 设定）方面的研究有直接启发，值得深入阅读其对偶性构造细节。
关键技术: latent variable causal model, Gaussian Bayesian network marginalization, pre-marginalized DAG, neural network duality in parameter space, causal effect identifiability, parameter optimization algorithm
为什么对您有用: (1) 直接连接到因果推断的 identification 与 estimation（潜变量模型参数优化），特别是处理边际化（隐变量）的图结构设定。(2) 您的 technical_arsenal 中 "estimation theory in causal inference" 和 "identification theory in causal inference" 可以直接用来审视其可识别性条件与参数估计的统计收敛性质（论文侧重算法对偶，理论收敛率分析可能留有空白）。(3) Follow-up：立即可做——用您熟悉的 estimation theory 检验该 NN 参数优化算法的统计收敛性质（是否达到 semiparametric efficiency bound 或 n^{-1/2}-CAN），或将其与 proximal CI 的 negative control 设定做对比。

4. jmlr:v27/23-0535 — A causal fused lasso for interpretable heterogeneous treatment effects estimation¶

作者: Oscar Hernan Madrid Padilla, Yanzhen Chen, Carlos Misael Madrid Padilla, Gabriel Ruiz
期刊/来源: JMLR
分类: JMLR v27
相关性 8/10 · novelty: new_method
摘要: 在 observational study 设定下，目标是估计条件平均处理效应 (CATE) 关于 propensity 或 prognostic score 的函数，假设 score 可被一致估计且 CATE 沿 score 排序具有低总变差 (TV) 结构。方法先将样本按估计的 score 排序并匹配处理/控制组单元，再对匹配后的差值序列施加 1D fused lasso (total variation penalty)。这产生关于 score 的分段常数 CATE 估计，实现了数据驱动的自适应子群划分，而非预先固定分组。理论上，在一般条件下证明了估计量的一致性（1D TV class 的 minimax rate 通常为 n^{-1/3}，若真实 CATE 仅有有限跳跃点则可达更快 rate）。实验表明该方法在保持子群解释性的同时与 causal forest 等方法具有竞争力。对您有用：本文将 1D total variation denoising 引入 CATE 估计，提供了一个非参数 minimax 视角下的 CATE 案例，可对比您关注的 semiparametric efficiency bound (n^{-1/2}-CAN) 与 TV penalty 方法在收敛率上的根本差异。
关键技术: fused lasso, total variation penalty, propensity score ordering, conditional average treatment effect, piecewise constant estimation, minimax consistency
为什么对您有用: 连接到 causal inference 的 CATE 估计子方向，以及 nonparametric statistics 中的 shape-constrained / total variation estimation。您 very_familiar 的 minimax bounds for estimation problems 可直接用来审视本文的 consistency 是否达到 1D TV class 的 minimax rate (n^{-1/3})；同时，用 moderately_familiar 的 semiparametric theory 可检视其因缺乏 orthogonalization / cross-fitting 而无法达到 n^{-1/2}-CAN 的理论瓶颈。立即可做：用 minimax 理论验证其 rate 紧性，或尝试引入 Neyman-orthogonal score 与 cross-fitting 将其改造为 semiparametric efficient 估计量。

5. jmlr:v27/24-2207 — Boosted Control Functions: Distribution Generalization and Invariance in Confounded Models¶

作者: Nicola Gnecco, Jonas Peters, Sebastian Engelke, Niklas Pfister
期刊/来源: JMLR
分类: JMLR v27
相关性 8/10 · novelty: new_method
摘要: 本文研究在隐藏混杂与分布偏移下预测任务的分布泛化问题，设定为 SIMDG（Simultaneous Equation Models for Distribution Generalization）结构，关键假设包括工具变量存在性与非线性非可识别结构函数。作者提出强不变性（strong invariance）概念，超越现有弱不变性，允许在非线性非可识别情形下仍可泛化；核心推断目标是 Boosted Control Function（BCF），在控制函数框架下通过二次投影（twicing）构造，满足强不变性且在最坏分布偏移下 provably optimal。估计方法为 ControlTwicing 算法，结合非参数 ML 与控制函数两步法，理论给出泛化误差界并在合成与真实数据上与 ERM/robust 方法对比。对您有用：BCF 将 IV/control function 方法扩展到分布泛化场景，与您 primary interest 中 IV 估计与 semiparametric theory 直接相关。
关键技术: instrumental variables, control function approach, boosted control function (BCF), strong invariance, distribution generalization, nonparametric twicing estimator
为什么对您有用: 本文直接连接您 primary interest 中 IV 与 semiparametric estimation 子方向：BCF 是 control function 方法在分布泛化下的新推断目标，其 ControlTwicing 估计器的非参数两步结构可用您熟悉的 semiparametric M-estimation 理论分析其收敛率与效率。您可用 very_familiar 的 minimax bound 工具验证其声称的 worst-case optimality 是否紧，或用 moderately_familiar 的 semiparametric theory 推导 BCF 的影响函数与效率界——立即可做。

6. jmlr:v27/23-1023 — Identifying Weight-Variant Latent Causal Models¶

作者: Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Anton van den Hengel et al.
期刊/来源: JMLR
分类: JMLR v27
相关性 6/10 · novelty: new_theory
摘要: 本文研究因果表征学习中的潜在因果变量识别问题，设定为允许潜在变量间存在瞬时因果关系的线性高斯潜在因果模型，核心估计目标是潜在因果变量及其因果系数与噪声分布。作者首先系统分析了从观测数据识别潜在变量时的三种内在不确定性：传递性、置换不确定性与尺度不确定性，指出传递性是阻碍识别的关键因素。为克服传递性导致的不可识别问题，引入了权重变异条件：因果系数与高斯噪声方差受一个额外观测变量调制，并假设存在一个参考条件使得潜在因果影响消失。在此假设下，证明了潜在因果变量可被识别至仅剩平凡的置换与尺度不确定性；当参考条件仅对部分潜在变量成立时，仍可获得部分可识别性结果。基于此理论，提出结构因果变分自编码器SuaVE，同时学习因果表征、潜在因果结构及映射关系。对您而言，本文将identification理论从传统潜在变量模型拓展到权重变异设定，为研究带外生调节变量的潜在因果模型识别提供了新视角。
关键技术: latent causal model identification, weight-variant condition, transitivity indeterminacy, linear-Gaussian structural causal model, variational autoencoder, partial identifiability
为什么对您有用: 本文直接连接到因果推断中的identification理论子方向，特别是潜在因果模型的可识别性问题，与您moderately_familiar中的identification theory in causal inference高度相关。您可以用very_familiar中的estimation theory in causal inference审视SuaVE估计器的一致性与收敛性质，或用moderately_familiar的semiparametric theory分析权重变异条件下的效率边界。follow-up判断：中期可做——需先在moderately_familiar的identification theory上进一步巩固潜在变量模型的可识别性理论框架，再考虑将权重变异设定与proximal CI或IV方法结合。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶

1. jmlr:v27/25-0458 — The Distribution of Ridgeless Least Squares Interpolators¶

作者: Qiyang Han, Xiaocong Xu
期刊/来源: JMLR
分类: JMLR v27
相关性 9/10
摘要: 本文研究超参数化线性回归中 ridgeless minimum ℓ₂-norm interpolator 的精确分布性质，设定为一般非 Gauss 随机设计、高维比例极限。核心发现：ridgeless interpolator 的分布可由一个关联 Gauss 序列模型中带正则化的 ridge estimator 完全刻画，从而在最一般分布意义下量化了 implicit regularization。该刻画对正则化 ridge estimator 也一致成立。作为直接应用，作者给出了一般加权 ℓ_q risk（包括预测误差、估计误差及 covariate shift）的完整刻画——此前仅 ℓ₂ risk 可由随机矩阵方法处理。进一步，一致刻画揭示了一个 surprising feature：通过 GCV 或 k-fold CV 单独调优 ℓ₂ prediction risk，即可同时达到 ℓ₂ in-sample / prediction / estimation risk 的最优性，以及 debiased confidence interval 的最优长度。
关键技术: ridgeless interpolator distributional characterization, Gaussian sequence model equivalence, weighted ℓ_q risk analysis, generalized cross-validation optimality, random matrix theory, high-dimensional proportionate asymptotics
为什么对您有用: 直接连接您的高维统计与随机矩阵理论方向：将 ridgeless interpolator 的分布精确刻画为 Gauss 序列模型的 ridge estimator，超越了传统 RMT 仅处理 ℓ₂ risk 的局限，给出一般 ℓ_q risk 的完整公式。您 very_familiar 的高维渐近理论可直接验证其 claimed uniform characterizations 的紧性；CV 调优同时达到多种 risk 最优 + debiased CI 最优长度的结论，与您 efficiency theory / debiased ML 方向高度相关。立即可做：用 minimax bound 检查其 ℓ_q risk 刻画是否达到 minimax rate；用 semiparametric efficiency bound 视角审视其 debiased CI 长度最优性声称。

非参数 / 半参数 (nonparam_semipara, 13 篇)¶

1. jmlr:v27/22-1436 — Decorrelated Local Linear Estimator: Inference for Non-linear Effects in High-dimensional Additive Models¶

作者: Zijian Guo, Wei Yuan, Cunhui Zhang
期刊/来源: JMLR
分类: JMLR v27
相关性 9/10 · novelty: new_method
摘要: 在高维可加模型设定下，本文目标是推断函数导数（对应非线性处理效应），关键假设为稀疏性与平滑性。提出 decorrelated local linear estimator (DLL)，核心创新在于构造 decorrelation weights，用以消除高维 nuisance 函数估计引入的误差，实现类似 debiased ML 的纠偏效果。理论上建立了估计量的渐近正态性与 n^{-1/2}-CAN 性质，据此构造了导数的置信区间与假设检验。实证部分通过大规模模拟与 motif regression 验证方法，并发布 CRAN R 包 DLL。对您有用：直接连接高维 semiparametric/debiased inference 与因果推断中的非线性效应估计。
关键技术: decorrelated local linear estimator, high-dimensional additive model, nuisance decorrelation, asymptotic normality, inference for derivative, local linear smoothing
为什么对您有用: (1) 直接连接高维可加模型下的 semiparametric/debiased inference，以及因果推断中的非线性处理效应（non-linear treatment effects）设定。(2) 用您 very_familiar 的 "high-dimensional asymptotics" 与 moderately_familiar 的 "semiparametric theory" 可直接审视其 decorrelation weights 构造是否触及 efficiency bound，或用 "estimation theory in causal inference" 将其迁移至 IV/proximal 设定。(3) 立即可做：您的武器库完全覆盖其 debiasing 机制，可直接动手复现或将其 decorrelation 思想推广到 longitudinal/mediation 的非线性推断。

2. jmlr:v27/23-0425 — Error Analysis for Deep ReLU Feedforward Density-Ratio Estimation with Bregman Divergence¶

作者: Siming Zheng, Guohao Shen, Yuanyuan Lin, Jian Huang
期刊/来源: JMLR
分类: JMLR v27
相关性 7/10 · novelty: new_theory
摘要: 在 Bregman 散度框架下用深度 ReLU 前馈网络估计密度比（BDD estimator），目标是在有限支撑与无界支撑设定下建立非渐近误差界。核心结果：有限支撑下 BDD 密度比估计器达到 minimax optimal rate（仅差 log factor）；利用 data-splitting 构造的 KL 散度估计器为 n^{-1/2}-CAN（渐近正态）；当数据分布在近似低维流形上时可缓解 curse of dimensionality。进一步将收敛结果应用于 Rhodes (2020) 的 telescoping density-ratio estimator，给出其优于单比率估计器的充分条件。密度比估计是因果推断 IPW/DR estimator 的关键中间步骤，本文的 minimax rate 与 KL 散度估计器的 CAN 结果可直接支撑 causal estimator 的效率分析。
关键技术: Bregman divergence density-ratio estimation, deep ReLU network approximation theory, non-asymptotic minimax rate, data-splitting for asymptotic normality, manifold low-dimensional structure, telescoping density-ratio estimator
为什么对您有用: 直接连接 semiparametric/nonparametric theory 与 efficiency theory 子方向：密度比是 causal inference 中 IPW/DR 的核心组件，本文的 minimax rate 和 KL 散度估计器的 n^{-1/2}-CAN 为分析基于密度比的 causal estimator 效率提供了非渐近与渐近双重基础。用 minimax bounds（very_familiar）可直接验证其声称的 minimax optimality 是否紧；用 semiparametric theory（moderately_familiar）可将 KL 散度估计器的 CAN 结果推广到更一般 semiparametric estimand 的 influence function 分析。立即可做：验证 minimax rate 紧性、推导 density-ratio-based causal estimator 的效率界均在武器库范围内。

3. jmlr:v27/25-0121 — Nonparametric Estimation of a Factorizable Density using Diffusion Models¶

作者: Hyeok Kyu Kwon, Dongha Kim, Ilsang Ohn, Minwoo Chae
期刊/来源: JMLR
分类: JMLR v27
相关性 7/10 · novelty: new_theory
摘要: 本文在非参数密度估计设定下，假设目标密度具有因子化低维结构（如贝叶斯网络与马尔可夫随机场），研究基于扩散模型的隐式密度估计器的统计性质。作者设计了一种稀疏权重共享神经网络架构以匹配数据的因子化结构，并证明该隐式估计器能自适应此低维结构，在总变差（TV）距离下达到 minimax 最优收敛速率。核心理论工具在于利用网络架构的稀疏性与权重共享来规避高维诅咒，将扩散模型的隐式生成过程转化为具有统计保证的密度估计方法。主要理论结果给出了 TV 距离下的 minimax optimal rate，打破了全维非参数估计的维度灾难限制。对您有用之处在于：它将现代生成模型（扩散模型）的架构特性（稀疏/权重共享）与您熟悉的 minimax bound 及非参数结构自适应理论直接桥接，提供了一个可严格理论化的深度学习非参数估计范例。
关键技术: diffusion models, minimax optimal rate, factorizable density, sparse weight-sharing neural network, total variation distance, structural adaptation
为什么对您有用: 直接连接到非参数理论中的 minimax rate 与结构自适应估计（factorizable density）。您的 very_familiar 武器库中的 minimax bounds 与非参数统计可直接审视其速率紧性与假设合理性；其稀疏网络架构的复杂度分析也与您熟悉的 treewidth/tensor contraction 视角高度同构（稀疏图结构降低统计与计算复杂度）。立即可做：用 minimax 理论验证其速率紧性，或尝试将 factorizable 结构推广到因果图设定，审视扩散模型在因果密度估计中的理论边界。

4. jmlr:v27/25-2745 — Refined Risk Bounds for Unbounded Losses via Transductive Priors¶

作者: Jian Qian, Alexander Rakhlin, Nikita Zhivotovskiy
期刊/来源: JMLR
分类: JMLR v27
相关性 6/10 · novelty: sharper_rate
摘要: 本文研究无界损失（平方损失、hinge、logistic）下的在线学习风险界，设定为 transductive online learning：设计向量集合已知但顺序未知，且不对设计向量幅度或最优参数范数做任何假设。核心方法是带 transductive（依赖设计集）先验的 exponential weights 算法，辅以聚合工具处理最优解范数可能无界的问题。分类遗憾界仅依赖参数维度和轮数，不依赖设计向量或最优解范数——此前文献中此类性质仅对有界损失成立；线性回归情形进一步给出稀疏遗憾界，额外依赖仅响应变量幅度。作者论证这些改进界是 transductive 设定特有的，最坏情形纯序设定下不可达；算法在若干情形有多项式时间近似，归结为对 log-concave 测度的采样而非构造 ε-覆盖。对您可能有用：transductive 先验 + exponential weights 的分析框架为 fixed-design / random-design 回归的 minimax 界提供了新视角，与您熟悉的 minimax bound 和高维渐近理论直接对话。
关键技术: exponential weights with transductive priors, sequential prediction with unbounded losses, sparsity regret bounds, log-concave sampling, aggregation for unbounded norms, transductive online learning
为什么对您有用: 直接连接到 minimax bounds for estimation problems（very_familiar）：本文在 transductive 设定下给出了不依赖设计分布或参数范数的分类遗憾界和稀疏回归界，挑战了传统 random-design minimax 下必须假设范数或设计矩的惯例，值得对比您熟悉的 minimax rate 是否在 transductive 设定下可被 sharpened。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以将 transductive exponential weights 分析迁移到 semiparametric / high-dim 估计的 minimax 界问题。

5. jmlr:v27/24-1199 — Finite Neural Networks as Mixtures of Gaussian Processes: From Provable Error Bounds to Prior Selection¶

作者: Steven Adams, Andrea Patanè, Morteza Lahijanian, Luca Laurenti
期刊/来源: JMLR
分类: JMLR v27
相关性 5/10 · novelty: new_theory
摘要: 本文研究有限宽/深神经网络（NN）与高斯过程（GP）之间的近似问题，目标是在有限网络设定下给出 NN 输出分布与 GP 混合模型之间的 Wasserstein 距离上界。核心方法是逐层将 NN 输出分布迭代近似为 GP 混合（mixture of Gaussian processes），利用最优传输与 GP 理论工具，对任意 NN 与 ε>0，在有限输入点集上构造 ε-近似的 GP 混合。进一步利用误差界的可微性，提出通过梯度优化 NN 参数以逼近给定 GP 的功能行为，从而在贝叶斯推断中实现先验选择（prior selection）。理论贡献是首次为有限 NN→GP 混合近似提供可证明的误差界；实证在回归与分类任务上验证了方法的有效性。对您可能有用：本文的逐层 GP 混合近似与 Wasserstein 误差界分析，为 semiparametric / nonparametric 理论中 NN 逼近核方法的 rate 分析提供了新视角。
关键技术: Wasserstein distance bound, mixture of Gaussian processes, optimal transport, layer-wise iterative approximation, prior selection via gradient optimization, finite neural network approximation
为什么对您有用: 本文连接到 nonparametric / semiparametric 理论中 NN 与 GP 的逼近率分析，逐层 GP 混合近似与 Wasserstein 误差界可直接用 minimax bound 工具验证其声称的 rate 是否紧。用 very_familiar 的 nonparametric statistics 与 minimax bounds 可分析该近似界的紧性；中期可做：需在 moderately_familiar 的 M-estimation theory 上长肌肉，以将逐层近似嵌入 semiparametric M-estimator 的效率分析。

6. jmlr:v27/25-0376 — A Data-Augmented Contrastive Learning Approach to Nonparametric Density Estimation¶

作者: Chenghao Li, Yuanyuan Lin
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: new_method
摘要: 本文研究非参数密度估计问题，在噪声对比估计（NCE）框架下利用深度神经网络估计目标密度，无需显式归一化约束。提出数据增强的 NCE 方法，通过对比学习实现一步式、免模拟的密度评估，且估计量自动满足渐近归一化。理论方面，建立了期望 L_2 风险与全变差距离的非渐近上界，证明其达到 minimax 最优收敛速率。进一步，在数据具有低维复合结构假设下，该方法展现出内在的自适应性，获得更快的收敛速率。数值实验验证了该方法与现有非参数密度估计前沿方法的竞争力。对您而言，本文将 NCE 与深度神经网络的 minimax 最优性与自适应性严格结合，直接对接您在非参数统计与 minimax bounds 方面的核心专长。
关键技术: noise contrastive estimation, data augmentation, minimax optimal rate, compositional structure adaptivity, non-asymptotic upper bound, deep neural network density estimation
为什么对您有用: 本文直接对接您在非参数统计与 minimax bounds 方面的核心专长，特别是低维复合结构下的自适应收敛速率。您的 very_familiar 武器库中 'minimax bounds for estimation problems' 与 'nonparametric statistics' 完全可以直接用来审视本文的速率证明与复合结构自适应条件是否紧。立即可做：用 minimax 理论验证其声称的 sharper rate 是否紧，或探讨该 NCE 框架下能否构造类似 HOIF 的更高阶修正。

7. jmlr:v27/25-1017 — Nonlinear function-on-function regression by RKHS¶

作者: Peijun Sang, Bing Li
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: new_theory
摘要: 本文提出非线性函数对函数回归模型，协变量与响应均为随机函数，estimand 为嵌套 Hilbert 空间中的非线性回归算子。方法采用两层嵌套结构：第一层 Hilbert 空间分别容纳功能性协变量 X 与响应 Y，第二层在 X 空间上构建 RKHS 以捕捉非线性，其正定核由第一层内积生成（nested Hilbert spaces）。估计程序允许功能性数据在不同受试者的不同时间点观测（irregular sparse design）。理论上，作者建立了估计量的收敛速率以及预测响应在 Hilbert 空间中的弱收敛（weak convergence）。模拟与实际数据验证了有限样本表现。对您而言，RKHS 嵌套空间的收敛速率分析属于非参数理论范畴，其 rate 证明策略可能为您在非参数/半参数效率界问题中的 minimax 分析提供参考。
关键技术: nested Hilbert spaces, RKHS regression, convergence rate, weak convergence in Hilbert space, function-on-function regression, irregular functional observations
为什么对您有用: 本文直接落入非参数理论（RKHS 估计与收敛速率）这一 primary interest 子方向。您武器库中 very_familiar 的 nonparametric statistics 与 minimax bounds for estimation problems 足以理解并审视其 rate 结果是否紧。Follow-up 判断：立即可做——用 minimax lower bound 验证其声称的收敛速率是否 minimax optimal，或考察嵌套 RKHS 结构能否嵌入半参数效率框架（需 moderately_familiar 的 semiparametric theory 做中期拓展）。

8. jmlr:v27/23-0958 — Bayesian Inference of Contextual Bandit Policies via Empirical Likelihood¶

作者: Jiangrong Ouyang, Mingming Gong, Howard Bondell
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: new_method
摘要: 本文在 contextual bandit 设定下，目标是多个 policy value 的联合推断与比较，关键假设是观测数据来自某 logging policy。核心方法是将 empirical likelihood (EL) 嵌入 Bayesian 框架，构造 EL-based posterior 对 policy value 进行推断，避免直接指定似然函数，从而在小样本下对分布假设具有鲁棒性。技术上利用 EL 的非参数性质与 Bayesian EL 的渐进正态性，实现 finite-sample 下的 uncertainty quantification 与 policy comparison。实证部分通过 Monte Carlo 模拟与青少年 BMI 数据集验证了方法的有效性。对您可能有用：本文将 EL 与 Bayesian 结合的思路，可迁移至因果推断中 policy evaluation / ATE 的 semiparametric inference 设定。
关键技术: empirical likelihood, Bayesian empirical likelihood, contextual bandit policy evaluation, policy comparison, uncertainty quantification
为什么对您有用: 本文连接到因果推断的 policy evaluation / ATE 估计子方向，EL 作为非参数似然替代与 semiparametric efficiency bound 有天然联系。武器库中 semiparametric theory (moderately_familiar) 可直接切入分析该 EL-based posterior 的渐进效率是否达到 semiparametric efficiency bound，以及与 one-step / debiased ML 估计的对比。中期可做：需先在 semiparametric theory 上长肌肉，具体是推导 EL 在 bandit / causal 设定下的 influence function 与效率界。

9. jmlr:v27/24-2030 — Optimization and Generalization of Gradient Descent for Shallow ReLU Networks with Minimal Width¶

作者: Yunwen Lei, Puyu Wang, Yiming Ying, Ding-Xuan Zhou
期刊/来源: JMLR
分类: JMLR v27
相关性 3/10 · novelty: sharper_rate
摘要: 在 shallow ReLU 网络的梯度下降优化与泛化设定下，目标是建立 GD 收敛率与依赖激活模式的 Rademacher 复杂度风险界，关键假设为 NTK-separable 数据带 margin γ。作者首先证明 GD 以 O(1/T) 速率收敛且迭代点落入初始化或参考点周围的局部球，随后利用 ReLU 激活模式在局部球内给出改进的 Rademacher 复杂度估计，绕过传统 O(1/√n) 慢速率。在 NTK-separable 条件下，对 polylogarithmic width 的 ReLU 网络得到近乎最优的 risk bound O(1/(nγ²))，将 margin-based fast rate 与局部 Rademacher 复杂度结合。该结果属于 nonparametric learning theory 的精细分析，对您而言局部 Rademacher 复杂度与激活模式约束的技术路线与 nonparametric minimax 理论有方法论交叉，但核心模型（NTK regime shallow network）离您的主线较远。
关键技术: local Rademacher complexity, neural tangent kernel (NTK), margin-based fast rate, gradient descent convergence O(1/T), activation pattern constraint
为什么对您有用: 本文属于 nonparametric learning theory，局部 Rademacher 复杂度与激活模式约束的分析思路与您 very_familiar 的 minimax bound 工具有交叉——可用 minimax 视角审视其声称的 O(1/(nγ²)) "近乎最优" rate 是否在更广的 nonparametric class 下仍紧。但核心机器（NTK 分析、neural network optimization dynamics）不在武器库中。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉以连接 optimization dynamics 与 estimation theory，但投入产出比不高，建议仅关注其局部复杂度技术思路的迁移可能性。

10. jmlr:v27/25-0668 — Covariate-dependent Hierarchical Dirichlet Processes¶

作者: Huizi Zhang, Sara Wade, Natalia Bochkina
期刊/来源: JMLR
分类: JMLR v27
相关性 3/10 · novelty: new_method
摘要: 本文在多组密度估计与跨组聚类设定下，提出将层级 Dirichlet 过程（HDP）与依赖 Dirichlet 过程（DDP）结合的贝叶斯非参方法，以纳入协变量信息调节组间共享测度与原子权重。模型通过核函数处理多种/混合协变量类型，并通过成分特定似然适配不同输出类型，从而在跨组借信息的同时刻画协变量–聚类关系。利用数据增广技巧处理不可直接采样的归一化权重，构建了 MCMC 后验推断算法。模拟与 scRNA-seq、钙成像两套真实数据表明，引入协变量（细胞动态/行为状态）有助于发现额外子群与可解释聚类。对您可能有用：本文展示了 DDP–HDP 融合框架如何在非参密度估计中引入协变量，可作为贝叶斯非参借信息与协变量依赖结构的技术参考。
关键技术: Hierarchical Dirichlet Process, Dependent Dirichlet Process, data augmentation for normalized weights, MCMC posterior inference, kernel-based covariate dependence, Bayesian nonparametric density estimation
为什么对您有用: 本文属于贝叶斯非参密度估计与聚类，与您的非参统计与半参理论兴趣有方法重叠，但核心是 MCMC 计算而非效率界或 minimax 理论。用您 very_familiar 的非参统计视角可审视其协变量依赖结构的识别性质，但本文不涉及 semiparametric efficiency bound 或 higher-order U-statistic，技术对接有限。follow-up 判断：暂不可做——本文的贝叶斯非参 MCMC 框架与您武器库中的效率理论/U-stat 计算不在同一路线，若要深入需先补 DDP/归一化权重增广的贝叶斯计算细节。

11. jmlr:v27/23-1465 — Exploring Novel Uncertainty Quantification through Forward Intensity Function Modeling¶

作者: Yudong Wang, Zhi-Sheng Ye, Cheng Yong Tang
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_method
摘要: 本文研究动态预测变量（可为随机过程）下时间-事件预测的不确定性量化问题，目标 estimand 为条件生存分布及 forward intensity function 的函数值参数估计。作者提出基于 forward intensity function 的新框架，将动态协变量纳入 intensity 建模，并给出计算高效的估计算法。理论方面，证明了函数值参数估计的弱收敛（functional weak convergence），建立了渐近正态性保证。实证通过两个大规模真实数据集和模拟验证了框架的有效性。对您可能有用：其 functional parameter 的弱收敛证明与 semiparametric efficiency 理论中 influence function 的泛函空间收敛有直接技术对照价值。
关键技术: forward intensity function, functional weak convergence, time-to-event prediction, dynamic stochastic predictors, uncertainty quantification
为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向——functional parameter 的弱收敛是 semiparametric efficiency bound 与 influence function 理论中的经典话题，本文提供了一个 intensity 建模下的具体实例。用您 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory 可以审视其声称的弱收敛率是否达到 efficiency bound。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，特别是 functional parameter 的 efficient influence function 推导，才能判断该框架是否 efficiency-optimal。

12. jmlr:v27/25-1214 — Transformers Can Overcome the Curse of Dimensionality: A Theoretical Study from an Approximation Perspective¶

作者: Yuling Jiao, Yanming Lai, Yang Wang, Bokai Yan
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_theory
摘要: 本文研究 Transformer 对 Hölder 连续函数类 \(\mathcal{H}_Q^\beta([0,1]^{d\times n})\) 的逼近能力，证明其可克服维数灾难。核心构造基于 Kolmogorov-Arnold 叠加定理（KAST），仅需一层 softmax self-attention 加若干 feedforward 层：使用 ReLU+floor 激活时，需 \(\mathcal{O}(\log(1/\epsilon))\) 层、宽度不超过 \(\mathcal{O}(\epsilon^{-2/\beta}\log(1/\epsilon))\)；若允许其他激活函数，宽度可降至常数。该构造绕开了此前 Transformer 逼近工作中 contextual mapping 的概念，证明更直观；文中提出的 translation technique 可将前馈网络的已有逼近结果迁移至 Transformer 框架。主要理论贡献是给出了不依赖维度 \(d\) 的逼近复杂度界，但仅涉及 representational capacity，未触及从数据中学习这些逼近器的统计估计或推断性质。对您而言，Hölder 类逼近率与您熟悉的 nonparametric minimax 界直接对话，但需注意逼近论与估计论之间的鸿沟。
关键技术: Kolmogorov-Arnold Superposition Theorem, softmax self-attention approximation, Hölder class approximation rate, curse of dimensionality avoidance, ReLU-floor network depth-width tradeoff, translation technique for feedforward-to-Transformer
为什么对您有用: 本文的 Hölder 类逼近率与您 very_familiar 的 nonparametric minimax bounds 直接相关——可对照逼近复杂度界与估计 minimax rate 之间的 gap，判断 KAST 构造的网络是否在统计上可学。但核心缺口是：逼近论结果不保证梯度下降等优化程序能找到该构造中的参数，也未给出估计的 \(n^{-1/2}\)-CAN 或 efficiency 性质。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，将逼近率转化为带约束的估计 minimax lower bound，再审视 debiased ML 框架下 Transformer 逼近器的 inference 可行性——当前武器库中缺的是将 representational result 桥接到 statistical estimation 的标准管道（如 M-estimation consistency + influence function 展开）。

13. jmlr:v27/25-0746 — Nonlocal Techniques for the Analysis of Deep ReLU Neural Network Approximations¶

作者: Cornelia Schneider, Mario Ullrich, Jan Vybíral
期刊/来源: JMLR
分类: JMLR v27
相关性 1/10 · novelty: new_theory
摘要: 本文研究深度 ReLU 神经网络对 Sobolev 空间 \(W^s([0,1]^d)\) 和 Barron 类 \(\mathbb{B}^s([0,1]^d)\)（\(0<s<1\)）的逼近问题，设定基于 Daubechies 等引入的分段线性系统。作者证明该系统不仅是 \(L_2\) 的 Riesz 基，也是上述 Sobolev 与 Barron 空间的 Riesz 基。利用此非局部 Riesz 基性质，重新证明了深度 ReLU 网络逼近近期结果，避免了传统局部逼近方法。该方法能显式追踪逼近率中的隐式常数，并证明在 Barron 类下可避免维数灾难（curse of dimensionality）。文章还研究了仅知函数值（采样点）时的逼近误差界。对您有用的是：非局部逼近视角与 Riesz 基系数截断，为非参数 sieve 估计与 minimax 界分析提供了新的函数类刻画，Barron 空间避免 curse of dimension 的结论对高维非参数推断有启示。
关键技术: Riesz basis, Deep ReLU neural network approximation, Sobolev and Barron spaces, Nonlocal approximation, Curse of dimensionality avoidance, Approximation from function values
为什么对您有用: 属于非参数理论中的逼近论基础，直接关联 minimax bounds 与 sieve 估计的函数空间设定。您的 very_familiar 武器 "minimax bounds for estimation problems" 可直接攻入本文的逼近率与采样误差界——验证其避免 curse of dimension 的 rate 是否 minimax 紧，以及 Riesz 基截断是否对应最优 sieve。立即可做：用 minimax 工具验证逼近率紧性，或将 Riesz 基截断转化为 sieve M-estimator 收敛率分析，是 very_familiar 领域的直接延伸。

效率理论 / Debiased ML (efficiency_dml, 2 篇)¶

1. jmlr:v27/23-0440 — Communication-efficient Distributed Statistical Inference for Massive Data with Heterogeneous Auxiliary Information¶

作者: Miaomiao Yu, Zhongfeng Jiang, Jiaxuan Li, Yong Zhou
期刊/来源: JMLR
分类: JMLR v27
相关性 6/10 · novelty: new_method
摘要: 在分布式大数据且存在异质性外部辅助信息（summary statistics / confidence densities）的设定下，目标是实现与拥有全部个体数据（IPD）相当的参数估计效率。核心方法通过将个体数据似然与外部置信密度相乘，构建整合似然进行估计，并在此基础上提出通信高效的分布式迭代推断算法。理论证明该估计量可达与IPD估计量相当的统计效率，且迭代算法在一般条件或GLM下具有线性收敛率。对您可能有用：该框架在异质性外部信息整合下的效率界刻画与分布式收敛分析，直接连接到效率理论（semiparametric efficiency bounds）与统计计算（分布式迭代算法）两个子方向。
关键技术: confidence density integration, distributed iterative inference, likelihood multiplication, linear convergence rate, IPD efficiency benchmark
为什么对您有用: 本文直接连接到效率理论（semiparametric efficiency bounds）子方向——它刻画了在异质性外部辅助信息下整合估计的效率界，并与IPD效率做对比；同时连接到统计计算子方向——分布式迭代算法的线性收敛率分析。用您 very_familiar 的 estimation theory in causal inference 与 software development 可以直接评估其效率界是否紧、算法实现是否可复现。Follow-up 判断：立即可做——用 very_familiar 的 minimax bounds 工具验证其声称的 IPD-comparable efficiency 是否在更一般半参数设定下成立，并用 einsum / tensor contraction 视角审视分布式迭代中矩阵运算的计算成本。

2. jmlr:v27/25-0989 — Online Bernstein-von Mises theorem¶

作者: Jeyong Lee, Junhyeok Choi, Minwoo Chae
期刊/来源: JMLR
分类: JMLR v27
相关性 6/10 · novelty: new_theory
摘要: 在在线学习设定下（mini-batch 顺序到达），研究递归 Bayesian 更新后验的渐近性质；目标参数 θ 在 regular parametric model 下，关键假设为 mini-batch size 超过依赖参数维度 d 的阈值。由于非共轭模型下递归后验计算不可 tractable，作者在每个更新步骤采用变分近似将当前后验近似为正态分布，并利用 Bernstein-von Mises 定理保证每步后验渐近正态。核心理论结果：在 mild regularity 假设下，每步变分近似误差可控且累积误差渐近可忽略，最终顺序更新后验与全数据后验渐近不可区分（asymptotically indistinguishable），即在线变分后验达到与 full posterior 相同的 BvM 极限。维度依赖的 mini-batch size 阈值条件显式刻画了计算-统计权衡。对您可能有用：若将此 online BvM 推广至 semiparametric model，可连接您在 semiparametric efficiency bound 与 HOIF 方面的工作。
关键技术: variational approximation, recursive Bayesian updating, Bernstein-von Mises theorem, online posterior concentration, dimension-dependent threshold
为什么对您有用: 连接到 efficiency theory 子方向——BvM 定理是 parametric efficiency 的 Bayesian 侧面，本文将其推广至 online 设定并给出维度依赖阈值。用 technical_arsenal 中的「semiparametric theory」可攻本文口子：本文仅处理 regular parametric model，semiparametric BvM（涉及 efficient influence function 与 tangent space 结构）是自然推广方向，您的 semiparametric theory 知识可直接切入分析在线设定下 semiparametric BvM 是否成立及累积误差如何控制。中期可做——需先在「HOIF」上长肌肉，因为 semiparametric online BvM 的累积变分误差控制很可能需要 higher-order influence function 工具。

数理统计 / 假设检验 (hypothesis_testing, 2 篇)¶

1. jmlr:v27/23-0274 — Online Detection of Changes in Moment--Based Projections: When to Retrain Deep Learners or Update Portfolios?¶

作者: Ansgar Steland
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_method
摘要: 在高维非平稳时间序列设定下，研究通过投影二阶矩的序贯监测来检测深度学习预测或投资组合是否需要重训练/更新，目标 estimand 为投影部分和的变点检测阈值。核心方法基于投影部分和的 Gaussian 逼近，允许投影向量由数据估计；分别研究开端与闭端监测规则在 mild regularity 下的渐近分布。对投影向量估计，在经典非 ℓ₀ 稀疏与稀疏设定下分别给出理论，当最优投影依赖未知协方差矩阵时采用硬/软阈值估计器。主要理论结果确立了监测规则的渐近性质与检测一致性，仿真与合成数据实验支持方法有效性。对您在 hypothesis testing（序贯监测/变点检测）与高维统计（投影估计与稀疏阈值）方向有直接参考价值。
关键技术: projected partial sums, Gaussian approximation for high-dimensional non-stationary series, sequential monitoring rules (open-end and closed-end), sparse projection estimation with hard/soft thresholding, change-point detection, estimated projection vectors
为什么对您有用: 本文直接连接到 hypothesis testing 的序贯监测/变点检测子方向，以及高维统计中投影估计与稀疏阈值问题。用 very_familiar 的高维渐近工具可分析其 Gaussian 逼近精度，用 minimax bound 可验证其监测规则的检测效率是否达到最优率。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，才能深入分析投影估计器在非平稳依赖结构下的渐近性质与效率界。

2. jmlr:v27/24-0680 — An Anytime Algorithm for Good Arm Identification¶

作者: Marc Jourdan, Andrée Delahaye-Duriez, Clémence Réda
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_method
摘要: 在随机多臂老虎机的 Good Arm Identification（GAI）问题中，目标是识别一条均值超过给定阈值的“好臂”。本文提出 APGAI，一种 anytime、parameter-free 的采样规则，可同时用于 fixed-confidence 和 fixed-budget 设定。作者证明了任意时刻错误概率的上界，显示自适应策略在检测“无好臂”情形下比均匀采样更高效；结合停止规则后，还给出任意置信水平下的期望采样复杂度上界。实证在合成与真实数据上验证了 APGAI 的表现。对您有用：GAI 的 anytime 错误概率界与采样复杂度分析，为 sequential hypothesis testing / multiple testing 提供了新的理论工具，可连接到您对 hypothesis testing 与 statistical computing 的兴趣。
关键技术: anytime sampling rule, fixed-confidence and fixed-budget bandit, probability of error upper bound, expected sampling complexity, stochastic bandit, good arm identification
为什么对您有用: 本文直接连接到您 primary interest 中的 hypothesis testing 子方向——GAI 本质上是带序贯采样的阈值检验问题，anytime 错误概率界与采样复杂度分析是 sequential testing 的核心理论。您 very_familiar 的 minimax bounds 工具可直接用来审视其错误概率界是否紧；moderately_familiar 的 M-estimation theory 可帮助理解其 stopping rule 的渐近性质。Follow-up 判断：立即可做——用 minimax 理论验证其 claimed adaptive advantage 是否在更广的 instance class 上成立。

统计计算 / 算法 (stat_computing, 15 篇)¶

1. jmlr:v27/25-0858 — LazyDINO: Fast, Scalable, and Efficiently Amortized Bayesian Inversion via Structure-Exploiting and Surrogate-Driven Measure Transport¶

作者: Lianghao Cao, Joshua Chen, Michael Brennan, Thomas O'Leary-Roseberry, Youssef Marzouk, Omar Ghattas
期刊/来源: JMLR
分类: JMLR v27
相关性 8/10 · novelty: new_method
摘要: 在高维非线性贝叶斯逆问题设定下，目标是在参数到观测(PtO)映射计算昂贵的条件下，实现快速、可扩展且高效摊销的后验近似。LazyDINO 方法分为离线和在线两阶段：离线阶段利用 PtO 映射及其雅可比的联合样本构建导数信息驱动的神经网络代理模型；在线阶段基于代理训练 lazy map——一种利用低维非线性结构的传输映射变分推断。理论证明：(i) 导数基降阶架构最小化代理后验近似期望误差的上界；(ii) 导数信息代理训练最小化代理驱动变分推断的期望误差。实验显示，相比摊销模拟推断和传统代理驱动传输，LazyDINO 离线成本降低 1-2 个数量级；在少于 1000 次 PtO 评估下即超越 Laplace 近似。对您有用：本文的导数信息降阶与结构化传输映射思路，直接连接到您武器库中的逆问题与统计计算方向，为高维逆问题的快速变分推断提供了新的算法与误差控制框架。
关键技术: transport map variational inference, derivative-informed neural surrogate, lazy map (structure-exploiting), amortized Bayesian inversion, reduced basis architecture, parameter-to-observable map
为什么对您有用: 本文直接连接到您 primary interest 中的统计计算（数值方法与算法）以及武器库 very_familiar 的带随机噪声的逆问题。您可以用 very_familiar 的逆问题理论与软件开发能力，直接攻这篇 paper 的代理模型构建与 lazy map 实现口子，验证其导数信息降阶策略在您关注的其他高维逆问题设定下的表现。Follow-up 粗判：立即可做。

2. jmlr:v27/25-1024 — A Common Interface for Automatic Differentiation¶

作者: Guillaume Dalle, Adrian Hill
期刊/来源: JMLR
分类: JMLR v27
相关性 5/10 · novelty: minor
摘要: 本文针对科学机器学习中自定义代码场景下的自动微分（AD）系统选择与切换问题，提出 Julia 包 DifferentiationInterface.jl，为十余种 AD 后端提供统一前端接口。核心机制是内置 preparation 步骤，利用各后端特性摊销一次性计算（如 Jacobian 稀疏模式检测与 matrix coloring），从而在不增加用户负担的前提下启用稀疏处理等高级功能。该接口通过统一 API 实现后端间的无缝切换与性能对比，支持 forward / reverse / symbolic 等多种模式。主要贡献在软件工程层面：降低 AD 后端切换成本、提升模块化开发效率，而非新的 AD 算法或收敛理论。对您可能有用：若在统计计算（如高阶 U-statistic 的 tensor contraction / einsum 梯度、debiasing 步骤的优化）中需要跨后端比较 AD 性能或利用稀疏结构，此包提供了现成工具。
关键技术: automatic differentiation frontend, sparsity detection and matrix coloring, backend amortization via preparation step, Julia package ecosystem, Jacobian / gradient unification API
为什么对您有用: 直接连接统计计算与软件开发方向：当您实现高阶 U-statistic 的 einsum / tensor contraction 计算或 causal estimator 的数值优化时，需要高效 AD 后端（如 Zygote / Enzyme）并利用稀疏 Jacobian 加速；此包的 preparation + sparsity 机制可降低切换与调优成本。武器库中 software development 项完全覆盖——立即可做：将 DifferentiationInterface.jl 集成到您的 Julia 统计计算流程中，对比不同后端在具体 estimator 上的梯度计算时间与内存开销。

3. jmlr:v27/25-0151 — Adaptive Forward Stepwise: A Method for High Sparsity Regression¶

作者: Ivy Zhang, Robert Tibshirani
期刊/来源: JMLR
分类: JMLR v27
相关性 5/10 · novelty: new_method
摘要: 本文提出自适应前向逐步回归（AFS），在 Forward Stepwise（FS）与 LASSO 之间做连续插值，目标是获得比 LASSO 更稀疏的解同时保留 shrinkage 的稳定效应。方法核心是引入可调 soft-thresholding 参数控制每步加入变量的收缩幅度，作者证明 AFS 的迭代与 boosting 的 soft-thresholding 视角等价。理论贡献主要限于与 boosting 的结构联系，未给出 minimax rate、selection consistency 或 efficiency bound；实证上在模拟与真实数据中，AFS 相比 LASSO/FS 等常用方法有更低 MSE 和更少选入特征数，且可自然推广到分类。对您而言，AFS 作为高维稀疏回归的新算法，可作为 debiased ML 初始估计器的候选，但其理论深度与您关注的核心方向差距较大。
关键技术: adaptive forward stepwise, soft-thresholding, boosting equivalence, sparse regression, LASSO interpolation
为什么对您有用: AFS 属于高维稀疏回归算法，与您 stat_computing 方向的数值方法兴趣有交集，也可作为 debiased ML pipeline 中初始估计器的替代选项。用您 very_familiar 的 high-dimensional asymptotics 可分析 AFS 在特定 sparsity regime 下的 selection consistency 或收敛率，但本文本身未提供此类理论。中期可做：需先在 moderately_familiar 的 M-estimation theory 上分析 AFS 的 asymptotic behavior（如 oracle property、irrepresentable condition 下的一致性），才能判断其在 debiased ML 二步估计中的理论保证是否成立。

4. jmlr:v27/23-0737 — Efficient frequent directions algorithms for approximate decomposition of matrices and higher-order tensors¶

作者: Maolin Che, Yimin Wei, Hong Yan
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: new_method
摘要: 本文在 frequent directions (FD) 框架下，针对低秩矩阵近似提出了两种高效随机化算法：嵌入矩阵分别由稀疏嵌入(SpEmb)与标准高斯矩阵、以及 SpEmb 与 SRHT 的乘积构成，理论保证基于高斯矩阵奇异值界及 SpEmb/SRHT 的已知结果。进一步，给定 Tucker-rank，作者将 FD 思路推广至高阶张量，得到 T-HOSVD 与 ST-HOSVD 的随机化 FD 变体用于近似 Tucker 分解；同时提出 FD-based 随机算法计算给定 TT-rank 的 tensor-train (TT) 分解。合成与真实数据实验验证了算法在效率与精度上的平衡。对您而言，TT 分解的 FD 随机化算法直接触及 tensor-train / einsum 收缩复杂度的计算优化问题，是统计计算与高阶 U-statistic 张量收缩视角的交叉点。
关键技术: frequent directions algorithm, randomized low-rank matrix approximation, sparse embedding matrix, subsampled randomized Hadamard transform, Tucker decomposition (T-HOSVD / ST-HOSVD), tensor-train decomposition
为什么对您有用: 本文直接连接统计计算与张量收缩优化：FD-based TT 分解算法涉及 tensor-train 收缩顺序与计算成本，与您 very_familiar 中的 einsum / tensor contraction 复杂度分析高度契合。用您已有的 treewidth / einsum 视角，可以分析 FD 随机化 TT 分解在收缩代价上的理论界是否紧，或对比确定性 TT-SVD 与 FD 随机化版本的计算-精度 tradeoff。立即可做：用 einsum 复杂度模型复现并分析其 TT 分解算法的计算瓶颈。

5. jmlr:v27/24-1139 — Simulation-based Calibration of Uncertainty Intervals under Approximate Bayesian Estimation¶

作者: Terrance D. Savitsky, Julie Gershunskaya
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: new_method
摘要: 本文针对 mean-field variational Bayes (VB) 在后验参数相关时产生的失真不确定性量化问题，提出一种基于模拟的校准程序以修正近似算法给出的置信区间覆盖率。设定为：在正确模型下，近似算法（如 mean-field VB）能给出一致的一阶矩估计，但二阶矩/方差估计有偏。核心机制是：先用初始 VB 运行得到参数估计，基于这些估计生成 replicate 数据集，再对每条 replicate 重新运行 VB，利用重采样经验分布构造校准后的置信区间，保证渐近达到名义覆盖率。方法同时检测并修正一阶和二阶矩的偏差。Monte Carlo 模拟和 Current Employment Statistics 调查数据验证了有效性。对您可能有用：若在因果推断或高维模型中使用 VB 做快速近似推断，此校准流程可直接提升区间估计的可靠性。
关键技术: mean-field variational Bayes, simulation-based calibration, coverage calibration, moment bias correction, replicate data resampling
为什么对您有用: 直接连接到统计计算与数值方法这一 primary interest，特别是近似推断算法（VB）的校准问题。用您 very_familiar 的软件开发能力可以立即实现该模拟校准流程并测试不同模型设定下的表现。属于立即可做：用 very_familiar 武器（软件开发 + 高维渐近）即可动手复现与扩展。

6. jmlr:v27/23-0157 — Unsupervised Feature Selection via Nonnegative Orthogonal Constrained Regularized Minimization¶

作者: Yan Li, Defeng Sun, Liping Zhang
期刊/来源: JMLR
分类: JMLR v27
相关性 4/10 · novelty: minor
摘要: 本文在无监督特征选择设定下，提出基于非负正交约束的正则化极小化模型，将特征选择嵌入非负谱聚类并防止过拟合。求解采用非精确增广Lagrange乘子法（inexact ALM），子问题用近端交替极小化（proximal alternating minimization）处理。理论上证明算法序列收敛到模型的驻点（stationary point），而非全局最优。实验在常用数据集上验证稳定性，聚类指标优于若干SOTA方法。对您而言，本文的数值优化算法与statistical computing兴趣有弱连接，但驻点收敛属标准优化结果，缺乏统计推断或效率理论贡献。
关键技术: inexact augmented Lagrangian method, proximal alternating minimization, nonnegative spectral clustering, orthogonal constraints, convergence to stationary point
为什么对您有用: (1) 仅弱连接到 statistical computing 的数值优化子方向（增广Lagrange + 近端交替极小化），不涉及因果推断、高维推断或效率理论；(2) 武器库中 software development 可复现其算法，但 very_familiar 的 minimax bounds / high-dim asymptotics 无法切入——驻点收敛不是统计推断问题，模型本身也无 semiparametric efficiency bound 可分析；(3) 中期可做：若想在优化收敛率方面深入需先在 M-estimation theory 上长肌肉，但本文理论深度有限（驻点而非全局最优、无收敛率），不值得为此专门投入。

7. jmlr:v27/25-0012 — Guaranteed Nonconvex Low-Rank Tensor Estimation via Scaled Gradient Descent¶

作者: Tong Wu
期刊/来源: JMLR
分类: JMLR v27
相关性 3/10 · novelty: new_method
摘要: 在 tensor-tensor product (t-product) 与 t-SVD 框架下，目标是从含缺失条目或稀疏噪声的观测中恢复低秩张量因子，假设 ground truth 低秩且 condition number 可任意大。本文提出 ScaledGD 算法，用逐因子 scaled gradient 替代普通 gradient，配合 tailored spectral initialization，在 tensor RPCA、robust tensor completion 与 tensor regression 三种设定下均实现线性收敛，收敛速率与 condition number 无关且每步迭代成本与普通 GD 相当。这是 t-SVD 框架下首个 provably 具 condition-number-independent 线性收敛的算法。数值实验验证了 ill-conditioned 设定下 ScaledGD 相对 vanilla GD 的加速效果。对您而言，本文直接连接 statistical computing 的数值方法兴趣，但 t-SVD/t-product 框架与您 U-statistics 中基于 CP/Tucker 的 tensor contraction / einsum 视角差异较大。
关键技术: scaled gradient descent, tensor-tensor product (t-product), tensor SVD (t-SVD), spectral initialization, condition-number-independent linear convergence, low-rank tensor factor estimation
为什么对您有用: 本文连接您 primary interest 中 statistical computing（数值方法与算法）子方向，以及 very_familiar 武器库中 tensor contraction / einsum 的张量计算经验。但需注意：t-product/t-SVD 框架基于块循环矩阵乘法，与您 U-statistics 工作中基于 CP/Tucker 分解的 einsum 复杂度分析是不同的张量代数体系，技术迁移口子不大。Follow-up 判断：中期可做——若想将 ScaledGD 的 condition-number-independent 思路迁移到您熟悉的 CP/Tucker 低秩张量估计设定，需先在 moderately_familiar 的 M-estimation theory 上长肌肉（具体是 nonconvex M-estimator 的局部收敛分析），同时需补 t-product 代数基础。

8. jmlr:v27/23-0946 — Generative Bayesian Inference with GANs¶

作者: Yuexi Wang, Veronika Rockova
期刊/来源: JMLR
分类: JMLR v27
相关性 3/10 · novelty: new_method
摘要: 在无显式或可处理似然的 likelihood-free 设定下，本文将近似贝叶斯计算（ABC）与基于 GAN 的深度隐式采样器桥接，目标是直接从后验分布生成 iid 样本。提出的 B-GAN 采样器通过在 ABC 参考分布上训练 conditional GAN 的确定性映射来逼近后验；训练完成后以近乎零的额外成本过滤噪声即可产出后验样本。两种后处理局部修正策略：(1) 数据驱动提议加 importance reweighting；(2) variational Bayes 微调。理论方面，在特定神经网络生成器/判别器类下，证明近似后验与真实后验的 total variation distance 收敛到零（frequentist-Bayesian guarantee）。模拟实验显示 B-GAN 与近期 likelihood-free 后验模拟器性能相当。对您而言，本文的神经网络逼近 TV 收敛理论可作为 nonparametric theory 在贝叶斯计算中应用的一个参考案例。
关键技术: conditional GAN, approximate Bayesian computation, importance reweighting, variational Bayes refinement, total variation convergence, neural network generator/discriminator
为什么对您有用: 本文连接到 statistical computing（数值方法与算法）子方向，其 TV 收敛界涉及 nonparametric theory 的神经网络逼近率问题。用 very_familiar 的 minimax bounds 可审视其 TV 收敛率是否紧；用 moderately_familiar 的 semiparametric theory 可分析 importance reweighting 修正的效率性质。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，才能深入刻画 B-GAN 后处理步骤的 semiparametric efficiency bound。

9. jmlr:v27/24-0637 — Stochastic Gradient Methods: Bias, Stability and Generalization¶

作者: Shuang Zeng, Yunwen Lei
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_theory
摘要: 本文研究有偏随机梯度方法（BSGMs）——包括零阶SGD、Clipped-SGD和延迟梯度SGD——在凸光滑问题下的稳定性与泛化界。核心设定是引入广义Lipschitz型条件，将梯度估计量的偏差与方差统一纳入稳定性分析框架，推导出一般性uniform stability界，显式展示偏差如何影响稳定性。在此基础上，首次给出零阶SGD（在合理步长下）和Clipped-SGD的稳定性界，且在适当平滑/裁剪参数下与无偏SGD的界一致。结合稳定性与收敛分析，得到零阶SGD和Clipped-SGD的excess risk为O(1/√n)。对您有用：该框架将偏差与稳定性显式关联，为理解高维/非参数优化算法的泛化提供了新视角。
关键技术: uniform stability, biased stochastic gradient methods, Lipschitz-type condition on gradient estimators, excess risk bound, zeroth-order SGD, clipped-SGD
为什么对您有用: 本文连接到统计计算与高维优化方向，核心是建立有偏梯度估计的稳定性-泛化理论框架。您武器库中的高维渐近理论可用来检验其O(1/√n) excess risk界在高维设定下是否仍紧；M-estimation理论可切入分析偏差对estimator influence function的影响。中期可做：需先在moderately_familiar的M-estimation理论上长肌肉，以将稳定性界推广到非凸/半参数设定。

10. jmlr:v27/24-1057 — Extending Mean-Field Variational Inference via Entropic Regularization: Theory and Computation¶

作者: Bohan Wu, David M. Blei
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_method
摘要: 在高维贝叶斯近似推断设定下，本文提出通过熵正则化扩展朴素平均场变分推断（Ξ-VI），estimand 为真实后验分布，关键机制为利用正则化参数下调似然权重以恢复后验依赖结构。Ξ-VI 将变分推断与熵最优传输问题联系，从而利用 Sinkhorn 算法实现高效计算。理论部分分析了参数空间维度对近似精度与计算复杂度的影响，刻画了 Ξ-VI 中统计精度与计算代价的 trade-off（更高统计精度需更多 Sinkhorn 迭代）。同时建立了 Ξ-VI 的频率学性质：一致性、渐近正态性、高维渐近性质及算法稳定性，并给出了算法多项式时间收敛的充分条件。实验表明 Ξ-VI 在恢复后验依赖与推断精度上优于平均场 VI 及 normalizing flow。对您有用：本文的高维渐近分析与多项式时间收敛条件，为研究高维变分推断的统计-计算 trade-off 提供了频率学视角的切入点，连接了您的高维统计与计算受限推断兴趣。
关键技术: entropic optimal transport, Sinkhorn algorithm, mean-field variational inference, high-dimensional asymptotics, polynomial-time convergence, frequentist asymptotic normality
为什么对您有用: 连接到您的高维统计（高维渐近性质）与计算受限统计兴趣；需注意本文的'统计-计算 trade-off'指 Sinkhorn 迭代精度 vs 统计误差，而非您关注的平均-case 硬度/低阶多项式屏障，但提供了高维 VI 的计算复杂性理论。您的 very_familiar 'high-dimensional asymptotics' 可直接审视本文的高维渐近正态性结论是否与经典高维 M-estimation 理论一致，'software development' 与 Sinkhorn 实现直接相关。中期可做：需先在 moderately_familiar 的 'M-estimation theory' 上长肌肉，以将本文的 VI 频率学性质与您熟悉的 semiparametric efficiency 视角结合，探索 VI estimator 的 influence function 与高维偏差修正。

11. jmlr:v27/24-1840 — skwdro: a library for Wasserstein distributionally robust machine learning¶

作者: Vincent Florian, Waïss Azizian, Franck Iutzeler, Jérôme Malick
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: application
摘要: 本文介绍了 skwdro 库，旨在通过 Wasserstein 分布鲁棒优化（DRO）为机器学习模型提供鲁棒性训练。核心 estimand 是在 Wasserstein 球约束下的最坏情况期望损失，通过 entropic smoothing（即 Sinkhorn / log-sum-exp 近似）将原始 min-max 目标转化为可微的平滑问题，从而兼容 PyTorch 自动微分与梯度下降。库提供 PyTorch wrapper 和 scikit-learn 接口，最小化代码改动即可实现鲁棒化。理论层面，entropic smoothing 保证了近似误差可控且梯度可计算，但未给出新的收敛率或 minimax 界。对您可能有用：若您在因果推断或高维估计中考虑分布漂移下的鲁棒性，该库的 entropic smoothing + PyTorch 实现可作为快速原型工具。
关键技术: Wasserstein distributionally robust optimization, entropic smoothing / Sinkhorn regularization, PyTorch automatic differentiation wrapper, scikit-learn compatible estimator interface, min-max robust objective reformulation
为什么对您有用: 本文属于 stat_computing 方向的软件/工具论文，连接到您 primary interest 中的 statistical computing（数值方法与软件）。您的 technical_arsenal 中 software development 是 very_familiar，因此可以直接评估该库的 entropic smoothing 实现是否适合嵌入到您自己的鲁棒因果估计器原型中。novelty_flag 为 application（软件库），理论 novelty 较低，但作为快速实验工具值得了解。follow-up 判断：立即可做——用 very_familiar 的 software development 技能即可上手试用该库。

12. jmlr:v27/25-1557 — UQLM: A Python Package for Uncertainty Quantification in Large Language Models¶

作者: Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik, Ho-Kyeong Ra, Viren Bajaj, Zeya Ahmad
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: application
摘要: 本文介绍 UQLM，一个面向大语言模型（LLM）不确定性量化的 Python 软件包，核心目标是检测 LLM 幻觉（hallucination）。该包提供多种基于 UQ 的 scorer，输出 0–1 的 response-level confidence score，作为即插即用的幻觉检测方案。技术层面集成了若干 state-of-the-art UQ 技术（如基于多次采样一致性的 scorer、logit-based scorer 等），支持轻量集成到 LLM pipeline。本文本质是软件工具论文，未提出新的 UQ 理论或估计方法，仅将已有技术封装为可复用 API。对您而言，若关注 statistical computing 的软件生态建设，可作为 LLM-UQ 工具链的参考案例，但方法学深度有限。
关键技术: uncertainty quantification, hallucination detection, confidence scoring, Python package development, response-level UQ scorers
为什么对您有用: 本文连接到您 primary interest 中 statistical computing / software development 的方向——它是一个 Python 包的设计与实现案例。但核心 UQ 技术均为已有方法的封装（如 consistency-based、logit-based scorer），未涉及您熟悉的 minimax theory、高维渐近或 semiparametric efficiency 等理论工具。用您 very_familiar 的 software development 能力可以快速复现类似包结构，但理论层面无新口子可攻。follow-up 判断：立即可做（若需搭建类似 UQ 工具包），但方法学 novelty 极低，不值得深入读全文。

13. jmlr:v27/24-0020 — Convergence and complexity of block majorization-minimization for constrained block-Riemannian optimization¶

作者: Yuchen Li, Laura Balzano, Deanna Needell, Hanbaek Lyu
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_theory
摘要: 本文研究块坐标 majorization-minimization (BMM) 在约束块-Riemannian 优化下的收敛性与迭代复杂度，目标函数为非凸非光滑，各参数块受限于 Riemannian 流形子集。核心机制是逐块最小化 majorizing surrogate，利用流形几何（如 Stiefel 流形上的 geodesic/retraction）处理约束，而非投影到 Euclidean 空间。理论结果：算法渐近收敛到驻点集，且在 \(\widetilde{O}(\epsilon^{-2})\) 次迭代内达到 \(\epsilon\)-驻点；当底层流形为 Euclidean/Stiefel 乘积时，复杂度假设完全 Euclidean，但证明显式使用 Riemannian 结构。应用覆盖 Riemannian MM、Bures-JKO Wasserstein VI、robust PCA、CP-dictionary-learning 等。对您可能有用：BMM 的 \(\tilde{O}(\epsilon^{-2})\) 复杂度界与高维/非凸优化的 stat-computing tradeoff 分析直接相关，Stiefel 约束下的块迭代机制也可为 tensor contraction / einsum 的流形优化提供算法参考。
关键技术: block majorization-minimization, Riemannian manifold constraint, Stiefel manifold, iteration complexity, nonconvex nonsmooth optimization, Wasserstein variational inference
为什么对您有用: 本文连接到 stat_computing 与 high_dim_rmt 交叉：robust PCA / subspace tracking 的 Stiefel 约束优化是高维统计中常见计算瓶颈，\(\tilde{O}(\epsilon^{-2})\) 复杂度界为 stat-computing tradeoff 提供了 polynomial-time achievability 的具体基准。用 technical_arsenal 中 very_familiar 的 'computation of higher-order U-statistics (treewidth / tensor contraction / einsum)' 可以攻本文 CP-dictionary-learning 的块迭代计算成本分析口子——将 tensor contraction 的 einsum 复杂度模型嵌入 BMM 的块更新步骤，量化 Riemannian 约束下的 per-iteration cost。follow-up 粗判：中期可做——需先在 moderately_familiar 的 'M-estimation theory' 上长肌肉，将 BMM 的驻点收敛与 M-estimator 的 asymptotic theory 统一，才能做 stat-computing tradeoff 的完整分析。

14. jmlr:v27/24-0792 — A Symplectic Analysis of Alternating Mirror Descent¶

作者: Jonas E. Katona, Xiuyuan Wang, Andre Wibisono
期刊/来源: JMLR
分类: JMLR v27
相关性 1/10 · novelty: new_theory
摘要: 本文研究双线性零和博弈中 Alternating Mirror Descent (AMD) 算法的动力学性质，将其视为连续时间 Hamiltonian 流的 symplectic Euler 离散化。核心分析框架基于辛数值积分器的 modified Hamiltonian (MH)——一个在离散化下守恒的量；作者在原 Hamiltonian 为二次时给出 MH 的闭式表达，并证明它与文献中已知的另一守恒量不同。利用 MH 的截断误差界（关于步长阶数和迭代次数 K），推导出 AMD 的 total regret 改进至 O(K^{1/5})、平均迭代的 duality gap 为 O(K^{-4/5})。最后提出猜想：若 MH 收敛条件成立，regret 可达 O(K^ε)、duality gap 可达 O(K^{-1+ε})（ε>0），甚至 ε=0。对您可能有用：该文将优化算法的 regret 分析转化为辛几何/数值积分的守恒量问题，为 statistical computing 中迭代算法的离散化误差提供了新的力学视角。
关键技术: symplectic Euler discretization, modified Hamiltonian, Hamiltonian dynamics, regret bound analysis, bilinear zero-sum game, duality gap
为什么对您有用: 本文连接到 statistical computing 子方向（数值方法与算法分析），将离散优化算法的 regret 分析重新框架化为辛数值积分的 modified Hamiltonian 守恒问题。technical_arsenal 中 'inverse problems with random noise' 与 'software development' 对离散化误差分析有一定基础，但辛几何与 Hamiltonian 动力学的系统理论不在武器库中。中期可做：需先在 moderately_familiar 的 M-estimation 理论之外，补充辛数值积分的基础（如 Geometric Numerical Integration 书），才能将 MH 视角迁移到您关心的 higher-order U-statistics 或 debiased ML 的迭代求解器稳定性分析。

15. jmlr:v27/25-0185 — DCatalyst: A Unified Accelerated Framework for Decentralized Optimization¶

作者: TIanyu Cao, Xiaokai Chen, Gesualdo Scutari
期刊/来源: JMLR
分类: JMLR v27
相关性 1/10 · novelty: new_method
摘要: 在无中心服务器的网络（无向图）上，研究复合函数 f+r 的分布式优化问题，其中 f 为各节点损失的平均（强凸），r 为凸正则项。提出 DCatalyst 框架：将 Nesterov 型加速作为外层 inexact proximal momentum scheme，内层可黑盒接入任意已有分布式算法。核心理论工具是推广 Nesterov estimating sequence 到 inexact estimating sequence，系统性地容纳共识误差与局部子问题的不精确解。证明 DCatalyst 在广泛算法族与问题类上达到最优（至 log 因子）通信与计算复杂度，并为此前缺乏加速分布式方法的若干问题类首次给出加速率。对您有用：若未来在分布式因果推断或高维 M-estimation 的计算约束场景中需要加速 proximal 算法，此框架的 inexact estimating sequence 技术可直接借鉴。
关键技术: Nesterov acceleration, inexact estimating sequences, proximal momentum scheme, decentralized consensus optimization, communication complexity
为什么对您有用: 连接到 stat_computing 与 computationally constrained statistics 子方向：分布式优化是统计计算中大规模 M-estimation 的核心场景，DCatalyst 的 inexact estimating sequence 为在共识误差下保持加速率提供了新分析工具。用 very_familiar 中的 software development / M-estimation theory 可以验证该框架在具体统计问题（如分布式 debiased MLE）上的实现可行性。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，将分布式 proximal scheme 与 semiparametric M-estimator 的收敛分析对接。

其他 (other, 11 篇)¶

1. jmlr:v27/24-0456 — Persistence Diagrams Estimation of Multivariate Piecewise Hölder-continuous Signals¶

作者: Hugo Henneuse
期刊/来源: JMLR
分类: JMLR v27
相关性 7/10
摘要: 本文研究非参数回归中持久图（子水平集滤化）的 minimax 估计问题，设定为 piecewise Hölder-continuous 信号且对不连续集的 reach 有控制。核心创新在于放弃传统的 sup-norm stability 路线，改用 algebraic stability 直接通过 interleaving 瞄准 bottleneck distance，从而利用子水平集的 deformation retraction 来处理 sup-norm 方法无法应对的边界不连续性。结果表明，简单的 histogram estimator 即可达到与 Hölder-continuous 函数类相同的 minimax rate，minimax 下界也匹配该速率。对您而言，minimax bound 分析框架直接落在 very_familiar 武器区，但拓扑数据分析的专门工具（bottleneck distance、interleaving、deformation retraction）不在核心 arsenal 内。
关键技术: minimax rate analysis

2. jmlr:v27/22-0483 — The surrogate Gibbs-posterior of a corrected stochastic MALA: Towards uncertainty quantification for neural networks¶

作者: Sebastian Bieringer, Gregor Kasieczka, Maximilian F. Steffen, Mathias Trabs
期刊/来源: JMLR
分类: JMLR v27
相关性 5/10
摘要: 在非参数回归模型下，本文针对 Gibbs-posterior 的随机化 MALA (sMALA) 引入修正项 csMALA，目标是使 surrogate posterior 与原始 Gibbs-posterior 的距离随全样本量递减而保持可扩展性。csMALA 通过简单修正项恢复目标分布一致性；在非参数回归中证明 PAC-Bayes oracle inequality；对浅层神经网络分析 credible ball 的直径与覆盖率，对深层神经网络证明最优收缩速率。覆盖率结果独立于修正项，也适用于标准 Gibbs-posterior。高维参数空间的模拟验证了 csMALA 的实际优势。对您可能有用：PAC-Bayes oracle inequality 与 minimax 收缩速率直接对接您 very_familiar 的非参数 minimax bound 工具；csMALA 修正机制是 statistical computing 方向的新素材。
关键技术: PAC-Bayes oracle inequality, stochastic MALA correction, Gibbs-posterior

3. jmlr:v27/24-1901 — Learning Bayesian Network Classifiers to Minimize Class Variable Parameters¶

作者: Shouta Sugahara, Koya Kato, James Cussens, Maomi Ueno
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: minor
摘要: 本文研究贝叶斯网络分类器的结构学习问题，目标是找到使类变量参数最少的网络结构（类变量无父节点前提下），从而渐近地估计类变量的真实概率分布。提出两种结构搜索方法：基于深度优先搜索的方法和基于整数规划的方法，均保证渐近收敛到真实分布且最小化类变量参数数。实验在基准数据集上验证了所提方法的有效性。该工作属于图模型结构学习的范畴，与您关注的 semiparametric efficiency / minimax rate / 高维推断等理论方向无直接交集，整数规划搜索也非您 stat_computing 关注的矩阵/张量数值计算路线。
关键技术: Bayesian network classifier, structure learning, integer programming search, depth-first search, parameter minimization
为什么对您有用: 与您 primary interests 的因果推断 identification / semiparametric efficiency / 高维 RMT 均无直接关联；整数规划结构搜索虽属 stat_computing，但您关注的是矩阵张量数值方法而非组合优化搜索。武器库中无 BN 结构学习的专门工具，且该问题不触及您熟悉的 minimax / U-statistic / influence function 框架。暂不可做：核心机器（BN 结构学习 + ILP 搜索）不在武器库中，且与您研究方向偏离较大，不建议展开阅读。

4. jmlr:v27/24-0526 — Two-way Node Popularity Model for Directed and Bipartite Networks¶

作者: Bing-Yi Jing, Ting Li, Jiangzhou Wang, Ya Wang
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: new_method
摘要: 本文针对有向网络与二部网络的社区检测问题，提出 Two-Way Node Popularity Model（TNPM），将节点在不同社区中的流行度（popularity）纳入概率生成框架，estimand 为社区标签与节点流行度参数。模型允许边来自一般 sub-Gaussian 分布族，而非仅限于 Bernoulli，理论分析需处理 sub-Gaussian 尾部的非标准 concentration。拟合与社区识别采用 Delete-One-Method（DOM），其核心思路是逐节点删除后重构统计量以降低依赖结构带来的偏差；大规模网络则用 Two-Stage Divided Cosine Algorithm（TSDC）分阶段降维再聚类。理论部分给出了 DOM 在 sub-Gaussian 设定下的一致性及误差界，但未涉及 minimax rate 或 semiparametric efficiency bound。实证在模拟与两个真实数据上展示估计精度与计算效率优势。对您而言，本文的 sub-Gaussian concentration 技术与 DOM 删除法可能对高维网络推断有参考价值，但核心主题（社区检测）与您的主线方向（因果推断、RMT、U-statistics）距离较远。
关键技术: Two-Way Node Popularity Model, Delete-One-Method, sub-Gaussian concentration inequality, Two-Stage Divided Cosine Algorithm, community detection in bipartite networks, spectral clustering with popularity adjustment
为什么对您有用: 本文核心是网络社区检测的概率模型与算法，与您的主线方向（proximal CI、RMT、higher-order U-statistics、semiparametric efficiency）无直接对接。sub-Gaussian concentration 的技术处理与 DOM 删除-重构策略对高维依赖结构下的推断有一般性参考，但未触及 minimax rate 或 efficiency bound，理论深度有限。对您而言属于暂不可做——社区检测的谱方法与 popularity 模型不在当前武器库中，且该方向与您的研究议程缺乏自然交汇点，不建议展开阅读。

5. jmlr:v27/24-1592 — Contrasting Local and Global Modeling with Machine Learning and Satellite Data: A Case Study Estimating Tree Canopy Height in African Savannas¶

作者: Esther Rolf, Lucia Gordon, Milind Tambe, Andrew Davies
期刊/来源: JMLR
分类: JMLR v27
相关性 2/10 · novelty: application
摘要: 本文在卫星机器学习（SatML）设定下，系统对比局部训练与全局训练范式对树冠高度（TCH）预测的局部区域效果，研究区域为莫桑比克Karingani保护区，estimand为局部TCH地图精度。核心发现：仅用局部数据训练的小模型在局部精度上优于已发表的全局TCH地图，甚至优于全局预训练后局部微调的模型，表明全局模型改进未必迁移至特定区域。方法上采用标准ML微调与迁移学习流程，无深层统计理论贡献；分析层面识别了局部与全局建模的冲突与协同点。对您而言，本文属应用ML案例研究，与因果推断、高维理论、半参数效率等核心方向无直接方法论连接。
关键技术: transfer learning, fine-tuning, satellite imagery ML, domain adaptation, global-vs-local modeling paradigm
为什么对您有用: 本文讨论的全局vs局部模型性能对比与您primary interest中的统计-计算tradeoff（信息-计算gap、低阶多项式barrier）无实质连接——它关注的是迁移学习实证表现，而非polynomial-time achievability或hardness barrier。武器库中higher-order U-statistics、minimax bounds、semiparametric efficiency等均无法直接切入本文方法论缺口。follow-up判断：暂不可做——核心问题（SatML domain adaptation）不在您研究议程内，且本文缺乏可迁移的统计理论工具，不值得花时间读全文。

6. jmlr:v27/24-0290 — Classification Under Local Differential Privacy with Model Reversal and Model Averaging¶

作者: Caihong Qin, Yang Bai
期刊/来源: JMLR
分类: JMLR v27
相关性 1/10 · novelty: new_method
摘要: 在局部差分隐私（LDP）设定下，目标是提升加噪数据的分类效用，核心假设是将 LDP 学习重新解释为迁移学习问题（加噪数据为源域，未观测真实数据为目标域）。提出三种技术：噪声二元反馈评估机制估计数据集效用、模型反转（翻转决策边界挽救不佳分类器）、以及基于估计效用的模型平均加权。理论方面给出了 LDP 下的 excess risk bound 并证明所提方法能降低该风险。实证结果显示分类精度有显著提升。对您而言，本文的 excess risk bound 分析与迁移学习视角可能为研究差分隐私约束下的估计效率提供参考，但与您核心的因果推断或高维理论距离较远。
关键技术: local differential privacy, transfer learning reinterpretation, model reversal, model averaging, excess risk bound
为什么对您有用: 本文属于差分隐私下的统计学习理论，与您 primary interest 中的 statistical computing (numerical methods, algorithm) 有弱连接，但不涉及因果、高维或效率理论。用 minimax bounds for estimation problems 的视角可审视其 excess risk bound 是否紧致，但 LDP 机制与迁移学习类比不在武器库核心射程。暂不可做：核心的差分隐私机制设计与隐私-效用权衡不在武器库里（缺 LDP 机制与隐私损失计算的专门工具）。

7. jmlr:v27/25-0549 — Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection¶

作者: Addison Kristanto Julistiono, Davoud Ataee Tarzanagh, Navid Azizan
期刊/来源: JMLR
分类: JMLR v27
相关性 1/10 · novelty: new_theory
摘要: 本文研究在 softmax attention 分类模型下，以 ℓ_p-范数 p 次幂为势函数的 mirror descent (MD) 算法的收敛性质与隐式偏好。设定为 token-level 分类，关键假设是 key-query 参数与 decoder 的联合优化满足特定分离条件。核心机制：MD 算法方向收敛至以 ℓ_p-范数为目标的广义 hard-margin SVM 解；收敛率与简单模型下 GD 相当，尽管目标高度非凸非线。进一步给出 key-query 矩阵与 decoder 联合优化收敛至各自 hard-margin SVM 解的条件。数值实验表明 MD 在 token 选择与泛化上优于标准 GD。对您而言，本文将 attention 优化与 max-margin SVM 联系，属于 stat-computing / ML theory 边缘，与您核心武器库（U-stat / causal / RMT）无直接交叉。
关键技术: mirror descent, implicit bias of optimization, softmax attention, hard-margin SVM, ℓ_p-norm regularization, joint optimization dynamics
为什么对您有用: 本文属于深度学习优化理论，与您 primary interests（causal / high-dim / semipara / efficiency）无直接交集；与 stat-computing tradeoff 有弱关联，但未涉及信息-计算间隙或低阶多项式屏障等您关注的 stat-comp 工具。武器库中 minimax bounds 与 M-estimation 理论可部分理解其收敛分析，但核心机器（mirror descent 隐式偏好、attention 非凸动力学）不在 very/moderately_familiar 范围。暂不可做：缺非凸优化隐式偏好分析工具，且主题偏离核心方向。

8. jmlr:v27/22-1194 — A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design¶

作者: Rui Ai, Boxiang Lyu, Zhaoran Wang, Zhuoran Yang, Michael I. Jordan
期刊/来源: JMLR
分类: JMLR v27
相关性 0/10 · novelty: new_method
摘要: 在多阶段二价拍卖的保留价优化问题中，卖家先验动作通过 MDP 影响投标者后续估值，目标是在投标者可能非真实报价、市场噪声分布未知、且每步收益为不可直接观测的非线性随机变量三重挑战下最小化卖家收益 regret。提出 CLUB（Contextual-LSVI-UCB-Buffer）算法，结合三项技术：(1) "buffer periods" + 低切换成本 RL 限制非真实报价者的剩余，激励近似真实报价；(2) 新算法在噪声分布未知时免除纯探索阶段；(3) 扩展 LSVI-UCB 利用拍卖结构控制收益函数不确定性。已知噪声下达到 Õ(H^{5/2}√K) regret，未知噪声下达到 Õ(H^3√K) regret，且不依赖投标者真实性假设。主要理论贡献是首篇在上述三重挑战同时存在下的多阶段拍卖 regret bound；对您而言，regret minimax 风格与您熟悉的 estimation minimax bounds 有形式相似性，但核心 RL/机制设计工具不在当前武器库中。
关键技术: LSVI-UCB extension, buffer periods mechanism, low switching cost RL, MDP regret bound, incentive-compatible exploration, second-price auction with reserve
为什么对您有用: （1）拍卖设计属于经济理论中的机制设计模型方向，但本文无真实数据集也无因果推断应用，偏离您 econ_theory 关注的 applied causal + datasets 路线。（2）regret bound 的 minimax 风格与您 very_familiar 的 estimation minimax bounds 有结构相似（√K 速率、horizon dependence），但 RL cumulative regret 与 statistical estimation minimax 是不同问题族，无法直接用 minimax bound 技术攻入。（3）暂不可做：核心机器——MDP regret 分析、incentive compatibility 理论、LSVI-UCB 框架——不在武器库中，需先系统学习 RL 在机制设计中的 regret 理论才能跟进。

9. jmlr:v27/24-0428 — Extrapolated Markov Chain Oversampling Method for Imbalanced Text Classification¶

作者: Aleksi Avela, Pauliina Ilmonen
期刊/来源: JMLR
分类: JMLR v27
相关性 0/10 · novelty: new_method
摘要: 本文针对不平衡文本分类问题，提出基于马尔可夫链的过采样方法（extrapolated Markov chain oversampling）。核心设定是少数类样本不足且词汇特征空间随样本量增长而扩展，传统过采样无法有效扩展少数类特征空间。方法从少数类估计马尔可夫链转移概率，同时部分借用多数类转移信息，使合成样本的词汇空间得以外推扩展。实证对比SMOTE等过采样方法，在严重不平衡场景下表现竞争力更强。理论层面缺乏收敛率或效率界分析，贡献主要在算法设计与实验验证。对您而言，本文与因果推断、高维RMT、U-statistics、半参数效率等primary interests几乎无直接交集，仅在statistical computing层面有微弱关联（马尔可夫链生成算法），但非您关注的矩阵/张量数值计算方向。
关键技术: Markov chain transition estimation, synthetic oversampling, vocabulary expansion extrapolation, imbalanced text classification
为什么对您有用: 本文主题（文本分类过采样）与您的主要研究方向无实质交集。唯一微弱连接是statistical computing中的算法设计，但本文的马尔可夫链文本生成与您关注的矩阵/张量数值计算和estimator计算复杂度（einsum/treewidth）方向完全不同。不建议展开阅读，属于低相关论文。

10. jmlr:v27/24-0783 — CHANI: Correlation-based Hawkes Aggregation of Neurons with bio-Inspiration¶

作者: Sophie Jaffard, Samuel Vaiter, Patricia Reynaud-Bouret
期刊/来源: JMLR
分类: JMLR v27
相关性 0/10 · novelty: new_theory
摘要: 本文提出基于Hawkes过程的脉冲神经网络CHANI，目标是在仅依赖局部变换条件下从数学上证明生物启发网络能学习分类任务。神经元活动由Hawkes过程建模，突触权重通过expert aggregation算法更新，形成局部简单学习规则。作者证明了网络在平均意义和渐近意义下可学习，并展示网络能自动形成神经元assembly编码多类别，中间层同一神经元可被多类别激活。数值实验仅在合成数据上进行，缺乏真实数据验证。对您而言，本文属于生物启发计算/点过程建模，与您primary interests无直接方法论交集。
关键技术: Hawkes process, spiking neural network, expert aggregation algorithm, local learning rule, neuronal assembly
为什么对您有用: 本文主题为生物启发脉冲神经网络与Hawkes过程，与您primary interests（因果推断、高维RMT、效率理论、higher-order U-statistics）无直接方法论交集。expert aggregation虽为在线学习工具，但与您武器库中的minimax bounds、U-statistic treewidth/einsum、semiparametric efficiency等无自然对接口子。属于暂不可做：核心机器（Hawkes过程理论、生物神经网络assembly分析）不在武器库中，且对您当前研究方向无明确迁移价值。不建议花时间深入阅读全文。

11. jmlr:v27/25-1106 — Reparameterized Complex-valued Neurons Can Efficiently Learn More than Real-valued Neurons via Gradient Descent¶

作者: Jin-Hui Wu, Shao-Qun Zhang, Yuan Jiang, Zhi-Hua Zhou
期刊/来源: JMLR
分类: JMLR v27
相关性 0/10
摘要: 本文在单神经元梯度下降设定下比较实值与复值网络的可学习性，estimand 为特定目标函数的收敛速率。核心结论：一个复值神经元能以 \(O(t^{-3})\) 和 \(O(t^{-1})\) 的速率分别学习任意实值与复值神经元表达的函数，而有限宽两层实值网络无法学习非退化复值神经元。复值神经元学习实值神经元时原始收敛率 \(\Omega(t^{-3})\) 远慢于实值对实值的线性收敛；通过对相位参数做 reparameterization，复值神经元学习实值神经元可恢复线性收敛率。理论证明依赖梯度下降轨迹的 Lyapunov 分析与参数空间几何。对您而言，reparameterization 改变收敛率的机制与您在 stat-computing / numerical methods 方向的兴趣直接相关。
关键技术: gradient descent convergence rate, complex-valued neural network, reparameterization, Lyapunov analysis, learnability comparison

Maintained by 陈星宇 · Homepage · Source on GitHub