2026-06-25 每日 arXiv 资讯¶

高相关论文 8 篇 · 中相关 69 篇 · 其他 52 篇 · 会议/Seminar 事件 0 条

⭐ 高相关论文（按主题分组）¶

因果推断 (causal_inference, 7 篇)¶

1. 2606.26931 — Semiparametric Inference for Half-Trek Estimators in Linear Structural Equation Models¶

作者: Leopold Mareis, Nils Sturma, Mathias Drton
相关性 9/10 · novelty: new_method
摘要: 本文针对有向混合图（含潜在混杂）下的线性结构方程模型，研究半参数推断问题。目标是对满足半跋准则（HTC）的结构系数进行识别与推断，该准则保证了系数可由观测协方差矩阵有理识别，并给出封闭形式的理性估计量。作者推导了HTC估计量的半参数影响函数，该函数将目标节点的结构残差与识别工具变量相结合，并递归校正了前期估计阶段的不确定性。基于此影响函数，HTC估计量是渐近正态的，且方差可闭式计算，从而可构造置信区域、边际区间和Wald检验。在Fulton Fish Market数据集上，该方法给出了供给对需求因果效应的完整推断总结。对您而言，本文连接了因果推断中的IV识别与半参数效率理论，且其递归校正影响函数的构造思路可能对您熟悉的proximal CI或纵向设定中的多步估计问题有借鉴意义。
关键技术: half-trek criterion, influence function, rational identification, linear SEM, closed-form variance
为什么对您有用: 本文直接连接您primary interest中的因果推断（IV识别）和效率理论（影响函数推导）。技术武器库中'非参数统计'和'因果推断中的估计理论'可直接用于理解其影响函数构造，而'半参数理论'（moderately_familiar）是理解其渐近效率的关键——中期可做：若您想将类似递归校正思路推广到proximal CI或纵向设定，需先在半参数理论上长肌肉。

2. 2606.26543 — A Unified Three-Stage Weighting Framework for Causal Inference and Mediation Analysis under Case-Control Sampling¶

作者: Tarikul Islam, Mahbub A. H. M. Latif
相关性 9/10 · novelty: new_method
摘要: 本文针对病例-对照研究（case-control sampling）中因结果依赖抽样导致的因果推断偏差，提出一个统一的三阶段加权框架（3S-weighting）。第一阶段利用密度比学习（density-ratio learning）和标签偏移校正（label-shift correction），结合外部协变量信息估计未知的总体结局患病率。第二阶段基于患病率构建设计权重，将回顾性样本重建为目标总体分布。第三阶段在边际结构模型（marginal structural model）框架内应用稳定的因果和中介权重，估计总效应、纯直接效应、纯间接效应及交互效应。模拟表明，忽略回顾性抽样的常规分析会产生严重偏差，而所提方法能一致地恢复总体因果参数。NHANES数据应用进一步展示了框架的实用性。对您而言，本文直接连接您对因果推断中identification和estimation的兴趣，特别是处理非随机抽样（如case-control）这一流行病学常见设定，且其加权思路可与您熟悉的inverse probability weighting和M-estimation理论对接。
关键技术: density-ratio learning, label-shift correction, marginal structural model, three-stage weighting, case-control sampling, causal mediation analysis
为什么对您有用: 本文直接连接您对因果推断中identification和estimation的兴趣，特别是处理非随机抽样（如case-control）这一流行病学常见设定。您武器库中'very_familiar'的'estimation theory in causal inference'和'M-estimation theory'（moderately_familiar）可直接用于分析该加权估计量的渐近性质（如一致性、渐近正态性），并检验其semiparametric efficiency bound是否可达。中期可做：需先在'moderately_familiar'的'semiparametric theory'上进一步熟悉，以推导该框架下estimator的influence function和效率界。

3. 2606.27518 — Causal Inference for Functional Treatments with Stochastic Policies¶

作者: Martha Barnard, Jared D. Huling, Julian Wolfson
相关性 8/10 · novelty: new_method
摘要: 本文研究功能型处理（如加速度计记录的连续时间身体活动轨迹）的因果效应估计，目标是在随机策略（stochastic policy）下定义并估计可解释的因果量。作者提出通过单个基函数修改处理分布，从而避免传统功能型处理所需的 positivity 假设，并允许分析师明确控制处理修改方式和时间混淆反馈。估计方法基于半参数框架，推导了渐近正态性并证明了率双稳健性（rate double robustness），即当倾向得分或结果回归之一以足够快速度收敛时，估计量可达到 n^{-1/2} 收敛率。在 NHANES 数据中，该方法用于估计三小时时段内增加身体活动对死亡率的因果效应。对您而言，本文连接了因果推断中的功能型处理与随机策略设定，其双稳健性理论可借助您熟悉的非参数统计和 minimax 界工具进行验证或推广。
关键技术: stochastic policy, functional treatment, rate double robustness, basis function modification, asymptotic normality
为什么对您有用: 本文直接连接您 primary interest 中的因果推断（功能型处理与随机策略），其双稳健性理论可用您 very_familiar 的非参数统计和 minimax 界工具进行紧性检验。中期可做：若将基函数选择推广到数据自适应（如 sieve），需先在 moderately_familiar 的 semiparametric theory 上加强。

4. 2606.26818 — Optimizing Experimental Design for Causal Effect Estimation with Partial Measurements¶

作者: Leopold Mareis
相关性 8/10 · novelty: new_method
摘要: 本文研究在部分测量（partial measurements）下优化实验设计以估计因果效应的问题。设定为高斯图模型，其中工具变量 X1、处理变量 X2 和响应变量 X3 的联合分布有部分先验信息（如来自初始数据集），但需额外采样以提高估计精度。核心贡献是证明在某些参数配置下，仅采集部分变量（如 X12）的样本可以降低一致估计量的渐近方差。方法上，引入每个（部分）样本的预算约束，将最优采样分配转化为实数域上的可解析求解的优化问题，得到最优的部分样本与完整样本数量。提供了在最优预算分配下检测非零因果效应的显著性水平、功效和样本量计算公式。数值实验表明该方法能显著减少所需预算和完整样本数量，并在汽车分析和药物研发中展示了应用优势。对您而言，本文连接了因果推断中的实验设计（adaptive sampling）与渐近方差优化，且其解析求解思路可迁移至您熟悉的 proximal CI 或 IV 设定下的预算约束问题。
关键技术: Gaussian graphical model, asymptotic variance reduction, budget-constrained optimization, partial measurement design, sample size calculation
为什么对您有用: 本文直接连接您的 primary interest 中的因果推断（IV 设定下的实验设计），且其核心问题——在预算约束下通过部分采样降低渐近方差——与您熟悉的 estimation theory in causal inference 高度相关。技术上看，您可以用 very_familiar 的 minimax bounds 工具来检验其最优分配是否在更一般的非参数模型下仍成立，或将其解析解推广到您 moderately_familiar 的 identification theory 中的 negative control 设定。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以处理非高斯分布下的部分采样效率界。

5. 2606.26630 — Doubly Robust Quadratic Inference Functions for Causal Inference in Cluster Randomized Trials¶

作者: Hengshi Yu
相关性 8/10 · novelty: new_method
摘要: 本文针对集群随机试验（CRT）中的平均处理效应估计，提出了一种双重稳健的二次推断函数（DR-QIF）方法。现有QIF方法未考虑处理组间协变量不平衡导致的混杂，而DR-QIF通过结合倾向得分和结果回归模型构造双重稳健伪结局，并将其纳入QIF扩展得分方程。当倾向得分或结果回归模型之一正确指定时，DR-QIF估计量一致。理论分析表明，在工作相关结构误设时，DR-QIF比双重稳健GEE（DR-GEE）更有效，且效率增益在纵向CRT中可达3.5%（N=120, T=8）。模拟和WASH Benefits Kenya数据验证了有限样本性能。该方法将QIF框架与因果推断中的双重稳健思想结合，对您关注的纵向因果推断和效率理论有直接参考价值。
关键技术: Quadratic Inference Functions, Doubly Robust Estimation, Generalized Estimating Equations, Cluster Randomized Trials, Longitudinal Data
为什么对您有用: 本文直接连接您primary interest中的纵向因果推断和效率理论：在CRT设定下，DR-QIF通过QIF框架实现了比DR-GEE更高的效率，且理论刻画了效率增益条件。您武器库中very_familiar的'非参数统计'和'estimation theory in causal inference'可直接用于分析其双重稳健性质及效率界，而moderately_familiar的'semiparametric theory'可进一步探讨其半参效率界是否紧。中期可做：需先巩固'semiparametric theory'以深入理解其效率增益的渐近分析。

6. 2606.24785 — Group-Level Treatment Effect Heterogeneity in Difference-in-Differences: A Balanced Approach¶

作者: Nora Bearth, Nadja van 't Hoff, Torben S. D. Johansen
相关性 8/10 · novelty: new_method
摘要: 在双重差分（DiD）框架下，本文关注组间处理效应异质性的识别与推断。现有子组分析或三重差分方法常受限于保守推断、参数交互结构假设以及对组间协变量分布差异敏感。作者提出一个新的 estimand——平衡组平均处理效应（BGATT），在标准条件平行趋势假设下将处理效应异质性与协变量构成的差异分离开来。BGATT 的识别不依赖参数交互结构，且为组间比较提供了透明的目标。方法上，作者推导了 BGATT 的 influence function 表示，并基于该表示构造了估计量，该估计量在灵活使用机器学习估计高维 nuisance 组件时仍保持 √n 一致性和渐近正态性，从而支持对组特异效应及其差异的有效推断。模拟实验显示有限样本性能良好。对您而言，本文在 DiD 框架下将 heterogeneity 的识别与 semiparametric efficiency 理论结合，是您 causal inference 和 efficiency theory 兴趣的一个直接应用场景。
关键技术: influence function, difference-in-differences, conditional parallel trends, double machine learning, asymptotic normality
为什么对您有用: 本文直接关联您的 primary interest 中的 causal inference（DiD 设计下的 heterogeneity 识别）和 efficiency theory（influence function 推导与 √n 估计）。您的 technical arsenal 中 very_familiar 的 estimation theory in causal inference 和 moderately_familiar 的 semiparametric theory 足以理解并评估其 influence-function 构造的紧性。中期可做：若想将 BGATT 扩展到更复杂的识别策略（如 proximal DiD），需先在 moderately_familiar 的 identification theory in causal inference 上加强。

7. 2606.24181 — Visible or Covert? The Causal Effect of Inspector Visibility on Fare Evasion Detection: A Causal Machine Learning and Policy Learning Approach¶

作者: Hannes Wallimann, Cédric Brütsch, Martin Huber
相关性 8/10 · novelty: application
摘要: 本文利用瑞士最大区域公交运营商PostAuto的21,727条稽查记录，研究稽查员着装（便衣 vs 制服）对查获逃票效率（每稽查小时查获数）的因果效应。采用因果机器学习方法估计平均处理效应，发现便衣稽查平均每小时多查获0.173起逃票事件，相对效率提升约26%。异质性分析未发现效应在不同情境特征下有系统性变化，表明便衣稽查的优势在整个网络中稳健且普遍。进一步应用最优策略学习（基于策略树）进行目标分配，结果显示83.3%的情境推荐便衣稽查，仅在外国居民比例低于中位数且人口规模高于中位数的线路建议使用制服稽查。该研究为公共交通稽查资源配置提供了数据驱动的政策建议，其因果推断与策略学习框架对您关注的applied causal work（尤其是流行病学或经济学中的政策评估）具有直接的方法学参考价值。
关键技术: causal machine learning, optimal policy learning, policy trees, heterogeneity analysis, average treatment effect estimation
为什么对您有用: 本文属于您secondary interest中的applied causal work（公共交通政策评估），使用了因果推断与策略学习的标准工具。您武器库中very_familiar的estimation theory in causal inference可直接用于理解其估计方法，moderately_familiar的identification theory可帮助评估其识别假设的合理性。该文的方法学框架（因果机器学习+策略树）可迁移至您关注的流行病学或经济学政策评估场景，属于立即可做的阅读——无需额外工具即可消化其分析模式。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 2606.25942 — Elliptical Regularized Hotelling Testing for High Dimensional Data¶

作者: Long Feng, Le Zhou, Xiaoyi Wang
相关性 8/10 · novelty: new_method
摘要: 针对高维椭圆对称分布下位置参数的单样本检验问题，提出椭圆正则化Hotelling检验（ERHT-CC）。该方法基于样本空间median和空间符号协方差矩阵构造检验统计量，适用于重尾和广泛截面相关数据。推导了原假设下的渐近正态性、中心化和方差的一致估计量，以及显式的局部功效函数。由于最优岭参数依赖于未知备择，采用Cauchy组合方法聚合固定岭参数的p值，无需估计跨岭相关性。建立了有限网格联合高斯极限，并刻画了局部功效。模拟和实证分析表明ERHT-CC在重尾和强相关下具有良好有限样本表现。
关键技术: spatial median, spatial-sign covariance matrix, Cauchy combination, ridge regularization, high-dimensional location testing
为什么对您有用: 直接对应您primary interest中的hypothesis testing和高维统计方向。该方法处理重尾和截面相关，与您熟悉的高维渐近理论和非参数统计工具高度匹配。可考虑用您熟悉的minimax bound框架分析其最优性，或探索与higher-order U-statistics的结合（空间符号协方差矩阵可视为U-statistic）。中期可做：需先熟悉Cauchy组合方法在假设检验中的应用（moderately_familiar中的HOIF可能相关）。

📌 中相关论文（按主题分组）¶

因果推断 (causal_inference, 9 篇)¶

1. 2606.25107 — Nonparametric Estimation of Optimal Stochastic Just-In-Time Adaptive Interventions for Distal Outcomes¶

作者: Jack M. Wolf, Nandita Mitra, Ashkan Ertefaie
相关性 7/10 · novelty: new_method
摘要: 本文针对移动健康研究中常见的“即时自适应干预”（JITAI）场景，提出了一种非参数高效的随机策略下远端结局的 regimen-response 曲线估计方法。研究设定涉及每个个体数十个决策点，传统方法因高维度和稀疏性导致估计不稳定、偏差大且收敛慢。作者构建了非参数效率估计量，并引入数据自适应倾斜（tilting）程序以稳定多决策点下的估计。理论结果表明，估计的 regimen-response 曲线弱收敛到高斯过程，可构造同时置信带；进一步推导了曲线优化器的渐近理论，从而支持对最优随机策略的推断。该方法统一了远端结局下随机 JITAI 的估计、推断与优化框架。对您而言，该工作直接关联因果推断中的纵向干预优化，且其非参数效率估计与倾斜技术可迁移至您熟悉的 proximal causal inference 或 mediation 设定中。
关键技术: nonparametric efficiency, regimen-response curve, data-adaptive tilting, Gaussian process weak convergence, stochastic policy optimization
为什么对您有用: 本文直接对应您 primary interest 中的 causal inference 纵向干预优化子方向，且其非参数效率估计框架与您 very_familiar 的 nonparametric statistics 和 estimation theory in causal inference 高度契合。您可用 moderately_familiar 的 semiparametric theory 工具审视其效率界是否紧，并考虑将倾斜技巧移植到 proximal CI 的 negative control 设定中。中期可做：需先巩固 semiparametric theory 中的 influence function 推导。

2. 2606.24228 — Uncertainty intervals for multilevel models with missing not at random data¶

作者: Minna Genbäck
相关性 7/10 · novelty: weaker_assumption
摘要: 本文针对线性多层（混合效应）模型中的非随机缺失（MNAR）数据，提出了一种敏感性分析方法。结果变量和脱落风险均用多层模型建模，并推导了因MNAR数据导致的偏差调整项。该偏差可在给定敏感性参数值的条件下，基于观测数据估计。假设敏感性参数位于一个合理区间内，该方法可部分识别感兴趣参数，得到比MAR假设更弱的估计和推断边界。通过模拟研究验证了方法的性能，并应用于分析孤独感和体力活动与记忆轨迹的关联，调整了人口、社会经济和健康协变量。对您而言，本文的敏感性分析框架可迁移至您关注的纵向因果推断中的缺失数据问题，特别是当缺失机制不可忽略时。
关键技术: sensitivity analysis, multilevel model, missing not at random, partial identification, bias adjustment
为什么对您有用: 本文直接关联您的主要兴趣——因果推断中的敏感性分析和纵向数据。您武器库中的非参数统计和因果推断估计理论可用于评估其偏差调整项的稳健性。中期可做：需先熟悉多层模型和缺失数据机制的具体实现，但核心敏感性分析思路与您的proximal causal inference工作有相通之处。

3. 2606.23857 — Bias-Aware Confidence Intervals for Synthetic Control via Placebo-in-Time Bootstrap¶

作者: Song Wei, Sonia Park, Niteesh Kalangi, Jason Huang
相关性 7/10 · novelty: new_method
摘要: 本文针对合成控制法（SC）在治疗强度较低时系统偏差主导估计的问题，提出了一种新的置信区间构建方法。标准高斯置信区间在弱信号下会因偏差方向一致而不随样本量收敛到真实值，导致方向性错误（误判效应为正或为零）。作者提出了一种“时间安慰剂自助法”（placebo-in-time bootstrap），通过将治疗起始时间人为前移并重新拟合SC模型，从观测面板中直接估计偏差分布。该方法不假设效应轨迹，通过自助法得到校准于零原假设的临界值，覆盖概率在固定宽度下对任意真实效应演化路径均成立。理论贡献在于将偏差视为可估计的分布而非噪声，并证明了覆盖率的轨迹无关性。对您而言，本文在因果推断的纵向设定中提供了处理系统性偏差的新思路，尤其适用于治疗强度异质性场景，与您关注的identification和estimation问题直接相关。
关键技术: placebo-in-time bootstrap, synthetic control, bias distribution estimation, coverage guarantee, trajectory-agnostic inference
为什么对您有用: 本文直接关联您primary interest中的causal inference（纵向设定下的identification与estimation），特别是SC方法中偏差校正这一开放问题。您武器库中very_familiar的estimation theory in causal inference可直接用于分析该bootstrap估计量的渐近性质（如偏差分布的一致性），而moderately_familiar的identification theory可帮助评估其识别假设（如偏差可交换性）的合理性。中期可做：若需推广到多期或异质性处理效应，需先在moderately_familiar的semiparametric theory上加强，以处理偏差分布的非参数建模。

4. 2606.24850 — Heterogeneous Peer Effects with Endogenous Network Formation¶

作者: Duong Trinh, Santiago Montoya-Blandón
相关性 7/10 · novelty: new_method
摘要: 本文提出一个处理异质性同伴效应与内生网络形成联合建模的计量框架。目标是在网络形成与结果方程由共同未观测个体异质性驱动时，识别并估计异质性溢出效应。方法上，将有限混合结构嵌入空间自回归模型以捕捉同伴效应的异质性，并用贝叶斯数据增广策略处理网络内生性，避免标准似然方法因高维积分而不可行。模拟验证了方法的有限样本表现。实证部分使用美国企业创新网络数据，发现企业间R&D投资存在显著但异质的正向同伴效应，且控制内生性后效应大小与分布发生变化。对您而言，本文是因果推断中网络干扰与内生性交叉的前沿应用，其有限混合+贝叶斯增广的思路可迁移至您熟悉的proximal CI或IV设定中的未观测混杂处理。
关键技术: Bayesian data augmentation, finite mixture model, spatial autoregressive model, network formation model, heterogeneous peer effects
为什么对您有用: 本文直接关联您primary interest中的因果推断（网络干扰下的识别与估计），且其处理未观测混杂驱动网络形成与结果的核心问题，与proximal CI的negative control思路有深层联系。您武器库中'identification theory in causal inference'（moderately_familiar）可用来审视其识别假设的强度，而'nonparametric statistics'（very_familiar）可评估其有限混合假设的稳健性。中期可做：若先补强'moderately_familiar'中的identification theory，可尝试将本文的贝叶斯增广与您熟悉的DR估计器结合，提出半参数版本的网络效应估计。

5. 2606.25749 — A Bayesian Approach for Nonignorable Dropout in Bivariate Longitudinal Models¶

作者: Andrea Gabrio, Michael J. Daniels, Gianluca Baio
相关性 6/10 · novelty: new_method
摘要: 本文针对临床试验中双变量纵向结局的非随机脱落问题，提出一种贝叶斯非参数方法。目标是在缺失机制不可忽略（nonignorable）的设定下，识别并估计干预的成本-效果联合分布。方法核心是：对观测数据采用灵活的贝叶斯非参数模型（如 Dirichlet process mixture），对缺失数据则通过条件于脱落指示变量和敏感性参数的识别限制（identifying restrictions）进行部分识别。通过为敏感性参数设定不同先验，探索多种不可忽略缺失场景。该方法应用于一项智力障碍新疗法的成本-效果试验数据。对您而言，本文展示了在纵向因果推断中处理多变量缺失的贝叶斯识别策略，与您 primary interest 中的 longitudinal causal inference 和 sensitivity analysis 直接相关。
关键技术: Bayesian nonparametric model, Dirichlet process mixture, identifying restrictions, sensitivity analysis, partial identification, nonignorable dropout
为什么对您有用: 本文直接关联您 primary interest 中的 longitudinal causal inference 和 sensitivity analysis，具体处理双变量结局（成本与效果）的非随机缺失问题。您的 technical arsenal 中 'estimation theory in causal inference' 和 'identification theory in causal inference' 可用来审视其部分识别策略的假设强度与效率损失。中期可做：若想将此类贝叶斯非参数方法与您熟悉的 semiparametric efficiency 框架结合，需先在 moderately_familiar 的 'semiparametric theory' 上长肌肉，以理解其识别限制与 influence function 的关系。

6. 2606.24867 — Bounds for Standard Errors in Combined Data¶

作者: Jooyoung Cha, Yuya Sasaki, Nelson Matthew P. Tan
相关性 6/10 · novelty: new_method
摘要: 本文研究当参数估计基于来自不同样本的矩条件时，如何构造标准误的下界。核心设定是跨样本相关性未知，目标是对联合估计量的标准误进行保守推断。方法上，作者利用几何不等式（如柯西-施瓦茨、三角不等式）推导出无相关性信息时的显式sharp下界。对于更一般的部分相关性信息场景，提出通过求解简单半定规划（SDP）获得计算上可处理的sharp下界。三个实证案例展示了方法的应用：两个宏观经济学例子（菜单成本模型、异质性代理人新凯恩斯模型）和一个两样本工具变量微观经济研究。该方法为meta分析或数据不可合并场景下的推断提供了实用工具，对您从事的因果推断（特别是IV和纵向数据）中的两样本或分样本估计问题有直接参考价值。
关键技术: geometric inequalities, semidefinite programming, moment conditions, two-sample inference, standard error bounds
为什么对您有用: 本文直接连接您的因果推断兴趣中的两样本IV和纵向数据场景——当不同来源的数据无法合并时，如何对联合估计量的标准误做保守推断是实际痛点。您的武器库中'非参数统计'和'因果推断中的估计理论'可以立即用于评估该下界在具体因果参数（如ATE、LATE）上的紧性，属于立即可做的follow-up：用您熟悉的minimax bound视角验证SDP下界是否在worst-case相关性下达到最优。

7. 2606.26351 — Robust Estimation of Polychoric Correlation for Complex Survey Designs Using Minimum Divergence Methods¶

作者: Siqi Wei, David Kepplinger, Anand N. Vidyashankar
相关性 5/10 · novelty: new_method
摘要: 本文针对复杂调查数据中 polychoric 相关性的稳健估计问题，提出基于最小散度准则（Hellinger 距离 HD 和负指数散度 NED）的估计方法。在 survey-weighted 框架下，通过 Horvitz-Thompson 调整的单元频数纳入抽样权重，并针对 HD 提出 Ridge 和 Lasso 惩罚变体以正则化 nuisance 参数，同时保持相关性参数无惩罚。建立了估计量的相合性和渐近正态性，协方差矩阵采用 sandwich 形式反映抽样设计。影响函数有限但非一致有界，体现了 Hellinger 距离对稀疏单元的敏感性。模拟在 Poisson 比例-规模抽样下考察了三种污染几何（一致上尾、一致下尾、不一致混合角）与标准/非标准潜边际的组合。两类估计器互补：惩罚 HD 在一致污染下 MSE 最低，NED 在不一致污染和复合误设-污染效应下表现最优。对您而言，本文的 survey-weighted 稳健估计框架可直接迁移至流行病学队列研究中分类变量的关联分析，且其 sandwich 方差估计与您熟悉的因果推断中 cluster-robust 标准误有技术共鸣。
关键技术: minimum divergence estimation, Hellinger distance, negative exponential disparity, Horvitz-Thompson weighting, penalized estimation (Ridge/Lasso), sandwich covariance estimation
为什么对您有用: 本文连接流行病学中 survey-weighted 数据的稳健推断问题，与您的 secondary interest 中流行病学应用方向直接相关。您的武器库中 nonparametric statistics 和 estimation theory in causal inference 可用于分析其估计量的 minimax 性质或设计更高效的权重调整方案。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉（具体为 influence function 的 survey-weighted 版本），然后可尝试将 HD/NED 散度推广至 polychoric 以外的 latent variable 模型。

8. 2606.23116 — Direct and Indirect Discrimination in Generalized Linear Models¶

作者: Bertille Tierny, Arthur Charpentier, François Hu
相关性 5/10 · novelty: new_method
摘要: 本文在广义线性模型（GLM）框架下研究预测差异的公平性诊断，目标是将预测差异分解为直接歧视（敏感变量系数）、间接歧视（通过代理协变量）、交互效应和结构效应。在线性高斯基准下，Wasserstein 重心的分布人口均等准则退化为两矩准则，并给出精确分解。对 GLM，作者定义输出尺度准则 U2(f)、组内代理准则 Ũ2(f) 和主导分解 D1(f)，后者保留四个线性通道并新增两个曲率分量（curvature coupling 和 curvature amplification），由逆链接函数非线性引起。推导了 logistic、Poisson 和 Tweedie 族的显式公式，并在医疗支出调查数据上演示。该框架不是法律测试，而是可操作的精算诊断工具。对您有用：本文的分解思路可迁移至因果推断中的 mediation 分析，特别是处理非线性链接函数下的直接与间接效应分解，与您的 causal inference（mediation）和 semiparametric theory 兴趣直接相关。
关键技术: Wasserstein barycentric criterion, moment-based decomposition, curvature coupling, curvature amplification, Tweedie GLM
为什么对您有用: 本文连接您的 causal inference 子方向 mediation：其分解直接/间接歧视的思路与因果 mediation 中的 natural direct/indirect effect 分解高度对应，且处理了 GLM 非线性链接带来的额外曲率项。技术武器库中 very_familiar 的 nonparametric statistics 和 estimation theory in causal inference 可直接用于理解其分解的识别假设和估计性质；moderately_familiar 的 identification theory in causal inference 可用于评估其分解的因果解释力。中期可做：若想将本文分解推广到更一般的因果 mediation 设定（如允许未观测混杂），需先在 moderately_familiar 的 semiparametric theory 上长肌肉（特别是 influence function 推导）。

9. 2606.24024 — Pseudo-value Based Mean Cumulative Count Regression¶

作者: Zachary R. McCaw, Alex Ocampo, Enrico Giudice, FengQi Song, Jessica Gronsbell
相关性 4/10 · novelty: new_method
摘要: 本文针对复发事件或复合终点中事件累积过程的均值累积函数（MCF）及其时间积分（AUMCF），在右删失和终止事件存在下，提出基于伪值的回归方法估计协变量效应。该方法利用影响函数构造伪值作为回归响应，通过标准广义估计方程（GEE）或普通最小二乘（OLS）进行估计，避免了非参数比较或线性化检验的局限。模拟研究评估了估计精度、置信区间覆盖、I类错误控制和功效。应用于ORATORIO临床试验（ocrelizumab治疗原发进展型多发性硬化），展示了协变量调整的实际效用。整体上，伪值回归为建模协变量对累积复发事件负担的影响提供了简单可解释的框架。对您而言，该工作连接了因果推断中纵向数据/复发事件的处理效应估计，其影响函数伪值技巧与您的debiased ML和semiparametric efficiency工具直接相关。
关键技术: pseudo-value regression, influence function, generalized estimating equations (GEE), mean cumulative function (MCF), area under the MCF (AUMCF)
为什么对您有用: 连接纵向因果推断（复发事件处理效应）和semiparametric efficiency（影响函数伪值）。武器库中'very_familiar'的estimation theory in causal inference可直接理解其估计框架；'moderately_familiar'的HOIF可尝试将伪值回归推广到更高阶影响函数以提升效率。中期可做：需先在HOIF上长肌肉。

高维统计 / 随机矩阵 (high_dim_rmt, 3 篇)¶

1. 2606.24652 — Bayesian Estimation of the Eigenstructure in High-Dimensional Approximate Factor Models¶

作者: Seongmin Kim, Jaeyong Lee
相关性 7/10 · novelty: new_method
摘要: 针对高维近似因子模型中样本协方差矩阵特征结构严重扭曲的问题，提出一种贝叶斯方法。模型假设因子载荷矩阵服从尖峰协方差结构，并引入合适的先验分布。后验收缩率与高维尖峰协方差模型的基准结果同阶，即达到 minimax 最优率。模拟表明，在因子结构恢复上优于主成分分析等现有方法。实证使用宏观金融数据集，展示了可解释的潜在因子估计，并在预测任务中表现有竞争力。对您而言，本文连接了高维统计（随机矩阵理论）与贝叶斯方法，其后验收缩率分析技术可迁移至您熟悉的 minimax 界工具。
关键技术: posterior convergence rate, spiked covariance model, approximate factor model, Bayesian factor analysis, high-dimensional covariance estimation
为什么对您有用: 本文直接对应您的高维统计与随机矩阵理论兴趣，具体处理了尖峰协方差模型的特征结构估计问题。您熟悉的 minimax 界工具可直接用于验证其声称的后验收缩率是否紧。中期可做：需先在 moderately_familiar 的 M-estimation 理论上长肌肉，以理解贝叶斯后验收缩与频率最优率的对比。

2. 2606.24766 — A Concentration Inequality for the Covariance Matrix of an Arbitrary Subset of Random Vectors¶

作者: Huikang Liu, Peng Wang, Laura Balzano
相关性 7/10 · novelty: new_method
摘要: 本文研究由任意（可能数据依赖）子集构成的样本协方差矩阵的谱集中性。经典的高维协方差集中不等式要求所选向量与选择规则独立，但数据依赖的选择破坏了这一结构。对于i.i.d.高斯随机向量，作者证明了所选协方差矩阵最小和最大特征值的高概率上下界。与直接的union-bound论证相比，本文的结果显著更紧，允许更小的子集比例。进一步将结果推广到次高斯随机向量和弱依赖（几何强混合高斯序列）情形。最后，将所发展的集中不等式应用于低秩高斯混合模型下的K-子空间聚类问题，给出全局极小化器聚类误差随信噪比多项式衰减的恢复保证。该结果对您在高维统计和随机矩阵理论方向有直接参考价值，尤其是处理数据依赖子集时的谱分析工具。
关键技术: concentration inequality, sample covariance matrix, data-dependent subset selection, spectral norm bounds, K-subspace clustering
为什么对您有用: 直接对应您的高维统计与随机矩阵理论兴趣，处理数据依赖子集的协方差集中问题是该领域的核心挑战。您武器库中的'高维渐近理论'和'极小极大界'可直接用于验证本文界的紧性，或推广到更一般的依赖结构。中期可做：将本文的集中不等式与您的'高阶U统计量'结合，分析数据依赖子集上的U统计量渐近性质。

3. 2606.27142 — Estimation of High Dimensional Bounded Discrete Graphical Models via Regularized Generalized Score Matching¶

作者: Xuran Meng, Jingfei Zhang, Yi Li
相关性 6/10 · novelty: new_method
摘要: 针对多元离散响应变量（有限支撑）的图模型，提出 BRIDGE 估计量，通过正则化广义得分匹配（generalized score matching）避免似然函数中归一化常数的计算。模型通过构造移除对交互参数的约束，同时保留可观测尺度上的可解释依赖结构。方法核心是将所有参数纳入统一估计方程系统，并用 ℓ1 惩罚实现联合正则化；为解决损失函数几何上的退化问题，引入重参数化恢复沿截距方向的曲率，保证计算稳定性。理论方面，在非凸目标下建立种群分离性质（population separation property）替代全局凸性，给出高维情形的非渐近估计误差界和精确支撑恢复保证。模拟和真实数据分析验证了 BRIDGE 在图结构恢复上的准确性和稳定性。对您而言，该工作将高维图模型推广到有限支撑离散数据，其非凸分析技巧和重参数化策略可能对您在高维统计与 M-估计理论中的研究有参考价值。
关键技术: generalized score matching, ℓ1 regularization, reparameterization for curvature, population separation property, nonconvex optimization, support recovery
为什么对您有用: 直接关联您的高维统计与 M-估计理论兴趣：本文处理有限支撑离散图模型，其非凸目标下的种群分离性质是您 moderately_familiar 的 M-估计理论中一个具体技术口子，可尝试用您熟悉的非参数统计和 minimax 界工具验证其误差界是否紧。中期可做：需先在 moderately_familiar 的 M-估计理论上长肌肉（特别是非凸损失的分析框架），然后可探索将重参数化技巧迁移到您自己的高维因果推断问题中。

非参数 / 半参数 (nonparam_semipara, 2 篇)¶

1. 2606.24345 — Explicit confidence bands and intervals for distribution functions and their derivatives via random Weierstrass-type operators¶

作者: José A. Adell, J. T. Alcalá, C. Sangüesa
相关性 6/10 · novelty: new_method
摘要: 本文在非参数框架下研究分布函数 F 及其 k 阶导数 F^{(k)} 的显式非渐近置信带与置信区间。核心创新是将经典二阶核估计量重新解释为随机 Weierstrass 型算子（特别是随机 Steklov 算子），从而绕开了传统核方法中带宽选择的渐近近似。在仅假设 F^{(k)} 一致连续的条件下，利用 Dvoretzky-Kiefer-Wolfowitz 不等式构造了 F^{(k)} 的置信带；对于置信区间，允许 F^{(k)} 有第一类孤立间断点，实际估计中点函数 (F^{(k)})_⋆(x)。证明基于次生随机过程的集中不等式或 MSE 的精确估计。置信带/区间的长度由 F^{(k)} 的二阶连续模度量，当 F 局部为至多 k+1 次多项式时长度达到 n^{-1/2} 阶。该工作为分布函数及其导数的非参数推断提供了无需渐近近化的精确工具，对您在高维统计与半参数理论中处理经验分布函数及其泛函的推断问题有直接参考价值。
关键技术: random Steklov operators, Dvoretzky-Kiefer-Wolfowitz inequality, concentration inequalities for subordinated processes, second modulus of continuity, nonasymptotic confidence bands
为什么对您有用: 该论文直接关联您的非参数统计与假设检验兴趣：它提供了分布函数及其导数的显式非渐近置信带，这是经验过程理论的核心应用。您可以用 very_familiar 中的非参数统计与 minimax 界工具来检验其声称的 n^{-1/2} 长度是否最优，或将其方法推广到高维分布函数估计。中期可做：若想将随机算子框架扩展到半参数效率界，需先在 moderately_familiar 的 semiparametric theory 上加强。

2. 2606.23882 — Order restricted estimation of the parameter functions in an additive hazard model¶

作者: Dragi Anevski, ElBatoul Manel Merai
相关性 6/10 · novelty: application
摘要: 本文在Aalen加性风险回归模型框架下，研究参数函数的单调性约束估计问题。目标是在协变量效应函数满足单调性（如非递减）的假设下，提高估计的有限样本表现和可解释性。方法上，作者将普通最小二乘得到的naive估计量逐分量地投影到单调函数空间（即进行L2投影），得到约束估计量。该投影操作等价于对naive估计量进行isotonic regression，计算上可通过pool adjacent violators algorithm (PAVA)高效实现。理论方面，作者推导了点态极限分布，收敛速度为n^{-1/3}，极限分布为Chernoff分布——这是单调约束非参数估计中的经典结果。该工作将单调约束引入生存分析中的加性风险模型，为后续发展同时满足单调性和光滑性的估计（如通过sieve或惩罚方法）提供了基准。对您而言，该文连接了非参数统计中的单调约束估计与生存分析模型，您可以用minimax bound工具验证其n^{-1/3}率是否最优，并考虑将higher-order U-statistics的树宽视角用于分析更复杂的约束估计量计算成本。
关键技术: isotonic regression, L2 projection onto monotone functions, Chernoff distribution, n^{-1/3} convergence rate, Aalen additive hazard model, pool adjacent violators algorithm (PAVA)
为什么对您有用: 本文直接关联您的非参数统计兴趣，特别是单调约束估计这一经典方向。您可以用very_familiar的minimax bound工具检验其n^{-1/3}收敛率是否紧，并思考是否能用higher-order U-statistics的树宽/张量收缩视角来分析更复杂约束（如凸性、单调凸性）下估计量的计算复杂度。目前该文属于中期可做：需先在moderately_familiar的M-estimation理论上进一步熟悉，以处理约束估计的渐近分布推导。

数理统计 / 假设检验 (hypothesis_testing, 10 篇)¶

1. 2606.25968 — Studentized Cheap Bootstrap: Achieving Higher-Order Coverage Accuracy with Low Computation¶

作者: Shengyi He, Henry Lam, Yunhao Yan
相关性 7/10 · novelty: new_method
摘要: 本文提出一种称为“学生化廉价自助法”（studentized cheap bootstrap）的新方法，旨在以极低的额外计算成本实现与传统学生化自助法相同的高阶覆盖精度。传统学生化自助法需要标准误的解析形式或额外的重抽样层，计算负担大；本文通过仅使用极少（如几个）蒙特卡洛复制来近似标准误，大幅降低计算量。核心理论洞察是：t-分布中的自由度参数实际上对应额外重抽样层的蒙特卡洛计算量，而非传统认为的样本量。基于Edgeworth和Cornish-Fisher展开的高阶项显式计算与几何分析，作者证明了该方法能达到与传统学生化自助法相同的高阶覆盖精度。数值实验验证了该方法在有限样本下的良好表现。对您而言，该工作直接关联假设检验与自助法理论，且其高阶渐近分析技巧（Edgeworth展开）与您熟悉的非参数统计和M估计理论有技术交集。
关键技术: Edgeworth expansion, Cornish-Fisher expansion, studentized bootstrap, Monte Carlo approximation, higher-order coverage accuracy
为什么对您有用: 该论文直接关联您的首要兴趣——假设检验中的自助法理论。其核心贡献在于用极少的蒙特卡洛复制实现高阶覆盖精度，这触及统计计算与理论精度的权衡。您武器库中'非参数统计'和'高维渐近理论'的功底可直接用于理解其Edgeworth展开分析；而'软件发展'经验可帮助您评估该方法在实际计算中的实现成本。中期可做：若您想深入该方向，需先在'M估计理论'上加强，以将方法推广到更一般的估计方程设定。

2. 2606.25521 — Two-sample test with Wasserstein distance on Gaussian samples based on a log-normal approximation¶

作者: Johann Clément-Cottuz, Maxime Bérar, Gilles Gasso
机构: Laboratoire d'Informatique, du Traitement de l'Information et des Systèmes · Université de Rouen Normandie · Institut National des Sciences Appliquées Rouen Normandie
相关性 7/10 · novelty: application
摘要: 本文针对一维高斯样本的两样本检验问题，提出基于Wasserstein-2距离的检验统计量。核心创新在于利用对数正态分布近似高斯样本的Wasserstein距离分布，从而导出检验的渐近p值。方法通过合成数据验证，并扩展至多元情形。作者还揭示了该检验与Shapiro-Wilk正态性检验的密切联系。对您而言，该工作属于经典假设检验框架下的具体应用，技术深度有限，但Wasserstein距离在检验中的使用思路值得关注。
关键技术: Wasserstein-2 distance, log-normal approximation, two-sample test, Shapiro-Wilk test
为什么对您有用: 该文连接您对假设检验的兴趣，但方法学贡献较浅（近似而非精确分布），且未涉及高维或U-statistic结构。您的武器库中非参数统计和minimax界可直接用于评估其检验功效的渐近最优性，但核心问题（Wasserstein距离的精确分布）已被经典结果覆盖。暂不可做：缺乏新的理论突破或计算挑战。

3. 2606.26949 — Exact Comparison of Explanatory Strength of Two Dependent Predictors¶

作者: Tomáš Mrkvička, Jan Radimský
相关性 6/10 · novelty: new_method
摘要: 本文研究两个相依预测变量对同一目标变量解释力度的精确比较问题。经典方法如Vuong检验或Hotelling-Williams检验在重尾分布或极端类别稀疏等病态数据下失效。作者提出配对交换置换检验（Paired Swap Permutation Test），基于零假设下的函数可交换性原理，对分类数据采用对称的组内交换机制，对连续数据引入经验累积分布函数映射步骤（基于copula的变换），完美保留边际密度和经验支撑集且不引入重抽样结。模拟表明该方法在经典方法严重偏离名义水平或过于保守的条件下，能严格维持名义显著性水平并最大化统计功效。最后应用于意大利语名词-名词复合词的高维语言学数据集，展示了在传统方法失效环境中的稳健精确推断能力。该检验的交换机制与您熟悉的置换检验和U-统计量的组合结构有深层联系，值得关注。
关键技术: Paired Swap Permutation Test, functional exchangeability, copula-based transformation, ECDF mapping, exact nonparametric test
为什么对您有用: 直接对应您primary interest中的假设检验方向，且其交换机制与您非常熟悉的higher-order U-statistics的对称化结构有技术共鸣——可尝试用U-统计量投影理论分析该检验的渐近功效。中期可做：需先在moderately_familiar的HOIF上长肌肉，以推导该检验在更一般相依结构下的半参数效率界。

4. 2606.26621 — \(λ\)-PSD: Scalable Approximate SNR-Optimised Polynomial Stein Discrepancies¶

作者: Minh-Long Nguyen, Thanh-Long Vu, Christopher Drovandi, Leah F. South, Trung-Tin Nguyen
相关性 6/10 · novelty: new_method
摘要: 本文研究多项式 Stein 差异 (PSD) 在样本质量评估与拟合优度检验中的统计性质。作者发现，单纯增加多项式阶数主要放大信号而非控制方差，可能导致信噪比平方 (SNR²) 随阶数指数衰减。为解决此问题，他们将 Stein 差异构造重新表述为显式的 SNR² 最大化问题，导出瑞利商形式，并据此提出 λ-PSD：一种在低维子空间中的近似可扩展协方差感知加权方案。在高斯设定下，λ-PSD 避免了指数级 SNR² 衰减，实现了稳定的 SNR²。实验表明，λ-PSD 在保持样本数线性时间复杂度的同时显著提升了检验功效。该工作强调了在可扩展 Stein 差异设计中 SNR 感知的重要性，对您在高维假设检验与统计计算方向有参考价值。
关键技术: Polynomial Stein Discrepancy, Signal-to-Noise Ratio (SNR) maximization, Rayleigh quotient, covariance-aware reweighting, linear-time complexity
为什么对您有用: 本文直接关联您对假设检验的兴趣，特别是高维设定下检验功效的优化问题。您武器库中的 minimax 界与高维渐近工具可用于分析 λ-PSD 的 SNR² 稳定性是否达到最优，或探索其在高维 U-统计量检验中的应用。中期可做：需先熟悉 Stein 方法（当前不在武器库中），但核心分析工具（高维渐近、特征值分析）已具备。

5. 2606.25729 — A Theory of Bootstrap Coverage Calibration for Generalized Posterior Credible Sets¶

作者: Masahiro Tanaka
相关性 6/10 · novelty: new_theory
摘要: 本文研究广义后验（generalized posterior）的校准问题，目标是为其可信集提供频率覆盖率的渐近保证。在固定维数正则渐近框架下，利用 Edgeworth 展开推导了覆盖率的二阶展开式，并分析了算法中使用的随机逼近步骤。展开式将覆盖误差分解为两个来源：估计量的抽样 Edgeworth 修正与可信集边界、中心和形状的后验 Edgeworth 修正。主要理论结果表明，仅当后验协方差与抽样协方差成比例时，标量学习率才能在 Gaussian 极限下同时校准所有名义水平；因此，bootstrap 校准本质上是水平特定的尺度修正，而非对形状误设的通用补救。该结果对您可能有用：它直接关联到您对假设检验和 semiparametric 效率理论中覆盖率的兴趣，尤其是后验校准与频率覆盖之间的高阶渐近关系。
关键技术: Edgeworth expansion, bootstrap calibration, generalized posterior, stochastic approximation, coverage expansion
为什么对您有用: 本文直接连接您对 hypothesis testing 和 semiparametric 理论中覆盖率的兴趣，尤其是后验校准与频率覆盖之间的高阶渐近关系。您武器库中的 nonparametric statistics 和 minimax bounds 可用于分析其 Edgeworth 展开的误差项是否在更弱假设下仍成立；中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉以处理更一般的模型设定。

6. 2606.24871 — Sequential Probability Ratio Test using Z-Statistics (SPRT-z): A Practical Approach for Online Experimentation¶

作者: Derek L. Ho, Emma G. Thomas
相关性 6/10 · novelty: new_method
摘要: 本文针对在线实验平台中固定视界检验（FHT）因重复窥视导致I类错误膨胀的问题，复活并改进了Wald的序贯概率比检验（SPRT）。核心贡献有三：(1) SPRT-z，基于Hajnal序贯t检验的大样本正态近似，消除了大规模A/B测试的计算瓶颈，并支持后续的布朗运动方法；(2) 无尺度视界校准（SFHC），在标准化Z尺度上通过蒙特卡洛二分法设定最大样本量，在离散监测和无效性停止下保持名义功效；(3) 布朗中位数无偏估计量及置信区间，通过六区域阶段序贯排序校正早期停止带来的向上偏差。模拟表明该方法能有效控制I类和II类错误，相比FHT减少样本量，并在多数场景下校正估计偏差，覆盖接近名义水平。对您而言，本文是假设检验在在线实验中的实用方法，与您对假设检验和统计计算的兴趣直接相关，且其序贯分析框架可能启发您在高维或因果推断中的序贯检验设计。
关键技术: Sequential Probability Ratio Test, Brownian motion approximation, Monte Carlo bisection, Median unbiased estimation, Stagewise ordering
为什么对您有用: 本文直接关联您对假设检验的兴趣，特别是序贯检验在在线实验中的实际应用。您的技术武器库中'非参数统计'和'高维渐近'可用于分析其大样本近似的精度，而'软件开发'经验可帮助复现或扩展其模拟框架。中期可做：若您想深入序贯分析的渐近理论，需先在'moderately_familiar'的M估计理论中加强，以处理停止规则下的推断。

7. 2606.24357 — Bayesian Variable Selection in Generalized Linear Models¶

作者: Lucia Filippozzi, Iñigo Urteaga, Claudio Agostinelli
相关性 6/10 · novelty: new_method
摘要: 本文针对广义线性模型（GLM）中的协变量选择问题，提出了一种全贝叶斯分层共轭框架。该方法通过建模一个二值包含指示变量直接编码线性预测器中的协变量包含关系，适用于指数族中的任意分布。与传统的 spike-and-slab 先验和连续收缩先验不同，该方法同时进行变量选择和参数估计，并整合了两种不确定性。理论贡献在于证明了包含指示变量和活跃回归系数的后验一致性，这是许多贝叶斯变量选择方法缺乏的保证。算法上，推导了高效的 Gibbs 采样算法并提供了 R 包实现。在合成和真实数据集上的验证表明，该方法在预测和推断性能上具有竞争力。对您而言，该方法的后验一致性理论（属于 hypothesis testing 和 high-dimensional 设定）与您对数学统计和高维统计的兴趣直接相关，但其核心是贝叶斯框架，与您熟悉的频率学派 minimax 和 U-statistic 工具距离较远。
关键技术: Bayesian variable selection, spike-and-slab prior, posterior consistency, Gibbs sampling, generalized linear models
为什么对您有用: 本文属于 hypothesis testing 方向，但核心是贝叶斯变量选择，与您 primary interest 中的高维统计和假设检验有重叠，但方法学上偏向贝叶斯而非您熟悉的频率学派。您的武器库中 minimax bounds 和 high-dimensional asymptotics 可用于评估其 posterior consistency 的收敛速度是否最优，但该文未提供 minimax 对比。中期可做：需先在 moderately_familiar 的 M-estimation theory 上加强，以理解其后验一致性证明与经典频率学派估计的异同。

8. 2606.24768 — Strong duality for the GROW criterion¶

作者: Ashwin Ram, Martin Larsson, Johannes Ruf, Aaditya Ramdas
相关性 6/10 · novelty: new_theory
摘要: 本文在“通过下注进行假设检验”的框架下，研究复合零假设与复合备择假设之间的最优e-变量（e-variable）设计。核心目标是最大化最坏情况下的对数期望收益（GROW准则），即求解 sup_X inf_Q E_Q[log X]。作者将 Larsson et al. (2025) 从简单备择推广到任意复合备择 Q，证明了有界 e-变量下的 GROW 值总是等于一个弱-联合信息投影对之间的相对熵，且该投影对总是存在，无需对 P 或 Q 施加任何限制。技术工具包括凸对偶、弱-拓扑下的信息投影以及相对熵的变分刻画。文章还给出了 REGROW 准则的类似强对偶结果，并讨论了无界 e-变量的扩展条件与反例。这些结果与 Larsson et al. (2026) 中关于检验的强对偶理论相平行，将总变差距离替换为相对熵。对您而言，该工作属于假设检验与e-值理论的前沿，其凸对偶与信息投影的分析框架可直接用于您在高维统计推断或因果推断中构造最优检验统计量的问题。
关键技术: e-variable, GROW criterion, strong duality, weak-* joint information projection, relative entropy, convex duality
为什么对您有用: 该论文直接对应您 primary interest 中的 hypothesis testing 方向，特别是 e-值框架下的最优检验设计。您 very_familiar 中的 minimax bounds 和 high-dimensional asymptotics 可直接用于分析该对偶问题的统计最优性（如检验功效的 minimax 下界），而 moderately_familiar 中的 semiparametric theory 可帮助将 e-变量推广到半参数设定（如条件检验）。中期可做：若将 e-变量与您熟悉的 higher-order U-statistics 结合，可探索高阶 e-变量的构造与计算成本——这需要先在 moderately_familiar 的 HOIF 上长肌肉。

9. 2606.26781 — Multiple testing¶

作者: Jesse Hemerik
相关性 4/10 · novelty: survey
摘要: 本文是一篇关于多重假设检验的入门级综述，覆盖了FWER、FDR等常见错误准则以及Bonferroni、Holm、Benjamini-Hochberg等经典检验过程。文中还提供了相关R包的引用，适合作为博士课程讲义。对于您而言，这是一篇教学导向的综述，不包含新的理论或方法贡献，但可作为快速回顾或教学参考。
关键技术: Bonferroni correction, Holm procedure, Benjamini-Hochberg procedure, FWER, FDR
为什么对您有用: 本文属于综述性质，与您的主要兴趣（假设检验）有直接关联，但无新理论或方法。可作为快速回顾或教学参考，不涉及您武器库中的具体工具。

10. 2606.26478 — Learning rate selection via weighted Fisher divergence¶

作者: Takahiro Onizuka
相关性 4/10 · novelty: new_method
摘要: 本文针对一般贝叶斯（general Bayesian）框架中学习率（learning rate）的校准问题，提出基于加权Fisher散度（weighted Fisher divergence）的选择方法。在模型误设定下，Gibbs后验的渐近分布方差为三明治形式，传统贝叶斯信息恒等式失效，导致可信集缺乏正确的不确定性解释。作者引入加权Fisher散度，度量一般后验的渐近分布与具有三明治方差的正态分布之间的差异，并推导出学习率的闭式表达式。该表达式以Fisher信息匹配学习率为特例，且在重要特殊情形下不大于后者。数值实验和真实数据分析验证了方法的有效性。对您而言，该工作涉及后验校准与渐近理论，与您的假设检验和半参效率理论兴趣有交集，尤其是三明治方差与影响函数框架的联系值得关注。
关键技术: general Bayesian inference, Gibbs posterior, weighted Fisher divergence, sandwich variance, learning rate calibration
为什么对您有用: 该工作直接关联您的假设检验兴趣——后验校准本质上是频率覆盖率的控制问题。加权Fisher散度与您武器库中的半参理论（三明治方差、影响函数）有技术交集，可视为一种基于散度的校准准则。中期可做：若您先熟悉moderately_familiar中的半参理论（特别是影响函数与渐近方差的关系），可尝试将该学习率选择方法推广到更一般的损失函数或高维设定。

统计计算 / 算法 (stat_computing, 13 篇)¶

1. 2606.26325 — Incomplete Matrix Regression¶

作者: Khaled Fouda, Aurélie Labbe, Karim Oualkacha
相关性 6/10 · novelty: new_method
摘要: 本文提出 Incomplete Matrix Regression (IMR)，一种无分布假设的惩罚回归框架，用于在矩阵补全中整合行/列协变量信息。目标矩阵被分解为截距项、Lasso 惩罚的协变量效应、以及低秩潜变量成分（捕捉协变量无法解释的结构），并通过岭型惩罚融入已知相似性结构（如空间/时间核）。估计采用可扩展的交替最小二乘算法，模块化设计允许灵活增减模型组件。非渐近误差界与标准矩阵补全和 Lasso 文献中的速率一致。模拟和两个真实数据应用表明，IMR 在预测精度上与更复杂的方法相当，但计算成本显著更低。方法已实现为 R 包 IMR。对您而言，本文的模块化交替最小二乘算法和 R 包实现是统计计算方向的实用参考，且其分解思路（协变量效应 + 低秩潜变量）与您在高维统计和因果推断中处理混杂/工具变量的分解策略有相通之处。
关键技术: alternating least squares, Lasso penalty, low-rank matrix completion, non-asymptotic error bounds, modular algorithm design
为什么对您有用: 本文属于统计计算方向，直接对应您的 primary interest 中的 'statistical computing (numerical methods, algorithm)'。其模块化交替最小二乘算法设计思路清晰，R 包 IMR 可直接复用或扩展。您可以用 very_familiar 的 'software development' 技能快速评估其代码实现，或用 'high-dimensional asymptotics' 检验其非渐近界的紧性。中期可做：若想将类似分解思路推广到因果推断中的高维协变量调整（如 IV 或 proximal CI），需先在 moderately_familiar 的 'identification theory in causal inference' 上建立具体模型对应关系。

2. 2606.24751 — Hierarchical Bayesian Estimation of Covariance Matrices¶

作者: Daniel Xiang, Malgorzata Bogdan, Jonas Wallin, Daniel Yekutieli
相关性 6/10 · novelty: new_method
摘要: 本文提出一个层次贝叶斯框架用于协方差矩阵估计，核心观察是：在全一般线性群 GL(p) 下的等变性过于严格，仅允许样本协方差矩阵的标量倍数，而常用的收缩估计量（如 Haff 经验贝叶斯、Ledoit-Wolf）实际上仅在正交群 O(p) 下等变。作者证明，在 oracle 特征值模型中，Haar 测度贝叶斯规则是 O(p)-等变估计类中的最小风险估计量，并推导了在平方 Frobenius、Stein 和平方 Stein 损失下协方差矩阵和精度矩阵的 oracle 贝叶斯规则。这些 oracle 规则作为理论基准，优于所有常用估计量。为在真实特征值未知时逼近它们，作者引入一个层次贝叶斯模型，在特征值分布上放置有限 Pólya 树先验，并通过 Gibbs 采样生成后验样本，同时得到特征值的收缩估计和 oracle 贝叶斯规则的近似。模拟表明，有限 Pólya 树先验能恢复特征值分布的一般形式，且所得估计量紧密接近 oracle 性能，在协方差和精度矩阵估计上均显著优于经典竞争者。该工作对您作为统计计算方向的研究者有用，因为它展示了如何利用群等变性结构设计先验和计算后验，且其 Gibbs 采样框架可直接与您的软件开发和数值方法兴趣对接。
关键技术: Haar measure Bayes rule, O(p)-equivariant estimation, finite Pólya tree prior, Gibbs sampling, oracle eigenvalue model, shrinkage estimation
为什么对您有用: 本文直接连接您的统计计算（数值方法、算法）兴趣，具体而言：(1) 它利用群等变性（O(p) 而非 GL(p)）来缩小估计类并导出理论最优 oracle 规则，这是您在高维统计中熟悉的对称性论证；(2) 其有限 Pólya 树先验 + Gibbs 采样的计算方案，是您 very_familiar 的软件开发和数值方法可以立即实现的——您可以用 einsum 或 tensor 工具优化后验采样中的矩阵运算；(3) 中期可做：若您想将此类层次贝叶斯框架推广到更一般的协方差结构（如稀疏或低秩），需先在 moderately_familiar 的 M-estimation 理论上补强，以处理先验与似然的非共轭性。

3. 2606.26826 — High-dimensional reliability-oriented Shapley effect estimation with Normalizing Flows¶

作者: Monteiro Lucas, Morio Jérôme, Demange-Chryst Julien, Bachoc François
相关性 5/10 · novelty: new_method
摘要: 本文针对高维相关输入变量下的可靠性导向 Shapley 效应估计问题，提出了一种新方案。首先，将可靠性导向的闭 Sobol 指标重新表示为失效条件下的边际密度函数，该密度可能为高维。然后，利用生成模型中的 Normalizing Flows 来估计这些高维密度，仅需一组失效样本。此外，基于同一失效样本提供了误差估计程序，这是对目标 Shapley 效应估计的新贡献。数值实验展示了方法的有效性，并讨论了其特点与未来方向。对您而言，本文的 Normalizing Flows 密度估计与误差估计框架可迁移至高维因果推断中的敏感性分析或工具变量估计，但核心方法并非您的主要兴趣方向。
关键技术: Normalizing Flows, Shapley effects, Sobol indices, high-dimensional density estimation, reliability analysis
为什么对您有用: 本文属于统计计算与高维密度估计的交叉，与您的 primary interest 中的高维统计和统计计算有间接关联。技术武器库中 'high-dimensional asymptotics' 和 'software development' 可用于理解其 Normalizing Flows 的收敛性及实现，但核心问题（可靠性 Shapley 效应）与您的因果推断、U-统计量主线距离较远。暂不可做：缺乏 Normalizing Flows 的深入理论工具（如流模型的可逆性分析）来直接改进其方法。

4. 2606.26804 — Structured Secant Methods to Select Smoothing Parameters For General Smooth Models¶

作者: Joshua Krause, Jelmer P. Borst, Jacolien van Rij
相关性 5/10 · novelty: new_method
摘要: 本文针对一般光滑模型（general smooth models）中平滑参数的选择问题，提出了一种结构化拟牛顿方法（qEFS）。这类模型通过加性模型替换常规似然中的参数，包含参数项、高斯随机效应和协变量的光滑函数，后者通过降秩样条基和二次惩罚正则化。现有二阶方法（如Extended Fellner-Schall, EFS）需要计算对数似然的Hessian矩阵，精确优化甚至需要四阶导数，推导困难且计算昂贵。qEFS方法利用结构化有限记忆割线逼近（structured limited-memory secant approximations）近似Hessian，主要仅需一阶导数，同时允许对Hessian的子块进行精确约束以提高逼近精度。理论证明qEFS在特定条件下收敛到EFS方法，模拟研究显示其在更广条件下仍能提供良好估计。此外，在置信区间覆盖和模型选择等需要Hessian的二次任务中，部分逼近可达到接近名义性能。该方法在隐马尔可夫模型和Tweedie模型上展示了比替代方法更易实现的优势。对您而言，本文的数值优化策略（结构化拟牛顿与子块约束）可直接迁移到您的统计计算工具箱中，尤其当您需要为高维或复杂似然模型开发高效平滑参数选择算法时，qEFS提供了一条降低实现门槛的路径。
关键技术: quasi-Newton method, structured secant approximation, limited-memory BFGS, Laplace-approximate marginal likelihood, smoothing parameter selection, generalized additive models
为什么对您有用: 本文属于统计计算（stat_computing）方向，直接对应您的primary interest中的'statistical computing (numerical methods, algorithm)'。您武器库中'very_familiar'的'软件开发和逆问题'可立即用于复现或扩展qEFS方法到您自己的模型（如因果推断中的半参数估计）。中期可做：若您想将qEFS与'higher-order U-statistics'结合（例如为U-统计量估计器设计自适应平滑参数选择），需先在'moderately_familiar'的'M-estimation理论'上加强，因为qEFS的收敛性分析依赖于M-估计框架。暂不可做：无。

5. 2606.26611 — Fast Robust Regression via Orthogonal Block Updates¶

作者: Anthony Christidis, Matias Salibian-Barrera
相关性 5/10 · novelty: new_method
摘要: 本文针对高维稳健回归中MM估计的初始点选择问题，提出了一种基于块坐标下降的可扩展算法ROBU。传统随机子采样方法寻找无异常值子集的概率随变量数指数下降，而ROBU通过将解释变量划分为低维块，在每个块内独立进行子采样，大幅降低了所需子样本数量。算法核心是正交块更新策略，利用块内子样本计算初始回归系数，再通过块坐标循环更新直至收敛。模拟实验和蛋白质组学数据应用表明，ROBU在保持稳健性的同时，计算效率显著优于现有非随机策略。该工作为大规模高维数据下的稳健估计提供了实用的计算工具，对您而言，其块坐标下降与子采样结合的设计思路可迁移至您熟悉的因果推断中高维协变量调整的稳健估计问题。
关键技术: block-coordinate descent, MM-estimator, random subsampling, robust regression, orthogonal block updates
为什么对您有用: 本文属于统计计算方向，直接对应您primary interest中的'statistical computing (numerical methods, algorithm)'。ROBU的块坐标下降策略与您very_familiar的'high-dimensional asymptotics'和'software development'高度契合——您可立即用已有工具分析其收敛性（如块大小与子样本数的权衡），或将其思想移植到因果推断中高维协变量的稳健估计。中期可做：若需深入理解块坐标下降在高维非凸问题中的理论保证，需在moderately_familiar的'M-estimation theory'上补强。

6. 2606.25927 — Knowledge Cascade: Reverse Knowledge Distillation on Nonparametric Multivariate Functional Estimation¶

作者: Luyang Fang, Haoran Lu, Yongkai Chen, Wenxuan Zhong, Ping Ma
相关性 5/10 · novelty: new_method
摘要: 本文提出 Knowledge Cascade (KCas)，一种反向知识蒸馏框架，用小而廉价的 student 模型指导复杂 teacher 模型的开发，以解决 teacher 模型本身构建的计算瓶颈。在非参数多元函数估计的 RKHS 平滑样条设定中，选择多个平滑参数是主要计算负担。KCas 通过渐近标度律将 student 选择的平滑参数迁移到全样本 regime，大幅降低高维大规模数据集的计算成本，同时保留理论保证。方法核心是推导 student 与 teacher 最优平滑参数之间的渐近关系，利用统计缩放规律实现参数迁移。除平滑样条外，文章还通过核密度估计和深度学习超参数迁移展示了相同原理。模拟和真实数据实验表明 KCas 在保持统计性能的同时实现显著计算节省，有时甚至优于全样本过程。对您而言，本文的统计-计算权衡视角直接连接您的 statistical-computational tradeoff 兴趣，且其渐近标度律的推导方法可迁移到您熟悉的 higher-order U-statistics 计算复杂度分析中。
关键技术: reverse knowledge distillation, smoothing splines, RKHS, asymptotic scaling laws, hyperparameter transfer, computational-statistical tradeoff
为什么对您有用: 本文直接切入您 primary interest 中的 statistical-computational tradeoff 领域，属于 gateway reading：它清晰阐述了计算瓶颈（平滑参数选择）与统计性能之间的权衡，并用渐近标度律量化了 student-to-teacher 迁移的理论基础。武器库中 very_familiar 的 nonparametric statistics 和 minimax bounds 可直接用于验证其渐近标度律的紧性，而 moderately_familiar 的 theory of higher-order U-statistics 可尝试将类似标度律推广到 U-statistic 的计算复杂度分析中。中期可做：需先在 moderately_familiar 的 theory of higher-order U-statistics 上长肌肉，以理解如何将 RKHS 的渐近标度律类比到 tensor-contraction 成本模型中。

7. 2606.24521 — ICSpyLab: A Python package for invariant coordinate selection¶

作者: Colombe Becquart
相关性 5/10 · novelty: application
摘要: 本文介绍了 ICSpyLab，这是首个专门实现不变坐标选择（ICS）的 Python 包。ICS 是一种基于两个散布矩阵联合对角化的降维技术，与 PCA 仅依赖方差不同，它寻找广义峰度最大或最小的方向，因此对聚类和异常检测特别有用。该包提供了丰富的散布矩阵集合、多种计算不变分量的算法以及若干分量选择准则。它遵循标准的估计器接口，便于集成到机器学习流程中，同时保持灵活性以支持方法学扩展。文档包含详细解释和可复现示例。该包以 MIT 许可证发布，代码开源。
关键技术: invariant coordinate selection, joint diagonalization, scatter matrices, generalized kurtosis, dimensionality reduction
为什么对您有用: 本文属于统计计算方向，直接对应您的 primary interest 中的 'statistical computing (numerical methods, algorithm)'。您有 'software development' 的 very_familiar 技能，可以快速评估该包的代码质量、接口设计，并可能贡献新的散布矩阵或选择准则。这是一个立即可做的 gateway 阅读——您无需额外学习即可理解其核心方法，并判断其是否值得集成到您自己的工具链中。

8. 2606.25169 — Laplace-Fisher Gate Identities for Optimal Matrix-Gated Blended Score Estimation¶

作者: Alois Duston, Tan Bui-Thanh
相关性 5/10 · novelty: new_method
摘要: 本文针对 Ornstein-Uhlenbeck 扩散逆过程采样中的分数估计问题，提出了一种矩阵值混合分数估计器。传统 Tweedie 与目标分数恒等式的标量混合在奇异或强各向异性目标分布下过于刚性。作者将混合分数估计建模为条件风险最小化问题，并推导出最优矩阵门控的闭式解——Laplace-Fisher Gate Identity (LFGI)，其形式为 OU 系数与条件 Hessian 期望的逆的乘积。该门控不改变分数估计的期望值，仅优化方差。论文给出了高斯特例下的解析形式，并建立了有限参考样本下门控估计的一致性及稳定性界。在贝叶斯逆问题中，LFGI 利用已有的 MCMC 样本和导数信息构造归一化后验代理，支持后验能量评估、模型证据估计及密度诊断。在 PDE 约束逆问题基准上，LFGI 相比其他分数估计器类改善了后验密度校准和采样诊断。
关键技术: score estimation, Ornstein-Uhlenbeck diffusion, Tweedie's identity, matrix-valued blending, conditional risk minimization, Bayesian inverse problems
为什么对您有用: 本文属于统计计算方向，核心贡献是分数估计的方差优化，与您的 primary interest 中“statistical computing (numerical methods, algorithm)”直接相关。您武器库中“inverse problems with random noise”和“software development”两项 very_familiar 工具可直接用于复现和扩展 LFGI 估计器（例如在您的 tensor/U-statistic 框架下分析其计算成本）。中期可做：若想将 LFGI 与您熟悉的 higher-order U-statistics 结合（例如用 U-statistic 投影估计条件 Hessian），需先在 moderately_familiar 的“theory of higher-order U-statistics”上加强，以处理期望算子的高阶展开。

9. 2606.26061 — Deviance-style normalization for jointly overdispersed counts¶

作者: Akshay Balsubramani
相关性 4/10 · novelty: new_method
摘要: 本文针对稀疏、联合过离散的计数矩阵（如测序数据）提出一种 Dirichlet-multinomial (DM) 偏差残差化方法。DM 零模型将每个样本的计数向量视为固定总数的组成，并用单一标量浓度参数 α₀ 控制过离散；该模型恰好由条件独立负二项特征计数在样本总数上的条件分布导出，因此是标准特征级过离散计数模型的联合条件类比。该变换保持精确稀疏性，每个非零条目可在常数时间内计算，在单次计数上与多项残差一致，并根据零模型容忍的过离散程度收缩重复计数残差，当 α₀→∞ 时恢复多项残差。同一固定离散比较原理可扩展到有序和树结构特征（通过广义 DM 和 Dirichlet-tree 多项分布），形成一个统一的残差族，在共同组合逻辑下涵盖联合和特征级计数零模型，且计算轻量，可直接嵌入现有稀疏处理流程。
关键技术: Dirichlet-multinomial deviance residual, sparse count matrix normalization, overdispersed count models, compositional data analysis, constant-time per-entry computation
为什么对您有用: 本文属于统计计算方向，提出一种计算高效的稀疏计数矩阵归一化方法，直接对应您 primary interest 中的 'statistical computing (numerical methods, algorithm)'。技术武器库中 'software development' 和 'high-dimensional asymptotics' 可用于评估该方法的计算可扩展性和理论性质。中期可做：需先在 'semiparametric theory' 上熟悉其与现有归一化方法的效率比较，但核心算法实现可直接动手。

10. 2606.25967 — Slice Monte Carlo Integration¶

作者: Johannes K. Krondorfer, Christian W. Binder, Matthias Neumann, Wolfgang von der Linden
相关性 4/10 · novelty: new_method
摘要: 本文提出 Slice Monte Carlo (SℓMC) 积分方法，用于昂贵目标函数的数值积分——这是贝叶斯推断和模拟中的常见瓶颈。方法核心是：利用一个廉价替代模型（surrogate）执行类 Nested Sampling 过程，将参数空间划分为信息量不同的“切片”（strata），并在每个切片内从先验生成样本。然后对昂贵目标函数进行分层 Monte Carlo 积分，得到目标积分的有效估计。关键优势在于切片体积估计与目标函数评估解耦，从而允许自适应、方差感知的计算资源分配。作者还展示了如何高效生成后验样本，并在简单基准问题上验证了方法。该方法对您可能有用：它直接关联您的统计计算兴趣，特别是数值积分与算法设计，且其分层策略与您熟悉的非参数统计和逆问题中的方差缩减思想相通。
关键技术: stratified Monte Carlo, Nested Sampling, surrogate model, variance-aware allocation, adaptive integration
为什么对您有用: 本文属于统计计算（数值积分）方向，是您的 primary interest。方法学的核心——利用廉价替代模型进行分层积分以降低方差——与您熟悉的非参数统计和逆问题中的方差缩减技术有直接联系。您可以用 very_familiar 的 minimax 界工具分析其分层策略的最优性，或结合 moderately_familiar 的 M-estimation 理论评估其估计量的渐近性质。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以严格推导其效率界。

11. 2606.23998 — Inferential applications of the moments of the logit-normal distribution¶

作者: John Holmes, Ness Arps, Marco Reale
相关性 4/10 · novelty: new_method
摘要: 本文针对logit-normal分布矩的计算问题，提出了一种基于logistic函数逼近的矩估计方法，适用于任意正整数阶矩。该方法在8阶矩以内精度高，避免了基于Mordell积分的近似方法在第一矩上的数值不稳定性，且在R中比数值积分更快。作者将方法应用于两个推断场景：一是加速逻辑回归的期望传播算法，二是评估逻辑混合模型中的logistic正态积分。结果表明，该方法足以加速期望传播，但尚不能直接处理逻辑混合模型中的积分。对您而言，本文提供了一个数值计算上的实用工具，可应用于您在高维统计或因果推断中可能遇到的logit-normal相关计算问题。
关键技术: logit-normal distribution, moment approximation, logistic function approximation, Mordell integral, Expectation Propagation, numerical integration
为什么对您有用: 本文属于统计计算方法，直接关联您的primary interest中的'statistical computing (numerical methods, algorithm)'。您武器库中的'software development'和'high-dimensional asymptotics'可用于评估该近似方法的计算精度与效率，并可能将其扩展到更复杂的模型（如高维logistic回归）。中期可做：需先在'moderately_familiar'的'M-estimation theory'上提升，以理解期望传播的收敛性。

12. 2606.27564 — Fast-Mixing Markov Chains without Gradients¶

作者: Robert Kutri, Robert Scheichl
相关性 4/10 · novelty: new_method
摘要: 本文提出一种无需梯度计算的快速混合马尔可夫链方法 DART（Delayed Acceptance with Regularisation and Tempering）。核心思想是利用局部化原理，通过正则化和退火构造代理（surrogate）密度，使得基于代理的 Metropolis-Hastings 提议能够利用目标密度的梯度级几何信息，但无需计算目标梯度或代理梯度。理论分析表明，提议位移的期望与 Langevin 漂移项仅相差可控误差。对于强对数凹目标分布（条件数 κ，维度 d），DART 从热启动出发的混合时间达到 O(κ max{κ, d})：当 d ≥ κ 时与 MALA 的 O(κd) 率匹配，否则为 O(κ²) 且与维度无关。这是首个基于代理转移的 MCMC 方法的混合时间保证。在层次空间广义线性混合模型上的实验表明，该方法可复用 Dirichlet-Neumann 平均参数化作为代理，其线性存储和对数线性计算复杂度可迁移至推断。对您而言，该工作属于统计计算方向，其混合时间分析框架（强对数凹假设下的谱间隙界）与您熟悉的非参数统计和 minimax 界技术有交集，可作为 gateway reading 了解 MCMC 理论的最新进展。
关键技术: Delayed Acceptance MCMC, surrogate-based Metropolis-Hastings, Langevin drift approximation, strongly log-concave mixing time analysis, Dirichlet-Neumann averaging parametrization
为什么对您有用: 本文属于统计计算方向，直接对应您的 primary interest 中的 'statistical computing (numerical methods, algorithm)'。其核心贡献——无需梯度计算的代理 MCMC 混合时间保证——是 MCMC 理论的前沿进展，您可以用 very_familiar 中的 'nonparametric statistics' 和 'minimax bounds for estimation problems' 来理解其强对数凹假设下的谱间隙界推导。中期可做：若您想深入该方向，需先在 moderately_familiar 的 'M-estimation theory' 上长肌肉，以理解其正则化和退火构造的统计性质。

13. 2606.26652 — Scalable Operator Learning via Nyström Approximation With Denoising Applications¶

作者: Naveen Gupta, Vaibhav Silmana, S. Sivananthan
相关性 4/10 · novelty: new_method
摘要: 本文研究向量值再生核希尔伯特空间（RKHS）中向量值回归的 Nyström 子采样方法，旨在解决标准核方法因构造和求逆大核矩阵而带来的计算瓶颈。作者提出了一种基于 Nyström 子采样的高效算子学习算法，支持函数型输出。在由指标函数（超越经典 Hölder 型和算子单调框架）刻画的一般源条件下，建立了所提估计量的极小化最优收敛速率。作为应用框架，论文考虑了函数去噪问题，将去噪纳入一般算子学习框架，而非依赖特定信号表示或噪声模型。在信号去噪、实时音频去噪、图像去噪、逆 Radon 变换重建和能效预测上的数值实验表明，该方法在显著降低计算成本的同时，性能与全核方法相当。对您而言，本文的 Nyström 子采样与极小化最优率分析是统计计算中可迁移的技术，尤其适合您对统计计算（数值方法）的兴趣，且其算子学习视角可能启发高维统计中核方法的计算加速策略。
关键技术: Nyström subsampling, vector-valued RKHS, minimax-optimal convergence rates, source condition, operator learning
为什么对您有用: 本文直接对应您 primary interest 中的统计计算（数值方法）方向，其 Nyström 子采样技术是核方法可扩展性的经典工具。您武器库中的 minimax bounds for estimation problems 和 high-dimensional asymptotics 可直接用于验证本文声称的极小化最优率是否紧，或探索更一般的源条件。中期可做：若想将 Nyström 方法推广到您的因果推断或高维 U-统计量设定，需先在 moderately_familiar 的 M-estimation theory 上加强，以处理非光滑目标。

天体统计 (astrostats, 10 篇)¶

1. 2606.24971 — Empirical-Bayes Unfolding of \(γ\)-ray Spectra¶

作者: A. H. Mjøs, E. Lima, A. Kvellestad, A. C. Larsen, M. Hjorth-Jensen
相关性 7/10 · novelty: application
摘要: 本文处理γ射线谱的反卷积（unfolding）问题，这是一个病态泊松逆问题。探测器响应和有限能量分辨率使得正向映射后不同发射谱几乎不可区分，直接反演会放大统计涨落。作者提出一种经验贝叶斯层次模型，保留泊松计数结构、强制非负性，并通过联合ON/OFF似然纳入背景。先验以自动选择的Richardson-Lucy参考谱为中心，在弱约束区域保持自适应宽度。后验推断使用No-U-Turn采样器，并报告分辨率受限展开谱的同时不确定带。与近期频率学派正则化最大似然方法对比，在高、低统计量情形下展开谱高度一致。本文为γ谱展开提供了稳健且可扩展的不确定性量化框架，对您作为统计学家了解天文/核物理中逆问题的实际数据结构和噪声模型有很好的入门价值。
关键技术: Empirical Bayes, Richardson-Lucy algorithm, No-U-Turn Sampler, Poisson inverse problem, ON/OFF likelihood
为什么对您有用: 本文属于astrostats的gateway reading，清晰阐述了γ谱展开的数据结构（泊松计数、探测器响应矩阵）、噪声模型和逆问题病态性，适合作为统计学家进入该领域的入门读物。您的武器库中'inverse problems with random noise'和'nonparametric statistics'可直接用于理解其方法核心，但当前工具链（如einsum）不直接适用，属于暂不可做方向——核心机器（MCMC采样器调优、探测器物理模型）不在武器库内。不过，本文值得花时间读全文以了解天文逆问题的实际挑战。

2. 2606.23944 — Stochastic Expectation Maximization for Robust State-Space Radio Interferometric Imaging¶

作者: Nawel Arab, Mohammed Nabil El Korso, Isabelle Vin, Pascal Larzabal
相关性 7/10 · novelty: application
摘要: 本文针对射电干涉成像中受射频干扰（RFI）污染的观测数据，提出一种鲁棒的线性状态空间模型估计方案。传统状态空间模型通常假设高斯噪声，无法处理重尾或离群值噪声；本文采用复合高斯噪声建模，并基于随机近似期望最大化（SAEM）算法进行推断。在E步中，通过闭式Gibbs更新对潜在状态和噪声纹理进行蒙特卡洛采样，从而在重尾似然下实现可处理的推断。数值实验表明，该方法在重建保真度和对RFI的鲁棒性上显著优于高斯EM算法，甚至优于oracle RTS平滑器。本文主要贡献在于将SAEM与复合高斯噪声结合，为干扰主导的成像场景提供了实用工具。对您而言，这是一篇优秀的入门级天文统计文献，清晰展示了射电干涉成像中的数据结构和噪声模型，适合作为了解该领域统计问题的起点。
关键技术: Stochastic Approximation EM (SAEM), compound-Gaussian noise, Gibbs sampling, state-space model, radio interferometric imaging
为什么对您有用: 本文属于astrostats的gateway reading，清晰阐述了射电干涉成像中RFI问题的数据结构和噪声模型（复合高斯噪声），适合作为统计学家进入该领域的入门读物。您的武器库中'nonparametric statistics'和'inverse problems with random noise'可直接用于理解其模型设定，但核心SAEM算法和Gibbs采样不在您的very_familiar或moderately_familiar列表中，因此属于暂不可做——需先补充MCMC和状态空间模型的基础知识。不过，本文值得花时间读全文，因为其问题设定（重尾噪声下的鲁棒推断）与您的因果推断和高维统计兴趣有潜在交叉。

3. 2606.27432 — The Hidden Geometry of Astrophysical Spectra: Path-Signatures of Line Profiles¶

作者: Rafael S. de Souza, Severin Bunk
相关性 6/10 · novelty: application
摘要: 本文提出一种基于粗糙路径理论（rough path theory）的谱线轮廓几何表示方法，将每条波长采样的谱线映射到速度-流量空间中的轨迹，并定义一组低阶描述子（如带符号速度-流量面积、蓝红不平衡定位、高阶形状复杂度、发射-吸收顺序）。这些描述子能够区分具有相同半高全宽（FWHM）、非参数速度宽度（W80）和低阶矩汇总的形态。作者在合成谱线上验证了区分能力，然后应用于MaNGA积分场光谱数据，对每个spaxel计算Hα描述子并在低维特征空间中进行聚类。聚类结果形成空间上连贯的、具有相似有序线形态的区域，且无需外部速度场信息，堆叠谱即可恢复与大尺度质心速度场一致的模式。本文附带MIT许可的轻量级R包spectropath。作为天文统计学的入门读物，本文清晰展示了从数据（IFU光谱）到模型（路径描述子）再到科学问题（线形态分类与速度场恢复）的完整链条，适合统计学家快速理解天文光谱分析的核心挑战。
关键技术: rough path theory, path signature, spectral line profile morphology, unsupervised clustering, integral field spectroscopy
为什么对您有用: 本文属于astrostats的gateway reading：它用统计学家熟悉的轨迹/路径语言重新表述了天文谱线形态问题，数据侧（MaNGA IFU光谱）和模型侧（路径描述子、聚类）交代清晰，适合作为进入天文光谱分析的入门读物。武器库中的非参数统计和软件工程能力足以支撑复现和扩展其方法（如用更高阶U统计量刻画描述子的不确定性），但核心的天文物理背景（如谱线形成机制、IFU数据预处理）需要额外学习，属于暂不可做——缺天文光谱的领域知识。

4. 2606.26702 — Interferometric Analysis of Air-shower Radio Emission in the Near Field with an Information Field Theory Approach¶

作者: Keito Watanabe, Karen Terveer, Sjoerd Bouma, Justin Bray, Stijn Buitink, Arthur Corstanje et al.
相关性 6/10 · novelty: survey
摘要: 本文针对宇宙线大气簇射的射电辐射重建问题，提出基于信息场论（IFT）的贝叶斯推断框架。当前重建方法受限于高计算成本、简化近似及信号信息利用不充分，无法实现近场干涉测量。IFT作为一种场量成像重建框架，能够提取信号中所有可用信息来推断场量分布。文章重点介绍了利用IFT进行大气簇射重建的新方法，并讨论了其在SKA-Low射电望远镜中的应用潜力。对于统计学家而言，本文是了解射电天文中贝叶斯场推断问题的良好入门读物，但方法学创新程度有限。
关键技术: Information Field Theory, Bayesian inference, interferometric reconstruction, field-like quantities inference
为什么对您有用: 本文属于astrostats方向的gateway reading，适合作为统计学家进入射电天文的入门材料。武器库中的非参数统计和逆问题工具可用于理解IFT的场推断机制，但本文主要是方法应用综述，缺乏具体理论贡献。暂不可做：核心机器不在武器库里，缺少IFT的具体实现细节和计算框架。

5. 2606.24117 — Improving Radio Source Count Estimation Using Kernel Density Estimation¶

作者: Luozhenhan Liu, Zunli Yuan, Wenjie Wang, Chuanqi Li
相关性 6/10 · novelty: application
摘要: 本文针对射电源计数估计中传统直方图方法受分箱选择偏差、边界效应和巡天不完备性影响的问题，提出并系统评估了核密度估计（KDE）作为非参数替代方案。基于输入光度函数模型生成的模拟通量限样本，比较了标准KDE、自适应KDE与传统分箱方法的性能。结果表明KDE方法在高通量稀疏数据区域估计更准确稳定。将自适应KDE应用于LOFAR两米巡天深场实测数据，稳健确认了亚mJy通量密度处的“下降-凸起”特征，并揭示约10 mJy处的次级凸起很可能是分箱伪影。通过加权估计灵活处理观测不完备性，权重在单个源层面连续施加而非在离散箱内平均。所有计算基于自研Python包AstroKDE实现。本文作为射电天文学中非参数统计方法的应用示范，对您作为统计学家进入astrostatistics领域是很好的入门读物——数据结构和噪声模型清晰，且方法学层面（KDE带宽选择、边界校正、加权估计）与您的非参数统计和统计计算兴趣直接对接。
关键技术: Kernel density estimation, adaptive KDE, weighted estimation, boundary bias correction, bandwidth selection
为什么对您有用: 本文属于astrostatistics的gateway reading：数据侧（通量限样本、选择效应、噪声结构）和模型侧（KDE带宽选择、边界校正、加权估计）阐述清晰，适合统计学家入门。您的武器库中nonparametric statistics和software development非常熟悉，可直接复现或扩展其AstroKDE包（如加入cross-validation带宽选择、bootstrap不确定性量化），属于立即可做的方向。

6. 2606.27227 — Realistic Time-Domain Synthesis of Gravitational-Wave Detector Glitches using Class-Conditional Derivative Generative Adversarial Networks¶

作者: Tom Dooney, Mees de Boer, Harsh Narola, Melissa Lopez, Stefano Bromuri, Daniel Stanley Tan et al.
相关性 5/10 · novelty: application
摘要: 本文提出 GlitchGAN，一个基于类条件导数生成对抗网络（class-conditional derivative GAN）的模型，用于在时域中直接合成引力波探测器中的瞬态噪声事件（glitches）。模型在 LIGO O3 运行期间七种常见 glitch 类型（Blip、Fast Scattering 等）的高质量重建数据上训练，能够生成物理上一致的合成样本。通过类条件向量插值，模型还能生成混合或过渡形态的 glitch，展示了良好的泛化能力。生成速度极快（CPU 上 22 秒生成 1000 个样本），适合大规模模拟。验证方面，使用 Gravity Spy 分类器和 UMAP 嵌入分析，表明合成 glitch 与真实样本在分类和潜在空间上高度重叠。文章还指出仅依赖幅度谱图（magnitude Q-transform）的分类器可能误分类物理上不真实的 glitch，强调了保留相位信息的验证方法的重要性。对您而言，这是一篇优秀的入门级天文统计读物，清晰展示了引力波数据分析中的噪声建模问题，数据结构和验证流程对统计学家友好，值得花时间阅读全文以了解该领域的数据挑战。
关键技术: class-conditional derivative GAN, time-domain synthesis, Gravity Spy classifier, UMAP embedding, Q-transform spectrogram
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了引力波探测器噪声（glitches）的数据结构、生成模型和验证方法，不假设读者有天文学背景，适合作为入门读物。您的武器库中的非参数统计和软件工程能力足以理解其生成模型和验证流程，但核心的 GAN 训练和类条件插值技术不在您的熟悉范围内，因此属于中期可做——需先在 moderately_familiar 的深度学习生成模型上积累经验。值得花时间读全文以了解该领域的数据挑战和统计需求。

7. 2606.25702 — DANTE: A Reference-Guided Unsupervised Pipeline for Extended-Transient Anomaly Characterization in LIGO O4a¶

作者: Luca Cirfeta
相关性 5/10 · novelty: application
摘要: 本文针对 LIGO O4a 运行期间引力波探测器数据中的非平稳瞬态噪声（glitch）检测问题，提出无监督异常检测管道 DANTE。核心设定是：在无标签条件下，从时频谱图中区分仪器噪声与新型瞬态异常。方法上，利用预训练的 Vision Transformer (DINOv2) 提取局部 patch 嵌入，实现高分辨率异常映射；通过受控注入测试形式化“信号稀释障碍”，揭示 Multiple Instance Learning (MIL) Top-k 池化虽能恢复扩展拓扑但对亚秒级形态不敏感。为应对小样本分类不稳定，引入自适应 Dirichlet Process Mixture Model (DPMM) 动态选择协方差结构。通过原生 O4a 背景重校准解决域偏移问题，结果表明最初被历史参考标记为新型的普遍形态实为平稳伪影。结论强调无监督异常检测必须依赖原生重校准过滤域偏移伪影，而剩余未建模单例的最终分类需多通道验证。对您而言，本文是 astrostatistics 的入门级读物，清晰展示了引力波数据中噪声建模与异常检测的实际挑战，但方法学新颖性有限，主要贡献在工程管道层面。
关键技术: Vision Transformer (DINOv2), Multiple Instance Learning (MIL) Top-k pooling, Dirichlet Process Mixture Model (DPMM), domain-shift recalibration, time-frequency spectrogram embedding
为什么对您有用: 本文属于 astrostatistics 的 gateway reading，清晰阐述了引力波数据中噪声与异常检测的统计挑战（数据结构、域偏移、小样本分类），适合作为入门读物。武器库中 nonparametric statistics 和 high-dimensional asymptotics 可帮助理解其 DPMM 和嵌入方法的理论性质，但核心机器（Vision Transformer 微调、MIL 池化）不在当前武器库内，因此暂不可做直接方法迁移。值得花时间读全文以了解 LIGO 数据结构和实际分析流程。

8. 2606.25631 — A Non-Negativity Iterative Approach to Image Deconvolution for SKA¶

作者: Le Zhang, Shiyu Li
相关性 5/10 · novelty: application
摘要: 本文针对SKA射电干涉观测中的图像反卷积问题，提出了一种基于源流量非负性假设的迭代重建算法。该方法无需先验知识或训练数据，通过迭代方式快速实现图像重建，计算复杂度与像素数呈线性关系，例如512×512图像在普通笔记本上仅需1-2秒。算法在无噪声模拟中，使用SKA-Low的实测PSF和不完整uv覆盖，对点源和延展星系图像进行了验证。与经典CLEAN方法的对比表明，该算法在稀疏uv覆盖条件下重建效果良好，尤其适用于SKA和VLBI观测。作为一篇方法学应用论文，其新颖性在于提出了一种计算高效的迭代策略，但理论深度有限。对您而言，这是一篇很好的astrostatistics入门读物，清晰展示了射电天文图像重建的数据结构（uv覆盖、PSF）和模型假设（非负性），适合作为了解该领域统计问题的起点。
关键技术: non-negative iterative deconvolution, interferometric imaging, sparse uv-coverage, CLEAN comparison, linear-time algorithm
为什么对您有用: 本文属于gateway-reading范畴的astrostatistics论文：(1) 清晰阐述了射电干涉成像的数据结构（uv覆盖、PSF）和模型假设（非负性），适合作为统计学家进入该领域的入门读物；(2) 武器库中的'非参数统计'和'逆问题'可直接用于分析其迭代算法的收敛性和正则化性质，但核心问题（图像反卷积的稀疏采样）与当前武器库的匹配度一般；(3) 值得花时间读全文以了解射电天文的数据分析范式，但暂不可做后续方法改进——因为缺乏对射电干涉测量物理模型（如uv覆盖的几何结构）的深入理解。

9. 2606.25630 — Application of Bayesian Statistical Tools to SKA Telescopes Polarization Surveys to Study Magnetization of the Large-scale Structure of the Universe¶

作者: Valentina Vacca, Sebastian Hutschenreuter, Andrea Cabriolu, Torsten A. Ensslin, Philipp Frank, Jakob Roth et al.
相关性 5/10 · novelty: application
摘要: 本文提出利用贝叶斯统计方法，通过分析SKA望远镜极化巡天中的法拉第旋转效应，研究宇宙大尺度结构的磁场分布。目标是对星系团、纤维状结构及宇宙网中的磁场进行统计推断。方法上，采用信息场论（IFT）框架，将磁场建模为高斯随机场，并通过贝叶斯后验推断实现参数估计。关键工具包括数值采样技术（如Hamiltonian Monte Carlo）和快速傅里叶变换，以处理大规模数据。模拟研究表明，约5万个中频法拉第旋转测量结合高精度红移数据，可约束星系团等高密度环境的磁场；而对低密度纤维结构的探测仍具挑战，需低频观测和至少1.7万个光谱红移数据。本文是一篇面向天文学家的应用导向论文，方法学新颖性有限，但清晰展示了统计工具在射电天文学中的实际应用流程。对您而言，这是一篇优秀的入门级天文统计读物，适合了解法拉第旋转测量、信息场论等核心概念，但无需深入方法细节。
关键技术: Bayesian inference, information field theory, Faraday rotation, Hamiltonian Monte Carlo, Gaussian random field
为什么对您有用: 本文属于astrostats方向的gateway reading，适合作为统计学家进入射电天文学数据分析的入门材料。它清晰阐述了科学问题（宇宙磁场）、数据来源（SKA极化巡天）和统计模型（贝叶斯信息场论），不假设天文学背景。您的武器库中非参数统计和逆问题经验可直接理解其高斯场建模，但无需深入方法细节。值得花时间阅读全文以建立领域直觉，但暂不可做后续方法改进——核心机器（信息场论、大规模贝叶斯采样）不在您的武器库中。

10. 2606.27021 — SMR: Scheduler with Multi-Channel Map-Encoded Reinforcement Learning for Radio Telescopes¶

作者: Zhenyang Huang, Na Wang, Zhiyong Liu, Chuhao Gao
相关性 4/10 · novelty: application
摘要: 本文针对大型单口径射电望远镜的观测调度问题，提出了一种基于强化学习的调度器 SMR。该问题本质上是多目标优化问题，需在机械和环境约束下最大化科学回报。SMR 的核心创新在于将离散的目标列表投影到局部地平坐标系下的方位-仰角网格上，生成对齐的多通道天空图，编码目标属性及方向相关的线索（如卫星干扰风险、接收机增益）。这种表示提供了显式的空间归纳偏置，使智能体能直接从天空状态学习调度策略。基于真实星表和台站参数的仿真表明，与调优的贪心基线相比，SMR 在时间利用率上提升约 10%，且能学习非短视策略。在完整三通道设置下，SMR 在效率、干扰规避和观测质量之间实现了联合权衡，相比 MLP 基线，LIER 提升高达 17%，HGOR 提升 54%，同时保持高利用率。本文对您作为统计学家而言，是一篇很好的入门级天文统计应用文章：问题设定清晰（调度优化），数据侧（天空图、目标列表、约束）和模型侧（RL 状态表示、奖励设计）都交代得比较清楚，适合了解天文数据分析和调度问题的统计结构。
关键技术: reinforcement learning, multi-channel sky map encoding, spatial inductive bias, multi-objective optimization, simulation-based scheduling
为什么对您有用: 本文属于 astrostatistics 的 gateway reading。它清晰阐述了射电望远镜调度这一数据分析和建模问题（数据侧：目标列表、干扰风险、接收机增益；模型侧：RL 状态表示、奖励函数），适合统计学家入门。您的武器库中 'software development' 和 'nonparametric statistics' 可用于理解其仿真框架和状态表示，但核心 RL 方法（策略梯度、Q-learning）不在您的 arsenal 中，因此暂不可做——若想进入该方向，需先在 RL 基础（如 Sutton & Barto）上长肌肉。不过，本文作为入门读物值得花时间读全文，以了解天文调度问题的统计结构。

经济理论 / 应用 (econ_theory, 2 篇)¶

1. 2606.25688 — Choosing What to Calibrate and What to Estimate in Structural Models¶

作者: Joan Alegre Canton
相关性 7/10 · novelty: application
摘要: 本文研究结构模型中参数校准与估计的划分选择问题，目标是最小化因校准误差导致的局部偏差。作者为每个可容许的划分构造了一个标量敏感性统计量，衡量目标对象（如政策效应、福利度量、脉冲响应或处理效应）对校准参数扰动的局部响应。所选划分最小化该统计量，从而最小化校准误差带来的最坏情况局部偏差。方法仅需局部导数，避免重复估计，适用于广泛的结构模型。在Nakamura和Steinsson (2018)的新凯恩斯模型中应用表明，划分选择对可信度有重大影响：某些划分在较大校准误差下仍可靠，而其他划分则因微小校准误差产生大偏差。本文属于经济理论的应用工作，方法学新颖性有限，但为结构估计中的实践问题提供了系统框架。
关键技术: sensitivity statistic, local bias minimization, calibration-estimation partition, structural models, local derivatives
为什么对您有用: 本文属于经济理论的应用工作，连接secondary interest中的经济理论方向。研究者武器库中的'identification theory in causal inference'和'estimation theory in causal inference'可用于理解其敏感性统计量的构造逻辑，但核心是经济结构模型而非因果推断。作为gateway reading，本文清晰阐述了结构估计中的实践问题，适合作为进入经济理论应用的入门读物，值得花时间读全文以了解其分析框架。

2. 2606.24266 — Semi-nonparametric estimation of spatial dynamic panel data models with nonparametric spatial weights¶

作者: Abhimanyu Gupta, Xi Qu, Jiajun Zhang
相关性 6/10 · novelty: new_method
摘要: 本文针对空间动态面板数据（SDPD）模型，提出了一种半非参数估计框架，核心创新在于将空间权重矩阵建模为经济距离的未知函数，而非预设为已知参数形式。模型包含双向固定效应，并通过矩阵函数算子统一了空间自回归和矩阵指数空间设定。为处理未知异方差，作者基于线性与二次矩条件构造了堆叠的 sieve GMM 估计量，并推导了可行最优 GMM 和更高效的可行最佳 GMM 估计量。在 (n, T) 联合趋于无穷的渐近框架下，参数分量达到 √n(T-1) 一致性和渐近正态性，这与经典半非参数结果一致。蒙特卡洛实验表明有限样本性能优良。应用部分复现了 Miguel (2005) 关于“女巫”谋杀的研究，发现经济地理邻近性（而非文化地理邻近性）显著放大了这些经济谋杀的空间依赖性。
关键技术: sieve GMM, matrix-function operators, spatial dynamic panel data, quadratic moment conditions, two-way fixed effects, semi-nonparametric estimation
为什么对您有用: 本文属于经济理论（应用因果）方向，提供了一个将非参数空间权重引入面板数据模型的完整分析框架，其 sieve GMM 和渐近理论对您武器库中的非参数统计和因果推断估计理论有直接参考价值。武器库中 'identification theory in causal inference' 和 'semiparametric theory' 可用来审视其识别假设（如距离作为外生工具）和估计效率。中期可做：若想将类似的空间非参数权重方法迁移至因果推断中的空间 spillover 效应估计，需先在 moderately_familiar 的 semiparametric theory 上进一步熟悉 sieve 估计的收敛率推导。

流行病学 (epidemiology, 5 篇)¶

1. 2606.26638 — Multivariable Mendelian randomization with weak instruments: a comparison of Bayesian and frequentist methods¶

作者: Andrew J. Grant, Ashish Patel, Stephen Burgess
相关性 7/10 · novelty: application
摘要: 本文聚焦于多变量孟德尔随机化（MVMR）中弱工具变量问题，这是因果推断在流行病学应用中的关键挑战。在单暴露设定下，弱工具变量偏差可通过p值或F统计量阈值筛选遗传工具来缓解；但在多暴露设定中，遗传工具可能与某个暴露强相关，但在条件于其他暴露后变弱，因此更难保证条件强工具。本文提出一种贝叶斯框架方法MVMR-Pony来缓解弱工具偏差，并与现有频率学派方法（如IVW、Egger回归等）进行系统比较。通过模拟研究，在相关遗传效应、测量误差和中介效应导致的弱工具场景下，MVMR-Pony在偏差、覆盖率、I类错误率和统计功效方面均优于频率学派方法。该工作为流行病学中多暴露因果推断提供了实用的贝叶斯工具，尤其适用于遗传流行病学队列研究。对您而言，本文是流行病学中工具变量方法的实际应用案例，展示了弱工具偏差的识别与缓解策略，可作为您因果推断兴趣中IV方向的入门级应用参考。
关键技术: Mendelian randomization, weak instruments, Bayesian inference, multivariable IV, simulation-based comparison
为什么对您有用: 本文属于流行病学应用，直接关联您的secondary interest中的流行病学因果推断。作为应用型论文，它清晰展示了多暴露IV设定下弱工具问题的识别与贝叶斯缓解策略，适合作为流行病学IV方法的入门读物。您的武器库中'因果推断中的估计理论'和'软件工程'足以理解并复现其模拟框架，但核心方法（贝叶斯建模）不在您的very_familiar工具中，因此属于'暂不可做'——若想深入，需先熟悉贝叶斯IV方法（如MCMC或变分推断）。

2. 2606.23968 — Empirical prior distributions for treatment-by-subgroup interaction heterogeneity in random-effects meta-analysis¶

作者: Renato Panaro, Christian Röver, Tim Friede
相关性 6/10 · novelty: application
摘要: 本文针对随机效应元分析中的治疗-亚组交互效应异质性，提出基于经验先验分布的方法。研究从Cochrane系统评价数据库中提取超过3000个交互效应元分析，推导出总体效应和交互效应异质性的经验（预测）先验分布。结果表明，交互效应异质性通常远小于治疗效应异质性，且由于交互效应估计精度较低，其异质性更难识别。因此，在稀疏交互效应元分析中，使用经验先验能显著提升推断精度。本文通过实例展示了相较于标准异质性先验，定制先验如何改善元分析精度。对您而言，这是一篇应用导向的流行病学论文，展示了如何利用大规模数据库构建先验分布以解决稀疏数据下的推断问题，其数据驱动先验的思路可迁移至您关注的因果推断中的敏感性分析或IV方法中的先验设定。
关键技术: empirical Bayes prior, random-effects meta-analysis, treatment-by-subgroup interaction, heterogeneity estimation, Cochrane database
为什么对您有用: 本文属于流行病学应用，直接关联您的secondary interest。它展示了在大规模元分析数据库中构建经验先验的完整流程，其数据驱动先验的思路对您关注的因果推断（如IV或敏感性分析中的先验设定）有参考价值。武器库中'非参数统计'和'因果推断中的估计理论'可支撑理解其方法，但核心是应用而非新方法，属于'暂不可做'——因为您缺乏元分析领域的专业背景，但可作为入门读物了解该领域的数据结构和分析范式。

3. 2606.26972 — Predicting disease severity and large-scale spread from coupled severity measurements and imperfect indicators: Application to beet yellows¶

作者: Baptiste Oger, César Martinez, François Joudelat, Samuel Soubeyrand, Lionel Benoit
相关性 5/10 · novelty: application
摘要: 本文针对植物病害（甜菜黄化病）的严重程度预测与大规模时空传播重建问题，提出一个两阶段统计框架。第一阶段使用基于多重随机森林的 stacked hurdle 模型，从稀疏的直接测量和噪声较大的间接指标（卫星遥感数据）中局部预测病害严重程度，处理了零膨胀和时空结构。第二阶段利用半参数时空模型，基于第一阶段的预测重建大规模流行病学动态。方法设计为通用且模块化，可推广至人类、动物或植物健康领域。案例研究使用法国 2019-2023 年甜菜黄化病监测数据，结合稀疏田间测量和卫星遥感数据验证了方法有效性。对您有用：本文展示了如何将噪声间接指标（类似流行病学中的代理变量）与稀疏金标准结合进行预测，其 stacked hurdle 和半参数时空建模思路可迁移至您关注的流行病学应用或因果推断中的测量误差问题。
关键技术: stacked hurdle model, random forests, semi-parametric spatio-temporal model, zero-inflated data, remote sensing data integration
为什么对您有用: 本文属于流行病学应用，直接连接您的 secondary interest 中的流行病学方向。方法学上，stacked hurdle 模型处理零膨胀和间接指标噪声的思路，可启发您在因果推断中处理测量误差或代理变量问题。武器库中 'estimation theory in causal inference' 和 'nonparametric statistics' 可用于分析此类两阶段方法的偏差-方差权衡。作为应用论文，本文是流行病学领域的好入门读物，值得花时间读全文以了解实际数据挑战。

4. 2606.24678 — Landmarking with Latent Class Mixed Models for Dynamic Prediction of Time-to-event Data with Heterogeneous Biomarker Trajectories¶

作者: Víctor Velasco-Pardo, Nathan Constantine-Cooke, Charlie W. Lees, Catalina A. Vallejos
相关性 5/10 · novelty: application
摘要: 本文针对电子健康记录（EHR）中大规模异质性患者群体的动态风险预测问题，提出一种结合潜在类别混合模型（LCMM）的 landmarking 方法。传统 landmarking 假设纵向轨迹同质，而联合潜在类别模型虽能处理异质性但计算成本过高。作者将 LCMM 嵌入 landmarking 框架，先通过混合模型识别潜在亚组，再在 landmark 时间点基于亚组后验概率更新风险预测。方法通过 R 包 landmaRk 实现，支持模块化自定义。模拟显示，在存在潜在异质性时，预测性能优于标准 landmarking，且计算效率远高于联合模型。真实数据示例验证了可行性。对您而言，本文是流行病学中动态预测的实用方法，其潜在类别建模思路可与您的因果推断（如未观测混杂下的敏感性分析）或纵向数据方法产生连接。
关键技术: latent class mixed model, landmarking, dynamic risk prediction, joint modeling
为什么对您有用: 本文属于流行病学应用，连接您的 secondary interest 中的流行病学方向。方法上，潜在类别建模处理未观测异质性，与您 moderately_familiar 的因果推断 identification 理论有交集（如未观测混杂的代理变量思路）。作为应用论文，其 R 包 landmaRk 提供了可复用的分析管道，但核心方法学 novelty 有限（LCMM+landmarking 的组合并非全新），属于中期可读的入门级应用参考。

5. 2606.25670 — Dealing with partial missing correlations in multivariate and surrogate meta-analyses¶

作者: Riccardo De Santis, Annamaria Guolo
相关性 4/10 · novelty: application
摘要: 本文针对双变量和替代终点荟萃分析中部分相关系数缺失的问题，提出了一种基于多重插补的框架。传统完整病例分析会导致效率损失和偏倚，现有方法多依赖简化假设下的似然估计或确定性插补（如经验均值）。作者提出使用Beta回归模型进行随机插补，明确假设缺失机制为随机缺失（MAR）。通过广泛的模拟研究，在不同场景下将所提方法与简单均值插补和完整病例分析进行了比较，验证了其有效性。该方法为处理荟萃分析中常见的缺失数据问题提供了实用工具，尤其适用于流行病学研究中替代终点验证的场景。
关键技术: multiple imputation, Beta regression, missing at random (MAR), bivariate meta-analysis, surrogate meta-analysis
为什么对您有用: 本文属于流行病学领域的应用方法论文，直接关联您的secondary interest中的流行病学数据应用。虽然方法本身（多重插补+Beta回归）不在您的技术武器库核心，但处理缺失数据的思路和模拟评估框架对您未来处理实际数据（如因果推断中的缺失协变量）有参考价值。作为gateway reading，本文清晰阐述了问题设定和数据缺失结构，适合快速了解该领域标准做法，但无需深入精读。

其他 (other, 15 篇)¶

1. 2606.26270 — On the optimal prediction of extreme events¶

作者: Benjamin Bobbia, Stilian Stoev
相关性 7/10 · novelty: new_method
摘要: 本文研究在响应变量 Y 和协变量 X 联合服从多元正则变差分布时，如何最优预测 Y 的极端大值。目标是最小化渐近预测精度指标——尾部相依系数 λ(Y, h(X))，该系数可表示为 (Y, X) 的角测度的积分泛函。作者将寻找最优齐次预测函数 h(X) 的问题转化为一个变分问题，并给出了一般解：最优预测由角测度导出的倾斜分布的非极端条件分位数给出。基于此，在极值理论的 peaks-over-threshold 框架下，提出了一类估计最优预测函数的通用推断方法，并证明了该方法在一大类角测度下具有相合性。数值实验表明，该方法在最优 oracle 估计器以及极端太阳耀斑预测这一挑战性问题中表现良好。该工作将极值预测问题与变分法和倾斜分布联系起来，为高维协变量下的极端事件预测提供了理论框架。
关键技术: multivariate regular variation, tail dependence coefficient, angular measure, peaks-over-threshold, variational problem, tilted distribution
为什么对您有用: 本文属于极值统计理论，与您的主要兴趣（高维统计、非参数理论）有间接的方法论联系，但核心问题（极端事件预测）和工具（角测度、变分法）不在您的技术武器库中。作为 gateway reading，本文对极值问题的数学框架阐述清晰，但作为统计学家，您可能更关注其变分问题解与倾斜分布分位数的联系，这或许能启发高维 U-统计量在极值设定下的应用。目前暂不可做，因为核心机器（多元正则变差、角测度推断）不在武器库中。

2. 2606.25947 — Finite-sample bounds for regularized optimal transport¶

作者: Alberto González-Sanz, Marcel Nutz, Austin J. Stromme
相关性 6/10 · novelty: sharper_rate
摘要: 本文研究正则化最优传输（regularized optimal transport）的有限样本复杂度，目标是在一般凸正则化（包括KL散度和L^p惩罚）下，给出经验代价函数的非渐近偏差与方差界。核心方法是通过对偶表示和浓度不等式，将正则化参数与边际分布的内在维度显式纳入界中。主要结果统一并改进了现有界：对熵正则化OT，改进了已有有限样本界；对L^p正则化（1<p<∞），首次给出完全定量的结果。特别地，对于二次运输成本，L^2正则化OT估计未正则化OT代价的收敛率为n^{-2/(d+4)}，这是目前基于正则化OT的估计器中最快的非渐近率。本文对您可能有用：虽然不直接属于您的主要兴趣方向，但其非渐近浓度界和维度依赖分析技术可迁移至高维统计中的估计问题，且正则化OT在因果推断的平衡权重方法中有潜在应用。
关键技术: regularized optimal transport, finite-sample bounds, concentration inequalities, entropic regularization, L^p regularization, non-asymptotic rates
为什么对您有用: 本文属于统计计算与高维统计的交叉领域，与您的primary interest中'high-dimensional statistics'和'statistical computing'有间接关联。其非渐近界和维度依赖分析技术可迁移到您'very_familiar'的'minimax bounds for estimation problems'和'high-dimensional asymptotics'中，用于改进正则化方法的收敛率分析。但核心问题（OT的样本复杂度）与您的武器库（因果推断、U统计量、半参理论）距离较远，属于'暂不可做'——缺少OT对偶理论和正则化OT算法实现的具体工具。建议作为方法学参考阅读，不深入跟进。

3. 2606.25492 — Closed-form solutions to some generalized variational inference problems¶

作者: Hien Duy Nguyen, Jacob Westerhout
相关性 6/10 · novelty: new_theory
摘要: 本文研究广义变分推断中无约束测度级优化问题的闭式解。给定可测空间、先验概率测度、损失函数、正则化强度和散度，目标是最小化期望损失与正则化项之和。对于f-散度惩罚，推导出标量逆梯度密度公式和一维对偶恒等式，并以KL、Cressie-Read和平方Hellinger散度为例。对于反向f-散度和混合前向/反向KL惩罚，利用可分离积分原理得到类似结果。对于Bregman散度，得到密度空间解和标量质量乘子，包括最小二乘、密度幂和Burg/Itakura-Saito散度。对于Rényi散度（阶数r>1），推导出归一化截断幂特征和全局最优解的阈值方程。最后通过有限模型权重公式和共轭贝叶斯模型示例展示闭式解的实现及其与传统解的区别。
关键技术: Donsker-Varadhan formula, f-divergence, Bregman divergence, Rényi divergence, variational inference, closed-form solution
为什么对您有用: 本文属于统计计算中的变分推断理论，与您的统计计算兴趣相关，但更偏向纯理论推导而非算法实现。您的武器库中非参数统计和M估计理论可用于理解其散度框架，但缺乏变分推断的实践工具（如黑箱变分推断），因此暂不可做。作为gateway阅读，本文提供了变分推断的数学基础，但若您想进入该领域，建议先阅读更应用的变分推断综述。

4. 2606.25346 — Quantitative Wasserstein Propagation of Chaos for Transport Ensemble Filters¶

作者: Frederic J. N. Jorgensen, Ricardo Baptista, Franca Hoffmann, Youssef Marzouk
相关性 6/10 · novelty: new_theory
摘要: 本文针对传输系综滤波器（TEF）这一广泛类别的交互粒子系统，建立了传播混沌的定量理论。TEF 用于在隐马尔可夫模型中给定观测历史后近似状态分布序列，包括经典的系综卡尔曼滤波（EnKF，基于仿射更新）和系综随机映射滤波（EnSMF，允许非线性更新）。核心贡献是识别了 TEF 的极限平均场动力学，并证明了交互粒子系统以蒙特卡洛速率（即 n^{-1/2}）在 Wasserstein 距离下非渐近、高概率地收敛到该平均场极限的 i.i.d. 系综。证明技术结合了同步耦合构造、条件分布下的矩与尾部稳定性，以及动力学通过交互粒子系统传播的定量估计。这是首个针对 TEF 的非渐近、高概率收敛保证，填补了 EnKF 和 EnSMF 理论分析的重要空白。对您而言，本文属于统计计算与算法分析的交叉领域，但其核心工具（耦合、Wasserstein 收敛、平均场极限）与您武器库中的非参数统计和逆问题理论有间接关联，可作为了解粒子滤波理论前沿的入门读物。
关键技术: propagation of chaos, synchronous coupling, Wasserstein distance, mean-field limit, ensemble Kalman filter, non-asymptotic convergence
为什么对您有用: 本文属于统计计算与算法分析，但并非您 primary interests 的核心方向（因果推断、高维、U-统计等）。作为 gateway reading，它清晰阐述了交互粒子系统的平均场极限和收敛率，对理解系综滤波器的理论基础有参考价值。您的武器库中非参数统计和逆问题理论可帮助理解其耦合构造，但核心机器（平均场理论、Wasserstein 传播混沌）不在您当前 arsenal 中，属于暂不可做方向。

5. 2606.24987 — Sample complexity of unbalanced entropic OT¶

作者: Francisco Andrade, Gabriel Peyré, Clarice Poon
相关性 6/10 · novelty: new_method
摘要: 本文研究非平衡熵正则化最优传输（unbalanced entropic OT）的样本复杂度，目标是最优耦合（optimal coupling）而非仅标量传输值。在非平衡设定下，通过平移不变对偶形式、紧性和强凸性分析，推导出经验耦合的高概率有限样本界。结果表明熵正则化能缓解维度灾难，降低稳定传输估计所需的样本量，并保持与Sinkhorn类可扩展算法的兼容性。核心技术工具包括对偶变量紧性、强凸性几何估计以及高概率浓度不等式。对您而言，本文的样本复杂度分析框架与高维统计和minimax界的技术兴趣有直接关联，但整体属于计算最优传输领域，与您的主要兴趣方向（因果推断、U统计量等）交叉有限。
关键技术: entropic regularization, unbalanced optimal transport, dual formulation, strong convexity, finite-sample bounds, Sinkhorn algorithm
为什么对您有用: 本文属于计算最优传输（OT）领域，与您的主要兴趣方向（因果推断、高维统计、U统计量）交叉较少。虽然样本复杂度分析涉及高维统计中的minimax界技术，但核心问题（非平衡OT耦合估计）并非您武器库中可直接攻克的子方向。作为gateway阅读，本文对OT领域外研究者入门价值一般，因为需要熟悉OT对偶理论和Sinkhorn算法。暂不可做——缺少计算OT领域的核心工具（如Sinkhorn收敛分析、对偶变量紧性论证）。

6. 2606.25074 — Spatio-Temporal Disaggregation with Changing Areal Boundaries¶

作者: Noah Ripstein, Patrick Brown, Jamie Stafford
相关性 5/10 · novelty: application
摘要: 本文针对小区域估计与疾病制图中报告边界随时间变化的问题，提出了一种时空分解方法。该方法扩展了空间聚合的log-Gaussian Cox过程，利用扩展潜高斯模型框架实现快速近似后验推断。核心创新在于用伽马分布替代传统的对数正态多边形特定效应，从而得到边缘负二项似然，并移除了每个多边形-时间对的一个潜变量，显著降低了计算复杂度。作者通过比利时和荷兰NUTS-3边界变化的死亡率数据展示了方法效果，并利用Codex工具将方法应用于曼彻斯特市的数据集。方法已实现为开源R包DAST。本文主要贡献在于计算效率的提升和实际应用的便利性，而非新的统计理论。
关键技术: Extended Latent Gaussian Model, log-Gaussian Cox process, negative binomial likelihood, approximate posterior inference, R package DAST
为什么对您有用: 本文属于空间统计与疾病制图的应用方向，与您的主要兴趣（因果推断、高维统计等）和方法论武器库（非参、U统计量）的直接关联较弱。作为流行病学领域的应用工作，它展示了处理边界变化数据的实用计算策略，但方法学新颖性有限。暂不可做：核心工具（空间点过程、潜高斯模型）不在您的武器库中，且与您当前研究路线距离较远。

7. 2606.24001 — Bayesian Mixture Models for Histograms: with Applications to Large Datasets¶

作者: Richard L. Warr, Fernando A. Quintana, Alessandra Guglielmi, Mario Beraha
相关性 5/10 · novelty: new_method
摘要: 本文提出一种贝叶斯混合模型方法，用于从直方图或频数表形式的聚合数据中推断总体分布。模型假设观测到的直方图是潜在连续分布的离散化版本，通过混合正态分布（可扩展至其他分布族）拟合binned数据。先验分布置于混合成分数量上，支持有限和可数无限混合，并使用可逆跳MCMC进行后验推断。该方法在大规模数据上表现良好，展示了非参数贝叶斯建模的实用性。进一步，利用Dirichlet过程扩展至同时建模多个直方图并进行聚类，实现跨总体信息共享，并提供组间同质性的后验概率。文中还讨论了部分理论性质。
关键技术: Bayesian mixture models, reversible jump MCMC, Dirichlet process, histogram data, nonparametric Bayes
为什么对您有用: 本文属于统计计算与贝叶斯方法，与您的主要兴趣（统计计算、非参数理论）有弱连接，但核心设定（聚合数据推断）与您的因果推断或高维统计方向无直接交集。武器库中'非参数统计'和'M估计理论'可部分用于理解其理论性质，但方法本身（可逆跳MCMC、Dirichlet过程）不在您的very_familiar或moderately_familiar列表中，需先熟悉贝叶斯非参数工具才能深入。作为gateway阅读，本文对聚合数据建模有清晰阐述，但作为统计学家，您可能更关注其理论保证而非方法本身。暂不可做——核心机器（贝叶斯非参数、MCMC）不在武器库中。

8. 2606.26073 — Bayesian Nonparametric Privacy-Preserving Synthetic Data Generation: I. Discrete Data¶

作者: Maria Chiara Menicucci, Mario Beraha, Stefano Favaro, Riccardo Lazzarini
相关性 5/10 · novelty: new_method
摘要: 本文在贝叶斯非参数框架下研究隐私保护合成离散数据的生成问题。将机密数据建模为来自未知离散分布的随机样本，并赋予Pitman-Yor过程先验，合成数据则从后验预测分布中生成。由于Pitman-Yor过程几乎必然生成离散随机概率测度，该机制天然适用于存在重复值且类别数未知或增长的数据场景。文章针对折扣参数σ∈(-∞,1)的三个区间分别研究了该机制的差分隐私保证：σ∈(0,1)时得到实例级(ε,δ)-差分隐私；σ=0（Dirichlet过程）和σ<0（参数Dirichlet-Multinomial模型）时在适当条件下获得更强的保证。统计效用方面，通过合成数据经验分布与真实数据生成分布之间的期望1-Wasserstein距离来衡量，对σ<0和σ=0证明了该距离的一致性并给出了显式收敛速率，精确刻画了隐私-效用的权衡关系。本文属于方法学贡献，但核心工具（贝叶斯非参数、差分隐私）与您的主要兴趣方向（因果推断、高维统计、U-统计量）交集有限。
关键技术: Pitman-Yor process, posterior-predictive distribution, differential privacy, Wasserstein distance, privacy-utility tradeoff
为什么对您有用: 本文属于隐私保护合成数据的方法学工作，与您的主要兴趣方向（因果推断、高维统计、U-统计量）无直接交集。虽然差分隐私与统计计算中的信息-计算权衡有概念关联，但本文不涉及计算复杂度或算法下界，且贝叶斯非参数框架不在您的技术武器库中。作为gateway reading价值有限，暂不可做。

9. 2606.25771 — Pointwise Hurst Estimation via Scale Accumulation: A Noise-Robust Approach for Rough Volatility¶

作者: Jokubas Petkevicius
相关性 5/10 · novelty: new_method
摘要: 本文提出一种基于尺度累积积分（scale accumulation integral）的点态Hurst指数估计方法，用于时变粗糙波动率建模。核心构造为几何累积积分 G_Λ(t) = ∫_Λ^1 |(X(t+s)-X(t))/s| s^{-1} ds，通过对数尺度上的积分实现噪声-信号分离。理论贡献包括：一致性证明、显式噪声阈值 Λ* = σ^{1/H} 的推导，以及收敛速率为 (log Λ)^{-1/2} 的中心极限定理。与现有全局Hurst估计（如已实现方差）不同，该方法直接从价格路径给出时变H(t)，无需分段平稳假设。方法本质上是非参数且点态的，适用于高频金融数据中的局部粗糙度分析。对您而言，该估计器的构造思路（尺度积分、阈值分离）与您在高维统计和逆问题中的噪声处理经验有潜在联系，但方法学核心（粗糙波动率、Hölder指数）与您的主要兴趣方向距离较远。
关键技术: scale accumulation integral, pointwise Hölder exponent estimation, microstructure noise separation, central limit theorem for log-scale estimator
为什么对您有用: 本文属于金融计量/粗糙波动率领域，与您的主要兴趣（因果推断、高维统计、U统计量）无直接交集。方法学上，尺度累积积分与噪声阈值分离的思路可视为一种特殊的逆问题处理，但核心工具（Hölder指数、对数尺度CLT）不在您的技术武器库中。作为gateway reading，本文对非金融背景的统计学者可读性一般，需一定随机过程基础。暂不可做——缺少粗糙路径理论和金融微观结构噪声建模的必备工具。

10. 2606.24771 — Autoregressive Processes on Riemannian Manifolds¶

作者: Meshal Abuqrais, Davide Pigoli
相关性 5/10 · novelty: new_method
摘要: 本文提出黎曼自回归（R-AR）模型，将经典一阶自回归过程推广到流形值数据。模型包含两个参数：μ 表示内在中心趋势（Fréchet 均值），φ 控制平稳性与遍历性。由于依赖结构，参数估计需要流形上相依过程的新渐近结果。作者建立了适当度量空间中遍历马尔可夫链样本 Fréchet 均值集的强大数律，为估计量的强相合性提供了理论基础。数值模拟在双曲平面上验证了方法，并应用于 Fisher-Rao 流形上的气溶胶粒径分布数据。该工作对您的主要兴趣（非参数统计、高维渐近）关联较弱，但可作为统计计算中流形优化方法的入门阅读。
关键技术: Riemannian autoregressive model, Fréchet mean, strong law of large numbers for Markov chains, ergodic Markov chains on metric spaces
为什么对您有用: 本文属于非欧几里得数据的时间序列建模，与您的主要兴趣（因果推断、高维统计）直接关联较弱。但作为 gateway reading，它清晰阐述了流形上相依过程的渐近理论，武器库中'非参数统计'和'高维渐近'可帮助理解其技术核心。暂不可做：核心机器（黎曼几何、流形优化）不在武器库中，需先熟悉相关工具。

11. 2606.25292 — Time-Varying Model Averaging of Multi-layer Network Vector Autoregressions¶

作者: Degui Li, Yuying Sun, Boyao Wu
相关性 5/10 · novelty: new_method
摘要: 本文提出一个时变多层网络向量自回归（VAR）模型框架，用于大规模时间序列分析。模型允许多个代理通过多个渠道交互，并纳入多个邻接矩阵以捕捉网络溢出效应。作者提出一种惩罚模型平均方法，用于确定时变最优的多层网络VAR候选模型组合，候选模型数量可发散。在正则性条件下，推导了时变权重估计的渐近最优性和收敛率，涵盖样本内拟合和样本外预测。此外，将保形预测方法扩展到局部平稳时间序列的预测区间构建。蒙特卡洛模拟和CPI通胀预测的实证应用展示了方法的有限样本性能。该工作主要属于时间序列计量经济学和网络分析领域，与您的主要兴趣（因果推断、高维统计、U统计量等）直接交集有限。
关键技术: time-varying model averaging, multi-layer network VAR, penalized estimation, conformal prediction, locally stationary time series
为什么对您有用: 本文属于时间序列网络计量经济学，与您的主要兴趣（因果推断、高维统计、U统计量）直接交集有限。武器库中的非参数统计或高维渐近理论可能有助于理解其收敛率推导，但核心问题（时变模型平均与网络VAR）并非您当前关注的方向。暂不可做：核心机器（时变网络VAR、模型平均的渐近理论）不在武器库中，且缺乏与您工作的直接连接点。

12. 2606.25716 — Imprecise Transition Matrices for Markov Cohort Models: Lower and Upper Expectations with a Practical Health Economic Application¶

作者: Rowan Iskandar
相关性 4/10 · novelty: application
摘要: 本文针对健康经济学中常用的马尔可夫队列模型，提出了一种不精确概率扩展方法。传统模型依赖单一精确转移概率矩阵，但实际证据（如转移计数、结构约束、治疗效果数据）往往只确定一个可接受的矩阵集合而非唯一矩阵。本文在有限时域队列轨迹和加性累积结果设定下，利用Bellman式上下转移算子精确计算下期望和上期望。主要理论贡献包括：证明包络定理、退化为经典模型的条件、下转移算子的相干性，以及单一矩阵导致非稳健决策的代数条件。通过多项转移计数和Imprecise Dirichlet模型构造可接受矩阵集。一个关于卵圆孔未闭封堵术的真实成本-效果案例表明：经验矩阵略支持封堵，但不精确分析得到的增量净货币收益区间跨越零，决策不稳健。本文方法为证据不完全确定转移概率时的决策提供了严格的下期望框架和实用诊断工具。
关键技术: Imprecise Dirichlet Model, Bellman-style transition operators, lower and upper expectations, Markov cohort model, envelope theorem
为什么对您有用: 本文属于应用统计/健康经济决策领域，与您的主要兴趣（因果推断、高维统计、U统计量等）无直接技术重叠。但作为流行病学/经济理论方向的gateway reading，本文清晰展示了如何将不精确概率框架应用于实际决策问题，数据侧（转移计数、结构约束）和模型侧（下期望算子、相干性）的阐述对统计学家友好。您的武器库中'非参数统计'和'估计理论'可帮助理解其下期望的构造，但核心的不精确概率机制不在您的技术栈中，属于'暂不可做'方向。若您想进入健康经济决策领域，本文是好的入门读物，值得花时间读全文。

13. 2606.25062 — Hierarchical Partial-Order Models for Ranking¶

作者: Dongqing Li, Geoff K. Nicholls, Jeong Eun Lee, Chuxuan, Jiang
相关性 4/10 · novelty: new_method
摘要: 本文提出层次偏序模型（HPO），用于处理分组排名数据的聚合问题。传统Mallows和Plackett-Luce模型假设排名围绕完全序集中，而近期工作允许共识结构为偏序，但未考虑组间结构。HPO模型通过引入潜在偏序的层次结构，将偏序模型扩展到分组数据，允许信息在组间共享。Plackett-Luce及其层次变体是HPO的特例。进一步提出层次聚类偏序模型（HCPO），用于组标签未知的无监督聚类。贝叶斯推断通过MCMC实现。在声学偏好数据和LLM智能体轨迹等数据集上，HPO和HCPO在预测性能和结构可解释性上优于现有方法。
关键技术: partial order (poset) models, hierarchical Bayesian models, Markov chain Monte Carlo (MCMC), Plackett-Luce model, hierarchical clustering
为什么对您有用: 本文属于统计建模与计算方向，与您的主要兴趣（统计计算、非参数/半参数理论）有间接关联。HPO模型中的层次结构推断涉及MCMC和潜在变量模型，但核心方法（偏序建模）与您的技术武器库（非参数统计、M估计）交集有限。作为gateway阅读，本文对排名数据的层次建模有清晰阐述，但方法学新颖性一般，属于现有框架的扩展。暂不可做：核心机器（偏序推断、MCMC）不在您的武器库中，且与您的高阶U统计量或因果推断方向无直接连接。

14. 2606.24554 — Partial Wavelet Canonical Coherence for Nonstationary Signals with High Dimensional Confounders¶

作者: Haibo Wu, Marina I. Knight, Hernando Ombao
相关性 4/10 · novelty: new_method
摘要: 本文提出部分小波典型相干（Partial Wavelet Canonical Coherence），用于在调整高维混杂因素后，度量两个多元非平稳时间序列之间的直接典型关联。这是首个在频域中建立时间序列部分典型相关分析的方法。通过小波方法，该方法能够提供尺度特异、时变的相关性度量，适用于潜在的非平稳数据。在多元局部平稳小波框架下定义目标量，利用局部小波谱矩阵进行原理性估计，并引入主成分降维以实现高维下的稳定调整。模拟表明，该方法能有效去除由混杂引起的虚假边缘关联，准确恢复直接关联，包括在高维设定中。对美国交易所交易基金的分析揭示了调整外部市场效应后，存在显著的时变和尺度依赖的直接典型关联。
关键技术: wavelet canonical coherence, partial canonical correlation analysis, locally stationary wavelet process, principal component reduction, multivariate time series
为什么对您有用: 本文属于时间序列分析的方法学工作，与您的主要兴趣（因果推断、高维统计）无直接交集，但其中处理高维混杂的思路（主成分降维）对因果推断中的高维混杂调整有一定启发。作为统计方法学论文，其小波框架和频域分析对非平稳信号处理有参考价值，但核心机器（小波谱分析）不在您的武器库中，属于暂不可做的方向。

15. 2606.24519 — Ferguson's Dirichlet Process Breakthrough: A Lasting Legacy¶

作者: Antonio Lijoi, Igor Pruenster, Junyi Zhang
相关性 4/10 · novelty: survey
摘要: 本文回顾了 Ferguson 在 1973 年提出的 Dirichlet 过程（DP）在贝叶斯非参数统计中的开创性贡献。DP 首次在概率测度空间上实现了大支撑与解析可处理性两个关键性质。文章梳理了三种互补的构造方式：通过有限维分布、通过 Gamma 过程归一化、以及通过预测分布。每种构造不仅加深了对 DP 的理解，还为后续推广（如归一化随机测度、Gibbs 型先验）提供了模板。DP 已成为贝叶斯非参数方法论的基石，并推动了非参数先验领域的扩展。本文是一篇综述性文章，侧重于历史回顾与概念梳理，而非提出新的理论或方法。
关键技术: Dirichlet process, Bayesian nonparametrics, normalized random measures, Gibbs-type priors, predictive distributions
为什么对您有用: 本文是贝叶斯非参数领域的经典综述，与您的主要兴趣（非参数与半参数理论）有概念重叠，但属于历史回顾而非方法论创新。您的武器库中非参数统计和 minimax 界等工具无法直接用于攻这篇综述的具体问题，因为它不涉及估计或推断的收敛性质。作为 gateway reading，本文适合快速了解 DP 的构造与推广脉络，但无需深入精读。

🗂 其他论文（仅 LLM 评分，未生成摘要）¶

未生成中文摘要的论文，按 LLM 评分由高到低排列，仅保留评分与简评，便于回溯查全。一般为相关性低于展示阈值者；个别历史页也含当时因单日摘要上限未展开的高分篇目（评分仍清楚标着）。

1. 2606.26774 — End-to-end probabilistic hierarchical forecasting of large hierarchies via probabilistic top-down¶

作者: Lorenzo Zambon, Dario Azzimonti, Giorgio Corani
相关性 3/10
评分理由: Applied forecasting in retail/supply chain, unrelated to primary interests in causal inference, high-dim stats, or U-statistics.

2. 2606.26324 — A unified approach to outlier identification for mixed-type data¶

作者: Efthymios Costa, Christian Hennig
相关性 3/10
评分理由: Outlier detection for mixed data is unrelated to the researcher's primary or secondary interests.

3. 2606.24300 — Prediction of spatio-temporal data on meshed surfaces using advection-diffusion SPDEs¶

作者: Mike Pereira, Lucia Clarotto, Nicolas Desassis
机构: Centre de Géosciences · Département mathématiques, informatique, sciences de la donnée et technologies du numérique · Mathématiques et Informatique Appliquées
相关性 3/10
评分理由: SPDE modeling on manifolds is far from primary interests; no clear connection to causal inference, high-dim stats, or arsenal.

4. 2606.24116 — Confounding analysis of s-level designs with multi-block variables¶

作者: Wenbo Hu, Zhiming Li
相关性 3/10
评分理由: Design of experiments with blocking is tangential; no connection to primary interests like causal inference or high-dim stats.

5. 2606.23972 — Inference and local influence diagnostics for unit-Lindley additive partially linear models¶

作者: Hatice T. K. Akdur, Danilo V. Silva, Gilberto A. Paula
相关性 3/10
评分理由: Unit-Lindley regression is a specialized modeling framework unrelated to the researcher's primary interests in causal inference, high-dimensional statistics, or semiparametric theory.

6. 2606.23326 — Online forecast reconciliation using linear models¶

作者: Tobias Rønlev-Knudsen, Henrik Madsen, Jan Kloppenborg Møller
相关性 3/10
评分理由: Online forecast reconciliation is a forecasting methodology unrelated to the researcher's primary interests in causal inference, high-dimensional statistics, or semiparametric theory.

7. 2606.25790 — Group invariance of \(f\)-divergences and the Fisher--Rao distance¶

作者: Frank Nielsen, Kazuki Okamura
相关性 3/10
评分理由: Group invariance of f-divergences and Fisher-Rao distance is a niche theoretical topic with weak overlap with the researcher's primary interests.

8. 2606.27565 — Searching for Extraterrestrial Intelligence with the SKA¶

作者: Chenoa D. Tremblay, Alex Andersson, Joe Bright, Bárbara Cabrales, David DeBoer, Vishal Gajjar et al.
相关性 3/10
评分理由: SETI综述，提及统计方法但无具体方法论贡献，作为天文统计入门阅读不够清晰。

9. 2606.27143 — Frequency Phase Transfer for Future Millimetre Arrays with Arbitrary Frequency Ratios¶

作者: Senkhosi Simelane, Athol Kemball, Roger Deane
相关性 3/10
评分理由: Astrostatistics paper on calibration technique; lacks accessible data/model exposition for a statistician outsider.

10. 2606.26268 — A nonrelativistic radiative transfer module for Idefix¶

作者: Nicolas Scepi, Geoffroy Lesur
相关性 3/10
评分理由: 辐射磁流体力学模拟代码模块，涉及计算但无统计推断或因果方法，与兴趣弱相关。

11. 2606.27046 — Conditional Leibniz Derivative Estimation with an Application to American Call Min-Options¶

作者: Xingyu Ren, Michael C. Fu, Pierre L'Ecuyer
相关性 2/10
评分理由: Focuses on Monte Carlo derivative estimation for finance, unrelated to primary or secondary interests.

12. 2606.26309 — Variance Deltas for Visualizing and Explaining Posterior Uncertainty¶

作者: Collin Cademartori
相关性 2/10
评分理由: Bayesian visualization tool is far from the researcher's focus on causal inference, high-dim stats, or U-statistics.

13. 2606.26307 — Explainable Outlier Detection for Interval-valued Data¶

作者: Catarina P. Loureiro, M. Rosário Oliveira, Paula Brito, Lina Oliveira
相关性 2/10
评分理由: Outlier detection for interval data is unrelated to the researcher's interests.

14. 2606.24244 — When Surveys Become Conversations: Adaptive Matrix Validation for AI-Assisted Interviews¶

作者: Tyler H. McCormick
相关性 2/10
评分理由: AI-assisted survey methodology is unrelated to primary statistical interests; no methodological overlap.

15. 2606.24076 — A Non-Stationary Spatio-Temporal Covariance Model with Dynamic Advection Effects for Rainfall Data¶

作者: Pedro Nasevicius Ramos, Guilherme Ludwig
相关性 2/10
评分理由: Spatio-temporal covariance modeling for rainfall is unrelated to primary interests; no clear statistical methodology transfer.

16. 2606.22951 — The kurtosis of normal variance-mean mixtures¶

作者: Farrukh Javed
相关性 2/10
评分理由: Kurtosis in normal variance-mean mixtures is a distributional property study with no connection to the researcher's primary interests.

作者: Mohamadou Salifou
机构: Laboratoire Interdisciplinaire Solidarités Sociétés Territoires
相关性 2/10
评分理由: Applied transportation study with simple mixture models and logistic regression, unrelated to primary interests.

18. 2606.27590 — Laboratory characterization of a multi-photonic lantern optical waveguide using off-axis holography¶

作者: Aditya R. Sengupta, Benjamin L. Gerard, Dominic Sanchez, Matthew DeMartino, Rebecca Jensen-Clem, Kevin Bundy et al.
相关性 2/10
评分理由: 纯天文仪器表征，无统计方法或数据建模内容，与兴趣无关。

19. 2606.27585 — Experimentally-determined performance limits for joint imaging and wavefront sensing with a photonic lantern¶

作者: Aditya R. Sengupta, Vincent Chambouleyron, Rebecca Jensen-Clem, Emiel Por, Benjamin L. Gerard, Jordan Diaz et al.
相关性 2/10
评分理由: 天文仪器性能实验，无统计方法或数据建模内容，与兴趣无关。

20. 2606.27414 — The Karl G. Jansky Very Large Array Sky Survey (VLASS). Data Products¶

作者: Amy Kimball, Mark Lacy, Juergen Ott, John Tobin, Tierra Candelaria, Sergio Garza et al.
相关性 2/10
评分理由: 射电巡天数据产品描述，无统计方法或数据建模内容，与兴趣无关。

21. 2606.27262 — The SPOTLIGHT Multibeam Real-Time Transient Detection System¶

作者: Ujjwal Panda, Jayanta Roy, Kshitij Bane, Chahat Dudeja, Sridhar Gajendran, Param Joshi et al.
相关性 2/10
评分理由: 实时瞬变探测系统硬件描述，无统计方法或数据建模内容，与兴趣无关。

22. 2606.27060 — The Line Emission Terahertz Observatory (LETO): Exploring the lifecycle of the ISM and the origins of water¶

作者: Dimitra Rigopoulou, Peter Roelfsema, William Grainger, Chris Pearson, Boon-Kok Tan, Wouter Laauwen et al.
相关性 2/10
评分理由: Pure astrophysics mission description with no data/model exposition relevant to statistics.

23. 2606.26940 — VLBI with SKAMPI, the SKA-Mid MPIfR dish demonstrator¶

作者: Jompoj Wongphechauxsorn, Niclas Alexander Esser, Tobias Winchen, Jan Wagner, Uwe Bach, Hans-Rainer Klöckner et al.
相关性 2/10
评分理由: VLBI engineering results; no statistical content or data/model exposition.

24. 2606.26895 — Cascade adaptive optics with a second stage based on a Zernike wavefront sensor for exoplanet observations II. Validation in broadband light on the ESO/GHOST testbed¶

作者: A. Rahim, M. N'Diaye, A. Vigan, M. Kasper, J. Nousiainen, B. Engler et al.
相关性 2/10
评分理由: Adaptive optics hardware validation; unrelated to statistics.

25. 2606.26821 — Characterizing robotic positioners under the influence of changing gravity vectors for future spectroscopic surveys¶

作者: Johannes Wüthrich, Guandi Zhao, Banan Yamani, Léonard Lebrun, Sean MacBride, Andrin Fazan et al.
相关性 2/10
评分理由: Robotic positioner mechanical testing; no statistical methodology.

26. 2606.26635 — Single object observations: Large telescopes vs. multiple small telescopes¶

作者: Sagi Ben-Ami, Eran Oded Ofek
相关性 2/10
评分理由: 纯天文仪器架构比较，无统计方法或数据建模内容，与研究者兴趣无关。

27. 2606.26409 — In situ cryogenic characterization of proton damage in thick p-channel skipper CCDs¶

作者: Brandon M. Roach, Brenda Cervantes Vergara, Alex Drlica-Wagner, Phoenix Alpine, Ana Martina Botti, Claudio Chavez et al.
相关性 2/10
评分理由: 探测器辐射损伤表征，纯实验物理，无统计方法或数据分析内容。

28. 2606.26214 — Nautilus Space Observatory: The Evolution of Planets and their Atmospheres¶

作者: Ilaria Pascucci, Noah Tuchow, Yifan Zhou, Daniel Apai, Chaucer Langbert, Ana Glidden et al.
相关性 2/10
评分理由: 系外行星大气观测科学目标白皮书，无统计方法或数据建模细节，不相关。

29. 2606.26072 — Observations of the Cosmic Dawn and Epoch of Reionization with the SKAO: Observational Lessons Learned from Precursors and Pathfinder Instruments¶

作者: Eloy de Lera Acedo, James Aguirre, Dominic Anstey, Nichole Barry, Gianni Bernardi, Somnath Bharadwaj et al.
相关性 2/10
评分理由: Pure observational astronomy summary; no statistical methodology or data analysis framework relevant to researcher's interests.

30. 2606.26209 — Fast Simultaneous Surveys with On-the-Fly Mapping¶

作者: Suman Chatterjee, Sarvesh Mangla, Sourabh Paul, Keith Grainge, Matthias Hoeft, Tamera Kassie et al.
相关性 2/10
评分理由: Radio astronomy survey description; lacks statistical methodology or data analysis detail relevant to researcher's interests.

31. 2606.25817 — On-Sky Single-photon Time resolution of 35 ps with White Rabbit synchronization: towards the measurement of the size of a White Dwarf star¶

作者: F. Izraelevitch-Patitucci, S. Tolilla, I. Ellafi, J. -P. Rivet, M. Hugbart, G. Labeyrie et al.
相关性 2/10
评分理由: Instrumentation paper on intensity interferometry; no statistical or causal inference content.

32. 2606.24413 — The Space Debris Tracking and Surveillance program of the IAC80 telescope¶

作者: Olga Zamora
相关性 2/10
评分理由: Purely an astronomy/engineering operations paper with no statistical methodology or data/model exposition relevant to researcher's interests.

33. 2606.24030 — On-orbit Calibration of the Carruthers GCI: Photon Background Removal¶

作者: Alex Zhang, Heather Filippini, Jackson Craig, Lara Waldrop, John Clarke, Farzad Kamalabadi et al.
相关性 2/10
评分理由: Instrument calibration paper; mentions background removal but no statistical methodology or data exposition of interest.

34. 2606.23854 — Astrobiology in the Time of Artificial Intelligence¶

作者: Caleb Scharf
相关性 2/10
评分理由: 纯天文/天体生物学综述，无统计方法或数据模型细节，不符合二级兴趣的入门阅读标准。

35. 2606.26996 — How to access astronomical observation facilities ?¶

作者: Michaël De Becker
相关性 1/10
评分理由: Guide to telescope proposals; unrelated to any research interest.

36. 2606.26576 — Detectors for CLASS-W2: The second 90 GHz telescope of the Cosmology Large Angular Scale Surveyor¶

作者: John W. Appel, Kyuyoung Bae, Charles L. Bennett, Michael K. Brewer, Sarah Marie Bruno, Carol Yan Yan Chan et al.
相关性 1/10
评分理由: CMB探测器硬件描述，无统计或因果推断内容，完全不相关。

37. 2606.26365 — Extending the SKA Across Africa: The Case for a Continental African VLBI Network¶

作者: Emmanuel K. Bempong-Manful, Jompoj Wongphechauxsorn, Jack Radcliffe, Melvin Hoare, Olga Bayandina, Pfesesani V. van Zyl et al.
相关性 1/10
评分理由: 射电望远镜阵列建设规划，无统计或数据建模内容，不相关。

38. 2606.26282 — Low Thrust Electric Propulsion Mission Concepts For a 3-Meter Class Space Telescope¶

作者: Yael M. Brynjegard-Bialik, Mohamed Nassif, Drew Latta, Neel Kunjur, Nicholas Rahaim, Paul DeTrempe et al.
相关性 1/10
评分理由: 空间望远镜轨道与推进系统概念设计，无统计方法或数据分析内容。

39. 2606.25637 — A Wideband Millimeter-wave Receiver at 210-350 GHz for LMT-FINER¶

作者: Haoran Kang, Takafumi Kojima, Takeshi Sakai, Yoichi Tamura, Shun Ishii, Akio Taniguchi et al.
相关性 1/10
评分理由: Receiver hardware development; unrelated to researcher's interests.

40. 2606.24354 — White paper on the relevance of the European Solar Telescope (EST) for the French heliophysics¶

作者: E. Pariat, Q. Noraz, B. Perri, N. Poirier, C. Froment, L. Bigot et al.
相关性 1/10
评分理由: Instrumentation and science case white paper; no statistical content or data analysis exposition.

41. 2606.26296 — Indigenizing the Drake Equation: how Indigenous methods can help us understand life in the Milky Way Galaxy¶

作者: Hilding R. Neilson
相关性 0/10
评分理由: 天文学与本土知识哲学讨论，无任何统计或数据科学内容。

42. 2606.25664 — VLT Beyond 2030 and Call for White Papers¶

作者: Céline Péroux, Antoine Mérand, Martyna Chruślińska
相关性 0/10
评分理由: Conference report on future telescope plans; no statistical content.

43. 2606.25610 — The Galaxy's Guide to the Tokenizer: A Benchmark for Scientific Foundation Models¶

作者: Sogol Sanjaripour, Michael J. Smith, Manuel Pérez-Carrasco, Juan Rafael Martínez-Galarza, Bahram Mobasher, Gabriela Canalizo
相关性 0/10

44. 2606.25573 — argosim: a Python package for radio interferometric simulations¶

作者: Ezequiel Centofanti, Emma Ayçoberry, Samuel Farrens, Samuel Gullin, Manal Bensahli, Jean-Luc Starck et al.
相关性 0/10

45. 2606.25549 — Gravitational Light Deflection with SKA-VLBI and Its Application to Precision Tests of General Relativity¶

作者: Y. J. Li, J. J. Li, Z. H. Lin, D. J. Liu, Y. W. Dong, C. J. Hao et al.
相关性 0/10

作者: Lang Chen, Yunfei Xu, Zhen Zhang, Dongyue Li, Hui Sun, Yuan Liu et al.
相关性 0/10

47. 2606.25238 — Analysis of Laser-Satellite Deconfliction for Astronomical Observatories¶

作者: Christoph Baranec, Reed Riddle, Yuhei Takagi, Jim Lyke
相关性 0/10

48. 2606.25017 — Low-frequency VLBI with the SKA-Low¶

作者: R. Timmerman, E. L. Escott, T. Vernstrom, L. K. Morabito, C. Reynolds
相关性 0/10

49. 2606.24807 — The Impact of Host Galaxy Properties on Supernova Classification with Hierarchical Labels¶

作者: V. Ashley Villar, Sebastian Gomez, Edo Berger, Alex Gagliano
相关性 0/10

50. 2606.24992 — Synergies Between Pulsar Timing Array and Astrometry¶

作者: Gabriele Perna, Nicola Bellomo, Daniele Bertacca
相关性 0/10

51. 2606.24179 — Widefield Spectroscopic Telescope (WST): coating strategy to achieve high optical throughput¶

作者: Benoit Sassolas, Matthieu Coulon, Christophe Michel, Laurent Pinard, Roland Bacon, Corentin Cudennec et al.
相关性 0/10
评分理由: Optical engineering paper on mirror coatings; completely unrelated to researcher's interests.

52. 2606.24943 — Collaborating with Artists in the Search for Life¶

作者: Jack Madden, Cybele Collins, Mia Rollins, Ashika Capirala
相关性 0/10
评分理由: Art-science collaboration white paper; no statistical or methodological content.

Maintained by 陈星宇 · Homepage · Source on GitHub