2026-06-29 每日 arXiv 资讯¶

高相关论文 6 篇 · 中相关 45 篇 · 其他 44 篇 · 会议/Seminar 事件 0 条

⭐ 高相关论文（按主题分组）¶

因果推断 (causal_inference, 6 篇)¶

1. 2606.30918 — Cross-Fitted Survey-Weighted TMLE with Design-Based Variance for Causal Machine Learning¶

作者: M. Ehsan Karim
相关性 9/10 · novelty: new_method
摘要: 本文研究在分层多阶段抽样设计下，使用调查加权 TMLE 估计总体平均处理效应（ATE）时，交叉拟合（cross-fitting）的必要性。核心设定是：目标 estimand 为 ATE，在 survey-weighted 框架下，nuisance 函数通过灵活机器学习估计，方差通过影响函数的 Taylor 级数线性化获得，以初级抽样单元（PSU）为复制单元。方法的核心机制是：当灵活学习器跨越 Donsker 边界时，单次拟合的 survey TMLE 会严重欠覆盖（覆盖率降至 0.22），而仅在 cluster 层面进行 out-of-fold 交叉拟合才能恢复有效推断（覆盖率 0.93-0.95）；内部 cluster-aware 交叉验证不能替代交叉拟合。理论结果包括渐近正态性和线性化方差的设计一致性，但依赖于 nuisance 乘积率条件（假设并经验验证）。模拟覆盖了多 PSU 和 NHANES 类设计，并提供了四个 NHANES 实证分析和开源软件。对您而言，本文直接连接 causal inference 中的 survey-weighted 因果推断和 debiased ML 的交叉拟合技术，是您 primary interest 中“causal inference (estimation, sensitivity)”和“efficiency theory (debiased ML)”的交叉点。
关键技术: survey-weighted TMLE, cross-fitting at cluster level, Taylor-series linearization of influence function, design-based variance estimation, Donsker boundary, nuisance product-rate condition
为什么对您有用: 本文直接连接您的 primary interest 中的 survey-weighted causal inference 和 debiased ML 的交叉拟合技术。您可以用 very_familiar 的“estimation theory in causal inference”和“nonparametric statistics”来理解其理论框架，并用 moderately_familiar 的“semiparametric theory”和“identification theory in causal inference”来审视其 nuisance 乘积率条件的合理性。立即可做：您可以用 very_familiar 的“software development”技能复现其模拟，并尝试将 cluster-level cross-fitting 扩展到您熟悉的 longitudinal 或 mediation 设定中。

2. 2606.28741 — Inferring Comprehensive Cohort Causal Effects in the Presence of Unmeasured Confounding and Missing Outcomes¶

作者: Shiyao Xu, Razieh Nabi, Martin Underwood, Daniel Scharfstein
相关性 9/10 · novelty: new_method
摘要: 本文提出一个方法框架，用于估计混合设计临床研究（RCT + 平行观察性研究 OBS）中的综合队列因果效应（CCCE）。目标是在 OBS 臂存在未测量混杂、且 RCT 或 OBS 臂存在随机缺失结局时，仍能对 CCCE 进行稳健推断。作者基于半参数理论推导了 CCCE 的有效影响函数（EIF），并将其参数化为灵敏度参数。提出一步偏差校正估计量，允许灵活建模（如机器学习），并建立了该估计量 √n-一致的条件。方法应用于 TOIB 研究（口服 vs 外用布洛芬治疗慢性膝痛），并在模拟中评估了性能。对您而言，本文是半参数效率理论与因果推断中灵敏度分析的一个直接结合，且处理了缺失数据这一实际常见问题，与您的 primary interest 中的效率理论和因果推断高度相关。
关键技术: efficient influence function, one-step bias-corrected estimator, semiparametric sensitivity analysis, comprehensive cohort causal effect, missing at random
为什么对您有用: 直接连接到 primary interest 中的因果推断（identification, estimation, sensitivity analysis）和效率理论（semiparametric efficiency bounds）。您可以用 very_familiar 的 nonparametric statistics 和 estimation theory in causal inference 来理解其一步估计量的构造，并用 moderately_familiar 的 semiparametric theory 来审视其 EIF 推导的完整性。中期可做：若想将本文的灵敏度分析框架推广到更复杂的缺失机制（如非随机缺失），需先在 moderately_familiar 的 identification theory in causal inference 上进一步积累。

3. 2606.30976 — Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶

作者: Ashley I. Naimi, Qianhui Jin, Ya-Hui Yu, Sara M. Parisi, Lisa M. Bodnar
相关性 8/10 · novelty: application
摘要: 本文针对流行病学中高维混杂调整问题，提出使用残差对残差回归（residual-on-residual regression）作为AIPW和TMLE的稳定替代方法。该方法基于部分线性模型，先分别用机器学习拟合结局对混杂的模型和暴露对混杂的模型，得到两个残差，再对残差做普通最小二乘回归，估计暴露的常数效应。在nuMoM2b出生队列数据（n=7,923）中，该方法与AIPW、TMLE估计的蔬菜摄入密度与子痫前期关联一致，均显示适度风险降低。模拟中，当暴露效应近似常数时，残差对残差回归无偏、置信区间覆盖接近名义水平，表现与AIPW/TMLE相当，且远优于错误设定的参数模型。在存在弱阳性违反的设定下，若真实效应符合部分线性模型，该方法优于AIPW和TMLE。该方法计算简单、可解释性强，为观察性因果推断提供了一种三角验证策略。对您而言，该方法直接关联您因果推断兴趣中的估计稳定性问题，且其部分线性模型设定与您熟悉的非参数统计和M估计理论可对接，适合作为中期可做的follow-up方向。
关键技术: residual-on-residual regression, partially linear model, augmented inverse probability weighting, targeted maximum likelihood estimation, machine learning for confounding adjustment
为什么对您有用: 本文直接关联您primary interest中的因果推断估计稳定性问题，特别是弱阳性违反下的稳健估计。您very_familiar中的非参数统计和估计理论可直接用于分析该方法的渐近性质（如部分线性模型下残差回归的semiparametric efficiency bound），而moderately_familiar中的M估计理论可用于推导其influence function。中期可做：需先在moderately_familiar的semiparametric theory上长肌肉，以严格推导该方法在更一般设定下的效率界。

4. 2606.29076 — Learning heterogeneous treatment effects under principal stratification¶

作者: Jiaqi Tong, Fan Li
相关性 8/10 · novelty: new_method
摘要: 本文在 principal stratification 框架下研究条件主层因果效应（conditional principal causal effects）的识别与估计，目标是估计在 always-survivor 等子层内 treatment effect 的异质性，而非仅平均效应。识别策略采用 principal ignorability 假设结合 odds ratio 敏感性参数化，放松了单调性假设。估计方法上，提出一种新颖的双重交叉拟合双重稳健机器学习器（doubly cross-fit doubly robust machine learner），以解决 principal stratification 固有的嵌套 nuisance 结构。该方法利用 sequential orthogonal learning 与正则化最小二乘 sieve，推导了 L² 和一致极限理论，建立了 oracle 效率，并构造了一致置信带。模拟实验验证了有限样本性能，并在急性肺损伤随机试验中揭示了 always-survivor 子层内治疗效应的异质性模式。对您而言，本文直接连接 primary interest 中的 causal inference（principal stratification 与异质性效应），且其处理嵌套 nuisance 的 orthogonal learning 思路可迁移至您熟悉的 proximal CI 或 mediation 设定。
关键技术: principal stratification, doubly robust estimation, sequential orthogonal learning, regularized least-squares sieves, uniform confidence bands, oracle efficiency
为什么对您有用: 本文直接连接 primary interest 中的 causal inference 子方向——principal stratification 下的异质性效应估计，这是您当前关注但方法稀疏的领域。技术层面，其 sequential orthogonal learning 处理嵌套 nuisance 结构的思路，可尝试用您 very_familiar 的 higher-order U-statistics 的 treewidth 视角分析其 estimator 的计算成本（einsum 复杂度），或检验其声称的 oracle 效率是否紧。中期可做：需先在 moderately_familiar 的 HOIF 上长肌肉，以理解其正交化机制与您已有工具的衔接。

5. 2606.29009 — Generated outcomes as generated regressors: Equivalences in recursive causal estimation¶

作者: Wisse Rutgers, Rahul Singh
相关性 8/10 · novelty: new_theory
摘要: 本文研究时间变化处理效应、替代变量识别效应和中介效应等递归回归设定下标准因果估计量的行为。作者形式化比较了递归插件估计量、递归平衡权重估计量和递归双稳健估计量。当每一阶段使用普通最小二乘拟合时，三种递归估计量在任意有限样本下数值等价，无论模型是否正确设定。在岭惩罚下，双稳健估计量表现为阶段式混合惩罚回归与OLS回归的向后递归，其中递归OLS回归的权重随时期数几何衰减。对于一般凸惩罚，作者推导了每阶段的恒等式。该结果揭示了纵向因果推断中递归估计的深层结构，对您关注的纵向因果推断和双稳健估计方法有直接参考价值。
关键技术: recursive plug-in estimator, recursive balancing weight, recursive doubly robust estimator, ridge penalisation, convex penalties
为什么对您有用: 本文直接关联您primary interest中的纵向因果推断和双稳健估计。技术层面，您可以用very_familiar的估计理论（如M-estimation）分析其递归估计量的渐近性质，或用moderately_familiar的HOIF框架推导更高阶的偏差校正。中期可做：需先巩固semiparametric theory中影响函数在递归设定下的表达。

6. 2606.29691 — Causal Inference Using Factor Models¶

作者: Jushan Bai, Peng Wang
相关性 8/10 · novelty: new_method
摘要: 本文在面板数据政策干预的因果推断中引入因子模型框架。目标 estimand 是处理效应，建模为处理单元对潜在共同冲击的暴露系数的结构性变化（即因子载荷变化），或因子过程本身的变化。该方法不依赖标准平行趋势假设，可处理单个或多个处理单元，并在单元-时间异质性效应不可点识别时聚焦于系统性效应。估计采用主成分方法提取因子，并基于固定或处理依赖的因子过程进行推断。模拟显示覆盖概率接近名义水平。在加州烟草控制与德国统一两个经典应用中，估计结果与合成控制法基本一致，同时提供了正式的置信区间。对您而言，本文提供了一个不依赖平行趋势的因果推断新框架，与您 causal inference 方向中的 identification 和 estimation 兴趣直接相关，且其因子模型思路可迁移至您熟悉的 high-dimensional asymptotics 工具分析。
关键技术: factor model, principal component estimation, structural break in factor loadings, synthetic control comparison, panel data causal inference
为什么对您有用: 本文直接连接您 primary interest 中的 causal inference（identification 与 estimation），特别是面板数据政策评估场景。您 very_familiar 中的 high-dimensional asymptotics 和 estimation theory 可直接用于分析因子模型估计量的收敛性质（如因子载荷变化率的 minimax 界），而 moderately_familiar 中的 identification theory 可帮助评估其识别假设（如因子结构变化 vs. 平行趋势）的强弱。中期可做：若想将因子模型与您熟悉的 higher-order U-statistics 结合（如检验因子载荷变化是否显著），需先在 moderately_familiar 的 theory of higher-order U-statistics 上进一步熟悉。

📌 中相关论文（按主题分组）¶

因果推断 (causal_inference, 3 篇)¶

1. 2606.30615 — Tuning-Free Efficient Estimation for Multi-Source Data via Covariance-Aware Shrinkage¶

作者: Wenbo Jing, Xi Chen, Yaqi Duan, Kaizheng Wang, Yichen Zhang
相关性 7/10 · novelty: new_method
摘要: 本文针对多源数据（一个目标集 + 多个相关源集）下的统计学习效率提升问题，提出一种免调参的协方差感知收缩框架。目标是在利用源集信息提升目标集估计效率的同时，控制源集异质性带来的偏差。现有方法在多源设定下表现次优，或未充分利用协方差信息，或依赖繁琐的调参过程。作者利用协方差信息构造收缩方向，并给出有限样本风险界，该界显式刻画了收缩大小的风险改进区间，从而使得整个程序完全数据驱动、无需调参。当有多个源集时，进一步提出一种序贯算法，按估计的风险减少量依次向各源集收缩，在温和条件下渐近达到oracle风险，并保证优于单步收缩方法。该框架通过局部二次近似推广到一般光滑M-估计问题。数值实验表明，在源集高度异质时，该方法显著优于竞争方法。对您而言，该工作直接关联因果推断中利用多个外部数据集（如不同队列或实验）提升目标人群估计效率的问题，其协方差感知收缩思路可迁移至IV或proximal CI中的多源数据融合场景。
关键技术: covariance-aware shrinkage, finite-sample risk bound, sequential shrinkage algorithm, local quadratic approximation, M-estimation
为什么对您有用: 直接关联您primary interest中的因果推断（多源数据融合提升目标人群估计效率）和M-估计理论。您的技术武器库中'非参数统计'和'因果推断中的估计理论'（very_familiar）可直接用于理解其风险界推导和序贯收缩机制；'M-估计理论'（moderately_familiar）可用于将其推广至更复杂的因果estimand（如ATE的DR估计）。中期可做：将该协方差感知收缩框架与debiased ML结合，用于多源观测数据下的因果效应估计，需先在'semiparametric theory'上长肌肉以处理影响函数结构。

2. 2606.28774 — Measurement Induced Confounding¶

作者: George Perrett, Klint Kanopka
相关性 7/10 · novelty: new_method
摘要: 本文提出“测量诱导混杂”概念，指出在观察性研究中，当潜在特质（如动机、自我效能）作为混杂变量时，常规调整方法（如使用总分、测量模型导出的能力估计或直接调整项目响应）会因测量误差而产生有偏的ATE估计和错误的覆盖概率。作者通过理论分析和模拟展示，测量误差在估计过程中传播，导致传统方法失效。核心解决方案是采用贝叶斯联合估计方法，同时估计测量模型、处理分配模型和结果模型，从而消除测量诱导混杂。该方法在结构上类似于proximal causal inference中的negative control思想，但更侧重于测量误差的建模。对您而言，本文直接关联到因果推断中的识别与估计问题，特别是当混杂变量为潜变量时，为您的proximal CI和敏感性分析工具箱提供了新的应用场景。
关键技术: Bayesian joint estimation, measurement error models, latent variable adjustment, proximal causal inference, negative control variables
为什么对您有用: 本文直接切入您primary interest中的因果推断子方向——当混杂变量为潜变量时，测量误差导致的识别与估计偏差问题。您武器库中very_familiar的“estimation theory in causal inference”和moderately_familiar的“identification theory in causal inference”可直接用于分析其贝叶斯联合估计的渐近性质（如是否达到n^{-1/2}-CAN），并可尝试用您熟悉的minimax bound框架刻画测量误差对ATE估计下界的影响。中期可做：需先在moderately_familiar的“semiparametric theory”上长肌肉，以严格推导该联合估计的效率界。

3. 2606.28685 — Inverse Probability Weighting in a Post-Bayesian World¶

作者: Owen Thomas, William Denault, Valeria Vitelli
相关性 7/10 · novelty: new_method
摘要: 本文在 post-Bayesian 框架下重新审视逆概率加权（IPW），将其从频率学派中的偏差校正工具重新解释为对统计模型与真实数据生成参数之间的 KL 散度进行重新加权。作者给出了理论收敛性结果和广义信念后验的性质，证明该框架在选择性偏差存在时仍能产生合理的后验推断。模拟示例展示了在观测数据存在选择偏差时的推断效果，真实数据示例则使用前列腺特异性抗原（PSA）预测前列腺癌死亡率，处理了注册数据中的系统性偏差。实证与理论结果共同表明，post-Bayesian IPW 能解决传统贝叶斯方法难以处理的一类问题。对于您关注的因果推断中的识别与估计问题，本文提供了一种将 IPW 与贝叶斯推断结合的新视角，可能对敏感性分析和纵向数据中的加权方法有启发。
关键技术: Inverse Probability Weighting, post-Bayesian inference, Kullback-Leibler divergence, generalized belief posterior, selection bias
为什么对您有用: 本文直接关联您 primary interest 中的因果推断（IPW 是因果效应估计的核心工具），且将 IPW 置于 post-Bayesian 框架下，为处理选择偏差提供了新思路。您的技术武器库中 'estimation theory in causal inference'（very_familiar）可直接用于评估其理论收敛性是否紧，而 'identification theory in causal inference'（moderately_familiar）可分析其识别假设的合理性。中期可做：若想将 post-Bayesian IPW 推广到更复杂的因果结构（如 IV 或 proximal CI），需先在 moderately_familiar 的 'identification theory in causal inference' 上深入理解其识别条件。

非参数 / 半参数 (nonparam_semipara, 3 篇)¶

1. 2606.30000 — Adaptive nonparametric regression from repeated measurements under common noise¶

作者: Fabienne Comte, Bianca Neubert
机构: Mathématiques Appliquées à Paris 5
相关性 7/10 · novelty: new_method
摘要: 本文考虑重复测量数据下存在共同噪声（common noise）的非参数回归函数估计问题。模型设定为每个个体有多次测量，且个体间共享一个共同的噪声成分，这导致观测数据具有特定的协方差结构。作者提出一种投影估计器，通过最小化一个考虑了该协方差结构的加权最小二乘对比函数来估计回归函数。理论分析分别考虑了经验范数和理论范数下的风险，并精确刻画了重复测量次数对估计速率的影响。进一步，作者提出了数据驱动的投影估计器（基于模型选择准则），并建立了其在期望经验范数下的风险界。模拟实验验证了方法的有限样本表现。该工作对您可能有用：它属于非参数统计中的经典问题，但引入了重复测量和共同噪声这一实际设定，与您熟悉的非参数统计和 minimax 界工具直接相关，且其投影估计框架可迁移至您关注的因果推断中测量误差问题的处理。
关键技术: projection estimator, least-squares contrast, common noise model, model selection via penalized contrast, risk bounds in empirical norm
为什么对您有用: 本文直接关联您的 primary interest 中的非参数统计理论，且其处理重复测量下共同噪声的设定与因果推断中测量误差或代理变量问题有潜在联系。您可以用 very_familiar 中的非参数统计和 minimax 界工具来审视其估计速率是否最优，并考虑将投影估计框架推广至更复杂的协方差结构。中期可做：若想将此类方法应用于因果推断中的测量误差校正，需先在 moderately_familiar 的 identification theory 上进一步熟悉相关设定。

2. 2606.29109 — Posterior concentration and adaptation of the mixing measure in Dirichlet process mixtures¶

作者: Filippo Ascolani
相关性 7/10 · novelty: new_theory
摘要: 本文研究 Dirichlet 过程混合模型（DPM）在潜变量空间上的后验渐近性质，聚焦于混合测度和聚类行为。在数据由有限混合位置密度生成（well-specified）的设定下，作者证明后验对真实分量数 K 具有自适应性：stick-breaking 表示中超过第 K 个分量的累积质量以 n^{-1/2} 速率消失（至多差一个慢于任何多项式的因子）。这同时给出了混合测度在 Wasserstein 距离下的近最优后验收缩率。一个显著的相变现象是：要逼近混合测度至优于 n^{-1/2} 的精度，所需分量数必须随样本量对数增长。聚类行为方面，聚类数仍如先验一样对数增长，但落在 K 个最大聚类之外的观测比例以多项式速度消失。最后，这些结果被转化为截断近似的后验保证：任何至少包含 K 个分量的截断都能恢复密度和混合测度的最优收缩率，而 O(log n) 个分量是复现精确后验聚类的充分必要条件。对您而言，本文的非参数贝叶斯后验收缩率分析（尤其是相变现象和自适应速率）与您在高维统计和半参理论中的 minimax 视角有直接联系，可作为理解贝叶斯非参数方法理论性质的参考。
关键技术: Dirichlet process mixture, posterior contraction rate, Wasserstein distance, phase transition, truncation approximation
为什么对您有用: 本文属于非参数贝叶斯理论，与您的 primary interest 中非参数与半参理论直接相关。技术武器库中 minimax bounds for estimation problems 和 nonparametric statistics 可用于验证本文声称的后验收缩率是否紧，以及相变阈值是否最优。中期可做：需先在 moderately_familiar 的 semiparametric theory 上进一步熟悉后验收缩率的证明框架（如 empirical process 和 concentration inequalities），然后可尝试将类似的自适应速率分析推广到其他非参数先验（如 Pitman-Yor 过程）。

3. 2606.30864 — Analysis of gradual changes in nonparametric regression based on a new optimization method in the non-unique case¶

作者: Marie Hušková, Natalie Neumeyer, Leonie Selk
相关性 6/10 · novelty: new_method
摘要: 本文考虑一维协变量的非参数回归模型，回归函数在协变量支撑左侧恒为零，然后在某个未知点开始逐渐变化。目标是在非唯一解情形下估计该渐变点。作者提出一种新的通用优化方法，用于估计目标函数的最大最小化点，并基于此定义和比较多种相合估计量。讨论了估计量的收敛速率，以及利用渐变结构估计回归函数的方法。还研究了Bootstrap偏差近似，并将方法推广到两样本情形（两个连续回归函数先相等，后在某个感兴趣点开始变化）。理论结果包括估计量的渐近性质，并通过模拟验证了有限样本表现。对您而言，本文的非参数回归渐变点估计问题与您的非参数统计和M估计理论兴趣直接相关，其优化方法可能为处理非唯一解问题提供新思路。
关键技术: change point estimation, nonparametric regression, M-estimation, bootstrap bias approximation, rate of convergence
为什么对您有用: 本文直接关联您的primary interest中的非参数统计和M估计理论。您可以用very_familiar的非参数统计和minimax bound工具来评估其估计量的最优性，或用moderately_familiar的M估计理论深入分析其优化方法的渐近性质。中期可做：若想将方法推广到高维或因果推断中的结构变化检测，需先在moderately_familiar的identification theory上提升。

数理统计 / 假设检验 (hypothesis_testing, 10 篇)¶

1. 2606.29732 — Testing hypotheses via orthogonalization¶

作者: Ameer Dharamshi, Runjia Zou, Daniela Witten
相关性 7/10 · novelty: new_method
摘要: 本文提出一种基于正交化的通用假设检验框架，适用于现代统计中零假设抽象、数据用于生成和检验双重目的、且对数据分布假设极少的场景。核心思想是向原始数据 X 添加并减去来自对称移位族的外部噪声，将其分解为 X^{(1)} 和 X^{(2)} 两部分。在零假设 H0 下，作者给出一种通用策略将 X^{(2)} 对 X^{(1)} 正交化，然后检验正交化是否成功，从而提供对 H0 的有效检验。该框架自然扩展到选择后推断（post-selection inference）场景：只需在 X^{(1)} 上选择假设，然后在所选零假设下执行正交化。方法无需预先指定选择机制，也不限于特定数据生成分布，极大扩展了有效选择后推断的适用范围。通过多个案例研究（包括具有挑战性的预设零假设和选择后推断场景）展示了方法的灵活性。对您而言，该正交化策略为假设检验提供了全新视角，尤其与您对 hypothesis testing 和 post-selection inference 的兴趣高度契合。
关键技术: orthogonalization via external noise, symmetric shift-family, post-selection inference, data splitting, valid hypothesis testing under minimal assumptions
为什么对您有用: 直接连接 primary interest 中的 hypothesis testing 方向，提出一种不依赖传统渐近分布假设的通用检验框架。武器库中 very_familiar 的 nonparametric statistics 和 high-dimensional asymptotics 可用于分析该正交化策略在非参数或高维设定下的有效性；moderately_familiar 的 M-estimation theory 可用于推导检验统计量的渐近性质。中期可做：需先在 moderately_familiar 的 semiparametric theory 上提升，以处理更复杂的半参数零假设。

2. 2606.30375 — Multiple testing with the horseshoe¶

作者: Sayantan Banerjee, Ismaël Castillo, Fanny Villers
相关性 7/10 · novelty: new_method
摘要: 本文研究在高维稀疏正态均值模型下，使用连续全局-局部收缩先验（以horseshoe先验为代表）进行多重假设检验的问题。由于这类先验不产生精确零点，无法直接得到后验包含概率，因此传统的FDR控制方法不直接适用。作者提出了基于后验的决策规则，适用于一大类连续收缩先验，并通过校准实现FDR控制同时保持高检验功效。理论上，证明了所提方法在稀疏正态均值模型中达到最优检测边界，并实现了FDR和FNR的渐近频率学派控制。方法实现简单，仅需标准后验采样，模拟实验显示实际FDR和FNR与理论目标高度吻合。对您而言，本文连接了高维统计推断与贝叶斯多重检验，其理论分析（检测边界、渐近控制）与您在高维统计和假设检验方面的兴趣直接相关。
关键技术: horseshoe prior, global-local shrinkage priors, false discovery rate (FDR) control, optimal detection boundary, posterior-based decision rules, sparse normal means model
为什么对您有用: 本文直接关联您在高维统计和假设检验方面的主要兴趣，特别是高维稀疏设定下的多重检验问题。您武器库中'高维渐近理论'和'极小极大界'可用于验证其声称的最优检测边界是否紧，而'非参数统计'背景有助于理解其决策规则的频率学派性质。中期可做：若想将类似方法推广到更复杂的因果推断设定（如高维IV选择），需先在'半参数理论'上加强。

3. 2606.30982 — Simultaneous confidence bands for cumulative hazard via exchangeable bootstrap and box calibration¶

作者: Min Lin, Grzegorz Rempala, Eben Kenah, Qianying Lin
相关性 6/10 · novelty: new_method
摘要: 本文研究右删失数据下累积风险函数的同时置信带构造问题。标准重抽样方法（如bootstrap）在有限样本中常出现覆盖不足，作者从重抽样方案和校准统计量两个角度诊断此问题。提出交换性bootstrap（exchangeable bootstrap）对Nelson-Aalen比率的分子和分母同时重赋权，保留其比率结构；并引入箱校准（box calibration）统计量，利用原始与重抽样Nelson-Aalen估计的相邻值构造上下阶梯包络，测量垂直偏差。理论方面，证明了交换性bootstrap的条件弱收敛性，并证明箱校准与网格校准一阶渐近等价，所得置信带渐近达到名义覆盖水平。箱校准仅需在事件时间网格上额外线性扫描，计算开销可忽略。模拟显示，在多种风险形状和删失水平下，交换性bootstrap结合箱校准的覆盖最接近名义水平，且出现排名反转：交换性bootstrap在网格校准下覆盖最低，但经箱校准后通常最接近名义水平。本文方法直接在原始累积风险尺度上操作，无需方差稳定变换，且允许从时间零点开始推断。对您而言，该工作涉及假设检验中的同时推断方法，与您对数学统计和假设检验的兴趣直接相关，且其bootstrap校准技术可能迁移至因果推断中的敏感性分析或置信区间构造。
关键技术: exchangeable bootstrap, box calibration, Nelson-Aalen estimator, simultaneous confidence bands, right censoring, conditional weak convergence
为什么对您有用: 本文直接关联您对假设检验和数学统计的兴趣，特别是同时置信带构造这一经典问题。您武器库中的非参数统计和渐近理论（very_familiar）可直接用于理解其条件弱收敛证明和渐近等价性论证；箱校准的计算效率（线性扫描）与您对统计计算（software development）的兴趣契合。中期可做：若您想将箱校准思想推广至因果推断中的同时置信区间（如ATE的置信带），需先在M估计理论（moderately_familiar）上加强，以处理更复杂的估计方程结构。

4. 2606.30981 — Universal Inference for model selection on networks¶

作者: Eric Yanchenko, Jonathan P. Williams, Ryan Martin
相关性 6/10 · novelty: new_method
摘要: 本文针对网络数据中的模型选择与假设检验问题，提出基于Universal Inference的通用框架。核心挑战在于网络观测的单一性和节点间的复杂依赖关系，传统方法通常需针对特定模型设计且仅提供渐近保证。作者采用边采样（edge sampling）将单一网络拆分为两个子网络，从而满足Universal Inference需要独立数据分块的要求，并证明由此构造的检验统计量是一个e-value，能在有限样本下控制第一类错误率。这是首个基于依赖数据分割的Universal Inference统计量，也是首个在网络假设检验中提供有限样本保证的方法。进一步证明在各类备择模型下，检验统计量的对数依概率发散到正无穷，保证了检验的一致性。在模拟和真实网络数据上，该方法在随机图模型选择、社区数确定等任务中表现良好。对您而言，该工作将Universal Inference这一有限样本检验工具拓展到网络依赖数据，与您对假设检验和网络数据的兴趣直接相关，且其边采样策略可能为其他依赖数据下的检验问题提供新思路。
关键技术: Universal Inference, e-value, edge sampling, finite-sample type I error control, network hypothesis testing
为什么对您有用: 该论文直接连接您对假设检验（primary interest）的兴趣，特别是有限样本保证的检验方法。您武器库中'非参数统计'和'高维渐近理论'的功底可用于分析边采样策略在更复杂网络模型下的效率损失，而'higher-order U-statistics'的树宽/张量收缩视角可能为计算e-value的精确分布提供新途径。中期可做：需先在'moderately_familiar'的HOIF理论上提升，以处理更复杂的网络依赖结构。

5. 2606.29021 — Beta-trees for testing multivariate goodness-of-fit and localizing deviations from a model¶

作者: Valerie N. P. Ho, Guenther Walther
相关性 6/10 · novelty: new_method
摘要: 本文提出一种基于 Beta-tree 划分的多元拟合优度检验新方法。Beta-tree 对样本空间进行数据自适应划分，并为每个区域提供有限样本置信区间，用于评估区域概率含量是否与零假设分布一致。该方法特别适用于通过 k-means 聚类构建零分布时的混合模型成分数选择问题。与 Kolmogorov-Smirnov 或 Anderson-Darling 等全局检验不同，Beta-tree 检验能检测局部偏离并定位模型误设区域。模拟和真实数据实验表明，该方法在检测局部偏离方面具有效率优势。对您而言，该工作直接关联假设检验兴趣，其数据自适应划分和局部偏离检测思路可启发高维或非参数设定下的检验构造。
关键技术: Beta-tree partition, finite-sample confidence intervals, multivariate goodness-of-fit, local deviation detection, k-means clustering
为什么对您有用: 直接关联 primary interest 中的 hypothesis testing 子方向，提供了一种新颖的多元拟合优度检验框架。技术武器库中 very_familiar 的 nonparametric statistics 和 minimax bounds 可用于分析 Beta-tree 划分的统计性质（如划分的适应性是否影响检验水平），moderately_familiar 的 M-estimation theory 可用于理解 k-means 聚类构造零分布时的估计效应。中期可做：需先熟悉 Beta-tree 的构造算法和有限样本置信区间的推导细节（属于 moderately_familiar 的 nonparametric 工具延伸），之后可探索该检验在高维或因果推断设定下的推广。

6. 2606.30866 — A data-dependent DKW inequality for regenerative Markov chains¶

作者: Daniel Jerison
相关性 6/10 · novelty: new_method
摘要: 本文针对具有再生结构的马尔可夫链，提出了一个数据依赖的 Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式。目标是基于一条样本路径，为平稳分布 π 下状态函数 θ 的累积分布函数 (CDF) 构造均匀置信带。方法的核心在于利用再生结构将链分解为独立同分布的块，从而将问题转化为经典 i.i.d. 情形下的 DKW 不等式。关键创新在于置信带宽度的主项可直接从样本路径计算，无需链的收敛速度的先验信息；收敛速度仅影响一个低阶项。这使得结果对实际收敛远快于理论保证的链特别有吸引力。通过反演，还可得到分位数函数的均匀置信带。该结果属于经验浓度不等式范畴，为马尔可夫链的分布推断提供了实用工具。对您而言，该工作直接关联到假设检验与高维统计中的浓度不等式工具，其数据依赖的界设计思路可迁移至您熟悉的非参数统计与逆问题设定中。
关键技术: Dvoretzky-Kiefer-Wolfowitz inequality, regenerative Markov chain, empirical concentration inequality, uniform confidence band, data-dependent bound
为什么对您有用: 该论文直接关联到您的 primary interest 中的数学统计与假设检验，特别是非参数推断中的经典 DKW 不等式向依赖数据的马尔可夫链情形的推广。您非常熟悉的非参数统计与高维渐近理论中的浓度不等式工具可直接用于理解其证明框架；其数据依赖的界设计思路对您关注的逆问题与因果推断中的不确定性量化也有启发。中期可做：若想将类似数据依赖界推广至您 moderately_familiar 的 M-估计或半参数理论中，需先在浓度不等式与经验过程理论上进一步积累。

7. 2606.30311 — Evaluating HWE and Association in Genome Wide Association Studies: A Unified Procedure¶

作者: Stefan Böhringer, Hajo Holzmann
相关性 5/10 · novelty: new_method
摘要: 本文针对病例-对照设计的全基因组关联研究（GWAS），提出一种统一的检验程序，同时评估单核苷酸多态性（SNP）的关联性和哈迪-温伯格平衡（HWE）。传统做法是先基于任意阈值对对照组进行HWE检验过滤SNP，再对剩余SNP做关联检验，这会导致信息损失和多重比较问题。作者提出条件基因型检验，将3×2列联表的Pearson χ²统计量条件于对照组HWE的χ²统计量，并推导了渐近分布理论。模拟表明，该方法在多数场景下比两种回顾性竞争方法更有效力。另一关键优势是，由于在计算关联p值时已纳入HWE信息，SNP排序更优，从而提升复制研究的成本效益和后续精细定位。本文属于假设检验领域，对您而言，其条件检验的渐近分布推导思路可迁移至您在高维或因果推断中处理类似过滤-检验两步问题时的统一框架设计。
关键技术: conditional chi-square test, asymptotic distribution theory, contingency table analysis, genome-wide association study, Hardy-Weinberg equilibrium
为什么对您有用: 本文直接关联您的primary interest中的假设检验方向，具体是条件检验的渐近理论。您武器库中'nonparametric statistics'和'high-dimensional asymptotics'可直接用于分析该条件χ²统计量的有限样本性质或推广至高维SNP场景。中期可做：若想将统一框架扩展到更复杂的遗传模型（如加性模型），需先在'moderately_familiar'的M-estimation理论上长肌肉。

8. 2606.30033 — The exact region between Chatterjee's \(ξ\) and Blomqvist's \(β\)¶

作者: Jacob Israel Orenday Lares, Marcus Rockel
相关性 5/10 · novelty: new_theory
摘要: 该文在全体二元copula类上精确刻画了Chatterjee秩相关系数ξ与Blomqvist相关系数β的联合可达区域，证明其由不等式|y|³ ≤ 2x界定。左边界ξ=|β|³/2由一族显式的两带copula (L_b)实现，该族通过在中位数处添加有符号帐篷函数g_b扰动独立性得到。文中给出了该copula族的密度公式、秩相关度量以及正负依赖性质。右边界ξ=1对每个β的容许值由确定性保测copula达到，整个区域通过固定β的左右边界copula的凸组合及ξ沿这些组合的连续性获得。此外还记录了若干自然子类中的精确区域。该结果对您在高维秩统计量联合分布的理论研究中可能有用，特别是当您需要理解不同秩相关系数之间的约束关系时。
关键技术: Chatterjee's rank correlation, Blomqvist's beta, copula theory, attainable region, signed tent function, convex mixture
为什么对您有用: 本文直接关联您对假设检验的兴趣——秩相关系数的联合可达区域为构造非参数独立性检验提供了精确的边界条件。您武器库中'非参数统计'和'minimax bounds'可直接用于分析该区域是否紧致或能否推广到更高维。中期可做：若将结果推广至Spearman's ρ或Kendall's τ的联合区域，需先在'moderately_familiar'的U-统计量理论上加强。

9. 2606.30229 — Efficiency of Valid Inferential Models: Choquet-risk Optimal Possibility Measures, and Direct Comparisons¶

作者: Max Raner
相关性 4/10 · novelty: new_theory
摘要: 本文在 valid possibilistic inferential models 框架下，提出 Choquet risk 作为有限样本下比较 valid possibility measures 效率的决策理论准则。给定非负惩罚泛函，Choquet loss 定义为该惩罚关于数据依赖的可能性测度的 Choquet 积分，Choquet risk 为其抽样期望。关键简化是将该风险通过轮廓的嵌套 α-截集表达，将过程级效率与校准置信集的期望表现联系起来。对于集中性惩罚，该准则简化为积分期望集大小（等价于期望轮廓体积），因此逐层最优置信集诱导 Choquet-risk 最优的有效轮廓。论文沿两条经典路径发展最优性理论：一是引入 possibilistic 无偏性概念，证明在有效性下与诱导置信集和检验的无偏性一致，从而可将 UMPU 和最精确无偏结果迁移至有效轮廓；二是建立等变极小极大理论，包括高斯位置结果中高斯可能性轮廓关于径向距离损失是 Choquet-risk 极小极大的。该构造还将置信风险从可加置信分布扩展到非可加校准推断模型输出，Choquet loss 充当最不利置信损失。最后，论文澄清了效率比较对惩罚的依赖性，并激励了与 Fisher-Rao 几何局部相连的不变规模准则和基于散度的内在损失。对您而言，本文的决策理论框架和极小极大最优性结果与您对假设检验和效率理论的兴趣直接相关，其 Choquet risk 准则为比较不同推断程序提供了新视角。
关键技术: Choquet risk, possibility measures, valid inferential models, unbiasedness, equivariant minimax, Fisher-Rao geometry
为什么对您有用: 本文直接关联您对假设检验和效率理论的主要兴趣，提出了在 valid inferential models 框架下比较效率的决策理论准则。您武器库中的 minimax bounds 和 estimation theory 工具可直接用于分析其 Choquet-risk 最优性是否紧，或探索其与经典 semiparametric efficiency bounds 的联系。中期可做：需先熟悉 possibilistic inference 的基本概念（属于 moderately_familiar 的 M-estimation 理论可辅助理解），但核心极小极大分析是您 very_familiar 的领域。

10. 2606.28730 — Full Conformal Prediction under Stochastic Non-Conformity Measure¶

作者: Thanawat Sornwanee
相关性 4/10 · novelty: new_theory
摘要: 本文研究随机非一致性度量下全共形预测（full conformal prediction）的有效性条件。传统理论要求非一致性度量是确定性的且满足几乎必然置换不变性，但现代机器学习训练引入随机性，使得该条件过于严格。已有文献建议将条件放松为置换同分布（permutation in distribution），但本文证明该条件实际上不充分，并给出了正确的充分条件：条件独立性与置换同分布（Conditional Independence & Permutation Invariance in Distribution）。该条件涵盖了机器学习中可能使用的多种随机设定，例如随机森林或dropout等随机训练过程。理论结果通过反例和证明展示了置换同分布为何失效，并验证了新条件的充分性。对您而言，本文涉及假设检验中的置换检验理论基础，与您对数学统计与假设检验的兴趣直接相关，且其条件独立性框架可迁移至因果推断中的敏感性分析或随机化推断。
关键技术: full conformal prediction, permutation invariance, conditional independence, stochastic non-conformity measure, exchangeability
为什么对您有用: 本文直接关联您对假设检验的兴趣，特别是置换检验的理论基础。您武器库中的非参数统计和M估计理论可用于分析其条件独立性假设的稳健性。中期可做：若将条件独立性框架与您moderately_familiar的HOIF结合，可发展出随机非一致性度量下的高效推断方法。

统计计算 / 算法 (stat_computing, 2 篇)¶

1. 2606.30958 — Exponential-Family Tensor Completion via Nonconvex Dual Total-Variation Regularization¶

作者: Wenfei Cao, Yang Chen, Qibin Zhao, Jinglai Li, Andrzej Cichocki
相关性 5/10 · novelty: new_method
摘要: 本文研究指数族噪声下张量补全问题，目标是从部分观测中恢复张量。提出基于变换L1函数的对偶全变差（DTV）正则化器，同时捕捉梯度张量的稀疏性和低秩结构。理论分析给出了恢复误差的上界，在特定条件下达到O(n_3 r_t (max_k s_k^2) log((n_1+n_2)n_3)/n)，并推导了极小化下界，表明上界与下界仅差O(max_k s_k^2 / max(n_1, n_2))的对数因子。实验在合成、图像和视频张量数据上验证了方法的有效性。对您而言，本文的张量补全理论与您的高阶U-统计量计算（树宽/张量收缩）有潜在联系，可探索DTV正则化在张量收缩成本优化中的应用。
关键技术: dual total-variation regularization, transformed L1 function, minimax lower bound, exponential-family noise, tensor completion
为什么对您有用: 本文连接您的统计计算兴趣（张量补全）和高维统计（极小化下界分析）。技术武器库中'高阶U-统计量计算（树宽/张量收缩）'可用来分析DTV正则化器的计算成本，例如评估其收缩复杂度。中期可做：需先在moderately_familiar的HOIF上提升，以将DTV与高阶影响函数结合。

2. 2606.29798 — Scalable coarse-to-fine spatial downscaling¶

作者: Daisuke Murakami, Yongwan Chun, Takahiro Yoshida, Hajime Seya
相关性 5/10 · novelty: new_method
摘要: 本文提出了一种可扩展的空间降尺度方法 CF-DS，旨在解决大规模空间数据中传统统计降尺度方法（如 area-to-point kriging）因协方差矩阵求逆和似然评估导致的计算瓶颈。该方法通过合成多尺度局部模型来表征潜在空间过程，避免了全局协方差矩阵的显式操作，同时近似满足聚合约束。蒙特卡洛实验表明，CF-DS 在预测精度上与 area-to-point kriging 相当，但计算时间大幅缩短，尤其适用于大型数据集。在东京都市区电力消费降尺度应用中也验证了其实用性。该方法已实现为 R 包 spCF。对于您而言，本文展示了一种通过局部模型合成替代全局计算的策略，这与您对统计计算中算法效率的兴趣直接相关，且其多尺度分解思想可能启发您在高阶 U-统计量或张量计算中设计类似的可扩展近似方案。
关键技术: coarse-to-fine spatial modeling, multi-scale local models, aggregation constraint, area-to-point kriging, scalable spatial downscaling
为什么对您有用: 本文属于统计计算方向，直接对应您的 primary interest 中的 'statistical computing (numerical methods, algorithm)'。其核心贡献在于用多尺度局部模型合成替代全局协方差求逆，这是一种典型的计算-精度 tradeoff 策略。您可以用 very_familiar 中的 'software development' 和 'high-dimensional asymptotics' 来评估其近似误差的渐近性质，或用 moderately_familiar 中的 'M-estimation theory' 分析其局部模型估计的收敛性。中期可做：若想将类似策略推广到您的 U-统计量计算中，需先在 moderately_familiar 的 'theory of higher-order U-statistics' 上建立多尺度分解的误差界。

天体统计 (astrostats, 12 篇)¶

1. 2606.30620 — Gaussian processes on ray-guided transformed uniform grids for fast, flexible, and auto-differentiable adaptive source reconstruction in lens modelling¶

作者: Wolfgang J. R. Enzi, Coleman M. Krawczyk, Tian Li, Thomas E. Collett
相关性 7/10 · novelty: new_method
摘要: 本文针对强引力透镜建模中的源重构问题，提出了一种基于射线引导变换均匀网格（RTU grid）的高斯过程方法。传统自适应网格（如Delaunay三角剖分或Voronoi分箱）依赖不连续操作，限制了正则化选择并破坏了可微性。作者将源建模为均匀网格上的高斯过程，然后根据回溯到源平面的射线累积分布进行变换，使源像素包含更均匀的射线数。该方法利用快速傅里叶变换在傅里叶空间描述高斯过程，计算速度快且支持自动微分。在模拟数据上的实验表明，RTU网格在达到相当拟合质量时，每维像素数可减少约一半，且相同像素数下证据下界（ELBO）更高。该方法对透镜星系内有无子结构的模型ELBO差异影响轻微。作为一篇天文统计方法论文，它清晰阐述了数据侧（模拟透镜图像、射线追踪）和模型侧（高斯过程先验、功率谱正则化），适合作为统计学家进入引力透镜源重构领域的入门读物。
关键技术: Gaussian process, fast Fourier transform, adaptive mesh, ray tracing, source reconstruction, evidence lower bound (ELBO)
为什么对您有用: 本文属于astrostats的gateway reading：它清晰阐述了引力透镜源重构的数据结构（射线追踪、位置依赖分辨率）和模型侧（高斯过程先验、功率谱正则化），不假设读者有天文学背景。武器库中的'nonparametric statistics'和'high-dimensional asymptotics'足以理解其核心思想（高斯过程在变换网格上的应用），但缺乏对引力透镜物理和射线追踪的深入理解，因此暂不可做——需要先补充天体物理背景知识。不过，本文作为入门读物值得花时间阅读全文，以评估其方法是否可迁移到其他自适应网格问题。

2. 2606.29367 — PIE-ADA: Physics-Informed Ensemble with Adaptive Data Augmentation for Photometric Transient Classification¶

作者: Deba Priyo Guha, Fariya Tabassum
相关性 6/10 · novelty: application
摘要: 本文针对LSST望远镜每晚约1000万条瞬变天体数据的自动分类需求，提出PIE-ADA框架。核心挑战是极端类别不平衡（稀有事件<1%），作者利用天体物理驱动的变换（相关噪声注入、宇宙学时间膨胀、波长相关尘埃消光、观测相位偏移）生成物理上真实的合成光变曲线，并施加物理约束防止不现实样本。从6个测光波段提取271个多尺度特征（统计、时域、峰值、颜色、频域）。在PLAsTiCC数据集（7,848个原始对象增强至8,148个，14类）上比较5种分类器，LightGBM最优：加权对数损失0.5763（±0.0083），准确率80.33%，对数损失比随机森林、极端随机树、神经网络基线改善24-49%。全流程计算高效（<37分钟），单对象分类<0.05秒，适合实时LSST警报处理。对您而言，这是一篇典型的astrostatistics应用论文，数据增强策略和特征工程思路可作为入门读物，但方法学新颖性有限。
关键技术: physics-informed data augmentation, synthetic light curve generation, multi-scale feature extraction, LightGBM classifier, PLAsTiCC dataset
为什么对您有用: 本文属于astrostatistics gateway-reading范畴：问题设定清晰（LSST实时分类需求），数据侧（PLAsTiCC数据集、类别不平衡、多波段光变曲线）和模型侧（物理约束增强、特征工程、LightGBM）都有明确交代，适合作为统计学家进入天文瞬变分类领域的入门读物。武器库中'非参数统计'和'软件开发'足以支撑理解其方法，但核心贡献在应用层面而非方法论创新，因此不值得花时间精读全文——快速浏览数据增强和特征工程部分即可。

3. 2606.29138 — A Covariance-Aware Framework for Spatially Resolved Exoplanet Biosignature Inference with the Solar Gravitational Lens¶

作者: Slava G. Turyshev
相关性 6/10 · novelty: application
摘要: 本文在太阳引力透镜（SGL）框架下，针对系外行星生物特征推断，提出了一种协方差感知的数据处理方法。核心数据产品是从波长依赖的爱因斯坦环测量重建的带时间标记的斯托克斯光谱立方体。作者模拟了30 pc处地球半径行星在0.45-2.40 μm波段的反射光观测，采用128×128光栅、128个光谱通道，并详细计算了SGL增益、日冕噪声、仪器背景、驻留时间和重建协方差。在受控群体审计中，结构前向模型失配会降低条件信息增益至匹配模型的0.83倍，而重建协方差括号将区域合并增益从7.77降至3.00，意味着6.7倍的驻留时间惩罚。本文是设计缩放可行性研究，而非任务结论，但清晰展示了SGL在表面分辨测绘、区域光谱学、热气候诊断和共定位测试方面的独特潜力。作为一篇面向统计学家的入门级天文文献，它详细阐述了数据生成过程（信号、噪声、选择效应）和模型假设（前向模型、协方差结构），适合了解系外行星探测中的统计推断挑战。
关键技术: Solar Gravitational Lens, Stokes spectral cube reconstruction, covariance-aware inference, Einstein-ring measurements, forward-model mismatch audit, radiometric validation
为什么对您有用: 本文属于astrostats入门读物，清晰阐述了数据侧（光谱立方体、噪声源、驻留时间）和模型侧（前向模型、协方差结构），适合作为统计学家进入系外行星探测领域的起点。武器库中的非参数统计和逆问题工具可直接用于理解其重建协方差和模型失配分析，但核心SGL物理和辐射度学细节需要额外学习。值得花时间读全文以评估该领域是否存在可贡献的统计方法学问题（如协方差估计、模型校准）。

4. 2606.30286 — Streak detection in the VST/OmegaCAM archive using deep learning¶

作者: Elisabeth Rachith, Stephan Hellmich, Vincent Fiszbin, Belén Yu Irureta-Goyena, Andrew Price, Jean-Paul Kneib
相关性 5/10 · novelty: application
摘要: 本文针对地面天文巡天数据中卫星与空间碎片产生的条纹污染问题，开发了一套基于深度学习的自动检测与分类流程。核心方法包括：使用基于Hough变换的查找表卷积神经网络（HT-LCNN）在原始图像上初步检测条纹，再通过VGG6架构的CNN分类器剔除假阳性。训练数据来自OmegaCAM存档的384,000个图像块，并辅以物理模拟的条纹增强。检测后，对结果进行天体测量校准并与空间目标编目交叉匹配。在增强数据集上，检测器F1分数达0.966（验证集）和0.958（测试集），对信噪比>4的人工条纹检测率超过95%。在2023年真实数据上，由于图像多样性，检测器精度降至0.783，但分类器将其提升至0.990，同时保留97%真阳性并剔除>96%假阳性。应用于一年VST观测数据（1,246,048张OmegaCAM CCD帧），共识别25,335条条纹，其中超过20%与编目无关，16.9%的图像存在污染。该工作展示了利用存档数据监测空间碎片的能力，对您作为统计学研究者而言，本文是进入天体统计学的良好入门读物，清晰呈现了数据生成机制（噪声、选择效应、标注成本）和模型设计（检测-分类两阶段），但方法学新颖性有限，核心是工程应用而非统计理论创新。
关键技术: Hough transform lookup-based CNN, VGG6-based CNN classifier, data augmentation with simulated streaks, astrometric calibration, cross-matching with space-track catalogue
为什么对您有用: 本文属于天体统计学的gateway reading，适合作为进入该领域的入门材料。它清晰阐述了天文数据的特点（图像噪声、条纹形态、标注成本高）和两阶段检测-分类的工程流程，但方法学上以深度学习工程应用为主，统计理论贡献有限。您的武器库中非参数统计和软件工程能力足以理解其技术细节，但核心机器（如低度多项式屏障、计算-统计权衡）与此无关。值得花时间读全文以了解天文数据结构和分析范式，但无需深入方法学细节。

5. 2606.29300 — SPICE: Scintillation Pipeline for Interferometric Candidate Extraction¶

作者: Jitendra Salal, Shriharsh Tendulkar, Visweshwar Ram Marthi
相关性 5/10 · novelty: application
摘要: 本文介绍 SPICE，一个基于 CASA 的自动化管线，用于在 GMRT 和 uGMRT 射电干涉数据中通过衍射星际闪烁信号识别脉冲星候选体。管线集成了标志、校准、成像和分类步骤，包括鲁棒的射频干扰剔除、动态参考天线选择的迭代自校准、PyBDSF 源检测，以及基于闪烁的可见度相关搜索分类。作者将 SPICE 应用于历史存档数据，成功恢复了已知脉冲星（如 PSR 0437-4715、PSR B0450-18、PSR B0329+54），并得到了与预期一致的闪烁参数。部分扫描中的未检测结果突显了射频干扰、参考天线选择以及闪烁特性内在变异性的影响。SPICE 通过提供可复现的闪烁候选体识别，补充了时域搜索方法。对您而言，这是一篇典型的 astrostatistics 入门级应用论文，清晰展示了射电天文学中数据管线（校准、成像、源检测）的完整流程，适合作为了解该领域数据结构和分析挑战的起点。
关键技术: CASA-based pipeline, diffractive interstellar scintillation, visibility correlation, RFI excision, iterative self-calibration, PyBDSF source detection
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰展示了射电干涉数据从原始可见度到候选体识别的完整管线，包括校准、成像和分类，适合统计学家理解天文数据结构和分析挑战。您的武器库中 'software development' 和 'high-dimensional asymptotics' 可用于评估其源检测和分类步骤的统计特性，但核心天文学知识（闪烁物理、干涉测量）不在您的 arsenal 中，因此属于暂不可做——需要先补充射电干涉测量和闪烁理论的基础知识。

6. 2606.29039 — Neural posterior estimation of Galactic Binary signals for the LISA mission¶

作者: Tanguy Delmond, Natalia Korsakova, Thomas Oberlin, Sylvain Marsat, Antoine Basset, Nicolas Dobigeon
相关性 5/10 · novelty: application
摘要: 本文针对 LISA 任务中银河双星引力波信号的参数估计问题，提出基于模拟的推理（simulation-based inference, SBI）方法。传统 MCMC 在高维、复杂似然面下难以扩展，本文采用条件归一化流（conditional normalizing flow）作为神经后验估计器，无需显式计算似然函数。训练数据由专用模拟框架生成，训练后可在每秒生成数千个后验样本。实验从窄频带单源逐步扩展到宽频带，并初步探索了双源重叠的更具挑战场景。结果表明，SBI 在计算效率上显著优于 MCMC，且具备处理多源重叠的潜力。对您而言，这是一篇优秀的入门级 astrostatistics 读物，清晰展示了引力波数据分析中的统计挑战（高维、重叠信号、复杂似然）以及 SBI 这一现代计算工具的应用，适合作为了解该领域数据结构和建模问题的起点。
关键技术: simulation-based inference, conditional normalizing flow, neural posterior estimation, likelihood-free inference, gravitational wave parameter estimation
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了 LISA 引力波数据的特点（高维、信号重叠、似然复杂），并展示了 SBI 作为计算替代方案。您的武器库中 '软件工程' 和 '非参数统计' 足以理解其流程，但核心的归一化流训练与密度估计并非您熟悉的方向，因此属于 '暂不可做'——若想深入，需在深度生成模型（如 normalizing flow）上补课。不过，作为入门读物，它值得花时间阅读全文以了解问题背景和数据结构。

7. 2606.28822 — TOA_SP: A Multi-Strategy Framework for Single-Pulse Timing¶

作者: Songbo Zhang, Xuan Yang
相关性 5/10 · novelty: application
摘要: 本文针对旋转射电暂现源（RRAT）和快速射电暴（FRB）等单脉冲形态高度可变的射电源，提出了一种无需稳定平均轮廓的脉冲到达时间（TOA）估计框架。传统方法依赖模板互相关，在单脉冲形态和振幅剧烈变化时失效。作者开发了开源Python包toa_sp，集成了参数化轮廓拟合、非参数估计器以及自适应子带和时间分辨率优化等多种策略，并提供了经验诊断工具来评估模型一致性。在FAST望远镜对RRAT J1913+1330的688个单脉冲观测中，该方法相比标准PSRCHIVE流水线将加权RMS残差降低了24%，且未剔除任何脉冲。对FRB 20220529亮暴的测试揭示了频带积分轮廓无法捕获的频域子结构。全文清晰阐述了数据结构（PSRFITS搜索模式数据）、噪声模型和脉冲形态假设，适合作为统计学家进入射电暂现源时序分析的入门读物。
关键技术: parametric profile fitting, non-parametric estimators, adaptive sub-band optimization, template-free TOA estimation, empirical convergence diagnostic
为什么对您有用: 本文属于astrostats方向的gateway reading：它清晰阐述了射电暂现源单脉冲时序分析的数据结构（PSRFITS格式、噪声特性、脉冲形态可变性）和科学问题（无需模板的TOA估计），对统计学家友好。武器库中的'nonparametric statistics'和'high-dimensional asymptotics'可直接用于分析其非参数估计器的收敛性，而'computation of higher-order U-statistics (treewidth / tensor contraction / einsum)'可尝试建模其多策略组合的计算成本。值得花时间读全文，作为进入射电暂现源统计方向的起点。

8. 2606.30897 — SAOImageDS9: An Essential Tool for Astronomical Exploration¶

作者: Antonella Fruscione, Kenny Glotfelty, William Joye, Jonathan McDowell
相关性 4/10 · novelty: survey
摘要: 本文介绍了 SAOImageDS9（DS9）——一款开源的跨平台天文数据可视化与分析工具。DS9 由史密森天体物理天文台开发，从可复用成像组件的示例实现演变为天文领域最广泛使用的显示环境之一。它支持多种天文文件格式和坐标系统，能直接处理事件数据和图像立方体，提供基于交互式区域的统计分析，并通过命令行和消息接口与外部工具通信。DS9 被用于研究、任务操作和教育，覆盖从地面到空间望远镜的多个波段。文章总结了 DS9 的历史发展、核心功能及其对天文社区的影响，并在附录中描述了支撑其长期可持续性的内部架构。对于统计学家而言，这是一篇了解天文数据可视化工具和交互式分析工作流的入门读物。
关键技术: interactive region-based analysis, astronomical file formats, coordinate systems, event data visualization, image cube analysis
为什么对您有用: 本文属于 astrostatistics 的 gateway reading，适合作为统计学家进入天文数据领域的入门材料。文章清晰介绍了 DS9 的功能和天文数据的基本结构（事件数据、图像立方体、坐标系统），但未涉及统计方法本身。武器库中的非参数统计和软件工具开发经验可用于理解其交互式分析设计，但本文不提供可直接迁移的方法学问题。作为入门读物值得一读，但无需深入技术细节。

9. 2606.30855 — Deep Learning for Astrophysics: An Open Textbook from the NASA Cosmic Origins AI/ML Science and Technology Interest Group¶

作者: Yuan-Sen Ting, Digvijay Wadekar, Phill Cargile, Carol Cuesta-Lazaro, André Curtis-Trudel, Gregory Green et al.
相关性 4/10 · novelty: survey
摘要: 本文是 NASA Cosmic Origins AI/ML STIG 组织编写的深度学习天体物理学开放教科书，旨在解决天文学界采用现代机器学习的主要障碍——教育不足。教科书共 23 章，分为六个部分：计算基础、深度学习架构、生成模型、基于模拟的推断、强化学习以及大语言模型智能体，最后讨论 AI 驱动的科学实践。许多章节配有可执行的 Jupyter notebook，适合自学。该书由 17 位讲师撰写，内容覆盖从基础到前沿的完整技术栈，特别强调领域特定的教程而非通用方法。作为一本入门级教科书，它清晰阐述了天文学中常见的数据结构（图像、光谱、时序）、噪声模型和科学问题（如星系分类、参数推断、模拟与观测对比），并给出了具体的 ML 解决方案示例。对您而言，这是一篇极好的 gateway reading：它用统计学家能理解的语言介绍了天文学中典型的数据分析挑战（如高维光谱反演、引力波信号检测中的模拟推断），且不假设天文学背景知识，适合作为进入 astrostatistics 方向的起点。
关键技术: simulation-based inference, deep learning architectures, generative modeling, reinforcement learning, large language model agents, executable notebooks
为什么对您有用: 这是一篇 gateway reading，适合作为进入 astrostatistics 方向的入门读物。本文不要求天文学背景，清晰介绍了天文学中典型的数据结构（图像、光谱、时序）和科学问题（星系分类、参数推断、模拟与观测对比），并给出了具体的 ML 解决方案示例。您的武器库（非参数统计、高维渐近、因果推断）足以支撑您理解书中大部分方法学内容，但若想深入天文学特有的问题（如引力波信号检测中的模拟推断），可能需要补充一些物理背景知识。值得花时间通读全书，尤其是 simulation-based inference 和生成模型部分，这些与您的统计推断兴趣有直接交叉。

10. 2606.28875 — Energy estimation of cosmic rays by air shower radio signals¶

作者: Fateme Latifian, Gohar Rastegarzadeh
相关性 4/10 · novelty: application
摘要: 本文针对宇宙线空气簇射的射电信号，提出一种重建初级能量的方法。方法基于 CoREAS 模拟，对比 SURA 实验天线阵列与密集参考阵列的电场强度，导出标度因子 Cij。该标度因子与初级能量呈负相关，且对簇射核心位置不敏感，即使在阵列允许的最远核心位置也保持稳定。重建能量在模拟测试中的最大误差约为 11%。作为一篇纯应用型论文，方法学新颖性有限，但清晰展示了射电探测在宇宙线能量估计中的实际流程和数据特性。对您而言，这是一篇不错的 astrostatistics 入门读物，适合了解射电宇宙线数据的基本结构（电场强度、阵列几何、模拟与真实数据的对比），但无需深入方法学细节。
关键技术: CoREAS simulations, radio emission reconstruction, scale factor method, air shower energy estimation
为什么对您有用: 本文属于 astrostatistics 的 gateway reading，适合作为统计学家进入射电宇宙线数据分析的入门材料。武器库中的非参数统计和软件工程经验足以理解其模拟与标度因子方法，但本文方法学贡献较浅，不值得投入时间精读全文。

11. 2606.28721 — VLBI-Enabled Localization of Continuous GW Sources¶

作者: Keitaro Takahashi, Takuya Akahori, Kenta Fujisawa, Hiroshi Imai, Hajime Kita, Hideyuki Kobayashi et al.
相关性 4/10 · novelty: application
摘要: 本文聚焦于纳赫兹引力波连续波源的定位问题。当前脉冲星计时阵（PTA）对单个连续引力波源的定位不确定性高达数十至数百平方度，无法唯一识别宿主星系、获取红移或推断双黑洞质量。定位困难的根本原因在于引力波响应包含地球项和脉冲星项，而脉冲星距离的未知使得脉冲星项相位成为自由参数，削弱了三角测量能力。若能将少数毫秒脉冲星的距离精确到亚秒差距（优于引力波波长），则定位精度可提升数个量级，模拟显示不确定性可缩小至约10^{-3}平方度（角分尺度）。实现这一目标需要约10微角秒的视差测量精度，这已接近甚长基线干涉测量（VLBI）的能力，并有望通过SKA1-Mid的相控阵模式作为灵敏VLBI单元实现。文章提出了SKA1-Mid对附近毫秒脉冲星的具体观测策略，以提供PTA定位所需的独立距离先验。对您而言，这是一篇典型的astrostats入门读物，清晰阐述了天文观测中的几何定位问题、数据噪声结构（VLBI视差测量）与模型假设（脉冲星距离先验），适合作为了解引力波多信使天文学统计挑战的起点。
关键技术: Very Long Baseline Interferometry (VLBI), pulsar timing array (PTA), continuous gravitational-wave source localization, parallax astrometry, multi-messenger follow-up
为什么对您有用: 本文属于astrostats方向的gateway reading，清晰展示了天文领域一个具体的统计推断问题——利用VLBI视差测量为PTA提供脉冲星距离先验，从而将引力波源定位从数百平方度压缩至角分尺度。武器库中的'非参数统计'和'逆问题'知识可帮助理解其几何定位模型，但核心挑战在于VLBI数据特有的噪声结构（大气延迟、电离层效应）和稀疏采样，这些不在当前武器库中，属于暂不可做方向。不过作为入门读物，值得花时间阅读全文以评估该领域是否值得投入。

12. 2606.28523 — A Scalable Path to Astrometric Exomoon Discoveries with the Nautilus Space Observatory¶

作者: Kevin Wagner, Sumin Seung, Dániel Apai, Enrico Biancalani, Eduardo Bendek, Samantha Hasler et al.
相关性 4/10 · novelty: application
摘要: 本文提出利用 Nautilus 空间天文台的可扩展架构进行系外卫星的星明天体测量探测。信号来源于卫星对行星的反射运动，在相对恒星-行星的星明天体测量时间序列中可恢复，信号强度随卫星质量和轨道分离增加、随距离减小，因此最近且质量最小的成像行星是最有利目标。恢复小于地球质量的卫星需要连续、长基线、高精度监测，只有专用或近乎专用的设施才可行。作者基于近期星明天体测量探测模拟和种群产量模拟，论证了 Nautilus 的可复制、可扩展设计特别适合此问题，并规划了分阶段观测策略：初始阶段用少量小孔径瞄准最近的成像巨行星（高回报但低概率的搜索），随着阵列扩建，星明天体测量噪声基底降低，同一技术可将搜索扩展到附近 K 型及更早型恒星的最邻近系统。该观测将与高对比度成像和宿主行星光谱表征并行，并与用于成像附近恒星周围类地行星的伴星遮星罩概念协同。本文为从首次探测附近系外卫星到系统搜索最近恒星周围系外卫星提供了可扩展路径。作为天文统计学的入门读物，本文清晰阐述了科学问题（系外卫星探测）、数据（星明天体测量时间序列）和模型（反射运动信号），但未涉及具体统计方法细节，适合了解该领域的基本数据结构和挑战。
关键技术: astrometric time series, reflex motion, signal-to-noise ratio scaling, population yield simulation, space observatory architecture
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了系外卫星探测的科学问题、星明天体测量数据结构和噪声模型，适合作为统计学家进入该领域的入门读物。武器库中的非参数统计和 minimax 界可用于分析信号检测的极限，但本文未涉及具体统计方法，因此暂不可做——核心缺失在于天体测量时间序列的统计建模和检测理论，需要先熟悉该领域的物理模型和噪声特性。值得花时间读全文以了解数据结构和科学问题。

经济理论 / 应用 (econ_theory, 4 篇)¶

1. 2606.29833 — Sensitivity, Informativeness, and Misspecification in GMM Estimation¶

作者: Fangzhou Yu, Seojeong Lee
相关性 6/10 · novelty: new_method
摘要: 本文在 GMM 估计框架下，针对伪真值（pseudo-true value）开发了对模型误设稳健的敏感性和信息量诊断工具。敏感性矩阵在正确设定下嵌套了 Andrews, Gentzkow, and Shapiro (2017) 的结果；信息量 Δ 衡量估计量渐近方差中由矩条件抽样变异性解释的比例，正确设定时 Δ=1，误设时可能低于 1，即使 Hansen J 检验不拒绝。作者推导了一步、两步、迭代和连续更新 GMM 的影响函数表示，并证明在最小距离估计中，估计最优权重矩阵会引入矩条件无法解释的额外方差，降低信息量，而简单权重矩阵基本避免此问题。因此权重矩阵的选择涉及经典效率与信息量之间的权衡。在 Berry-Levinsohn-Pakes 汽车需求模型、Blundell-Pistaferri-Preston 消费保险模型和 Acemoglu 等人收入与民主回归三个应用中，误设重新排序了敏感性排名，简单权重保留了最优权重丢失的信息量，且 Δ 检测到了 J 检验无法发现的结构效率损失。对您而言，本文是经济理论方向的应用因果工作，其伪真值框架和影响函数诊断思路可迁移至您熟悉的因果推断敏感性分析中。
关键技术: GMM estimation, pseudo-true value, influence function, misspecification-robust diagnostics, Hansen J-test, minimum distance estimation
为什么对您有用: 本文属于经济理论方向的应用因果工作，直接连接您的 secondary interest 中的经济理论（模型、应用因果工作）。您的技术武器库中 very_familiar 的估计理论（因果推断中的估计理论）和 moderately_familiar 的识别理论可直接用于理解其伪真值框架和影响函数诊断，并可能迁移至因果推断的敏感性分析中。本文是值得花时间读全文的入门级应用方法论论文。

2. 2606.29063 — Second-Generation Heterogeneous Panel Data Model with Individual and Common Shocks¶

作者: Hasraddin Guliyev
相关性 6/10 · novelty: application
摘要: 本文研究异质性面板数据中平均斜率的估计问题，该面板同时存在来自未观测共同因子的横截面依赖和发生在不同时点的单位特定结构断点。作者将现有的第二代均值组估计量组织成一个按横截面大小、横截面依赖强度和结构变化性质索引的机制图谱，并重点考察了两种适用于应用宏观经济学和能源经济学中常见的小到中等依赖面板的估计量。Fourier SUR 均值组 (F-SURMG) 估计量用单位特定的傅里叶项扩充了似不相关回归系统。提出的 Fourier 共同相关效应均值组 (F-CCEMG) 估计量则用确定性傅里叶项扩充 CCE 回归，在吸收异质性时点断点的同时过滤共同因子。蒙特卡洛研究表明，在几乎所有配置下 F-CCEMG 的均方根误差最低，且当横截面不很小时覆盖率接近名义水平；而 F-SURMG 在小 N、弱依赖的角落给出校准最佳的推断。对 G7 国家 1965-2019 年可再生能源-增长关系的应用发现，可再生能源消费对增长没有显著的总体效应。本文对您作为经济学理论（应用因果工作）的次要兴趣有直接参考价值，其处理未观测混杂和结构断点的面板数据方法在实证因果推断中具有应用潜力。
关键技术: Mean Group estimator, Common Correlated Effects, Fourier series approximation, Seemingly Unrelated Regression, panel data with structural breaks
为什么对您有用: 本文属于经济学理论（应用因果工作）的次要兴趣，处理面板数据中未观测共同因子和结构断点带来的识别与估计挑战。您武器库中的非参数统计和高维渐近工具可用于分析其傅里叶近似的逼近误差和估计量的渐近性质，但本文核心是应用导向的方法比较，而非新理论。作为入门读物，它清晰展示了宏观面板数据分析的常见问题和解决方案，值得花时间阅读全文以了解该领域的标准实践。

3. 2606.30040 — The Shape of Macroeconomic Beliefs¶

作者: Giovanni Angelini
相关性 5/10 · novelty: application
摘要: 本文利用 Kalshi 预测市场的价格数据，通过将相邻阈值合约转换为通胀结果上的概率质量，重建了 CPI 和核心 CPI 发布前的高频市场隐含分布。数据覆盖从发布前 30 天到 1 小时的频率，提取了市场隐含均值、不确定性和上尾概率。研究发现，市场隐含均值包含有意义的预测信息（尤其对 headline CPI），但主要信号来自分布形态。滞后 Reuters Poll 意外不能系统预测 Kalshi 均值与 Reuters 共识的偏离，但大的滞后意外会提高隐含不确定性，且正的滞后意外会显著提升对高通胀结果的概率赋值。在控制当前共识预测后，0.1 个百分点的正滞后意外使月通胀高于 0.3% 的概率上升约 4.7 个百分点。发布级验证表明，Kalshi 上尾概率能预测高通胀状态实现，即使市场隐含均值接近 Reuters 共识。该文对您作为统计研究者的价值在于：它提供了一个经济理论/应用方向的高质量数据集和清晰的分析框架，展示了如何从非标准数据（预测市场）中提取分布信息，其分析模式（分布重建、条件概率回归、验证测试）可迁移至您感兴趣的流行病学或因果推断中的敏感性分析场景。
关键技术: prediction market data, implied probability distribution, threshold contract conversion, fixed effects regression, conditional probability validation
为什么对您有用: 本文属于经济理论/应用方向，是您的 secondary interest。它提供了从预测市场价格重建分布的具体方法，数据集结构清晰（高频面板、阈值合约），分析模式（分布重建+条件回归+验证）对您可能有用。武器库方面：您 very_familiar 的 estimation theory 和 high-dimensional asymptotics 可直接用于理解其回归推断的统计性质；但本文核心是应用而非方法创新，属于 gateway-reading 范畴——值得花时间读全文以了解预测市场数据结构和分析流程，但无需深入其计量细节。

4. 2606.28848 — Literature Review and Evidence Aggregation: a Toolkit for Applied Micro¶

作者: Peter Ganong, Avik Garg, Maximilian Kasy
相关性 5/10 · novelty: application
摘要: 本文为应用微观经济学研究者提供了一套元分析工具包，目标是从已有文献中汇总效应量、预测新情境下的效应大小，并校正选择性发表偏倚。方法上，作者采用随机效应模型（random effects model）进行文献汇总，利用逆方差加权（inverse-variance weighting）和重加权（reweighting）技术，基于协变量将已有估计调整到新情境。针对选择性偏倚，工具包引入了基于极端值截断（trim-and-fill）和p值分布诊断（p-curve）等校正方法。作者通过劳动、公共、行为、环境和发展经济学五个领域的实证案例展示了工具包的使用，并指出在仅有3篇先验研究时部分工具仍可应用。核心发现是：校正选择性偏倚后，平均效应量仅为简单均值的12%-21%。最后，文章提供了面向实践者的操作指南。对您而言，本文虽无新理论贡献，但其系统化的效应量汇总与偏倚校正流程，可作为流行病学或经济学应用研究中元分析的实用参考。
关键技术: random effects meta-analysis, inverse-variance weighting, trim-and-fill, p-curve, reweighting for external validity
为什么对您有用: 本文属于经济学应用方向，与您的secondary interest（经济理论的应用因果工作）直接相关。工具包中的选择性偏倚校正方法（如trim-and-fill）可迁移至流行病学队列研究的元分析场景，而您武器库中的非参数统计和估计理论（very_familiar）可用于评估这些校正方法的稳健性。本文是入门级读物，值得花时间读全文以了解应用元分析的常见陷阱和操作流程。

其他 (other, 11 篇)¶

1. 2606.29658 — Multi-Source Transfer Learning of Sparse Single-Index Models¶

作者: Ye Tian
相关性 7/10 · novelty: new_method
摘要: 本文研究多源迁移学习在稀疏单指标模型（SIM）下的理论和方法。目标是在不访问原始源数据、且链接函数未知非线性的情况下，利用源域知识提升目标域的学习效果。核心创新在于提出一种基于广义Stein引理的源数据无关迁移框架，仅需传输一次汇总统计量，从而保护隐私并避免因域间链接函数差异导致的副作用。方法上，利用迁移统计量预估计指标系数，再通过多层感知机（MLP）拟合未知非线性链接函数，有效缓解过拟合。理论部分可能涉及稀疏性假设下的估计误差界，但本文未在摘要中明确给出收敛速率或minimax下界。实验在合成数据和真实应用上验证了该方法相比线性模型迁移方法的优势。对您而言，本文属于统计学习与迁移学习的交叉方向，与您的主要兴趣（因果推断、高维统计）无直接方法学连接，但其中利用汇总统计量进行隐私保护迁移的思路在流行病学或经济学中处理多源数据时可能有参考价值。
关键技术: single-index model, transfer learning, generalized Stein's lemma, summary statistics transfer, multilayer perceptron
为什么对您有用: 本文属于统计学习中的迁移学习，与您的主要兴趣（因果推断、高维统计）无直接方法学重叠。但其中利用汇总统计量进行隐私保护迁移的思路，在流行病学或经济学中处理多源数据时可能有参考价值。武器库中'非参数统计'和'高维渐近理论'可用于分析其估计误差，但核心迁移机制与您的技术栈距离较远，属于暂不可做方向。

2. 2606.29631 — Beyond Local Independence: High-Dimensional Latent Class Graphical Models with Shared Block Structure¶

作者: Seunghyun Lee, Yuqi Gu
相关性 6/10 · novelty: new_method
摘要: 本文针对高维有序分类数据，提出一种共享块结构的潜类图模型，放松了传统潜类分析中局部独立性的强假设。模型假设变量存在一个共享的块划分，在每个块内允许类别特定的图依赖结构，从而在保留可解释性的同时刻画局部依赖。估计采用三步法：首先通过谱聚类从展平的响应矩阵恢复潜类，然后估计类别特定的潜协方差矩阵并聚合以恢复共享块划分，最后估计块内稀疏精度矩阵。作者建立了聚类、协方差估计、块恢复和精度矩阵估计的有限样本误差界，在高维尺度下给出了所有模型分量的端到端一致性。模拟实验表明该方法能准确恢复潜类、共享块划分和类别特定的依赖图，且计算可扩展。应用于ANES调查数据和HapMap3基因型数据，展示了方法在解释局部依赖结构同时处理潜在异质性的能力。该论文与您的主要兴趣（高维统计、因果推断）无直接交集，但潜类模型与图模型结合的方法论对处理异质性数据有参考价值。
关键技术: spectral clustering, latent class graphical model, block-structured precision matrix, finite-sample error bounds, high-dimensional scaling
为什么对您有用: 本文属于高维潜类模型与图模型的交叉，与您的主要兴趣（因果推断、高维统计）无直接连接，但潜类模型在因果推断中处理未观测混杂时有潜在应用。您的武器库中'非参数统计'和'高维渐近理论'可用于分析其聚类和估计的收敛性，但核心问题（共享块结构恢复）与您的技术栈距离较远，属于暂不可做方向——缺少图模型结构学习（如精度矩阵估计）的专门工具。

3. 2606.30018 — Error bounds for simultaneous Wasserstein contractive adaptive increasingly rare MCMC¶

作者: Julian Hofstadler, Daniel Rudolf
相关性 6/10 · novelty: sharper_rate
摘要: 本文研究自适应稀有马尔可夫链蒙特卡洛（MCMC）算法及其时间平均估计量的均方误差界。在同时Wasserstein收缩假设下，推导了显式的误差上界，该假设要求自适应过程中使用的马尔可夫核族满足统一的收缩条件。方法核心是结合Wasserstein距离的耦合论证与自适应MCMC的漂移条件，得到非渐近的收敛速率。应用示例包括自适应立体图算法和基于归一化流的Metropolis-Hastings方案，以及针对双重难处理问题的通用自适应算法。理论结果给出了达到指定精度所需的计算成本分析。对您而言，本文属于统计计算中的MCMC理论，与您的主要兴趣（统计计算）有间接关联，但方法学新颖性有限，属于对现有自适应MCMC理论的细化。
关键技术: Wasserstein contraction, adaptive MCMC, coupling argument, mean squared error bounds, normalizing flows
为什么对您有用: 本文属于统计计算（MCMC理论）方向，与您的主要兴趣“统计计算”有间接关联。但您的武器库中缺乏MCMC耦合论证和Wasserstein收缩分析的核心工具，因此暂不可做。不过，若您未来想进入MCMC理论领域，本文可作为入门阅读，了解自适应MCMC的非渐近误差分析方法。

4. 2606.29105 — Panel Flow Matching: A Generative Approach to Learning Distributions of Longitudinal Data¶

作者: Jianbin Tan, Pixu Shi, Anru R. Zhang
相关性 5/10 · novelty: application
摘要: 本文提出面板流匹配（PFM）框架，用于学习纵向数据的分布，目标是在观测不规则、稀疏且受试者数量有限的设定下估计面板密度（即纵向数据在每一时间点的横截面密度）。PFM 结合前向流匹配步骤与后向核拟合步骤，通过连续面板流模型跨时间整合信息，无需预先降维即可处理数据不规则性。方法上，PFM 是一种生成式方法，支持纵向补全、合成数据生成和分类任务。作者在稀疏和不规则采样设计下建立了面板密度估计的统计保证。模拟实验表明 PFM 在多项任务上优于现有方法。在 188 例妊娠（足月/早产）的阴道微生物组纵向数据上，PFM 提高了分类准确率并揭示了组间时变分布差异。对您而言，本文属于应用导向的方法开发，与您的主要兴趣（因果推断、高维统计、U-统计量）无直接技术重叠，但纵向数据生成和分布学习在流行病学应用中可能具有参考价值。
关键技术: flow matching, kernel density estimation, generative modeling, longitudinal data, panel density estimation
为什么对您有用: 本文属于应用导向的方法开发，与您的主要兴趣（因果推断、高维统计、U-统计量）无直接技术重叠。作为流行病学应用（阴道微生物组纵向数据），它展示了生成式方法在稀疏不规则纵向数据上的潜力，但方法学 novelty 有限（flow matching 框架的纵向扩展）。武器库中 '非参数统计' 和 '高维渐近' 可帮助理解其理论保证，但核心机器（流匹配）不在您的技术栈中，属于暂不可做方向。

5. 2606.30289 — Structural functional identifiability and model discovery in differential equation models¶

作者: Torkel E Loman, Alexander P Browning, Ruth E Baker
相关性 5/10 · novelty: new_theory
摘要: 本文研究微分方程模型中未知函数组件的结构可辨识性问题。传统结构可辨识性关注参数能否从理想观测中唯一恢复，而本文将其推广到函数可辨识性，即未知函数成分能否被唯一恢复。作者首先识别出几类广泛模型，在这些模型中函数恢复是不可能的。然后展示了如何利用微分代数技术来评估函数可辨识性，这些技术已成熟用于常微分方程模型的结构参数可辨识性分析。框架揭示了从参数推断到函数推断过渡中出现的新现象，这些现象在经典设定中没有对应。最后，作者在几个常见模型类中刻画了函数可辨识性。结果表明，函数可辨识性为现代微分方程建模中的逆问题提供了理论基础，特别是那些使用机器学习表示未知系统组件的问题。
关键技术: structural identifiability, differential algebra, functional identifiability, differential equation models, inverse problems
为什么对您有用: 本文属于数学统计与因果推断的交叉领域，但核心问题（函数可辨识性）与您的非参数/半参数理论兴趣有概念联系。然而，技术工具（微分代数）不在您的武器库中，且问题设定（ODE模型）与您主要关注的因果推断设定（如proximal CI、IV）差异较大。作为gateway reading，本文对统计学家友好，但直接可迁移性有限。暂不可做：核心机器（微分代数）不在武器库中。

6. 2606.30399 — Multiscale Dynamic Dependence Estimation over Networks¶

作者: Cristian F. Jiménez-Varón, Marina I. Knight, Matthew A. Nunes
相关性 4/10 · novelty: new_method
摘要: 本文提出 Net-LSW 框架，用于建模由网络结构约束的多变量非平稳时间序列的时变、多尺度依赖关系。模型将图拓扑直接编码在 Locally Stationary Wavelet 过程的随机增量协方差结构中，而非传统多变量方法中仅作为后验约束。引入局部偏相关图概念，将图的边与非平稳过程在时间和尺度上的非零偏依赖联系起来。估计方面，提出基于子过程的估计方案，并建立了相合性理论。模拟表明该方法能准确恢复随时间演化的依赖结构并尊重底层图拓扑。实证部分应用于全球银行网络的日股票价格波动率，捕捉了 Brexit 和 COVID-19 期间的多尺度、高度非平稳依赖及系统性转变。对您而言，该文涉及非平稳时间序列与网络拓扑的融合建模，但其核心方法（小波过程、偏相关图）与您的主要兴趣（因果推断、高维统计、半参理论）距离较远，属于方法学上的边缘交叉。
关键技术: Locally Stationary Wavelet processes, local partial correlation graph, subprocess-based estimation, network time series, multiscale dependence
为什么对您有用: 本文属于时间序列与网络分析的交叉，与您的主要兴趣（因果推断、高维统计、半参理论）无直接重叠。技术武器库中的非参数统计或高维渐近理论可能对理解其估计相合性有帮助，但核心问题（非平稳网络依赖的建模与估计）并非您当前关注的方向。暂不可做：缺乏时间序列小波方法和网络拓扑建模的专门工具。

7. 2606.29931 — Beyond Equidistant Assumptions: An Autoregressive Ordered Stereotype Model for Ordinal Time Series¶

作者: Anna Nalpantidi, Dimitris Karlis, Daniel Fernández
相关性 4/10 · novelty: minor
摘要: 本文提出自回归有序刻板模型（AR-OSM），用于处理序数时间序列数据。与现有模型不同，AR-OSM 不假设类别等距，而是通过数据驱动的方式确定类别间的相对间距，这通过有序刻板模型（OSM）的线性预测结构实现。模型将响应变量的滞后值作为协变量纳入系统成分，以捕捉序列依赖。通过婴儿睡眠状态数据的实证分析展示了模型在等距假设不成立场景下的适用性。模拟研究评估了不同样本量下的模型表现，并探讨了参数值对序列依赖结构的影响。该工作主要贡献在于为序数时间序列提供了一种更灵活的建模框架，但方法学上属于现有模型的直接扩展，未涉及因果推断或高维统计等核心兴趣领域。
关键技术: ordered stereotype model, autoregressive model, ordinal time series, maximum likelihood estimation
为什么对您有用: 本文属于序数时间序列建模的应用方法，与您的主要兴趣（因果推断、高维统计、U-统计量等）无直接交集。作为 gateway reading 价值有限，因为方法学 novelty 较低（现有 OSM 的简单扩展），且未涉及您武器库中的具体工具（如非参数统计、minimax 界、高阶 U-统计量）。暂不可做：核心问题（序数时间序列的建模与推断）不在您的武器库覆盖范围内，且缺乏与您兴趣的明确连接点。

8. 2606.29448 — Scalable Bayesian Spatial Mixture Modelling for Remote Sensing Image Segmentation¶

作者: Bao Khanh Nguyen, Iain Cameron, Cecilia Balocchi, Torben Sell
相关性 4/10 · novelty: application
摘要: 本文提出一种可扩展的贝叶斯空间混合模型（POTTERS），用于遥感图像分割中的土地覆盖分类。模型扩展了经典Potts模型，允许广义空间依赖结构，并利用预先存在的标记数据估计信息先验，从而在目标区域无需标记数据的情况下实现分类。通过变分推断算法实现后验近似，保证了大规模遥感图像的可扩展性。模拟研究和苏格兰案例（利用英格兰公开遥感数据）展示了模型在不确定性量化、类间交互捕捉和新聚类检测方面的优势。该方法本质上是空间统计与贝叶斯建模的应用，与您的主要兴趣（因果推断、高维统计、U-统计量等）无直接技术交集。
关键技术: Bayesian spatial mixture model, Potts model, variational inference, informative priors, image segmentation
为什么对您有用: 本文属于遥感图像分割的应用工作，与您的主要兴趣方向（因果推断、高维统计、U-统计量等）无直接技术关联。武器库中的非参数统计或M估计理论难以直接迁移至其空间贝叶斯建模框架。作为gateway reading，本文对统计学家入门遥感领域有一定参考价值，但方法学新颖性有限，不值得投入全文阅读时间。

9. 2606.29114 — Multivariate Varying-Coefficient BART with Graphical Horseshoe Priors¶

作者: Soham Ghosh, Sameer K. Deshpande
相关性 4/10 · novelty: new_method
摘要: 本文提出 multiVCBART，一个多变量变系数贝叶斯加性回归树框架，用于联合建模多个相关结局的灵活系数曲面和稀疏残差精度矩阵。每个系数矩阵 B(x) 的条目由独立的 BART 集成表示，允许预测效应随调节变量 x 非线性变化且结局特异；残差精度矩阵 Ω 采用 Graphical Horseshoe 先验以捕捉简约的条件依赖结构。为高效计算，作者设计了一种采样器，将多变量高斯似然约化为一系列标量伪响应更新，从而解耦树回拟合与 Graphical Horseshoe 步骤。理论上，首次建立了联合估计残差依赖的多变量 BART 模型的后验收缩率，证明其对底层光滑性和结构稀疏性具有近极小极大适应性。实证中，multiVCBART 在稀疏高维数据集上优于现有多变量树模型和贝叶斯 SUR 竞争者。在癌症药物敏感性基因组学数据集的再分析中，该方法识别出独特的生物标志物信号并恢复了连贯的残差药理网络。对您而言，本文的树集成与图模型联合推断框架虽非您核心兴趣，但其后验收缩率分析技术（涉及非参数自适应和稀疏性）与您的 minimax 界和 high-dimensional 统计工具集有潜在交集。
关键技术: Bayesian additive regression trees, Graphical Horseshoe prior, posterior contraction rates, multivariate varying-coefficient model, scalar pseudo-response updates
为什么对您有用: 本文属于贝叶斯非参数回归与图模型交叉领域，与您的 primary interests（非参数统计、minimax 界）有部分重叠，但核心方法（BART、Graphical Horseshoe）不在您的技术武器库中。作为 gateway reading，本文的后验收缩率证明技术（涉及非参数自适应和稀疏性）可能对您理解高维贝叶斯非参数理论有参考价值，但整体方向偏离您的核心兴趣。暂不可做：缺乏 BART 和 Graphical Horseshoe 的深入知识，且该领域与您的主要研究方向（因果推断、U-统计量、计算-统计权衡）距离较远。

10. 2606.28738 — Composition as Direction: An Active-Set Ray-Based Model for Sparse High-Dimensional Compositional Data¶

作者: Michael R Schwob, Jyotishka Datta
相关性 4/10 · novelty: new_method
摘要: 该论文针对高维成分数据（compositional data）中同时存在精确零值、成分间潜在依赖、高维性和单形（simplex）非欧几何约束的难题，提出了一种新的Active-set Ray-based Compositional (ARC) 模型框架。传统Dirichlet型或logistic-normal模型只能部分处理这些特征，而投影高斯模型虽能捕捉零值和依赖，但在高维下因截断或折叠计算成本过高。ARC框架将成分数据映射到单位超球面的非负象限，并引入一个活跃集过程（active-set process）来控制哪些成分存在。在给定活跃集后，正子成分通过沿活跃子空间的正射线评估潜在高斯密度来建模，其中半径作为辅助变量。该构造将“哪些成分存在”的活跃集过程与“正成分如何分布”的子模型分离，保留了潜在高斯解释，并允许任意潜在依赖结构。论文通过模拟和实际微生物组数据展示了ARC在高维场景下的计算可行性和模型拟合优势。对您而言，本文属于高维统计与计算方法的交叉应用，但核心方法（活跃集+射线模型）与您的主要兴趣方向（因果推断、高维统计、U统计量）的直接技术关联较弱，更多是作为成分数据建模领域的一个新工具。
关键技术: active-set process, projected Gaussian model, compositional data, ray-based model, unit hypersphere
为什么对您有用: 本文属于高维成分数据建模的方法学论文，与您的主要兴趣（因果推断、高维统计、U统计量）无直接技术交集。作为gateway reading，它展示了如何在高维约束下设计计算可行的模型，但核心机器（活跃集+射线采样）不在您的武器库中，且未涉及您熟悉的minimax界、U统计量或因果识别理论。因此，本文暂不可做，除非您有意进入成分数据或微生物组统计方向，否则不值得花时间深读。

11. 2606.30443 — Parameter estimation in a fully coupled partially observed Ornstein-Uhlenbeck process¶

作者: Sascha Gaudlitz, Hasan Mert Gökalp
相关性 4/10 · novelty: new_theory
摘要: 本文研究一个二维 Ornstein-Uhlenbeck 系统，其中仅观测第一个坐标，第二个坐标隐藏。目标是估计观测坐标漂移中的耦合参数。核心创新在于考虑了观测分量对未观测分量的影响，使系统成为完全耦合。利用线性滤波，推导了部分观测下的似然函数，并建立了统计模型的局部渐近正态性。在 Ibragimov-Hasminskii 框架下，证明了在稳定性和可识别性假设下，随着时间趋于无穷，MLE 的相合性、渐近正态性、矩收敛和渐近效率。该工作为部分观测扩散过程的参数估计提供了完整的渐近理论。
关键技术: Local asymptotic normality (LAN), Ibragimov-Hasminskii framework, Kalman filtering, Maximum likelihood estimation, Ornstein-Uhlenbeck process
为什么对您有用: 本文属于时间序列和扩散过程的参数估计，与您的主要兴趣（因果推断、高维统计等）无直接交集。它不涉及因果识别、高维或非参数方法，也不属于您的次要兴趣领域。作为一篇纯时间序列渐近理论论文，对您当前研究方向帮助有限。

🗂 其他论文（仅 LLM 评分，未生成摘要）¶

未生成中文摘要的论文，按 LLM 评分由高到低排列，仅保留评分与简评，便于回溯查全。一般为相关性低于展示阈值者；个别历史页也含当时因单日摘要上限未展开的高分篇目（评分仍清楚标着）。

1. 2606.29784 — HERO: Improving the Reliability and Sensitivity of Generative Model Evaluation Using Historical Data¶

作者: Xinrui Ruan, Zhenyu Zhao, Waverly Wei, Yueshan Zhang, Zeyu Zheng, Sui Huang et al.
相关性 3/10
评分理由: Generative model evaluation with noisy labels is unrelated to the researcher's primary interests in mathematical statistics and causal inference.

2. 2606.29524 — Modelling and detecting mild and gross anomalies in circular data via double-contaminated models¶

作者: Antonio Punzo, Andriëtte Bekker, Arno Otto, Priyanka Nagar, Cristina Tortora
相关性 3/10
评分理由: Circular data robust inference is a specialized subfield with no clear link to the researcher's primary interests.

3. 2606.28540 — Choosing the threshold in extreme value analysis¶

作者: Léo R. Belzile, Anthony C. Davison
相关性 3/10
评分理由: Extreme value threshold selection is unrelated to the researcher's primary interests in causal inference, high-dimensional stats, or U-statistics.

4. 2606.27638 — Fast Approximate MM-Estimation for Outlier Robust Model Selection¶

作者: Martin Huang, Samuel Muller, Garth Tarr
相关性 3/10
评分理由: Robust MM-estimation for model selection is a statistical computing topic but not aligned with the researcher's specific arsenal or primary interests.

5. 2606.30621 — Minimax approach to the estimation problem for homogeneous random fields¶

作者: Oleksandr Masyutka, Mikhail Moklyachuk
相关性 3/10
评分理由: Focuses on minimax estimation for random fields, which is tangential to the researcher's primary interests in causal inference and high-dimensional statistics.

6. 2606.29998 — Optimal Posterior E-values with Non-Convex Parameter Sets with Applications to Voting Systems¶

作者: Adrienne Tuynman, Timothée Mathieu
相关性 3/10
评分理由: E-values and voting systems are unrelated to primary or secondary interests; no clear methodological transfer.

7. 2606.28670 — MACROCAST: A Vintage-Consistent Time Series Foundation Model for Real-Time Macroeconomic Forecasting¶

作者: Andrea Carriero, Davide Pettenuzzo, Shubhranshu Shekhar
相关性 3/10
评分理由: Time series forecasting with a focus on data leakage, not aligned with primary interests in causal inference, high-dimensional stats, or semiparametric theory.

8. 2606.30029 — ESOFinder: an LLM-powered tool to help users navigate ESO documentation¶

作者: P. Sánchez-Sáez, C. Reinero, M. Vioque, M. Wittkowski, M. Rejkuba, M. Romaniello et al.
相关性 3/10
评分理由: LLM-powered documentation tool for astronomy; no connection to primary or secondary statistical interests.

作者: Ahmed Khan, Linyi Hou, Siegfried Eggl
相关性 3/10
评分理由: Navigation using variable star light curves; touches on timing uncertainty quantification but too specialized and lacks statistical depth.

10. 2606.28101 — In-flight calibration of the Wide-field X-ray Telescope on board the Einstein Probe¶

作者: Huaqing Cheng, Hai-Wu Pan, Yuan Liu, Jingwei Hu, Haonan Yang, Donghua Zhao et al.
相关性 3/10
评分理由: Astrostatistics-adjacent calibration paper, but purely instrumental with no statistical methodology or data analysis exposition.

11. 2606.29041 — On Modeling Cylindrical Data with a Discrete Circular Component and Its Environmental Applications¶

作者: Brajesh Kumar Dhakad, Jayant Jha
相关性 2/10
评分理由: Specialized modeling of circular data is unrelated to the researcher's primary or secondary interests.

12. 2606.28015 — Bayesian Simultaneous Credible Bands for Polynomial Regression¶

作者: Fei Yang, Yang Han, Wei Liu, Ian Hall
相关性 2/10
评分理由: Bayesian credible bands for polynomial regression is a narrow methodological topic far from the researcher's primary interests.

13. 2606.27046 — Conditional Leibniz Derivative Estimation with an Application to American Call Min-Options¶

作者: Xingyu Ren, Michael C. Fu, Pierre L'Ecuyer
相关性 2/10
评分理由: Derivative estimation in stochastic models is unrelated to the researcher's primary interests in causal inference, high-dimensional stats, or U-statistics.

14. 2606.26774 — End-to-end probabilistic hierarchical forecasting of large hierarchies via probabilistic top-down¶

作者: Lorenzo Zambon, Dario Azzimonti, Giorgio Corani
相关性 2/10
评分理由: Probabilistic hierarchical forecasting for retail is an application area far from the researcher's primary interests.

15. 2606.29923 — Revisiting "A universal model for the Lorenz curve with novel applications''¶

作者: José María Sarabia, Vanesa Jordá, Mercedes Tejería, Emilio Gómez-Déniz
相关性 2/10
评分理由: Lorenz curve correction is a niche econometric point, far from primary interests.

16. 2606.29756 — Modeling Mode and Departure Time Responses to Congestion Pricing: A Spatial and Behavioral Analysis Using Cross-Nested Logit Model¶

作者: Mohammad Amin Ashena, Adam Weiss, Jason Hawkins, Lina Kattan
相关性 2/10
评分理由: Transportation mode choice modeling is unrelated to any primary or secondary interest.

17. 2606.29018 — Liquidity-Based Audit of Algorithmic Trading Strategies¶

作者: Irene Aldridge
相关性 2/10
评分理由: Finance paper with no clear connection to primary or secondary interests; statistical methods are not central.

18. 2606.30706 — Mapping Stellar Heterogeneities with the Nautilus Space Observatory¶

作者: Adina D. Feinstein, Jeff Valenti, Julien de Wit, Valeriy Vasilyev, Chia-Lung Lin, Daniel Apai et al.
相关性 2/10
评分理由: 系外行星透射光谱中的恒星污染问题，属天体物理应用，但未展示清晰的数据/模型框架供统计学家介入。

19. 2606.30169 — Radiation effects and noise evolution in NewAthena WFI flight-production sensors¶

作者: Valentin Emberger, Johannes Müller-Seidlitz, Luisa Ostler, Wolfgang Treberer-Treberspurg, Robert Andritschke, Annika Behrens et al.
相关性 2/10
评分理由: Pure instrumentation paper on X-ray sensor radiation effects; no statistical methodology or data analysis.

20. 2606.30167 — Spectroscopic performance of the electrical functional models for the eXTP SFA-T detectors¶

作者: Alexander Altmann, Robert Andritschke, Valeria Antonelli, Thomas Bechteler, Vadim Burwitz, David Fink et al.
相关性 2/10
评分理由: Instrument performance characterization for an X-ray detector; no statistical content.

21. 2606.29787 — GLTCAM: Concept of Multi-color Millimeter and Submillimeter Camera for the Greenland Telescope¶

作者: Shuhei Inoue, Tatsuya Takekoshi, Shinsuke Uno, Kazuki Watanabe, Taiki Sato, Toshihiro Tsuzuki et al.
相关性 2/10
评分理由: Multi-color camera concept for galaxy cluster dynamics; no statistical methodology or data analysis.

22. 2606.28722 — Enhancing VLBI Capability with the SKA-Mid and the Jingdong 120-m Radio Telescope¶

作者: Wen Chen, Jun Yang, Zhixuan Li, Yingjie Li, Niu Liu
相关性 2/10
评分理由: Unrelated: describes telescope construction and VLBI capabilities, no statistical or methodological content.

23. 2606.28136 — Differentiable design of the PIAA-ZWFS: a flexible wavefront sensor that approaches the fundamental limit¶

作者: A. K. Taras, S. Y. Haffert, L. Desdoigts
相关性 2/10
评分理由: Unrelated to primary or secondary interests; adaptive optics hardware design.

24. 2606.27882 — On-sky Fibre-Target-Alignment of the 4MOST instrument: calibration and performance¶

作者: Roland Winkler, Weijia Sun, Daniel Sablowski, Thomas Liebner, Ole Streicher, Steffen Frey et al.
相关性 2/10
评分理由: Unrelated to primary or secondary interests; fiber alignment calibration for a spectroscopic instrument.

25. 2606.27565 — Searching for Extraterrestrial Intelligence with the SKA¶

作者: Chenoa D. Tremblay, Alex Andersson, Joe Bright, Bárbara Cabrales, David DeBoer, Vishal Gajjar et al.
相关性 2/10
评分理由: SETI overview; mentions statistical/computational approaches but abstract is too vague and domain-specific to be a gateway reading.

26. 2606.27414 — The Karl G. Jansky Very Large Array Sky Survey (VLASS). Data Products¶

作者: Amy Kimball, Mark Lacy, Juergen Ott, John Tobin, Tierra Candelaria, Sergio Garza et al.
相关性 2/10
评分理由: Radio survey data products; mentions computational challenges but no clear statistical model or methodology exposition.

27. 2606.27262 — The SPOTLIGHT Multibeam Real-Time Transient Detection System¶

作者: Ujjwal Panda, Jayanta Roy, Kshitij Bane, Chahat Dudeja, Sridhar Gajendran, Param Joshi et al.
相关性 2/10
评分理由: Real-time transient detection system; hardware-focused, no statistical or causal inference content.

28. 2606.29145 — Why Do We Need Travel Behavior Theory in the Age of AI? Multiple Goal Pursuit as an Illustrative Theory¶

作者: Jason Hawkins, Omid Armantalab
相关性 1/10
评分理由: Unrelated to any primary or secondary interest; focuses on travel behavior theory vs. AI, not statistics or causal inference.

29. 2606.30867 — SHARPing accretion and outflows in young stellar objects in star forming regions of the outer Galaxy and beyond¶

作者: Juan Manuel Alcala', Alessio Caratti o Garatti, Linda Podio, Mario Giuseppe Guarcello, Loredana Prisinzano, Rosaria Bonito et al.
相关性 1/10
评分理由: 纯天文学仪器科学案例，无统计方法或数据建模内容，与研究者兴趣无关。

30. 2606.30721 — SHARP -- A spectrograph proposal to fully exploit ELT capabilities and look beyond JWST¶

作者: P. Saracco, P. Conconi, C. Arcidiacono, H. Mahmoodzadeh, I. Di Antonio, E. Portaluri et al.
相关性 1/10
评分理由: 纯天文学仪器提案，无统计方法或数据建模内容，与研究者兴趣无关。

31. 2606.30210 — Improving Beam Quality in Gravitational-Wave Interferometers Illuminated by Higher-Order Laguerre-Gaussian Modes¶

作者: Liu Tao, Yuefan Guo, Alberto Gatto, Eleonora Capocasa, Jérome Degallaix, Massimo Granata et al.
相关性 1/10
评分理由: 引力波探测器激光模式优化，纯物理/工程问题，与统计兴趣无关。

32. 2606.30207 — Operational capabilities and on-sky performance of SAMOS at the completion of science commissioning¶

作者: Massimo Robberto, Stephen A. Smee, Robert H. Barkhouser, Stephen C. Hope, John J. Piotrowski, Dana Koeppe et al.
相关性 1/10
评分理由: 天文仪器性能报告，无统计方法或数据建模内容，与研究者兴趣无关。

33. 2606.29790 — Design Method of Quasi-Lumped Element Bandpass Filters Using Superconducting Coplanar Waveguide for Millimeter-Wave Multichroic Imaging¶

作者: Shinsuke Uno, Kah Wuy Chin, Tai Oshima, Satoshi Ono, Takeshi Sakai, Kazuki Watanabe et al.
相关性 1/10
评分理由: Superconducting filter design for millimeter-wave detectors; unrelated to statistics.

34. 2606.29789 — Broadband anti-reflection coating for sub-terahertz optics using dielectric multilayers¶

作者: Toyo Naganuma, Shinsuke Uno, Shuhei Inoue, Kazuki Watanabe, Tatsuya Takekoshi, Takeshi Sakai et al.
相关性 1/10
评分理由: Anti-reflection coating for sub-terahertz optics; pure engineering, no statistics.

35. 2606.29485 — Sub-Kelvin Cryogenics for a Super-Pressure Balloon-Borne CMB Polarimeter: Taurus¶

作者: Jared L. May, Alexandre E. Adler, Jason E. Austermann, Steven J. Benton, Rick Bihary, Shannon Duff et al.
相关性 1/10
评分理由: Cryogenic system design for a CMB balloon experiment; no statistical content.

36. 2606.28901 — Characterization of the RF Board for microwave SQUID multiplexing readout electronics¶

作者: Junbo Wang, Xiangxiang Ren
相关性 1/10
评分理由: Unrelated: describes hardware for microwave SQUID readout, no statistical or methodological overlap.

37. 2606.28180 — Radiation tolerance of a diamond radiation detector for space use¶

作者: Yoshiyuki Ando, Shutaro Ueda, Ryota Heibatake, Kaito Ozawa, Makoto Arimoto, Tatsuya Sawano et al.
相关性 1/10
评分理由: Unrelated to primary or secondary interests; pure detector engineering for space.

38. 2606.28051 — The performance of the TA\(\times\)4 surface detector array: 4.3 years of the first-half expansion¶

作者: Telescope Array Collaboration, R. U. Abbasi, T. Abu-Zayyad, M. Allen, J. W. Belz, D. R. Bergman et al.
机构: Loyola University Chicago · University of Utah · Osaka Metropolitan University · Hanyang University · Institute of Physics, Academia Sinica · The University of Tokyo · FZU ‒ Institute of Physics of the Academy of Sciences of the Czech Republic · Ensenada Institute of Technology 等
相关性 1/10
评分理由: Unrelated to primary or secondary interests; cosmic-ray detector performance report.

39. 2606.27664 — A Dual-Burst Geometrical Prescription for Concurrent Signaling¶

作者: Naoki Seto
相关性 1/10
评分理由: Unrelated to primary or secondary interests; SETI technosignature geometry paper.

40. 2606.27590 — Laboratory characterization of a multi-photonic lantern optical waveguide using off-axis holography¶

作者: Aditya R. Sengupta, Benjamin L. Gerard, Dominic Sanchez, Matthew DeMartino, Rebecca Jensen-Clem, Kevin Bundy et al.
相关性 1/10
评分理由: Pure experimental optics/astronomy instrumentation; no statistical methodology or data analysis problem.

41. 2606.27585 — Experimentally-determined performance limits for joint imaging and wavefront sensing with a photonic lantern¶

作者: Aditya R. Sengupta, Vincent Chambouleyron, Rebecca Jensen-Clem, Emiel Por, Benjamin L. Gerard, Jordan Diaz et al.
相关性 1/10
评分理由: Experimental wavefront sensing; no statistical or causal inference content.

42. 2606.27060 — The Line Emission Terahertz Observatory (LETO): Exploring the lifecycle of the ISM and the origins of water¶

作者: Dimitra Rigopoulou, Peter Roelfsema, William Grainger, Chris Pearson, Boon-Kok Tan, Wouter Laauwen et al.
相关性 1/10
评分理由: Astronomy mission design; no statistical or data analysis content.

43. 2606.29086 — Stabilization without Inclusive Development: Neoliberalism, Economic Liberalization, Poverty, and Inequality in Bolivia¶

作者: Ricardo Alonzo Fernandez Salguero
相关性 0/10
评分理由: Pure economic history with no statistical methodology, data analysis, or causal inference framework.

44. 2606.26996 — How to access astronomical observation facilities ?¶

作者: Michaël De Becker
相关性 0/10
评分理由: Guide to telescope time proposals; unrelated to any research interest.

Maintained by 陈星宇 · Homepage · Source on GitHub

2026-06-29 每日 arXiv 资讯¶

⭐ 高相关论文（按主题分组）¶

因果推断 (causal_inference, 6 篇)¶

1. 2606.30918 — Cross-Fitted Survey-Weighted TMLE with Design-Based Variance for Causal Machine Learning¶

2. 2606.28741 — Inferring Comprehensive Cohort Causal Effects in the Presence of Unmeasured Confounding and Missing Outcomes¶

3. 2606.30976 — Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶

4. 2606.29076 — Learning heterogeneous treatment effects under principal stratification¶

5. 2606.29009 — Generated outcomes as generated regressors: Equivalences in recursive causal estimation¶

6. 2606.29691 — Causal Inference Using Factor Models¶

📌 中相关论文（按主题分组）¶

因果推断 (causal_inference, 3 篇)¶

1. 2606.30615 — Tuning-Free Efficient Estimation for Multi-Source Data via Covariance-Aware Shrinkage¶

2. 2606.28774 — Measurement Induced Confounding¶

3. 2606.28685 — Inverse Probability Weighting in a Post-Bayesian World¶

非参数 / 半参数 (nonparam_semipara, 3 篇)¶

1. 2606.30000 — Adaptive nonparametric regression from repeated measurements under common noise¶

2. 2606.29109 — Posterior concentration and adaptation of the mixing measure in Dirichlet process mixtures¶

3. 2606.30864 — Analysis of gradual changes in nonparametric regression based on a new optimization method in the non-unique case¶

数理统计 / 假设检验 (hypothesis_testing, 10 篇)¶

1. 2606.29732 — Testing hypotheses via orthogonalization¶

2. 2606.30375 — Multiple testing with the horseshoe¶

3. 2606.30982 — Simultaneous confidence bands for cumulative hazard via exchangeable bootstrap and box calibration¶

4. 2606.30981 — Universal Inference for model selection on networks¶

5. 2606.29021 — Beta-trees for testing multivariate goodness-of-fit and localizing deviations from a model¶

6. 2606.30866 — A data-dependent DKW inequality for regenerative Markov chains¶

7. 2606.30311 — Evaluating HWE and Association in Genome Wide Association Studies: A Unified Procedure¶

8. 2606.30033 — The exact region between Chatterjee's \(ξ\) and Blomqvist's \(β\)¶

9. 2606.30229 — Efficiency of Valid Inferential Models: Choquet-risk Optimal Possibility Measures, and Direct Comparisons¶

10. 2606.28730 — Full Conformal Prediction under Stochastic Non-Conformity Measure¶

统计计算 / 算法 (stat_computing, 2 篇)¶

1. 2606.30958 — Exponential-Family Tensor Completion via Nonconvex Dual Total-Variation Regularization¶

2. 2606.29798 — Scalable coarse-to-fine spatial downscaling¶

天体统计 (astrostats, 12 篇)¶

1. 2606.30620 — Gaussian processes on ray-guided transformed uniform grids for fast, flexible, and auto-differentiable adaptive source reconstruction in lens modelling¶

2. 2606.29367 — PIE-ADA: Physics-Informed Ensemble with Adaptive Data Augmentation for Photometric Transient Classification¶

3. 2606.29138 — A Covariance-Aware Framework for Spatially Resolved Exoplanet Biosignature Inference with the Solar Gravitational Lens¶

4. 2606.30286 — Streak detection in the VST/OmegaCAM archive using deep learning¶

5. 2606.29300 — SPICE: Scintillation Pipeline for Interferometric Candidate Extraction¶

6. 2606.29039 — Neural posterior estimation of Galactic Binary signals for the LISA mission¶

7. 2606.28822 — TOA_SP: A Multi-Strategy Framework for Single-Pulse Timing¶

8. 2606.30897 — SAOImageDS9: An Essential Tool for Astronomical Exploration¶

9. 2606.30855 — Deep Learning for Astrophysics: An Open Textbook from the NASA Cosmic Origins AI/ML Science and Technology Interest Group¶

10. 2606.28875 — Energy estimation of cosmic rays by air shower radio signals¶

11. 2606.28721 — VLBI-Enabled Localization of Continuous GW Sources¶

12. 2606.28523 — A Scalable Path to Astrometric Exomoon Discoveries with the Nautilus Space Observatory¶

经济理论 / 应用 (econ_theory, 4 篇)¶

1. 2606.29833 — Sensitivity, Informativeness, and Misspecification in GMM Estimation¶

2. 2606.29063 — Second-Generation Heterogeneous Panel Data Model with Individual and Common Shocks¶

3. 2606.30040 — The Shape of Macroeconomic Beliefs¶

4. 2606.28848 — Literature Review and Evidence Aggregation: a Toolkit for Applied Micro¶

其他 (other, 11 篇)¶

1. 2606.29658 — Multi-Source Transfer Learning of Sparse Single-Index Models¶

2. 2606.29631 — Beyond Local Independence: High-Dimensional Latent Class Graphical Models with Shared Block Structure¶

3. 2606.30018 — Error bounds for simultaneous Wasserstein contractive adaptive increasingly rare MCMC¶

4. 2606.29105 — Panel Flow Matching: A Generative Approach to Learning Distributions of Longitudinal Data¶

5. 2606.30289 — Structural functional identifiability and model discovery in differential equation models¶

6. 2606.30399 — Multiscale Dynamic Dependence Estimation over Networks¶

7. 2606.29931 — Beyond Equidistant Assumptions: An Autoregressive Ordered Stereotype Model for Ordinal Time Series¶

8. 2606.29448 — Scalable Bayesian Spatial Mixture Modelling for Remote Sensing Image Segmentation¶

9. 2606.29114 — Multivariate Varying-Coefficient BART with Graphical Horseshoe Priors¶

10. 2606.28738 — Composition as Direction: An Active-Set Ray-Based Model for Sparse High-Dimensional Compositional Data¶

11. 2606.30443 — Parameter estimation in a fully coupled partially observed Ornstein-Uhlenbeck process¶

🗂 其他论文（仅 LLM 评分，未生成摘要）¶

1. 2606.29784 — HERO: Improving the Reliability and Sensitivity of Generative Model Evaluation Using Historical Data¶

2. 2606.29524 — Modelling and detecting mild and gross anomalies in circular data via double-contaminated models¶

3. 2606.28540 — Choosing the threshold in extreme value analysis¶

4. 2606.27638 — Fast Approximate MM-Estimation for Outlier Robust Model Selection¶

5. 2606.30621 — Minimax approach to the estimation problem for homogeneous random fields¶

6. 2606.29998 — Optimal Posterior E-values with Non-Convex Parameter Sets with Applications to Voting Systems¶

7. 2606.28670 — MACROCAST: A Vintage-Consistent Time Series Foundation Model for Real-Time Macroeconomic Forecasting¶

8. 2606.30029 — ESOFinder: an LLM-powered tool to help users navigate ESO documentation¶

9. 2606.30691 — Assessing the Predictability of \(δ\) Scuti Variable Stars for Spacecraft Navigation¶

10. 2606.28101 — In-flight calibration of the Wide-field X-ray Telescope on board the Einstein Probe¶

11. 2606.29041 — On Modeling Cylindrical Data with a Discrete Circular Component and Its Environmental Applications¶

12. 2606.28015 — Bayesian Simultaneous Credible Bands for Polynomial Regression¶

13. 2606.27046 — Conditional Leibniz Derivative Estimation with an Application to American Call Min-Options¶

14. 2606.26774 — End-to-end probabilistic hierarchical forecasting of large hierarchies via probabilistic top-down¶

15. 2606.29923 — Revisiting "A universal model for the Lorenz curve with novel applications''¶

16. 2606.29756 — Modeling Mode and Departure Time Responses to Congestion Pricing: A Spatial and Behavioral Analysis Using Cross-Nested Logit Model¶

17. 2606.29018 — Liquidity-Based Audit of Algorithmic Trading Strategies¶