2026-06-30 每日 arXiv 资讯¶

高相关论文 11 篇 · 中相关 70 篇 · 其他 50 篇 · 会议/Seminar 事件 0 条

⭐ 高相关论文（按主题分组）¶

因果推断 (causal_inference, 10 篇)¶

1. 2606.31190 — Semiparametric Efficiency in Sequential Experiments: Characterization and Design via Average Propensity¶

作者: Jiachun Li, David Simchi-Levi
相关性 9/10 · novelty: new_theory
摘要: 本文研究序贯实验（sequential experiments）中因果估计量的半参数效率基准。在非独立同分布设定下（自适应分配、协变量平衡、曝光/公平/预算约束），作者引入平均倾向得分（average propensity score）概念，并证明正则局部无偏估计量的可达精度受限于该诱导倾向得分下的 i.i.d. 效率基准。平均倾向得分因此成为统一的设计目标，序贯实验设计可视为选择或学习一个高效的分配规则，操作约束通过可行集进入。方法上，作者提出两种可实现的批式自适应设计：第一种基于高效影响函数的回归调整，对一般光滑 estimand 在标准 nuisance 率条件下达到基准，对线性泛函达到尖锐二阶率；第二种通过自适应协变量平衡达到同一基准，支持简单的矩估计。两种方法均只需少量策略更新，兼容延迟反馈。数值实验和 AI 医疗助手评估的实证研究展示了实际效率提升。该框架对您的主要兴趣——因果推断中的效率理论（半参数效率界、debiased ML）和序贯实验设计——有直接的方法论连接。
关键技术: semiparametric efficiency bound, average propensity score, efficient influence function, adaptive covariate balancing, batched adaptive design, regression adjustment
为什么对您有用: 直接连接您 primary interest 中的因果推断效率理论：本文在序贯实验这一非 i.i.d. 设定下建立了半参数效率基准，核心工具是平均倾向得分和高效影响函数，与您熟悉的 semiparametric theory 和 estimation theory in causal inference 高度吻合。从技术武器库看，您可以用 very_familiar 的 minimax bounds 和 nonparametric statistics 验证其声称的尖锐二阶率是否紧，或用 moderately_familiar 的 semiparametric theory 分析其影响函数在非标准 nuisance 率下的行为。中期可做：若想将本文的框架推广到更复杂的 estimand（如 mediation、proximal CI），需先在 moderately_familiar 的 identification theory in causal inference 上长肌肉，理解序贯设定下 negative control 的识别条件。

2. 2606.30918 — Cross-Fitted Survey-Weighted TMLE with Design-Based Variance for Causal Machine Learning¶

作者: M. Ehsan Karim
相关性 9/10 · novelty: new_method
摘要: 本文在分层多阶段抽样设计下研究总体平均处理效应（ATE）的估计，采用survey-aware TMLE，其方差通过影响函数的Taylor级数线性化得到，以初级抽样单元为复制单元。核心理论结果是：当灵活学习器跨越Donsker边界时，单次拟合的survey TMLE会严重欠覆盖（覆盖率低至0.22），而仅在聚类层面进行交叉拟合才能恢复有效推断；内部聚类感知的交叉验证不能替代交叉拟合。在多种模拟设计（多PSU和类似NHANES的设计）中，交叉拟合估计器的覆盖率维持在0.93-0.95，而单次拟合和内部交叉验证估计器仅约0.89-0.91和0.85-0.88。作者证明了在给定条件下渐近正态性和线性化方差的设计一致性，并通过四个NHANES分析和开源软件展示了方法。对您而言，该工作直接连接因果推断中的survey-weighted估计和debiased ML，其cluster-level cross-fitting的机制对您熟悉的longitudinal/分层数据中的TMLE应用有直接参考价值。
关键技术: survey-weighted TMLE, cross-fitting at cluster level, influence function linearization, design-based variance estimation, Donsker condition
为什么对您有用: 直接连接您primary interest中的因果推断（survey-weighted ATE估计）和debiased ML（TMLE的交叉拟合）。您very_familiar的estimation theory in causal inference和software development可直接用于复现和扩展其cluster-level cross-fitting机制到您的longitudinal/分层数据场景。中期可做：需在moderately_familiar的semiparametric theory上进一步理解survey-weighted影响函数的线性化细节，但核心交叉拟合机制立即可动手验证。

3. 2607.00222 — Causal Inference for All: Marginal Estimands for Outcomes Truncated by Death¶

作者: Ruixuan Zhao, Mats Stensrud, Linbo Wang
相关性 8/10 · novelty: new_method
摘要: 本文针对纵向研究中结局被死亡截断（truncated by death）的问题，提出了一类新的边际 estimand，旨在同时满足三个要求：面向全人群、具有因果可解释性、且能利用常见的纵向数据。现有方法如幸存者平均因果效应（SACE）仅针对潜在存活子群，而存活期间（while-alive）或复合结局虽适用于全人群但难以解释为对非死亡结局的因果效应。作者引入单世界边际可分离效应（single-world marginal separable effects），将条件可分离效应推广为全人群汇总。在识别和估计方面，文章给出了基于可交换性、一致性等假设的识别条件，并提出了相应的估计方法。通过一项前列腺癌试验的再分析，展示了不同 estimand 如何导致不同的治疗结论。该工作直接连接您对因果推断中 identification 和 longitudinal 设定的兴趣，特别是处理死亡截断这一实际流行病学常见问题。
关键技术: separable effects, truncation by death, marginal estimands, survivor average causal effect, longitudinal causal inference
为什么对您有用: 直接对应 primary interest 中的 causal inference 子方向，特别是 longitudinal 设定下 outcomes truncated by death 的 identification 问题。您可以用 very_familiar 的 estimation theory in causal inference 工具来审视其估计量的渐近性质（如是否可达到 n^{-1/2} 收敛率），并进一步用 moderately_familiar 的 semiparametric theory 推导其效率界。立即可做：用您熟悉的非参估计和因果推断估计理论，验证其估计方法在有限样本下的表现或提出改进的 DR 估计量。

4. 2606.31954 — A Conformal Selection Framework for Individual Treatment Beneficiaries with Auxiliary External Data¶

作者: Jiajun Liu, Ke Zhu, Xiaofei Wang
相关性 8/10 · novelty: new_method
摘要: 本文提出一个模型无关的共形推断框架，用于在个体化治疗中识别受益患者。核心设定是将基于CATE的治疗获益选择转化为多重检验问题：对每个候选患者检验条件治疗获益是否超过临床有意义阈值，并利用RCT数据校准构造共形p值。随后通过Benjamini-Hochberg过程调整p值以控制FDR。为提高效率，外部数据（如RWD）可用于训练灵活的治疗效应模型，但共形校准始终锚定在RCT数据上。该方法可与常规机器学习算法及新兴表格基础模型结合使用。模拟表明框架能维持FDR控制，功效取决于基学习器和外部数据可比性。非小细胞肺癌案例展示了如何识别有限切除手术的获益候选患者以减少过度治疗。对您而言，该工作将共形推断引入CATE-based个体化决策的FDR控制问题，与您的因果推断（个体化治疗效应识别）和假设检验（多重检验）兴趣直接相关。
关键技术: conformal inference, conformal p-value, Benjamini-Hochberg procedure, CATE estimation, multiple testing, real-world data augmentation
为什么对您有用: 直接连接您的因果推断兴趣中的个体化治疗效应识别子方向。本文用共形p值做FDR控制，您的武器库中'非参数统计'和'因果推断中的估计理论'可立即用于分析其共形p值的有限样本性质或提出更高效的校准方案（立即可做）。

5. 2606.30976 — Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶

作者: Ashley I. Naimi, Qianhui Jin, Ya-Hui Yu, Sara M. Parisi, Lisa M. Bodnar
相关性 8/10 · novelty: application
摘要: 本文针对流行病学中高维混杂调整问题，提出使用残差对残差回归（residual-on-residual regression）作为AIPW和TMLE的稳定替代方法。该方法基于部分线性模型，先分别用机器学习拟合结局对协变量、暴露对协变量的条件期望，然后将结局残差对暴露残差做普通最小二乘回归，得到暴露效应的估计。在nuMoM2b出生队列数据（n=7,923）中，估计高蔬菜摄入密度与子痫前期的关联，三种方法结果一致，均显示风险适度降低。模拟表明，当暴露效应近似常数时，残差对残差回归无偏、覆盖接近名义水平，与AIPW/TMLE性能相当，且远优于错误设定的参数模型。在弱阳性假设违背时，若真实效应符合部分线性模型，该方法优于AIPW和TMLE。该方法计算简单、解释性强，为观察性因果推断提供了一种三角验证策略。对您而言，这是因果推断中一种实用的估计方法，尤其适合流行病学应用场景，且其稳定性分析可与您的proximal CI敏感性分析工作形成互补。
关键技术: residual-on-residual regression, partially linear model, augmented inverse probability weighting (AIPW), targeted maximum likelihood estimation (TMLE), machine learning for confounding adjustment, positivity violation
为什么对您有用: 本文直接连接您的primary interest中的因果推断（估计方法）和secondary interest中的流行病学（应用数据集）。技术武器库中'very_familiar'的'nonparametric statistics'和'estimation theory in causal inference'可直接用于理解其部分线性模型假设和残差回归的渐近性质。中期可做：若想将残差对残差回归扩展到异质性处理效应或非线性暴露效应，需先在'moderately_familiar'的'semiparametric theory'上提升，以推导其影响函数和效率界。

6. 2606.29076 — Learning heterogeneous treatment effects under principal stratification¶

作者: Jiaqi Tong, Fan Li
相关性 8/10 · novelty: new_method
摘要: 本文在 principal stratification 框架下研究条件主层因果效应（conditional principal causal effects）的识别与估计，目标是在 always-survivor 等子层内刻画 treatment effect heterogeneity，而非仅关注平均效应。识别策略采用 principal ignorability 假设结合 odds ratio 敏感性参数化，放松了单调性假设。估计方法上，提出一种双重交叉拟合双稳健机器学习器（doubly cross-fit doubly robust machine learner），以解决 principal stratification 固有的嵌套 nuisance 结构。技术核心是 sequential orthogonal learning 结合正则化最小二乘 sieve，推导了 L² 和 uniform 极限理论，建立了 oracle 效率，并构造了 uniform confidence bands。模拟验证了有限样本性能，并在急性肺损伤随机试验中揭示了 always-survivor 子层内治疗效应的异质性模式。对您而言，本文的 nested nuisance 结构与 sequential orthogonal learning 技术直接关联您的 HOIF 和 semiparametric theory 兴趣，且其识别策略（principal ignorability + odds ratio 参数化）为您的 causal inference 工具箱提供了新的 sensitivity analysis 思路。
关键技术: principal stratification, conditional principal causal effects, doubly cross-fit doubly robust estimator, sequential orthogonal learning, regularized least-squares sieve, uniform confidence bands
为什么对您有用: 本文直接切入您的 primary interest 中的 causal inference 子方向，特别是 principal stratification 下的 heterogeneity 估计，与您熟悉的 estimation theory in causal inference 和 semiparametric theory 高度吻合。技术上的 sequential orthogonal learning 和 nested nuisance 结构，可被您的 HOIF（moderately_familiar）工具直接攻击——例如，能否用 higher-order influence functions 进一步降低 nuisance 估计的偏差？此外，本文的 uniform confidence bands 构造方法可迁移至您的 minimax bounds 工作。中期可做：需先在 HOIF 上长肌肉（当前 moderately_familiar），以验证本文的 oracle efficiency 是否可被 HOIF 框架推广至更一般的 nuisance 结构。

7. 2606.29009 — Generated outcomes as generated regressors: Equivalences in recursive causal estimation¶

作者: Wisse Rutgers, Rahul Singh
相关性 8/10 · novelty: new_theory
摘要: 本文研究时间变处理效应、替代变量识别效应和中介效应等递归回归设定下，标准因果估计量的行为。形式化比较了递归plug-in、递归平衡权重和递归双重稳健三种估计量。当每阶段使用OLS拟合时，三种递归估计量在任意有限样本下数值等价，无论模型是否正确设定。在岭惩罚下，双重稳健估计量表现为各阶段惩罚回归与OLS回归混合的向后递归，其中OLS回归的权重随时期数几何衰减。对于一般凸惩罚，推导了每阶段的恒等式。该结果揭示了递归因果估计中生成结果与生成回归变量之间的深层等价关系，对纵向因果推断的方法选择有直接指导意义。
关键技术: recursive regression, doubly robust estimation, balancing weights, ridge penalization, generated outcomes, generated regressors
为什么对您有用: 直接关联primary interest中的纵向因果推断（longitudinal causal inference）和mediation方向。本文的递归回归框架与您熟悉的M-estimation和semiparametric theory工具高度匹配，可用higher-order U-statistics的树宽/张量收缩视角分析递归估计量的计算复杂度。中期可做：在moderately_familiar的HOIF方向上进一步理解递归估计量的高阶影响函数结构。

8. 2606.28741 — Inferring Comprehensive Cohort Causal Effects in the Presence of Unmeasured Confounding and Missing Outcomes¶

作者: Shiyao Xu, Razieh Nabi, Martin Underwood, Daniel Scharfstein
相关性 8/10 · novelty: new_method
摘要: 本文针对混合设计临床研究（RCT + 平行观察性研究 OBS）提出估计综合队列因果效应（CCCE）的方法学框架。目标 estimand 是 CCCE，即结合 RCT 和 OBS 数据的总体平均处理效应，需处理 OBS 臂的未测量混杂和两臂的随机缺失结局。方法基于半参数理论敏感性分析框架，推导了 CCCE 的有效影响函数，并将其参数化为敏感性参数。提出一步偏差校正估计量，允许灵活建模（如机器学习），并建立了 √n 一致性的条件。应用于 TOIB 研究（口服 vs 外用布洛芬治疗慢性膝痛）和模拟研究。对您有用：该工作直接连接 primary interest 中的因果推断（敏感性分析、半参数效率理论），且其一步估计量 + 有效影响函数的构造模式可迁移至您熟悉的 proximal CI 或 IV 设定中的缺失数据问题。
关键技术: efficient influence function, one-step bias-corrected estimator, semiparametric sensitivity analysis, missing at random, unmeasured confounding
为什么对您有用: 直接连接 primary interest 中的因果推断（敏感性分析、半参数效率理论）和效率理论（EIF 推导）。技术武器库中 'semiparametric theory'（moderately_familiar）和 'estimation theory in causal inference'（very_familiar）可直接用于理解其一步估计量的构造和 √n 一致性条件。中期可做：若想将类似框架推广到 proximal CI 设定（如用 negative control 替代敏感性参数），需先在 moderately_familiar 的 'identification theory in causal inference' 上长肌肉。

9. 2607.00219 — Asymptotic Properties of Empirical Quantile-Based Estimators¶

作者: Julien Chhor, Xavier D'Haultfœuille, Jérémy L'Hour, Martin Mugnier
相关性 8/10 · novelty: weaker_assumption
摘要: 本文研究形如 θ₀ = E[F_Y^{-1}∘F_Z(X)] 的参数的推断问题，该参数出现在 Athey & Imbens (2006) 的 changes-in-changes 模型中，属于因果推断中的分位数处理效应估计。作者首先证明了一个 plug-in 估计量 √n 一致且渐近正态，其正则条件比现有结果更弱，尤其允许变量无界。接着提出了一种新的渐近方差估计量并证明其相合性，同样允许无界变量。蒙特卡洛模拟表明，√n 一致与渐近正态的条件在某种意义下是紧的，且新方差估计量比替代方法给出更准确的推断。该工作直接关联到您的因果推断（分位数处理效应、changes-in-changes 模型）和数学统计（渐近理论、假设检验）兴趣，其弱化有界性假设的技巧可能对您处理纵向或高维数据中的类似问题有启发。
关键技术: plug-in estimator, changes-in-changes model, asymptotic normality, variance estimation, quantile treatment effects
为什么对您有用: 直接关联 primary interest 中的因果推断（changes-in-changes 模型是分位数处理效应的重要识别策略）和数学统计（渐近正态性与方差估计）。技术武器库中 very_familiar 的非参统计与高维渐近可直接用于理解其弱假设下的证明技巧。中期可做：将本文的方差估计方法推广到更复杂的因果参数（如 IV 或 proximal CI 中的分位数效应），需先在 moderately_familiar 的识别理论上长肌肉。

10. 2606.29691 — Causal Inference Using Factor Models¶

作者: Jushan Bai, Peng Wang
相关性 8/10 · novelty: new_method
摘要: 本文在面板数据政策干预的因果推断中引入因子模型框架。目标估计量是处理组在政策干预后的平均处理效应（ATT），模型将处理效应刻画为处理组对潜在共同冲击的因子载荷的结构变化，或因子过程本身的变化。该方法不依赖标准平行趋势假设，可处理单个或多个处理单元，并在单元-时间异质性效应无法点识别时聚焦于系统性效应。估计采用主成分方法提取因子，并基于固定或处理依赖的因子过程进行推断。模拟显示覆盖概率接近名义水平。在加州烟草控制与德国统一两个经典应用中，该方法与合成控制法的估计结果大体一致，但能提供正式置信区间。对您而言，本文提供了一个不依赖平行趋势的因果推断新框架，与您因果推断方向中IV与纵向数据设定高度相关，且其因子载荷结构变化的思想可启发您在高维因子模型与因果识别交叉点上的研究。
关键技术: factor model, structural break in factor loadings, principal component estimation, synthetic control comparison, panel data causal inference
为什么对您有用: 本文直接连接您的primary interest中因果推断的纵向数据设定，提出了一种不依赖平行趋势的因子模型替代方案。您的武器库中'高维渐近理论'和'因果推断中的估计理论'可直接用于分析其因子估计的收敛性及处理效应推断的稳健性。中期可做：若您先在moderately_familiar的'识别理论'上深入理解因子载荷结构变化与因果识别的联系，可尝试将本文框架与proximal causal inference中的negative control假设结合，拓展识别策略。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 2606.31593 — High-Confidence Minimax Testing with Prescribed Errors¶

作者: Ilmun Kim
相关性 8/10 · novelty: new_theory
摘要: 本文研究预设两类错误概率（level 和 target type II error）可能很小且量级不同的 minimax 检验问题。经典 minimax 下界通常针对固定错误概率推导，而高置信度结果常施加共同的失败概率，无法区分两类错误的独立作用。作者提出一种基于二元约化的通用下界技术，保留两类错误目标的独立角色，导出两个有向 KL 散度信息需求，分别对应 level 和 target type II error。当两个有向混合散度可控时，它们合并为二元 Jeffreys 散度，导致对 level 和 target type II error 的对数依赖。将该框架应用于高斯序列检验、多项均匀性检验和 Hölder 球上连续均匀性检验，所得下界与相应的高置信度上界匹配，从而建立了常数因子意义下最优的预设错误 minimax 速率。该工作对您的高维统计和假设检验兴趣有直接的方法论价值，其二元约化技术可能为处理非对称错误代价的检验问题提供新工具。
关键技术: minimax lower bounds, prescribed-error testing, binary reduction, directed Kullback-Leibler divergence, Jeffreys divergence, Gaussian sequence testing
为什么对您有用: 直接连接到 primary interest 中的 hypothesis testing 和 minimax 理论。该文的二元约化技术是您 very_familiar 的 minimax bounds 工具箱的一个精巧扩展，可立即用于分析非对称错误代价的检验问题（如因果推断中的敏感性分析）。中期可做：将框架推广到更复杂的非参数检验设定，需先在 moderately_familiar 的 semiparametric theory 上提升对 nuisance 参数的处理能力。

📌 中相关论文（按主题分组）¶

因果推断 (causal_inference, 6 篇)¶

1. 2606.31381 — Improving Efficiency of Regression Analyses by Integrating Data from Population-Representative Surveys: A Model-Assisted Calibration Approach¶

作者: Yanhao Lu, Lingxiao Wang
相关性 7/10 · novelty: new_method
摘要: 本文提出模型辅助校准方法，通过整合多个概率抽样调查数据（如NHANES和NHIS）来提高回归分析的效率。目标是在保留有限总体推断有效性的前提下，利用外部调查的个体级数据或汇总统计量来改进目标调查的回归估计。方法不要求结果模型正确指定，而是通过校准权重实现效率增益。作者建立了估计量的设计一致性，并开发了考虑复杂抽样设计的Taylor线性化方差估计量。模拟和实证研究表明，该方法在保持有效推断的同时能显著提升效率。对您而言，该方法属于因果推断中利用辅助数据提升估计效率的框架，与您的proximal CI和IV等identification工具互补，且其设计一致性和方差估计技术可直接迁移到您的survey-based causal inference工作中。
关键技术: model-assisted calibration, design-consistent estimation, Taylor linearization variance estimation, complex survey sampling, data integration
为什么对您有用: 本文直接关联您的primary interest中的causal inference（identification and estimation），特别是利用外部数据提升估计效率的框架。您的technical arsenal中'nonparametric statistics'和'estimation theory in causal inference'可立即用于分析其校准权重的渐近性质，或扩展至处理非随机缺失的因果参数。中期可做：结合您的'moderately_familiar'中的'identification theory in causal inference'，将方法推广到ATE或ATT的估计。

2. 2606.30615 — Tuning-Free Efficient Estimation for Multi-Source Data via Covariance-Aware Shrinkage¶

作者: Wenbo Jing, Xi Chen, Yaqi Duan, Kaizheng Wang, Yichen Zhang
相关性 7/10 · novelty: new_method
摘要: 本文针对多源数据（一个目标集 + 多个相关源集）下的统计学习效率提升问题，提出了一种无需调参的协方差感知收缩框架。目标是在利用源集信息提高目标集估计效率的同时，控制源集异质性带来的偏差。现有方法要么在多源场景下性能次优，要么未充分利用协方差结构，要么依赖繁琐的调参。作者构造了基于协方差信息的收缩方向，并给出了有限样本风险界，该界显式刻画了收缩量能降低风险的区间，从而实现了完全数据驱动的无调参过程。当有多个源集时，进一步提出顺序收缩算法，按估计的风险降低幅度依次向各源集收缩，在温和条件下渐近达到oracle风险，并保证优于单步收缩。该框架通过局部二次近似推广到光滑M-估计问题。数值实验表明，在源集高度异质时，该方法显著优于竞争方法。对您而言，该文的协方差感知收缩思路可迁移至因果推断中的多源数据融合（如多个观察性研究合并估计ATE），其无调参性质和有限样本保证尤其适合您熟悉的非参数统计与高维渐近分析框架，属于立即可做的方向。
关键技术: covariance-aware shrinkage, finite-sample risk bound, sequential shrinkage algorithm, local quadratic approximation, multi-source data fusion
为什么对您有用: 本文直接关联您primary interest中的因果推断（多源数据融合估计）和非参数统计理论。其协方差感知收缩框架可应用于您熟悉的ATE估计中，利用多个源研究的信息提高目标人群的估计效率，同时控制偏差。您武器库中的非参数统计和高维渐近分析可直接用于验证或扩展其有限样本风险界，属于立即可做的follow-up。

3. 2606.28774 — Measurement Induced Confounding¶

作者: George Perrett, Klint Kanopka
相关性 7/10 · novelty: new_method
摘要: 本文提出“测量诱导混杂”（Measurement Induced Confounding, MIC）概念，指出在观察性研究中，当潜变量（如动机、自我效能）是混杂因素时，若仅用其含误差的测量值（如总分、能力估计值或项目响应）进行校正，会导致ATE估计有偏且置信区间覆盖不正确。作者通过理论分析和模拟实验证明，传统方法（如直接调整项目响应或使用测量模型点估计）无法消除测量误差带来的混杂偏倚。核心解决方案是采用贝叶斯联合估计框架，同时建模测量模型、处理分配模型和结果模型，从而在推断中积分掉潜变量的不确定性。该方法在结构上类似于proximal causal inference中利用negative control变量处理未测量混杂的思路，但聚焦于测量误差而非完全未观测的混杂。对您而言，本文直接关联到因果推断中identification与估计的实践痛点，特别是当混杂变量为潜变量时，传统调整策略的失效机制值得关注。
关键技术: measurement induced confounding, Bayesian joint estimation, latent variable adjustment, measurement error in causal inference, proximal causal inference
为什么对您有用: 本文直接切入因果推断中一个被忽视的识别问题——测量误差作为混杂来源，与您的primary interest“causal inference (identification, estimation, sensitivity analysis)”高度相关。您武器库中“estimation theory in causal inference”和“identification theory in causal inference”可直接用于分析MIC的偏倚方向与大小，而“nonparametric statistics”可帮助评估贝叶斯联合估计对测量模型假设的敏感性。中期可做：若想将MIC纳入proximal CI框架或推导其semiparametric efficiency bound，需先在“semiparametric theory”上长肌肉（当前moderately_familiar）。

4. 2606.28685 — Inverse Probability Weighting in a Post-Bayesian World¶

作者: Owen Thomas, William Denault, Valeria Vitelli
相关性 7/10 · novelty: new_method
摘要: 本文在 post-Bayesian 框架下重新审视逆概率加权（IPW）方法，将其从频率学派中的偏差校正工具重新解释为对统计模型与真实数据生成参数之间的 KL 散度进行重新加权。作者给出了理论收敛性结果和广义信念后验的性质，证明了该方法的合理性。通过两个模拟示例（选择偏差下的推断）和一个大规模真实数据示例（利用前列腺特异性抗原预测前列腺癌死亡率中的系统偏差），展示了 post-Bayesian IPW 在实际中的效用。理论结果与实证结果共同表明，IPW 能够处理此前贝叶斯方法难以解决的一类问题。对您而言，本文提供了一种将因果推断中经典的 IPW 方法与贝叶斯框架结合的新视角，可能对您关注的因果推断（特别是敏感性分析和纵向数据）中的 identification 和 estimation 问题有启发。
关键技术: Inverse Probability Weighting, post-Bayesian inference, Kullback-Leibler divergence, generalized belief posteriors, selection bias
为什么对您有用: 本文连接您的 primary interest 中的因果推断（IPW 是核心估计方法）和数学统计（后验收敛性）。技术武器库中 'estimation theory in causal inference' 可直接用于理解其 IPW 重加权机制，而 'nonparametric statistics' 可用于评估其理论假设的合理性。中期可做：若想将 post-Bayesian 框架推广到您的其他因果设定（如 proximal CI 或 mediation），需先在 'identification theory in causal inference' 上长肌肉。

5. 2607.00188 — Quantile regression with measurement errors¶

作者: Mushan Li, Yanyuan Ma, Liqun Wang
相关性 6/10 · novelty: new_method
摘要: 本文研究协变量含正态测量误差的一般分位数回归模型的估计问题。目标是在经典误差模型下，对线性或非线性分位数回归中的回归系数进行一致估计。作者通过核平滑处理分位数回归目标函数的不连续性，并利用复域延拓和矩生成函数技巧克服分位数回归固有的非线性。所提估计量在温和条件下达到根n一致性和渐近正态性，这是首个针对一般分位数回归模型在正态测量误差下的一致估计量。模拟和日本樱花开花日期实例验证了方法的有限样本表现。该工作为测量误差下的分位数推断提供了可操作的框架，对因果推断中处理变量测量误差的敏感性分析有直接参考价值。
关键技术: kernel smoothing, complex-domain extension, moment generating function, root-n consistency, measurement error model
为什么对您有用: 该论文直接关联您的因果推断兴趣中的测量误差问题，特别是处理变量或协变量含经典测量误差时的识别与估计。您武器库中'非参数统计'和'因果推断中的估计理论'可直接用于理解其核平滑和渐近理论，而'逆问题'经验有助于评估其误差模型假设的合理性。中期可做：将本文的复域延拓技巧与您的HOIF工具结合，推广到更一般的非参数分位数处理效应估计。

6. 2606.30992 — Hierarchical Clustering As a Novel Solution to the Notorious Multicollinearity Problem in Observational Causal Inference¶

作者: Yufei Wu, Zhiying Gu, Alex Deng, Jacob Zhu, Linsha Chen
相关性 6/10 · novelty: new_method
摘要: 本文针对观测性因果推断中经典的多重共线性问题，提出一种基于层次聚类的数据聚合方法。在回归框架下，高度相关的自变量使得个体效应的分离识别困难，而现有收缩估计或主成分回归等方法虽能改善预测，却无法保留原始因果关系的解释性。作者以营销混合模型（Marketing Mix Model）为应用场景，利用地理单元（geo-level）的广告支出相关性进行层次聚类：先对地理数据进行标准化和去趋势，再计算两两距离，将中等至强相关的单元聚为一类，从而在聚合后的数据上降低共线性。聚类后的数据用于贝叶斯营销混合模型，通过描述性证据和回归分析验证了该方法能有效缓解共线性，并有助于分离不同广告渠道的因果效应。该方法不依赖特定的估计器，可推广至其他存在多重共线性的因果问题。对您而言，本文提供了一个处理高维相关协变量时识别因果效应的实用技巧，尤其适用于您因果推断兴趣中的纵向或面板数据设定，且其聚类+贝叶斯建模的思路可与您熟悉的非参数统计和M估计理论结合，探索更一般的识别策略。
关键技术: hierarchical clustering, Bayesian Marketing Mix Model, geo-level aggregation, collinearity reduction
为什么对您有用: 本文直接关联您 primary interest 中的因果推断（identification 与 estimation），特别是处理高维相关协变量时的识别问题。您的技术武器库中“非参数统计”和“估计理论”可用于分析聚类聚合对估计偏差与方差的影响，而“M估计理论”可帮助形式化该方法的识别条件。中期可做：需先在 moderately_familiar 的“identification theory in causal inference”上深入，以严格刻画聚类后 estimand 的因果解释（如是否仍对应 ATE 或条件效应）。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶

1. 2606.29631 — Beyond Local Independence: High-Dimensional Latent Class Graphical Models with Shared Block Structure¶

作者: Seunghyun Lee, Yuqi Gu
相关性 5/10 · novelty: new_method
摘要: 本文针对高维有序分类数据，提出了一种突破传统局部独立性假设的潜类图模型。模型通过引入共享的变量块划分，允许每个潜类内部存在块结构化的局部依赖，同时保持潜类分析的简洁性。估计方法分三步：先用谱聚类从展平的响应矩阵恢复潜类，再估计类特异协方差矩阵并聚合以恢复共享块划分，最后估计每个块内的稀疏精度矩阵。作者建立了聚类、协方差估计、块恢复和精度矩阵估计的有限样本误差界，在高维尺度下证明了所有模型分量的端到端一致性。模拟实验显示该方法能准确恢复潜类、共享块划分和类特异依赖图，且计算可扩展。应用于ANES调查数据和HapMap3基因型数据，揭示了可解释的局部依赖结构并控制了潜在异质性。对您而言，该工作的高维谱聚类与协方差矩阵估计技术可直接迁移至您熟悉的高维渐近分析框架，且其块结构恢复问题可尝试用您熟悉的树宽/张量收缩视角分析计算成本。
关键技术: spectral clustering, latent class graphical model, block-structured precision matrix, finite-sample error bounds, high-dimensional scaling
为什么对您有用: 该论文直接关联您的高维统计与随机矩阵理论兴趣，其谱聚类步骤涉及随机矩阵谱分析，协方差与精度矩阵估计的有限样本界是您熟悉的高维渐近工具。技术武器库中'高维渐近'可直接用于验证其误差界的紧性，而'树宽/张量收缩'视角可分析其块恢复算法的计算复杂度。中期可做：需先在 moderately_familiar 的'M估计理论'上加强，以处理其三步估计器的联合收敛性。

非参数 / 半参数 (nonparam_semipara, 6 篇)¶

1. 2606.31057 — Two-stage semiparametric inference for regime-switching jump diffusions with unknown Lévy densities¶

作者: Yuzhong Cheng
相关性 7/10 · novelty: new_method
摘要: 本文研究遍历性体制转换跳扩散过程的高频半参数推断问题，其中连续系数（漂移和扩散）为参数化形式，而各体制的Lévy密度未知。核心困难在于：跳污染了增量，但其分布本身未知，在体制转换模型中基于似然的推断陷入循环。作者提出两阶段方法：第一阶段利用小增量构造截断高斯拟似然估计漂移和扩散参数；第二阶段对大的漂移校正残差按体制分类，并用核平滑方法估计远离零的紧集上的Lévy强度密度，同时用经验体制暴露时间进行归一化。建立了拟极大似然估计的相合性和混合率渐近正态性，并导出了暴露归一化残差密度估计量的L^2(B)收敛速度。模拟表明该方法在体制转换Ornstein–Uhlenbeck模型中的有限样本表现良好。该工作对您在半参数与非参数理论方向有直接参考价值，尤其是其两步估计框架和混合率渐近分析可迁移至您熟悉的非参数统计与M估计理论。
关键技术: truncated Gaussian quasi-likelihood, kernel smoothing, mixed-rate asymptotic normality, regime-switching jump diffusion, high-frequency semiparametric inference
为什么对您有用: 该论文直接关联您的半参数与非参数理论兴趣，其两步估计框架（参数拟似然+非参数核平滑）和混合率渐近分析是您非常熟悉的非参数统计与M估计理论可以攻克的。具体而言，您可以用minimax界验证其L^2收敛速度是否最优，并探讨是否能用更高阶的U-统计量或HOIF改进核密度估计的偏差-方差权衡。中期可做：需先在HOIF上长肌肉以处理跳过程的非光滑性。

2. 2606.30000 — Adaptive nonparametric regression from repeated measurements under common noise¶

作者: Fabienne Comte, Bianca Neubert
机构: Mathématiques Appliquées à Paris 5
相关性 7/10 · novelty: new_method
摘要: 本文研究重复测量数据下存在共同噪声（common noise）的非参数回归函数估计问题。模型设定为每个个体有多次测量，且个体间共享一个共同噪声成分，这导致观测数据具有特定的协方差结构。作者提出一种投影估计器，通过最小化考虑了该协方差结构的加权最小二乘对比函数来估计回归函数。理论分析分别考虑了经验范数和理论范数下的风险，并精确刻画了重复测量次数对估计速率的影响。进一步，作者提出了数据驱动的投影估计器（基于模型选择准则），并建立了其在期望经验范数下的风险界。模拟实验验证了理论结果。该工作为处理具有复杂相关结构的非参数回归问题提供了可操作的方法和理论保证。
关键技术: projection estimator, least-squares contrast, common noise model, model selection, risk bound
为什么对您有用: 本文直接关联到您的主要兴趣——非参数统计与估计理论。其核心问题（在重复测量和共同噪声下估计回归函数）是经典的逆问题与随机噪声设定，属于您非常熟悉的武器库。您可以用 minimax 界来检验其声称的速率是否紧，或考虑将更高阶 U-统计量的树宽/张量收缩视角用于分析其估计量的计算成本。中期可做：若想将方法推广到更一般的协方差结构，可能需要先熟悉 semiparametric theory 中的效率理论。

3. 2606.30864 — Analysis of gradual changes in nonparametric regression based on a new optimization method in the non-unique case¶

作者: Marie Hušková, Natalie Neumeyer, Leonie Selk
相关性 6/10 · novelty: new_method
摘要: 本文考虑一维协变量的非参数回归模型，假设回归函数在协变量支撑左侧恒为零，然后在某个未知点开始逐渐变化。目标是估计这个渐变点。作者定义并比较了多种基于新通用优化方法的一致估计量，该方法适用于目标函数的最小化点不唯一的情形。讨论了估计量的收敛速度，以及基于渐变结构估计回归函数的方法。还探讨了Bootstrap偏差近似，并推广到两样本情形（两个连续回归函数先相等，后在某个点开始变化）。对您而言，本文涉及非参数回归中的变化点估计与优化方法，与您的非参数统计和M估计理论兴趣直接相关。
关键技术: change point estimation, nonparametric regression, M-estimation, bootstrap bias correction, optimization under non-unique minimizer
为什么对您有用: 本文直接连接您的非参数统计和M估计理论兴趣，处理了目标函数最小化点不唯一这一非标准情形，这是您moderately_familiar的M-estimation理论中一个值得深挖的细节。中期可做：需先在M-estimation理论（moderately_familiar）上巩固，特别是非唯一最小化点的渐近理论，然后可尝试将本文的优化方法推广到您更熟悉的因果推断设定（如断点回归中的变化点估计）。

4. 2606.29109 — Posterior concentration and adaptation of the mixing measure in Dirichlet process mixtures¶

作者: Filippo Ascolani
相关性 6/10 · novelty: new_theory
摘要: 本文研究 Dirichlet 过程混合模型（DPM）在潜变量空间上的后验渐近性质，重点关注混合测度和聚类行为。在数据由有限混合位置密度生成的良设定情形下，作者证明后验对真实成分数 K 具有自适应性：stick-breaking 表示中超过第 K 个成分的累积质量以 n^{-1/2} 速率消失（忽略多项式慢增长项）。这一结果同时意味着混合测度在 Wasserstein 距离下达到近乎最优的后验收缩率。关键相变现象是：要获得优于 n^{-1/2} 的混合测度逼近精度，所需成分数必须随样本量对数增长。聚类行为方面，聚类数仍对数增长，但落在 K 个最大聚类之外的观测比例以多项式速度消失。最后，这些结果转化为截断近似的后验保证：至少包含 K 个成分的截断可恢复密度和混合测度的最优收缩率，而 O(log n) 个成分是复现精确后验聚类的充分必要条件。本文对您可能有用：其相变分析和自适应收缩率结果与您在高维统计和半参理论中的 minimax 速率研究直接相关，且聚类行为的精确刻画可启发因果推断中潜在类别模型的识别与估计。
关键技术: Dirichlet process mixture, posterior contraction rate, Wasserstein distance, stick-breaking representation, phase transition, truncation approximation
为什么对您有用: 本文连接您的非参/半参理论兴趣，特别是后验收缩率和自适应估计。技术武器库中的 minimax 界工具可直接用于验证其声称的 n^{-1/2} 速率是否紧，而相变分析（对数 vs 多项式成分数）与您在高维统计中熟悉的 phase transition 概念相通。中期可做：若想将此类后验自适应结果推广到因果推断中的潜在类别模型，需先在 moderately_familiar 的识别理论上长肌肉。

5. 2607.00128 — Similarity-Based Prediction for Digital Twins: Panel Data, Theory, and Applications¶

作者: Ruihang Han, Li-Hsiang Lin
相关性 5/10 · novelty: new_method
摘要: 本文针对数字孪生中的序贯面板数据预测问题，提出了一种非参数动态面板预测框架 StaLoP。现有方法常依赖时间邻近性，但当相似输入-输出模式在非相邻时间重复出现或近期面板与目标面板差异较大时，该方法会失效。StaLoP 通过目标局部状态向量表示面板，利用经验差异分数比较历史面板与目标面板以确定相关性权重，并结合协变量局部化进行预测。理论方面，论文推导了偏差-方差刻画、渐近正态性、同时预测带以及用于面板和模型选择的 target-local-GDF 校正 MSPE 准则。模拟和实际应用（包括序列预测、模拟器校准、变量选择和县际迁移流预测）验证了方法的预测性能。该方法对您可能有用，因为它涉及非参数预测、渐近理论以及面板数据，与您的非参数统计和因果推断（纵向数据）兴趣相关。
关键技术: nonparametric prediction, panel data, localization, asymptotic normality, simultaneous prediction bands
为什么对您有用: 本文直接关联您的非参数统计和纵向数据因果推断兴趣。其提出的 target-local 预测框架和渐近理论（偏差-方差、正态性、预测带）是您非常熟悉的非参数统计工具可以攻克的领域。中期可做：将 StaLoP 的局部化思想与您 moderately_familiar 的 HOIF 结合，用于纵向因果推断中的反事实预测。

6. 2606.31465 — Functional Principal Component Analysis for Manifold-Indexed Data¶

作者: Chang Jun Im, Jeong Min Jeon
相关性 4/10 · novelty: new_method
摘要: 本文研究定义在紧致黎曼流形 M 上的函数型主成分分析（FPCA），其中每个观测对象是 M→R 的随机函数，与函数值本身在流形上的情形不同。作者利用测地距离和黎曼体积密度校正，构造了均值函数和协方差函数的本征核估计量，并允许一般化的个体采样频率，包括等权重每观测和等权重每受试者两种方案。理论分析采用 VC 型经验过程条件处理本征核函数类，并结合聚类经验过程相容性条件，使得非 Lipschitz 核在给定假设下仍可处理。建立了均值与协方差估计的一致收敛速率、协方差算子的 Hilbert-Schmidt 和算子范数误差界，以及通过谱扰动得到的特征值与特征函数的收敛速率。结果表明，稀疏到密集的转变由索引流形的本征维数控制，当 d=1 时退化为经典一维边界。仿真（S^1 和 S^2）及 SONICOM 头部相关传递函数分析显示，该方法在忽略本征几何的坐标基线上有适度但一致的改进。对您而言，本文的非参数核估计与经验过程分析技术可直接迁移至高维统计或因果推断中的函数型数据问题。
关键技术: functional principal component analysis, intrinsic kernel estimator, Riemannian manifold, empirical process theory, spectral perturbation, uniform convergence rates
为什么对您有用: 本文属于非参数与半参数理论方向，直接关联您对非参数统计和函数型数据分析的兴趣。其 VC 型经验过程与聚类经验过程条件可被您的 very_familiar 武器库中的非参数统计和 minimax 界技术攻破，用于验证或改进收敛速率。中期可做：若需将方法推广至因果推断中的流形索引数据（如空间因果效应），需先在 moderately_familiar 的 M 估计理论上长肌肉。

数理统计 / 假设检验 (hypothesis_testing, 14 篇)¶

1. 2606.29732 — Testing hypotheses via orthogonalization¶

作者: Ameer Dharamshi, Runjia Zou, Daniela Witten
相关性 7/10 · novelty: new_method
摘要: 本文提出一种全新的假设检验框架，核心思想是通过向原始数据 X 添加并减去由对称移位族生成的外部噪声，将其分裂为 X^(1) 和 X^(2) 两部分。在零假设 H0 下，作者提供了一种通用策略将 X^(2) 关于 X^(1) 正交化，然后检验正交化是否成功，从而得到 H0 的有效检验。该方法仅需极弱的分布假设，不要求预指定选择机制，因此能自然扩展到选择后推断（post-selection inference）场景——只需在 X^(1) 上选择假设，然后在所选零假设下执行正交化。与经典的选择后推断方法（如 data splitting 或 selective inference）相比，本文框架显著放宽了适用条件，无需数据分割或对选择机制的显式建模。案例研究展示了该方法在复杂零假设和选择后推断问题中的灵活性。对您而言，该工作提供了一种新颖的假设检验构造思路，其正交化技巧可能启发您在高维或因果推断场景下设计新的检验统计量。
关键技术: data splitting via noise addition, orthogonalization under null, symmetric shift-family, post-selection inference, valid hypothesis testing
为什么对您有用: 直接连接到 primary interest 中的 hypothesis testing 子方向。该框架的噪声分裂与正交化思路，可尝试用您非常熟悉的 nonparametric statistics 和 high-dimensional asymptotics 工具来刻画其检验功效与最优性。中期可做：若能将此框架与您 moderately_familiar 的 semiparametric theory 结合，可能为因果推断中的敏感性分析或 IV 检验提供新方法。

2. 2606.29021 — Beta-trees for testing multivariate goodness-of-fit and localizing deviations from a model¶

作者: Valerie N. P. Ho, Guenther Walther
相关性 7/10 · novelty: new_method
摘要: 本文提出一种基于 Beta-tree 划分的多元拟合优度检验新方法。Beta-tree 对样本空间进行数据自适应划分，并为每个区域提供有限样本置信区间，用于评估区域概率含量是否与零假设分布一致。该方法特别适用于通过 k-means 聚类构造零分布时的混合模型成分数选择问题。与 Kolmogorov-Smirnov 或 Anderson-Darling 等全局检验不同，Beta-tree 检验能检测局部偏离并定位模型误设区域。模拟和真实数据实验表明，该方法在检测局部偏离方面具有效率优势。对您而言，该工作直接关联数学统计中的假设检验方向，其数据自适应划分和局部偏离检测的思路可启发您在高维或非参数设定下设计更精细的检验统计量。
关键技术: Beta-tree partition, finite sample confidence intervals, goodness-of-fit testing, local deviation detection, mixture model selection
为什么对您有用: 本文直接对应您 primary interest 中的 'hypothesis testing' 子方向，提出了一种新颖的多元拟合优度检验方法。您的技术武器库中 'nonparametric statistics' 和 'minimax bounds for estimation problems' 可用于分析 Beta-tree 划分的适应性和检验功效的 minimax 最优性，属于 'very_familiar' 工具即可攻克的范畴。结论：立即可做——可尝试将 Beta-tree 检验推广至高维或与 U-statistic 结合，以提升对复杂局部偏离的检测能力。

3. 2607.00261 — Worst-Case Maximal Inequalities for Heavy-tailed Random Vectors¶

作者: Woonyoung Chang
相关性 7/10 · novelty: new_theory
摘要: 本文研究重尾随机向量样本均值的 worst-case 上确界范数期望的有限样本上界。目标量是样本均值的 top-k 欧几里得范数的期望，包含坐标最大范数（k=1）作为特例。在坐标方差约束和尾部包络约束下，作者在满足有限 q 阶包络矩条件的分布类上，将 worst-case 值刻画到通用常数级别。类似的上界也在 sub-Weibull 包络类和边际 sub-Weibull 类下得到。技术工具包括重尾随机向量的浓度不等式和包络函数方法。这些结果对高维统计中重尾数据的推断（如构造置信区域）有直接意义，与您的高维统计和假设检验兴趣高度相关。
关键技术: maximal inequality, heavy-tailed random vectors, envelope moment condition, sub-Weibull distribution, coordinatewise maximum
为什么对您有用: 本文直接对应您 primary interest 中的 'high-dimensional statistics' 和 'hypothesis testing' 子方向，特别是重尾设定下高维均值向量的推断问题。您武器库中 'high-dimensional asymptotics' 和 'nonparametric statistics' 的 minimax 工具可直接用于验证本文上界的紧性。中期可做：需先在 'theory of higher-order U-statistics' 上长肌肉，因为重尾设定下高阶统计量的浓度界是自然延伸。

4. 2606.30375 — Multiple testing with the horseshoe¶

作者: Sayantan Banerjee, Ismaël Castillo, Fanny Villers
相关性 7/10 · novelty: new_method
摘要: 该文研究在高维稀疏正态均值模型下，利用连续全局-局部收缩先验（以horseshoe先验为代表）进行多重假设检验的问题。由于此类先验不产生精确零值，无法直接得到后验包含概率，因此传统的FDR控制方法不直接适用。作者提出基于后验的决策规则，适用于一大类连续收缩先验，并通过校准实现FDR控制同时保持高检验功效。理论上证明该方法在稀疏正态均值模型中达到最优检测边界，并实现FDR和FNR的渐近频率控制。方法实现简单，仅需标准后验抽样，模拟实验显示实际FDR和FNR与理论目标高度吻合。应用扩展到高维回归和高斯图模型，展示了方法的广泛适用性。对您而言，该文将贝叶斯多重检验与频率学派最优性结合，其理论分析工具（检测边界、渐近FDR控制）可迁移至您在高维假设检验中的工作。
关键技术: horseshoe prior, global-local shrinkage priors, false discovery rate (FDR) control, optimal detection boundary, posterior-based decision rules, sparse normal means model
为什么对您有用: 该文直接关联您在高维统计与假设检验方面的兴趣，特别是稀疏信号检测中的FDR控制问题。您武器库中'高维渐近理论'和'minimax界'可直接用于验证其声称的最优检测边界是否紧，而'非参数统计'工具可用于分析其决策规则在更一般模型下的表现。中期可做：若先熟悉'moderately_familiar'中的'M估计理论'，可将该贝叶斯决策规则与频率学派M估计方法进行对比研究。

5. 2606.30982 — Simultaneous confidence bands for cumulative hazard via exchangeable bootstrap and box calibration¶

作者: Min Lin, Grzegorz Rempala, Eben Kenah, Qianying Lin
相关性 6/10 · novelty: new_method
摘要: 本文针对右删失数据下累积风险函数的重抽样同时置信带覆盖不足的问题，提出了一种结合交换自助法（exchangeable bootstrap）与箱校准（box calibration）的构造方法。交换自助法对Nelson-Aalen估计的分子和分母进行重加权，保留了其比率结构；箱校准则利用原始与重抽样估计的相邻阶梯值构造上下包络，并测量垂直偏差，从而替代传统的网格校准。理论部分建立了交换自助法的条件弱收敛性，并证明了箱校准与网格校准的一阶渐近等价性，确保置信带渐近达到名义覆盖水平。箱校准在计算上仅需对事件时间网格进行一次额外线性扫描，开销可忽略。模拟实验表明，在多种风险形状和删失水平下，该方法在大多数配置中覆盖最接近名义水平，且出现排名反转：交换自助法在网格校准下覆盖最低，但经箱校准后通常最接近名义水平。本文对您可能有用：该方法涉及重抽样与校准统计量的理论分析，与您在高维统计和假设检验中的兴趣相关，尤其是其弱收敛证明和渐近等价性结果可迁移至其他非参数推断问题。
关键技术: exchangeable bootstrap, box calibration, Nelson-Aalen estimator, conditional weak convergence, simultaneous confidence bands
为什么对您有用: 本文直接关联您对假设检验和非参数推断的兴趣，特别是重抽样方法在置信带构造中的理论分析。您的技术武器库中'非参数统计'和'高维渐近理论'可直接用于评估其弱收敛证明和渐近等价性结果，属于立即可做的范畴。此外，箱校准的计算效率与您的'统计计算'兴趣相符，可进一步探索其在高维或复杂数据结构下的扩展。

6. 2606.30981 — Universal Inference for model selection on networks¶

作者: Eric Yanchenko, Jonathan P. Williams, Ryan Martin
相关性 6/10 · novelty: new_method
摘要: 本文针对网络数据中的模型选择与假设检验问题，提出基于通用推断（Universal Inference）的框架。核心挑战在于网络观测通常只有一个实现且节点间存在复杂依赖，传统方法需针对特定模型设计且仅提供渐近保证。作者通过边采样（edge splitting）将单个网络拆分为两个子图，构造出满足有限样本下第一类错误控制的 e-value 检验统计量。这是首个基于依赖数据分割的通用推断统计量，也是首个在网络假设检验中给出有限样本保证的方法。理论上证明了统计量对数在备择假设下发散至无穷，覆盖多种随机图模型和社区数选择任务。模拟与真实网络实验表明，该方法在随机图模型选择与社区数确定上表现良好。对您而言，该工作将通用推断从独立同分布数据拓展至依赖网络结构，其有限样本保证思路可迁移至您熟悉的因果推断中依赖数据的假设检验问题（如纵向数据或网络干预的敏感性分析），且 e-value 框架与您熟悉的 minimax 界和 U-统计量理论有潜在交叉。
关键技术: Universal Inference, e-value, edge splitting, finite-sample type I error control, network model selection
为什么对您有用: 连接至 hypothesis_testing 兴趣子方向，具体是网络数据下的有限样本检验。您的武器库中 minimax bounds 和 high-dimensional asymptotics 可用于分析该 e-value 统计量的最优性（如检验功效的 minimax 下界），而 higher-order U-statistics 的树宽视角可能为边分割的依赖结构提供更精细的刻画。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以将 e-value 框架推广至半参数模型（如网络因果效应的检验）。

7. 2606.30866 — A data-dependent DKW inequality for regenerative Markov chains¶

作者: Daniel Jerison
相关性 6/10 · novelty: new_method
摘要: 本文针对具有再生结构的马尔可夫链，提出了一个数据依赖的 Dvoretzky-Kiefer-Wolfowitz (DKW) 不等式。目标是在给定再生链的样本路径下，为平稳分布 π 下函数 θ 的累积分布函数 (CDF) 构建均匀置信带。核心方法是利用再生结构将链分解为独立同分布的块，从而将问题转化为经典 i.i.d. 情形，并应用经典 DKW 不等式。关键创新在于置信带宽度的主项可直接从样本路径计算，无需链的收敛速度的先验信息；收敛速度仅影响一个低阶项。这使得结果在链的实际收敛速度远快于理论保证时尤为实用。通过反演，还能得到分位数函数的置信带。该结果属于“经验浓度不等式”范畴，为马尔可夫链蒙特卡洛 (MCMC) 等应用中的分布推断提供了实用工具。对您而言，该工作将经典非参数统计工具（DKW 不等式）推广到依赖数据场景，与您对非参数统计和假设检验的兴趣直接相关。
关键技术: Dvoretzky-Kiefer-Wolfowitz inequality, regenerative Markov chain, empirical concentration inequality, uniform confidence band, quantile function
为什么对您有用: 本文直接关联您对假设检验和非参数统计的兴趣，为马尔可夫链的分布推断提供了理论保证。您武器库中非参数统计的经典工具（如 DKW 不等式）是理解本文的基础，而高维渐近理论中的浓度不等式技巧可用于评估其界的紧性。中期可做：若想将类似思想推广到高维或更复杂的依赖结构，需先在M估计理论上加强，以处理更一般的估计方程。

8. 2606.30311 — Evaluating HWE and Association in Genome Wide Association Studies: A Unified Procedure¶

作者: Stefan Böhringer, Hajo Holzmann
相关性 5/10 · novelty: new_method
摘要: 在病例-对照设计的全基因组关联研究（GWAS）中，通常分别对单核苷酸多态性（SNP）进行关联检验和哈迪-温伯格平衡（HWE）拟合优度检验，并基于任意阈值排除不符合HWE的SNP以避免假阳性。本文提出一种基于条件基因型的统一检验方法，将3×2列联表中的Pearson χ²统计量条件于对照组HWE的χ²统计量，并推导了其渐近分布理论。模拟表明，该方法在多数场景下比两种回顾性竞争方法具有更高的检验功效。另一重要优势是，由于在计算SNP关联p值时已纳入HWE信息，该方法能更好地对SNP进行排序，从而提升后续精细定位的效率。在斑秃研究数据集上的应用验证了该效果。本文的方法使单独的HWE检验变得多余，在功效和可解释性上严格优于标准流程，从而降低复制成本。
关键技术: conditional chi-square test, asymptotic distribution theory, case-control design, Hardy-Weinberg equilibrium, genome-wide association studies
为什么对您有用: 本文属于假设检验方向，与您对数学统计和假设检验的兴趣直接相关。其核心是条件χ²检验的渐近理论，您可以用非常熟悉的非参数统计和高维渐近工具来审视其检验功效的minimax性质。中期可做：若想将此类条件检验推广到更复杂的因果推断设定（如工具变量或中介分析中的平衡检验），需先在中等熟悉的M估计理论上加强。

9. 2607.00224 — Sample Complexities of Estimating Gumbel--Max Watermark Proportions with and without Reduction to Pivotal Statistics¶

作者: Shuwen Chai, Qiaosen Wang
相关性 5/10 · novelty: new_method
摘要: 本文研究在Gumbel-max水印机制下，估计文档中由水印大语言模型生成的比例问题。设定中，每个位置的下一词预测分布是未知且任意的干扰参数，仅需满足非退化条件。作者比较了两种观测模式：完整观测模式下，估计器可观测伪随机向量和所选词；而更常见的简化枢轴统计量模式下，仅观测一维的均匀-贝塔混合分布标量。在简化枢轴模式下，提出了基于Laguerre多项式的估计器，并建立了匹配的信息论下界。在完整观测模式下，提出了事件计数估计器，同样给出了匹配下界，且样本复杂度显著更低。结果表明，尽管简化到枢轴统计量是优雅且广泛使用的程序，但在估计水印比例时并非样本高效。该问题与高维统计中的假设检验和估计理论相关，其下界推导技术（如信息论下界）对您在高维统计和假设检验中的工作有参考价值。
关键技术: Laguerre polynomial estimator, information-theoretic lower bound, pivotal reduction, event-counting estimator, Gumbel-max watermarking, Uniform-Beta mixture
为什么对您有用: 本文直接连接您在高维统计和假设检验中的兴趣，特别是信息论下界的推导方法。您武器库中的'minimax bounds for estimation problems'和'high-dimensional asymptotics'可直接用于分析其下界是否紧，或推广到更一般的混合模型。中期可做：若想将类似方法用于因果推断中的敏感性分析，需先在'moderately_familiar'的'identification theory in causal inference'上提升。

10. 2606.31600 — On Optimal Data Splitting for Split Conformal Prediction¶

作者: Sayan Das, Bahram Yaghooti, Todd A. Kuffner, Soumendra N. Lahiri
相关性 5/10 · novelty: new_method
摘要: 本文研究 split conformal prediction 中训练集与校准集的最优数据分割比例问题。目标是构造具有有限样本覆盖保证的预测区间，并最小化区间长度。在一般设定下，作者推导了对称与非对称损失下长度最优分割比的解析特征。进一步将一般结果特化到线性回归、非参数回归和神经网络等常见回归设定，展示了框架的广泛适用性。还提出了一种基于数据的最优比例选择方法。理论分析揭示了模型相关特征如何决定训练与校准样本的最优分配。合成与真实数据实验验证了所提方法在多种场景下的实用性。对您而言，该工作直接关联到假设检验与不确定性量化，其最优分割框架可视为一种资源分配优化问题，与您在高维统计和因果推断中处理样本分割（如 cross-fitting）的经验有潜在联系。
关键技术: split conformal prediction, optimal data splitting, prediction interval length minimization, finite-sample coverage guarantee, nonparametric regression
为什么对您有用: 该工作直接关联到您的假设检验兴趣（conformal prediction 提供分布自由的有限样本覆盖保证），且其最优分割框架可视为一种资源分配优化问题。您武器库中 very_familiar 的 minimax bounds 和 high-dimensional asymptotics 可用于分析其最优分割比的收敛性质，例如在非参数回归中校准集大小对区间长度的影响是否达到 minimax 最优。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以将结果推广到半参数模型（如部分线性模型）中的 conformal inference。

11. 2606.30033 — The exact region between Chatterjee's \(ξ\) and Blomqvist's \(β\)¶

作者: Jacob Israel Orenday Lares, Marcus Rockel
相关性 5/10 · novelty: new_theory
摘要: 本文在双变量 copula 类上刻画了 Chatterjee 秩相关系数 ξ 与 Blomqvist β 的联合可达区域，证明该区域为 {(x,y)∈[0,1]×[-1,1]: |y|^3 ≤ 2x}。左边界 ξ=|β|^3/2 由一个显式的两带 copula 族 (L_b) 达到，该族通过在中位数处添加符号帐篷函数 g_b 扰动独立性得到；右边界 ξ=1 由确定性保测 copula 达到，且整个区域通过固定 β 的左右边界 copula 的凸组合及 ξ 沿这些组合的连续性获得。文中还给出了该 copula 族的密度、秩相关测度公式及正负依赖性质，并记录了若干自然子类的精确区域。该结果对您可能有用：它提供了非参数秩相关测度之间约束关系的精确刻画，可直接用于假设检验中检验统计量的联合分布边界分析。
关键技术: Chatterjee's rank correlation, Blomqvist's beta, copula region, signed tent function, convex mixture
为什么对您有用: 该论文直接关联您对假设检验的兴趣，特别是秩相关测度的联合分布边界问题。您武器库中的非参数统计与 minimax 界工具可用于验证该区域是否紧，而更高阶 U-统计量的树宽/张量收缩视角可分析 ξ 与 β 作为 U-统计量的计算成本。中期可做：需先在 moderately_familiar 的更高阶 U-统计量理论上长肌肉，以推广至更高维或更一般的秩相关测度。

12. 2606.31296 — Multivariate majorization of continuous statistical experiments¶

作者: Erkka Haapasalo
相关性 4/10 · novelty: new_theory
摘要: 本文研究有限统计实验之间的多元主要化（majorization）问题，目标是在大样本和催化（catalytic）变换下，判断一个实验能否转化为另一个实验。作者将此前二元连续实验和多元离散（矩阵）情形的主要化结果推广到标准Borel样本空间上的多元有限实验。核心方法是引入多元Rényi散度的推广形式，并证明这些散度不等式刻画了大样本和催化主要化的充分且几乎必要的条件。技术工具主要来自实代数几何，而非传统的大偏差技术，展示了处理一般样本空间的新路径。进一步，作者证明所有多元广泛单调映射（即多元散度）均可表示为多元Rényi散度的重心组合，并利用这些散度刻画了实验间的最优转化率。对您而言，本文的多元Rényi散度框架与您在高维统计和假设检验中的兴趣直接相关，尤其是其代数几何方法可能为检验问题的信息论下界提供新视角。
关键技术: Rényi divergences, majorization of statistical experiments, catalytic majorization, real algebraic geometry, multivariate divergences
为什么对您有用: 本文属于假设检验与信息论交叉方向，与您对数学统计和假设检验的primary interest直接相关。技术武器库中'minimax bounds for estimation problems'和'high-dimensional asymptotics'可用于评估其多元Rényi散度不等式在检验问题中的紧性。中期可做：需先在'moderately_familiar'的semiparametric theory上熟悉信息论下界工具，才能将本文框架迁移到半参数检验问题。

13. 2606.30229 — Efficiency of Valid Inferential Models: Choquet-risk Optimal Possibility Measures, and Direct Comparisons¶

作者: Max Raner
相关性 4/10 · novelty: new_theory
摘要: 本文在有效可能性推理模型（valid possibilistic inferential models）的框架下，提出以 Choquet 风险作为决策理论准则，用于比较有限样本下不同有效可能性测度的信息量。给定非负惩罚泛函，Choquet 损失定义为该惩罚关于数据依赖的可能性测度的 Choquet 积分，其抽样期望即为 Choquet 风险。关键简化在于将该风险通过轮廓的嵌套 α-截集表达，从而将过程效率与校准置信集的期望表现联系起来。对于集中性惩罚，该准则退化为期望集大小（即期望轮廓体积），因此逐层最优的置信集诱导出 Choquet 风险最优的有效轮廓。论文沿两条经典路径发展最优性理论：一是引入可能性无偏性概念，证明在有效性下等价于诱导置信集与检验的无偏性，从而可将 UMPU 和最精确无偏结果迁移至有效轮廓；二是建立等变极小极大理论，包括高斯位置结果中高斯可能性轮廓关于径向距离损失是 Choquet 风险极小极大的。该构造还将置信风险从可加置信分布扩展到非可加校准推断模型输出，Choquet 损失充当最不利置信损失。最后，论文澄清了效率比较对惩罚的依赖性，并激励了与 Fisher-Rao 几何局部相连的不变规模准则和基于散度的内在损失。
关键技术: Choquet risk, valid possibilistic inferential models, possibility measures, α-cuts, unbiasedness, equivariant minimax
为什么对您有用: 本文直接关联您对假设检验和数学统计的兴趣，特别是通过 Choquet 风险将可能性测度的效率比较转化为置信集期望大小的比较，为有限样本校准推断提供了新的决策理论框架。您武器库中非常熟悉的非参数统计和极小极大界工具可直接用于分析其提出的 Choquet 风险最优性是否在更一般的非参数设定下成立，属于立即可做的 follow-up。

14. 2606.28730 — Full Conformal Prediction under Stochastic Non-Conformity Measure¶

作者: Thanawat Sornwanee
相关性 4/10 · novelty: new_theory
摘要: 研究全共形预测（full conformal prediction）在非一致性度量（non-conformity measure）为随机时的有效性条件。传统理论要求非一致性度量几乎必然满足置换不变性，但现代机器学习训练引入随机性，使得该条件过于严格。已有文献建议将条件放松为“置换不变性在分布意义下成立”，但本文证明该条件并不充分，并给出正确的充分条件：条件独立性与分布意义下的置换不变性（Conditional Independence & Permutation Invariance in Distribution）。该条件涵盖了机器学习中多种随机设定（如随机梯度下降、dropout等）。理论结果通过反例和证明澄清了共形预测文献中的一个常见误解，对共形预测的理论基础有重要修正意义。对您而言，该工作涉及假设检验与预测区间的有效性，与您对数学统计和假设检验的兴趣直接相关。
关键技术: full conformal prediction, permutation invariance, conditional independence, stochastic non-conformity measure, distributional invariance
为什么对您有用: 直接关联您对假设检验的兴趣——共形预测是构造有限样本有效预测区间的通用框架，其有效性条件本质上是置换检验的推广。本文修正了随机设定下的充分条件，属于理论性修正，您可以用您熟悉的非参数统计和假设检验工具（如置换检验的有限样本性质）来理解并评估其证明。中期可做：若想进一步推广到更一般的随机算法（如贝叶斯方法），需先熟悉 moderately_familiar 中的 M-estimation 理论来刻画算法随机性的影响。

统计计算 / 算法 (stat_computing, 5 篇)¶

1. 2606.30018 — Error bounds for simultaneous Wasserstein contractive adaptive increasingly rare MCMC¶

作者: Julian Hofstadler, Daniel Rudolf
相关性 6/10 · novelty: new_method
摘要: 本文研究自适应稀有马尔可夫链蒙特卡洛（MCMC）算法及其时间平均估计量的均方误差界。在同时Wasserstein收缩假设下，推导了显式的误差上界，该假设要求底层马尔可夫核族满足一致收缩性质。方法核心是结合自适应更新策略与稀有重采样机制，通过控制链的混合速度来保证估计精度。技术工具包括Wasserstein距离、耦合论证和自适应MCMC的收敛性分析。数值实验展示了算法在自适应立体图形采样和基于归一化流的Metropolis-Hastings方案中的有效性。此外，针对双重难问题（doubly intractable problems）提出了通用自适应算法并给出了成本分析。对您而言，本文的误差界推导和自适应策略分析可直接用于您在高维统计计算和算法复杂度方面的研究，尤其是统计-计算权衡中多项式时间可达性的理论刻画。
关键技术: Wasserstein contraction, adaptive MCMC, coupling argument, mean squared error bound, normalizing flows, doubly intractable problems
为什么对您有用: 本文直接关联您的统计计算兴趣，特别是MCMC算法的理论误差分析。您武器库中的非参数统计和高维渐近工具可用于验证其Wasserstein收缩假设的普适性，而您对统计-计算权衡的熟悉度可帮助评估该算法在多项式时间可达性方面的实际意义。中期可做：需先在moderately_familiar的M估计理论上提升，以深入理解其自适应策略的渐近效率。

2. 2606.31652 — Statistical Inference for Gaussian Kernel Robust Regression with the gkrreg Package¶

作者: Marcelo R. Portela Ferreira, Eufrásio de A. Lima Neto
相关性 5/10 · novelty: new_method
摘要: 本文针对高斯核稳健回归（GKRReg）方法，填补了其统计推断的理论空白。首先，作者正式证明GKRReg属于redescending M-估计量族，为后续推断奠定基础。其次，基于广义M-估计理论推导了闭合形式的sandwich方差估计量（对应HC0类异方差稳健协方差矩阵），并指出类似HC3的有限样本校正需要收敛IRWLS步骤的加权hat矩阵，作为未来方向。第三，提出一种pairs bootstrap方法，在每次重抽样中重新估计核宽度超参数γ²，以捕捉sandwich估计忽略的变异性。所有方法均在R包gkrreg中实现，该包还提供四种γ²估计器、自动数据驱动选择程序、综合诊断图以及六个来自稳健回归文献的真实数据集。对您而言，本文提供了稳健回归中一个完整推断框架的软件实现，其sandwich方差估计与bootstrap方法可直接应用于您在高维统计或因果推断中遇到的异常值敏感问题，且R包便于快速验证。
关键技术: redescending M-estimator, sandwich variance estimator, HC0 heteroskedasticity-robust covariance, pairs bootstrap, IRWLS (Iteratively Reweighted Least Squares), Gaussian kernel robust regression
为什么对您有用: 本文直接关联您的统计计算兴趣，提供了一个完整实现的R包gkrreg，其sandwich方差估计和bootstrap推断方法可迁移至您在高维或因果推断中处理异常值的场景。您可以用very_familiar的软件开发和M-估计理论快速评估其推断性能，或将其作为稳健回归的基准工具。中期可做：若需扩展至更复杂的因果结构（如IV或纵向数据），需先在moderately_familiar的M-估计理论上深入理解其影响函数形式。

3. 2606.30958 — Exponential-Family Tensor Completion via Nonconvex Dual Total-Variation Regularization¶

作者: Wenfei Cao, Yang Chen, Qibin Zhao, Jinglai Li, Andrzej Cichocki
相关性 5/10 · novelty: new_method
摘要: 本文研究指数族噪声下张量补全问题，目标是从部分观测中恢复张量，并考虑TV正则化的理论性质。提出基于变换L1函数的对偶TV（DTV）正则化器，同时捕捉梯度张量的稀疏性和低秩结构。建立了估计误差的理论上界，在特定条件下达到O(n_3 r_t (max_k s_k^2) log((n_1+n_2)n_3)/n)的收敛阶，并给出了极小化下界分析，表明上界与下界仅差O(max_k s_k^2 / max(n_1, n_2))的对数因子。实验在合成、图像和视频张量数据上验证了方法的有效性。对您而言，本文的张量补全理论与您的高阶U-统计量计算（树宽/张量收缩）有直接技术连接，可探索将DTV正则化与张量收缩复杂度分析结合，用于高维统计推断中的计算效率优化。
关键技术: total variation regularization, tensor completion, exponential-family noise, minimax lower bound, dual-TV regularizer, sparsity and low-rank structure
为什么对您有用: 本文属于统计计算方向，直接连接到您的primary interest中的统计计算（张量补全算法）。您武器库中very_familiar的“高阶U-统计量计算（树宽/张量收缩/einsum）”可用来分析本文DTV正则化器的计算复杂度，特别是张量收缩顺序对算法效率的影响。中期可做：需先在moderately_familiar的HOIF理论上长肌肉，以将张量补全误差分析与高阶影响函数结合。

4. 2606.29798 — Scalable coarse-to-fine spatial downscaling¶

作者: Daisuke Murakami, Yongwan Chun, Takahiro Yoshida, Hajime Seya
相关性 5/10 · novelty: new_method
摘要: 该研究提出了一种可扩展的粗到细空间降尺度方法（CF-DS），旨在解决大规模空间数据降尺度中的计算瓶颈。与传统的区域到点克里金法（ATP kriging）不同，CF-DS 通过合成多尺度局部模型来表征潜在空间过程，避免了协方差矩阵求逆和似然评估，从而大幅降低计算成本。该方法近似满足聚合约束，在蒙特卡洛实验中达到了与 ATP kriging 相当的预测精度，但计算时间显著缩短。在东京都市区电力消耗降尺度的实际应用中，进一步验证了其实用性。CF-DS 已实现为 R 包 spCF，便于使用。该方法对您的主要兴趣——统计计算中的数值方法和算法——有直接参考价值，特别是其通过局部模型合成避免全局矩阵运算的思路，可启发高维或大样本场景下的计算策略。
关键技术: coarse-to-fine spatial modeling, area-to-point kriging, multi-scale local models, aggregation constraint, R package spCF
为什么对您有用: 本文属于统计计算方向，直接对应您 primary interest 中的 'statistical computing (numerical methods, algorithm)'。其核心贡献——通过多尺度局部模型合成避免全局协方差矩阵求逆——是一种典型的计算-精度权衡策略，与您熟悉的 minimax 框架下的计算约束统计有概念上的亲缘性。武器库中 'software development' 和 'high-dimensional asymptotics' 可立即用于分析其计算复杂度与精度之间的 tradeoff（例如，局部模型尺度与全局近似误差的 minimax 界）。本文是 gateway reading 性质，适合作为进入空间统计计算领域的入门读物，值得花时间读全文以理解其算法设计哲学。

5. 2606.27638 — Fast Approximate MM-Estimation for Outlier Robust Model Selection¶

作者: Martin Huang, Samuel Muller, Garth Tarr
相关性 4/10 · novelty: new_method
摘要: 本文针对分层稳健模型选择中迭代求解MM估计量计算量大的问题，提出FAMM（快速近似MM估计量）。FAMM将全数据MM估计的权重直接用于加权最小二乘拟合，避免在每个候选模型上重新迭代求解。通过模拟和NBA数据应用，FAMM在保持模型选择性能的同时实现了显著加速。作者还证明了FAMM满足模型选择一致性的条件。该方法本质上是计算-统计精度权衡的一个具体实例：用一步近似换取速度，但理论保证一致性。对您而言，这是统计计算中“近似加速+理论保证”的典型设计模式，与您对statistical-computational tradeoff的兴趣直接相关。
关键技术: MM-estimation, weighted least squares, robust model selection, computational speedup, model selection consistency
为什么对您有用: 本文属于statistical-computational tradeoff的入门级应用实例：用一步近似（FAMM）替代迭代求解，在保持模型选择一致性的前提下大幅加速。您的武器库中'minimax bounds for estimation problems'和'high-dimensional asymptotics'可直接用于分析FAMM的近似误差与速度增益之间的权衡。中期可做：需先在moderately_familiar的'M-estimation theory'上巩固，才能严格分析FAMM的收敛速率与最优性。

天体统计 (astrostats, 14 篇)¶

1. 2606.30620 — Gaussian processes on ray-guided transformed uniform grids for fast, flexible, and auto-differentiable adaptive source reconstruction in lens modelling¶

作者: Wolfgang J. R. Enzi, Coleman M. Krawczyk, Tian Li, Thomas E. Collett
相关性 7/10 · novelty: new_method
摘要: 本文提出一种用于强引力透镜建模的自适应源重构方法，核心创新是将源建模为均匀网格上的高斯过程，再通过射线追踪的累积分布函数对网格进行变换，得到射线引导的变换均匀网格（RTU grid）。该方法避免了传统自适应网格（如Delaunay三角剖分或Voronoi分箱）的非连续操作，从而保持自动可微性，并允许任意选择功率谱作为正则化。利用快速傅里叶变换在傅里叶空间描述高斯过程，计算效率高。在模拟数据上，RTU网格能以更少的像素（每维约减少一半）达到相当的拟合质量，并提高证据下界（ELBO）。该方法对透镜星系内有无子结构的ELBO差异影响不大。作为一篇天文统计方法论文，它清晰地阐述了数据侧（强透镜图像、射线追踪）和模型侧（高斯过程先验、功率谱正则化），适合作为统计学家进入天文数据分析的入门读物。
关键技术: Gaussian process, fast Fourier transform, adaptive mesh, ray tracing, strong gravitational lensing
为什么对您有用: 本文属于astrostats的gateway reading，对天文统计感兴趣的统计学家而言，它清晰展示了天文数据（强透镜图像）中的核心建模问题（源重构）以及统计方法（高斯过程、FFT）如何解决自适应分辨率需求。武器库中的非参数统计和软件工具可直接用于理解和复现其方法，但需要补充天文背景知识（如射线追踪、透镜方程）才能深入。值得花时间读全文，作为进入天文统计方向的起点。

2. 2606.31627 — Multi-Scale Contrastive Attention for Light-Curve Representation Learning¶

作者: Torsha Majumder, Konstantin Malanchev, Emille E. O. Ishida
相关性 6/10 · novelty: application
摘要: 本文针对当前及下一代时域巡天（如 ZTF、LSST）中数百万条多波段光变曲线的自动分析需求，提出 Astra-CLR，一个基于注意力机制的自监督对比学习框架。该框架以部分光变曲线作为输入序列，通过显式对比短序列与长序列来生成非对称的多尺度时间视图，迫使网络学习鲁棒的“局部到全局”映射策略。此外，引入新颖的多视图晚期融合架构，以高效处理更长、观测次数更多的光变曲线，并适应不同滤光片对应的不同采样节奏。预训练在约 210 万条未标记的 ZTF 光变曲线上进行，所得表征的判别力通过多项逻辑回归分类器评估，在 12 个宽变源类别上达到约 0.70 的准确率；采用标签高效的顶部微调策略后，准确率提升至约 0.77。Astra-CLR 是首个公开可用的、完全基于真实 ZTF 光变曲线训练的多波段时间序列 Transformer。本文清晰展示了数据侧（多波段、非均匀采样、大规模）和模型侧（自监督对比学习、Transformer 架构、多尺度视图）的设定，适合作为统计学家进入天文时间序列分析的入门读物。
关键技术: self-supervised contrastive learning, Transformer, multi-scale temporal views, late fusion architecture, light curve representation learning
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了天文学家关心的科学问题（自动分类变源）以及数据侧的结构（多波段、非均匀采样、大规模），模型侧使用自监督对比学习和 Transformer，统计学家可以理解其方法框架。武器库中的非参数统计和高维渐近工具足以支撑研究者理解其表征学习的统计性质（如对比损失的理论分析），但核心机器（自监督学习理论、Transformer 的注意力机制）不在武器库中，属于暂不可做方向。不过作为入门读物，值得花时间读全文以了解天文时间序列分析的数据特点和常见挑战。

3. 2606.29367 — PIE-ADA: Physics-Informed Ensemble with Adaptive Data Augmentation for Photometric Transient Classification¶

作者: Deba Priyo Guha, Fariya Tabassum
相关性 6/10 · novelty: application
摘要: 针对LSST每晚约1000万条瞬变天体警报的自动分类需求，本文提出PIE-ADA框架，核心挑战是极端类别不平衡（稀有事件<1%）。方法上，利用天体物理驱动的四种数据增强操作（相关噪声注入、宇宙学时间膨胀、波长依赖消光、观测相位偏移）生成物理上合理的合成光变曲线，并施加物理约束防止非真实样本。从六个测光波段提取271个多尺度特征，涵盖统计、时域、峰值、颜色和频域属性。在PLAsTiCC数据集（原始7848个对象增强至8148个，14类）上比较五种分类器，LightGBM取得最优加权对数损失0.5763和80.33%准确率，相比随机森林等基线在对数损失上提升24-49%。全流程计算高效（<37分钟），单对象分类<0.05秒，适合实时处理。本文是典型的应用导向工作，方法学新颖性有限（novelty_flag=application），但数据增强策略和特征工程对统计学家进入天文分类领域是很好的入门材料。
关键技术: physics-informed data augmentation, light curve classification, PLAsTiCC dataset, LightGBM, multi-scale feature extraction, class imbalance handling
为什么对您有用: 本文属于astrostats gateway reading，适合作为统计学家进入天文瞬变分类的入门材料。武器库中'nonparametric statistics'和'high-dimensional asymptotics'可帮助理解其特征提取和分类器选择的合理性，但核心机器（物理增强的具体天体物理模型）不在武器库内，属于暂不可做方向。不过，本文数据增强策略（物理约束下的合成样本生成）对因果推断中的sensitivity analysis或缺失数据插补有潜在迁移价值，值得花时间读全文以了解天文数据结构和分析流程。

4. 2606.29039 — Neural posterior estimation of Galactic Binary signals for the LISA mission¶

作者: Tanguy Delmond, Natalia Korsakova, Thomas Oberlin, Sylvain Marsat, Antoine Basset, Nicolas Dobigeon
相关性 6/10 · novelty: application
摘要: 本文针对 LISA 任务中银河双星引力波信号的参数估计问题，提出基于模拟的推断（SBI）方法。传统 MCMC 在高维、复杂似然面下难以扩展，本文采用条件归一化流作为神经后验估计器，无需显式计算似然。训练数据由专用模拟框架生成，训练后可在秒级生成数千后验样本。实验从窄频带单源逐步扩展到宽频带及双源重叠场景，验证了方法的可扩展性。作为概念验证，双源重叠案例展示了 SBI 处理多源重叠的潜力。对统计学家而言，本文是了解引力波天文学中 SBI 应用的优秀入门读物，清晰呈现了数据生成、模型假设与推断流程。
关键技术: simulation-based inference, conditional normalizing flow, neural posterior estimation, likelihood-free inference
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了 LISA 引力波数据的特点（重叠信号、高维参数空间）和 SBI 的建模逻辑（模拟器替代似然），适合作为统计学家进入该领域的入门材料。武器库中的非参数统计和软件工程经验可直接用于理解其模拟框架与流模型训练；但核心的归一化流架构（如 affine coupling layers）不在当前 arsenal 中，属于 moderately_familiar 之外的新工具，因此暂不可直接复现，但值得花时间读全文以评估方法学迁移潜力。

5. 2606.28822 — TOA_SP: A Multi-Strategy Framework for Single-Pulse Timing¶

作者: Songbo Zhang, Xuan Yang
相关性 6/10 · novelty: application
摘要: 本文针对旋转射电暂现源（RRATs）和快速射电暴（FRBs）等脉冲形态高度可变的射电源，提出了一种无需稳定平均轮廓模板的单脉冲计时方法。传统脉冲星计时依赖模板互相关，但在单脉冲形态和振幅剧烈变化时失效。作者开发了开源Python包toa_sp，直接从PSRFITS搜索模式数据提取到达时间（TOA），实现了参数化轮廓拟合、非参数估计、自适应子带和时间分辨率优化等多策略框架，并提供了经验诊断指标评估模型一致性。在FAST对RRAT J1913+1330的688个单脉冲观测中，该方法相比标准PSRCHIVE模板管道，加权RMS残差降低24%（1.33 ms），且无需剔除异常脉冲。在FRB 20220529爆发测试中，该方法揭示了频带积分轮廓无法捕捉的频率依赖子结构。每脉冲处理时间约7.6秒（10线程CPU），软件已通过pip发布。作为天文统计学的入门读物，本文清晰展示了射电天文数据（脉冲轮廓、噪声结构、选择效应）和建模问题（参数/非参数权衡、计算成本），适合统计学家了解该领域的核心数据挑战。
关键技术: single-pulse timing, parametric profile fitting, non-parametric estimation, adaptive sub-band optimization, empirical convergence diagnostic
为什么对您有用: 本文属于astrostats的gateway reading：它清晰阐述了射电天文中脉冲计时这一核心数据问题（脉冲形态可变性、噪声结构、计算成本），并提供了完整的数据管道和开源软件。研究者若想进入天文统计方向，本文是极佳的入门材料——它不假设天文背景知识，明确交代了数据侧（PSRFITS格式、脉冲轮廓、时间分辨率）和模型侧（参数/非参数选择、残差诊断）。武器库中的非参数统计和软件开发经验可直接用于理解其方法，但当前缺乏天文领域知识，需先阅读本文及引用的基础文献才能独立开展后续工作。

6. 2607.00228 — Leveraging Multimodality for Real-Time Classification of Transients and Variables found by the Zwicky Transient Facility¶

作者: Ved G. Shah, Nabeel Rehemtulla, Adam A. Miller, Sushant Sharma Chaudhary, Michael W. Coughlin, Antoine Le Calloch et al.
相关性 5/10 · novelty: application
摘要: 本文针对 Zwicky Transient Facility (ZTF) 等时域巡天产生的海量警报流，提出实时分类瞬变源和变星的多模态方法。在 ORACLE 框架基础上，引入 ORACLE-2 模型，融合光变曲线、元数据和图像三种模态进行分层分类。在真实数据集（ZTF Bright Transient Survey）上，最佳模型 ORACLE-2 Omni 的 macro F1 达到 0.73，比仅用光变曲线和元数据的模型提升 11%，比仅用光变曲线的模型提升 40%，早期时刻增益最大。在模拟的 ELAsTiCC 数据集上（模拟 LSST 巡天），光变曲线+元数据变体达到 macro F1 0.88，比仅用光变曲线模型提升 13%，性能与当前最优模型持平。文章还量化了性能与吞吐量之间的权衡，识别出多模态方法收益最大的场景。作为一篇应用导向的 astrostatistics 论文，它清晰地展示了数据结构（稀疏光变曲线、多模态输入）、噪声特征和分类任务，适合作为统计学家进入时域天文学分类问题的入门读物。
关键技术: multimodal classification, hierarchical classification, light curve analysis, real-time alert triage, ORACLE framework
为什么对您有用: 本文属于 astrostatistics 的 gateway reading，适合对时域天文学完全陌生的统计学家。它清晰阐述了数据侧（稀疏光变曲线、多模态输入、警报流规模）和模型侧（分层分类、性能-吞吐量权衡），问题本身（实时分类）具有统计方法学改进空间。武器库中的非参数统计和软件工程经验可直接用于复现或改进其分类管道，属于立即可做的入门级阅读。

7. 2606.31720 — Robust CMB polarisation mapmaking with a rotating half-wave plate¶

作者: Wuhyun Sohn, Simon Biquard, Josquin Errard, Radek Stompor
相关性 5/10 · novelty: application
摘要: 本文针对现代CMB实验中旋转半波片（HWP）的偏振制图问题，提出了一种新颖的制图方法POMME。该方法通过边缘化所有相对于偏振计在天空中角度旋转时间尺度变化缓慢的信号，有效抑制了大气辐射和地面杂散等强非偏振污染源。当非偏振信号的变异性时间尺度超过HWP旋转周期的四分之一时，该方法能生成接近最优噪声水平和最小污染的偏振图。此外，若HWP旋转周期足够短于波束尺度穿越时间，该方法还能高效缓解天空强度到偏振的泄漏。POMME已在开源FURAX包中实现，可直接应用于即将开展的地基CMB巡天。本文清晰阐述了数据生成机制（HWP调制、噪声结构）和模型假设（信号时间尺度分离），对统计学家而言是理解CMB偏振数据分析中关键系统效应和制图流程的优秀入门读物。
关键技术: mapmaking, half-wave plate modulation, marginalization over slow signals, systematic effect mitigation, FURAX package
为什么对您有用: 本文属于astrostats的gateway-reading范畴。它清晰阐述了CMB偏振制图中的核心数据挑战（强污染源、系统效应）和模型假设（时间尺度分离），对不熟悉天文的统计学家友好。武器库中的'非参数统计'和'逆问题'可用于理解其边缘化策略的统计性质，但核心问题（HWP调制物理、特定噪声模型）与主要兴趣方向距离较远，属于'暂不可做'——缺乏CMB实验物理和信号处理的具体背景知识。不过，作为了解天文学中一个重要的统计推断问题的入门材料，值得花时间阅读全文。

8. 2606.29138 — A Covariance-Aware Framework for Spatially Resolved Exoplanet Biosignature Inference with the Solar Gravitational Lens¶

作者: Slava G. Turyshev
相关性 5/10 · novelty: application
摘要: 本文针对系外行星生命信号推断问题，提出一个协方差感知的太阳引力透镜（SGL）框架。核心数据产品是从波长依赖的爱因斯坦环测量重建的带时间标记的斯托克斯光谱立方体。作者模拟了30 pc处地球半径行星在0.45-2.40 μm波段的反射光观测，采用(128×128)光栅、128个同步光谱通道，分辨率R≈70，并计算了从650 AU观测时的SGL增益、日冕噪声、仪器背景、驻留时间和重建协方差。在受控群体审计中，结构前向模型失配保持了气体>表面>云/路径>矿物>校准/SGL的区块排序，但将组合条件信息增益降至匹配模型值的0.83。重建协方差括号将(8×8)区域合并增益从7.77降至3.00，意味着驻留时间惩罚达6.7倍。本文清晰阐述了数据侧（光谱立方体结构、噪声、选择效应、尺度）和模型侧（前向模型、似然、潜变量、假设），对统计学家而言是极好的入门读物，展示了天文领域一个真实的数据分析问题——高维光谱立方体的协方差建模与信息增益量化——统计方法（如张量分解、协方差估计）可显著改进。
关键技术: Solar Gravitational Lens, Stokes spectral cube reconstruction, Einstein-ring measurements, forward-model mismatch audit, reconstruction covariance bracket, conditional information gain
为什么对您有用: 本文属于astrostats gateway-reading范畴。作为入门读物，它清晰解释了SGL观测的物理模型、数据生成过程（光谱立方体）和噪声来源（日冕噪声、仪器背景），不预设天文术语，适合统计学家理解。武器库中'非参数统计'和'高维渐近'可支撑理解其协方差建模框架，但核心机器（SGL物理、辐射传输模型）不在武器库内，属于'暂不可做'——需要先学习天文成像和光谱学基础。不过，本文提出的光谱立方体重建与信息增益量化问题本身值得关注，可能启发统计学家开发更高效的张量分解或协方差正则化方法。

9. 2606.28721 — VLBI-Enabled Localization of Continuous GW Sources¶

作者: Keitaro Takahashi, Takuya Akahori, Kenta Fujisawa, Hiroshi Imai, Hajime Kita, Hideyuki Kobayashi et al.
相关性 5/10 · novelty: application
摘要: 本文聚焦于纳赫兹引力波连续波源的精确定位问题。当前脉冲星计时阵列（PTA）对单个连续引力波源的定位不确定度高达数十至数百平方度，无法唯一识别宿主星系、获取红移或进行多信使观测。定位困难的根本原因在于引力波响应包含地球项和脉冲星项，而脉冲星距离的未知使得脉冲星项相位成为自由参数，削弱了三角测量能力。作者提出，若能将少数毫秒脉冲星的距离测量精度提升至亚秒差距（优于引力波波长），则定位不确定度可骤降至约10^{-3}平方度（角分尺度）。实现这一目标需要约10微角秒的视差精度，这已接近甚长基线干涉测量（VLBI）的能力，并有望通过SKA1-Mid的相控阵模式作为灵敏VLBI单元实现。文章评估了VLBI在PTA连续波搜索中的作用，并提出了针对近邻毫秒脉冲星的具体SKA1-Mid观测策略。对您而言，这是一篇典型的astrostats入门读物，清晰展示了天文数据（脉冲星计时、VLBI视差）与统计推断（参数估计、不确定性量化）的接口，适合作为了解该领域的起点。
关键技术: Pulsar Timing Array, Very Long Baseline Interferometry, Continuous Gravitational Wave, Multi-messenger Astronomy, Astrometric Parallax
为什么对您有用: 本文属于astrostats的gateway reading，清晰阐述了天文观测数据（脉冲星计时残差、VLBI视差）的结构和噪声模型，以及定位问题如何转化为参数估计中的不确定性量化问题。您的武器库中'非参数统计'和'高维渐近理论'虽不能直接套用，但理解此类问题有助于您评估是否值得投入时间进入astrostats方向。本文不涉及复杂统计方法，核心是观测策略设计，因此暂不可做——缺少天文数据处理的具体统计工具（如脉冲星计时噪声建模）。

10. 2606.30286 — Streak detection in the VST/OmegaCAM archive using deep learning¶

作者: Elisabeth Rachith, Stephan Hellmich, Vincent Fiszbin, Belén Yu Irureta-Goyena, Andrew Price, Jean-Paul Kneib
相关性 4/10 · novelty: application
摘要: 本文针对地面天文巡天中卫星和空间碎片产生的条纹污染问题，开发了一套基于深度学习的自动检测流水线。目标是在VST/OmegaCAM存档图像中识别并分类这些条纹，以支持空间物体的大规模分析。方法上，首先使用基于霍夫变换查找表的卷积神经网络（HT-LCNN）在原始图像上进行初始条纹检测，然后通过VGG6分类器剔除误报。训练数据结合了手动标注的384,000个图像块和物理模拟的条纹。检测后，进行天体测量校准并与空间跟踪目录交叉匹配。在增强数据集上，检测器F1分数达0.966（验证）和0.958（测试），对信噪比>4的人工条纹检测率超过95%。在2023年真实数据上，分类器将精度从0.783提升至0.990，同时保留97%真阳性并剔除>96%假阳性。应用于一年VST观测数据（1,246,048帧），识别出25,335条条纹，其中超过20%与目录无关，16.9%的图像存在污染。该工作展示了存档数据在碎片监测中的潜力，对您作为统计学家而言，是一篇很好的入门级天文统计应用文章，清晰展示了数据结构和分析流程。
关键技术: Hough transform lookup-based CNN, VGG6-based CNN classifier, data augmentation with simulated streaks, astrometric calibration, cross-matching with catalogue
为什么对您有用: 本文属于astrostats的gateway reading，适合作为统计学家进入天文数据领域的入门读物。文章清晰阐述了数据侧（OmegaCAM图像结构、噪声、选择效应）和模型侧（检测-分类两阶段流水线、模拟数据增强），且问题本身（自动检测弱信号条纹）具有统计方法改进空间。武器库中的非参数统计和软件开发技能可直接用于理解其检测流程，但若要深入改进方法（如处理图像变异性导致的精度下降），需要补充计算机视觉领域的知识，目前暂不可做。

作者: Ahmed Khan, Linyi Hou, Siegfried Eggl
相关性 4/10 · novelty: application
摘要: 本文研究δ Scuti型变星用于航天器自主导航的可行性，核心问题是光变曲线的可预测性如何影响导航定时精度。作者构建了一套计算框架，从Kepler和K2任务中筛选出120颗δ Scuti变星，为每颗星建立归一化通量随时间变化的简单模型，并开发了若干度量指标来量化定时不确定性。模型质量通过TESS观测数据的外部验证来评估。最终识别出32颗候选星，其光变曲线可预测性足以支持航天器导航。该工作属于应用导向的实证研究，方法学上以数据预处理、模型拟合和指标构建为主，未涉及新的统计推断理论。对您而言，这是一篇很好的astrostatistics入门读物，清晰展示了天文数据（光变曲线）的结构、噪声来源和科学目标，但方法学深度有限，您的武器库（非参数统计、高维渐近）在此处暂无直接攻口。
关键技术: light curve modeling, timing uncertainty quantification, Kepler/K2/TESS data analysis, predictability metrics
为什么对您有用: 本文属于astrostatistics gateway reading，清晰展示了天文数据（光变曲线）的结构、噪声和科学目标，适合作为入门读物。但方法学上以简单模型和指标为主，未涉及您武器库中的非参数统计、高维渐近或因果推断工具，暂不可做——核心机器（天文时间序列的统计建模与不确定性量化）不在武器库里，需先熟悉天文数据处理流程。

12. 2606.29300 — SPICE: Scintillation Pipeline for Interferometric Candidate Extraction¶

作者: Jitendra Salal, Shriharsh Tendulkar, Visweshwar Ram Marthi
相关性 4/10 · novelty: application
摘要: 本文介绍 SPICE，一个基于 CASA 的自动化管线，用于在 GMRT 和 uGMRT 干涉数据中通过衍射星际闪烁特征识别脉冲星候选体。管线集成了标志、校准、成像和分类步骤，包括鲁棒的 RFI 剔除、迭代自校准（动态参考天线选择）、PyBDSF 源检测以及基于闪烁的可见度相关搜索分类。作者将 SPICE 应用于 GMRT 存档数据，成功恢复了已知脉冲星（如 PSR 0437-4715）并得到一致的闪烁参数，同时指出非检测案例受 RFI、参考天线选择和闪烁固有变异的影响。SPICE 补充了时域搜索，为干涉数据中可复现的闪烁候选体识别提供了工具，并有望扩展脉冲星搜索范围。对您而言，这是一篇典型的 astrostatistics 入门读物，清晰展示了天文数据管线的结构（数据流、噪声、校准）和科学目标（闪烁参数估计），适合作为了解该领域数据与分析模式的起点。
关键技术: CASA-based pipeline, RFI excision, iterative self-calibration, PyBDSF source detection, scintillation-based visibility correlation
为什么对您有用: 本文属于 astrostatistics 的 gateway reading：它清晰阐述了天文数据管线的结构（数据流、噪声、校准）和科学目标（闪烁参数估计），适合作为了解该领域数据与分析模式的起点。您的武器库（非参数统计、高维渐近）虽不直接用于闪烁物理，但管线中的源检测和分类步骤涉及统计推断问题（如假阳性控制、信号检测阈值），可作为中期可做的切入点。建议先读全文了解数据结构和科学问题，再评估是否有统计方法改进空间。

13. 2606.28875 — Energy estimation of cosmic rays by air shower radio signals¶

作者: Fateme Latifian, Gohar Rastegarzadeh
相关性 4/10 · novelty: application
摘要: 本文针对宇宙线空气簇射的射电信号，提出一种重建初级能量的方法。研究基于CoREAS模拟，对比SURA实验天线阵列与密集参考阵列的电场强度，推导出标度因子Cij。该标度因子与初级能量呈负相关，且对簇射核心位置不敏感，即使核心位于阵列边缘，标度因子仍保持稳定。方法在模拟测试中重建能量的最大误差约为11%。本文属于应用型工作，方法学新颖性有限，主要贡献在于提出一种对核心位置鲁棒的能量重建策略。对于您作为统计学家，本文可作为射电天文学数据分析和信号处理问题的入门读物，但方法本身不涉及您擅长的因果推断或高维统计工具。
关键技术: CoREAS simulations, electric field intensity, scale factor, energy reconstruction, air shower radio signals
为什么对您有用: 本文属于astrostats的gateway-reading范畴。作为入门读物，它清晰描述了射电信号数据结构和能量重建问题，但未涉及复杂的统计模型或推断方法。您的武器库（非参数统计、高维渐近）与本文方法无直接交集，暂不可做后续拓展。若您希望进入astrostats方向，本文可快速了解宇宙线射电探测的基本设定，但无需深入精读。

14. 2606.28722 — Enhancing VLBI Capability with the SKA-Mid and the Jingdong 120-m Radio Telescope¶

作者: Wen Chen, Jun Yang, Zhixuan Li, Yingjie Li, Niu Liu
相关性 4/10 · novelty: application
摘要: 本文介绍了正在中国云南建设的120米全可动射电望远镜JRT的VLBI模块及其与SKA-Mid联合观测的潜力。JRT位于低纬度（24.5°），可覆盖近90%的天空，配备1-8 GHz和6-18 GHz双宽带接收器及标准VLBI后端，预计每年贡献约800小时用于国际VLBI观测。与SKA-Mid相位阵联合时，JRT将显著提升现有VLBI网络的技术能力，例如将毫秒脉冲星距离测量精度提升至<1光年，并实现M60*黑洞事件视界尺度的喷流成像。文章详细描述了JRT的硬件配置、VLBI数据采集流程及联合观测的灵敏度增益计算，但未涉及统计方法创新或数据分析挑战。作为天文仪器介绍，本文清晰阐述了科学目标与观测能力，适合作为统计学家了解VLBI数据结构的入门读物。
关键技术: Very Long Baseline Interferometry (VLBI), phased array, sensitivity analysis, millisecond pulsar timing, event-horizon-scale imaging
为什么对您有用: 本文属于astrostats gateway-reading范畴：它清晰介绍了VLBI观测的数据结构（基线相关函数、相位校准、灵敏度公式）和科学问题（脉冲星测距、黑洞成像），适合统计学家理解天文数据生成机制。武器库中的'nonparametric statistics'和'inverse problems with random noise'可直接用于分析VLBI图像重建中的反问题（如稀疏孔径成像），但本文未提供具体数据集或统计挑战，属于入门级背景阅读。值得花时间读全文以建立VLBI领域的基本直觉，但短期内无法直接动手做方法学工作。

经济理论 / 应用 (econ_theory, 7 篇)¶

1. 2606.29833 — Sensitivity, Informativeness, and Misspecification in GMM Estimation¶

作者: Fangzhou Yu, Seojeong Lee
相关性 7/10 · novelty: new_method
摘要: 本文在 GMM 估计框架下，针对伪真值（pseudo-true value）开发了对模型误设稳健的敏感性和信息量诊断工具。敏感性矩阵在正确设定下嵌套了 Andrews, Gentzkow, and Shapiro (2017) 的结果。信息量指标 Δ 衡量估计量渐近方差中由矩条件抽样变异解释的比例，在正确设定下等于 1，在误设下可能低于 1，即使 Hansen J 检验不拒绝。作者推导了一步、两步、迭代和连续更新 GMM 的影响函数表示，并证明在最小距离估计中，估计最优权重矩阵会引入矩条件无法解释的额外方差，降低信息量，而简单权重矩阵则基本避免此问题。权重矩阵的选择因此涉及经典效率与信息量之间的权衡。在 Berry-Levinsohn-Pakes 汽车需求模型、Blundell-Pistaferri-Preston 消费保险模型和 Acemoglu 等人收入与民主回归三个实证应用中，误设重新排序了敏感性排名，简单权重保留了最优权重丢失的信息量，且 Δ 检测到了 J 检验无法发现的结构效率损失。对您而言，本文是经济理论应用领域一篇方法扎实的实证诊断工作，其影响函数分解思路可迁移至因果推断中的敏感性分析。
关键技术: GMM estimation, misspecification-robust diagnostics, influence function representation, pseudo-true value, Hansen J-test, minimum distance estimation
为什么对您有用: 本文属于经济理论应用方向，是您 secondary interest 中经济理论（应用、模型、因果推断）的优质读物。您的武器库中 'estimation theory in causal inference' 和 'semiparametric theory' 可直接用于理解其影响函数推导和效率-信息量权衡，属于立即可做的 gateway reading。

2. 2606.28848 — Literature Review and Evidence Aggregation: a Toolkit for Applied Micro¶

作者: Peter Ganong, Avik Garg, Maximilian Kasy
相关性 7/10 · novelty: application
摘要: 本文为应用微观经济学家提供了一套元分析工具包，用于从已有文献中汇总效应量、预测新情境下的效应大小，并校正选择性发表偏倚。方法上，它基于随机效应模型和贝叶斯框架，通过重加权先验估计量来利用协变量进行透明预测。校正选择性偏倚时，采用基于极端值分布或选择模型的方法，即使只有三项先导研究也可操作。实证部分覆盖劳动、公共、行为、环境和发展经济学五个子领域，展示了工具包的实际应用。核心发现是，校正选择性偏倚后的平均效应量仅为简单均值的12%–21%，说明发表偏倚在应用微观经济学中影响显著。本文最后提供了实践者指南，适合作为入门级方法学读物。对您而言，这是一篇应用导向的方法论文，其重加权预测和偏倚校正思路可迁移至流行病学或因果推断中的证据聚合问题，但方法学新颖性有限。
关键技术: random-effects meta-analysis, selective publication bias correction, covariate-based reweighting, extreme-value distribution
为什么对您有用: 本文属于经济理论（应用微观）的gateway-reading，适合作为进入元分析方法学的入门读物。武器库中'非参数统计'和'因果推断中的估计理论'可直接用于理解其重加权和偏倚校正机制，但核心方法较为经典，无需额外工具即可消化。值得花时间读全文以获取实证分析模式，但暂不可做直接的方法学拓展。

3. 2606.31685 — Design-Based Inference for Time-Series GMM¶

作者: Thomas Glinnan
相关性 6/10 · novelty: new_method
摘要: 本文研究时间序列 GMM 在“设计不确定性”（design-based uncertainty）框架下的推断问题。传统 GMM 将数据视为来自假设经济体的随机样本，而本文则固定历史环境，仅考虑冲击和工具变量的替代实现。对于局部正确设定的 GMM 估计量，中心矩具有设计长期方差 Ω_R，它决定了有限历史 estimand 的 sandwich 协方差。传统的 HAC 估计量收敛到 Ω_R^+ = Ω_R + Ω_μ，其中 Ω_μ 是中心化均值矩路径的长期方差，因此 HAC 推断对于有限历史 estimand 的标量函数是保守的。本文提出利用预定的协变量进行投影调整，可以在 Loewner 序下减小 HAC 方差极限，并在额外的长期正交条件下得到更紧的保守界。蒙特卡洛证据表明这种区别在定量上很重要。在货币政策应用中，丰富宏观协变量带来的标准误减少为均值矩路径中经济上有意义的可预测变化提供了诊断。
关键技术: Design-based inference, GMM, HAC variance estimation, Projection adjustment, Long-run variance, Sandwich covariance
为什么对您有用: 本文属于经济理论（经济理论）的 gateway reading，为统计学家提供了时间序列 GMM 在固定历史环境下的新推断框架。您武器库中的非参数统计和因果推断中的估计理论可用于理解其设计方差与 HAC 方差的区别，但核心机制（设计不确定性、长期方差分解）需要您先熟悉时间序列 GMM 的基础。本文值得一读，因为它清晰地展示了传统 HAC 推断的保守性，并提供了可操作的协变量调整方法，对您理解经济应用中的因果推断有直接帮助。

4. 2606.29063 — Second-Generation Heterogeneous Panel Data Model with Individual and Common Shocks¶

作者: Hasraddin Guliyev
相关性 6/10 · novelty: new_method
摘要: 本文研究异质性面板数据中平均斜率的估计问题，该面板同时存在由未观测共同因子导致的横截面依赖和发生在不同时点的单位特定结构断点。作者将现有的第二代均值组估计量组织成一个按横截面大小、横截面依赖强度和结构变化性质索引的体制图，并重点考察了适用于应用宏观经济学和能源经济学中常见的小到中等依赖面板的两种估计量。Fourier SUR 均值组（F-SURMG）估计量在似不相关回归系统中加入单位特定的 Fourier 项；而提出的 Fourier 共同相关效应均值组（F-CCEMG）估计量则在 CCE 回归中加入确定性 Fourier 项，在过滤共同因子的同时吸收异质时间断点。蒙特卡洛研究表明，在弱、中、强依赖的各种配置下，F-CCEMG 几乎总是取得最低的均方根误差，且在横截面不太小时达到接近名义的覆盖率；而 F-SURMG 在小 N、弱依赖的角落给出校准最佳的推断。对 G7 国家 1965-2019 年可再生能源-增长关系的应用发现，可再生能源消费对增长没有显著的总体效应。
关键技术: Common Correlated Effects (CCE), Mean Group estimator, Fourier approximation, Seemingly Unrelated Regression (SUR), structural breaks, cross-sectional dependence
为什么对您有用: 本文属于经济理论的应用方向，处理面板数据中共同因子和结构断点并存时的因果参数估计问题，与您的 secondary interest 中的经济理论（应用、模型、因果推断）直接相关。您武器库中的非参数统计和高维渐近理论可用于理解其 Fourier 逼近的误差和 CCE 估计量的渐近性质，但本文核心是计量经济学中的面板数据方法，与您的主要兴趣（因果推断、高维统计）在方法论上距离较远。作为经济理论方向的入门读物，本文清晰阐述了模型设定和估计策略，值得花时间阅读全文以了解该领域的面板数据推断实践。

5. 2606.31930 — Quasi-Bayesian Hierarchical Models¶

作者: Desmond Fairall, Thomas Glinnan
相关性 5/10 · novelty: new_method
摘要: 本文针对分组GMM设定，提出准贝叶斯分层模型（QBHM）。该方法将贝叶斯分层建模与Laplace型估计相结合：保留各组特定的目标函数，同时引入经济上可比参数间的合并项。当研究组数固定时，QBHM估计量（准后验均值）在估计强识别研究参数时具有与GMM相同的渐近分布。对于弱识别研究，通过弱GMM极限实验分析渐近性质：在该渐近近似中，样本矩准则在弱参数空间上保持为随机函数，而上层合并关系诱导出弱值上的先验族。在此实验中，弱极限QBHM规则是层次诱导弱极限先验下平方损失下的贝叶斯规则，为程序提供了决策理论依据。结果还扩展到组内混合块，允许单个研究同时包含强识别和弱识别参数。当偏差-方差权衡有利时，合并可降低相对于非合并估计的点态渐近均方误差。高斯似然、非线性弱GMM和弱IV计算展示了何时发生这种情况，模拟和微型企业应用说明了该方法。
关键技术: Quasi-Bayesian estimation, Laplace-type estimation, weak GMM limit experiment, hierarchical pooling, decision-theoretic justification
为什么对您有用: 本文属于经济理论（应用因果推断）方向，是gateway-reading范畴。它提供了一个将贝叶斯分层思想与GMM框架结合的清晰框架，对您理解弱识别下的合并估计策略有参考价值。武器库中'identification theory in causal inference'和'M-estimation theory'足以支撑理解其核心机制，但弱GMM极限实验的细节可能需要额外学习。本文值得花时间读全文，作为进入经济应用因果推断的入门读物。

6. 2606.30040 — The Shape of Macroeconomic Beliefs¶

作者: Giovanni Angelini
相关性 4/10 · novelty: application
摘要: 本文利用Kalshi预测市场的价格数据，通过将相邻阈值合约转换为通胀结果的概率质量，构建了CPI和核心CPI发布前的高频市场隐含分布。数据揭示了从发布前30天到1小时的市场隐含均值、不确定性和上尾概率。研究发现市场隐含均值包含有意义的预测信息，尤其是对于整体CPI，但主要信号来自分布形态。滞后Reuters调查意外并不系统性地预测Kalshi均值与当前Reuters共识的偏差，但大的滞后意外与更高的隐含不确定性相关，且正的滞后意外会提高固定高通胀结果的概率。在控制当前共识预测后，0.1个百分点的正滞后意外使月通胀高于0.3%的概率提高约4.7个百分点。上尾概率还能预测高通胀状态的实现，包括市场隐含均值接近Reuters共识的时期。证据表明预测市场能提供点预测所遗漏的通胀风险的实时信息。
关键技术: prediction market, implied distribution, threshold contracts, fixed effects regression, surprise analysis
为什么对您有用: 本文属于经济理论（应用因果推断）的gateway reading，展示了如何利用预测市场数据构建高频分布以研究通胀预期。对于您而言，这是一个了解经济数据结构和分析模式的入门材料——武器库中的'identification theory in causal inference'和'estimation theory in causal inference'足以理解其回归识别策略。值得花时间读全文，因为其数据构造方法（从阈值合约恢复分布）和分布信号分析思路可能启发您在高维或因果推断中处理类似分布数据。

7. 2606.29018 — Liquidity-Based Audit of Algorithmic Trading Strategies¶

作者: Irene Aldridge
相关性 4/10 · novelty: new_method
摘要: 本文研究算法交易策略的流动性审计问题，目标是从交易和价格历史中识别策略的净流动性需求，无需知道其信号或优化问题。核心方法是通过精确的多期遗憾分解，证明该统计量的符号可将线性策略分类为净流动性消费者或提供者，从而从可观测数据中恢复Kyle（1985）的知情交易者/做市商二分法。在AR(1)成本过程下，该统计量等于策略规模与Roll（1984）隐含价差平方的乘积，使修正项成为当前非流动性的直接代理变量。扩展到内生价格影响和N个相关策略的聚合，得到流动性平衡条件，其违反会产生N平方量级的福利损失，即一个闭式火售外部性。作者使用CRSP股票数据（2016-2025）进行校准，跟踪COVID-19和2022年利率冲击期间的隐含价差，估计器可在O(Tnd)时间内计算。本文对您作为经济理论应用方向的研究者有用，因为它提供了一个从可观测数据中识别市场微观结构特征的清晰框架，且其遗憾分解方法可能迁移到因果推断中的敏感性分析。
关键技术: regret decomposition, Kyle model, Roll implied spread, liquidity balance condition, fire-sale externality
为什么对您有用: 本文属于经济理论应用方向，直接连接到您的secondary interest中的经济理论（模型、应用因果工作）。它提供了一个从交易数据中识别策略类型的可操作框架，其遗憾分解和福利损失分析可能对您在高维统计或因果推断中的敏感性分析有启发。武器库方面，您对非参数统计和高维渐近的熟悉程度足以理解其核心识别策略，但若要深入其福利损失推导的博弈论基础，可能需要补充微观理论工具（如机制设计），因此属于中期可做——需先在moderately_familiar的识别理论上长肌肉。

其他 (other, 17 篇)¶

1. 2606.29658 — Multi-Source Transfer Learning of Sparse Single-Index Models¶

作者: Ye Tian
相关性 7/10 · novelty: new_method
摘要: 本文提出一种基于单指标模型（SIM）的源数据免共享迁移学习框架，目标是在不访问原始源数据的情况下，利用源域知识提升目标域的学习性能。与现有线性或广义线性模型方法不同，该方法不要求已知链接函数或线性结构，而是通过广义Stein引理仅传递源域的汇总统计量，实现一次通信即可完成知识迁移，从而保护隐私并避免因域间未知非线性链接函数差异导致的副作用。为捕捉灵活的非线性关系，方法利用迁移统计量预估计单指标向量，并以此指导多层感知机（MLP）的训练，有效缓解过拟合。合成数据实验和实际应用表明，该方法在预测性能上一致优于现有基于（广义）线性模型的迁移学习方法。该框架为迁移学习提供了一种实用、隐私保护且适应非线性的解决方案。
关键技术: single-index model, generalized Stein's lemma, summary statistics transfer, multilayer perceptron, privacy-preserving transfer learning
为什么对您有用: 本文属于迁移学习与半参数模型的交叉，与您对半参数/非参数理论的兴趣有间接关联，但核心方法（单指标模型+MLP）与您的主要研究方向（因果推断、高维统计、U统计量）距离较远。作为gateway reading，本文对统计计算和隐私保护迁移学习有清晰阐述，但技术武器库（非参数统计、高维渐近）仅能部分覆盖其理论分析，而核心的迁移学习框架和隐私通信协议并非您的专长领域。暂不可做：核心机器（迁移学习理论、隐私保护机制）不在武器库中，且与您当前研究主线关联度低。

2. 2606.30443 — Parameter estimation in a fully coupled partially observed Ornstein-Uhlenbeck process¶

作者: Sascha Gaudlitz, Hasan Mert Gökalp
相关性 7/10 · novelty: new_method
摘要: 本文研究一个二维 Ornstein-Uhlenbeck 系统，其中仅观测第一坐标，第二坐标隐藏，目标是估计观测坐标漂移中的耦合参数。核心创新在于系统是全耦合的——观测分量影响隐藏分量，而传统部分观测 OU 模型通常假设耦合是单向的。利用线性滤波推导部分观测下的似然函数，并建立统计模型的局部渐近正态性。在 Ibragimov-Hasminskii 框架下，证明了在稳定性和可识别性假设下，随着时间趋于无穷，MLE 的相合性、渐近正态性、矩收敛和渐近效率。该工作属于参数估计的经典渐近理论，与您的主要兴趣（因果推断、高维统计、U-统计量等）无直接交集，但局部渐近正态性框架和滤波技巧在纵向数据因果推断中可能有间接参考价值。
关键技术: local asymptotic normality, Ibragimov-Hasminskii framework, linear filtering, maximum likelihood estimation, partially observed diffusion
为什么对您有用: 本文属于经典参数估计理论，与您的主要兴趣（因果推断、高维统计、U-统计量、统计计算权衡）无直接交集。作为 gateway reading 也不合适——它不涉及 astrostatistics / econ / epi 等次级兴趣领域。武器库中无直接可攻入口。暂不可做。

作者: Sakshi Arya, Abdul-Nasah Soale, Hossein Moradi Rekabdarkolaee
相关性 6/10 · novelty: application
摘要: 本文针对精准农业中氮肥推荐问题，提出了一种基于序贯筛选与分层精炼的层次化推荐程序。研究设定为多地点田间试验，目标是识别最优施肥策略，但面临处理效应空间异质性强、最优附近统计不可区分等挑战。方法首先在较高聚合层进行序贯筛选，剔除明显劣质的施肥方案，然后在幸存候选方案中针对局部区域进行精炼推荐。作者证明了该估计量的渐近性质，并给出了筛选安全的保证。通过多州多年玉米氮肥试验数据验证，发现没有单一施肥方案在全州范围内一致最优，每个州通常有多个推荐方案，最常见的推荐仅覆盖约三分之一到一半的决策单元。该方法在保持竞争性农艺表现的同时，往往能给出比州级或事后基准更低的氮肥总推荐量。本文属于应用导向的方法开发，对您的主要兴趣方向（因果推断、高维统计等）直接关联较弱，但序贯筛选与分层精炼的思路在空间异质性处理上对纵向因果推断中的子组分析有一定启发。
关键技术: sequential screening, hierarchical refinement, multi-site experiments, spatial heterogeneity, asymptotic screening-safety
为什么对您有用: 本文属于农业统计应用，与您的主要兴趣方向（因果推断、高维统计、半参理论）直接关联较弱。序贯筛选与分层精炼的思路在空间异质性处理上对纵向因果推断中的子组分析有一定启发，但核心方法不涉及您武器库中的具体工具（如U统计量、高效影响函数等）。作为应用论文，其多地点试验设计的数据结构值得关注，但方法学新颖性有限，暂不可做——核心机器（序贯决策与空间异质性建模）不在您当前武器库中。

4. 2606.31429 — The Geometry of Statistical Feature Learning in Mean-Field Langevin Dynamics¶

作者: Zong Shang, Tomoya Wakayama, Guillaume Lecué, Taiji Suzuki
相关性 6/10 · novelty: new_theory
摘要: 本文研究监督回归中统计特征学习的几何结构。作者将特征学习定义为一种基-纤维分解：基是训练产生的特征侧几何，纤维是进行估计的学习特征空间。他们证明这一性质在球面平均场Langevin动力学中成立，该动力学被视为负熵正则化经验风险的Wasserstein梯度流。在高斯多指标模型中，低温平稳分布集中在隐藏指标附近，形成多尖峰结构，并以高概率实现参数恢复，尽管负熵正则化惩罚集中性。这种集中性在温度λ≍1处发生尖锐转变。在高斯单指标模型中，平稳测度满足Lévy-Milman集中性质，奇偶性决定其位于S_2^{d-1}还是ℝℙ^{d-1}上。诱导的学习特征空间对齐回归信号，并达到d/N和Md/N的速率（忽略对数因子）。
关键技术: mean-field Langevin dynamics, Wasserstein gradient flow, multi-index model, Lévy-Milman concentration, feature learning geometry
为什么对您有用: 本文属于统计学习理论中特征学习的几何视角，与您的主要兴趣（高维统计、非参数理论）有一定交叉，但核心工具（平均场Langevin动力学、Wasserstein梯度流）不在您的技术武器库中，且问题设定（监督回归的特征学习）与您的因果推断/高维U统计方向距离较远。作为gateway reading，本文对统计学家而言数学清晰，但暂不可做——缺少与您武器库的直接连接点。

5. 2606.30289 — Structural functional identifiability and model discovery in differential equation models¶

作者: Torkel E Loman, Alexander P Browning, Ruth E Baker
相关性 6/10 · novelty: new_theory
摘要: 本文研究微分方程模型中未知函数成分的结构功能可辨识性（structural functional identifiability），即从理想观测数据中唯一恢复未知函数（而非仅参数）的条件。作者将经典的结构参数可辨识性推广到函数空间，首先证明在广泛模型类中唯一函数恢复是不可能的。然后利用微分代数方法（如特征集、输入-输出多项式）建立判断功能可辨识性的框架，揭示了从参数推断到函数推断过渡中出现的全新现象（如函数间的代数依赖关系）。最后在几类常见模型（如SIR流行病模型、酶动力学模型）中刻画了功能可辨识性。本文为使用机器学习表示未知系统组件的现代微分方程逆问题提供了理论基础。对您而言，本文属于方法论理论工作，与您的主要兴趣（非参数/半参数理论、因果推断中的识别性）有概念上的连接，但并非直接相关，且微分代数工具不在您的技术武器库中，暂不可做。
关键技术: differential algebra, input-output polynomials, characteristic sets, structural identifiability, functional identifiability, differential equation models
为什么对您有用: 本文与您的主要兴趣（非参数/半参数理论、因果推断中的识别性）有概念上的连接——功能可辨识性类似于非参数识别问题，但微分代数工具（特征集、输入-输出多项式）不在您的技术武器库中（very_familiar和moderately_familiar均未覆盖），属于暂不可做的范畴。不过，如果您未来想进入微分方程驱动的因果推断或系统辨识方向，本文可作为入门读物。

6. 2606.31094 — Censored broken adaptive ridge rank regression via induced smoothing¶

作者: Suyeon Seon, Dipankar Bandyopadhyay, Seongoh Park, Dongha Kim, Taehwa Choi
相关性 5/10 · novelty: application
摘要: 本文针对右删失数据下的半参数加速失效时间（AFT）模型，提出了一种基于broken adaptive ridge（BAR）惩罚的线性秩回归方法。BAR惩罚通过迭代加权L2惩罚近似L0正则化，兼具oracle性质和分组效应，适用于协变量间存在复杂依赖关系的场景。计算上，通过对非光滑的Gehan型秩估计函数应用induced smoothing技术，得到稳定的估计和推断框架；并开发了循环坐标下降算法实现可扩展的惩罚估计。方法进一步扩展至多元部分区间删失（PIC）数据。在温和条件下，估计量满足oracle性质和分组效应，且有效系数的方差估计有解析形式。模拟研究显示，该方法在变量选择和估计效率上优于多种常见惩罚方法。实际应用包括原发性胆汁性肝硬化的右删失数据和结直肠癌的相关PIC数据。R包aftPenCDA已发布在CRAN。
关键技术: broken adaptive ridge (BAR) penalty, induced smoothing, Gehan-type rank estimating function, cyclic coordinate descent, accelerated failure time (AFT) model, oracle property
为什么对您有用: 本文属于生存分析中的惩罚回归方法，与您的主要兴趣（因果推断、高维统计）无直接交集。方法学贡献集中在BAR惩罚的计算实现和AFT模型扩展，而非您关注的识别、效率理论或高维推断。作为应用性工作，其R包实现和PIC数据处理可能对流行病学方向的secondary interest有参考价值，但整体技术深度和与您武器库的对接点有限。暂不可做：核心机器（BAR惩罚、induced smoothing）不在您的武器库中，且与您当前的研究方向（因果推断、U统计量、统计计算权衡）缺乏直接连接。

7. 2606.32013 — Analysis of a maximum-entropy based estimator for dynamic random graph models¶

作者: Diego Garlaschelli, Michel Mandjes, Frank P. Pijpers, Jiesen Wang
相关性 5/10 · novelty: application
摘要: 本文研究动态随机图模型，其中节点集固定但边随时间演化。采用最大熵方法，在观测约束下定义图轨迹上的概率分布，以刻画部分观测网络的内在不确定性。提出基于矩的参数估计量，并建立其相合性和渐近正态性，给出协方差结构的显式公式。数值实验展示了估计量在不同动态网络场景下的准确性和稳健性。该框架连接了时变网络中的概率建模与统计推断，为理解和预测复杂边动态提供了实用工具。对您而言，本文属于网络数据分析的统计推断，与您的主要兴趣（因果推断、高维统计）关联较弱，但矩估计的渐近理论可作为非参数统计的参考。
关键技术: maximum-entropy distribution, moment-based estimator, consistency, asymptotic normality, dynamic random graph
为什么对您有用: 本文属于网络统计推断，与您的主要兴趣（因果推断、高维统计、U-统计量）关联较弱。矩估计的渐近理论可视为非参数统计的练习，但缺乏与您武器库的直接连接。暂不可做——核心机器（动态网络建模、最大熵方法）不在武器库中，且未涉及您熟悉的因果或高维设定。

8. 2606.30621 — Minimax approach to the estimation problem for homogeneous random fields¶

作者: Oleksandr Masyutka, Mikhail Moklyachuk
相关性 5/10 · novelty: minor
摘要: 本文研究多维齐次随机场在噪声观测下线性泛函的均方最优估计问题。设定中，场的谱密度未知，仅已知其属于某个给定的容许密度集合，因此采用极小极大（稳健）估计方法。核心贡献是为若干特殊容许密度集推导出最不利谱密度和极小极大谱特征的具体公式。方法基于谱表示理论和线性滤波技术，属于经典时间序列/随机场估计的稳健化推广。主要结果是理论性的，给出了显式解，但未涉及现代高维或非参数统计工具。对您而言，该文与您的主要兴趣方向（因果推断、高维统计、U-统计量等）无直接关联，属于经典随机过程估计的稳健方法，方法学新颖性有限。
关键技术: minimax estimation, spectral density, homogeneous random fields, linear functional estimation
为什么对您有用: 该文属于经典随机过程估计的稳健方法，与您的主要兴趣方向（因果推断、高维统计、U-统计量、半参数理论）无直接连接。武器库中的非参数统计和极小极大界工具虽可理解其框架，但问题设定（谱密度未知的随机场）与您的核心研究领域差异较大，暂不可做——缺乏谱分析或随机场建模的专门工具。

9. 2606.31970 — Payment Process Estimation in Aggregated Insurance Models¶

作者: Martin Bladt, Marcus Christiansen
相关性 4/10 · novelty: application
摘要: 本文研究聚合保险模型中支付过程的估计问题。设定为多状态马尔可夫过程，其中支付依赖于不可观测的微观状态，但仅能观测到宏观状态和实际支付。作者提出了一种从微观到宏观的投影方法，并基于逆概率加权（IPW）构建了状态特定累积支付过程的估计量。在左截断和右删失的生存分析框架下，证明了估计量的强相合性和弱收敛性。该方法的核心技术工具是计数过程、鞅理论和逆概率加权。主要理论结果是给出了估计量的渐近分布，为保险精算中的风险储备金评估提供了统计基础。对您而言，本文属于应用统计方法在精算科学中的案例，与您的主要兴趣方向（因果推断、高维统计等）关联较弱，但其中逆概率加权和计数过程的技术可能对您处理删失数据问题有参考价值。
关键技术: inverse probability weighting, counting processes, martingale theory, multi-state models, left-truncation and right-censoring
为什么对您有用: 本文属于精算统计的应用方向，与您的主要兴趣（因果推断、高维统计、U-统计量等）直接关联较弱。其中逆概率加权和计数过程的技术在流行病学删失数据分析中有应用，可作为流行病学（secondary interest）的入门参考。武器库中'非参数统计'和'M估计理论'可覆盖本文的渐近分析框架，但本文的方法学新颖性有限，属于成熟技术在特定领域的应用。建议作为流行病学方向的背景阅读，暂不深入。

10. 2606.31964 — Scalable Joint Modeling of Dependent Multi-Type Survey Data for Small Area Estimation¶

作者: Zewei Kong, Paul A. Parker, Scott H. Holan
相关性 4/10 · novelty: application
摘要: 本文针对小区域估计问题，提出了一种贝叶斯分层模型，联合建模二项和Gaussian型调查响应数据。模型通过共享空间随机效应来跨结果和跨空间邻居借力，以提高小域估计精度。二项分量采用Polya-Gamma数据增广得到条件高斯表示，空间基函数实现高维空间数据的降维，从而得到闭式条件后验，实现高效Gibbs采样。模拟表明联合模型相比独立单变量模型提升了估计精度。应用于ACS中位收入和贫困率数据，联合模型得到相似点估计但更小的后验方差。该文是应用导向的贝叶斯小域估计工作，方法学创新有限，与您的主要兴趣方向（因果推断、高维统计、U-统计等）无直接交集。
关键技术: Bayesian hierarchical model, Polya-Gamma augmentation, spatial basis functions, Gibbs sampling, small area estimation
为什么对您有用: 本文属于应用统计中的小域估计，与您的主要兴趣方向（因果推断、高维统计、U-统计等）无直接交集。方法学上未涉及您武器库中的核心工具（如非参极小极大界、高阶U-统计、半参效率理论等）。作为流行病学或经济学的应用参考，其联合建模思路有一定借鉴意义，但整体相关性较低，暂不可做。

11. 2606.30399 — Multiscale Dynamic Dependence Estimation over Networks¶

作者: Cristian F. Jiménez-Varón, Marina I. Knight, Matthew A. Nunes
相关性 4/10 · novelty: new_method
摘要: 本文提出 Net-LSW（Network Locally Stationary Wavelet）框架，用于建模由网络结构约束的多变量非平稳时间序列的时变二阶依赖关系。模型将图拓扑直接编码在过程随机增量的协方差结构中，而非传统多变量方法中仅作为外部约束。引入局部偏相关图概念，将图的边与非平稳过程在时间和尺度上的依赖结构中的非零条目联系起来。开发了基于子过程的估计方案，并证明了其一致性。模拟实验表明该方法能准确恢复随时间演化的依赖结构并尊重底层图拓扑。应用于全球银行网络的日股票价格波动率数据，成功捕捉了多尺度、高度非平稳的依赖关系，并识别出 Brexit 和 COVID-19 等重大金融冲击期间的时变系统性转变。
关键技术: Locally Stationary Wavelet processes, Network time series, Partial correlation graph, Subprocess-based estimation, Multiscale dependence
为什么对您有用: 本文属于时间序列与网络数据分析的交叉领域，与您的主要兴趣（因果推断、高维统计）和方法论（非参数理论、M估计）无直接重叠。作为 gateway reading 价值有限：虽然模型设定清晰，但需要读者熟悉小波分析和网络时间序列文献，对统计学家而言入门门槛较高。武器库中 '非参数统计' 和 '高维渐近' 可部分理解其估计的一致性证明，但核心的小波工具和网络时间序列特定技术不在您的技术栈中，属于暂不可做方向。

12. 2606.29931 — Beyond Equidistant Assumptions: An Autoregressive Ordered Stereotype Model for Ordinal Time Series¶

作者: Anna Nalpantidi, Dimitris Karlis, Daniel Fernández
相关性 4/10 · novelty: application
摘要: 本文提出自回归有序刻板模型（AR-OSM），用于处理序数时间序列数据。模型通过将响应变量的滞后值作为协变量纳入系统成分，捕捉序列依赖性。与现有序数时间序列回归模型不同，AR-OSM 不假设类别等距，而是让数据决定其相对间距，这使其特别适用于等距假设不合理的场景。通过婴儿睡眠状态数据实例展示了模型的应用价值。模拟研究评估了模型在不同样本量下的表现，并探讨了参数值如何影响诱导的序列依赖结构。模型采用最大似然估计，但未涉及半参数效率或高维理论。对您而言，本文属于应用统计方法，与您的主要兴趣（因果推断、高维统计、U-统计量等）无直接关联，但序数数据建模在流行病学等次要兴趣领域可能有参考价值。
关键技术: ordered stereotype model, autoregressive model, ordinal time series, maximum likelihood estimation
为什么对您有用: 本文属于序数时间序列建模的应用统计方法，与您的主要兴趣（因果推断、高维统计、U-统计量、半参数理论等）无直接技术重叠。武器库中无直接可攻工具。作为流行病学等次要兴趣领域的入门参考有一定价值，但方法学新颖性有限，暂不可做。

13. 2606.29448 — Scalable Bayesian Spatial Mixture Modelling for Remote Sensing Image Segmentation¶

作者: Bao Khanh Nguyen, Iain Cameron, Cecilia Balocchi, Torben Sell
相关性 4/10 · novelty: application
摘要: 本文提出一种可扩展的贝叶斯空间混合模型 POTTERS，用于遥感图像分割中的土地覆盖分类。模型扩展了经典 Potts 模型，允许广义空间依赖结构，并利用预标注数据构建信息先验，从而在目标区域无需标注数据即可进行分割。核心方法包括变分推断算法以实现后验近似，确保大规模遥感图像的可扩展性。模型能够提供原则性的不确定性量化，处理类别间交互，并检测新区域中的新聚类。模拟研究和苏格兰案例（利用英格兰公开遥感数据）验证了其有效性。对您而言，本文属于应用型工作，方法学新颖性有限（变分推断+Potts模型），但若您对空间统计或遥感数据分析感兴趣，可作为入门读物。
关键技术: Bayesian spatial mixture model, Potts model, variational inference, informative prior, image segmentation
为什么对您有用: 本文属于 astrostatistics 的 gateway-reading 范畴（遥感图像分割与空间统计），但并非您主要兴趣方向。武器库中非参数统计和软件开发的技能可帮助理解其变分推断实现，但核心方法（Potts模型、空间贝叶斯）不在您熟悉或中等熟悉的工具列表中。作为入门读物，本文清晰阐述了数据结构和模型假设，但方法学贡献不大，不值得花时间全文阅读。

14. 2606.29114 — Multivariate Varying-Coefficient BART with Graphical Horseshoe Priors¶

作者: Soham Ghosh, Sameer K. Deshpande
相关性 4/10 · novelty: new_method
摘要: 本文提出 multiVCBART，一个多变量变系数贝叶斯加性回归树框架，用于联合建模多个相关结局的非线性、异质性回归效应以及残差条件依赖结构。每个结局的系数矩阵 B(x) 的每个元素由独立的 BART 集成表示，允许预测效应随调节变量 x 非线性变化且结局特异；残差精度矩阵 Ω 上施加 Graphical Horseshoe 先验以捕捉稀疏的条件依赖关系。计算上，作者设计了一个采样器，将多变量高斯似然约化为一系列标量伪响应更新，从而将树的反向拟合与 Graphical Horseshoe 步骤解耦。理论上，首次建立了联合估计残差依赖的多变量 BART 模型的后验收缩率，证明其对底层光滑性和结构稀疏性具有近 minimax 适应性。实证中，multiVCBART 在稀疏高维数据集上优于现有多变量树模型和贝叶斯 SUR 方法。在癌症药物敏感性基因组学数据集的再分析中，该方法识别出不同的生物标志物信号并恢复了连贯的残差药理网络。对您而言，本文的树集成与稀疏图模型联合框架虽非您核心兴趣，但其后验收缩率分析技术（非参数 minimax 界）与您的 minimax 界工具集有交集，可作为方法学参考。
关键技术: Bayesian additive regression trees, Graphical Horseshoe prior, posterior contraction rates, multivariate varying-coefficient model, scalar pseudo-response updates
为什么对您有用: 本文属于贝叶斯非参数回归与图模型交叉领域，与您的 primary interests（非参数统计、minimax 界）有部分重叠，但核心方法（BART、Graphical Horseshoe）不在您的技术武器库中。作为 gateway reading，本文的后验收缩率证明技术（近 minimax 适应性）可为您提供非参数贝叶斯收缩率分析的一个实例，但整体方向与您的主要兴趣距离较远。暂不可做：核心机器（BART 后验计算、Graphical Horseshoe 采样）不在武器库里。

15. 2606.29105 — Panel Flow Matching: A Generative Approach to Learning Distributions of Longitudinal Data¶

作者: Jianbin Tan, Pixu Shi, Anru R. Zhang
相关性 4/10 · novelty: new_method
摘要: 本文提出面板流匹配（PFM）框架，用于学习纵向数据的分布，目标是在观测不规则、稀疏且受试者数量有限的场景下估计面板密度（即纵向数据在每一时间点的横截面密度）。PFM 结合前向流匹配步骤与后向核拟合步骤，通过连续面板流模型跨时间整合信息，无需预先降维即可处理数据不规则性。方法上，PFM 是一种生成式框架，支持纵向补全、合成数据生成和分类任务。作者在稀疏和不规则采样设计下建立了 PFM 的统计保证，并通过模拟实验证明其优于现有方法。在 188 例妊娠（足月/早产）的阴道微生物组纵向数据上，PFM 提高了分类准确率并揭示了两组间随时间变化的分布差异。本文方法学新颖性中等（新方法），但核心问题（纵向分布学习）与您的主要兴趣（因果推断、半参理论）无直接交集，且未涉及您武器库中的具体工具（如高阶 U 统计量、树宽/张量收缩）。
关键技术: flow matching, kernel density estimation, generative modeling, longitudinal data, panel density estimation
为什么对您有用: 本文属于统计机器学习中的生成式建模，与您的主要兴趣（因果推断、高维统计、半参理论）无直接关联。武器库中 very_familiar 的非参统计和 minimax 界可用于评估其统计保证的紧性，但核心方法（流匹配）不在您的技术栈内。暂不可做——缺乏流匹配/扩散模型的背景知识。

16. 2606.28738 — Composition as Direction: An Active-Set Ray-Based Model for Sparse High-Dimensional Compositional Data¶

作者: Michael R Schwob, Jyotishka Datta
相关性 4/10 · novelty: new_method
摘要: 该文针对高维成分数据（compositional data）中同时存在精确零值、成分间潜在依赖、高维度和单形（simplex）非欧几何约束的难题，提出了一种Active-set Ray-based Compositional (ARC) 框架。ARC 将成分数据映射到单位超球面的非负象限，并引入一个活跃集过程（active-set process）来控制哪些成分是存在的。在给定活跃集后，正子成分通过沿活跃子空间的正向射线评估潜在高斯密度来建模，其中半径被视为辅助变量。该构造将“哪些成分存在”的活跃集过程与“活跃成分上的正子成分”分离开来，保留了潜在高斯解释，并允许任意潜在依赖。与传统的截断或折叠投影高斯模型相比，ARC 在高维设定下计算上可行。文章通过模拟和微生物组数据展示了 ARC 在拟合和推断上的优势。
关键技术: Active-set process, Ray-based model, Projected Gaussian model, Compositional data, High-dimensional inference
为什么对您有用: 本文主要涉及高维成分数据的建模，与您的主要兴趣（高维统计、因果推断）关联较弱。虽然活跃集和射线模型在计算上有所创新，但核心问题（成分数据建模）不在您的武器库核心范围内。作为gateway reading，它提供了高维数据中处理零值和依赖的一种新视角，但方法学上缺乏与您熟悉的非参、U-统计或效率理论的直接连接。暂不可做：核心机器（成分数据建模、投影高斯模型）不在武器库中。

17. 2606.28540 — Choosing the threshold in extreme value analysis¶

作者: Léo R. Belzile, Anthony C. Davison
相关性 4/10 · novelty: survey
摘要: 本文系统综述了单变量极值分析中阈值选择的40余种方法，涵盖基于Hill估计量的半参数方法、可视化诊断、拟合优度检验以及基于扩展广义帕累托模型的方法。核心贡献在于从统计性质出发，对各类方法的优缺点进行批判性评估，并讨论如何实现自动化选择。通过大规模模拟研究识别出最有前景的流程，并以帕多瓦日降雨量长序列数据为例进行实证比较。文章明确指出阈值选择对推断影响巨大但不确定性常被忽略，为极值分析提供了实用指南。对您而言，本文属于方法学综述，与您的主要研究方向（因果推断、高维统计等）无直接技术关联，但可作为统计计算中阈值选择问题的背景参考。
关键技术: Hill estimator, generalized Pareto distribution, goodness-of-fit tests, semiparametric methods, simulation study
为什么对您有用: 本文属于极值统计的综述性工作，与您的主要兴趣（因果推断、高维统计、U-统计量等）无直接技术重叠。武器库中的非参数统计和极小极大界可用于评估阈值选择方法的理论性质，但核心问题（阈值选择）并非您当前研究重点。作为gateway reading，本文对统计学家友好，但缺乏与您技术栈的强连接，暂不可做。

🗂 其他论文（仅 LLM 评分，未生成摘要）¶

未生成中文摘要的论文，按 LLM 评分由高到低排列，仅保留评分与简评，便于回溯查全。一般为相关性低于展示阈值者；个别历史页也含当时因单日摘要上限未展开的高分篇目（评分仍清楚标着）。

1. 2606.31418 — On the choice of using raw or demographically-corrected scores¶

作者: Ignacio Gonzalez-Perez, Mats Julius Stensrud, Marco Piccininni
相关性 3/10
评分理由: Focuses on demographic corrections in psychology screening, unrelated to primary or secondary interests.

2. 2606.31269 — Simultaneous Inference for Partially Observed Functional Time Series¶

作者: Patrick Bastian, Tim Kutta
相关性 3/10
评分理由: Functional time series with missing data is not a primary interest; no clear link to causal inference or high-dim stats.

3. 2606.30994 — Hybrid principal component analysis in multivariate allometric regression¶

作者: Koji Tsukuda, Shun Matsuura
相关性 3/10
评分理由: Allometric regression and PCA for biology are unrelated to primary interests.

4. 2606.29784 — HERO: Improving the Reliability and Sensitivity of Generative Model Evaluation Using Historical Data¶

作者: Xinrui Ruan, Zhenyu Zhao, Waverly Wei, Yueshan Zhang, Zeyu Zheng, Sui Huang et al.
相关性 3/10
评分理由: Generative model evaluation with noisy labels is unrelated to the researcher's core interests.

5. 2606.29524 — Modelling and detecting mild and gross anomalies in circular data via double-contaminated models¶

作者: Antonio Punzo, Andriëtte Bekker, Arno Otto, Priyanka Nagar, Cristina Tortora
相关性 3/10
评分理由: Robust inference for circular data is a niche topic unrelated to the researcher's primary interests.

6. 2606.28015 — Bayesian Simultaneous Credible Bands for Polynomial Regression¶

作者: Fei Yang, Yang Han, Wei Liu, Ian Hall
相关性 3/10
评分理由: Bayesian credible bands for polynomial regression is unrelated to primary interests.

7. 2607.00214 — A Short Review of Estimators for the GLM predictive of Laplace Bayesian Neural Networks¶

作者: Romie Banerjee
相关性 3/10
评分理由: Laplace BNN predictive estimation is unrelated to primary interests.

8. 2606.31621 — Calibrated Probability Forecast Sequences and Measure-Valued Martingales¶

作者: Thomas Wilkinson, Christopher Ferro
相关性 3/10
评分理由: Probability forecast calibration and martingales are not aligned with the researcher's primary or secondary interests.

9. 2606.29998 — Optimal Posterior E-values with Non-Convex Parameter Sets with Applications to Voting Systems¶

作者: Adrienne Tuynman, Timothée Mathieu
相关性 3/10
评分理由: Sequential testing with e-values for voting systems is tangential to primary interests; no clear connection to causal inference or high-dim stats.

10. 2606.28670 — MACROCAST: A Vintage-Consistent Time Series Foundation Model for Real-Time Macroeconomic Forecasting¶

作者: Andrea Carriero, Davide Pettenuzzo, Shubhranshu Shekhar
相关性 3/10
评分理由: 宏观经济预测的时间序列基础模型，与研究者主要兴趣（非参数统计、因果推断）无关。

11. 2606.31778 — Setting requirements on out-of-band rejection for next-generation CMB experiments. Application to the LiteBIRD instrument¶

作者: L. Mousset, L. Montier, J. Aumont, F. Columbro, P. de Bernardis, J. Errard et al.
相关性 3/10
评分理由: CMB实验仪器要求设定，涉及建模但无统计方法论创新。

12. 2606.30855 — Deep Learning for Astrophysics: An Open Textbook from the NASA Cosmic Origins AI/ML Science and Technology Interest Group¶

作者: Yuan-Sen Ting, Digvijay Wadekar, Phill Cargile, Carol Cuesta-Lazaro, André Curtis-Trudel, Gregory Green et al.
相关性 3/10
评分理由: Deep learning textbook for astrophysics, but no specific statistical methodology or data analysis problem; weak gateway relevance.

13. 2606.30706 — Mapping Stellar Heterogeneities with the Nautilus Space Observatory¶

作者: Adina D. Feinstein, Jeff Valenti, Julien de Wit, Valeriy Vasilyev, Chia-Lung Lin, Daniel Apai et al.
相关性 3/10
评分理由: Exoplanet transmission spectroscopy and stellar contamination, but lacks clear data/model exposition for a statistician; weak gateway match.

14. 2606.30029 — ESOFinder: an LLM-powered tool to help users navigate ESO documentation¶

作者: P. Sánchez-Sáez, C. Reinero, M. Vioque, M. Wittkowski, M. Rejkuba, M. Romaniello et al.
相关性 3/10
评分理由: LLM工具辅助文档检索，虽涉及软件但非统计计算，与研究者兴趣弱相关。

15. 2606.29041 — On Modeling Cylindrical Data with a Discrete Circular Component and Its Environmental Applications¶

作者: Brajesh Kumar Dhakad, Jayant Jha
相关性 2/10
评分理由: Specialized circular data modeling with no overlap with primary or secondary interests.

16. 2606.29756 — Modeling Mode and Departure Time Responses to Congestion Pricing: A Spatial and Behavioral Analysis Using Cross-Nested Logit Model¶

作者: Mohammad Amin Ashena, Adam Weiss, Jason Hawkins, Lina Kattan
相关性 2/10
评分理由: Transportation mode choice modeling is unrelated to primary or secondary interests.

17. 2607.00268 — Nautilus Space Observatory: Unveiling the Diversity and Origin of Sub-Neptunes with the Nautilus Space Observatory¶

作者: Luis Welbanks, Kylie E. Hall, Julien de Wit, Ana Glidden, Noah Tuchow, Ilaria Pascucci et al.
相关性 2/10
评分理由: 纯天文学（系外行星大气），缺乏统计方法论或数据模型阐述，不符合入门阅读标准。

18. 2607.00217 — The Rubin Observatory Target-of-Opportunity System in the First Year of Operations¶

作者: Sean Patrick MacBride, R. Lynne Jones, Peter Yoachim, Tiago Ribeiro, Leanne P. Guy, Shreya Anand et al.
相关性 2/10
评分理由: 天文观测系统操作描述，无统计方法论或数据模型，不符合入门阅读标准。

19. 2606.31806 — The On-Sky Performance of the LSST Camera CCD Array¶

作者: Sean Patrick MacBride, Aaron Roodman, Stuart Marshall, Yousuke Utsumi, Kevin Fanning, John Banovetz et al.
相关性 2/10
评分理由: 纯天文仪器性能报告，无统计方法或数据建模内容。

20. 2606.31793 — Modeling of the diffuse background produced by the Vera C. Rubin Observatory M2 baffle scattered light¶

作者: Alessio Taranto, Gabriele Rodeghiero, Luca Rosignoli, Aashay Pai, Alex Drlica Wagner, Elana K. Urbach et al.
相关性 2/10
评分理由: 天文光学杂散光建模，无统计方法或数据建模内容。

21. 2606.30897 — SAOImageDS9: An Essential Tool for Astronomical Exploration¶

作者: Antonella Fruscione, Kenny Glotfelty, William Joye, Jonathan McDowell
相关性 2/10
评分理由: Software tool description for astronomical visualization, no statistical methodology or data analysis content relevant to interests.

22. 2606.30210 — Improving Beam Quality in Gravitational-Wave Interferometers Illuminated by Higher-Order Laguerre-Gaussian Modes¶

作者: Liu Tao, Yuefan Guo, Alberto Gatto, Eleonora Capocasa, Jérome Degallaix, Massimo Granata et al.
相关性 2/10
评分理由: 纯天体物理仪器工程论文，无统计方法或数据建模内容，与研究者兴趣完全无关。

23. 2606.30207 — Operational capabilities and on-sky performance of SAMOS at the completion of science commissioning¶

作者: Massimo Robberto, Stephen A. Smee, Robert H. Barkhouser, Stephen C. Hope, John J. Piotrowski, Dana Koeppe et al.
相关性 2/10
评分理由: 天文仪器性能报告，无统计方法或数据建模内容，与研究者兴趣完全无关。

24. 2606.30169 — Radiation effects and noise evolution in NewAthena WFI flight-production sensors¶

作者: Valentin Emberger, Johannes Müller-Seidlitz, Luisa Ostler, Wolfgang Treberer-Treberspurg, Robert Andritschke, Annika Behrens et al.
相关性 2/10
评分理由: X射线探测器辐射效应与噪声演化，纯探测器工程，无统计方法或数据建模内容。

25. 2606.30167 — Spectroscopic performance of the electrical functional models for the eXTP SFA-T detectors¶

作者: Alexander Altmann, Robert Andritschke, Valeria Antonelli, Thomas Bechteler, Vadim Burwitz, David Fink et al.
相关性 2/10
评分理由: X射线探测器光谱性能测试，纯仪器工程，无统计方法或数据建模内容。

26. 2606.29787 — GLTCAM: Concept of Multi-color Millimeter and Submillimeter Camera for the Greenland Telescope¶

作者: Shuhei Inoue, Tatsuya Takekoshi, Shinsuke Uno, Kazuki Watanabe, Taiki Sato, Toshihiro Tsuzuki et al.
相关性 2/10
评分理由: 多色毫米波相机概念设计，纯仪器工程，无统计方法或数据建模内容。

27. 2606.29485 — Sub-Kelvin Cryogenics for a Super-Pressure Balloon-Borne CMB Polarimeter: Taurus¶

作者: Jared L. May, Alexandre E. Adler, Jason E. Austermann, Steven J. Benton, Rick Bihary, Shannon Duff et al.
相关性 2/10
评分理由: Pure cryogenic engineering for CMB experiment; no statistical or data-analysis content relevant to interests.

28. 2606.29923 — Revisiting "A universal model for the Lorenz curve with novel applications''¶

作者: José María Sarabia, Vanesa Jordá, Mercedes Tejería, Emilio Gómez-Déniz
相关性 1/10
评分理由: Lorenz curve correction is unrelated to primary or secondary interests.

29. 2606.29145 — Why Do We Need Travel Behavior Theory in the Age of AI? Multiple Goal Pursuit as an Illustrative Theory¶

作者: Jason Hawkins, Omid Armantalab
相关性 1/10
评分理由: Travel behavior theory discussion is unrelated to the researcher's statistical interests.

30. 2606.29086 — Stabilization without Inclusive Development: Neoliberalism, Economic Liberalization, Poverty, and Inequality in Bolivia¶

作者: Ricardo Alonzo Fernandez Salguero
相关性 1/10
评分理由: Economic history of Bolivia is unrelated to the researcher's interests.

31. 2607.00265 — The Simons Observatory: Overview of the Cryogenic Half-wave Plate Polarization Modulators¶

作者: Junna Sugiyama, Kyohei Yamada, Bryce Bixler, Daichi Sasaki, Yuki Sakurai, Kam Arnold et al.
相关性 1/10
评分理由: CMB实验硬件描述，与统计兴趣完全无关。

32. 2606.31792 — Laser-based metrology systems vs wavefront sensing techniques: a comparative overview between the Large Binocular Telescope and the Vera C. Rubin Observatory for the telescope alignment and collimation tracking¶

作者: Luca Rosignoli, Gabriele Rodeghiero, Sandrine J. Thomas, Guillem Megias Homar, Heejoo Choi, John Hill et al.
相关性 1/10
评分理由: 望远镜对准策略比较，纯工程描述，无统计内容。

33. 2606.31336 — Combining a Diffraction-Limited Coronagraph with Fiber Nulling: A Demonstration of Serially Coupling Different Nullers¶

作者: Satoshi Itoh, Taro Matsuo, Reiki Kojima, Motohide Tamura, Takahiro Sumi, Oliver Guyon
相关性 1/10
评分理由: Pure instrumentation paper on coronagraph and fiber nulling, unrelated to any primary or secondary interest.

34. 2606.30867 — SHARPing accretion and outflows in young stellar objects in star forming regions of the outer Galaxy and beyond¶

作者: Juan Manuel Alcala', Alessio Caratti o Garatti, Linda Podio, Mario Giuseppe Guarcello, Loredana Prisinzano, Rosaria Bonito et al.
相关性 1/10
评分理由: Astrophysics science case for a spectrograph, no data/model exposition or statistical methodology.

35. 2606.30721 — SHARP -- A spectrograph proposal to fully exploit ELT capabilities and look beyond JWST¶

作者: P. Saracco, P. Conconi, C. Arcidiacono, H. Mahmoodzadeh, I. Di Antonio, E. Portaluri et al.
相关性 1/10
评分理由: Instrument proposal for a spectrograph, purely astrophysical instrumentation, no statistical content.

36. 2606.29790 — Design Method of Quasi-Lumped Element Bandpass Filters Using Superconducting Coplanar Waveguide for Millimeter-Wave Multichroic Imaging¶

作者: Shinsuke Uno, Kah Wuy Chin, Tai Oshima, Satoshi Ono, Takeshi Sakai, Kazuki Watanabe et al.
相关性 1/10
评分理由: 超导滤波器设计，纯毫米波工程，与研究者兴趣完全无关。

37. 2606.29789 — Broadband anti-reflection coating for sub-terahertz optics using dielectric multilayers¶

作者: Toyo Naganuma, Shinsuke Uno, Shuhei Inoue, Kazuki Watanabe, Tatsuya Takekoshi, Takeshi Sakai et al.
相关性 1/10
评分理由: 太赫兹光学抗反射涂层，纯光学工程，与研究者兴趣完全无关。

38. 2606.28901 — Characterization of the RF Board for microwave SQUID multiplexing readout electronics¶

作者: Junbo Wang, Xiangxiang Ren
相关性 1/10
评分理由: Hardware engineering for microwave SQUID readout; no statistical or data-analysis content.

39. 2606.31935 — Delegation Rights: Property, Agency, and Investment Incentives in the Age of AI Agents¶

作者: Yukun Zhang, Kemu Xu
相关性 0/10
评分理由: AI agent delegation rights is unrelated to any listed interest.

40. 2607.00163 — Rubin M1M3 Dynamic performance : stability and actuation during operations¶

作者: HyeYun Park, Petr Kubánek, Kshitija Kelkar, Ignacio Sevilla-Noarbe, Andrea Jeremie, Brian Stalder et al.
相关性 0/10
评分理由: 望远镜镜面系统动力学测试，与统计研究完全无关。

41. 2606.31995 — The filter exchange system of the LSSTCam at the Vera C. Rubin Observatory¶

作者: Alexandre Boucaud, Pierre Antilogus, Éric Aubourg, Antoine Bernard, Johan Bregeon, Patrick Breugnon et al.
相关性 0/10
评分理由: Pure engineering description of a filter exchange mechanism; no statistical or methodological content.

42. 2606.31945 — An overview of stray light findings and interpretation during on-sky commissioning of LSSTCam¶

作者: Gabriele Rodeghiero, Alex Drlica-Wagner, Alessio Taranto, Luca Rosignoli, Hannah Pollek, Aashay Pai et al.
相关性 0/10
评分理由: Astronomy stray light investigation with no data/model exposition accessible to a statistician.

43. 2606.31939 — Investigation and Mitigation of a Prominent Off-Axis Stray Light Path in Rubin Observatory Commissioning¶

作者: Alex Drlica-Wagner, Alessio Taranto, Gabriele Rodeghiero, Joshua E. Meyers, John Andrew, Douglas R. Neill et al.
相关性 0/10
评分理由: Engineering report on stray light path; no statistical or data-analysis content.

44. 2606.31898 — Mechanical Studies of an Additional Light Baffle for the LSST Camera¶

作者: Hannah Mary Margaret Pollek, Gabriele Rodeghiero, John Andrew, Alex Drlica-Wagner, Alessio Taranto, Luca Rosignoli et al.
相关性 0/10
评分理由: Mechanical engineering study of a light baffle; unrelated to any research interest.

45. 2606.31849 — Determining stress-based bending mode limits for the Vera C. Rubin Observatory M1M3 active mirror system¶

作者: Malhar Sonaniskar, Douglas Neill, Ellie Hileman, Petr Kubánek
相关性 0/10
评分理由: Stress estimation for mirror actuators; no connection to statistics or causal inference.

46. 2606.31826 — In Situ Measurements of the Reflectances of the LSSTCam Optics and Assessing the Impact of Optical Ghosts¶

作者: Aashay Pai, Alex Drlica-Wagner, Lee S. Kelvin, Joshua E. Meyers, Elana K. Urbach, Fritz Mueller et al.
相关性 0/10
评分理由: Optical ghost measurement using ray tracing; no statistical methodology or data exposition.

47. 2606.31822 — Early Telescope Throughput Results from the Collimated Beam Projector at the Vera C. Rubin Observatory¶

作者: Nathan Amouroux, Parker Fagrelius, Thibault Guillemin, Fritz Mueller, Jérémy Neveu, Eli Rykoff et al.
相关性 0/10
评分理由: Photometric calibration instrument description; no statistical or causal inference content.

48. 2606.31816 — Design and Performance of the Carruthers Geocoronal Imager¶

作者: Martin Sirk, Alex M. Zhang, Thomas J. Immel, Jason B. McPhate, William W. Craig, Cathy Chou et al.
相关性 0/10
评分理由: Space instrument design for UV imaging; unrelated to any primary or secondary interest.

49. 2606.31795 — Test Management and Coordination During the Vera C. Rubin Observatory Commissioning and Early Operations Using Zephyr Scale¶

作者: Bruno Quint, Tiago Ribeiro, Erik Dennihy, Brian Stalder, David Sanmartim, Keith Bechtol
相关性 0/10
评分理由: 项目管理工具使用报告，与统计研究完全无关。

50. 2606.31727 — Focal Plate Prototyping for Modular Focal Planes of Stage-5 Instruments For Ground-Based Telescopes¶

作者: Maxime Rombach, Jean-David Perriard, Laurent Chevalley, Diane Chapuis, Markus Thurneysen, Jean-Paul Kneib
相关性 0/10
评分理由: 望远镜焦面机械结构设计，与统计研究完全无关。

Maintained by 陈星宇 · Homepage · Source on GitHub

2026-06-30 每日 arXiv 资讯¶

⭐ 高相关论文（按主题分组）¶

因果推断 (causal_inference, 10 篇)¶

1. 2606.31190 — Semiparametric Efficiency in Sequential Experiments: Characterization and Design via Average Propensity¶

2. 2606.30918 — Cross-Fitted Survey-Weighted TMLE with Design-Based Variance for Causal Machine Learning¶

3. 2607.00222 — Causal Inference for All: Marginal Estimands for Outcomes Truncated by Death¶

4. 2606.31954 — A Conformal Selection Framework for Individual Treatment Beneficiaries with Auxiliary External Data¶

5. 2606.30976 — Residual-on-Residual Regression as a Tool for Effect Estimation in Observational Data¶

6. 2606.29076 — Learning heterogeneous treatment effects under principal stratification¶

7. 2606.29009 — Generated outcomes as generated regressors: Equivalences in recursive causal estimation¶

8. 2606.28741 — Inferring Comprehensive Cohort Causal Effects in the Presence of Unmeasured Confounding and Missing Outcomes¶

9. 2607.00219 — Asymptotic Properties of Empirical Quantile-Based Estimators¶

10. 2606.29691 — Causal Inference Using Factor Models¶

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 2606.31593 — High-Confidence Minimax Testing with Prescribed Errors¶

📌 中相关论文（按主题分组）¶

因果推断 (causal_inference, 6 篇)¶

1. 2606.31381 — Improving Efficiency of Regression Analyses by Integrating Data from Population-Representative Surveys: A Model-Assisted Calibration Approach¶

2. 2606.30615 — Tuning-Free Efficient Estimation for Multi-Source Data via Covariance-Aware Shrinkage¶

3. 2606.28774 — Measurement Induced Confounding¶

4. 2606.28685 — Inverse Probability Weighting in a Post-Bayesian World¶

5. 2607.00188 — Quantile regression with measurement errors¶

6. 2606.30992 — Hierarchical Clustering As a Novel Solution to the Notorious Multicollinearity Problem in Observational Causal Inference¶

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶

1. 2606.29631 — Beyond Local Independence: High-Dimensional Latent Class Graphical Models with Shared Block Structure¶

非参数 / 半参数 (nonparam_semipara, 6 篇)¶

1. 2606.31057 — Two-stage semiparametric inference for regime-switching jump diffusions with unknown Lévy densities¶

2. 2606.30000 — Adaptive nonparametric regression from repeated measurements under common noise¶

3. 2606.30864 — Analysis of gradual changes in nonparametric regression based on a new optimization method in the non-unique case¶

4. 2606.29109 — Posterior concentration and adaptation of the mixing measure in Dirichlet process mixtures¶

5. 2607.00128 — Similarity-Based Prediction for Digital Twins: Panel Data, Theory, and Applications¶

6. 2606.31465 — Functional Principal Component Analysis for Manifold-Indexed Data¶

数理统计 / 假设检验 (hypothesis_testing, 14 篇)¶

1. 2606.29732 — Testing hypotheses via orthogonalization¶

2. 2606.29021 — Beta-trees for testing multivariate goodness-of-fit and localizing deviations from a model¶

3. 2607.00261 — Worst-Case Maximal Inequalities for Heavy-tailed Random Vectors¶

4. 2606.30375 — Multiple testing with the horseshoe¶

5. 2606.30982 — Simultaneous confidence bands for cumulative hazard via exchangeable bootstrap and box calibration¶

6. 2606.30981 — Universal Inference for model selection on networks¶

7. 2606.30866 — A data-dependent DKW inequality for regenerative Markov chains¶

8. 2606.30311 — Evaluating HWE and Association in Genome Wide Association Studies: A Unified Procedure¶

9. 2607.00224 — Sample Complexities of Estimating Gumbel--Max Watermark Proportions with and without Reduction to Pivotal Statistics¶

10. 2606.31600 — On Optimal Data Splitting for Split Conformal Prediction¶

11. 2606.30033 — The exact region between Chatterjee's \(ξ\) and Blomqvist's \(β\)¶

12. 2606.31296 — Multivariate majorization of continuous statistical experiments¶

13. 2606.30229 — Efficiency of Valid Inferential Models: Choquet-risk Optimal Possibility Measures, and Direct Comparisons¶

14. 2606.28730 — Full Conformal Prediction under Stochastic Non-Conformity Measure¶

统计计算 / 算法 (stat_computing, 5 篇)¶

1. 2606.30018 — Error bounds for simultaneous Wasserstein contractive adaptive increasingly rare MCMC¶

2. 2606.31652 — Statistical Inference for Gaussian Kernel Robust Regression with the gkrreg Package¶

3. 2606.30958 — Exponential-Family Tensor Completion via Nonconvex Dual Total-Variation Regularization¶

4. 2606.29798 — Scalable coarse-to-fine spatial downscaling¶

5. 2606.27638 — Fast Approximate MM-Estimation for Outlier Robust Model Selection¶

天体统计 (astrostats, 14 篇)¶

1. 2606.30620 — Gaussian processes on ray-guided transformed uniform grids for fast, flexible, and auto-differentiable adaptive source reconstruction in lens modelling¶

2. 2606.31627 — Multi-Scale Contrastive Attention for Light-Curve Representation Learning¶

3. 2606.29367 — PIE-ADA: Physics-Informed Ensemble with Adaptive Data Augmentation for Photometric Transient Classification¶

4. 2606.29039 — Neural posterior estimation of Galactic Binary signals for the LISA mission¶

5. 2606.28822 — TOA_SP: A Multi-Strategy Framework for Single-Pulse Timing¶

6. 2607.00228 — Leveraging Multimodality for Real-Time Classification of Transients and Variables found by the Zwicky Transient Facility¶

7. 2606.31720 — Robust CMB polarisation mapmaking with a rotating half-wave plate¶

8. 2606.29138 — A Covariance-Aware Framework for Spatially Resolved Exoplanet Biosignature Inference with the Solar Gravitational Lens¶

9. 2606.28721 — VLBI-Enabled Localization of Continuous GW Sources¶

10. 2606.30286 — Streak detection in the VST/OmegaCAM archive using deep learning¶

11. 2606.30691 — Assessing the Predictability of \(δ\) Scuti Variable Stars for Spacecraft Navigation¶

12. 2606.29300 — SPICE: Scintillation Pipeline for Interferometric Candidate Extraction¶

13. 2606.28875 — Energy estimation of cosmic rays by air shower radio signals¶

14. 2606.28722 — Enhancing VLBI Capability with the SKA-Mid and the Jingdong 120-m Radio Telescope¶

经济理论 / 应用 (econ_theory, 7 篇)¶

1. 2606.29833 — Sensitivity, Informativeness, and Misspecification in GMM Estimation¶

2. 2606.28848 — Literature Review and Evidence Aggregation: a Toolkit for Applied Micro¶

3. 2606.31685 — Design-Based Inference for Time-Series GMM¶

4. 2606.29063 — Second-Generation Heterogeneous Panel Data Model with Individual and Common Shocks¶

5. 2606.31930 — Quasi-Bayesian Hierarchical Models¶

6. 2606.30040 — The Shape of Macroeconomic Beliefs¶

7. 2606.29018 — Liquidity-Based Audit of Algorithmic Trading Strategies¶

其他 (other, 17 篇)¶

1. 2606.29658 — Multi-Source Transfer Learning of Sparse Single-Index Models¶

2. 2606.30443 — Parameter estimation in a fully coupled partially observed Ornstein-Uhlenbeck process¶

3. 2606.31661 — Near-Optimal Nitrogen Recommendations for Precision Agriculture via Sequential Screening and Hierarchical Refinement¶