每周周报 · 2026-W21 (2026-05-18 → 2026-05-24)¶
本周手动挑选的论文备忘。Maintainer 视角,不一定全面。
Causal inference¶
-
Single World Intervention Graphs as Distributions: A Framework for Causal Identification
- https://arxiv.org/pdf/2605.17050
- 诺华药厂的人写的博客类的文章,但是还没懂什么意思,重新推导一边识别公式?
-
Sensitivity analysis for causal mediation: bridge score, sharp sensitivity bounds, and calibration
- https://arxiv.org/pdf/2605.18724
- 中介分析, 敏感性分析
High dimension statistics¶
-
High-Dimensional Statistics: Reflections on Progress and Open Problems
- https://arxiv.org/pdf/2605.05076#page=21.71
- 综述文章,引用了我们的工作。Stats-Computing tradeoff,high-dimensional asymptotic
Nonparametric theory¶
Semiparametric theory¶
Hypothesis testing¶
Statistical computing¶
- Statistical Unlearning of Distributions: A Hypothesis Testing Approach
- https://arxiv.org/pdf/2605.16645
- 在分布级机器遗忘(distributional unlearning)设定下,目标是从混合数据中选取子集移除,使得编辑后数据在假设检验意义下远离不想要分布、同时逼近想要分布,核心 estimand 是 removal-preservation Pareto 前沿。方法将遗忘问题形式化为对编辑后数据同时关于目标分布与待遗忘分布的复合假设检验,由此导出可解释的样本选择准则。理论结果覆盖参数族(任意维移位高斯、一维 log-concave 噪声位置族、一维 Poisson 族)与非参数族(Gauss 白噪声模型),刻画了允许编辑分布的基本区域与 Pareto 前沿的精确形式;进一步证明多模态不想要域的组合规则及大数组合下的中心极限行为,并给出有限样本保证。文中观察到信息-计算差距(information-computation gap):统计上可达的 Pareto 前沿在多项式时间算法下未必可达。对您有用:该文将假设检验与统计-计算权衡显式结合,是进入 information-computation gap 领域的优质入口——假设检验框架对数学统计背景读者极为友好,且 Pareto 前沿的精确刻画方式可迁移到其他 constrained inference 问题。
Econometrics¶
-
Designing Persuasive Experiments
- https://arxiv.org/abs/2605.16703
- 实验设计中实验者与监管者的激励错配问题, Neyman 分配,总之机制设计是我关心的
-
Demographic Transition and the Dynamics of Income Distribution in Japan: A Bayesian State-Space Approach
- https://arxiv.org/pdf/2605.18138
- 了解到了点学科差异,counterfactual analysis跟causal inference没有关系,把模型里X的设成0就是了,放到做causal的圈子里,就是你压根没有 “没有老龄化”的观测而且confounding满天飞了。收入分布的建模,日本近几十年的老龄化(按照文中的模型)使得低收入老龄家庭变多,高收入人群变少。不过 完全建模 机制,讨论均衡态的变动的哲学似乎也算占理。那么到底怎么看待每年获得的各个经济数据呢?每年内(平均)均衡态的一个带噪声观测?每年之间又动态影响?适当的简化现实, 抓住主要特征建立结构模型,再借由此模型回到反事实问题。
Higher order U-statistics¶
Astrostats¶
-
The EDGES Analysis Pipeline: Description and Validation
- https://arxiv.org/abs/2605.16643
- 本文详细描述了 EDGES 实验用于探测 Cosmic Dawn 红移 21-cm 全天平均信号的端到端校准与分析流程,核心挑战在于前景辐射与目标信号之间极大的动态对比(~4-5 个数量级),对仪器校准和数据质量控制提出了极高要求。作者首次系统梳理了此前 EDGES 数据发布所采用的精确校准方法(包括天线 S-parameter 模型、beam 修正、foreground 多项式拟合等),并将其整合为一个开源的 Python 分析与模拟工具包。论文同时公开了此前 EDGES 论文使用的原始频谱数据,供社区复现与审查。该工作本身方法学 novelty 有限(校准流程形式化而非新统计方法),但公开的数据集与可复现的分析管线对统计学家介入 21-cm 全球信号推断(如 foreground 建模不确定性量化、贝叶斯信号提取)具有入口价值。
Miscellaneous¶
- Scientific production in the era of Large Language Models
- https://arxiv.org/pdf/2601.13187
- Science 文章,研究 LLM 对 scientific production 的影响。作者整合了 2.1M preprints(arXiv、bioRxiv、SSRN)、28K peer review reports、246M scientific document accesses,以及 OpenAlex / Semantic Scholar citation 数据,分析 LLM adoption 如何改变论文生产、写作风格与 citation behavior。
- 核心结论:
- LLM adoption 后,论文产出显著增加,不同领域与作者背景下增幅约为 20%-90%。
- LLM 改变了“语言复杂度”与“论文质量”之间的关系。过去复杂 prose 往往对应更高 substantive quality,但 LLM 出现后这种相关性减弱甚至反转。
- LLM 用户更倾向于访问与引用 books、更年轻文献以及低引用文献,citation pattern 更加分散。
- 方法:
- 核心是构造一个大型 “event-study / DiD 风格” panel data。
- 作者首先利用 abstract 的 NLP/stylometric 特征进行 AI-writing detection,将作者第一次出现明显 AI-writing signal 的时间定义为 “LLM adoption time”。
- 随后围绕 adoption time 比较 adoption 前后的行为变化,并加入 “author fixed effects” 与 “time fixed effects” 来剔除整体时间趋势与个体异质性。
- 关键度量:
- “Productivity”:单位时间内论文/preprint 数量。
- “Prose complexity”:lexical sophistication、sentence complexity、readability 等 NLP 指标。
- “Paper quality”:peer review reports 中 reviewer 对 novelty / rigor / recommendation 的评价。
- “Citation diversity”:是否引用 books、reference age、被引次数等。
- 使用的统计模型:
- 主体是 “staggered adoption event-study” / “difference-in-differences 风格” panel regression。
- scientific document access / click count 等 count outcome 使用了 “Poisson regression”。
- 整体上属于典型的大规模 “computational social science” observational study:数字行为数据 + NLP proxy measurement + econometric panel/event-study 的结合,而不是强因果识别或结构模型。
- 核心结论:
05-23¶
-
Testing for Serial Independence via Auto Hilbert-Schmidt Independence Criterion
- https://arxiv.org/abs/2605.22025
- lagged U-statistic, HSIC, 单 lag 的经验 AutoHSIC 是一个 4 阶 U-统计量,arguments 为滞后对 \(Z_{t,m}=(X_t, X_{t-m})\):
\[V_{T,m}=\binom{T-m}{4}^{-1}\sum_{m+1\le i
对称 kernel(即 Gretton et al. 2007 的无偏 HSIC kernel): \[h(z_i,z_j,z_q,z_r)=\frac{1}{4!}\sum_{(i_1,i_2,i_3,i_4)} k(x_{i_1},x_{i_2})\big\{ l(y_{i_3},y_{i_4})+l(y_{i_1},y_{i_2})-2\,l(y_{i_1},y_{i_3})\big\}\]所以可以直接利用我们的工作计算,复杂度是\(O(T^2)\),一点也不意外,但是他们也已经做出来这个复杂度的算法了。A Circular Chatterjee's Correlation Coefficient
- https://arxiv.org/abs/2605.22062
- llm说环形数据在天文统计中常见,可以看看
From Volterra Series to Kunchenko Stochastic Polynomials: Half a Century of Non-Gaussian Estimation Methodology
- https://arxiv.org/abs/2605.22354
- on-Gaussian Estimation Methodology的综述,不知道是啥,可以看一看
评论