AoAS — Vol 18 Issue 2 · 2026-06-24¶

共 41 篇 · Annals of Applied Statistics
目录核对 ✅ 41 篇全部抓到（对照 OpenAlex 41 篇）

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

这一期41篇论文集中在几条方法学主线上。因果识别与估计是最大的一条，涵盖工具变量异质性、非线性IV、IV选择、联邦因果推断、个体化治疗和部分依从性，以及高维中介分析——共7篇来自causal_inference分类，另有若干epidemiology论文也涉及因果效应估计（如as treated分析、筛查效果评估）。半参数/非参数建模是另一条密集主线，包括函数型数据建模（功能并发回归、filt-fPCA、函数聚类）、半参数状态空间模型、极端值空间过程、以及贝叶斯非参数通胀预测等。高维与正则化方法集中出现，涉及张量回归、高维纵向生物标志物联合模型、计数数据变量选择、可读性预测中的分组lasso、以及脑网络假设检验。统计计算方面有数篇工作：张量分位数回归的TT分解、层次动态模型的变分贝叶斯加速、物理约束域上的高斯过程（BORA-GP）、以及分层样条模型。其余大量论文属于流行病学应用（如小区域人口估计、细胞去卷积、口头尸检、性激素变异预测等），方法学贡献相对有限，但对应用研究者有直接参考。

在因果推断主线上，最突出的推进方向是放松工具变量（IV）同质性假设和扩展非线性IV设定。MR-PATH用潜变量混合模型将IV按因果效应分组，允许存在多条因果通路；Flexible IV with BART利用贝叶斯加性回归树自动捕捉BMI对血压的非线性因果效应及交互；Selecting invalid instruments通过最小化渐近均方误差在偏差-方差间权衡，允许纳入轻微无效IV。此外，医疗质量评价中的联邦因果推断采用了双重稳健估计并实现一轮通信；精神分裂症个体化治疗方案在优化疗效时加入副作用风险约束，采用差分凸规划求解。这部分论文直接回应了IV方法中“效应对齐”和“函数形式”两个经典困境。

半参数/非参数主线上，多种函数型数据处理工具得到拓展。Filtrated common fPCA在森林结构下同时提取多组共享与特异模式，无需预设分组；Functional concurrent regression with compositional covariates在simplex约束下实现变量选择与系数光滑；Semiparametric bivariate state space model将双变量激素节律的非参数曲线变为参数相关性推断；Modeling extremal streamflow用神经网络近似无法解耦的似然，结合Vecchia近似实现大陆尺度分析。这些工作的共同目标是在高维或结构约束下保留灵活性，同时控制计算成本。

因果推断方向的读者可优先关注MR-PATH、Flexible IV with BART、Selecting invalid instruments及联邦因果推断这四篇；半参数效率方向可重点看Filtrated common fPCA和Semiparametric bivariate state space model；高维方向建议看高维纵向联合模型（Penalized joint models）、张量回归（Tensor regression for incomplete observations）以及脑连接分析（Network method for voxel-pair-level）。

因果推断 (causal_inference, 7 篇)¶

1. 10.1214/23-aoas1816 · arXiv — A latent mixture model for heterogeneous causal mechanisms in Mendelian randomization¶

作者: Daniel Iong, Qingyuan Zhao, Yang Chen
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 9/10 · novelty: new_method
摘要: 本文提出一个潜变量混合模型 MR-PATH，用于孟德尔随机化（Mendelian Randomization, MR）中处理工具变量（IV）的因果效应异质性。现有 MR 方法通常假设所有基因工具变量识别相同的平均因果效应，但若存在多条因果通路，即使所有 IV 均有效，该同质性假设也可能被违反。模型将工具变量按估计的因果效应值分组，假设各组对应不同的因果机制；采用 Monte-Carlo EM 算法进行参数估计，并构建近似置信区间（基于观测信息矩阵和 Louis 方法）以及修改的贝叶斯信息准则（BIC）进行模型选择。模拟实验验证了算法收敛性、区间覆盖率和模型选择准则的有效性。在应用部分，用该方法估计高密度脂蛋白胆固醇（HDL-C）对冠心病（CHD）的影响以及肥胖对 2 型糖尿病的影响，发现了潜在的机制异质性。对您而言，该工作直接关联到因果推断中 IV 方法的异质性处理，且所提出的混合模型框架可以和您熟悉的因果推断估计理论（如 sensitivity analysis、IV 的 identification）结合，用于更复杂场景下的异质性检测。
关键技术: Mendelian randomization, latent mixture model, Monte-Carlo EM algorithm, modified Bayesian information criterion, instrumental variable heterogeneity
为什么对您有用: 本文属于因果推断方向下的工具变量异质性设定，直接关联您的 primary interest 中的 IV 和 applied causal work（流行病学数据集）。MR-PATH 的混合模型框架可以用您非常熟悉的因果推断估计理论（尤其是 IV 的 identification 和 estimation）来理解其识别条件，也可借助您的软件工程经验实现类似方法在其他纵向或中介分析中的扩展。后续可做的判断：立即可做——该文的模型与估计思路可直接纳入您的因果推断工具箱，作为处理 IV 异质性的基线方法使用。

2. 10.1214/23-aoas1837 · arXiv — Privacy-preserving, communication-efficient, and target-flexible hospital quality measurement¶

作者: Larry Han, Yige Li, Bijan Niknam, José R. Zubizarreta
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 9/10 · novelty: new_method
摘要: 在多源医疗数据整合的背景下，目标是在不共享个体数据的前提下，利用多医院电子病历进行医院质量评价。本文提出一种联邦因果推断框架，估计目标人群的平均潜在结局。估计量采用双重稳健（doubly robust）形式，即使部分模型误设也能保证一致性。算法只需医院间交换汇总统计量（privacy-preserving），且仅需一轮通信（communication-efficient）。在51家候选心脏卓越中心医院的急性心肌梗死患者数据上，比较经皮冠状动脉介入治疗（PCI）与药物治疗（MM）对30天死亡率和住院时长的影响。结果显示，联邦全局估计量相比仅用目标医院数据，精度提升59%–91%，并在63%的医院中改变了医院效能排序结论。对您而言，本文展示了联邦设置下因果推断的实际落地案例，可与您主要兴趣中的因果推断（尤其是纵向/多中心估计）直接对接，其双重稳健和通信效率设计也为您武器库中的估计理论提供了可拓展的应用场景。
关键技术: doubly robust estimation, federated causal inference, summary statistics sharing, one-round communication, mean potential outcome estimation, hospital profiling
为什么对您有用: （1）直接对接到您主兴趣中的因果推断——多中心观测数据下的平均潜在结局估计和双重稳健方法，是您非常熟悉的技术领域。（2）该文的核心挑战（隐私约束下的跨中心推断）可借助您武器库中『非参数统计』和『估计理论』中的收敛性和偏差分析工具来进一步优化其finite-sample性能或放松模型假设。（3）立即可做：您现有的双重稳健与高维渐近工具已足够复现或扩展其模拟设计，可作为联邦因果推断方法的基准验证。

3. 10.1214/23-aoas1843 · arXiv — Flexible instrumental variable models with Bayesian additive regression trees¶

作者: Charles Spanbauer, Wei Pan
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 8/10 · novelty: new_method
摘要: 本文提出了一种基于贝叶斯加性回归树（BART）的非线性工具变量回归模型，用于估计存在未观测混杂时的因果效应，允许非线性关系和变量交互。传统IV方法通常假定线性或可加性，而BART通过树集成自动捕捉复杂模式，无需预先指定函数形式，并在贝叶斯框架下通过MCMC进行后验采样。作者将该模型应用于孟德尔随机化研究，利用UK Biobank数据，以遗传变异作为BMI的工具变量，分析BMI对血压的非线性影响及其与年龄的交互作用。实证结果表明，该方法能够揭示传统线性模型无法捕捉的异质性效应，对精准医学有潜在意义。该工作直接关联因果推断中IV方法的非线性拓展，且孟德尔随机化应用切合流行病学secondary interest。
关键技术: Bayesian additive regression trees (BART), Instrumental variable regression, Mendelian randomization, Nonlinear causal inference, MCMC
为什么对您有用: 本文面向因果推断中IV的非线性化，尤其是孟德尔随机化这一流行病学典型应用。您的非参数统计与因果推断估计理论可立即用来审视BART-IV的识别条件与非参数收敛性质，且您对软件开发的熟悉可帮助复现并扩展该分析，属于立即可做。

4. 10.1214/23-aoas1836 — Risk-aware restricted outcome learning for individualized treatment regimes of schizophrenia¶

作者: Shuying Zhu, Weining Shen, Haoda Fu, Annie Qu
期刊/来源: Annals of Applied Statistics
机构: University of California, Irvine · Eli Lilly (United States)
分类: vol 18 · issue 2
相关性 8/10 · novelty: new_method
摘要: 本文针对精神分裂症个体化治疗方案（ITR）的设计问题，在优化疗效的同时施加副作用风险约束，提出了一种受限结果加权学习方法。该方法适用于多阶段治疗决策，并包含单阶段情形作为特例。核心算法采用差分凸规划（Difference-of-Convex）与拉格朗日乘子法求解带非凸风险约束的优化问题，提高了计算可行性。理论方面建立了Fisher一致性和强对偶性结果，保证了估计量的解释性和最优性。在Stroup等人的临床研究数据上应用，发现该方法相比于现有方法将副作用风险降低至少22.5%，同时疗效提升至少26.3%。关键的协变量（如PANSS评分、临床总体印象严重程度评分、BMI）对控制副作用和确定最优治疗推荐有显著影响。这篇工作将因果推断中的策略学习与临床风险-效益权衡相结合，对您感兴趣的因果推断子方向——个体化治疗决策——提供了可直接迁移的估计与分析框架。
关键技术: outcome weighted learning, difference-of-convex algorithm, Lagrange multiplier, Fisher consistency, strong duality, multistage decision
为什么对您有用: 本文属于因果推断中的个体化治疗规则（ITR）方向，直接对应您非常熟悉的estimation theory in causal inference子领域。您可立即使用nonparametric statistics和minimax bound技术分析该受限估计量的收敛速率或改进正则化条件；同时，其多阶段框架可链接至您moderately_familiar的identification theory，用于检验动态Treatment方案下的可识别性条件。综上，这是一个立即可做的方法迁移或理论拓展课题，值得深度阅读。

5. 10.1214/23-aoas1838 — MASH: Mediation analysis of survival outcome and high-dimensional omics mediators with application to complex diseases¶

作者: Sunyi Chi, Christopher R. Flowers, Ziyi Li, Xuelin Huang, Peng Wei
期刊/来源: Annals of Applied Statistics
机构: The University of Texas MD Anderson Cancer Center
分类: vol 18 · issue 2
相关性 8/10 · novelty: new_method
摘要: 本文研究高维 omics 中介变量在生存结局下的 mediation analysis，目标是估计 total mediation effect 并筛选真实中介变量。核心方法 MASH 分两步：首先用 sure independence screening (SIS) 降维筛选候选中介，其次提出基于二阶矩的 total mediation effect 度量（类比线性模型的 R²），适用于 right-censored survival data。理论部分未给出 formal asymptotic theory 或 semiparametric efficiency 结果，主要通过 simulation 验证有限样本表现。实证分析包括 Framingham Heart Study 的 metabolomics 数据和 DLBCL 基因组数据，识别出若干显著中介变量。对您而言，这是 high-dimensional mediation 在流行病学数据的应用案例，但方法学 novelty 有限。
关键技术: sure independence screening, survival analysis, mediation analysis, high-dimensional mediator selection, second-moment-based effect measure
为什么对您有用: 连接到 causal inference 中的 mediation analysis 子方向，以及 epidemiology 的应用场景。技术层面，本文缺乏 semiparametric efficiency 或 influence function 的理论框架，您熟悉的 HOIF 和 semiparametric theory 可以用于构建更严谨的 inference——例如为 total mediation effect 给出 asymptotic normality 和 confidence interval。follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上补充 survival outcome 下的 efficient influence function 推导，然后可以尝试改进其 estimator 的理论性质。

6. 10.1214/23-aoas1856 · arXiv — Selecting invalid instruments to improve Mendelian randomization with two-sample summary data¶

作者: Ashish Patel, Francis J. DiTraglia, Verena Zuber, Stephen Burgess
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 8/10 · novelty: new_method
摘要: 在 Mendelian randomization (MR) 框架下，目标是估计 exposure 对 outcome 的因果效应，关键假设是工具变量 (IV) 的有效性与核心 IV 假设。本文提出 "focused" instrument selection 方法，通过最小化估计的渐近均方误差 (AMSE) 来选择工具变量，允许纳入轻微无效但能降低方差的 IV，从而在 bias-variance tradeoff 中取得更优表现。作者在 many weak and locally invalid instruments 设定下，提出了一种针对 post-selection estimator 的置信区间构造策略，通过 worst-case coverage loss 的保守校正来保证推断有效性。理论贡献包括建立 AMSE 准则下的选择一致性，以及 post-selection inference 的覆盖率保证。实证分析表明，最优选择往往包含大量潜在无效 IV，而非仅依赖少数生物学验证的 IV。对您在 IV 方法与 sensitivity analysis 方面的兴趣有直接参考价值。
⚠️ 摘要不完整，待重跑（python -m research_news.rerun）
关键技术: Mendelian randomization, instrumental variable selection, bias-variance tradeoff, post-selection inference, asymptotic mean squared error, two-sample summary data
为什么对您有用: 直接连接到您 primary interest 中的 IV 方法与 sensitivity analysis——本文处理的是 IV validity 违背时的 robust estimation 问题，属于 IV sensitivity 的一个具体方向。您武器库中的 identification theory in causal inference (moderately_familiar) 可以用来审视本文的 AMSE 最优选择在 identification 层面的含义，而 estimation theory in causal inference (very_familiar) 可以帮助评估其 post-selection CI 策略的保守程度。中期可做：若想深入 IV selection 理论，需先在 moderately_familiar 的 identification theory 上加强，特别是 many weak IV 与 invalid IV 的 identification 条件。

7. 10.1214/21-aoas1586 — A marginal structural model for partial compliance in SMARTs¶

作者: William J. Artman, Indrabati Bhattacharya, Ashkan Ertefaie, Kevin G. Lynch, James R. McKay, Brent A. Johnson
期刊/来源: Annals of Applied Statistics
机构: University of Rochester Medical Center · Florida State University · Center for Clinical Research (United States) · University of Pennsylvania
分类: vol 18 · issue 2
相关性 7/10 · novelty: new_method
摘要: 在 SMART（sequential multiple assignment randomized trial）框架下，研究存在不依从性时如何估计动态治疗策略（DTR）的因果效应，目标参数是潜在依从层内的平均结局。采用边际结构模型结合主分层方法，通过贝叶斯半参数方法对主分层进行建模，处理纵向研究中的部分依从性而非简单的二值依从性。核心估计策略基于边际结构模型的逆概率加权框架，结合主分层识别假设处理部分依从性带来的复杂分层结构。模拟研究表明方法在有限样本下表现良好，应用于 ENGAGE 数据集发现最优 DTR 依从于依从层，相比意向性治疗分析提供了更精细的策略建议。对您在纵向因果推断和主分层方法方面的工作有直接参考价值。
关键技术: marginal structural model, principal stratification, partial compliance modeling, Bayesian semiparametric estimation, dynamic treatment regime, sequential multiple assignment randomized trial
为什么对您有用: 直接连接到您 primary interest 中的纵向因果推断和因果推断估计理论。主分层框架下的部分依从性建模涉及 identification theory，属于您 moderately_familiar 的范畴；边际结构模型的估计部分可用您 very_familiar 的估计理论工具分析。中期可做：需先在 moderately_familiar 的 identification theory（特别是主分层识别）上补充，之后可探索该框架下的 semiparametric efficiency bound 或更高效的估计方法。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶

1. 10.1214/23-aoas1830 — Tensor regression for incomplete observations with application to longitudinal studies¶

作者: Tianchen Xu, Kun Chen, Gen Li
期刊/来源: Annals of Applied Statistics
机构: Bristol-Myers Squibb (Germany) · University of Connecticut · University of Michigan
分类: vol 18 · issue 2
相关性 5/10 · novelty: new_method
摘要: 本文针对纵向研究中常见的块缺失问题，提出将多元纵向数据表示为三阶张量（样本×特征×时间），并建立标量-张量回归模型进行关联分析。核心挑战在于观测不完整，无法直接使用需要完整样本的传统方法。作者开发了基于协方差的正则化估计方法，无需数据插补即可利用所有可用观测值，同时实现变量选择和时变效应的平滑估计。该方法在参数估计中利用张量结构的低秩刻画缺失模式，通过协方差矩阵的适当构造规避缺失值。理论上的正则化路径保证了高维特征下的变量一致性选择。实证部分应用于早产儿肠道微生物组与神经发育关联的纵向研究，发现了有意义的关联模式；合成数据与老化研究进一步验证方法的有效性。对您而言，本文提供了处理高维纵向缺失数据的规范分析框架，可直接连接流行病学或因果推断中的纵向数据应用场景，且其张量运算思路与您熟悉的高阶U统计量（einsum/treewidth）的计算视角有方法学共鸣。
关键技术: tensor regression, blockwise missing data, covariance-based estimation, variable selection via regularization, smooth time-varying effects, alternating least squares (implied)
为什么对您有用: 匹配高维统计兴趣中的高维变量选择与正则化方法，同时其纵向数据应用直接服务于流行病学次要兴趣中的数据集与分析需求。从武器库角度看，您可以用 very_familiar 的非参极小极大界分析该估计量的自变量选择收敛率，或用 moderately_familiar 的 HOIF 延伸至因果效应估计。立即可做：在当前微生物组数据上重演该分析流程，检验结果稳定性。

2. 10.1214/23-aoas1820 — Readability prediction: How many features are necessary?¶

作者: Florian Schwendinger, Laura Vana, Kurt Hornik
期刊/来源: Annals of Applied Statistics
机构: University of Klagenfurt · Vienna University of Economics and Business
分类: vol 18 · issue 2
相关性 1/10 · novelty: new_method
摘要: 在文本可读性预测问题中，目标是识别高维相关特征中的关键子集以提升预测精度与可解释性。作者提出 ordinal averaged lasso，将层次聚类与 lasso 结合，利用特征间的相关性结构进行分组变量选择。方法通过在聚类层级上施加 lasso 惩罚，有效处理了自然语言处理工具生成的高度相关特征（文献中多达 200 个特征）的冗余问题。理论层面依赖于 lasso 的标准 oracle 性质与聚类结构的稳定性，实证在两个语料库上展示了相比传统可读性公式及单独 lasso 的预测精度提升。对您而言，这是一个高维特征选择在具体应用场景的案例，展示了如何将相关性结构融入正则化框架。
关键技术: ordinal averaged lasso, hierarchical clustering with lasso, feature selection for correlated predictors, variable selection in high dimensions, ordinal regression
为什么对您有用: 本文属于高维统计中变量选择的经典应用，与您 primary interest 中的 high-dimensional statistics 相关。您武器库中的 minimax bounds for estimation problems 可用于分析该方法在相关设计矩阵下的理论性质——现有 lasso 理论在强相关特征下的 rate 是否紧、ordinal averaged lasso 是否真正改善 minimax rate。中期可做：需先在 moderately_familiar 的 M-estimation theory 上补充 ordinal regression 的理论框架，才能深入分析其估计量的收敛性质。

非参数 / 半参数 (nonparam_semipara, 7 篇)¶

1. 10.1214/23-aoas1834 — Semiparametric bivariate hierarchical state space model with application to hormone circadian relationship¶

作者: Mengying You, Wensheng Guo
期刊/来源: Annals of Applied Statistics
机构: University of Pennsylvania
分类: vol 18 · issue 2
相关性 7/10 · novelty: application
摘要: 本文研究肾上腺皮质激素(ACTH)与皮质醇的昼夜节律关联，目标是估计两组激素非参数节律曲线之间的相关性。设定为半参数双变量分层状态空间模型，每条激素曲线由分层状态空间模型刻画，包含非参数总体平均成分和个体特异成分；双变量关联通过设计矩阵连接两潜变量，将相关性的推断转化为参数问题。估计采用状态空间 EM 算法，利用 Kalman 滤波与平滑实现高效计算，避免了直接扩展泛函混合效应模型带来的高维问题。理论层面未给出严格的渐近性质或效率界，主要贡献在于模型构建与计算方案。实证应用于慢性疲劳综合征数据，发现患者组的激素调节模式紊乱，对照组则呈现符合昼夜节律的规律。对您而言，这是半参数纵向数据建模的一个应用案例，展示了状态空间方法处理非参数函数型数据的计算策略。
关键技术: state space model, EM algorithm, Kalman filtering, functional mixed effects, nonparametric circadian estimation, bivariate correlation inference
为什么对您有用: 本文属于半参数纵向数据建模的应用工作，连接到您 primary interest 中的 semiparametric theory 与 longitudinal data，但侧重模型构建与计算而非效率理论或推断的严格证明。您武器库中的 nonparametric statistics 与 software development 可直接理解其状态空间 EM 算法实现；若想深入，需在 moderately_familiar 的 semiparametric theory 上补充该类模型的渐近效率分析。作为应用论文，方法学 novelty 有限，但提供了激素纵向数据的真实案例，可作为半参数纵向模型的入门阅读。

2. 10.1214/23-aoas1819 · arXiv — Identification of influencing factors on self-reported count data with multiple potential inflated values¶

作者: Yang Li, Mingcong Wu, Mengyun Wu, Shuangge Ma
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 4/10 · novelty: new_method
摘要: 研究自报计数数据中存在多个膨胀值（inflated values）时的变量选择与影响因素识别问题，目标是在有限混合模型框架下同时识别膨胀点位置并筛选重要协变量。方法核心是带 L1 正则化的混合比例与回归参数联合估计，通过惩罚项实现膨胀比例收缩与变量选择，属于正则化 M-估计范畴。理论部分证明了估计量的相合性与渐近正态性，但摘要未给出具体的收敛速率或 oracle property 细节。实证部分分析了网约代驾服务需求数据，识别出多个膨胀点及其影响因素。对您而言，这是正则化方法在计数数据中的应用案例，但理论深度较浅。
关键技术: zero-inflated count model, finite mixture model, L1 regularization, variable selection, M-estimation theory, EM algorithm
为什么对您有用: 本文属于正则化 M-估计在混合模型中的应用，与您 primary interest 中的 semiparametric theory 和 high-dimensional statistics 有边缘交集，但核心是应用驱动的变量选择问题。从 technical_arsenal 角度，您可以用 very_familiar 的 minimax bounds 工具审视其正则化参数选择是否最优，或用 moderately_familiar 的 M-estimation theory 验证其渐近性质是否可改进。follow-up 判断：暂不可做——本文理论贡献有限，且膨胀值识别问题与您核心研究方向（causal inference、efficiency theory、higher-order U-statistics）距离较远，不建议投入时间深读。

3. 10.1214/23-aoas1853 · arXiv — Functional concurrent regression with compositional covariates and its application to the time-varying effect of causes of death on human longevity¶

作者: Emanuele Giovanni Depaoli, Marco Stefanucci, Stefano Mazzuco
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 4/10 · novelty: application
摘要: 本文研究函数型并发回归（functional concurrent regression）设定下，当协变量为函数型成分数据（compositional functional covariates）时的估计与变量选择问题。目标是在时间点上建立响应函数（出生时预期寿命）与多个年龄组别死因构成轨迹之间的回归关系，核心正则性假设包括成分数据的 simplex 约束与函数系数的光滑性。方法上提出 penalized M-estimation，通过惩罚项同时实现函数系数的光滑化与变量选择，优化求解采用 augmented Lagrangian 算法处理成分约束与稀疏约束的耦合。理论贡献未给出收敛率或渐近分布的严格证明，主要通过模拟展示预测与系数估计的有限样本表现。实证分析 25 国数据，确认肿瘤与心血管疾病对预期寿命的影响，并揭示若干新发现。对您的 semiparametric theory 兴趣而言，本文方法学 novelty 有限，但函数型成分数据模型可作为应用导向的扩展阅读。
关键技术: functional concurrent regression, compositional data analysis, penalized M-estimation, augmented Lagrangian algorithm, functional variable selection, basis expansion
为什么对您有用: 本文属于 semiparametric/nonparametric theory 的应用侧工作，但缺乏您关注的效率理论、influence function 或收敛率分析。技术武器库中的 M-estimation theory 和 nonparametric statistics 可用于审视其估计量的理论性质（如能否建立 oracle property 或 minimax optimality），但本文未触及这些深层问题。暂不可做：若想在此方向深入，需先补强函数型数据分析（functional data analysis）的专门理论工具，当前武器库未覆盖。

4. 10.1214/23-aoas1821 — Information-incorporated clustering analysis of disease prevalence trends¶

作者: Chenjin Ma, Cunjie Lin, Yuan Xue, Sanguo Zhang, Qingzhao Zhang, Shuangge Ma
期刊/来源: Annals of Applied Statistics
机构: Beijing University of Technology · Renmin University of China · University of Chinese Academy of Sciences · Xiamen University
分类: vol 18 · issue 2
相关性 4/10 · novelty: new_method
摘要: 本文研究多疾病患病率趋势的函数聚类问题，设定是每个疾病有稀疏时间点观测，目标是将多条患病率曲线聚类。作者提出基于 penalized fusion 的函数聚类方法，核心创新是引入从已发表文献挖掘的先验信息作为惩罚项，并设计机制应对该信息可能不完全相关或正确的情况。理论贡献包括建立估计量的一致性和收敛率，技术工具涉及函数数据分析、fusion 惩罚和 M-estimation 理论。实证部分使用台湾 NHIRD 数据，展示了与现有方法不同的聚类发现。对您而言，这是一个将 semiparametric M-estimation 理论应用于流行病学数据的实例，展示了如何在信息可能 misspecified 时建立理论保证。
关键技术: penalized fusion, functional clustering, M-estimation theory, consistency and convergence rate, prior information incorporation
为什么对您有用: (1) 连接到流行病学应用（secondary interest）中的函数数据分析，以及 semiparametric M-estimation 理论（primary interest）。(2) 您的 very_familiar 武器库中的 M-estimation 理论可直接用于审视其理论证明框架；moderately_familiar 的 semiparametric theory 可帮助评估其对 prior information misspecification 的处理是否充分。(3) 中期可做：若想深入，需在函数数据分析的 minimax rate 方面补充背景，但核心理论工具已在武器库中。

5. 10.1214/23-aoas1827 — Filtrated common functional principal component analysis of multigroup functional data¶

作者: Shuhao Jiao, Ron Frostig, Hernando Ombao
期刊/来源: Annals of Applied Statistics
机构: City University of Hong Kong · University of California, Irvine · King Abdullah University of Science and Technology
分类: vol 18 · issue 2
相关性 3/10 · novelty: new_method
摘要: 本文针对多组功能数据（如多电极记录的大鼠局部场电位）提出一种新型滤波式共同函数主成分分析（filt-fPCA）方法。该方法利用森林结构（forest-structured）对组间共享的全局变异和组内特有的局部变异进行多分辨率提取，无需预先指定数据的分组结构。算法高度数据驱动，能够自适应地识别出由信号同步引起的全局模式以及仅在小部分组中出现的特定模式。通过正交基函数实现稀疏且可解释的功能重建，并在大鼠脑卒中前后LFP信号的同步性分析中展示了实际应用价值。该方法可推广至多元功能数据、时空数据及纵向功能数据。对您而言，filt-fPCA是非参数功能数据分析的最新进展，您熟悉的非参数统计和函数型主成分分析理论可直接用于理解其估计性质，并可能进一步结合您擅长的U-statistic投影方法优化其统计效率。
关键技术: functional principal component analysis (fPCA), multigroup functional data, forest-structured fPCA, multiresolution decomposition, orthonormal basis functions, local field potential (LFP) analysis
为什么对您有用: 直接连接到非参数统计（功能数据分析）这一primary interest。您very_familiar的‘非参数统计’和‘高维渐近理论’可直接用于分析filt-fPCA的收敛速率和基函数选择；同时，您对‘软件开发’的熟练程度使得实现该方法的R/Python扩展包成为中期可做的任务。总体判断：您已有工具能立即批评性复现该方法的核心步骤（立即可做）。

6. 10.1214/23-aoas1832 — Athlete rating in multicompetitor games with scored outcomes via monotone transformations¶

作者: Jonathan Che, Mark Glickman
期刊/来源: Annals of Applied Statistics
机构: Harvard University
分类: vol 18 · issue 2
相关性 2/10 · novelty: new_method
摘要: 研究多选手竞技场景下运动员时变能力的估计问题，目标是在得分分布非正态时识别潜在能力参数。作者提出 Bayesian dynamic linear model 配合 flexible monotone response transformations，通过非线性单调变换将非正态得分映射到正态假设框架，估计量可用标准回归和优化程序计算。核心机制是 monotone transformation 的参数化或非参数化学习，结合 state-space model 的时序结构，实现能力参数的动态追踪。理论贡献主要是模型框架与算法实现（R 包 dlmt），未给出严格的 semiparametric efficiency 或 minimax rate 结果。实证部分覆盖冬季两项、跳水、橄榄球、击剑等奥运项目数据。对您在 semiparametric theory 方向的兴趣而言，本文展示了 monotone transformation 在实际建模中的应用，但方法学深度有限。
关键技术: Bayesian dynamic linear model, monotone response transformation, state-space model, time-varying latent ability estimation, non-normal outcome modeling
为什么对您有用: (1) 连接到 semiparametric theory 中的 monotone transformation 方向，但本文是应用驱动，理论深度较浅。(2) 您的 very_familiar 武器库中 nonparametric statistics 和 software development 可以直接审视其 monotone transformation 的实现方式，但文章未触及 efficiency bound 或 minimax theory，技术挑战有限。(3) 暂不可做：本文属于应用统计方法论文，核心是模型框架和软件实现，没有留下需要高深统计理论攻克的口子；若对 sports analytics 有兴趣可作为轻量阅读，但不会推进您在 primary interest 方向的研究议程。

7. 10.1214/23-aoas1847 · arXiv — Modeling extremal streamflow using deep learning approximations and a flexible spatial process¶

作者: Reetam Majumder, Brian J. Reich, Benjamin A. Shaby
期刊/来源: Annals of Applied Statistics
机构: North Carolina State University · Colorado State University
分类: vol 18 · issue 2
相关性 2/10 · novelty: new_method
摘要: 本文研究极端洪涝事件的概率与强度变化，目标是估计空间极端值的联合分布，关键假设是空间依赖结构可由高斯过程与 max-stable 过程的凸组合（PMM）刻画。核心方法是将前馈神经网络嵌入密度回归模型，近似给定邻居节点条件下单点的条件分布，再通过 Vecchia approximation 组装近似联合似然。理论层面未给出收敛率或渐近正态性证明，主要贡献在于计算策略：用神经网络近似 intractable likelihood，使 continental-scale 数据分析成为可能。实证分析美国 50 年河流最大流量数据，检测到极端流量显著增加的区域。对您而言，这是神经网络近似似然 + Vecchia 稀疏化的计算策略展示，与 semiparametric theory 的效率分析视角不同，更偏向 stat_computing 层面的工程解法。
关键技术: process mixture model, max-stable process, neural network density regression, Vecchia approximation, spatial extreme value theory, likelihood approximation
为什么对您有用: 本文属于 stat_computing 与 nonparametric 交叉，核心是神经网络近似 intractable likelihood 的计算策略。您武器库中 very_familiar 的 software development 和 high-dimensional asymptotics 可直接理解其实现细节，但核心的 max-stable process 与 spatial extremes 理论不在武器库中。中期可做：若想进入 spatial extremes 领域，需先在 moderately_familiar 的 semiparametric theory 基础上补充 extreme value theory 的 tail dependence 结构知识。作为 gateway reading 尚可，但若您关注的是效率理论或 debiased ML，本文的计算近似思路与您主线的 semiparametric efficiency bound 追求差异较大。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 10.1214/23-aoas1824 · arXiv — Network method for voxel-pair-level brain connectivity analysis under spatial-contiguity constraints¶

作者: Tong Lu, Yuan Zhang, Peter Kochunov, Elliot Hong, Shuo Chen
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 3/10 · novelty: new_method
摘要: 本文提出一种基于网络的方法，用于在空间连续性约束下检测脑功能连接（FC）中的体素对层面异常连接。传统脑连接组分析将数百万体素压缩为区域（ROI），但会损失空间特异性，尤其在信号异质性高时。本文方法聚焦于提取包含异常连接的密集子区域，并确保体素空间连续。算法上开发了子社区检测算法，并证明了其一致性。模拟表明该方法能降低假阳性率，增加统计效能和可重复性。应用于精神分裂症（330例）和尼古丁成瘾（UK Biobank 3269例）研究，发现与已知医学结果一致的局部化异常模式。本文连接了高维假设检验、空间统计与脑影像应用，对您在高维数据和假设检验领域的兴趣有直接参考。
关键技术: sub-community detection, spatial-contiguity constraints, voxel-pair-level connectivity, network method, consistency analysis
为什么对您有用: 本文涉及高维体素数据的假设检验（检测异常FC子区域），连接了您在hypothesis testing和high-dimensional statistics中的兴趣。您擅长的high-dimensional asymptotics和minimax bounds可用来分析其检测功效和假阳性控制的紧性。该论文方法学清晰，可用您已有的工具直接评估其理论性质，立即可做。

统计计算 / 算法 (stat_computing, 4 篇)¶

1. 10.1214/23-aoas1835 — Tensor quantile regression with low-rank tensor train estimation¶

作者: Zihuan Liu, Cheuk Yin Lee, Heping Zhang
期刊/来源: Annals of Applied Statistics
机构: Yale University · Chinese University of Hong Kong
分类: vol 18 · issue 2
相关性 8/10 · novelty: new_method
摘要: 本文研究标量对张量分位数回归，目标是利用MRI图像预测人类智力，其中张量系数的高维性构成计算瓶颈。作者引入张量列（TT）分解对系数张量施加低秩结构，有效降低维度至可处理水平，相比经典的Canonic Polyadic (CP) 秩近似更稳定高效。此外，利用空间结构提出广义Lasso惩罚，进一步压缩系数并增强可解释性。在较温和的协变量与随机误差条件下，建立了TT估计量的相合性与渐近正态性，并给出了在全变分惩罚下的收敛速度。通过合成数据与真实MRI数据实验，验证了所提方法相比竞争方法的优越性。本文展示了张量分解在统计建模中的实际应用，与您对统计计算中张量方法的兴趣直接相关。
关键技术: tensor train decomposition, quantile regression, scalar-on-image regression, generalized Lasso penalty, total variation penalty, asymptotic normality
为什么对您有用: 本文的主题——基于张量列分解的低秩估计——直接契合您在统计计算中对张量方法的兴趣。您对treewidth/tensor contraction/einsum计算高阶U-统计量的熟悉度可以迁移到理解本文的TT分解算法及其计算效率；其渐近正态性证明也为后续拓展到其他张量结构估计提供了可复用的理论框架。基于当前武器库，您可以立即尝试将本文的TT分解思路推广到高阶U-统计量的计算加速问题（立即可做）。

2. 10.1214/23-aoas1823 — Efficient and effective calibration of numerical model outputs using hierarchical dynamic models¶

作者: Yewen Chen, Xiaohui Chang, Bohai Zhang, Hui Huang
期刊/来源: Annals of Applied Statistics
机构: University of Georgia · Oregon State University · Beijing Normal-Hong Kong Baptist University · Renmin University of China
分类: vol 18 · issue 2
相关性 6/10 · novelty: new_method
摘要: 数值空气质量模型如CMAQ的系统性偏差需要校准，现有方法未充分利用时空相关性。本文借助稀疏监测站的点观测数据，提出贝叶斯层次动态模型来校准大规模网格输出。模型嵌入了随机积分-微分方程（IDE）以刻画污染物浓度的时空交互，并采用非规则网格离散IDE以更精确拟合空间结构。为处理超大规模网格，引入了空间分区策略增强可扩展性，并开发了结合变分贝叶斯和集成卡尔曼平滑器的加速算法。应用于京津冀地区CMAQ校准，结果表明新方法不仅更准确捕捉时空动态，且计算效率显著优于已有方法。该方法中变分贝叶斯与状态空间模型的结合、大规模数值优化技巧，可为您的统计计算工具箱（尤其是算法加速与不确定性量化）提供实际案例，并可能延伸至其他时空校准问题。
关键技术: Bayesian hierarchical dynamic model, stochastic integro-differential equation (IDE), variational Bayes (VB), ensemble Kalman smoother (EnKS), spatial partitioning, nonregular mesh discretization
为什么对您有用: 该论文核心是大型时空模型的高效贝叶斯校准，连接您primary interest中的“统计计算”子方向（数值方法与算法加速）。文中变分贝叶斯与集成卡尔曼平滑的联合迭代策略，可视为state-space模型下近似推断的一次工程创新，您very_familiar的“software development”和“high-dimensional asymptotics”能帮助您用数值实验检验其收敛性，或用渐近分析刻画其稳定性。但当前武库缺乏贝叶斯层次模型及空间-时间IDE的理论基础，故follow-up粗判为“暂不可做”——需先补充空间统计和状态空间模型的知识（例如随机偏微分方程近似），方可深入评估其方法学贡献或迁移该算法至其他领域。

3. 10.1214/23-aoas1850 · arXiv — Spatial predictions on physically constrained domains: Applications to Arctic sea salinity data¶

作者: Bora Jin, Amy H. Herring, David Dunson
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 2/10 · novelty: new_method
摘要: 本文针对北极海表盐度（SSS）预测问题，由于卫星算法采用保守冰掩码导致沿海冰区域数据大量缺失，提出BORA-GP（Barrier Overlap-Removal Acyclic Directed Graph GP）模型。该模型通过构造稀疏有向无环图（DAG），使邻域选择遵从物理障碍（如海岸线、冰边缘）并移除重叠，从而在复杂几何约束域上实现非平稳高斯过程的可扩展推断。核心机制是将空间相关结构编码为DAG中的条件独立性，并利用稀疏精度矩阵实现大规模卫星数据的计算。在模拟和真实北极SSS数据上，BORA-GP比现有方法（如固定秩克里金、SPDE方法）更准确地恢复了冰掩码区域的盐度值，且R包已开源。该方法中的稀疏DAG构造和可扩展计算技术对统计计算中的算法设计与软件实现具有实用参考价值。
关键技术: Gaussian process, directed acyclic graph (DAG), nonstationary spatial process, sparse precision matrix, barrier overlap-removal, R package boraGP
为什么对您有用: 本文直接关联primary interest中的统计计算（算法与软件）方向，其稀疏DAG构造与very_familiar中的软件开发和R包使用经验高度匹配，可快速复现并应用于其他复杂边界空间数据。同时，DAG邻域选择与higher-order U-statistics中的树宽/张量收缩计算有概念类比，中期可借助moderately_familiar中的树宽理论分析其计算复杂度。立即可做：利用已有R包开发经验复现实验或扩展至其他气候变量。

4. 10.1214/23-aoas1855 — A hierarchical spline model for correcting and hindcasting temperature data¶

作者: Theodoros Economou, Catrina Johnson, Elizabeth Dyson
期刊/来源: Annals of Applied Statistics
机构: Cyprus Institute · Met Office
分类: vol 18 · issue 2
相关性 2/10 · novelty: application
摘要: 该文针对气象温度时间序列中常见的缺失值、错误、异常值和时空覆盖稀疏问题，提出一个贝叶斯分层惩罚样条模型。模型通过层级结构实现不同站点间数据信息池化，并利用离散混合分布处理异常值，同时整合全球再分析气候模型数据以引入物理约束。贝叶斯推断采用条件共轭实现高效采样，允许全面的模型检查和不确定性量化。应用于每日最高温度数据表明，模型能灵活捕捉时间结构，有效识别异常值，并可将时间序列向后外推50年（hindcasting），保持合理的不确定性水平。该工作展示了分层贝叶斯方法与样条平滑在环境数据校正和插补中的实用价值，对统计计算（特别是高效贝叶斯实现和软件化）和非参数平滑方法均有参考意义。
关键技术: Bayesian hierarchical spline, penalised splines, discrete mixture for outlier handling, conditional conjugacy, hindcasting with uncertainty quantification
为什么对您有用: 本文连接统计计算中的分层贝叶斯建模与非参数样条方法，属于您的技术武器库中‘非参数统计’和‘软件开发’可覆盖的范畴。您可借助‘非参统计’中样条的理论基础理解模型的平滑性质，并利用‘软件开发’经验评估或推广其实现框架。该模型在气候数据处理上的完整流程（数据整合、异常值检测、向后预测）提供了可迁移的分析模板，是一个适合入门阅读的应用案例。假如后续对贝叶斯分层模型的实际计算细节感兴趣，可进一步学习条件共轭与MCMC实现（当前武器库未列贝叶斯，属中期可做方向）。

经济理论 / 应用 (econ_theory, 3 篇)¶

1. 10.1214/23-aoas1841 · arXiv — Forecasting U.S. inflation using Bayesian nonparametric models¶

作者: Todd E. Clark, Florian Huber, Gary Koop, Massimiliano Marcellino
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 7/10 · novelty: new_method
摘要: 本文聚焦于美国通胀预测，考虑到通胀与失业等预测变量之间的关系可能具有非线性且强度随时间变化，误差也可能受到大的不对称冲击。为此，作者开发了一个贝叶斯非参数模型，使用高斯过程建模条件均值，使用狄利克雷过程建模误差分布，从而在条件均值和误差两方面均实现非参数化。文中讨论了这两个非参数特征对通胀预测准确性的相对重要性。在基于CPI通胀数据的预测实验中，该模型在整体预测性能和左尾预测（如通缩风险）上均表现出显著优势，其中条件均值的非参数建模尤为关键。本文的非参数建模思路与你擅长的非参数统计工具直接相通，同时提供了一个经济时间序列的应用案例，可作为你拓展经济领域数据应用的参考。
关键技术: Gaussian process, Dirichlet process, Bayesian nonparametric, inflation forecasting, time-varying nonlinearity
为什么对您有用: 本文属于经济理论应用方向（通胀预测），使用了非参数贝叶斯方法，与你非常熟悉的非参数统计工具高度契合。你现有的非参数统计和M-estimation理论可以直接用于理解该模型的正则性与误差结构，甚至可以考虑将其预测框架扩展至因果推断中的时间序列处理效应估计（如SVAR或面板数据）。立即可做：你不需要额外学习核心工具即可阅读并评价其方法合理性。

2. 10.1214/22-aoas1702 — A high-dimensional approach to measure connectivity in the financial sector¶

作者: Sumanta Basu, Sreyoshi Das, George Michailidis, Amiyatosh Purnanandam
期刊/来源: Annals of Applied Statistics
机构: Cornell University · University of Florida · University of Michigan · Ross School
分类: vol 18 · issue 2
相关性 6/10 · novelty: application
摘要: 本文针对金融系统性风险网络建模问题，提出 DLVAR（Debiased Lasso Penalized Vector Autoregression）方法，以克服传统成对 Granger 因果检验高假阳性率和系统惩罚回归收缩偏差及缺乏推断的缺陷。方法核心是将高维推断中的去偏 Lasso 技术引入向量自回归（VAR）框架，通过去除 Lasso 收缩偏倚得到各系数的渐近正态估计，从而支持对 Granger 因果关系的正式假设检验。作者给出了高维设定下 Granger 因果检验的理论保证（包括控制 FDR 和统计推断）。实证部分应用该方法于 1990–2021 年美国大型金融机构股票回报数据，有效识别出 2008 年金融危机和新冠疫情等系统性风险时期的网络连通性变化。本文属于高维统计方法在经济学/金融学应用中的前沿工作，直接连接您的高维统计兴趣（去偏 Lasso 推断机制）和经济理论应用（金融网络、系统性风险度量），可用于评估同类高维因果推断方法在时间序列设定下的适用性。
关键技术: Debiased Lasso, Vector Autoregression (VAR), Granger causality, High-dimensional inference, Financial network analysis
为什么对您有用: 本文直接连接您的高维统计兴趣（尤其是 high-dimensional asymptotics 和 estimation theory in causal inference）——去偏 Lasso 在高维 VAR 中的渐近性质是您 very_familiar 武器库中的典型分析对象；同时属于 secondary interest 中的经济理论应用（金融网络与系统性风险），展示了一种高维因果推断 pipeline。中期可做：若想将此类 Granger 因果网络方法推广到更一般的因果识别（如结构 VAR 或干预效应），需要先在 moderately_familiar 的 identification theory in causal inference 上加强时间序列因果的理解，但阅读本文本身门槛较低。

3. 10.1214/23-aoas1840 — Hierarchical dependence modeling for the analysis of large insurance claims data¶

作者: Ting Fung Ma, Yizhou Cai, Peng Shi, Jun Zhu
期刊/来源: Annals of Applied Statistics
机构: University of South Carolina · University of Wisconsin–Madison
分类: vol 18 · issue 2
相关性 4/10 · novelty: application
摘要: 本文针对极端天气（冰雹风暴）导致的保险索赔数据，构建了一个分层依赖模型来刻画索赔发生概率、报告时间延迟和索赔金额之间的复杂相关性。边际模型采用广义线性模型和生存分析模型纳入风暴特征与财产特征；依赖结构内部通过空间因子Copula建模同一风暴事件内不同财产索赔的空间相关性，不同结果变量之间则通过二元Copula建模。估计采用两阶段方法：先最大化边际似然，再基于成对似然进行估计，以保证大规模数据集的计算可行性。将该模型应用于2011-2015年科罗拉多州冰雹风暴影响的数十万投保财产数据，结果显示模型的预测性能相比独立模型有明显提升。对您而言，这是一篇扎实的应用统计论文，展示了如何用基于似然的分层建模处理具有复杂空间和时间依赖的保险大数据，与您二级兴趣中的经济理论（保险数据建模与风险管理）直接相关。
关键技术: factor copula, pairwise likelihood, spatial dependence modeling, two-step estimation, generalized linear model
为什么对您有用: 论文属于经济理论（保险精算）领域的实际应用，展示了大粒度索赔数据的复杂依赖结构建模，与您的二级兴趣『经济理论』中的数据集与建模问题直接相关。技术上使用的成对似然估计与您武器库中『高维渐近』和『非参数统计』有衔接点，可用于分析估计量的渐近性质。目前您对Copula方法不熟悉，属于『中期可做』——需要先在『半参理论』（用于理解Copula的灵活性和估计效率）上补充知识后再进入该方向。

流行病学 (epidemiology, 11 篇)¶

1. 10.1214/23-aoas1846 — As treated analyses of cluster randomized trials¶

作者: Ari I. F. Fogelson, Kirsten E. Landsiedel, Suzanne M. Dufault, Nicholas P. Jewell
期刊/来源: Annals of Applied Statistics
机构: London School of Hygiene & Tropical Medicine · University of California, Berkeley · University of California, San Francisco · University of London
分类: vol 18 · issue 2
相关性 7/10 · novelty: application
摘要: 本文研究 cluster randomized trials 中"as treated"效应估计问题，以 AWED 登革热干预试验为背景，目标 estimand 是实际暴露干预的真实效应而非 ITT。核心方法是比较 marginal GEE 与 conditional GLMM 两种建模策略处理 cluster-level 干预、个体跨 cluster 流动以及干预 uptake 测量误差。文章揭示常用 cluster data 分析方法（如软件默认的 working correlation 选择、random effect specification）在 as treated 设定下可能产生偏差，且常规软件可能掩盖这些问题。实证结果显示 as treated 分析估计的干预效应强于 ITT 分析。对您而言，这是流行病学试验中 causal estimation 与 cluster structure 交互的实例，展示了 identification 与 estimation 在复杂暴露测量下的张力。
⚠️ 摘要不完整，待重跑（python -m research_news.rerun）
关键技术: marginal GEE, conditional GLMM, intention-to-treat vs as-treated, cluster randomized trial, test-negative design, exposure misclassification
为什么对您有用: (1) 连接到流行病学应用因果推断中的 IV / sensitivity analysis 设定——cluster randomization 提供了潜在 IV，但 uptake heterogeneity 和跨 cluster 流动引入了 compliance / exposure measurement 问题。(2) 您的 very_familiar 中"estimation theory in causal inference"可直接审视本文 GEE/GLMM 的 identification 假设与效率性质，moderately_familiar 中"identification theory in causal inference"可用于形式化 as treated estimand 的 identification 条件。(3) 中期可做：若想深入，需在 moderately_familiar 的 semiparametric theory 上长肌肉——本文的 GEE/GLMM 可用 influence function / TMLE 框架重新审视效率与稳健性，形式化 cluster structure 下的 efficient influence function。

2. 10.1214/23-aoas1844 — Penalized joint models of high-dimensional longitudinal biomarkers and a survival outcome¶

作者: Jiehuan Sun, Sanjib Basu
期刊/来源: Annals of Applied Statistics
机构: University of Illinois Chicago
分类: vol 18 · issue 2
相关性 6/10 · novelty: new_method
摘要: 本文研究高维纵向生物标志物（如基因表达）与生存结局的联合建模问题，目标是在控制大量候选变量时识别与生存显著相关的标志物并估计其效应。现有联合模型仅能处理少数指标，无法应对高维情形。作者提出一种基于自适应Lasso惩罚的联合模型（Cox+线性混合效应），对生存子模型中的标志物系数进行变量选择。模型估计采用高斯变分近似，并开发了HDJM R包实现高效计算。进一步提出两阶段选择程序：第一阶段用惩罚模型初筛，第二阶段在选定子集上重新估计以校正偏差并允许频率推断。模拟和特发性肺纤维化纵向基因表达数据验证了方法的性能。本文工作与您的高维统计变量选择及流行病学纵向数据应用兴趣直接相关。
关键技术: adaptive lasso, joint modeling, Gaussian variational approximation, two-stage selection procedure, high-dimensional variable selection
为什么对您有用: 本文连接高维统计中的变量选择问题与流行病学纵向生存数据联合建模，属于您 secondary interest 中流行病学的具体应用。您可用熟悉的“high-dimensional asymptotics”严格分析自适应Lasso在纵向联合模型下的变量选择一致性，或检验两阶段选择程序能否达到Oracle性质。该问题立即可做，因为武器库已包含高维渐近分析工具；此外，HDJM R包也可作为软件开发的参考。

3. 10.1214/23-aoas1833 · arXiv — Estimating the likelihood of arrest from police records in presence of unreported crimes¶

作者: Riccardo Fogliato, Arun Kumar Kuchibhotla, Zachary Lipton, Daniel Nagin, Alice Xiang, Alexandra Chouldechova
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 6/10 · novelty: application
摘要: 本文研究在存在大量未报案犯罪的情况下，如何从警方记录中准确估计各类犯罪被逮捕的概率。传统方法仅依赖警方记录会因选择性报告而产生偏差。作者提出两步骤参数回归估计：第一步利用全国犯罪受害调查（NCVS）的加权logistic回归估计犯罪报案概率；第二步将报案概率作为权重或协变量，在警方数据（NIBRS）中拟合逮捕概率的回归模型。实证分析使用了2006-2015年NIBRS数据和2003-2020年NCVS数据，关注暴力犯罪（性侵、抢劫、严重/简单攻击）中的种族差异。结果显示，在调整未报案犯罪后，逮捕概率整体显著降低；且白人与黑人犯罪者的逮捕率差异在控制犯罪特征后变得很小。这篇文章为利用行政记录和调查数据结合校正选择性偏差提供了实用框架，对您关注的因果推断中的测量误差调整和流行病学应用有直接参考价值。
关键技术: two-step regression estimation, survey-weighted logistic regression, selection bias adjustment, missing data, administrative data + survey data integration
为什么对您有用: 本文属于流行病学/犯罪学应用，核心问题是选择性报告导致的估计偏差，这是因果推断中常见的测量误差问题。您可以用熟悉的高维非参数方法或半参数效率理论来审视该两步估计的效率，例如考虑使用双重稳健估计或推导半参数效率界，从而改进估计量。由于方法框架简单，您可立即基于现有武器（如非参数回归、因果推断估计理论）进行扩展，属于立即可做的方向。

4. 10.1214/23-aoas1852 — Variance as a predictor of health outcomes: Subject-level trajectories and variability of sex hormones to predict body fat changes in peri- and postmenopausal women¶

作者: Irena Chen, Zhenke Wu, Siobán D. Harlow, Carrie A. Karvonen-Gutierrez, Michelle M. Hood, Michael R. Elliott
期刊/来源: Annals of Applied Statistics
机构: University of Michigan
分类: vol 18 · issue 2
相关性 6/10 · novelty: application
摘要: 该文研究纵向生物标记物（雌二醇E2、促卵泡激素FSH）的个体水平变异是否能够预测围绝经期及绝经后女性腰围变化。现有方法多关注均值轨迹，忽略了个体间方差的预测价值。作者提出了一个完全贝叶斯联合模型，同时估计每个个体的均值、方差和多个标记物间的协方差，并利用这些估计作为预测因子分析其对横断面健康结局（腰围变化）的关联。模型通过MCMC实现参数后验推断，模拟表明能良好恢复真实参数。与忽略个体方差差异或两阶段方法相比，该方法估计更无偏、效率更高。应用于女性健康数据，首次发现E2变异越大，腰围增长越慢。该文为流行病学中纵向生物标记物个体变异与健康结局的关联分析提供了可复用的贝叶斯框架，对您的流行病学应用兴趣有直接参考价值。
关键技术: Bayesian joint model, subject-level variance estimation, longitudinal biomarker trajectories, MCMC estimation, cross-sectional outcome prediction
为什么对您有用: 本文直接切入您的流行病学应用兴趣，展示如何将个体水平方差作为预测因子纳入纵向数据分析。您现有的统计计算与软件开发技能（如编MCMC、调试贝叶斯模型）可以轻松复现该方法，并迁移到其他生物标记物或健康结局中。立即可做：使用您熟悉的贝叶斯工具（如Stan）在类似纵向数据上实现联合方差建模。

5. 10.1214/23-aoas1849 · arXiv — A Bayesian hierarchical small area population model accounting for data source specific methodologies from American Community Survey, Population Estimates Program, and Decennial census data¶

作者: Emily N. Peterson, Rachel C. Nethery, Tullia Padellini, Jarvis T. Chen, Brent A. Coull, Frédéric B. Piel et al.
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 6/10 · novelty: application
摘要: 该论文针对美国小区域人口估计中多个数据源不一致的问题，提出了一种贝叶斯小区域人口（BPop）模型，融合了十年一度人口普查、人口估计计划（PEP）和美国社区调查（ACS）三种数据源。模型的核心是建立一个分层贝叶斯框架，明确刻画各数据源特有的数据生成机制和测量误差，例如普查的完全计数、ACS的抽样调查及其多年度估计调整。通过引入数据源特定的误差项和先验分布，BPop能够在无直接报告的年份（如2006-2023）预测人口，并量化后验不确定性。针对佐治亚州159个县的黑人和白人人群，模型得到了种族分层的小区域人口估计，并通过模拟和验证集与官方数据比较，展示了方法在降低偏差和提供可靠不确定区间方面的优势。该方法可扩展至更细的空间尺度和更多人口特征（年龄、性别），为流行病学研究中分母数据的准确性与不确定性评估提供了实用工具。对身为流行病学应用者的您而言，该工作直接回应了小区域健康结局研究中的分母数据质量问题，其多源数据融合的贝叶斯思路可以启发您处理因果推断中协变量测量误差或多源验证数据结构。
关键技术: Bayesian hierarchical model, small area estimation, data fusion with measurement error, race-stratified population counts, Markov chain Monte Carlo (MCMC)
为什么对您有用: 本文属于流行病学应用（secondary interest），针对小区域人口估计这一常见分母问题，方法上使用贝叶斯分层模型融合多源数据，直接支持发病率/死亡率的可信计算。您目前的技术库中，'非参数统计学'和'高维渐近'可帮助评估该模型在稀疏空间单元或高维协变量下的稳定性，而'因果推断的估计理论'可用于类似框架下处理选择性生存（分母偏倚）的敏感性分析。短期来看，这是一篇良好的流行病学方法学入门文献，但若要进一步发展其贝叶斯融合技术到您的研究中，需先在'moderately_familiar'的M估计理论基础上额外学习贝叶斯分层建模（目前武器库中缺乏），属于'中期可做'方向。

6. 10.1214/23-aoas1848 — Assessing screening efficacy in the presence of cancer overdiagnosis¶

作者: Ying Huang, Ziding Feng
期刊/来源: Annals of Applied Statistics
机构: Cape Town HVTN Immunology Laboratory / Hutchinson Centre Research Institute of South Africa · Fred Hutch Cancer Center
分类: vol 18 · issue 2
相关性 6/10 · novelty: new_method
摘要: 在癌症筛查评估中，过度诊断（overdiagnosis）会导致传统终点（如累积发病率）产生偏倚。本文基于癌症阶段转移（stage-shift）这一中间指标，提出两种新方法来纠正过度诊断的影响：BR方法通过借用未筛查对照组的临床诊断信息来校正估计；SEN-T方法则基于过度诊断程度的保守上限进行敏感性分析。模拟和理论结果表明，两种方法在估计和检验筛查效果时均比现有方法更高效，且维持了检验的合理性。利用PLCO卵巢癌试验数据验证了方法的实用性，结果支持更高效的试验设计。这些方法为癌症筛查试验的终点选择和推断提供了新工具，与您对流行病学中因果推断和假设检验的兴趣高度相关，且其敏感性分析框架可迁移至其他偏倚校正问题。
关键技术: cancer screening overdiagnosis, stage-shift, borrowing information from control arm, sensitivity analysis with conservative bound, cumulative incidence endpoint
为什么对您有用: 本文直接对应您secondary interests中的流行病学应用，展示了如何通过借力对照组信息和敏感性分析来解决筛查评估中的过度诊断偏倚，其方法学思路（如信息借用和保守界）对因果推断中的负对照或工具变量分析也有启发。您武器库中的估计理论（very_familiar）足以理解其核心推理，并可借助软件技能复现或扩展其模拟框架，因此属于立即可做的follow-up。

7. 10.1214/23-aoas1851 — A framework for analysing longitudinal data involving time-varying covariates¶

作者: Reza Drikvandi, Geert Verbeke, Geert Molenberghs
期刊/来源: Annals of Applied Statistics
机构: Durham University · KU Leuven · Hasselt University
分类: vol 18 · issue 2
相关性 6/10 · novelty: new_method
摘要: 本文针对纵向数据中时变协变量被固定处理的常见问题，以及响应和协变量测量时间不一致的复杂场景（如AIDS队列中CD4细胞计数与病毒载量测量时间不同），提出基于联合多变量混合模型的框架。该框架不将时变协变量直接纳入响应模型，而是通过惩罚样条函数同时刻画响应和多个协变量随时间的变化，并用多变量混合模型联合建模它们之间的协方差结构。它允许研究任意时间点协变量与任意时间点响应之间的关联，无需显式建模给定协变量时的响应条件分布。方法在长达26年的AIDS队列数据上展示了CD4与病毒载量时间关联的实际分析。这篇文章为您提供了流行病学纵向数据中时变协变量分析的工具，您可在此基础上进一步思考混杂调整与因果效应识别问题。
关键技术: joint multivariate mixed models, penalized spline functions, time-varying covariates, longitudinal data analysis, temporal correlation
为什么对您有用: 本文是流行病学纵向数据应用的良好入门读物，语言清晰，无需过多领域先验知识。您已有的非参数统计（惩罚样条）和因果推断估计理论足以理解其方法基础，但交流纵向时间依赖性建模专门技术仍需通过本文补齐。值得全文阅读，以熟悉该类数据结构和分析模式。

8. 10.1214/23-aoas1822 — Functional partial least squares with censored outcomes: Prediction of breast cancer risk with mammogram images¶

作者: Shu Jiang, Jiguo Cao, Graham A. Colditz
期刊/来源: Annals of Applied Statistics
机构: Washington University in St. Louis
分类: vol 18 · issue 2
相关性 5/10 · novelty: application
摘要: 本文研究利用乳腺X光图像预测乳腺癌风险时的降维和删失问题。图像像素维度远超样本量，传统的功能偏最小二乘（FPLS）只适用于完全数据，但实际队列中存在右删失。作者统一并扩展了三种处理删失的策略到功能数据设定：重新加权、均值插补和偏差残差，每种都整合到Cox回归框架中。通过模拟比较三种FPLS框架的预测性能，并在Joanne Knight Breast Health Cohort上验证。结果显示FPLS框架相比竞争模型提升了区分能力。这篇文章展示了如何将经典降维方法适配到生存分析与高维功能数据的交叉场景，对您可能有用的是提供了流行病学队列中高维图像数据的分析模板。
关键技术: Functional partial least squares, Cox proportional hazards, right censoring, dimension reduction, image predictor
为什么对您有用: 本文落在您的次要兴趣 epidemiology 上，提供了一个真实队列的应用案例，其分析流程（高维图像降维+删失处理）可迁移到您关注的因果推断中类似的纵向或删失数据场景。武器库中的非参数统计与高维渐近理论能帮助您理解FPLS的收敛性质，但若想深入复现或改进其删失机制，需要先熟悉生存分析的计数过程框架——属于中期可做，需在 moderately_familiar 的 semiparametric 理论上补足对偏似然和删失的掌握。

9. 10.1214/23-aoas1829 — Accurate estimation of rare cell-type fractions from tissue omics data via hierarchical deconvolution¶

作者: Penghui Huang, Manqi Cai, Xinghua Lu, Chris McKennan, Jiebiao Wang
期刊/来源: Annals of Applied Statistics
机构: University of Pittsburgh
分类: vol 18 · issue 2
相关性 4/10 · novelty: new_method
摘要: 该文针对组织 bulk 转录组学数据中细胞分数估计的难题，提出层次去卷积方法 HiDecon。现有方法在处理高度相关或稀有细胞类型时表现不佳，HiDecon 利用单细胞 RNA 测序参考和层次细胞类型树，通过跨层次协调分数实现信息借用，从而纠正估计偏差。灵活的树结构还可通过分裂至高分辨率来估计稀有细胞分数。模拟和含真实细胞分数的实测数据表明，HiDecon 优于现有方法。最后，作者将其应用于阿尔茨海默病研究，展示了细胞分数与疾病的关联。对于您关注的流行病学应用，该文提供了一个可直接用于疾病组织组学分析的统计工具，其分层信息借用策略也值得关注。
关键技术: hierarchical deconvolution, single-cell RNA sequencing reference, cell-type tree, information pooling across layers, rare cell fraction estimation
为什么对您有用: 本文是流行病学（阿尔茨海默病）中细胞去卷积的实用方法，属于您的 secondary interest 流行病学应用方向。您武器库中的 estimation theory in causal inference 可用于理解其偏差校正逻辑，software development 经验则有助于评估或复现其 R 实现。建议作为流行病学统计方法入门阅读——立即可读，但深入扩展需先行熟悉 scRNA-seq 数据特性（中期可做）。

10. 10.1214/23-aoas1826 · arXiv — Bayesian nested latent class models for cause-of-death assignment using verbal autopsies across multiple domains¶

作者: Zehang Richard Li, Zhenke Wu, Irena Chen, Samuel J. Clark
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 4/10 · novelty: application
摘要: 本文针对低中收入国家中广泛使用的口头尸检（verbal autopsy, VA）数据，提出一种贝叶斯嵌套潜类模型（LCVA），用于在多异构领域间进行死因分配并估计领域特定的死因构成比。核心挑战在于训练域与目标域的分布漂移导致传统监督分类方法失效，而标记数据在目标域通常不可得。LCVA通过嵌套潜类结构对症状的联合分布进行简约参数化，将领域异质性建模为共享和领域特异潜变量的分层混合，并开发了高效的后验采样算法实现可扩展推断。相比现有方法（如Tariff、InterVA），LCVA在预测校准性和死因构成比估计上均有提升，且能在缺失症状模式下稳定工作。本文还提供了开源的R包LCVA，便于实际应用。对您而言，这篇工作展示了流行病学中处理多源迁移问题的统计建模范例，与您感兴趣的流行病学数据集应用以及因果推断中的分布偏移识别问题有潜在关联。
关键技术: latent class models, nested modeling, Bayesian inference, domain adaptation, verbal autopsy, posterior inference with MCMC
为什么对您有用: 本文属于流行病学领域的应用统计工作，直接关联您的secondary interest中的流行病学数据集与因果推断应用。LCVA的嵌套潜类建模思路可启发因果推断中多源迁移的识别策略（如proximal causal inference中的negative control设计）。由于您对非参数统计和高维渐近已有扎实基础（very_familiar），能够理解模型结构；但要深入研究其贝叶斯计算效率（如MCMC收敛性、变分近似）或扩展至因果效应估计，需先在贝叶斯潜变量模型或计算复杂度方面强化（moderately_familiar中缺乏对应项），因此属中期可做方向。

11. 10.1214/23-aoas1825 · arXiv — A population-aware retrospective regression to detect genome-wide variants with sex difference in allele frequency¶

作者: Zhong Wang, Andrew D. Paterson, Lei Sun
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 3/10 · novelty: application
摘要: 本文研究不同祖先人群（如非洲、欧洲）中X染色体和常染色体等位基因频率性别差异的检测问题，提出了一个回顾式回归（retrospective regression）检验框架。该方法通过建模祖先群体异质性，避免了现有方法在合并多群体分析时的保守性，同时允许检验性别差异是否在群体间不同。核心是构建一个解释性强且易于实现的回归模型，并使用似然比或Wald检验进行推断。应用到1000 Genomes Project的高覆盖全基因组测序数据，对五个超级群体进行了稳健分析，发现了76个新的等位基因频率性别差异位点。对您而言，本文作为流行病学（遗传流行病学）的Gateway reading，展示了如何利用回归框架处理群体分层等实际问题，数据结构和建模策略清晰，适合快速入门。
关键技术: retrospective regression, multiple population adjustment, genome-wide association testing, X chromosome analysis
为什么对您有用: 本文连接secondary interest中的流行病学（遗传流行病学应用）；您非常熟悉的统计回归和多重检验工具可直接用于理解或复现其分析流程；立即可做，作为入门读物可快速了解遗传关联研究的数据结构，为后续流行病学应用打基础。

其他 (other, 6 篇)¶

1. 10.1214/23-aoas1857 · arXiv — Investigating swimming technical skills by a double partition clustering of multivariate functional data allowing for dimension selection¶

作者: Antoine Bouvet, Salima El Kolei, Matthieu Marbac
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 3/10 · novelty: application
摘要: 本文利用惯性测量单元(IMU)记录的多元函数型数据，研究自由泳运动员的技术技能水平。提出一种基于模型的双划分聚类方法，同时获得两类互补划分：游泳模式（原始信号的函数基分解系数）和模式可重复性（残差平方信号的函数基分解系数）。通过联合建模两个划分的依赖关系，反映了不同模式本身对重复难度的影响。此外，该方法引入稀疏分解实现聚类过程中的维度自动选择，避免人为设定特征维度。在真实IMU数据集上，划分结果揭示了与游泳技术技能相关的运动学划水变异性，并识别出有利于自由泳冲刺表现的生物力学策略。本文是运动科学中函数型数据聚类的应用案例，对统计方法学兴趣方向直接关联较弱，但展示了处理高维时间序列特征提取的完整流程。
关键技术: multivariate functional data clustering, model-based clustering, functional basis decomposition, sparse dimension selection, joint distribution modeling, inertial measurement unit (IMU) data
为什么对您有用: 本文属于应用统计，主题(运动科学IMU聚类)与主要兴趣(因果推断、高维、U统计等)无直接重叠，但可视为stat_computing方向中处理多元函数型数据的实例。武器库中'nonparametric statistics'的函数基分解思想可用于理解其核心方法。从follow-up角度：暂不可做，因为函数型数据聚类及联合依赖建模不是武器库中熟悉或中等熟悉的技术，但可作为阅读拓展了解聚类流程设计。

2. 10.1214/23-aoas1842 · arXiv — Analyzing cross-talk between superimposed signals: Vector norm dependent hidden Markov models and applications to ion channels¶

作者: Laura Jula Vanegas, Benjamin Eltzner, Daniel Rudolf, Miroslav Dura, Stephan E. Lehnart, Axel Munk
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 3/10 · novelty: new_method
摘要: 本文针对叠加信号（如离子通道电流）的交叉干扰问题，提出了一种向量范数依赖的隐马尔可夫模型（VND-HMM）。在无法单独观测每个通道信号、仅能观测总和的情形下，该模型引入参数化的马尔科夫链，并刻画了其置换不变性和条件独立性结构。通过构造隐马尔可夫求和过程，证明了模型参数由求和过程的参数唯一确定，即具有可识别性。文章给出了参数估计算法和模型选择准则，并将方法应用于心肌离子通道的真实数据，展示了竞争性门控现象。该方法在生物物理信号处理领域有直接应用价值，但其模型设定和识别性论证对于统计识别理论的研究者亦有一定参考意义。不过，由于HMM并非您核心兴趣方向，该论文在方法学上与您的主力工具（如高维渐近、因果推断识别理论）交叉较少，短期内难以直接迁移。
关键技术: hidden Markov model, vector norm dependent Markov chain, parameter identifiability, EM algorithm, permutation invariance
为什么对您有用: 本文核心是叠加信号下的隐马尔可夫模型及可识别性，这与您moderately_familiar的'identification theory in causal inference'在概念上（参数唯一确定条件）有隐约联系，但具体技术（HMM、EM算法）并非您武器库中的主力。可尝试用识别理论中的条件独立性论证来审视其可识别性证明，但这一口子较小。follow-up粗判：暂不可做——核心工具链（HMM动力学、EM收敛性、模型选择）不在您当前very_familiar或moderately_familiar的列表中，且该问题方向与您的主要兴趣（因果推断、高维U统计、计算复杂性等）距离较远。

3. 10.1214/23-aoas1839 — Flexible multivariate spatiotemporal Hawkes process models of terrorism¶

作者: Mikyoung Jun, Scott Cook
期刊/来源: Annals of Applied Statistics
机构: University of Houston · Texas A&M University
分类: vol 18 · issue 2
相关性 2/10 · novelty: application
摘要: 本文发展了一类灵活的多元时空Hawkes过程模型，用于分析恐怖主义事件的时空模式。现有工作大多只考虑时间维度的触发效应，忽略空间变化，且对触发函数施加了不利于恐怖主义数据的可分离或平稳性限制。作者推广了时空触发函数结构，允许非可分离、非平稳以及跨群体交叉触发。通过对阿富汗（2002-2013）单变量和尼日利亚（2009-2017）双变量真实数据的分析，展示所提模型在整体拟合上优于标准Hawkes过程，并揭示了被传统模型掩盖的时空模式（如交叉触发随时间的离散化）。模型采用最大似然进行参数估计，计算上依赖数值优化。该文是应用型研究，方法学贡献主要是对触发函数的泛化，缺乏新理论或效率分析。
关键技术: spatio-temporal Hawkes process, non-separable triggering function, cross-triggering, maximum likelihood estimation, model comparison
为什么对您有用: 本文属于时空点过程的应用，与您的主要兴趣（因果推断、高维统计等）距离较远，但可视为统计计算方向的一个应用案例。您熟悉的非参数统计和M估计理论虽不直接用于点过程，但若未来考虑时空因果推断或事件序列分析，本文的模型框架可作为入门参考。目前您的武器库缺乏点过程建模和时空统计的专业工具，暂不可直接复现或扩展该工作。

4. 10.1214/23-aoas1831 · arXiv — Learning common structures in a collection of networks. An application to food webs¶

作者: Saint-Clair Chabert-Liddell, Pierre Barbillon, Sophie Donnet
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 2/10 · novelty: new_method
摘要: 本文研究多个网络（如社会或生态系统）的联合建模问题，目标是识别网络间共享的拓扑结构并对网络集合进行聚类。作者提出基于 Stochastic Block Model (SBM) 的扩展模型，假设每个网络是独立实现的 SBM，通过约束部分参数相等来强制共享连接结构。参数估计采用变分 EM 算法，并推导了一个惩罚似然准则用于选择 block 数量、评估结构一致性以及对网络进行聚类。实证部分分析了两个生态网络数据集：三个河流食物网展示了结构同质性，67 个食物网的聚类表明五种中尺度结构足以描述该集合。本文属于统计网络模型的应用与方法拓展，与您 primary interests 的因果推断、高维统计、半参数理论等方向无直接交集。
关键技术: Stochastic Block Model, variational EM algorithm, penalized likelihood criterion, network clustering, model selection
为什么对您有用: 本文属于网络数据分析的方法论工作，与您 primary interests（因果推断、高维统计、半参数效率理论、higher-order U-statistics）的核心技术路线无直接重叠。网络模型中的 SBM 参数估计与模型选择涉及 M-estimation 和变分推断，但未触及您熟悉的 minimax 界、influence function 或高维渐近理论。武器库中的 very_familiar 工具（非参数统计、minimax bounds、高维渐近）难以直接迁移到本文的核心问题。暂不可做：网络结构学习与聚类并非您当前武器库覆盖的方向，若要进入需先系统学习网络模型与图论基础。

5. 10.1214/23-aoas1811 · arXiv — Bayesian hierarchical modelling of sparse count processes in retail analytics¶

作者: James Pitkin, Ioanna Manolopoulou, Gordon Ross
期刊/来源: Annals of Applied Statistics
分类: vol 18 · issue 2
相关性 2/10 · novelty: application
摘要: 本文针对零售 analytics 中产品需求预测的稀疏计数数据，将销售记录建模为结构化稀疏多元点过程，保留自相关、互相关和时间聚类特征。提出贝叶斯分层点过程模型，其中 hurdle 组件处理零膨胀（大量无销售日），自激（exciting）组件捕获事件间的短期聚集效应（类似 Hawkes 过程）。通过层级先验，不同产品共享参数信息，从而在单产品极度稀疏时仍能有效推断。模型采用 MCMC 进行后验推断（摘要未详述具体采样器）。在真实零售数据集上，其预测性能优于多种现有基准（如独立 Poisson / Hurdle 模型）。该工作展示了贝叶斯非参数/分层方法在稀疏商业时序中的应用价值，但整体属于应用统计，而非方法学理论创新。
关键技术: Bayesian hierarchical model, hurdle point process, self-exciting process (Hawkes), sparse multivariate point process, demand forecasting
为什么对您有用: 本文属于零售 analytics 的应用统计工作，与您的主要兴趣（因果推断、高维统计、U-统计量）无直接交集。但若您关注统计计算中的贝叶斯方法与分层建模技术，可参考其处理极端稀疏性的模型构造（hurdle + 自激）及其跨产品信息借用的层级策略——此类建模思路对稀疏计数数据的通用处理有参考价值。暂无需投入深读，除非后续有零售或商业分析的直接需求。

作者: Tianyu Guan, Jason Ho, Robert Krider, Jiguo Cao, Andrew Fogg
期刊/来源: Annals of Applied Statistics
机构: York University · Simon Fraser University
分类: vol 18 · issue 2
相关性 2/10 · novelty: application
摘要: 本文研究电影预发布在线评论（eWOM）的动态模式与后续票房收入的关系。传统的分析多关注eWOM的总体数量和效价，而忽略了时间演化模式。作者将每条评论的分位数轨迹视为函数型数据，采用函数型主成分分析（FPCA）进行降维，提取主成分得分。进一步使用稀疏组套索（sparse group lasso）同时选择显著的分位数水平和对应主成分得分，以预测票房收入。结果表明，高分位数（如90%分位数）的轨迹比均值或方差更能捕捉eWOM与票房之间的关联。本文属于应用统计工作，方法上结合了函数型数据分析与高维变量选择，对您而言可作为应用案例，但核心兴趣领域（因果推断、高维统计理论）的直接关联较弱。
关键技术: functional principal component analysis, sparse group lasso, quantile trajectories, functional data analysis
为什么对您有用: 本文使用FPCA和稀疏组套索处理函数型数据，与您「非参数统计」和「高维统计」的兴趣有方法重叠，但并非核心子方向。您可用「高维统计」中的变量选择理论（如Lasso一致性）来检验本文方法的理论性质，但这属于中期可做的方向，因为您目前对该领域的稀疏组套索理论较为熟悉，但函数型数据是新的设定。总体而言，本文作为应用论文参考价值有限，不建议投入全文阅读。

Maintained by 陈星宇 · Homepage · Source on GitHub