JASA — Vol 120 Issue 552 · 2026-06-20¶

共 65 篇 · Journal of the American Statistical Association
目录核对 ⚠️ 疑似漏 4 篇（对照 OpenAlex 69 篇）：10.1080/01621459.2024.2413201、10.1080/01621459.2024.2423971、10.1080/01621459.2024.2423972、10.1080/01621459.2024.2422115

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

本期论文呈现出几条明确的方法主线：因果推断与数据融合（含IV部分识别、缺失代理测量、贝叶斯重随机化及纵向/网络因果建模）、高维与随机矩阵理论（含特征值结构识别、多任务稀疏异质性、精度矩阵未知分组及网络Granger因果）、假设检验（含高维双重功效增强、泛函自标准化、GLM方差误设鲁棒及互斥假设）、半参数/非参数效率与推断（含弱一致源融合效率界、区间删失多状态sieve估计、RKHS期望短缺回归及张量积ANOVA），以及统计计算与分布式推断（含非凸分布式oracle性质、模型平均交叉验证及贝叶斯设计加速）。

因果推断与数据融合主线在本期推进了不同数据结构与测量误差下的识别与效率问题。数据融合方面，“Comparative Analysis”与“Data Fusion Using Weakly Aligned Sources”分别从因果设定下的posterior drift与一般半参数设定下的弱一致源切入，推导了融合外部数据的半参数效率界，明确了偏差-方差权衡下效率增益的关键条件；测量误差与缺失数据方面，“Causal Inference for Genomic Data”用Von Mises展开处理单细胞多代理测量的异质结果倍差鲁棒估计与多重检验，“Estimating Racial Disparities”放松BISG独立性假设以修正种族缺失下的差异估计，“Latent Variable Model for RDS”则用EM算法修正网络抽样自报degree的整群误差；实验设计与IV方面，“Manipulating an IV”提出非二分模板匹配强化连续IV剂量以实现部分识别界推断，“Bayesian Criterion for Rerandomization”将先验引入协变量平衡权重优化效应估计方差。

高维与随机矩阵主线集中推进了结构利用与异质性建模的估计极限。“Eigen-Analysis”利用RMT特征值比值与单位根检验识别高维时间序列的因子与非平稳组合结构；“MOLAR”通过协变量加权中位数收缩达到多任务稀疏异质性的minimax最优；“Aggregated Projection”最大化跨组因子相关均值以分离强相关的全局与局部因子；“Large Precision Matrix”先对前导特征向量子空间聚类再分块回归，将精度矩阵估计从稀疏假设扩展至未知分组；“Hub Detection in GGM”则跳过整图估计，直接利用协方差谱分解的主特征向量载荷定位hub节点；“Network-Based Neighborhood Regression”融合社区标签与邻域特征实现线性一致性。

半参数效率与高维/非参数推断主线在复杂删失与函数空间上深化了效率界与去偏推断。“Semiparametric Regression of Interval-Censored Multi-State”结合NPMLE与sieve估计推导了含吸收态与随机效应的半参数效率界；“Kernel Meets Sieve”用kernel权重插补纵向协变量并结合sieve逼近基准累积hazard；“Nonparametric Expected Shortfall Regression over RKHS”通过两步核岭回归与有效维度控制给出条件ES的非渐近误差界与乘子bootstrap推断；“Comparison of Longitudinal Trajectories”在半参数混合效应模型中对高维线性分量实施去偏后选择推断；“High-Dimensional Convoluted Rank Regression”则为惩罚U统计量损失构造了去偏估计量与Bahadur表示以实现同步推断。

对因果推断与半参数效率方向最贴的论文是“Comparative Analysis”、“Data Fusion Using Weakly Aligned Sources”与“Semiparametric Regression of Interval-Censored Multi-State”，它们分别从数据融合与复杂删失角度推进了效率界的刻画与估计；对高维推断与假设检验方向最贴的是“High-Dimensional Convoluted Rank Regression”、“A Novel Approach of High Dimensional Linear Hypothesis Testing”与“Hub Detection in GGM”，它们分别在高维去偏推断、投影矩条件检验与谱结构直接检测上提供了新路径。

因果推断 (causal_inference, 8 篇)¶

1. 10.1080/01621459.2025.2468014 · arXiv — Causal Inference for Genomic Data with Multiple Heterogeneous Outcomes¶

作者: Jin-Hong Du, Zhenghao Zeng, Edward H. Kennedy, Larry Wasserman, Kathryn Roeder
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2484-2497
相关性 9/10 · novelty: new_method
摘要: 在单细胞RNA测序数据的因果推断中，每个个体的潜在基因表达水平不可直接观测，只能通过多个细胞的重复代理测量获得。本文针对这一设定提出一个通用的半参数推断框架，用于估计多个异质性结果（如不同基因）的因果效应。核心方法是倍差鲁棒估计（doubly robust estimation），通过Von Mises展开和估计方程导出半参数推断结果，使得估计量在倾向性或结果模型之一错误时仍保持一致。为量化异质性效果，专门分析了标准化平均处理效应和分位数处理效应，并给出对应的倍差鲁棒估计量及其渐近性质。在多重检验方面，基于高斯乘子bootstrap设计了控制假发现超标率（FDER）的程序，适用于倍差鲁棒估计的联合推断。在单细胞CRISPR扰动分析和个体差异表达分析中的应用展示了方法的实用性。对您的价值：本文紧密连接您primary interest中的因果推断（半参数估计）和假设检验（多重比较），您very_familiar中的因果推断估计理论和moderately_familiar中的半参数理论可直接用于理解甚至扩展该框架至IV或纵向设定。
关键技术: doubly robust estimation, Von Mises expansion, estimating equations, Gaussian multiplier bootstrap, false discovery exceedance rate (FDER), quantile treatment effects
为什么对您有用: 本文与您的primary interest直接对接：因果推断中的半参数倍差鲁棒估计（特别是具有多个异质性结果时）以及多重假设检验中的FDER控制。您技术库中“因果推断中的估计理论”（very_familiar）和“半参数理论”（moderately_familiar）可分别用于理解其估计构造和效率性质，为后续将此类框架应用于IV或纵向因果问题提供直接入口。follow-up粗判：立即可做——理解并仿真实现本文倍差鲁棒方法无需新武器，very_familiar工具已覆盖。

2. 10.1080/01621459.2024.2435656 · arXiv — On the Comparative Analysis of Average Treatment Effects Estimation via Data Combination¶

作者: Peng Wu, Shanshan Luo, Zhi Geng
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2250-2261
相关性 9/10 · novelty: new_theory
摘要: 在数据融合框架下，本文研究目标人群 ATE 的估计问题，设定包含源数据集与目标数据集，并在 covariate shift 与 posterior drift 假设下推导 semiparametric efficiency bounds。作者设计了六种 covariate shift 设定及六种同时包含 posterior drift 的设定，系统比较了不同设定下的效率界，揭示了影响效率增益与“有效样本量”的关键因素——特别是两个数据集间潜在结果的方差比与 posterior drift 函数的导数。本文首次在因果推断中明确探讨了 posterior drift 函数的作用，并提出了针对数据集间可迁移性（transportability）违反的新型 sensitivity analysis 方法。实证部分通过构建 locally efficient estimators 与仿真验证了理论发现，并展示了两个真实数据应用。对您可能有用：本文系统推导的 efficiency bounds 与 sensitivity analysis 直接对接您 primary interest 中的 semiparametric efficiency bounds 与 causal sensitivity analysis。
关键技术: semiparametric efficiency bounds, data fusion / transportability, covariate shift, posterior drift, locally efficient estimator, sensitivity analysis for transportability
为什么对您有用: 本文直接对接您 primary interest 中的因果推断效率理论与 sensitivity analysis：(1) 在 covariate shift + posterior drift 设定下推导 ATE 的 semiparametric efficiency bounds，并首次量化 posterior drift 导数对有效样本量的影响；(2) 您武器库中 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory / identification theory 可直接用来审视其 efficiency bound 是否紧、以及 posterior drift 设定下 identification 的脆弱点；(3) follow-up 判断：立即可做——用您熟悉的 semiparametric efficiency 工具可验证其 bound 的紧性，或用 HOIF 探究更高阶修正能否进一步缩小 posterior drift 下的方差。

3. 10.1080/01621459.2025.2510711 — Manipulating an Instrumental Variable in an Observational Study of Premature Babies: Design, Bounds, and Inference¶

作者: Zhe Chen, Min Haeng Cho, Bo Zhang
期刊/来源: Journal of the American Statistical Association
机构: University of Pennsylvania · University of Washington · Cape Town HVTN Immunology Laboratory / Hutchinson Centre Research Institute of South Africa · Fred Hutch Cancer Center
分类: vol 120 · issue 552 · pp 2065-2078
相关性 8/10 · novelty: new_method
摘要: 在早产儿医疗区域化的观察性研究中，目标是估计在高级别与低级别医院分娩对婴儿死亡率的样本平均处理效应（SATE），利用连续型 IV（距离）进行部分识别。本文提出一种非二分模板匹配算法，在保持原始研究队列不变的前提下强化 IV 剂量分离，避免了传统 IV 强化方法中队列、遵从率与潜在遵从者子群同时改变的问题。基于此设计，作者研究了随机化推断与依赖 IV 剂量的偏随机化推断，用于部分识别界（partial identification bounds）的置信区间构建。实证分析 163,532 名母亲数据发现，在高级别医院分娩显著降低婴儿死亡率，但在非黑人低风险子群中效应微弱。对您可能有用：本文将匹配设计与 IV 部分识别结合，为流行病学队列中连续 IV 的操纵与推断提供了具体框架。
关键技术: continuous instrumental variable strengthening, non-bipartite template matching, partial identification bounds, randomization-based inference, biased randomization inference, sample average treatment effect
为什么对您有用: 本文直接连接到因果推断中的 IV 方法与流行病学应用：在观察性流行病学数据中利用连续型 IV 并通过匹配设计强化剂量分离，属于 IV identification 与 sensitivity 的交叉场景。您武器库中的 identification theory in causal inference（moderately_familiar）可以直接用来审视本文部分识别界的 sharpness 与 IV 强化后 latent complier 子群变化的 identification 逻辑。Follow-up 判断：中期可做——需先在 moderately_familiar 的 identification theory 上长肌肉，以评估偏随机化推断下部分识别界的 semiparametric efficiency 性质。

4. 10.1080/01621459.2025.2526695 · arXiv — Estimating Racial Disparities When Race is Not Observed¶

作者: Cory McCartan, Robin Fisher, Jacob Goldin, Daniel E. Ho, Kosuke Imai
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2140-2153
相关性 7/10 · novelty: new_method
摘要: 在个体种族信息缺失的设定下，目标是估计种族差异（如不同种族在某政策/结果变量上的均值差）。传统 BISG 方法依赖 surname 与 outcome 在给定 race 后独立的强假设，本文将其放松为：surname 在给定（未观测的）race、居住地及其他协变量后与 outcome 条件独立。基于此 identification 假设，作者提出一种结合 BISG 先验与 outcome 信息的修正估计方法，实质上利用条件独立性将 outcome 分布融入 race 后验的更新中。实证显示，在估计政党注册的种族差异时，该方法相较 BISG 误差降低达 84%；应用于 IRS 税收数据揭示黑人和西班牙裔申报住房抵押利息扣除（HMID）的比例远低于白人和亚裔，且住房拥有率差距无法完全解释该差异。对您可能有用：本文的 identification 策略与 proximal CI 中用 negative-control proxy 替代未观测变量的思路有结构相似性，可对比其条件独立性假设与 proximal 的隔离假设。
关键技术: Bayesian Improved Surname Geocoding (BISG), conditional independence identification, race imputation with outcome integration, proxy variable for unobserved attribute, disparity estimation under missing data
为什么对您有用: 直接连接 causal inference 的 identification 子方向：本文用 surname+地理作为 race 的 proxy，其条件独立性假设与 proximal CI 的 negative-control 隔离假设结构同构，可作为 proximal framework 在离散未观测变量场景的具体实例来审视。用您 very_familiar 的 identification theory in causal inference 可以直接分析该条件独立性假设的 testability 与 sensitivity，属于立即可做的 follow-up：构造该 identification 假设的 sensitivity analysis 框架。

5. 10.1080/01621459.2025.2507432 — A Bayesian Criterion for Rerandomization¶

作者: Zhaoyang Liu, Tingxuan Han, Donald B. Rubin, Ke Deng
期刊/来源: Journal of the American Statistical Association
机构: Tsinghua University
分类: vol 120 · issue 552 · pp 2809-2821
相关性 7/10 · novelty: new_method
摘要: 在实验性因果推断的rerandomization设定下，目标是提升处理效应估计精度；现有基本rerandomization方法未利用协变量与潜在结果的异质性关联。本文提出基于贝叶斯准则的rerandomization框架，通过先验信息量化协变量重要性并据此分配平衡权重。理论分析表明，在给定先验下，基于贝叶斯准则的rerandomization能比现有方法（如基于Mahalanobis距离的rerandomization）更有效地降低协变量不平衡度，从而获得更小的因果效应估计方差。对您可能有用：该工作将贝叶斯先验引入实验设计优化，与您在因果推断估计理论（特别是效率理论）中的兴趣直接相关。
关键技术: rerandomization, Bayesian prior on covariate importance, Mahalanobis distance, covariate balance criterion, variance reduction of causal estimator
为什么对您有用: 本文直接连接到因果推断的实验设计与估计效率子方向，探讨了先验信息如何改善rerandomization的平衡效率。从您的technical_arsenal看，可用非常熟悉的estimation theory in causal inference评估其声称的方差缩减是否达到semiparametric efficiency bound的极限，或用moderately_familiar的semiparametric理论将此贝叶斯准则扩展到半参数框架下。中期可做：需先在moderately_familiar的identification theory上长肌肉，以将贝叶斯准则从纯实验设计推广到结合观测数据的混合设计场景。

6. 10.1080/01621459.2025.2474265 — Dynamic Regression of Longitudinal Trajectory Features¶

作者: Huijuan Ma, Wei Zhao, John Hanfelt, Limin Peng
期刊/来源: Journal of the American Statistical Association
机构: East China Normal University · Shandong University · Institute for Financial Research · Emory University
分类: vol 120 · issue 552 · pp 2535-2546
相关性 6/10 · novelty: new_method
摘要: 在纵向慢性病研究的设定下，目标是估计潜在连续轨迹特征（如斜率/极值）的异质性模式与观测协变量之间的关系，estimand 为轨迹特征的条件分位数。方法采用多层建模策略，用伪 B-spline 模型与个体随机参数刻画潜在轨迹，再通过分位数回归将轨迹特征与协变量链接，避免了标准多层模型对随机效应分布的参数化假设。估计程序基于条件得分（conditional score）原理构造，并开发了高效算法实现；所得估计量具备 n^{-1/2}-CAN 及渐近正态等优良性质，仿真与 MCI 队列数据验证了有限样本表现。对您可能有用：本文的 longitudinal 轨迹建模与 conditional score 估计思路，可直接迁移到纵向因果推断中处理中间潜在变量的 identification 与 estimation 问题。
关键技术: pseudo B-spline model, conditional score estimator, quantile regression, multi-level longitudinal modeling, subject-specific random parameters
为什么对您有用: 直接连接到 causal inference 的 longitudinal 子方向：本文用 conditional score 处理带随机效应的潜变量模型，该工具在纵向因果推断（如处理随时间变化的未观测混杂）中有明确方法论迁移价值。用 technical_arsenal 中 moderately_familiar 的 M-estimation theory 可以攻本文 conditional score 的渐近分析口子，验证其效率性质是否可进一步优化。follow-up 判断：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以将 conditional score 框架与 semiparametric efficiency bound 结合做 sharper 推导。

7. 10.1080/01621459.2025.2516185 — A Latent Variable Model for Individual Degree Measures in Respondent-Driven Sampling¶

作者: Yibo Wang, Sunghee Lee, Michael R. Elliott
期刊/来源: Journal of the American Statistical Association
机构: University of Michigan
分类: vol 120 · issue 552 · pp 2090-2101
相关性 5/10 · novelty: new_method
摘要: 在 Respondent-Driven Sampling (RDS) 非随机网络抽样设定下，目标是修正自报网络规模（degree）的测量误差以获得无偏的总体参数估计。核心方法构建了一个潜在变量模型：将真实 degree 视为 latent variable，通过 reporting mechanism（含 rounding/heaping 至 5 的倍数与过大值误差）连接观测自报 degree，同时引入 RDS 过程的副产品（招募模式信息）与外部人口学 profile 作为辅助信息。估计策略基于 EM 算法拟合 latent model 得到 degree 的后验期望，进而代入 RDS 的 IPW/Horvitz-Thompson 权重公式校正抽样概率。模拟与实例表明，修正后的 degree 估计显著降低了 IPW 权重偏差，提升了总体均值等参数的估计精度。对您可能有用：本文将 latent variable 测量误差模型与 survey sampling 的 IPW 权重校正结合，其 identification 与 estimation 框架可迁移至因果推断中处理 unmeasured confounder 或 mismeasured treatment 的 proxy variable 设定。
关键技术: latent variable model, measurement error modeling (heaping/rounding), EM algorithm, IPW / Horvitz-Thompson weighting, Respondent-Driven Sampling
为什么对您有用: 本文连接到因果推断的 identification 与 estimation 子方向：RDS 中自报 degree 的测量误差校正本质上与 proximal CI / negative control 中处理 mismeasured proxy 的 identification 问题同构，latent variable + reporting mechanism 的建模思路可直接借鉴。用您 very_familiar 的 estimation theory in causal inference 与 moderately_familiar 的 identification theory，可以审视本文 latent model 的 identification 条件是否可弱化或推广至更一般的 mismeasured confounder/treatment 场景。立即可做：用 identification theory 检查其 latent variable 可识别性假设的必要性，并尝试将 EM-IPW 流程替换为 semiparametric efficient one-step / DR estimator 以提升鲁棒性。

8. 10.1080/01621459.2024.2448857 — Inferences in Multinomial Dynamic Mixed Logit Models¶

作者: Alwell Oyet, Brajendra C. Sutradhar, R. Prabhakar Rao
期刊/来源: Journal of the American Statistical Association
机构: Memorial University of Newfoundland · Sri Sathya Sai Institute of Higher Learning
分类: vol 120 · issue 552 · pp 2350-2361
相关性 5/10 · novelty: new_method
摘要: 本文提出了一般化的多分类动态混合logit模型，用于纵向数据中当前多分类响应受到固定协变量、类别相关随机效应以及过去多分类响应影响的建模。该模型统一并推广了已有的动态固定模型、基于二元响应的动态混合模型以及多分类混合模型。估计采用条件固定效应似然方法，避免了随机效应分布误设问题。作者严格证明了条件似然估计量的相合性，并通过模拟研究评估了有限样本表现。最后使用欧洲健康、老龄化和退休调查数据（SHARE）进行了实证分析。该方法可直接应用于纵向因果推断中的离散结果建模，特别是处理跨期依赖和个体异质性。
关键技术: conditional fixed effects likelihood, multinomial logit, dynamic mixed model, random effects, longitudinal data analysis
为什么对您有用: 本文与您primary interest中的纵向因果推断直接相关，动态混合logit是处理重复测量离散结局的标准工具。您武器库中的estimation theory in causal inference可立即用于理解其条件似然构造和渐近论证，从而将此模型适配到因果效应估计中（如将滞后结果作为协变量控制）。立即可做：现有非常熟悉的技术（估计理论、非参数统计）足以消化全文并迁移到自身工作。

高维统计 / 随机矩阵 (high_dim_rmt, 11 篇)¶

1. 10.1080/01621459.2025.2507436 — Identifying the Structure of High-Dimensional Time Series via Eigen-Analysis¶

作者: Bo Zhang, Jiti Gao, Guangming Pan, Yanrong Yang
期刊/来源: Journal of the American Statistical Association
机构: University of Science and Technology of China · Australian Regenerative Medicine Institute · Monash University · Nanyang Technological University · Australian National University
分类: vol 120 · issue 552 · pp 2822-2833
相关性 8/10 · novelty: new_method
摘要: 在高维时间序列设定下，目标是识别因子结构与非平稳性组合而成的四种流行结构（如共同因子平稳/非平稳等）。提出三步法：基于样本协方差矩阵经验特征值的比值统计量区分因子维度；投影 Augmented Dickey-Fuller 检验探测非平稳；以及基于最大经验特征值的新型单位根检验。在维度 \(p\) 与样本量 \(T\) 共同增长的渐近框架下，利用随机矩阵理论（RMT）建立三个统计量的渐近性质，保证整条识别流程的可行性。实证分析涵盖美国死亡率、房价收入及部门就业数据，并为 Lee-Carter 死亡率预测的经典模型提供了统计推断层面的正当性。对您有用：将 RMT 的特征值分析工具引入高维时间序列的结构识别与假设检验，直接连接了您的 RMT 与 hypothesis testing 两个 primary interest。
关键技术: eigen-analysis of sample covariance matrix, ratio statistic of empirical eigenvalues, projected Augmented Dickey-Fuller test, unit-root test via largest eigenvalue, high-dimensional asymptotics (p/T → const), random matrix theory
为什么对您有用: 本文直接连接您的高维随机矩阵理论（RMT）与假设检验两个 primary interest 子方向，展示了 RMT 特征值工具在时间序列单位根/因子结构检验中的具体应用。您武器库中的 high-dimensional asymptotics 与 minimax bounds 视角可直接审视其比值统计量与特征值检验的渐近效力与 rate 是否紧。立即可做：用 very_familiar 的高维渐近工具验证其特征值比值统计量的 threshold 选择，或将其投影 ADF 检验的效力与经典低维单位根检验做 minimax 对比。

2. 10.1080/01621459.2024.2439622 · arXiv — Optimal Multitask Linear Regression and Contextual Bandits under Sparse Heterogeneity¶

作者: Xinmeng Huang, Kan Xu, Donghwan Lee, Hamed Hassani, Hamsa Bastani, Edgar Dobriban
期刊/来源: Journal of the American Statistical Association
机构: Computational Physics (United States) · University of Pennsylvania · Arizona State University · University of the Sciences
分类: vol 120 · issue 552 · pp 2262-2275
相关性 8/10 · novelty: sharper_rate
摘要: 在多任务线性回归与上下文赌博机设定下，目标是估计稀疏异质性参数（各任务参数=全局参数+稀疏任务特定项），并最小化估计误差与后悔值。提出两阶段估计器 MOLAR：第一阶段构造任务级最小二乘估计的协变量逐维加权中位数，第二阶段将各任务估计向该加权中位数收缩。相比逐任务 OLS，MOLAR 将估计误差对数据维度的依赖从 d 改进至 log d，并提供了 minimax 下界证明其最优性。文章进一步将 MOLAR 扩展至广义线性模型与置信区间构造，并在稀疏异质性多任务赌博机中获得优于单任务的后悔保证。对您有用：MOLAR 的加权中位数收缩机制与 minimax 最优性分析，为高维多任务估计的效率理论提供了新视角。
关键技术: two-stage weighted median estimator, sparse heterogeneity multitask learning, minimax lower bounds, covariate-wise shrinkage, contextual bandit regret analysis, generalized linear model extension
为什么对您有用: 直接连接高维统计与效率理论：MOLAR 在稀疏异质性设定下将维度依赖从 d 降至 log d 并证明 minimax 最优，属于 sharper rate 范畴。可用 very_familiar 中的 minimax bounds 工具验证其下界紧性，或用 moderately_familiar 的 M-estimation theory 分析其两阶段估计器的渐近性质与置信区间扩展。立即可做：用 minimax 理论审视其下界构造与常数紧性。

3. 10.1080/01621459.2025.2491154 — Aggregated Projection Method: A New Approach for Group Factor Model¶

作者: Jiaqi Hu, Ting Li, Xueqin Wang
期刊/来源: Journal of the American Statistical Association
机构: University of Science and Technology of China · Hong Kong Polytechnic University
分类: vol 120 · issue 552 · pp 2749-2761
相关性 7/10 · novelty: new_method
摘要: 在 group factor model 设定下，目标是从分组观测数据中识别跨组共享的 global factors 及组内 local factors，并允许 local factors 之间存在强相关性。本文提出新的目标函数——最大化 latent global factors 与各组 group factors 之间相关系数的平均值，通过 aggregated projection matrix 的 eigen-decomposition 求解。该方法计算高效（仅需矩阵投影聚合与谱分解），且对强相关 local factors 具有鲁棒性。理论上，在适当 regularity 假设下，建立了 global/local factor 数量估计的一致性，以及估计的 global/local factors 与 loadings 的一致性与渐近分布。实证部分通过模拟与美国房价增长率数据验证了方法优势。对您可能有用：该文的 aggregated projection matrix 谱分解技术为高维因子模型的 identification 提供了新视角，与您的高维渐近与随机矩阵理论兴趣直接相关。
关键技术: group factor model, aggregated projection matrix, eigen-decomposition, factor number estimation, asymptotic distribution of loadings, correlation maximization
为什么对您有用: 本文直接连接您的高维统计与随机矩阵理论（RMT）子方向：核心机制是对 aggregated projection matrix 做谱分解，这本质上是高维样本协方差/投影矩阵的特征值问题，属于 RMT 在因子模型中的典型应用。您武器库中的 high-dimensional asymptotics 工具可以直接攻其渐近分布与一致性证明的口子，分析其投影矩阵谱结构在更强相关性或更复杂分组下的极限谱分布。follow-up 粗判：立即可做——用 very_familiar 的高维渐近工具即可展开对其谱分解极限行为的深入分析。

4. 10.1080/01621459.2025.2483481 · arXiv — Distributed Tensor Principal Component Analysis with Data Heterogeneity¶

作者: Elynn Chen, Xi Chen, Wenbo Jing, Yichen Zhang
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2619-2631
相关性 7/10 · novelty: new_theory
摘要: 在分布式 Tucker 低秩 Tensor PCA 设定下，目标是估计各节点上的低秩信号张量并构建置信区域，假设各节点观测 \(\mathcal{X}_k = \mathcal{T}_k + \mathcal{E}_k\) 且噪声为 i.i.d. 子高斯。本文针对三种数据异质性场景（同质单模型、异质共享主成分、目标节点迁移学习）分别提出基于局部 Tucker 分解与全局聚合/迁移的估计方法。核心机制包括：各节点局部 HOOI 算法迭代、跨节点共享子空间信息的聚合估计、以及针对目标节点的知识迁移步骤；理论上证明了估计量达到 minimax sharp rate，并基于分布式推断技术构建了主成分的置信区间，通信成本保持在合理范围。模拟与真实数据验证了异质张量数据下的估计优势。对您有用：分布式 Tensor PCA 的 sharp rate 与推断为高维张量理论提供了新结果，其跨节点聚合与迁移机制可启发您在 higher-order U-statistic / tensor contraction 中的分布式计算设计。
关键技术: Tucker low-rank tensor PCA, distributed HOOI algorithm, minimax sharp rate, distributed inference, transfer learning for tensors, subspace aggregation
为什么对您有用: 本文直接连接到您的高维统计与张量计算兴趣：分布式 Tensor PCA 的 minimax sharp rate 与推断结果是高维张量理论的前沿进展，且其跨节点聚合/迁移机制与您 very_familiar 的 tensor contraction / einsum 计算复杂度视角天然对接——可用 treewidth / einsum 复杂度分析其分布式 HOOI 的计算代价与最优 contraction order。Follow-up 判断：立即可做——用您 very_familiar 的 tensor contraction 复杂度工具分析分布式 HOOI 的计算瓶颈，并探索在异质设定下 higher-order U-statistic 的分布式估计与推断。

5. 10.1080/01621459.2025.2450836 · arXiv — Discovering the Network Granger Causality in Large Vector Autoregressive Models¶

作者: Yoshimasa Uematsu, Takashi Yamagata
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2385-2396
相关性 7/10 · novelty: new_method
摘要: 在高维向量自回归(VAR)模型设定下，本文目标是发现网络Granger因果结构，即对所有潜在因果方向进行多重检验。核心方法基于debiased lasso估计量的t统计量极限正态分布，构造了两种控制FDR的多重检验程序：一是基于正态极限的理论程序，二是其bootstrap版本；进一步利用asymptotic e-variables对截面依赖进行了稳健化处理。理论贡献包括在高维设定下严格证明了FDR控制与power guarantee，并给出了debiased lasso的n^{-1/2}-CAN性质。实证部分应用于英国宏观经济变量与区域房价的网络Granger因果发现。对您有用：本文将debiased lasso与高维多重检验结合，直接触及高维推断与效率理论交叉点。
关键技术: debiased lasso, FDR control, asymptotic e-variables, network Granger causality, high-dimensional VAR, bootstrap multiple testing
为什么对您有用: 直接连接高维统计推断与因果发现（Granger因果作为时间序列因果的特定设定），属于您的高维统计与因果推断交叉兴趣。您武器库中的高维渐近理论可直接审视其debiased lasso的n^{-1/2}-CAN条件是否在更一般依赖结构下紧；semiparametric效率界视角可评估其推断是否达到局部minimax效率。立即可做：用very_familiar的高维渐近工具与moderately_familiar的M-estimation理论，可动手验证其e-variables稳健化在更弱矩条件下的有效性。

6. 10.1080/01621459.2024.2442092 — Large Precision Matrix Estimation with Unknown Group Structure¶

作者: Cong Cheng, Yuan Ke, Wenyang Zhang
期刊/来源: Journal of the American Statistical Association
机构: University of Georgia · University of Macau
分类: vol 120 · issue 552 · pp 2326-2337
相关性 6/10 · novelty: new_method
摘要: 本文研究大型精度矩阵估计问题，针对数据中存在未知组结构（即变量可划分为若干同质子组）但组别信息未知的情形。作者提出两阶段方法：首先利用样本协方差矩阵的前导特征向量构成低维子空间，在该子空间上对变量进行聚类以识别未知的组结构；然后依据聚类得到的组别信息，对每组变量进行多元响应线性回归来估计精度矩阵的各分块。理论部分分别证明了组检测的一致性（即真实组划分被正确恢复的概率趋于1）以及精度矩阵估计的收敛速率，并给出了与组大小、特征值间距等参数相关的显式条件。模拟实验与乳腺癌真实数据应用表明，该方法在有限样本下优于传统稀疏假设的估计器（如图形套索）。该工作将高维精度矩阵估计从稀疏性假设扩展到未知组结构场景，对您在高维统计中处理结构化协方差矩阵的理论与计算研究有直接参考价值。
关键技术: eigenvector clustering, group-wise multivariate linear regression, spectral decomposition, consistent group detection, precision matrix estimation
为什么对您有用: 该论文直接对应您高维统计兴趣下的精度/协方差矩阵估计问题，尤其关注未知组结构发现这一子方向。您武器库中的high-dimensional asymptotics可用于评估其组检测和估计的收敛速率是否最优（例如与特征值间距的依赖关系），而您熟悉的nonparametric statistics视角可思考组结构假设是否可替代更灵活的稀疏或图模型假设。总体而言，本文的可读性和理论清晰度使得立即可做——您完全可以用高维渐近工具复现并扩展其理论，甚至尝试引入随机矩阵理论优化特征向量子空间选择。

7. 10.1080/01621459.2025.2468011 — Class-Specific Joint Feature Screening in Ultrahigh-Dimensional Mixture Regression¶

作者: Kaili Jing, Abbas Khalili, Chen Xu
期刊/来源: Journal of the American Statistical Association
机构: Xi'an Jiaotong University · McGill University · Peng Cheng Laboratory
分类: vol 120 · issue 552 · pp 2473-2483
相关性 5/10 · novelty: new_method
摘要: 本文针对超高维高斯有限混合回归模型，提出了一种类特定的联合特征筛选方法（Class-Specific Joint Feature Screening）。该方法基于稀疏约束的期望-近似-最大化（SEAM）算法，在迭代过程中同时从各个潜在类别中移除无关特征，并自然考虑了变量间的联合效应，无需额外的逐类别处理步骤。理论部分证明了在正则条件下筛选一致性（screening consistency），即所有重要变量以趋于1的概率被保留。数值实验与真实数据分析表明，该方法在筛选精度和后续模型拟合方面优于现有逐变量筛选方法，尤其能有效捕捉类别间的异质性。对于您而言，该工作直接拓展了高维变量筛选技术至混合模型领域，与您的high-dimensional statistics兴趣高度契合，且其理论分析依赖于您熟悉的high-dimensional asymptotics工具。中期可做：若要将该筛选策略迁移至因果推断中的高维协变量预处理，需要进一步理解混合模型EM算法在高维稀疏约束下的收敛性质，而这可通过您的M-estimation theory（moderately_familiar）加以补充。
关键技术: Sparsity-restricted expectation-approximation-maximization (SEAM), Joint feature screening, Class-specific screening, Ultrahigh-dimensional mixture regression, Screening consistency
为什么对您有用: 该论文聚焦于超高维混合回归中的特征筛选，属于高维统计的核心问题，与您的high-dimensional statistics兴趣直接相连。方法中的稀疏约束EM算法可利用您熟悉的high-dimensional asymptotics工具分析其筛选一致性（如收敛速率与误差控制）。中期可做：若希望将该筛选方法整合至因果推断的高维协变量筛选或调节效应分析中，需先掌握混合模型EM在高维下的理论性质，这可通过您moderately_familiar中的M-estimation theory进一步强化。

8. 10.1080/01621459.2024.2448859 — An Adaptive Adjustment to the R ₂ Statistic in High-Dimensional Elliptical Models¶

作者: Shizhe Hong, Weiming Li, Qiang Liu, Yangchun Zhang
期刊/来源: Journal of the American Statistical Association
机构: Shanghai University of Finance and Economics · Shanghai University
分类: vol 120 · issue 552 · pp 2372-2384
相关性 5/10 · novelty: new_theory
摘要: 在高维椭圆分布与独立成分模型设定下，经典 R² 及其调整版 R*² 在厚尾与尾部依赖情形下会过度估计多重相关系数，导致相关性检验的虚假显著性。本文提出一种新的自适应调整 R² 统计量，适用于涵盖椭圆分布族与独立成分模型的一般总体模型。在维数 p 与样本量 n 共同增长的框架下，建立了新统计量的一致性与渐近正态性，并利用这些理论结果处理若干高维基础推断问题（如相关性显著性检验）。对您可能有用：该工作在高维椭圆模型下给出了 R² 调整的精确渐近分布，直接触及您的高维渐近理论与假设检验方向。
关键技术: high-dimensional asymptotics, elliptical distribution, independent components model, adjusted R-squared, asymptotic normality, correlation significance testing
为什么对您有用: 本文直接连接您的高维统计（高维渐近理论）与数理统计（假设检验）两个子方向，处理椭圆模型下相关性检验的虚假显著性问题。您武器库中 very_familiar 的 high-dimensional asymptotics 可直接用于审视其渐近正态性证明与 rate 条件，moderately_familiar 的 M-estimation theory 可用来分析该 adaptive adjustment 的 M-estimator 结构。Follow-up 粗判：立即可做——用您熟悉的高维渐近工具验证其 rate 是否紧，并探索该调整统计量在更一般 semiparametric 模型下的 efficiency 性质。

9. 10.1080/01621459.2025.2485342 · arXiv — Network-Based Neighborhood Regression¶

作者: Yaoming Zhen, Jin-Hong Du
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2658-2671
相关性 4/10 · novelty: new_theory
摘要: 在模块化生物网络设定下，目标是利用全局社区级信息与局部连接结构估计模块间调控强度，关键假设为随机图模型下的社区结构可分性。提出 network-based neighborhood regression 框架，回归函数同时依赖节点邻域特征与社区标签，并开发 community-wise least square 优化算法。利用随机图理论推导非渐近估计误差界，证明估计量达到 exact minimax optimality；与经典线性回归的 root-n consistency 不同，本文估计量在节点数 n 上实现线性一致性（linear consistency），凸显引入邻域信息的优势。在 Autism 全外显子组测序与 RNA-seq 数据上验证了基因变异模块与基因差异表达模块间的关联。对您可能有用：该文的 minimax 界与随机图误差控制可直接对照您的高维渐近与 minimax bound 武器库。
关键技术: network-based neighborhood regression, community-wise least square, random graph theory, non-asymptotic error bound, exact minimax optimality, linear consistency
为什么对您有用: 本文连接到您 primary interest 中的高维统计与 minimax 理论子方向：它用随机图理论给出非渐近界并证明 minimax optimality，您可以用 very_familiar 的 minimax bounds for estimation problems 直接审视其声称的 exact minimax optimality 是否紧、线性一致性界是否可进一步 sharpen。Follow-up 粗判：立即可做——用您熟悉的 minimax 与高维渐近工具即可复现/改进其误差界分析。

10. 10.1080/01621459.2025.2471055 · arXiv — Multi-Dimensional Domain Generalization with Low-Rank Structures¶

作者: Sai Li, Linjun Zhang
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2522-2534
相关性 4/10 · novelty: new_method
摘要: 针对多子种群域泛化问题，当某些子种群在训练数据中缺失或样本量极少时，本文提出将各子种群的线性回归系数组织成张量，并假设其具有低秩结构，通过结构化张量补全实现未观测子种群的系数估计与预测。该方法利用群体标签的维度信息（如年龄、性别、种族）构造张量，并将补全问题转化为低秩张量分解，引入核范数正则化或SVD阈值化等算法。理论方面，建立了在随机设计下的泛化误差界，并证明所提估计量在minimax意义下达到最优收敛速率，刻画了低秩度、张量维度与样本量的关系。数值实验和糖尿病预测真实数据表明，该方法在多个亚组上的预测精度显著优于现有域泛化方法。对您而言，本文的低秩张量框架与高维统计中的低秩模型紧密相关，其中minimax最优性的证明可迁移至因果推断中的迁移学习或异质性处理效应估计问题。
关键技术: Low-rank tensor completion, Structured tensor factorization, Minimax optimality, Nuclear norm regularization, Domain generalization for subpopulations
为什么对您有用: 本文直接连接您的高维统计（低秩模型）兴趣：张量补全与minimax界分析是经典高维工具，可与您的nonparametric minimax bound技术进行交叉检验（立即可做）——利用very_familiar的minimax下界构造方法来验证其最优性是否紧。同时，结构化低秩假设在因果推断的迁移学习场景中有潜力（如处理效应在子群间共享低维结构），需要后续加强identification theory（moderately_familiar）以实现因果解读。整体上，本文是低秩张量在高维域泛化中的新应用，值得仔细读。

11. 10.1080/01621459.2025.2453250 · arXiv — Hub Detection in Gaussian Graphical Models¶

作者: José Á. Sánchez Gómez, Weibin Mo, Junlong Zhao, Yufeng Liu
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2397-2409
相关性 4/10 · novelty: new_method
摘要: 在 Gaussian graphical model (GGM) 设定下，目标是直接检测 hub node（连接度显著高于非 hub 的节点），而不依赖先估计整张图再数度的传统两步法。作者建立 hub 存在性与底层协方差矩阵谱分解之间的新颖联系：hub 的连接模式会向协方差矩阵的主特征向量注入可辨识的结构信号。基于此，提出 inverse principal components for hub detection (IPC-HD) 方法，通过分析主特征向量的载荷来直接定位 hub。理论上证明了 IPC-HD 的 consistency 并给出了收敛速率；模拟显示该方法在检测精度与计算速度上优于现有基于图估计的两步法。对您可能有用：该文将网络结构检测转化为协方差谱分析问题，与高维 RMT 及随机矩阵谱方法的兴趣直接对接。
关键技术: spectral decomposition of covariance matrix, inverse principal components, hub detection without graph estimation, Gaussian graphical model, convergence rate analysis
为什么对您有用: 本文直接连接到 primary interest 中的高维统计与 RMT 子方向：将图模型的 hub 检测问题转化为协方差矩阵的谱/特征向量分析，绕过图估计的瓶颈。研究者武器库中 very_familiar 的 'high-dimensional asymptotics' 可直接用来分析 IPC-HD 在随机矩阵 Marchenko-Pastur 极限下的行为，判断其收敛速率在 RMT 视角下是否紧。Follow-up 判断：立即可做——用熟悉的 RMT 工具即可切入，验证该方法在高维极限下的 phase transition 与 minimax 性质。

非参数 / 半参数 (nonparam_semipara, 16 篇)¶

1. 10.1080/01621459.2025.2561150 — Mixture Models: Parametric, Semiparametric, and New Directions¶

作者: Hien D. Nguyen
期刊/来源: Journal of the American Statistical Association
机构: La Trobe University
分类: vol 120 · issue 552 · pp 2855-2856
相关性 7/10 · novelty: survey
摘要: 本文是对 Yao & Xiang 新书《Mixture Models: Parametric, Semiparametric, and New Directions》的书评，聚焦有限混合模型（finite mixture models）的参数与半参数设定下的 identification 与 estimation。书评指出该书系统梳理了从经典 EM 算法到半参数混合（如非参数成分混合、mixing distribution 估计）的理论进展，并涉及高维与变量选择等新方向。核心技术工具包括 EM / MM 算法、局部/全局 identifiability 理论、非参数极大似然（NPMLE）与 penalized estimation。书评本身无新理论贡献，仅作为 survey 类导读；对您可能有用的是：该书对半参数混合模型 identification 与 NPMLE 的梳理，可作为 semiparametric theory 与 nonparametric statistics 武器库在 mixture 设定下的入门地图。
关键技术: finite mixture models, EM algorithm, semiparametric mixture, nonparametric maximum likelihood estimation, identifiability theory
为什么对您有用: 连接到 semiparametric theory 与 nonparametric statistics 子方向：半参数混合模型的 identification 与 NPMLE 是 semiparametric efficiency bound 与 minimax estimation 的经典战场，该书提供了系统梳理。武器库中 very_familiar 的 nonparametric statistics 与 minimax bounds 可直接审视书中 NPMLE 的收敛率与 identifiability 条件是否紧。作为 gateway reading，该书对 mixture 设定下的半参数理论是好入门读物，武器库完全够支撑进入该方向，值得花时间读相关章节以寻找 semiparametric efficiency 在 mixture 下的 open problems。

2. 10.1080/01621459.2025.2501717 · arXiv — Adaptation Using Spatially Distributed Gaussian Processes¶

作者: Botond Szabo, Amine Hadji, Aad van der Vaart
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2784-2795
相关性 7/10 · novelty: new_method
摘要: 本文在非参数回归框架下，研究基于自变量位置划分数据子集后，聚合各子集高斯过程后验的近似分布能否保持全数据后验的收敛速率。作者考虑集成布朗运动和Matérn核两类先验，并通过对长度尺度赋予先验实现自适应于回归函数未知光滑性。理论证明所构造的近似后验能够达到与全数据后验相同的恢复速率，且该速率自适应于真实光滑性。数值实验显示，新提出的聚合技术（基于加权平均而非简单混合）在合成与真实数据上均优于已有分布式方法，并能捕捉局部正则性变化，获得比原始GP更好的预测性能。本文的分析为大规模非参数贝叶斯推断提供了严格的速率自适应理论，填补了分布式后验自适应性的空白。对您而言，本文的非参数后验自适应理论与您熟悉的非参数极小极大速率紧密相连，分布式聚合思路也可迁移至您关注的因果推断或高维问题中的大规模估计场景。
关键技术: Distributed Gaussian processes, Posterior aggregation, Adaptive nonparametric regression, Matérn kernel, Integrated Brownian motion, Oracle posterior
为什么对您有用: 本文直接关联您的首要兴趣“非参数/半参数理论”，特别是非参数回归中后验分布的收敛速率与自适应这一理论问题，与您擅长的非参数极小极大界技术高度衔接。您熟悉的非参数统计工具（如光滑性假设下的速率分析）可直接用于理解本文的核心证明逻辑，但需要补充贝叶斯后验收缩率的知识（属moderately_familiar领域）。中期可做的是：将分布式后验聚合策略扩展到您关注的因果推断（如CATE估计）或高维问题中，利用您的M估计和套索经验验证聚合方法的计算-统计折中。

3. 10.1080/01621459.2025.2476781 · arXiv — Kernel Meets Sieve: Transformed Hazards Models with Sparse Longitudinal Covariates¶

作者: Dayu Sun, Zhuowei Sun, Xingqiu Zhao, Hongyuan Cao
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2580-2591
相关性 7/10 · novelty: new_theory
摘要: 在 transformed hazards model 下，研究时间依赖协变量仅在间歇性时间点被观测的右删失生存数据，目标是估计回归参数与基准累积 hazards；现有方法通常要求协变量完整轨迹已知，这在纵向随访中不现实。作者提出 kernel-weighted log-likelihood 与 sieve maximum log-likelihood 的联合估计：kernel 权重处理时间依赖协变量的间歇观测与插补，sieve 空间（如 B-spline）逼近无穷维的非参数基准 hazards 函数。理论贡献在于为 general kernel-weighted sieve M-estimator 建立了严谨的渐近框架，证明了估计量的 n^{-1/2}-CAN 性质与 semiparametric efficiency，并给出了 sieve 空间逼近误差与 kernel 带宽的收敛速率要求。数值模拟与武汉 COVID-19 临床数据验证了方法优于需完整轨迹的竞争方法。对您可能有用：本文的 kernel-sieve 联合 M-estimation 框架与纵向因果推断中 intermittent covariate 的处理有直接技术共通性。
关键技术: kernel-weighted log-likelihood, sieve M-estimation, transformed hazards model, intermittent longitudinal covariates, semiparametric efficiency, B-spline approximation
为什么对您有用: 本文直接连接到 primary interest 中的 semiparametric theory（sieve M-estimation 的渐近框架）与 longitudinal causal inference（间歇观测时间依赖协变量的处理）。用您 very_familiar 的 minimax bounds for estimation problems 与 moderately_familiar 的 M-estimation theory，可以审视其 sieve 空间逼近速率与 kernel 带宽条件是否达到 minimax optimal，甚至将框架拓展至 longitudinal treatment 的 causal hazards 估计。立即可做：用 M-estimation theory 与 minimax bound 工具验证其声称的 semiparametric efficiency bound 是否紧，并探索将 kernel-sieve 框架移植到 longitudinal IV / mediation 的 hazards identification。

4. 10.1080/01621459.2025.2458344 · arXiv — Deep Regression for Repeated Measurements¶

作者: Shunxing Yan, Fang Yao, Hang Zhou
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2461-2472
相关性 7/10 · novelty: new_theory
摘要: 在重复测量（纵向/面板/函数数据）的非参数均值回归设定下，目标为 Hölder 类均值函数，关键假设为任意采样频率与聚类依赖结构。作者提出全连接 DNN 估计器，通过经验过程技术处理聚类依赖，建立了允许任意采样频率的新理论框架。核心发现是收敛速率的相变现象：随采样频率与维度关系变化，速率在参数式与非参数式之间切换，揭示了重复测量与维度诅咒的内在联系。对低内在维度情形（层次复合模型、低维支撑集、各向异性 Hölder 平滑），给出新的 DNN 近似结果与匹配的下界，证明 DNN 估计器能自适应绕过维度诅咒。对您有用：本文的相变速率与下界分析直接关联非参数理论中的 minimax rate 研究，且聚类依赖的经验过程处理可迁移至纵向因果推断的效率界推导。
关键技术: deep neural network regression, empirical process for clustered dependence, phase transition in convergence rate, Hölder class approximation, anisotropic smoothness, minimax lower bounds
为什么对您有用: 直接关联非参数理论中的 minimax rate 与相变现象，以及纵向数据因果推断的效率理论。您可用 very_familiar 的 minimax bounds 工具验证其声称的下界是否紧，并用 moderately_familiar 的 semiparametric theory 思路将此框架扩展至纵向因果 estimand 的非参数效率界。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以将聚类依赖的经验过程工具与 longitudinal causal inference 的 influence function 推导结合。

5. 10.1080/01621459.2025.2487223 — A New Approach to Optimal Design under Model Uncertainty Motivated by Multi-Armed Bandits¶

作者: Mingyao Ai, Holger Dette, Zhengfu Liu, Jun Yu
期刊/来源: Journal of the American Statistical Association
机构: King University · Peking University · Ruhr University Bochum · Beijing Institute of Technology
分类: vol 120 · issue 552 · pp 2709-2722
相关性 6/10 · novelty: new_method
摘要: 在实验设计设定下，当研究者仅有一组候选模型而真实模型未知时，目标是寻找同时兼顾模型判别与参数估计的序贯设计。本文将此权衡建模为多臂老虎机（MAB）问题，提出一种序贯算法，使所得设计的渐近性能与已知真实模型时的最优设计一致。核心机制利用 MAB 的 explore-then-commit 策略动态分配实验资源，并建立了量化所提设计与真实模型最优设计之间相对效率的下界。理论结果证明该设计在模型误设下仍保持渐近最优性，数值实验显示其优于现有仅侧重判别或估计的算法。对您可能有用：该下界分析思路可迁移至因果推断中 treatment assignment 的 adaptive design 效率研究。
关键技术: multi-armed bandit allocation, sequential experimental design, relative efficiency lower bound, model discrimination, explore-then-commit strategy
为什么对您有用: 本文连接到因果推断中 adaptive / sequential treatment assignment 的效率理论子方向，以及 semiparametric efficiency bound 在设计问题中的应用。您武器库中 minimax bounds for estimation problems 与 estimation theory in causal inference 可直接攻其 relative efficiency lower bound 的紧性验证与因果设定下的拓展。Follow-up 粗判：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以将 MAB 探索策略与因果推断的 semiparametric efficiency bound 做严格桥接。

6. 10.1080/01621459.2025.2552510 — Boosting AI-Generated Biomedical Images with Confidence through Advanced Statistical Inference¶

作者: Zhiling Gu, Shan Yu, Guannan Wang, Lily Wang
期刊/来源: Journal of the American Statistical Association
机构: Yale University · University of Virginia · William & Mary · George Mason University
分类: vol 120 · issue 552 · pp 2165-2180
相关性 6/10 · novelty: new_method
摘要: 在功能性数据框架下，本文针对原始与生成式AI合成的生物医学影像数据之间的均值与协方差函数差异，提出了一种非参数检验与估计方法，关键假设是影像数据为球面上的功能性观测且空间异质性可用三角球面样条刻画。核心估计量基于三角球面样条（triangulated spherical splines）处理球面空间异质性，并构建了同时置信域（SCR）来严格量化原始-合成差异的不确定性；理论上证明了SCR的渐近性质，获得了精确覆盖概率且表明其与无噪声影像数据导出的SCR等价。模拟验证了SCR的覆盖性质及关联假设检验的size与power；在Human Connectome Project脑影像数据上的应用发现原始与合成影像存在显著差异，并展示了一个简单变换可将合成影像的均值与协方差函数对齐至原始数据。对您可能有用：本文的球面功能性数据SCR构建与渐近覆盖概率理论，为非参数假设检验与功能性数据推断提供了新工具。
关键技术: functional data analysis, triangulated spherical splines, simultaneous confidence regions, nonparametric hypothesis testing, spatial heterogeneity modeling, asymptotic coverage probability
为什么对您有用: 本文直接连接到非参数理论与假设检验这两个primary interest子方向，其球面功能性数据的SCR构建与渐近精确覆盖概率推导属于非参数推断的严格数学统计工作。从technical_arsenal看，您very_familiar的nonparametric statistics与minimax bounds可直接攻破本文的渐近覆盖概率与size/power理论分析口子，判断其SCR构造是否达到minimax最优或存在sharper rate的可能。Follow-up粗判：立即可做——用您熟悉的非参数minimax工具即可审视其SCR收敛率与检验power的紧性，并可探索将此球面样条SCR框架推广至高维或缺失数据设定。

7. 10.1080/01621459.2024.2441523 — Comparison of Longitudinal Trajectories Using a High-Dimensional Partial Linear Semiparametric Mixed-Effects Model¶

作者: Sami Leon, Tong Tong Wu
期刊/来源: Journal of the American Statistical Association
机构: University of Rochester
分类: vol 120 · issue 552 · pp 2288-2301
相关性 6/10 · novelty: new_method
摘要: 该文针对纵向研究中多组轨迹比较问题，提出了一种部分线性半参数混合效应模型（PLSMM），其中线性部分包含高维协变量，非线性部分通过字典搜索策略从候选基函数中自动选择以拟合非线性时间趋势。模型无需预先指定非线性函数形式，且能处理不规则时间点和组间线性/非线性成分差异的统计推断。在线性分量上，文章提出了针对高维变量选择的去偏（debiased）后选择推断程序，可对组间线性效应差异进行假设检验；非线性分量则采用Bootstrap方法比较组间的非线性轨迹。模拟研究和一项儿童口腔白色念珠菌浓度队列分析展示了方法的效果。该方法将高维稀疏推断与半参数纵向建模结合，其去偏Lasso技术和Bootstrap比较策略对您在半参数理论和高维统计方面的研究具有直接参考价值。
关键技术: partial linear semiparametric mixed-effects model, dictionary search for basis selection, debiased Lasso for post-selection inference, bootstrap for nonlinear trajectory comparison, high-dimensional covariates
为什么对您有用: 本文核心涉及半参数模型（PLSMM）和高维变量选择后的统计推断，与您primary interest中的半参数/非参数理论以及高维统计紧密契合。您非常熟悉的高维渐近工具（very_familiar中high-dimensional asymptotics）可直接用于评估本文去偏估计量的理论性质，非参数统计（very_familiar中nonparametric statistics）可用于理解字典选择的合理性。由于这些工具您已有充分掌握，因此现阶段完全可以深入阅读并可能提出拓展（如将比较框架推广到因果推断中的纵向处理效应检验）。

8. 10.1080/01621459.2025.2457919 · arXiv — Random Effects Model-Based Sufficient Dimension Reduction for Independent Clustered Data¶

作者: Linh H. Nghiem, Francis K. C. Hui
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2449-2460
相关性 5/10 · novelty: new_method
摘要: 本文针对独立聚类数据，提出随机效应充分降维（random effects SDR）方法，扩展了传统SDR仅适用于独立观测或忽略簇间异质性的局限。该框架假设簇特定的中心子空间服从Grassmann流形上的分布，通过协方差矩阵刻画簇间异质性在降维过程中的差异。方法基于模型逆回归，具体采用随机效应主成分拟合模型（random effects principal fitted components model），并设计两阶段算法分别估计整体固定效应中心子空间和预测簇特定的随机效应中心子空间。理论方面证明了估计的一致性，模拟研究显示相比全局SDR和簇特定SDR有更好表现，且能处理混合类型预测变量。应用部分使用117个国家的纵向数据，发现女性预期寿命与收入、婴儿死亡率及不平等指标相关，且各国降维子空间存在显著异质性。对您而言，本文处理聚簇/纵向数据的半参数降维思路，可与因果推断中的纵向mediation或IV方法结合，需熟悉Grassmann流形估计和随机效应建模（moderately_familiar中的identification theory可延伸至此类设定）。
关键技术: random effects model, Grassmann manifold, central subspace, principal fitted components, two-stage estimation, inverse regression
为什么对您有用: 本文聚焦于聚类/纵向数据的半参数充分降维（nonparam_semipara），直接关联您对纵向因果推断（如mediation）的兴趣中高维协变量处理问题。您非常熟悉的nonparametric statistics和high-dimensional asymptotics可用来检验其估计收敛速率是否最优，但Grassmann流形上的分布估计不是您的常规武器，需先补充随机效应建模和流形优化知识（moderately_familiar中的semiparametric theory可延伸）。总体属于中期可做：在现有纵贯因果推断项目中嵌入该降维步骤，需先熟悉Grassmann流形上的估计理论。

9. 10.1080/01621459.2025.2490302 · arXiv — A Smoothed-Bayesian Approach to Frequency Recovery from Sketched Data¶

作者: Mario Beraha, Stefano Favaro, Matteo Sesia
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2737-2748
相关性 5/10 · novelty: new_method
摘要: 在基于随机哈希压缩（sketch）的大规模离散数据频率恢复问题中，传统算法方法缺乏统计建模，而现有 BNP 方法在幂律分布下计算代价过高。本文提出 smoothed-Bayesian 方法：对单哈希 sketch，在直观的线性估计类中证明了无偏性及贝叶斯框架下的最优性；对多哈希 sketch，引入 multi-view learning 构造计算高效的频率估计器。核心理论保证包括线性估计类中的贝叶斯最优界，以及通过 multi-view 分解规避多哈希联合后验的高计算复杂度。实证显示该方法在合成与真实数据（含幂律尾部）上优于现有 BNP 与算法方案。对您可能有用：其 linear estimator 的贝叶斯最优性分析可视为一类 semiparametric efficiency bound 问题，multi-view 分解思路与高维统计中的 cross-fitting 有结构相似性。
关键技术: sketched frequency recovery, smoothed-Bayesian estimation, Bayesian optimality in linear class, multi-view learning, power-law tail modeling, random hashing
为什么对您有用: 本文连接到 semiparametric efficiency theory 子方向：线性估计类中的贝叶斯最优性本质上是在受限模型类中求 efficiency bound，可用 minimax bounds for estimation problems 的 very_familiar 武器验证其声称的 optimality 是否紧。multi-view 分解规避计算瓶颈的思路，与您 higher-order U-statistics 的 treewidth / tensor contraction 视角（用图论刻画计算代价）有概念共鸣——都是通过结构分解降低计算复杂度。follow-up 判断：中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉，以将线性类贝叶斯最优性严格翻译为 semiparametric efficiency bound 语言，进而探索更广估计类下的最优性。

10. 10.1080/01621459.2025.2474266 · arXiv — Positive and Unlabeled Data: Model, Estimation, Inference, and Classification¶

作者: Siyan Liu, Chi-Kuang Yeh, Xin Zhang, Qinglong Tian, Pengfei Li
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2547-2558
相关性 5/10 · novelty: new_method
摘要: 本文针对正类与无标签数据（PU data）提出双指数倾斜模型（DETM），在迁移学习框架下处理标记正样本与未标记正样本分布可能不同的复杂场景（DD-PU），传统方法仅适用于同分布假设（CD-PU）。作者建立了模型的可识别性条件，推导了参数的最大似然估计及其渐近正态性和相合性，并给出了半参数效率界。在此基础上构造了CD假设的拟合优度检验以及目标域正类比例的置信区间，分类任务则采用近似贝叶斯分类器。理论证明DETM在DD-PU设定下仍能保持一致估计，且数值实验和真实数据应用验证了其优于现有方法。该工作将半参数倾斜模型引入PU问题的识别与推断，为流行病学研究中常见的缺失标签场景提供了可检验的统计框架。
关键技术: double exponential tilting model, transfer learning, semiparametric likelihood, goodness-of-fit test, approximate Bayes classifier, confidence interval for prevalence
为什么对您有用: 本文直接涉及半参数模型在PU数据识别与推断中的应用，与您擅长和moderately_familiar的半参数理论、M估计理论高度吻合（可具体检验其影响函数推导是否与您熟悉的HOIF框架兼容）。PU数据在流行病学队列研究（您secondary interest）中极为常见，本文的DD-PU设定和处理方法可迁移至因果推断中的阴性对照或选择偏倚校正。follow-up粗判：中期可做——需先在您moderately_familiar的semiparametric theory上强化对倾斜模型影响函数和效率界的计算，之后即可基于此框架开发因果效应估计器。

11. 10.1080/01621459.2025.2455198 · arXiv — Degree-Heterogeneous Latent Class Analysis for High-Dimensional Discrete Data¶

作者: Zhongyuan Lyu, Ling Chen, Yuqi Gu
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2435-2448
相关性 5/10 · novelty: new_method
摘要: 在高维离散数据设定下，传统 latent class model 无法刻画类内的定量异质性（degree heterogeneity）与异方差噪声，本文提出 Degree-heterogeneous Latent Class Model 并设计 HeteroClustering 算法。算法核心是异方差 PCA 加 l2 normalization：先通过奇异值子空间剥离 degree effect，再对去噪后的矩阵做聚类，实现 minimal SNR 条件下的 exact clustering。针对高维连续 item parameters 的估计与推断，文章进一步给出全局检验与多重检验程序，保证有效的误差控制。理论贡献在于 exact clustering 的 SNR 阈界与高维参数推断的 error control，对您有用在于：该文的异方差 PCA + SVD 去噪机制与高维推断（多重检验）可直接对接您的高维统计与 semiparametric efficiency 兴趣。
关键技术: heteroscedastic PCA, l2 normalization, singular subspace clustering, exact clustering under minimal SNR, high-dimensional multiple testing, latent class model
为什么对您有用: 本文连接您的高维统计（RMT / SVD 聚类）与 semiparametric 推断（高维参数的多重检验）子方向；您 very_familiar 的高维渐近理论可直接审视其 minimal SNR exact clustering 阈界是否紧，moderately_familiar 的 M-estimation 理论可切入其 item parameter 估计的效率分析。Follow-up 判断：立即可做——用您熟悉的高维渐近 / minimax 工具验证其 SNR 条件与推断效率，或探讨其异方差 PCA 在随机矩阵谱分布下的精细行为。

12. 10.1080/01621459.2024.2448858 — Semiparametric Regression Analysis of Interval-Censored Multi-State Data with An Absorbing State¶

作者: Yu Gu, Donglin Zeng, D. Y. Lin
期刊/来源: Journal of the American Statistical Association
机构: University of Hong Kong · University of Michigan · Biostatistical Consulting (United States) · University of North Carolina at Chapel Hill
分类: vol 120 · issue 552 · pp 2362-2371
相关性 5/10 · novelty: new_theory
摘要: 在慢性疾病多状态进程（含吸收态如死亡）设定下，转移时间受区间 censoring、吸收态时间受右 censoring，且进入吸收态前的瞬态未观测；目标是估计带时变协变量与随机效应的半参数比例强度模型参数并实现动态预测。作者结合非参数极大似然估计（NPMLE）与 sieve 估计，构造稳定的 EM 算法求解。理论方面，通过现代经验过程理论、sieve 估计理论与半参数效率理论，证明估计量的收敛性与渐近正态性，并推导出半参数效率界。模拟与心脏同种异体移植血管病变数据验证了方法实用性。对您可能有用：本文的 sieve + NPMLE + 效率界组合为半参数效率理论在复杂 censoring 多状态模型中的落地提供了完整范例。
关键技术: semiparametric proportional intensity model, nonparametric maximum likelihood estimation (NPMLE), sieve estimation, EM algorithm, empirical process theory, semiparametric efficiency bound
为什么对您有用: 直接连接半参数效率理论与 sieve 估计（primary interest 中的 semiparametric & nonparametric theory / efficiency theory 子方向）；您 very_familiar 的 minimax bounds 与 moderately_familiar 的 semiparametric theory / M-estimation 可直接攻入其效率界推导与 sieve M-estimator 渐近性证明的细节。判断：立即可做——用现有武器即可复现其效率界计算并审视 sieve 空间选取对收敛率的影响。

13. 10.1080/01621459.2025.2470481 — Network Varying Coefficient Model¶

作者: Xinyan Fan, Kuangnan Fang, Wei Lan, Chih-Ling Tsai
期刊/来源: Journal of the American Statistical Association
机构: Renmin University of China · Xiamen University · Southwestern University of Finance and Economics · Statistical Research (United States)
分类: vol 120 · issue 552 · pp 2498-2509
相关性 4/10 · novelty: new_method
摘要: 本文提出网络变系数模型（Network Varying Coefficient Model），将传统变系数模型扩展至网络数据设定，目标 estimand 为随网络节点潜在位置变化的回归系数函数。核心机制是将回归系数建模为驱动网络生成的节点潜在位置的函数，先通过 latent space model 识别节点潜在位置，再利用交替优化网络参数与回归系数的迭代投影梯度下降算法进行估计。理论上获得了估计系数矩阵的非渐近误差界，并提出 BIC 选择潜在空间维度；此外采用惩罚方法筛选具有显著变系数的协变量并证明其选择一致性。实证部分通过模拟与金融股票收益-财务比率网络数据验证方法效用。对您可能有用：该文的非渐近界与 latent space 估计耦合，为高维/网络结构下的 semiparametric efficiency 与 debiased 推断提供了新的设定切入点。
关键技术: varying coefficient model, latent space model, projected gradient descent, non-asymptotic bound, BIC for dimension selection, penalized variable selection
为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向（变系数模型是经典 semipara 设定），其非渐近界为后续推导 semiparametric efficiency bound 或 debiased ML 提供了基础。用您 very_familiar 的 minimax bounds for estimation problems 武器，可以审视其非渐近界是否达到 minimax optimal rate，并探索在该网络-潜在空间耦合设定下能否构造 efficient influence function 与 one-step debiased estimator。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉（具体为网络结构下的 efficient influence function 推导），才能推进 debiased 推断。

14. 10.1080/01621459.2024.2441525 — Analysis of Variance of Tensor Product Reproducing Kernel Hilbert Spaces on Metric Spaces¶

作者: Zhanfeng Wang, Rui Pan, Xueqin Wang, Yuedong Wang
期刊/来源: Journal of the American Statistical Association
机构: University of Science and Technology of China · University of California, Santa Barbara
分类: vol 120 · issue 552 · pp 2302-2313
相关性 4/10 · novelty: new_method
摘要: 在度量空间上的非参数回归设定下，目标是构建 ANOVA 分解以识别非欧数据（如形状、网络）的主效应与交互效应。作者首先为一般度量空间提出了一种新型非平稳核函数并构造了对应的 RKHS，为学习复杂结构提供了灵活工具。随后在度量空间的张量积上定义 ANOVA 分解，给出半参数模型的分层结构，并开发了相应的估计与计算方法。理论上，证明了参数与非参数函数估计的收敛速率。实证部分应用于 ADNI 海马体形状数据，验证并发现了区域间的新交互效应。对您可能有用：本文的度量空间 RKHS 构造与张量积 ANOVA 分解，为非参数交互效应估计提供了新框架，可连接到您对 semiparametric theory 与 RKHS 的兴趣。
关键技术: metric space kernel construction, tensor product RKHS, ANOVA decomposition on metric spaces, semiparametric estimation, convergence rate analysis, non-Euclidean data modeling
为什么对您有用: 本文直接连接到您 primary interest 中的 semiparametric & nonparametric theory，特别是 RKHS 与非参数模型收敛速率。您武器库中 very_familiar 的 minimax bounds for estimation problems 可直接用来检验本文声称的收敛速率是否紧，moderately_familiar 的 M-estimation theory 可用于审视其半参数估计的理论推导。Follow-up 判断：立即可做——用 minimax bound 验证其收敛速率的紧性，并探索其度量空间核函数在您熟悉的 inverse problems 中的潜在应用。

15. 10.1080/01621459.2024.2441657 — Estimation and Inference for Nonparametric Expected Shortfall Regression over RKHS¶

作者: Myeonghun Yu, Yue Wang, Siyu Xie, Kean Ming Tan, Wen-Xin Zhou
期刊/来源: Journal of the American Statistical Association
机构: University of Michigan · University of Science and Technology of China · Jinan University · Science North · University of Illinois Chicago · Decision Sciences (United States)
分类: vol 120 · issue 552 · pp 2314-2325
相关性 4/10 · novelty: new_theory
摘要: 在非参数回归设定下，目标是估计条件期望短缺（ES），即给定协变量时响应变量尾部均值，关键假设为条件 ES 属于再生核希尔伯特空间（RKHS）。作者提出基于核岭回归的两步非参数 ES 估计量：第一步估计条件分位数函数，第二步将其代入 ES 的核岭回归中，且无需样本分割。理论贡献包括：给出依赖于有效维度、样本量、正则化参数及分位数估计误差的非渐近估计误差界与高斯近似误差界；为构造逐点置信带，提出快速乘子 bootstrap 并证明其有效性。实证部分通过 PM2.5 数据展示了空气污染物与气象因子对均值和高浓度尾部的异质性影响。对您可能有用：本文的 RKHS 有效维度控制与 plug-in 两步法误差传播分析，为非参数/半参数效率理论中的分位数-ES 联合估计提供了可借鉴的非渐近框架。
关键技术: kernel ridge regression, RKHS effective dimension, non-asymptotic error bound, Gaussian approximation, multiplier bootstrap, plug-in quantile estimation
为什么对您有用: 本文直接连接到非参数/半参数理论（primary interest），其核心在于 RKHS 有效维度刻画与 plug-in 分位数误差在两步估计中的传播分析，这为研究 semiparametric efficiency bound 下分位数-ES 联合估计的 sharper rate 提供了非渐近视角。您可用 very_familiar 的 minimax bounds 工具验证其声称的误差界是否紧，或用 moderately_familiar 的 HOIF / semiparametric theory 探索该两步估计量是否可逼近效率下界。中期可做：需先在 moderately_familiar 的 semiparametric theory 上长肌肉（具体为：将 plug-in 分位数的偏差项纳入 higher-order influence function 校正框架），以推进该估计量的效率改进。

16. 10.1080/01621459.2025.2476786 · arXiv — Sparse Bayesian Multidimensional Item Response Theory¶

作者: Jiguang Li, Robert Gibbons, Veronika Ročková
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2592-2605
相关性 2/10 · novelty: new_method
摘要: 本文在多维项目反应理论（MIRT）框架下，目标是估计混合（连续/二值/序数）响应数据中的稀疏因子载荷矩阵及未知潜在因子维度。方法核心是提出一种可并行化的 Bayesian EM 算法替代传统 MCMC，以实现大规模数据下的快速推断与精确稀疏恢复；通过 Bayesian nonparametrics（如 spike-and-slab 先验）自动估计因子维度，并利用 parameter expansion 实现旋转至稀疏以增强收敛与可解释性。理论方面，仿真表明该方法在小样本高维设定下仍能可靠恢复因子维度与稀疏结构；实证覆盖教育评估、生活质量与生物行为三个数据集。对您可能有用：本文的 spike-and-slab 稀疏贝叶斯推断与 parameter expansion 技术可迁移至高维因果推断中的测量误差/潜变量设定。
关键技术: Bayesian EM algorithm, spike-and-slab prior, parameter expansion, Bayesian nonparametrics, multidimensional item response theory, sparse factor analysis
为什么对您有用: (1) 连接到 semiparametric/nonparametric theory 中的 Bayesian nonparametrics 与高维稀疏推断，以及因果推断中潜变量/测量误差的 identification 设定；(2) 您武器库中的 high-dimensional asymptotics 与 M-estimation theory 可用于分析此 Bayesian EM 的收敛率与稀疏恢复的 minimax 性质，当前 paper 仅以仿真验证而缺严格理论率；(3) 中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以补齐 Bayesian EM 迭代收敛的严格理论分析。

效率理论 / Debiased ML (efficiency_dml, 3 篇)¶

1. 10.1080/01621459.2025.2479237 — Communication-Efficient Distributed Sparse Learning with Oracle Property and Geometric Convergence¶

作者: Weidong Liu, Xiaojun Mao, Jiyuan Tu
期刊/来源: Journal of the American Statistical Association
机构: Shanghai Jiao Tong University · Shanghai University of Finance and Economics
分类: vol 120 · issue 552 · pp 2606-2618
相关性 8/10 · novelty: new_theory
摘要: 在分布式稀疏学习设定下，目标是对同时具有非凸损失与非凸惩罚的模型进行估计与推断，克服局部极小非唯一性难题。方法上，对惩罚项采用局部线性近似（LLA）松弛非凸性，对损失项采用 proximal homotopy 迭代（从大正则化参数逐步缩至目标值），从而保证算法收敛至具有统计优良性质的局部极小。理论上，对每步近似解给出了显式统计收敛率，并首次为算法产出的近似解建立了 oracle 性质与渐近正态性，为推断中优化误差的设定提供了明确指导。计算上，内层循环具有几何收敛率。对您有用：本文在分布式非凸优化框架下实现了渐近正态性，与您关注的 debiased ML / 效率理论及统计计算方向直接相关。
关键技术: local linear approximation (LLA), proximal homotopy method, distributed non-convex sparse learning, oracle property, asymptotic normality of approximate solution, geometric convergence rate
为什么对您有用: 本文直接连接到您 primary interest 中的 efficiency theory（渐近正态性与 oracle property）与 statistical computing（分布式算法与 proximal homotopy 收敛）。您武器库中的 M-estimation theory（moderately_familiar）可以用来审视其近似解渐近正态性的证明细节，特别是优化误差与统计误差的交互如何影响 influence function 的构造。follow-up 判断：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以评估其近似解推断框架能否推广到您熟悉的 semiparametric / debiased ML 场景。

2. 10.1080/01621459.2025.2476780 — Data Fusion Using Weakly Aligned Sources¶

作者: Sijia Li, Peter B. Gilbert, Rui Duan, Alex Luedtke
期刊/来源: Journal of the American Statistical Association
机构: University of Washington · Cape Town HVTN Immunology Laboratory / Hutchinson Centre Research Institute of South Africa · Fred Hutch Cancer Center · Harvard University
分类: vol 120 · issue 552 · pp 2569-2579
相关性 8/10 · novelty: new_theory
摘要: 在多源数据融合设定下，目标是利用部分分布不一致（weakly aligned）的外部数据源来估计一个光滑有限维参数。现有方法多依赖完全一致的数据源，但实际中完全一致源稀缺导致所需样本量过大；本文允许引入已知有限维参数控制偏差程度的弱一致源。核心机制是刻画包含弱一致源后的 semiparametric efficiency bound，并基于此构造 one-step / estimating-equation estimator 以实现该效率增益。理论证明弱一致源的引入可带来明确的效率提升，且 estimator 在常规 smoothness 假设下达到 n^{-1/2}-CAN。实证部分通过融合两期 HIV 单克隆抗体预防试验数据，展示中性抗体生物标志物与 HIV 基因型关联估计的方差缩减。对您可能有用：本文的 semiparametric efficiency bound 刻画与弱一致源整合框架，可直接迁移到 proximal CI 中利用 negative control / surrogate 代理变量的设定。
关键技术: semiparametric efficiency bound, data fusion, weakly aligned sources, one-step estimation, estimating equations, n^{-1/2}-CAN
为什么对您有用: 本文直接连接 efficiency theory（semiparametric efficiency bound 刻画）与 causal inference 的数据融合问题，其'弱一致源'框架与 proximal CI 中利用不完美代理变量的 identification 设定高度同构。用您 very_familiar 的 estimation theory in causal inference 与 moderately_familiar 的 semiparametric theory，可以立即审视其 efficiency bound 在更一般 proximal 设定下是否紧。follow-up 判断：立即可做——用现有 semiparametric theory 武器即可将本文的弱一致源效率增益框架推广至 proximal g-formula 下的 ATE 估计。

3. 10.1080/01621459.2025.2471054 · arXiv — Statistical Inference for High-Dimensional Convoluted Rank Regression¶

作者: Leheng Cai, Xu Guo, Heng Lian, Liping Zhu
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2510-2521
相关性 8/10 · novelty: new_method
摘要: 在高维惩罚 convoluted rank regression 设定下，目标是实现对回归系数的 simultaneous inference；convoluted rank loss 用 U-statistic 替代原始非光滑 rank loss 以降低计算难度，但引入了 U-statistic 的分析复杂性。本文首先在更弱的 predictor 条件下建立了 penalized convoluted rank regression estimator 的估计误差界。在此基础上构造了 debiased estimator 并给出其 Bahadur representation，进而推导出 debiased estimator 最大偏差的高维 Gaussian approximation，用于构建 simultaneous confidence intervals。为实现推断，提出了新的 bootstrap 程序并证明其理论有效性。对您可能有用：本文将高维 debiasing 与 U-statistic 结构结合，直接触及您在 higher-order U-statistics 与 efficiency theory (debiased ML) 交叉方向的兴趣。
关键技术: convoluted rank loss, U-statistic structure, debiased estimator, Bahadur representation, high-dimensional Gaussian approximation, multiplier bootstrap
为什么对您有用: 本文直接连接您 primary interest 中的 higher-order U-statistics 与 efficiency theory (debiased ML)：convoluted rank loss 本质是二阶 U-statistic，其 debiased 推断需要处理 U-statistic projection 与高维 nuisance 估计的交互。用您 very_familiar 的 higher-order U-statistics (treewidth / tensor contraction / einsum) 视角，可以系统分析该 estimator 的计算复杂度，并用 moderately_familiar 的 HOIF 理论审视其 Bahadur representation 中残差项的更高阶影响。Follow-up 粗判：立即可做——用 very_familiar 的 U-statistic 计算工具分析其算法成本，并探索 HOIF 是否能改善其 debiased 步的 remainder rate。

数理统计 / 假设检验 (hypothesis_testing, 8 篇)¶

1. 10.1080/01621459.2024.2428467 — A Novel Approach of High Dimensional Linear Hypothesis Testing Problem¶

作者: Zhe Zhang, Xiufan Yu, Runze Li
期刊/来源: Journal of the American Statistical Association
机构: Pennsylvania State University · University of Notre Dame
分类: vol 120 · issue 552 · pp 2235-2249
相关性 9/10 · novelty: new_method
摘要: 在高维线性回归模型下，针对同时检验发散个数线性假设的问题，本文提出了一种双重功效增强检验方法。核心机制是通过精心设计的投影矩阵，将包含高维干扰参数的原假设剥离，转化为对矩条件的检验，进而构造基于 U-statistic 的检验统计量。理论证明在正则条件下，plug-in 统计量收敛至其 oracle 对应物（即仿佛干扰参数已知），并建立渐近零分布正态性以便利推断；同时提供计算友好的实现版本以克服高维计算挑战。为进一步提升功效，从两个不同维度引入功效增强技术并整合，实现双重功效增强。对您可能有用：其投影-矩条件-U统计量的构造路径与高维假设检验的功效分析，直接对接您对 hypothesis testing 与 higher-order U-statistics 的兴趣。
关键技术: projection-based nuisance separation, U-statistic-based test construction, oracle convergence of plug-in statistic, double power enhancement, asymptotic null normality, high-dimensional simultaneous inference
为什么对您有用: 本文直接连接 hypothesis testing 与 higher-order U-statistics 两个 primary interest 子方向：投影将高维干扰参数剥离后转化为矩条件检验，再构造 U-statistic，这一路径与您熟悉的 U-statistic 计算与理论高度契合。用 very_familiar 的 computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 可以直接审视其计算友好版本的实现复杂度与优化空间；用 moderately_familiar 的 theory of higher-order U-statistics 可以分析其投影-退化结构的渐近性质。Follow-up 判断：立即可做——用 very_familiar 的 U-statistic 计算工具即可评估其算法实现，并探索 tensor contraction 视角下的计算优化。

2. 10.1080/01621459.2025.2488477 · arXiv — Likelihood Ratio Tests in Random Graph Models with Increasing Dimensions¶

作者: Ting Yan, Yuanzhang Li, Jinfeng Xu, Yaning Yang, Ji Zhu
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2723-2736
相关性 8/10 · novelty: new_theory
摘要: 本文研究β-模型和Bradley-Terry模型中对数似然比检验的Wilks现象，在高维参数设定下（参数个数n→∞且原假设维度r→∞）检验参数向量的一致性或指定值。对于齐性原假设H0: β1=...=βr（r固定或发散），论文证明归一化的统计量 (2(l(β̂)-l(β̂0))-r)/√(2r) 收敛到标准正态分布，建立了高维Wilks现象。对于指定原假设H0: βi=βi0，β-模型仍得到卡方极限，但在Bradley-Terry模型中意外不成立，揭示了两类模型的本质差异。方法上，作者发展了新颖的渐近展开技术处理参数维数发散时的偏差与方差归一化。模拟和实际数据验证了理论。该渐近框架可推广至其他随机图模型。对您的价值：本文直接面向高维假设检验的渐近理论，与您数学统计及假设检验的兴趣高度吻合，其渐近展开技术可迁移至您熟悉的图模型检验问题。
关键技术: Likelihood Ratio Test, Wilks phenomenon, Asymptotic expansion, Maximum Likelihood Estimation, β-model, Bradley-Terry model, High-dimensional asymptotics
为什么对您有用: 直接对应primary interests中的“mathematical statistics & hypothesis testing”，特别是高维参数下似然比检验的渐近分布理论。您对高维渐近性的熟悉程度（high-dimensional asymptotics）可用于评估其聚速率的紧性，并将渐近展开方法推广至您关注的网络模型（如因果推断中的依存图）。中期可做：需先熟悉β-模型和Bradley-Terry模型的似然结构，但核心渐近技术可直接迁移。

3. 10.1080/01621459.2025.2483483 · arXiv — Hypothesis Testing for a Functional Parameter via Self-Normalization¶

作者: Yi Zhang, Xiaofeng Shao
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2632-2645
相关性 8/10 · novelty: new_method
摘要: 在时间序列非参数设定下，本文研究泛函参数（如边际CDF、谱分布函数）的假设检验问题，核心难点是未知时间依赖结构下传统block bootstrap/subsampling的带宽选择。作者提出无需调参的SS-SN（sample splitting + self-normalization）方法：通过样本分割将泛函参数检验转化为有限维参数的自标准化推断，规避了泛函空间上SN的适用性瓶颈。对简单与复合原假设，分别证明了SS-SN检验统计量存在pivotal极限分布，并在局部替代下导出了极限幂函数。模拟显示其size控制准确且power竞争力强。对您有用：该文为泛函参数检验提供了免调参的数学统计新路径，直接呼应您对hypothesis testing与nonparametric theory的兴趣。
关键技术: self-normalization, sample splitting, functional parameter hypothesis testing, pivotal limiting distribution, local alternatives power analysis, time series spectral distribution
为什么对您有用: 直接连接您primary interest中的hypothesis testing与nonparametric theory子方向，处理泛函参数检验中时间依赖的调参难题。您武器库中very_familiar的minimax bounds与moderately_familiar的M-estimation theory可直接攻入其局部替代下的极限幂函数分析，评估SS-SN在更广泛函类（如semiparametric效率界涉及的泛函）下的检验效率是否达到某种最优。Follow-up判断：立即可做——用very_familiar的非参数工具验证其幂函数在特定泛函空间中的rate sharpness。

4. 10.1080/01621459.2025.2491775 · arXiv — Inference in Generalized Linear Models with Robustness to Misspecified Variances¶

作者: Riccardo De Santis, Jelle J. Goeman, Jesse Hemerik, Samuel Davenport, Livio Finos
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2762-2771
相关性 7/10 · novelty: new_method
摘要: 这篇文章针对广义线性模型（GLM）中常见的共同离散参数假设不成立导致第一类错误失控的问题，提出了一种半参数群不变检验方法。该方法仅要求均值模型正确指定，对方差结构的任何误设均保持鲁棒。核心机制是通过符号翻转（sign flipping）得分贡献生成零分布，而非依赖传统似然比或Wald统计量下的渐近卡方近似。作者给出了单系数和多系数的联合检验，并证明了检验的渐近有效性，同时模拟显示有限样本下表现优异。方法已封装为R包flipscores，并用RNA测序计数数据展示其处理过度离散困难的实际价值。该方法属于一种置换检验框架下的半参数推断，与研究者关注的假设检验和M估计理论直接相关，且计算简单易实现。
关键技术: sign-flipping, score contributions, group-invariance, semiparametric permutation test, robust variance misspecification
为什么对您有用: 本研究直接契合研究者对假设检验（特别是稳健推断）的兴趣，属于数学统计中检验理论的应用。研究者掌握的nonparametric statistics和M-estimation theory足以理解该方法的机制（score contributions、符号翻转的渐近论证），且论文提供了R包，可立即在模拟或实际数据中复现。同时，该方法可视为一种不依赖似然函数的推断思路，与研究者熟悉的半参数效率理论有潜在联系——例如，若将其扩展到因果推断中的GEE或双重稳健估计，可能产生新想法。因此属于“立即可做”的follow-up：可用自己的高维渐近经验评估该方法在高维稀疏模型下的表现。

5. 10.1080/01621459.2025.2455191 — Testing Mutually Exclusive Hypotheses for Multi-Response Regressions¶

作者: Jiaqi Huang, Wenbiao Zhao, Lixing Zhu
期刊/来源: Journal of the American Statistical Association
机构: Beijing Normal University · China University of Mining and Technology
分类: vol 120 · issue 552 · pp 2410-2421
相关性 7/10 · novelty: new_method
摘要: 本文针对多元响应回归中检验“最多只有一个响应分量与预测变量相关”的原假设，提出一种自适应模型检验方法。首先将原假设分解为若干个互斥的子假设，通过模型识别来构建自适应子假设检验以处理互斥性，并引入自适应回归检验来应对回归函数误设定。最终将两者通过进一步模型识别混合成自适应-模型检验。该方法在响应和预测变量维度均随样本量增长的高维设定下，原假设下仍具有卡方弱极限，且检验是omnibus（全能）的。作者系统分析了检验的显著性水平维持和功效表现，揭示了其对不同局部备择具有不同敏感性收敛速率，这是与现有回归模型检验的重要区别。数值模拟和两个实际数据案例验证了有限样本表现。该检验方法可直接应用于假设检验兴趣方向，且其高维渐近性质可通过研究者非常熟悉的高维渐近工具深入理解。
关键技术: adaptive-to-model test, model identification, omnibus test, Chi-square weak limit, sensitivity rates of convergence, high-dimensional multi-response regression
为什么对您有用: 本文直接对接研究者primary interest中的假设检验方向，具体为高维回归设定下对互斥原假设的检验问题，弥补了现有文献在多元响应模型检验中的空白。研究者可使用very_familiar中的高维渐近技术分析该检验的渐近有效性或扩展至更一般的设定（如非参数回归）。follow-up粗判：立即可做——研究者已有的高维渐近和假设检验知识足以理解和评估该方法的理论性质，并可能将其框架迁移至因果推断中的敏感性检验问题。

6. 10.1080/01621459.2025.2495316 · arXiv — Nonparametric Test for Rough Volatility¶

作者: Carsten H. Chong, Viktor Todorov
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2772-2783
相关性 6/10 · novelty: new_method
摘要: 在连续时间金融设定下，目标是检验资产波动率是否服从标准半鞅（路径有限二次变差）还是粗糙过程（路径无限二次变差）。核心机制利用粗糙波动率等价于高频波动率增量存在负自相关，构造基于现货波动率估计增量样本自协方差的检验统计量。在零假设（半鞅波动率路径）下建立可行 CLT，从而构造固定渐近size且渐近power为1的检验。条件极为一般：允许任意跳跃活跃度与市场微观结构噪声。实证应用于高频金融数据，发现支持粗糙波动率的证据。对您可能有用：该检验的可行CLT推导涉及高频非参数估计的渐近理论，与您nonparametric statistics和hypothesis testing的primary interest直接相连。
关键技术: nonparametric hypothesis testing, feasible CLT for sample autocovariance, spot volatility estimation, rough volatility vs semimartingale, robustness to jumps and microstructure noise
为什么对您有用: 直接连接到 primary interest 中的 hypothesis testing 与 nonparametric statistics 子方向——本文提供了一个非参数检验的完整理论框架（feasible CLT + power=1），是高频数据下非参数检验的范例。用您 very_familiar 的 nonparametric statistics 和 minimax bounds 工具可以审视其检验的局部power函数与rate，判断是否存在 sharper rate 或 minimax optimal 的改进空间。立即可做：用 very_familiar 的非参数理论即可复现其CLT推导并探索局部power分析。

7. 10.1080/01621459.2025.2484044 — Posterior Predictive Design for Phase I Clinical Trials¶

作者: Chenqi Fu, Shouhao Zhou, J. Jack Lee
期刊/来源: Journal of the American Statistical Association
机构: Pennsylvania State University · The University of Texas MD Anderson Cancer Center
分类: vol 120 · issue 552 · pp 2646-2657
相关性 3/10 · novelty: new_method
摘要: 在 I 期临床试验的 interval-based adaptive design 设定下，目标是识别最大耐受剂量（MTD）并优化剂量升降决策规则。本文提出 posterior predictive (PoP) design，利用 Bayesian predictive hypothesis testing 构造剂量转换的区间规则，突破了既有 model-assisted interval-based design 的局部最优限制。核心机制在于将剂量升降判断转化为对未来观测的 posterior predictive 检验问题，从而在全局意义上最小化错误决策概率。理论上，全局最优性保证了该设计能以 n^{-1/2} 的收敛率一致地选出真实 MTD。仿真显示 PoP design 在 MTD 识别的 operating characteristics 上有显著提升。对您可能有用：本文将 Bayesian predictive testing 嵌入 adaptive design 的思路，为 hypothesis testing 与 sequential decision 的交叉提供了一个具体且理论完备的案例。
关键技术: Bayesian predictive hypothesis testing, interval-based adaptive design, global optimality of dose transition, n^{-1/2} convergence rate, maximum tolerated dose identification
为什么对您有用: 本文直接连接到 primary interest 中的 hypothesis testing 子方向，展示了 predictive testing 在 sequential adaptive 决策中的理论化应用（全局最优性与收敛率证明）。用您 very_familiar 的 minimax bounds for estimation problems 视角，可以审视其声称的 n^{-1/2} 收敛率是否紧、以及全局最优性定义是否可转化为某种 minimax risk 框架。follow-up 粗判：中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以将 adaptive design 的 sequential decision 理论统一到您熟悉的 minimax / M-estimator 收敛框架中。

8. 10.1080/01621459.2025.2516210 — Fair Coins Tend to Land on the Same Side They Started: Evidence from 350,757 Flips¶

作者: František Bartoš, Alexandra Sarafoglou, Henrik R. Godmann, Amir Sahrani, David Klein Leunk, Pierre Y. Gui et al.
期刊/来源: Journal of the American Statistical Association
机构: University of Amsterdam · University of Kassel · KU Leuven · University of Göttingen · Hasselt University · Gutenberg College · Justus-Liebig-Universität Gießen · Centre for Mental Health 等
分类: vol 120 · issue 552 · pp 2118-2127
相关性 1/10 · novelty: application
摘要: 本文通过大规模抛硬币实验（350,757次）检验了Diaconis等人2007年物理模型的预言：人为抛掷硬币时，硬币倾向于落在起始面相同的一侧。实验采用贝叶斯框架进行分析，结果显示同侧概率为0.508（95%可信区间[0.506,0.509]），贝叶斯因子达2359，强支持同侧偏倚假说。研究还发现个体之间存在显著的偏倚异质性，且随练习次数增多，偏倚程度有所下降——这支持了练习可减少硬币摆动幅度的解释。同时，硬币总体正反面概率仍约为0.5，无系统性偏倚。该工作是大规模实证预测验证的典型案例，虽方法学简单（贝叶斯可信区间与贝叶斯因子），但对假设检验的实践设计（样本量规划、异质性分析）有直接参考价值，尤其适用于流行病学或经济学中需大规模现场实验的场景。
关键技术: Bayesian credible intervals, Bayes factor, large-scale data collection, physics-based statistical model, between-people variation analysis
为什么对您有用: 该论文属于假设检验方向的实证研究，展示了一个简单物理预言如何通过大规模数据获得强证据。研究者可以用‘nonparametric statistics’视角评估结果的稳健性（如对离群值或异质性建模的敏感性），亦可用‘Bayesian methodology’审视可信区间与贝叶斯因子的解释力——这些均为‘very_familiar’武器，立即可做。尽管方法学深度有限，但作为大型实验设计、异质性分析的范例，值得快速浏览以启发未来应用研究。

统计计算 / 算法 (stat_computing, 5 篇)¶

1. 10.1080/01621459.2025.2487215 · arXiv — Unified Optimal Model Averaging with a General Loss Function based on Cross-Validation¶

作者: Dalei Yu, Xinyu Zhang, Hua Liang
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2697-2708
相关性 5/10 · novelty: new_method
摘要: 该论文研究基于交叉验证的模型平均估计的统一框架。作者提出 MACV（Model Averaging based on Cross-Validation）方法，覆盖了一类广泛的损失函数，并统一了多种已有的模型平均估计量。为了降低传统留一交叉验证的计算负担，提出 SEAL（Second-order-Approximated Leave-one/subject-out）近似方法，大幅提升计算效率。在非独立非同分布（non-i.i.d.）且候选模型数随样本量发散的情况下，建立了 MACV 和 SEAL 的渐近理论。通过四个重要场景（纵向离散响应、组内相关结构、空间数据条件预测、分位数回归）展示方法的广泛适用性。模拟和真实数据验证表明该方法优于或可与现有方法竞争。对于统计计算领域，SEAL 技术为高计算成本的交叉验证提供了一种高效的近似方案。
关键技术: cross-validation, model averaging, general loss function, SEAL cross-validation, asymptotic theory with diverging number of models
为什么对您有用: 本文提出SEAL交叉验证的计算加速技巧，可直接应用于高维统计推断中的模型选择，与您的'统计计算'和'软件开发'兴趣高度相关。武器库中的'high-dimensional asymptotics'可帮助理解其渐近理论的正确性。该方向中期可做——若您计划在模型平均或交叉验证计算优化方面进一步工作，需先熟悉'M-estimation theory'中的模型平均基本框架。

2. 10.1080/01621459.2025.2455192 · arXiv — Estimation of Over-Parameterized Models from an Auto-Modeling Perspective¶

作者: Yiran Jiang, Chuanhai Liu
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2422-2434
相关性 4/10 · novelty: new_method
摘要: 本文从模型构建角度提出自动建模（auto-modeling）范式，用于拟合过参数化模型。传统方法关注拟合观测数据，本文则旨在拟合未来观测，通过引入插补方法生成未来观测并优化期望损失函数的近似。技术核心是自适应对偶函数（adaptive duality function）结合自适应m-out-of-n bootstrap，实现对过参数化模型的高效估计。方法在多元正态均值问题、n<p线性回归以及神经网络MNIST图像分类等任务中展示了优越性能。文章虽以说明性为主，但对理论方面进行了深入探讨，并指出了若干开放问题。对您而言，本文提供了一种新的统计计算范式，与您对统计计算方法论和算法的兴趣直接相关，其中bootstrap和优化技术可迁移至高维推断或神经网络诊断中。
关键技术: auto-modeling, adaptive duality function, m-out-of-n bootstrap, imputation method, over-parameterized models
为什么对您有用: 本文直接对应您主要兴趣中的统计计算（数值方法与算法），提出了一种非传统的拟合框架。您熟练的非参数统计和高维渐近工具可用于评估该方法的理论性质（如估计误差、bootstrap一致性）。目前可中期跟进：需先熟悉m-out-of-n bootstrap的理论细节（您对该技术可能不熟，属于moderately_familiar的bootstrap技术），但核心思想与您的计算背景相通，值得深入阅读。

3. 10.1080/01621459.2025.2498088 · arXiv — Bayesian Inference on Brain-Computer Interfaces via GLASS¶

作者: Bangyao Zhao, Jane E. Huggins, Jian Kang
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2028-2039
相关性 3/10 · novelty: new_method
摘要: 本文针对P300脑机接口（BCI）中基于脑电图（EEG）信号的目标/非目标刺激分类问题，提出了一种新的贝叶斯模型GLASS（Gaussian Latent channel model with Sparse time-varying effects）。该模型基于约束多项逻辑斯蒂回归，专门处理目标与非目标刺激的不平衡性。通过隐通道分解有效缓解EEG通道间的强空间相关性，并利用软阈值高斯过程（STGP）先验实现时变效应的稀疏和平滑。模型在肌萎缩侧索硬化症（ALS）患者数据上显著提升了BCI性能，识别出顶枕区重要通道（PO8, Oz, PO7, Pz），与文献一致。为便于应用，作者开发了高效的梯度变分推理（GBVI）算法，并提供了用户友好的Python模块（开源）。对您而言，该工作直接对应primary interest中的统计计算与软件开发，其变分推理和STGP先验设计对高维时空建模有借鉴意义，Python模块可供直接使用或扩展。
关键技术: Gaussian latent channel model, soft-thresholded Gaussian process prior, constrained multinomial logistic regression, gradient-based variational inference, Python module for BCI
为什么对您有用: 本文属于统计计算与软件开发（primary interest），研究者对software development非常熟悉，可快速理解并利用其Python模块。文中梯度变分推理和STGP先验设计可迁移到其他高维时空建模问题，研究者可用very_familiar的非参数统计工具分析模型的平滑与稀疏性质，这是中期可做的方向（需先熟悉变分推断，属于moderately_familiar）。整体上是实用性很强的gateway作品，值得读全文。

4. 10.1080/01621459.2025.2476221 · arXiv — An Economical Approach to Design Posterior Analyses¶

作者: Luke Hagar, Nathaniel T. Stevens
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2559-2568
相关性 3/10 · novelty: new_method
摘要: 在贝叶斯试验设计设定下，目标是通过模拟评估后验分析的操作特征（如功效和 I 类错误率）来确定最优样本量与决策阈值。本文提出一种经济型方法：利用后验概率作为样本量函数的理论建模，仅需在两个样本量点进行模拟即可推断整个样本量空间上的操作特征。基于该理论结果，构造了反映模拟随机性的 bootstrap 置信区间以量化最优样本量与决策阈值的不确定性，并将同一批模拟复用于 contour plot 以高效探索多种设计配置。两个临床试验实例展示了方法的广泛适用性。对您可能有用：该方法将模拟成本从 O(n_grid) 降至 O(2)，为贝叶斯因果推断（如 IV/proximal 的贝叶斯设计）中的计算密集型设计问题提供了高效的数值计算捷径。
关键技术: Bayesian experimental design, posterior probability as function of sample size, bootstrap confidence intervals for optimal design, simulation-based operating characteristics, sample size determination
为什么对您有用: 本文连接到统计计算（数值方法与算法）子方向，核心贡献是将设计阶段的模拟计算量从网格搜索降至两点插值，并用 bootstrap 量化模拟引入的随机性。研究者武器库中的 software development 与 high-dimensional asymptotics 可直接攻破该方法的实现与理论验证口子（如验证两点插值在高维参数空间的逼近误差）。立即可做：用 very_familiar 的软件开发技能复现该方法，并探索将其应用于贝叶斯因果推断（如 proximal CI 的 negative-control 设计）的样本量确定问题。

5. 10.1080/01621459.2025.2506196 · arXiv — Adjacency Matrix Decomposition Clustering for Human Activity Data¶

作者: Martha Barnard, Yingling Fan, Julian Wolfson
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2053-2064
相关性 2/10 · novelty: new_method
摘要: 本文针对移动应用与可穿戴设备采集的人类日常活动序列数据，提出了一种基于邻接矩阵分解的新型聚类方法与聚类评价指标。核心设定是将活动序列建模为状态转移图，用邻接矩阵表示序列结构，从而绕开基于序列对齐算法的成对距离矩阵计算。该方法在计算速度上显著优于传统距离层次聚类与 nTreeClus，且提升了聚类结果的解释性。模拟与 Daynamica 应用数据实证表明，在包含大量居家时间的日期中，该方法能成功识别出同时包含数小时出行或其他活动的模式，而对比方法均失效。对您可能有用：本文的邻接矩阵表示与分解策略为序列数据的快速计算提供了新视角，与您在统计计算与高维矩阵结构方面的兴趣直接相关。
关键技术: adjacency matrix representation, sequence clustering without distance matrix, matrix decomposition, cluster evaluation metric, sequence alignment avoidance
为什么对您有用: 本文连接到统计计算与数值方法子方向，其核心在于用邻接矩阵分解替代昂贵的序列对齐距离计算，属于计算效率与算法设计的改进。您武器库中 very_familiar 的“high-dimensional asymptotics”与“software development”可直接评估该矩阵分解在不同序列长度与状态空间维度下的计算复杂度与数值稳定性。此工作属于应用驱动的方法微创新，理论深度有限，但计算思路可借鉴：立即可做——用您熟悉的矩阵数值方法与软件开发工具复现并扩展其分解算法到更大规模状态空间。

流行病学 (epidemiology, 5 篇)¶

1. 10.1080/01621459.2025.2552421 — Data Science for Infectious Disease Data Analytics: An Introduction with R¶

作者: Qi Zheng
期刊/来源: Journal of the American Statistical Association
机构: University of Louisville Hospital
分类: vol 120 · issue 552 · pp 2852-2853
相关性 5/10 · novelty: survey
摘要: 本文是对 Lily Wang 所著《Data Science for Infectious Disease Data Analytics: An Introduction with R》的书评，目标读者为传染病数据分析与 R 语言实践的入门者。书评指出该书覆盖了传染病数据的常见建模框架（如 SIR/SEIR 模型、时空回归与传播动力学），并配套 R 代码实现数据清洗、可视化与推断。理论深度偏向应用而非严格数理统计，未涉及 semiparametric efficiency 或 formal causal identification 等高级推断工具。作为流行病学数据集与建模流程的 gateway reading，该书提供了结构化的入门路径，但对您在 causal inference 与 semiparametric theory 方面的方法论需求匹配度较低。
关键技术: SIR/SEIR compartmental models, spatiotemporal regression, R software for epidemiology, infectious disease data visualization
为什么对您有用: 本文属于流行病学方向的 gateway reading：(1) 作为传染病数据分析的入门读物，对 outsider 可读性较好，但未深入 formal causal identification 或 semiparametric 推断，与您在 epi 领域关注的 causal inference / IV 方法连接较弱；(2) 武器库中的 causal identification theory 与 semiparametric theory 足以支撑进入更严格的 epi causal 推断方向，但该书本身停留在应用层面，无法提供方法论接口；(3) 不值得花时间读全文，建议直接转向严格 epi causal inference 的专著或论文。

2. 10.1080/01621459.2024.2441522 — Estimation and Variable Selection for Interval-Censored Failure Time Data with Random Change Point and Application to Breast Cancer Study¶

作者: Mingyue Du, Yichen Lou, Jianguo Sun
期刊/来源: Journal of the American Statistical Association
机构: Jilin University · Chinese University of Hong Kong · University of Missouri
分类: vol 120 · issue 552 · pp 2276-2287
相关性 5/10 · novelty: new_method
摘要: 本文针对乳腺癌研究中的区间删失失效时间数据，提出了一类带随机变化点的线性变换模型，填补了该领域的方法空白。变化点反映了某些生物指标超过阈值后疾病风险的突变。作者采用筛极大似然估计（sieve MLE）进行参数估计，并构造惩罚似然实现同步变量选择，同时建立了估计量的相合性和渐近正态性。模拟研究和乳腺癌真实数据分析验证了方法的有限样本表现。该方法的核心技术工具包括筛逼近（sieve approximation）和惩罚似然（如LASSO型惩罚）。对您而言，该工作提供了处理健康队列中风险阈值变化（如生物标志物cutoff）的统计分析框架，属于流行病学应用方向的延伸。
关键技术: sieve maximum likelihood estimation, linear transformation models, penalized variable selection, interval-censored data, random change point
为什么对您有用: 本文对应的次级兴趣是流行病学，且涉及实际数据（乳腺癌研究）和变量选择问题。您的武器库中的非参数统计和M估计理论可以用于理解 sieve MLE 的收敛性，但本文的生存分析背景（区间删失、变化点）不属于您的核心工具，属于‘暂不可做’——需要补充生存分析中似然构建和区间删失数据处理的专门知识，方能展开深入的工作。

3. 10.1080/01621459.2025.2520469 — Bayesian Random-Effects Meta-Analysis Integrating Individual Participant Data and Aggregate Data¶

作者: Yunxiang Huang, Hang J. Kim, Chiung-Yu Huang, Mi-Ok Kim
期刊/来源: Journal of the American Statistical Association
机构: University of California, San Francisco · University of Cincinnati
分类: vol 120 · issue 552 · pp 2128-2139
相关性 4/10 · novelty: new_method
摘要: 这篇论文提出一种贝叶斯随机效应框架，用于整合个体参与者数据(IPD)和汇总数据(AD)的荟萃分析，目标是缓解因IPD获取受限而产生的“数据可用性偏倚”。为绕过传统方法对IPD-AD参数映射关系或固定效应假设的依赖，作者借助估计方程导出AD参数在给定IPD模型参数下的条件分布，并进一步通过multiplier bootstrap与密度比模型从观测数据中近似该条件分布，无需要求协变量分布在研究间同质。理论上证明，当IPD可用性与数据无关时，所提方法相比仅用IPD的分析能降低均方误差；当可用性依赖数据时，能减小偏倚。该方法被应用到国际妊娠体重管理协作组(i-WIP)研究的实际数据中，展示了其实用价值。对您而言，本文结合了流行病学真实数据集和统计计算技术（bootstrap、密度比模型），可作为理解IPD-AD整合问题的入门读物。
关键技术: multiplier bootstrap, density ratio model, estimating equations, Bayesian random-effects meta-analysis
为什么对您有用: 本文属于流行病学应用领域的方法学论文，直接呼应您对流行病学数据集和因果推断应用的次要兴趣。您的非常熟悉武器库中“nonparametric statistics”涵盖了bootstrap技术，可用于理解本文multiplier bootstrap的近似性质并验证其理论保证。作为gateway reading，本文问题设定清晰、方法论透明度高，适合您快速了解IPD-AD整合的这一前沿方向。不过核心框架（贝叶斯随机效应、密度比模型）与您现有武器库主体重叠不大，需要先补充meta分析建模基础，因此属于中期可做方向。

4. 10.1080/01621459.2025.2497569 — Global and Episode-Specific Prediction of Recurrent Events Using Longitudinal Health Informatics Data¶

作者: Yifei Sun, Sy Han Chiou, Chiung-Yu Huang
期刊/来源: Journal of the American Statistical Association
机构: Columbia University · Southern Methodist University · University of California, San Francisco
分类: vol 120 · issue 552 · pp 2015-2027
相关性 4/10 · novelty: new_method
摘要: 本文利用纵向健康信息数据（如SEER-Medicare）预测复发临床事件（如乳腺癌重复住院），目标是在gap time尺度上构建灵活的非参数预测模型。提出一种基于生存树集成的非参数框架，包含两种策略：episode-specific模型（按事件顺序独立预测）和global模型（跨事件借用信息），避免Cox型模型的强分布假设。关键挑战包括事件间相关性导致的诱导信息删失和异质性，通过逆概率删失加权（IPCW）和改进的重抽样算法予以解决。在乳腺癌患者重复住院预测中，global模型显著提高了后期事件的预测精度，表明跨事件信息共享有效。该框架拓展了树集成在复发事件领域的适用性，且无参数假设。对流行病学应用者，本文提供的预测工具可直接用于慢性病管理中的风险分层，其中处理删失和重复事件的思路也可迁移至因果推断中的反事实预测或敏感性分析。
关键技术: survival tree ensembles, gap time modeling, inverse probability of censoring weighting (IPCW), episode-specific vs global prediction models, modified resampling procedure, recurrent events prediction
为什么对您有用: 本文聚焦流行病学中复发事件的非参数预测，是您二级兴趣epidemiology（应用、数据集）的直接实例。其使用逆概率删失加权处理信息删失的技术，可与您very_familiar的nonparametric statistics和estimation theory in causal inference中的IPW方法对接，适用于因果推断中的删失设定。此外，树集成模型可借助您的software development技能快速复现并扩展至您关注的causal inference预测问题（如反事实结局预测）。总体判断：立即可做——核心工具（IPCW、树集成、非参数方法）均已在您的武器库中，可直接用于开发预测导向的因果推断软件扩展。

5. 10.1080/01621459.2025.2516205 — Integrative Analysis of Microbial 16S Gene and Shotgun Metagenomic Sequencing Data Improves Statistical Efficiency in Testing Differential Abundance¶

作者: Ye Yue, Yicong Mao, Timothy D. Read, Veronika Fedirko, Glen A. Satten, Xuan Chen et al.
期刊/来源: Journal of the American Statistical Association
机构: Emory University · Peking University · The University of Texas MD Anderson Cancer Center · Huazhong Agricultural University · Southeast University · King University · Peking University International Hospital
分类: vol 120 · issue 552 · pp 2102-2117
相关性 2/10 · novelty: new_method
摘要: 在微生物组研究中，常同时收集16S标记基因测序和宏基因组霰弹测序两种数据，但现有方法无法有效整合它们进行差异丰度检验。本文提出了Com-2seq方法，是首种在属水平和群落水平上整合两类数据以检验差异丰度的统计方法，并克服了实验偏差、样本部分重叠和文库大小不均等问题。该方法通过构建加权检验统计量合并两种数据源的信号，并利用置换或渐近近似控制假发现率。模拟研究表明，Com-2seq的统计功效显著优于单独使用任一数据集，也超过两种朴素整合策略。在真实糖尿病前期队列数据中，该方法发现了Butyrivibrio、Gemella和Ignavigranum三个属与疾病状态的关联，而这些信号在单数据集中均被遗漏。对您而言，本文连接了假设检验（primary）与流行病学应用（secondary），其整合分析思路可迁移到其他异质数据源的假设检验问题。
关键技术: Integrative differential abundance testing, Genus-level and community-level testing, Combining 16S and shotgun metagenomic data, Handling overlapping samples and uneven library sizes, Com-2seq algorithm
为什么对您有用: 本文直接连接您的primary interest in hypothesis testing（差异丰度检验方法）以及secondary interest in epidemiology（微生物组数据应用）。您武器库中的'high-dimensional asymptotics'可用于分析该方法在高维稀疏信号下的渐近检验功效和FDR控制，而'software development'技能可直接用于复现或扩展Com-2seq代码。理解该方法的流程和模拟结果属于立即可做范畴，但若要深入理论最优性（如推导其检验的minimax速率），则需先补充成分数据分析的渐近理论（当前武器库未明确覆盖），属于中期可做的事。

其他 (other, 9 篇)¶

1. 10.1080/01621459.2025.2485346 — Asymptotic Behavior of Adversarial Training Estimator under ℓ _∞ -Perturbation¶

作者: Yiling Xie, Xiaoming Huo
期刊/来源: Journal of the American Statistical Association
机构: Georgia Institute of Technology
分类: vol 120 · issue 552 · pp 2672-2683
相关性 5/10 · novelty: new_theory
摘要: 本文在广义线性模型（GLM）下研究ℓ∞-扰动对抗训练估计量的渐近行为。作者发现，当真实参数为零时，对抗训练估计量的渐近分布会在零点处有正概率质量，从而保证了稀疏恢复能力。为了改进，提出了自适应对抗训练两步法，能够渐近地实现变量选择一致性和无偏性。数值实验验证了稀疏恢复能力。该工作属于对抗鲁棒性理论与高维统计的交叉，但对研究者当前的因果推断、半参数效率等核心兴趣方向并无直接方法贡献。
关键技术: adversarial training, ℓ∞-perturbation, generalized linear model, asymptotic distribution, variable selection consistency, sparsity recovery
为什么对您有用: 本文属于高维广义线性模型渐近理论，与研究者 high-dimensional statistics 子方向有技术重叠——研究者熟悉 high-dimensional asymptotics，可利用 minimax 界评估其稀疏恢复率的锐利性。但对抗训练本身不是研究者的核心机器，follow-up 需先学习该领域，属于中期可做。

2. 10.1080/01621459.2025.2555067 · arXiv — On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization¶

作者: Jiancong Xiao, Ziniu Li, Xingyu Xie, Emily Getzen, Cong Fang, Qi Long et al.
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2154-2164
相关性 4/10 · novelty: new_method
摘要: 在 RLHF 对齐 LLM 的设定下，目标是使 LLM 的输出分布忠实反映 Bradley–Terry–Luce/Plackett–Luce 奖励模型所隐含的人类偏好分布。本文指出标准 RLHF 中基于 KL 散度的正则化存在算法偏差，极端情况下会导致少数偏好被忽略的 preference collapse 现象。为消除此偏差，作者提出 preference matching (PM) RLHF，其核心 PM 正则化项取为策略概率分布的负对数，通过求解一个保证 PM 性质的常微分方程导出，从而在奖励最大化与响应多样性之间取得平衡。理论证明 PM RLHF 能使策略分布精确匹配奖励模型下的偏好分布；实证上，条件化 PM RLHF 在 OPT 和 Llama 模型上使偏好对齐度提升 29%–41%。对您而言，本文的 ODE 推导与分布匹配机制可作为 semiparametric 模型下目标分布校准的类比参考。
关键技术: RLHF, Bradley-Terry-Luce model, KL regularization, preference matching regularizer, ordinary differential equation derivation, policy distribution alignment
为什么对您有用: 本文连接到 causal_inference 与 efficiency_dml 中的分布匹配与目标校准问题（RLHF 的 KL 偏差类似于 IPW 中的极端权重偏差导致少数子群被忽略）。您可用 very_familiar 中的 minimax bounds 工具分析 PM 正则化项在偏好分布估计中的 rate-sharpness，或用 moderately_familiar 的 semiparametric theory 探究其 influence function。中期可做：需先在 moderately_familiar 的 M-estimation theory 上长肌肉，以严格建立 PM-RLHF 目标函数的 M-estimator 渐近性质与效率界。

3. 10.1080/01621459.2025.2579579 — Fairness in Machine Learning: A Review for Statisticians¶

作者: Xianwen He, Yao Li
期刊/来源: Journal of the American Statistical Association
机构: University of North Carolina at Chapel Hill
分类: vol 120 · issue 552 · pp 2834-2851
相关性 3/10 · novelty: survey
摘要: 本文是一篇面向统计学家的机器学习公平性综述，全面梳理了公平性增强机制及其对应的公平性准则。论文聚焦于二分类模型中的表格数据，将公平性方法划分为预处理、处理中、后处理三大类，分别对应机器学习生命周期的不同阶段和对算法访问权限的不同要求。文中详细介绍了各类方法的典型代表，如重加权、对抗性去偏、阈值调整等，并给出了公平性准则的形式化定义（如人口统计均等、机会均等）。此外，作者通过实验比较了代表性方法在标准数据集上的表现。这篇综述为统计学家进入公平性领域提供了清晰的路线图，但并未提出新的方法论贡献。对于您的研究，公平性问题与因果推断紧密相关（例如 equalized odds 需要因果定义），您掌握的 identification theory 可以用于批判性审视这些准则的因果假设。作为入门读物，本文值得快速浏览以了解领域全景。
关键技术: pre-processing fairness, in-processing fairness, post-processing fairness, fairness criteria (demographic parity, equal opportunity), binary classification, fairness-enhancing mechanisms
为什么对您有用: 本文连接了因果推断中关于公平性定义的子方向（如 equalized odds 的因果解释），您熟悉的 identification theory in causal inference 可直接用于分析这些公平性准则背后的因果假设是否可识别。作为一部综述，立即可做的是通读以了解公平性的主流方法体系和统计挑战，为未来在因果公平性方向的应用研究储备背景知识。

4. 10.1080/01621459.2025.2506194 · arXiv — Tail Calibration of Probabilistic Forecasts¶

作者: Sam Allen, Jonathan Koh, Johan Segers, Johanna Ziegel
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2796-2808
相关性 3/10 · novelty: new_method
摘要: 本文针对概率预报的尾部特性评估问题，提出尾校准（tail calibration）这一新概念，用于检验预报在极端事件区域内的可靠性。作者首先给出尾校准的严格定义，并研究其与标准全部校准（如概率积分变换校准）之间的包含关系与差异。进一步，将尾校准与极值理论中常见的超阈值模型（peaks-over-threshold）建立联系，提供理论连接。文章还引入基于尾部PIT的诊断工具，便于实际数据中检验尾校准性，并通过欧洲降水预报案例展示使用方法。全文侧重于预报评估的方法论创新，而非因果推断或高维统计。对研究者而言，该工作与主要兴趣无直接重叠，但其校准思路可能对评估因果推断中的极端结果预测质量有启发，不过需要额外学习极值理论工具。
关键技术: probabilistic calibration, tail calibration, probability integral transform, peaks-over-threshold, extreme value theory, forecast evaluation
为什么对您有用: 本文的主题是概率预报的尾校准，属于预报评估领域，并未直接对应研究者的主要兴趣。武器库中目前缺少极值理论和预测校准相关工具，因此暂不构成可攻击的问题。若研究者未来涉足极端事件预测或因果推断中的极端效果评估，可作为入门参考。

5. 10.1080/01621459.2025.2552416 — Exponential Families in Theory and Practice¶

作者: Jessica Gronsbell
期刊/来源: Journal of the American Statistical Association
机构: University of Toronto
分类: vol 120 · issue 552 · pp 2853-2855
相关性 3/10 · novelty: survey
摘要: 这是Jessica Gronsbell为Bradley Efron著作《Exponential Families in Theory and Practice》撰写的书评。该书系统介绍了指数族分布的理论基础，包括充分统计量、自然参数、似然比检验以及弯曲指数族等关键概念，并展示了在广义线性模型及其他实际问题中的应用。书评指出，本书内容清晰、例题丰富，既适合作为研究生教材，也适合统计从业者快速回顾核心理论。书评特别提及Efron对历史脉络的刻画，使读者能理解指数族在不同统计范式中的角色。对于需要夯实经典参数统计理论的读者，这是一本高效的入门或复习读物。
关键技术: exponential family, sufficient statistics, generalized linear models, curved exponential family, likelihood inference
为什么对您有用: 您的数学统计与假设检验兴趣直接涉及指数族理论，本书评可帮您快速判断原书是否值得精读。您武器库中的“nonparametric statistics”可通过指数倾斜与指数族对照，“estimation theory in causal inference”中常用的GLM也根植于指数族框架。阅读本书评及原书立即可做，无需额外工具，属于轻量级知识补充。

6. 10.1080/01621459.2025.2485357 · arXiv — Dependent Random Partitions by Shrinking Toward an Anchor¶

作者: David B. Dahl, Richard L. Warr, Thomas P. Jensen
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2684-2696
相关性 3/10 · novelty: new_method
摘要: 本文提出一种新的随机划分分布——收缩划分分布（Shrinkage Partition Distribution），以显式地建模具有依赖结构的划分（如层次依赖或时间依赖划分）。该方法以任意划分分布为基础，通过一个收缩参数将其概率质量向一个指定的锚定划分收缩，从而生成依赖于该锚定划分的随机划分。收缩参数控制依赖程度，极端情况下可实现独立分布或完全等于锚定划分，并且允许每个项目有不同的收缩程度。该分布的归一化常数具有闭式解，可利用标准马尔可夫链蒙特卡洛（MCMC）算法（如Metropolis-Hastings）进行后验采样。论文证明了该分布的理论性质（如自相关结构），并与现有相依划分分布进行了比较。在真实数据应用中，该模型在样本外拟合方面优于对比方法。尽管与您的主要研究兴趣（因果推断、高维统计等）不直接重叠，但该方法在统计计算（MCMC算法设计）和非参数划分建模方面具有参考价值，可能对因果推断中处理异质性分组或时空依赖的任务有所启发。
关键技术: Shrinkage partition distribution, Anchor partition, Dependent random partition, Metropolis-Hastings algorithm, Closed-form normalizing constant
为什么对您有用: 本文属于贝叶斯非参数中的划分建模，与您的主要兴趣（因果推断、高维统计、U统计量）关联较弱。但其中的统计计算方法（解析归一化常数、MCMC采样）可归入您primary interest中的『统计计算』方向，属于 computationally constrained statistics 中的算法设计层面。您的武器库中『nonparametric statistics』『software development』很熟悉，可尝试复现或扩展该方法到其他应用（如流行病学中的空间聚类）。这是一个中期可做的方向——需先熟悉贝叶斯非参数划分模型（您 moderately_familiar 中的『identification theory』虽不直接相关，但需要学习该领域的先验分布设定）。

7. 10.1080/01621459.2024.2443275 · arXiv — A Bias-Accuracy-Privacy Trilemma for Statistical Estimation¶

作者: Gautam Kamath, Argyris Mouzakis, Matthew Regehr, Vikrant Singhal, Thomas Steinke, Jonathan Ullman
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2338-2349
相关性 3/10 · novelty: new_theory
摘要: 本文研究差分隐私（DP）框架下均值估计的内在权衡，目标是在任意分布上同时控制偏差、均方误差和隐私损失。经典的 clip-and-noise 算法通过截断样本控制敏感度以降低隐私噪声，但引入统计偏差。作者证明了一个三难困境：对于任意分布，不存在算法能同时达到低偏差、低误差和低隐私损失。在纯 DP 和集中 DP 下，即使数据来自高斯分布，无偏均值估计也完全不可能。在近似 DP（(ε,δ)-DP）下，若假设分布对称，则可以实现无偏估计。证明技术融合了隐私放大与统计下界，给出了不同隐私概念下估计能力的精确刻画。该结果对隐私保护统计的实践有指导意义，并揭示了隐私约束与统计效率之间的根本冲突。
关键技术: Differential privacy (DP), mean estimation, bias-variance tradeoff, impossibility result, clip-and-noise mechanism
为什么对您有用: 本文讨论的隐私-精度-偏差三难困境与您主要兴趣中的统计-计算权衡类比，提供了一个不同资源约束（隐私）下的下界分析框架。您对 minimax bounds 非常熟悉，可直接用类似技巧验证这些下界是否紧致。但差分隐私机制（如 Laplace 噪声、集中不等式）不在您的武器库中，属于暂不可做方向，需先系统学习 DP 基础（如 DP 定义、隐私损失）。

8. 10.1080/01621459.2025.2516181 · arXiv — Modeling Tree Survival for Investigating Climate Change Effects¶

作者: Nicole Augustin, Axel Albrecht, Karim Anaya-Izquierdo, Alice Davis, Stefan Meining, Heike Puhlmann et al.
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2079-2089
相关性 2/10 · novelty: application
摘要: 该论文利用德国森林健康监测数据，研究树木死亡率的主要驱动因素，重点分析落叶与死亡率之间的关联，并探讨落叶是否作为气候变化的调控指标或存在不可逆阈值。采用平滑加性Cox比例风险模型，引入随机效应处理相邻树木的空间依赖性，并用光滑函数刻画气候、土壤、水文等时空变化协变量的非线性影响。为应对大规模样本和大量参数，使用并行计算结合协变量边际离散化加速计算。提出一种“boost forward penalize backward”特征选择策略，将分量梯度提升与向后选择相结合，自动筛选重要变量。结果表明环境驱动因素因树种而异，落叶对死亡率的影响强且单调，云杉、冷杉和山毛榉存在落叶阈值证据。该论文属于应用统计，方法学创新有限，但大规模生存数据的加性建模和计算优化思路可供参考。
关键技术: Additive Cox model, gradient boosting, backward selection, random effects, parallel computing, marginal discretization
为什么对您有用: 本文虽不直接落在您的主要兴趣方向，但其使用的平滑加性Cox模型和大规模数据计算技巧与您熟悉的非参数统计和软件开发经验有一定交集。不过，该问题缺乏因果识别或高维理论深度，且您武器库中缺少森林生态领域知识，暂无法直接迁移；作为应用案例，阅读价值一般，不推荐深入。

9. 10.1080/01621459.2025.2501711 · arXiv — Analyzing Whale Calling through Hawkes Process Modeling¶

作者: Bokgyeong Kang, Erin M. Schliep, Alan E. Gelfand, Tina M. Yack, Christopher W. Clark, Robert S. Schick
期刊/来源: Journal of the American Statistical Association
分类: vol 120 · issue 552 · pp 2040-2052
相关性 1/10 · novelty: application
摘要: 本文提出一种时空激发模型（Hawkes过程）来分析北大西洋露脊鲸的叫声通信模式。模型分为背景过程和激发过程：背景过程刻画昼夜节律和环境噪声对初始upcall的影响，激发过程捕捉upcall之间的相互激发（countercall）。作者利用Cape Cod Bay的水听器网络自动检测的叫声数据，拟合该点过程模型。结果表明upcall在时空上聚集，夜间叫声更频繁，且环境噪声增加时鲸鱼倾向于安静。模型通过MCMC进行参数推断。本文是经典Hawkes过程在动物声学生态学中的新应用，但方法上没有突破性理论贡献。
关键技术: Hawkes process, spatiotemporal point process, background-excitation decomposition
为什么对您有用: 本文与研究者主要兴趣（因果推断、高维统计、U统计等）不直接相关，但可作为统计计算（MCMC拟合点过程）的阅读材料。研究者可通过'非常熟悉'的软件开发和数值方法工具复现该模型，检查计算效率。由于核心机器（时空点过程推断）不在武器库的核心区，暂不可做延伸工作。

Maintained by 陈星宇 · Homepage · Source on GitHub