跳转至

JASA — Vol 121 Issue 553 · 2026-06-20

  • 共 68 篇 · Journal of the American Statistical Association
  • 目录核对 ✅ 68 篇全部抓到(对照 OpenAlex 77 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

JASA Vol 121 Issue 553的68篇论文可归纳为四条主线:因果识别与效率(约15篇,涉及强化学习、部分识别、时变处理、集群随机化、效应别名、空间异质性、缺失数据、准实验、长期效应、分布鲁棒等)、高维/随机矩阵(约7篇,涵盖低秩推断、PVE推断、夏普比率校正、协方差回归、联邦PCA、VAR调参、成分数据回归)、假设检验(约12篇,包括图像数据、函数数据、因果排序、椭圆分布、深度Cox、黑箱学习器、网络、FDR、响应变换、稳定性选择、P-curve、Cox比例模型、LLM水印、度量空间离散度检验等),以及非参/半参方法(约10篇,涉及加性潜变量、多球面核密度、谱密度区间估计、深度离散生成、点过程延迟、词嵌入MMD、加性多指标GP等)。此外,统计计算方向(后验采样、Vecchia近似、Poisson因子模型、平衡抽样等)与流行病学/其他应用文章也各有覆盖。

因果推断是本期最密集的主线。多篇论文推进了在复杂设定下的识别与推断:连续动作强化学习在未测量混淆下建立非参数可识别性并给出minimax估计与后悔界(Reinforcement Learning with Continuous Actions);部分识别框架引入“超优策略”使不可识别的治疗策略仍可推断(Improved Bounds on Optimal Regimes);利用辅助变量提升时变处理效应估计效率(Incorporating Auxiliary Variables);集群随机化中拆解个体与溢出因果中介效应(Bayesian Nonparametric Mediation);将效应别名概念从实验设计移植到观察性研究,构造平衡的混杂析因设计(Effect Aliasing);设计型推断框架下处理缺失结果,提出插补-重插补方法保证精确FDR控制(Design-Based Causal Inference with Missing Outcomes);准实验的设计型推断与选择偏倚敏感性分析统一(Design-Based Uncertainty for Quasi-Experiments);临床试验与观察数据结合估计长期效应(Long-Term Effect Estimation);因果鲁棒性利用一般噪声干预实现分布偏移下的鲁棒预测(Causality-Oriented Robustness)。这些工作共同展现了从识别假设的放松(部分识别、效应别名)、估计效率提升(辅助变量、集成学习)到推断稳健性(设计型、缺失数据)的纵深覆盖。

高维/随机矩阵假设检验是另两条突出的方法学主线。高维方向:低秩模型推断无需一致估计秩,通过diversified projection处理偏差(Inference for Low-Rank Models);PCA方差解释比例的条件推断与post-selection inference(Inference on PVE);夏普比率样本外估计的随机矩阵谱校正(Sharpe Ratio);协方差回归的debiased inference与联合稀疏结构(Covariance Regression);联邦PCA的分布式sketch与phase transition(Dimension Reduction for Federated Data)。假设检验方向:图像数据多尺度自适应检验具Gumbel极值极限与support recovery(Testing and Support Recovery);函数数据两样本检验基于Grothendieck divergence达到minimax最优(Minimax Two-Sample Test);因果排序的bootstrap置信集(Confidence Sets for Causal Orderings);高维椭圆分布检验无需谱假设(Testing Elliptical Models);深度Cox模型变量显著性检验通过sample splitting(Variable Significance for Deep Cox);黑箱学习器的拟合优度检验基于残差累积协方差(Goodness-of-Fit for General Learning);网络双样本检验结合网络哈希与Edgeworth展开(Higher-Order Accurate Network Inference);FDR控制的自适应选择利用二维对称性(Adaptive Selection for FDR)。这些工作集中处理高维、非参数或复杂数据结构下的推断质量与不确定量化。

与因果推断最相关的论文:Reinforcement Learning with Continuous Actions(识别+minimax bound)、Improved Bounds on Optimal Regimes(部分识别)、Incorporating Auxiliary Variables(效率)、Design-Based Causal Inference with Missing Outcomes(精确推断)、Causality-Oriented Robustness(鲁棒性)。半参数效率方向可重点关注Effect Aliasing(别名结构与效率边界)、Design-Based Uncertainty for Quasi-Experiments(设计型推断)。高维方向:Inference for Low-Rank Models(稳健推断)、Inference on PVE(条件推断)、Covariance Regression(debiased inference)。假设检验方向:Testing and Support Recovery(自适应)、Confidence Sets for Causal Orderings(因果发现不确定性)、A Minimax Two-Sample Test(minimax最优)。

因果推断 (causal_inference, 17 篇)

1. 10.1080/01621459.2025.2590175 · arXiv — Reinforcement Learning with Continuous Actions Under Unmeasured Confounding

  • 作者: Yuhan Li, Eugene Han, Yifan Hu, Wenzhuo Zhou, Zhengling Qi, Yifan Cui et al.
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 209-222
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文研究在未测量混淆存在且动作空间连续时的离线策略学习问题。现有文献多聚焦于离散动作的部分可观察马尔可夫决策过程(POMDP),本文在无限时域框架下建立了策略值的非参数可识别性条件。基于该识别结果,提出了minimax估计量,并设计了策略梯度算法搜索in-class最优策略。理论上证明了估计量的一致性、有限样本误差界以及最优策略的后悔界。模拟实验与德国家庭面板数据的应用验证了方法的有效性。对您而言,该工作直接关联因果推断中的identification与off-policy evaluation子方向,且其理论分析(minimax bound、非参数估计)与您“非常熟悉”的非参数统计和minimax界工具高度匹配。
  • 关键技术: off-policy evaluation, POMDP, minimax estimation, policy gradient, nonparametric identification, finite-sample error bound
  • 为什么对您有用: 本文属于因果推断中off-policy evaluation与confounding子方向,直接呼应您对causal inference (identification, sensitivity analysis)的兴趣。技术上,其使用minimax估计与非参数识别,您的“非参数统计”和“minimax bounds for estimation problems”两项very_familiar武器可直接用于审读其效率或构造替代估计量。中期可做:可尝试将higher-order U-statistics的树宽/张量收缩视角用于分析其policy gradient估计的计算复杂度(需先熟悉HOIF)。

2. 10.1080/01621459.2025.2537451 · arXiv — Improved Bounds and Inference on Optimal Regimes

  • 作者: Julien D. Laurendeau, Aaron L. Sarvet, Mats J. Stensrud
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 561-573
  • 相关性 9/10 · novelty: new_method
  • 摘要: 本文在部分识别(partial identification)框架下研究最优治疗策略(optimal treatment regimes)问题。传统最优策略需要点识别,而该文引入“超优策略”(superoptimal regimes)概念,利用个体的自然治疗值(natural treatment value)来构造决策规则,这在点识别不成立时仍可进行推断。作者在边际敏感性模型(Marginal Sensitivity Model)和工具变量(IV)设定下,给出了超优策略价值函数(value function)的sharp界,并证明了超优策略在传统最优策略不可识别时仍然可识别。进一步,作者基于协变量调整的Balke-Pearl界在IV设定下推导了超优策略价值函数上下界的有效估计量(efficient estimator),证明了其渐近性质。最后,文章通过ICU入院对生存影响的实证研究展示了所提方法的实际价值。对您而言,该文直接针对因果推断中的部分识别与最优策略这两个核心议题,将identification理论(您的moderately_familiar项)与效率理论(您的moderately_familiar项)结合——您可用very_familiar的estimation theory in causal inference工具处理该文估计量的实现与推广。
  • 关键技术: partial identification, sharp bounds, superoptimal regime, efficient influence function, Marginal Sensitivity Model, Balke-Pearl bounds
  • 为什么对您有用: (1)直接连接您的primary interest「causal inference」中的identification与sensitivity analysis子方向——部分识别是proximal causal inference和sensitivity analysis的核心困难之一;该文的superoptimal regime思路为negative-control假设不完全满足时提供了一个可操作的决策准则。(2)您moderately_familiar的identification theory in causal inference恰好可用于推导该文sharp界的紧性条件;同时您非常熟悉的minimax bounds与estimation theory in causal inference可直接用于检验该文有效估计量的rate optimality并推广到高维设定。(3)总体视为中期可做——该文的核心(superoptimal regime的identification与efficient estimation)需要您先在moderately_familiar的identification theory和semiparametric theory上巩固一定功底(重点是部分识别下EIF的推导与bound估计的渐近理论),然后即可用very_familiar的软件开发和因果推断估计工具复现并扩展其算法。

3. 10.1080/01621459.2025.2542553 · arXiv — The Effect of Alcohol Intake on Brain White Matter Microstructural Integrity: A New Causal Inference Framework for Incomplete Phenomic Data

  • 作者: Chixiang Chen, Shuo Chen, Zhenyao Ye, Xu Shi, Tianzhou Ma, Michelle Shardell
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 181-193
  • 相关性 9/10 · novelty: application
  • 摘要: 本文聚焦于酒精摄入频率对大脑穹窿白质微结构完整性的因果效应,目标是估算每日饮酒对分数各向异性(FA)的降低幅值。数据来自UK Biobank,面临两大挑战:表型变量(生活方式剖面)的非线性混杂效应,以及大部分参与者表型数据不完整。作者提出了一个集成学习框架,将多个基学习器(如随机森林、GBM、弹性网等)通过交叉验证加权组合,并引入数据整合步骤将不完备观测的信息纳入主分析,以提高估计效率。该方法本质上是针对高维混杂情形的双稳健估计器(DR)的ensemble化,并采用交叉拟合(cross-fitting)避免过拟合。模拟和真实数据分析显示,该方法在偏差控制上优于标准IPW/回归估计器;但在MSE准则下,结果回归(outcome regression)估计器有时更优。该文是对Applied Causal Inference在流行病学队列中处理缺失协变量问题的一个实用补充,可与您的流行病学(epidemiology)应用兴趣连接,作为实际数据分析的参考模版。
  • 关键技术: ensemble learning framework, data integration for missing covariates, cross-fitting, doubly robust (DR) estimation, SuperLearner, UK Biobank phenomic data
  • 为什么对您有用: 本文属于流行病学队列中因果推断的应用工作(secondary interest),方法学新颖性有限(主要是集成学习的组合方式),但UK Biobank表型数据处理和分析流程对您的'流行病学dataset+applied causal work'兴趣有直接参考价值。从武器库看,您已有的'estimation theory in causal inference'和'软件'技能足以理解并复现其核心分析,属于'立即可做'的阅读:您无需学习新工具即可评估其ensemble+data-integrity策略的合理性。该文不适合作为方法学推进,但可作为进入流行病学领域因果推断应用的入门实例,值得花30分钟读其方法部分和数据描述。

4. 10.1080/01621459.2025.2516197 · arXiv — Incorporating Auxiliary Variables to Improve the Efficiency of Time-Varying Treatment Effect Estimation

  • 作者: Jieru Shi, Zhenke Wu, Walter Dempsey
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 300-311
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在微随机试验(MRT)的纵向因果推断设定下,目标是估计时变干预效应(proximal及lagged effect)。现有方法仅利用预设moderator,而大量影响随机化或效应异质性的辅助变量(auxiliary variables)常被闲置。本文提出在估计过程中调整基线及post-treatment辅助变量的方法,通过构造更精确的权重来减少chance imbalance并提升渐近效率;在特定条件下保证局部效率增益(local efficiency gains)。核心estimator基于augmented inverse-probability weighting思路,利用辅助信息优化treatment probability的建模。模拟与Intern Health Study实证展示了方差缩减效果。对您可能有用:本文直接连接纵向因果推断的效率理论,展示了辅助变量如何逼近semiparametric efficiency bound。
  • 关键技术: micro-randomized trials, time-varying treatment effect estimation, augmented inverse-probability weighting, auxiliary variable adjustment, local efficiency gain, lagged treatment effect
  • 为什么对您有用: 本文直接连接纵向因果推断的效率理论子方向,探讨辅助变量如何提升时变效应estimator的渐近效率。您武器库中的semiparametric efficiency bound与HOIF理论可以攻这篇paper的一个口子:当前方法仅保证局部效率增益,可用higher-order influence functions系统刻画在moderator维度增长时全局效率提升的路径与代价。follow-up粗判:中期可做——需先在moderately_familiar的HOIF理论应用于纵向设定上长肌肉,才能将本文的局部效率结果推进到更完整的semiparametric效率界分析。

5. 10.1080/01621459.2025.2544366 · arXiv — A Bayesian Nonparametric Approach to Mediation and Spillover Effects with Multiple Mediators in Cluster-Randomized Trials

  • 作者: Yuki Ohnishi, Fan Li
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 716-728
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在集群随机化试验(CRT)框架下,研究存在多个非结构化中介变量时的因果中介与溢出效应,核心 estimand 为区分个体自身中介的间接效应与同集群内个体交互产生的溢出中介效应。通过在 interference 假设下构建新的因果 estimands 并给出非参数 identification 结果,解决了多中介与干扰交织时效应拆解的难题。估计方面,提出 Nested Dependent Dirichlet Process Mixture(NDDPM)先验,以 Bayesian nonparametric 方式灵活刻画 CRT 中不同层级(集群与个体)的结局与中介曲面。模拟与实证展示了 NDDPM 在 frequentist 性能上的优势,相比参数化贝叶斯方法能更好适应复杂数据结构。对您可能有用:本文的 identification 框架与 NDDPM 的多层非参数建模思路,可直接迁移到您关注的 longitudinal/interference 下的 mediation 问题。
  • 关键技术: spillover mediation effects, multiple mediators identification, Nested Dependent Dirichlet Process Mixture, Bayesian nonparametric estimation, cluster-randomized trials interference
  • 为什么对您有用: 本文直接推进了 causal inference 中 mediation 与 interference/spillover 的交叉设定,属于您 primary interest 的 longitudinal/mediation 子方向。您武器库中的 semiparametric theory 与 M-estimation theory 可以攻这篇 paper 的 identification 部分与估计效率缺口——NDDPM 虽灵活但未讨论 semiparametric efficiency bound 或 influence function,用 HOIF 或 semiparametric efficiency 理论可为其构造更高效的 one-step / DR estimator。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以推导 interference 下多中介的 efficient influence function 并构造 debiased estimator。

6. 10.1080/01621459.2025.2537456 · arXiv — Effect Aliasing in Observational Studies

  • 作者: Paul R. Rosenbaum, José R. Zubizarreta
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 624-635
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在观察性研究中,当某些协变量组合(如时间段与治疗资格标准)完美预测个体接受的处理时,产生效应别名(effect aliasing)现象:低阶协变量-处理交互可被平衡,但高阶交互必然无法平衡。本文将实验设计中分式析因的别名概念移植到观察性因果推断,定义了处理与协变量组合的别名结构及其对对比权重平衡性的影响。核心方法是一种新的匹配算法,从观察数据构造平衡的混杂析因设计,使得低阶交互在匹配后达到平衡。理论证明别名结构下低阶/高阶交互平衡的必然不对称性,实证用比传统差分法更稳健的别名结构案例展示。对您可能有用:别名结构本质上刻画了高阶交互不可识别的边界,与您在 semiparametric efficiency / HOIF 中关注的高阶余项(higher-order remainder)有概念上的直接对应。
  • 关键技术: effect aliasing, fractional factorial design, optimal matching for factorial contrasts, covariate-treatment interaction balance, confounded factorial design
  • 为什么对您有用: 本文直接连接 causal inference 的 identification 理论:别名结构精确刻画了哪些高阶交互在观察性设计中不可识别,与您在 HOIF / semiparametric efficiency 中处理高阶余项的视角形成对照。用您 very_familiar 的 nonparametric statistics 与 minimax bounds 工具,可以尝试量化别名导致的高阶交互不可识别对估计量方差/效率的影响,这是一个立即可做的 follow-up 方向。

7. 10.1080/01621459.2025.2527424 — Design and Analysis of Randomized Trials to Estimate Spatio-Temporally Heterogeneous Treatment Effects

  • 作者: Samuel I. Watson, Thomas A. Smith
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Birmingham · Swiss Tropical and Public Health Institute
  • 分类: vol 121 · issue 553 · pp 502-512
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在空间或时空异质性设定下,研究随机试验的设计与因果效应估计,目标 estimand 为干预的时空异质性剂量-反应函数。针对传统整群随机化在连续区域上易产生溢出效应且难以捕捉时空变异的问题,定义了多种随机化方案并讨论了因果效应的 identifiability 条件。提出混合模型与剂量-反应函数规格以满足设计假设,证明在特定随机化方案下剂量-反应函数可识别,并比较了各估计量的表现。模拟与疟疾干预试验再分析表明,模型-based 推断在此设定下可能失效,而 design-based 的置信区间与 p 值估计器总体稳健。对您有用:本文将空间溢出与时空异质性纳入因果 identification 框架,为 longitudinal / spatial CI 的设计假设与估计提供了具体路径。
  • 关键技术: spillover effects, cluster randomization, dose-response function identification, mixed model specification, design-based inference
  • 为什么对您有用: 直接连接 causal inference 中的 identification 与 estimation 子方向,特别是空间/时空异质性下的因果 identifiability 条件分析。用您 very_familiar 的 identification theory in causal inference 可以审视其随机化方案下的 identifiability 证明是否可推广至更一般的 interference 结构;moderately_familiar 的 semiparametric theory 可用于评估其混合模型与剂量-反应估计的效率边界。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以推导该时空剂量-反应函数的 semiparametric efficiency bound 并构造更高效的 one-step / DR 估计器。

8. 10.1080/01621459.2025.2516204 · arXiv — Design-Based Causal Inference with Missing Outcomes: Missingness Mechanisms, Imputation-Assisted Randomization Tests, and Covariate Adjustment

  • 作者: Siyu Heng, Jiawei Zhang, Yang Feng
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 312-325
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在基于设计的因果推断框架(随机化推断/有限总体因果推断)下,系统地研究了结果缺失(outcome missingness)问题。目标是在缺失数据存在时,仍能保证处理效应零假设的有限总体精确随机化检验的有效性。提出了一种一般且灵活的缺失机制,该机制能容纳未观测混杂和干扰,并在此机制下构造了“插补-重插补”(imputation and re-imputation)框架。核心理论结果是,即使插补模型被错误指定,该框架仍能在有限总体下精确控制第一类错误率。还将该框架推广至协变量调整和有限总体有效的置信区间构建。研究方法不依赖于超总体模型或特定结果生成分布,保留了设计型推断的“设计保证”优势。该方法对您的因果推断和随机化检验兴趣极为相关,特别是其“插补-重插补”思想可直接迁移至proximal CI或敏感性分析中的缺失数据处理。
  • 关键技术: design-based causal inference, randomization test, imputation and re-imputation, finite-population inference, covariate adjustment, missingness mechanism
  • 为什么对您有用: 本文直接连接您主要兴趣中的因果推断子方向(design-based causal inference / randomization test),并提供了处理缺失数据的新框架。您非常熟悉的非参数统计和假设检验武器可以立即用于:分析其“插补-重插补”框架在更复杂的缺失机制(如MNAR)下的稳健性,或评估其有限总体保证在协变量高维时的退化速度。根据武器库判断,立即可做:用very_familiar的因果推断估计理论和假设检验工具,可沿“扩展到连续处理/多期面板”方向做延伸。

9. 10.1080/01621459.2025.2526700 · arXiv — Design-Based Uncertainty for Quasi-Experiments

  • 作者: Ashesh Rambachan, Jonathan Roth
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 477-491
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在准实验(quasi-experimental)设定下,本文构建了一个基于设计的推断框架,目标参数为有限总体因果效应;核心假设是处理分配由某随机过程生成,但允许单位在处理概率上存在异质性(即未观测的选择偏倚)。作者首先给出条件,使得常见准实验估计量(如 IV、DID 等)的 estimand 可对应于可解释的有限总体因果参数;随后刻画当这些条件被违反时估计量的偏倚与推断扭曲,并据此提出针对选择偏倚的敏感性分析框架。理论结果为准实验分析提供了与实证研究者直觉更一致的严格基础。对您有用:该框架将设计式推断与选择偏倚敏感性分析统一,直接关联 causal inference 的 identification 与 sensitivity analysis 子方向。
  • 关键技术: design-based inference, finite-population causal estimands, selection on unobservables, sensitivity analysis, quasi-experimental estimators
  • 为什么对您有用: 直接连接 causal inference 的 identification 与 sensitivity analysis 子方向,为 IV/DID 等准实验方法提供有限总体视角的 estimand 刻画与偏倚-推断扭曲的定量分析。您可以用 very_familiar 的 identification theory 与 moderately_familiar 的 M-estimation theory 来审视其 estimand 条件的 semiparametric efficiency bound 是否可进一步刻画,或用 sensitivity analysis 框架与您熟悉的 HOIF 偏倚校正做对比。立即可做:用现有武器库即可展开对其 estimand 条件与偏倚界的技术性阅读与延伸。

10. 10.1080/01621459.2025.2526703 · arXiv — Long-Term Effect Estimation When Combining Clinical Trial and Observational Follow-Up Datasets

  • 作者: Gang Cheng, Yen-Chi Chen, Joseph M. Unger, Cathee Till, Ying-Qi Zhao
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 492-501
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究将临床试验数据与观察性随访数据(如Medicare索赔记录)结合以估计长期治疗效果的问题。在生存分析框架下,以Cox比例风险模型定义长期效应(风险比),重点关注试验参与者与观察数据库的链接不完整所导致的缺失数据问题。作者提出两种处理策略:一是非链接视为删失(NLAC)方法,在Cox模型正确设定且链接满足条件独立假设时有效;二是基于条件链接随机(CLAR)假设的逆链接概率加权(IPLW)及其增广版本(AIPLW),以增强对模型误设的鲁棒性。还进一步扩展至含时依协变量的情形。通过模拟验证方法有效性,并应用于SWOG前列腺癌临床试验的实际数据分析。该工作直接对应您primary interest中的因果推断(数据融合下的ATE/LTE估计),并且其加权策略与您熟悉的causal inference estimation theory(IPW/AIPW)高度一致,可作为延伸阅读了解实际数据链接场景中的识别挑战。
  • 关键技术: Cox proportional hazards model, inverse probability weighting, missing data, data linkage, survival analysis, augmented inverse probability weighting
  • 为什么对您有用: (1) 直接对接causal inference中数据融合与长期效应估计这一活跃子方向,属于您的primary interest。 (2) 您very_familiar中的estimation theory in causal inference(IPW/AIPW框架)是该文方法论的基础,而其中对链接缺失的建模思路(CLAR假设、删失处理)可以迁移至您感兴趣的proximal causal inference场景(如negative control变量的链接缺失问题)。 (3) follow-up粗判:立即可做——该文方法的技术难度与您已有武器库匹配,可直接复现其实验并尝试用您的U-statistics/einsum计算框架加速其AIPLW中的嵌套积分估计。

11. 10.1080/01621459.2025.2544365 — Causality-Oriented Robustness: Exploiting General Noise Interventions

  • 作者: Xinwei Shen, Peter Bühlmann, Armeen Taeb
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: ETH Zurich · University of Washington
  • 分类: vol 121 · issue 553 · pp 704-715
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在分布偏移下的预测鲁棒性问题中,现有因果方法(如 anchor regression)依赖过强的因果假设且缺乏灵活性,本文提出 Distributional Robustness via Invariant Gradients (DRIG) 方法,利用训练数据中的一般性噪声干预实现针对未见干预的鲁棒预测。DRIG 通过最小化不同干预环境下梯度的方差构造 estimator,自然地在分布内预测与因果预测之间插值。在线性设定下,作者证明 DRIG 产生的预测在一个数据依赖的分布偏移类中具有鲁棒性,且其框架将 anchor regression 包含为特例,并能抵御更多样的扰动。理论方面给出了有限样本误差界,并将方法扩展至半监督域适应以进一步提升预测表现。实证验证涵盖合成模拟、单细胞数据与重症监护数据集。对您有用:本文在因果鲁棒预测框架下连接了 anchor regression 与更一般的噪声干预,为 causality-oriented robustness 提供了更灵活的 estimand 与 estimator,直接关联您 primary interest 中的因果推断 identification 与 estimation 理论。
  • 关键技术: anchor regression, invariant gradient minimization, distributional robustness, finite-sample bound, semi-supervised domain adaptation, noise intervention modeling
  • 为什么对您有用: 本文直接关联您 primary interest 中因果推断的 identification 与 estimation 子方向,特别是 anchor regression 的泛化与因果鲁棒性框架的扩展。您武器库中 very_familiar 的 M-estimation theory(moderately_familiar)与 minimax bounds 可直接用于审视其有限样本界与数据依赖偏移类的紧性;此外,其半监督域适应设定可能涉及 semiparametric efficiency 问题,可用您 moderately_familiar 的 semiparametric theory 分析效率界。Follow-up 判断:立即可做——用 minimax bound 验证其声称的鲁棒性类是否紧,或用 M-estimation 理论推导其 estimator 在非线性设定下的渐近性质。

12. 10.1080/01621459.2025.2537454 · arXiv — Online Policy Learning and Inference by Matrix Completion

  • 作者: Congyuan Duan, Jingyang Li, Dong Xia
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 598-611
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究在线决策场景中缺乏个体协变量时的策略学习问题。作者采用协同过滤思路,假设用户与物品存在低维潜在特征,将无协变量的决策问题建模为矩阵补全老虎机(matrix completion bandit)。方法上,提出结合 ε-贪心策略进行决策与在线梯度下降估计参数的流程,并通过新颖的两阶段设计平衡策略学习精度与累计遗憾。在推断方面,基于逆概率加权(IPW)发展在线去偏方法,建立估计量的渐近正态性,为策略评估提供统计推断。应用部分以旧金山停车定价项目数据为例,发现所提策略显著优于基准策略。本文为无协变量在线策略学习提供了兼具理论严谨性与实践可操作性的框架。
  • 关键技术: Matrix completion bandit, ε-greedy policy, Online gradient descent, Inverse propensity weighting, Online debiasing, Two-phase design
  • 为什么对您有用: 本文直接连接您的主要兴趣中的因果推断(策略学习/bandit)与高维统计(低秩矩阵补全),并且在线去偏IPW方法触及效率理论的思想。您在因果推断估计和高维渐近方面的功底(very_familiar)可以立即用于评估该方法的finite-sample性能或扩展至更复杂的时间结构;中期可以借由您moderately_familiar的识别理论进一步探讨无协变量设定下的策略识别假设。总的来说,本文技术路线清晰,方法新颖,且附有真实数据应用,值得精读。

13. 10.1080/01621459.2026.2620154 — Toward Interpretable Deep Generative Models via Causal Representation Learning

  • 作者: Gemma Moran, Bryon Aragam
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Rutgers Sexual and Reproductive Health and Rights · University of Chicago
  • 分类: vol 121 · issue 553 · pp 259-275
  • 相关性 5/10 · novelty: survey
  • 摘要: 本文是一篇综述文章,系统介绍因果表示学习(CRL)这一新兴领域,它融合了潜在变量模型、因果图模型、非参数统计与深度学习,旨在构建可解释的深度生成模型。文章从统计视角出发,重点讨论了CRL中的统计识别性和因果识别性结果(包括与经典因子分析和ICA的联系),以及弱监督/无监督条件下的识别条件。文章还总结了CRL在实现策略上的进展(如变分自编码器、GFlowNets)和开放统计问题。对于每个识别结果,文章阐明了需要哪些假设(如独立噪声、因果充分性、辅助变量)以及这些假设是否可以放松。对您而言,本文是理解因果表示学习核心识别理论的首选入门读物,直接连接到您causal inference方向中的identification和proximal causal inference子方向,且您熟悉的非参数统计和因果推断估计理论足以支撑您顺畅阅读本文。建议立即可做gateway阅读。
  • 关键技术: causal representation learning, latent variable models, causal graphical models, nonparametric identification, deep generative models, identifiability theory
  • 为什么对您有用: 本文连接您的primary interest中的causal inference子方向,特别是identification理论和proximal causal inference中的latent confounder识别问题。您非常熟悉的非参数统计和因果推断估计理论(technical_arsenal中的very_familiar项)足以支撑您评估文中的识别假设。作为一篇统计视角的综述,它适合作为立即可做的gateway阅读,无需补新工具。

14. 10.1080/01621459.2025.2585561 — Causal Inference in Pharmaceutical Statistics

  • 作者: Ashley L. Buchanan
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Rhode Island
  • 分类: vol 121 · issue 553 · pp 827-829
  • 相关性 5/10 · novelty: survey
  • 摘要: 本文是对Yixin Fang所著《Causal Inference in Pharmaceutical Statistics》一书的书评,发表在JASA上。该书系统介绍了因果推断方法在制药统计中的应用,涵盖观察性研究中的混淆控制、工具变量、中介分析等核心主题。书评作者Buchanan对内容的组织、可读性和实用性给予了正面评价,并指出该书适合作为生物统计、流行病学及相关领域研究生的教材。书中强调了潜在结果框架和结构模型,并通过真实制药案例演示方法落地。对于临床前研究、药物安全性和上市后效果评估等场景,因果推断的识别假设和估计方法有详细讨论。书评本身不包含新方法,但对该领域文献提供了实用导览。对于您而言,这是一本可以直接补充您因果推断工具箱在制药应用方面实际案例的参考书,尤其适合用于流行病学方向的入门阅读。
  • 关键技术: causal inference, pharmaceutical statistics, propensity score, instrumental variables, mediation analysis, potential outcomes
  • 为什么对您有用: 本文直接关联您的因果推断兴趣,特别是应用在流行病学和药物效果评估领域。虽然书评没有新理论或方法,但所评书籍覆盖了您very_familiar的estimation theory in causal inference和identification theory,可以作为进入制药应用场景的入口。若您计划在流行病学数据集上实战因果推断方法,这本书是一个系统且实用的参考。属于中期可做:需要先熟悉制药领域常见的数据结构和研究设计(如非随机化药物安全性监测),但核心推断工具您已掌握。

15. 10.1080/01621459.2025.2603731 · arXiv — Data-Driven Knowledge Transfer in Batch Q * Learning

  • 作者: Elynn Chen, Xi Chen, Wenbo Jing
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 276-288
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究动态决策中的知识迁移问题,目标是在新任务(目标域)数据稀疏时,利用已有大任务(源域)数据估计最优动作值函数 Q。设定为批处理稳态环境,通过马尔可夫决策过程(MDP)形式化定义任务差异。提出 Transfer Fitted Q-Iteration 算法,结合一般函数逼近(如筛法),直接使用源域和目标域数据联合估计 Q。在筛逼近下,建立算法统计误差与 MDP 任务差异的显式关系,指出源域样本量、目标域样本量和任务差异共同决定迁移效果。理论证明迁移学习误差显著低于单任务学习误差。实证结果验证了理论结论。该工作与因果推断中的动态处理效应估计(如最优策略学习)直接相关,且筛法非参数技术可衔接您对 semiparametric/nonparametric 理论的兴趣。
  • 关键技术: Transfer Fitted Q-Iteration, sieve approximation, Markov decision process, knowledge transfer, generalization bound, function approximation
  • 为什么对您有用: 本文的核心问题——利用源域数据改进目标域策略学习——直接对应于因果推断中的最优动态处理效应估计(longitudinal setting)。您熟悉的非参数统计和极小极大下界工具可用于分析筛法估计的收敛速率(very_familiar),而 semiparametric 理论视角可进一步探索效率改进(moderately_familiar)。属中期可做:需先熟悉 MDP 框架和 Q 学习的基本设定,但已有因果推断背景可大幅缩短学习曲线。

16. 10.1080/01621459.2025.2537452 · arXiv — Debiased Calibration Estimation Using Generalized Entropy in Survey Sampling

  • 作者: Yonghyun Kwon, Jae Kwang Kim, Yumou Qiu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 574-584
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对抽样调查中的校准加权(calibration weighting)问题,提出了一种新的框架:通过最大化广义熵函数来构造校准权重,同时施加两类约束——平衡约束(benchmarking constraint)以提高效率,以及涉及设计权重的去偏约束(debiasing constraint)以保证设计一致性。传统方法(如 Deville & Särndal)最小化校准权重与设计权重的距离,本文则将其从目标函数移至约束结构中。在泊松抽样下,作者证明特定的对比熵函数可在广义熵函数类中最小化渐近方差。建立了设计一致性和渐近正态性,并通过模拟和农业调查数据(Kynetec)展示了对模型误设或信息性抽样设计的稳健性。该方法的去偏思想与因果推断中处理权重(IPTW、校准估计)有直接关联,可视为一种新型的倾向得分校准方法。对您而言,该框架可类比于因果推断中利用辅助变量进行去偏加权,值得交叉参考。
  • 关键技术: calibration weighting, maximum entropy, debiasing constraint, design consistency, asymptotic normality, empirical likelihood
  • 为什么对您有用: 本文直接连接因果推断中的加权估计(如 ATE 的校准估计、IPTW),其去偏约束机制类似于 double robustness 中的 incremental 调整。您的 technical_arsenal 中 very_familiar 的 estimation theory in causal inference 可立即用于分析该框架在 nonparametric 因果设定下的效率性质;同时,非参统计和 minimax bounds 的工具可用于推导该类估计量的最优收敛率。立即可做:将设计权重的约束思路移植到因果推断的负对照(negative control)或代理(proximal)设定中,形成新的识别与去偏 estimator。

17. 10.1080/01621459.2025.2537459 · arXiv — Using Total Margin of Error to Account for Non-Sampling Error in Election Polls

  • 作者: Jeff Dominitz, Charles F. Manski
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 60-71
  • 相关性 3/10 · novelty: new_method
  • 摘要: 该论文针对选举民调中众所周知的非抽样误差问题,提出用最大均方误差(maximum MSE)的平方根来度量总误差幅度(TME),以替代传统的仅考虑抽样误差的误差幅度(margin of error)。作者聚焦于无应答这一重要非抽样误差来源,在完全不知道无应答者候选人偏好(无信息边界)以及部分知道偏好范围(有信息边界)两种设定下,推导出近似最小化TME的简单中点估计(midpoint estimate),并与传统民调估计进行比较。方法拓展至覆盖不足和自选面板等场景。该框架本质上是一种最坏情况下的敏感性分析,类似于因果推断中的部分识别(partial identification),通过构造可能结果集的边界来评估缺失数据对估计的潜在影响。论文以实际民调数据为例说明TME的计算和解读,强调报告TME应成为民调标准做法。对于您而言,该文将非抽样误差的度量转化为一个极小极大优化问题,与您在因果推断中处理不可观测混杂或缺失数据时的部分识别思路高度契合,可直接借鉴其最大MSE边界分析框架来构建更稳健的敏感度分析方法。
  • 关键技术: maximum mean squared error, worst-case bounds, partial identification, midpoint estimation, nonresponse bias, sensitivity analysis
  • 为什么对您有用: 本文核心连接至您 primary interests 中的 causal inference 的子方向——缺失数据的敏感度分析与部分识别。您 moderately_familiar 的 identification theory(特别是 partial identification 的边界方法)正是本文所用工具,因此可以直接用非常熟悉的非参数统计和因果识别技术复现并扩展其分析框架到更一般的缺失因果推断设定。立即可做:只需在您熟悉的 partial identification 工具中嵌入该最大 MSE 准则即可构造新的敏感度度量,无需额外学习新武器。

高维统计 / 随机矩阵 (high_dim_rmt, 7 篇)

1. 10.1080/01621459.2025.2538272 · arXiv — Inference for Low-Rank Models Without Estimating the Rank

  • 作者: Jungjun Choi, Hyukjun Kwon, Yuan Liao
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 655-666
  • 相关性 9/10 · novelty: new_theory
  • 摘要: 在高维低秩矩阵模型下,本文研究线性泛函的推断问题,目标参数为矩阵线性泛函,关键假设是预指定秩不小于真实秩。核心方法是 diversified projection:用预指定权重矩阵估计低秩空间,无需一致估计真实秩。关键统计洞见:过度估计低秩空间不仅引入额外方差,还因隐式 ridge-type regularization 产生不可忽略偏差;据此提出新推断程序,证明只要预指定秩≥真实秩,CLT 即成立。实证应用于含混杂因子的缺失数据多重检验,证明只要控制混杂因子数≥真实混杂数,方法即有效,即使无混杂因子也成立。对您有用:为高维低秩推断提供 rank-robust 方案,隐式 ridge 偏差分析与 semiparametric efficiency / debiased ML 的 bias-correction 思路相通。
  • 关键技术: diversified projection, rank-robust inference, implicit ridge regularization, low-rank matrix linear functional, central limit theorem under over-estimated rank, multiple testing with confounding factors
  • 为什么对您有用: 直接连接高维统计与低秩模型推断:本文的 rank-robust CLT 和隐式 ridge 偏差分析,为高维低秩设定下的 debiased inference 提供了不依赖 rank estimation 的新路径。用您 very_familiar 的高维渐近理论可以验证其 CLT 条件与收敛率是否紧;隐式 ridge 偏差项的刻画与您 moderately_familiar 的 semiparametric theory / M-estimation 中的 bias-correction 逻辑有直接对接口子。Follow-up 判断:立即可做——用高维渐近工具检查其 diversified projection 的渐近方差是否达到 semiparametric efficiency bound。

2. 10.1080/01621459.2025.2538895 · arXiv — Inference on the Proportion of Variance Explained in Principal Component Analysis

  • 作者: Ronan Perry, Snigdha Panigrahi, Jacob Bien, Daniela Witten
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 667-677
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在 PCA 降维设定下,本文针对样本主成分的方差解释比例(PVE)提出推断框架;目标 estimand 是条件于样本奇异向量、相对于未知矩阵均值的总体 PVE,而非传统不可观测的总体主成分 PVE。核心方法利用样本奇异向量条件下的正交投影结构,构造出 PVE 的点估计、置信区间与 p-value,并证明在数据驱动选择(如 elbow rule)选出子集后仍可进行有效 post-selection inference。关键技术工具涉及高维随机矩阵的奇异值/向量扰动分析、条件推断框架以及 selection-adjusted 的 inference 机制。理论结果给出了条件 PVE 的精确分布性质与有限样本/大样本下的覆盖保证,基因表达数据的实证进一步验证了方法实用性。对您可能有用:本文将高维 PCA 的 PVE 推断问题转化为条件于样本奇异向量的参数推断,与您的高维渐近理论及随机矩阵理论兴趣直接对接。
  • 关键技术: conditional inference on sample singular vectors, post-selection inference, proportion of variance explained (PVE), random matrix perturbation analysis, PCA scree plot inference
  • 为什么对您有用: 本文直接连接到您的高维统计与随机矩阵理论(RMT)子方向,将 PCA 中广泛使用但从未被正式推断的 PVE 指标转化为可推断的总体参数,填补了 RMT 在 PCA 推断应用中的一个空白。您武器库中的 high-dimensional asymptoticsinverse problems with random noise 可以直接用来审视其条件 PVE 在更一般 spiked covariance model 下的渐近行为,并可能用 minimax bound 验证其置信区间宽度是否紧。follow-up 粗判:立即可做——用 very_familiar 的高维渐近理论工具即可展开对其条件 estimand 在 spiked model 下的相合性与效率分析。

3. 10.1080/01621459.2025.2535757 · arXiv — Estimation of Out-of-Sample Sharpe Ratio for High Dimensional Portfolio Optimization

  • 作者: Xuran Meng, Yuan Cao, Weichen Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 548-560
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对高维投资组合优化(p/n→c∈(0,∞))中样本外夏普比率难以直接计算的问题,提出一种仅利用样本内数据即可一致估计样本外夏普比率的新方法。其核心思想是基于随机矩阵理论(RMT)对样本协方差矩阵进行谱校正,以修正因样本内乐观(in-sample optimism)导致的偏差。具体来说,作者引入一个正则化矩阵来调整样本协方差的特征值,并建立了在该处理下样本外夏普比率的一致性估计量。该估计量在三种协方差谱结构下均成立:(a) 有界谱,(b) c<1时任意数量的发散尖峰,(c) c≥1时固定数量的发散尖峰(对发散速度要求较弱)。文章还将框架扩展至全局最小方差组合与样本外有效前沿的校正。通过模拟与真实金融数据实验,验证了该方法在高维设定下作为调参准则的有效性。
  • 关键技术: Marchenko-Pastur law, random matrix spectral correction, linear shrinkage regularization, high-dimensional covariance estimation, Markowitz portfolio optimization
  • 为什么对您有用: 本文直接对应您 'high-dimensional statistics (Random matrix theory)' 核心兴趣,用 RMT 解决了金融中高维协方差估计的实际问题。您武器库中 [高维渐近理论] 能直接理解其谱校正机制,而 [软件开发] 技能可用于复现并拓展其实验——该文提供了标准化复现材料。 中期可做:若想进一步用 [HOIF / 高阶U统计] 构造夏普比的去偏估计,需先在 moderate_familiar 的 [semiparametric theory] 上建立影响函数框架,但本文的 RMT 谱校正本身已是立即可读、可复现的成熟方法。

4. 10.1080/01621459.2025.2520996 · arXiv — High-Dimensional Covariance Regression with Application to Co-Expression QTL Detection

  • 作者: Rakheon Kim, Jingfei Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 413-426
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在高维协方差回归设定下,目标是估计随主体协变量变化的条件协方差矩阵,并对其元素做不确定性量化;模型假设协方差矩阵是协变量的函数,且对有效协变量与被调制边施加联合稀疏结构。估计采用 blockwise coordinate descent 算法,理论证明了参数估计的 l1 和 l2 收敛速率。为克服高维稀疏估计的偏置,作者提出基于 one-step/debiasing 思想的推断程序,实现单个协方差元素的有效置信区间构建。实证通过基因共表达 QTL 数据展示方法效用。对您有用:该文的 debiased inference 与联合稀疏结构设计直接连接到 efficiency theory(debiasing)与高维协方差估计的交叉领域。
  • 关键技术: sparse covariance regression, blockwise coordinate descent, l1/l2 convergence rate, debiased inference, joint sparsity structure, co-expression QTL
  • 为什么对您有用: 直接连接到 efficiency theory / debiased ML 子方向——本文在高维协方差回归中构造 debiased estimator 做不确定性量化,是 debiasing 思想在非标准参数(矩阵元素)上的具体实例。可用 very_familiar 的高维渐近理论审视其 l1/l2 rate 是否紧,并用 moderately_familiar 的 semiparametric theory 检查其 debiased 步骤是否达到 semiparametric efficiency bound。中期可做:若想将此 debiasing 框架推广到更一般的协方差函数模型或做 minimax lower bound 验证,需先在 moderately_familiar 的 M-estimation theory 上长肌肉以处理非标准参数的 influence function。

5. 10.1080/01621459.2025.2537453 · arXiv — Dimension Reduction for Large-Scale Federated Data: Statistical Rate and Asymptotic Inference

  • 作者: Shuting Shen, Junwei Lu, Xihong Lin
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 585-597
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在联邦学习设定下,当维度 d 与样本量 n 同时超大规模时,传统 PCA 因隐私与计算瓶颈不可用,目标是估计总体主成分并给出其渐近分布。本文提出 FADI 方法,沿维度 d 使用 L 份 p 维 fast sketch 并行降维,沿 n 分布式聚合,实现计算加速与隐私保护。理论上证明当 Lp≥d 时,FADI 享有与传统 PCA 相同的非渐近误差率;同时推导了 FADI 估计量的渐近分布,揭示随 Lp 增大出现的 phase-transition 现象。实证通过模拟与 1000 Genomes 数据验证理论。对您有用:FADI 的分布式 sketch-then-aggregate 框架与 phase-transition 界定,为高维 PCA 的分布式推断提供了新的非渐近与渐近理论视角。
  • 关键技术: distributed PCA, random sketching, non-asymptotic error rate, phase-transition phenomenon, asymptotic distribution of eigenvectors, federated learning
  • 为什么对您有用: 本文直接连接 high-dimensional statistics 与 RMT 子方向,其非渐近误差率与 phase-transition 界定是典型的高维渐近分析。您可用 very_familiar 的高维渐近工具(如 Marchenko-Pastur / 谱分析)审视其 Lp≥d 条件下误差率是否紧,以及 phase-transition 阈值是否可由 RMT 精确刻画。中期可做:若要深入其分布式推断的 influence function 构造,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以将 FADI 的渐近分布纳入 semiparametric efficiency 框架。

6. 10.1080/01621459.2025.2516190 · arXiv — Data-Driven Tuning Parameter Selection for High-Dimensional Vector Autoregressions

  • 作者: Anders B. Kock, Rasmus S. Pedersen, Jesper R.-V. Sørensen
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 289-299
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对高维向量自回归(VAR)模型中Lasso类估计量的惩罚参数选择难题。现有理论惩罚水平往往依赖未知总体量,实际中却常用交叉验证或信息准则等缺乏理论保证的启发式方法。作者提出一种完全数据驱动的惩罚选择策略,适用于Lasso、post-Lasso和square-root Lasso估计量。核心机制是利用一个自适应乘数序列调整惩罚强度,并利用时间序列相依数据的集中不等式建立理论保证。所得的估计误差和预测误差收敛速率与采用不可行最优惩罚时的已知速率相匹配。这是首次为高维时间序列模型提供理论上有依据的惩罚参数选择方法。对您有用:该工作直接连接高维统计学方向,特别是高维时间序列模型的实际应用。
  • 关键技术: Lasso, square-root Lasso, high-dimensional time series, data-driven penalty selection, post-Lasso estimation, concentration inequalities for dependent data
  • 为什么对您有用: 该论文解决高维VAR模型的惩罚参数选择这一实际问题,紧密连接您'high-dimensional statistics'兴趣子方向中的高维时间序列建模。武器库中的'high-dimensional asymptotics'可直接用于验证或扩展其理论结果(如推导其他自适应惩罚的速率),而'M-estimation theory'可用于分析损失函数的性质。作为follower-up:'中期可做'——需要先在'time series dependence structure'方面补齐工具(当前武器库对该主题的覆盖较弱)。

7. 10.1080/01621459.2025.2596250 — PALAR: Estimation of Absolute Abundance Effects in Regression with Relative Abundance Predictors

  • 作者: Yiluan Li, Qiyu Wang, Zekang Feng, Xueqin Wang, Zheng-Zheng Tang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Science and Technology of China · University of Wisconsin–Madison
  • 分类: vol 121 · issue 553 · pp 172-180
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文聚焦于高维成分数据回归问题,常见于微生物组研究:观测是相对丰度(比例),但绝对丰度不可观测。现有对数比(log-ratio)变换方法通常假设回归系数稀疏,但本文通过理论分析和实证检验表明该假设在实际中往往不成立。作者基于绝对丰度回归与对数比回归的等价关系,提出 PALAR 方法——先对预测变量做一种新的成分变换(线性变换),再应用惩罚回归(如 lasso)直接估计稀疏的绝对丰度效应,无需对系数施加稀疏性假设。该方法计算简单、效率高。在四个结直肠癌微生物组数据集上,PALAR 一致识别出疾病相关菌种,并在预测准确性和可泛化性上优于现有 log-ratio 方法。本文对您有用之处在于:其高维惩罚回归思路可与您的高维渐近理论武器库对接;其成分数据变换设计为后续理论分析(如 minimax 速率)提供了切入点。
  • 关键技术: compositional data analysis, log-ratio transformation, penalized regression (lasso), sparsity assumption diagnosis, absolute abundance estimation
  • 为什么对您有用: 本文直接连接您的高维统计兴趣(高维回归中的惩罚估计),同时作为流行病学应用(微生物组与疾病关联)的实证案例。武器库中的'高维渐近理论'和'非参统计'可用于分析 PALAR 变换的收敛性质及估计量的 minimax 最优性。跟进判断:中期可做——若要将成分数据方法推广至因果效应估计(如微生物组对结局的因果作用),需要在因果推断识别理论(moderately_familiar)上补强,目前直接的理论拓展(如无偏估计量的导出)尚缺成熟框架。

非参数 / 半参数 (nonparam_semipara, 9 篇)

1. 10.1080/01621459.2025.2526697 · arXiv — Statistical Quantile Learning for Large Additive Latent Variable Models

  • 作者: Julien Bodelet, Guillaume Blanc, Jiajun Shan, Graciela Muniz Terrera, Oliver Y. Chén
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 465-476
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文提出 Statistical Quantile Learning (SQL),一种用于大规模加性潜变量模型的新型非参数方法。设定为高维加性潜变量模型,目标是在无需指定潜变量分布的情况下估计加性结构函数。核心机制是结合惩罚(penalization)与 sieve 逼近——利用 B-spline 或类似基函数逼近每个加性成分,并通过 L2 或稀疏性惩罚控制模型复杂度。理论贡献包括证明估计量的一致性和最优收敛速度(达到非参数 minimax 率),且性能随数据维度增加而提升——这一反直觉性质源于加性结构带来的有效偏差-方差权衡。模拟显示 SQL 在重构潜变量和预测精度上优于变分自编码器(VAE)。实证应用使用 20,263 基因 × 801 样本的高维表达数据,识别的潜因子可预测五种癌症类型。您关注 nonparametric theory 和高维统计——本文的 sieve + penalization 耦合分析框架可作为工具,用于高维非参数统计推断的 reference。
  • 关键技术: penalized sieves, additive latent variable models, B-spline basis expansion, nonparametric minimax rate
  • 为什么对您有用: (1) 直接连接到 primary interest 中的 nonparametric theory 和 high-dimensional asymptotics——本文证明了 sieve 估计在高维加性模型下的最优收敛率。(2) 您的 very_familiar 武器库中的 nonparametric statistics(minimax bounds)可直接用来验证本文声称的最优率是否紧,或尝试放松其光滑性假设。(3) 中期可做——若需将 SQL 思路迁移到您 moderately_familiar 的 semiparametric theory 框架(如半参数潜变量模型的高效估计),需先补充 sieve M-estimation 的渐近正态性理论。

2. 10.1080/01621459.2025.2521898 · arXiv — Kernel Density Estimation with Polyspherical Data and its Applications

  • 作者: Eduardo García-Portugués, Andrea Meilán-Vila
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 427-439
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文在多球面 \(S^{d_1}\times\cdots\times S^{d_r}\) 这一非欧氏流形设定下,提出了核密度估计器(KDE),并系统推导了其 MSE、渐近正态性及最优带宽的收敛性质。核心方法贡献在于突破了传统的 von Mises–Fisher 核,构造了在多球面上渐近效率更优的新核函数,并给出了相应的归一化常数、矩计算与采样算法;同时推导了 plug-in 与交叉验证带宽选择器。作为 KDE 的衍生应用,作者基于 Jensen–Shannon 散度构造了非参数 \(k\)-样本检验,证明了其在非齐次密度替代假设下的一致性,数值实验显示该检验在特定场景下优于参数化替代方案。实证部分将该方法应用于婴儿海马体形态的高维多球面 \((S^2)^{168}\) s-rep 数据分析。对您可能有用:本文在非欧氏流形上的非参数估计与检验理论,为非参数统计与 minimax 理论在复杂几何约束下的拓展提供了具体案例。
  • 关键技术: kernel density estimation on manifolds, polyspherical data, von Mises–Fisher kernel, Jensen–Shannon divergence test, plug-in bandwidth selector, asymptotic normality on product spheres
  • 为什么对您有用: 本文直接连接到非参数统计理论这一 primary interest 子方向,在多球面流形这一特殊几何约束下推导了 KDE 的渐近性质与最优带宽,属于非参数密度估计在非欧氏空间的系统化拓展。从 technical_arsenal 角度,您可以用 minimax bounds for estimation problems 的武器来审视本文声称的“更高效核函数”是否达到了该流形设定下的 minimax rate,或用 higher-order U-statistics / HOIF 视角分析其 \(k\)-样本检验的局部势函数与更高阶渐近性质。Follow-up 粗判:中期可做——需先在 moderately_familiar 的 M-estimation theory 上补充流形约束下的 M-估计渐近理论,才能严格验证其最优带宽与 minimax 界的紧致性。

3. 10.1080/01621459.2025.2516211 — A Practical Interval Estimation Method for Spectral Density Function

  • 作者: Haihan Yu, Mark S. Kaiser, Daniel J. Nordman
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Rhode Island · Iowa State University
  • 分类: vol 121 · issue 553 · pp 338-350
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在平稳时间序列设定下,目标是谱密度函数的非参数区间估计,克服传统 Chi-square 近似与频域 bootstrap (FDB) 在覆盖率与带宽敏感性上的缺陷。本文提出 FDB-EL 混合方法:先构建谱密度的经验似然 (EL) 统计量,再在时间依赖下用 FDB 近似其分布,同时严格处理了应用中两类核平滑窗(A-window 与 K-window)在理论与实现上的差异。在温和条件下,FDB-EL 对线性与非线性过程均给出形式上有效的置信区间,模拟显示其覆盖率精度优于传统方法且对带宽参数更鲁棒。实证用风谱数据展示,并讨论了同时置信区间的推广。对您可能有用:本文的非参数 EL+bootstrap 结合策略,可为 semiparametric efficiency bound 下的区间估计提供新思路。
  • 关键技术: empirical likelihood, frequency domain bootstrap, spectral density estimation, kernel smoothing (A-window / K-window), nonparametric interval estimation, simultaneous confidence bands
  • 为什么对您有用: 本文连接到 nonparametric theory 子方向,核心是谱密度这一经典非参数对象的区间估计改进。用您 very_familiar 的 minimax bounds 视角,可审视本文声称的带宽鲁棒性是否在 minimax rate 层面有理论支撑,或用 moderately_familiar 的 M-estimation theory 检查 EL 统计量在依赖数据下的渐近展开是否可进一步 sharpen。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以推导 FDB-EL 在更复杂 semiparametric 模型(如部分线性谱模型)下的 higher-order 修正。

4. 10.1080/01621459.2025.2587922 — Deep Discrete Encoders: Identifiable Deep Generative Models for Rich Data with Discrete Latent Layers

  • 作者: Seunghyun Lee, Yuqi Gu
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Columbia University
  • 分类: vol 121 · issue 553 · pp 194-208
  • 相关性 6/10 · novelty: new_theory
  • 摘要: 在深度生成模型(DGM)框架下,针对具有离散潜变量的丰富数据类型,提出名为 Deep Discrete Encoders (DDE) 的可识别多层二值潜变量有向图模型,目标是解决过参数化 DGM 的非可识别性与黑箱问题。核心理论贡献是提出透明的可识别性条件,该条件蕴含潜层维度随深度递减的架构约束,从而保证参数的 consistent estimation 并赋予网络结构可解释性。计算上,设计 layerwise nonlinear spectral initialization 配合 penalized stochastic approximation EM 算法,实现对指数级潜变量组合的高效估计。模拟与三个真实数据集(文本、图像、教育测试)验证了理论与算法。对您可能有用:DDE 的可识别性条件与逐层递减约束为研究离散潜变量模型的 semiparametric efficiency bound 与 M-estimation theory 提供了新的结构化切入点。
  • 关键技术: identifiability conditions for discrete latent layers, directed graphical model with binary latents, nonlinear spectral initialization, penalized stochastic approximation EM, consistent parameter estimation under overparameterization, hierarchical topic modeling
  • 为什么对您有用: 直接连接到 semiparametric / nonparametric theory 中的模型可识别性与 M-estimation:DDE 的逐层递减可识别性条件为离散潜变量图模型提供了严格的 identification 理论,这是推导 semiparametric efficiency bound 的前提。您武器库中 moderately_familiar 的 M-estimation theory 与 identification theory in causal inference 可以直接攻入本文的参数估计一致性证明与 penalized EM 收敛率分析。立即可做:用 very_familiar 的高维渐近工具审视其 spectral initialization 在高维设定下的 phase transition,或用 M-estimation 理论推导其 penalized SA-EM 的收敛速率。

5. 10.1080/01621459.2025.2516209 — Mutually Exciting Point Processes with Latency

  • 作者: Yoann Potiron, Vladimir Volkov
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Keio University · National Research University Higher School of Economics · University of Tasmania
  • 分类: vol 121 · issue 553 · pp 326-337
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 在多维点过程设定下,本文研究事件“延迟”(latency,即从事件发生到响应生成的时间)的估计问题,estimand 定义为 Hawkes 过程核函数参数的已知函数(通常是核函数的 mode)。由于指数核下延迟不可定义,作者采用广义 gamma 混合核的参数化 Hawkes 模型,基于最大似然估计(MLE)并利用 in-fill asymptotics(时间间隔趋于零的渐近框架)推导了参数的可行中心极限定理。作为副产品,给出了延迟估计量的中心极限定理及相关假设检验,数值模拟与 NYSE/TSX 高频交易数据实证表明美加交易所延迟在 1–6 毫秒之间。对您可能有用:本文的 in-fill 渐近与参数 MLE 的 feasible CLT 推导,为高频/细粒度时间序列的 semiparametric 推断提供了新视角。
  • 关键技术: Hawkes process, in-fill asymptotics, maximum likelihood estimation, generalized gamma mixture kernel, feasible central limit theorem, latency estimation
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向中的参数 MLE 渐近理论,特别是 in-fill asymptotics 这一非标准渐近框架。您武器库中 very_familiar 的 M-estimation theory 与 high-dimensional asymptotics 可直接攻破其 feasible CLT 推导细节,验证其渐近方差估计的合理性。follow-up 粗判:立即可做——用 M-estimation 理论审视其似然函数的 curvature 与 Fisher information 在 in-fill 下的行为,并可考虑将延迟 estimand 推广至 semiparametric 核设定下的 efficiency bound。

6. 10.1080/01621459.2025.2547978 — Word-Level Maximum Mean Discrepancy Regularization for Word Embedding

  • 作者: Youqian Gao, Ben Dai
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Chinese University of Hong Kong
  • 分类: vol 121 · issue 553 · pp 782-795
  • 相关性 4/10 · novelty: new_method
  • 摘要: 该文针对词嵌入估计中的过拟合问题,提出一种基于词级分布差异的正则化方法 wMMD。其核心是利用最大均值差异 (MMD) 度量不同标签下词向量的分布差异,作为正则项增强/保留这种差异并抑制过拟合。理论分析表明 wMMD 能有效降低词嵌入的维度,提升 NLP 模型的鲁棒性与泛化能力。数值实验在 CE-T1 和 BBC News 数据集上验证了方法相比现有基线有明显的改进。该文将非参数两样本检验工具 MMD 应用于正则化,展示了核方法在复杂数据结构中的新用途。对于您而言,MMD 是您熟悉的非参数统计工具,可考虑在因果推断的平衡性检验或分布偏移检测中借鉴其思路。
  • 关键技术: Maximum Mean Discrepancy (MMD), reproducing kernel Hilbert space, kernel regularization, word embedding, distribution discrepancy
  • 为什么对您有用: 本文连接至您 very_familiar 的非参数统计工具:MMD 是一种经典的核嵌入距离,可直接用于假设检验中的分布比较。由于您对非参数统计非常熟悉,可以立即理解和评估该方法,并可考虑将其迁移至因果推断中的协变量平衡检验或敏感性分析(中期可做方向)。总体而言,这是一篇在统计顶刊上发表的将非参数方法应用于实际问题的例子,适合作为拓展应用视野的阅读材料。

7. 10.1080/01621459.2025.2529025 · arXiv — Additive Multi-Index Gaussian Process Modeling, with Application to Multi-Physics Surrogate Modeling of the Quark-Gluon Plasma

  • 作者: Kevin Li, Simon Mak, J.-F. Paquet, Steffen A. Bass
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 44-59
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究高维参数空间下昂贵仿真器的代理模型(surrogate model)问题,以夸克-胶子等离子体(QGP)物理模拟为应用背景。传统高斯过程(GP)模型在高维、小样本场景下预测精度低且不确定性大。作者提出加性多指标高斯过程(AdMIn-GP)模型,利用物理知识假设QGP由多个独立物理现象主导,每个现象仅涉及少量潜参数,从而引入低维嵌入上的加性结构。模型采用灵活的贝叶斯非参数框架,并设计基于诱导点(inducing points)的变分推断方法实现高效拟合。数值实验与QGP真实模拟数据显示,AdMIn-GP在预测精度和不确定性量化上显著优于现有代理模型。对您而言,本文是非参数统计在昂贵仿真代理建模中的一个新应用,展示了如何将领域知识(多物理结构)嵌入高斯过程先验;同时可作为进入astrostatistics领域的入门读物,其QGP问题描述和数据特征清晰,值得一读。
  • 关键技术: Gaussian process, additive multi-index model, variational inference, inducing points, Bayesian nonparametrics, multi-physics surrogate modeling
  • 为什么对您有用: 本文连接至非参数统计与高维代理建模子方向,其加性多索引结构可视为非参数回归中的降维技术。您武器库中的“非参数统计”和“高维渐近理论”可直接用于分析其估计量收敛性质,例如验证低维嵌入维数选择的合理性。但核心工具(高斯过程、变分推断)属于您的moderately_familiar以外,欲跟进需先补强GP与变分推断基础,因此属于中期可做。作为astrostatistics gateway,本文值得通读以评估QGP数据特征是否可启发现实统计问题。

8. 10.1080/01621459.2025.2520467 — On a Notion of Graph Centrality Based on L 1 Data Depth

  • 作者: Seungwoo Kang, Hee-Seok Oh
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Seoul National University
  • 分类: vol 121 · issue 553 · pp 400-412
  • 相关性 4/10 · novelty: minor
  • 摘要: 本文在无向连通图上提出基于 L1 data depth 的顶点中心性度量(L1 centrality),目标 estimand 为顶点在图结构中的相对深度/中心位置,核心假设为图连通且边/顶点可赋权。方法将多变量 L1 depth 的半参数/非参数思想迁移至图拓扑,定义顶点中心性并衍生出 target plot、L1 neighborhood 与 local L1 centrality 等多尺度分析工具。收敛与排序性质依赖 L1 depth 的仿射不变性与鲁棒性,但未给出大样本理论或 minimax rate。实证以 Marvel 电影网络与韩国国会法案共同提案网络展示工具可用性,方法学 novelty 限于将已有 depth 概念做图类比,缺乏新统计理论。对您而言,本文展示了 data depth 从欧氏空间向离散拓扑的迁移思路,但理论深度不足以支撑进一步推断。
  • 关键技术: L1 data depth, graph centrality, weighted undirected graph, multiscale analysis, local depth
  • 为什么对您有用: 本文将非参数 data depth 概念迁移至图中心性,与您 primary interest 中的非参数统计有概念连接,但未触及 semiparametric efficiency 或 minimax bound 等您关心的理论核心。用您 very_familiar 的 nonparametric statistics 与 minimax bounds 工具,可以审视该度量在随机图模型下是否有 CAN 性质或收敛率,这是本文完全空缺的理论口子。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以建立图中心性度量的随机图大样本理论(本文未提供任何此类基础)。

9. 10.1080/01621459.2025.2583392 — Learning with the Minimum Description Length Principle

  • 作者: Peter D. Grünwald
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Leiden University · Centrum Wiskunde & Informatica · University of Applied Sciences Leiden
  • 分类: vol 121 · issue 553 · pp 829-832
  • 相关性 2/10 · novelty: survey
  • 摘要: 本文是 Grünwald 对 Yamanishi 2023 年专著《Learning with the Minimum Description Length Principle》的书评,核心设定是在 MDL 原则下统一模型选择与统计学习问题,关键 regularity 假设涉及数据可压缩性与 Kolmogorov 复杂度的近似。书评梳理了专著如何将 MDL 从传统的两阶段编码(基于 normalized maximum likelihood / prequential coding)扩展至在线预测与变点检测场景,并讨论了 MDL 与 Bayesian inference、minimax regret 之间的理论等价性。核心技术工具包括 universal coding、NML 分布、redundancy bounds 及 sequential prediction 中的 regret 分析。书评指出专著在信息论与统计学习的交叉上提供了系统化视角,但对 recent advances in computationally constrained MDL(如信息-计算间隙)涉及较少。对您而言,MDL 的 minimax regret 理论与您熟悉的 minimax bounds for estimation problems 直接对应,可作为从经典 minimax 通往信息论模型选择的 gateway reading。
  • 关键技术: Minimum Description Length, normalized maximum likelihood, minimax regret, universal coding, prequential coding, Kolmogorov complexity approximation
  • 为什么对您有用: 本文连接到 nonparametric / minimax theory 子方向:MDL 的 minimax regret 理论与您 very_familiar 的 minimax bounds for estimation problems 在数学结构上高度同构,NML 分布的冗余界可直接用您现有的 minimax 工具审视。用您 very_familiar 的 minimax bounds 工具即可评估专著中声称的 regret rate 是否紧,属于立即可做的 follow-up;但若要深入 MDL 与信息-计算间隙的交叉(专著未覆盖),需先在 moderately_familiar 的 semiparametric theory 之外长肌肉(点名缺 average-case complexity / SQ lower bounds 机器)。作为 gateway reading,本文对数学统计背景的读者非常友好,值得花时间读全文以建立 MDL 与经典 minimax 的映射。

效率理论 / Debiased ML (efficiency_dml, 1 篇)

1. 10.1080/01621459.2025.2529026 · arXiv — SOFARI: High-Dimensional Manifold-Based Inference

  • 作者: Zemin Zheng, Xin Zhou, Yingying Fan, Jinchi Lv
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 513-524
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在高维多任务回归的 SOFAR(sparse orthogonal factor regression)框架下,目标是对系数矩阵稀疏 SVD 分解中的左因子向量与奇异值做精确推断,关键约束是 SVD 带来的 Stiefel 流形正交结构。本文提出 SOFARI 方法,将 Neyman 近正交推断思想与 Stiefel 流形几何结合,构造了去偏估计量:通过流形上的正交化消除正交约束带来的偏倚,使左因子向量与奇异值的估计量具有渐近均值零正态分布且方差可估。针对强正交与弱正交因子分别给出两个 SOFARI 变体,后者适用范围更广。模拟与经济预测实际数据验证了方法有效性。对您有用:本文将 debiased / orthogonal score 技术从欧氏空间推广到 Stiefel 流形,为高维矩阵因子推断提供了新路径。
  • 关键技术: Neyman near-orthogonality, Stiefel manifold geometry, sparse SVD, debiasing / bias-correction, high-dimensional multi-task regression, asymptotic normal distribution
  • 为什么对您有用: 直接连接 efficiency theory / debiased ML 子方向:将 Neyman orthogonal score 从常规高维线性模型推广到带 Stiefel 流形约束的矩阵因子设定,是 semiparametric efficiency 思想在非欧几何上的延伸。用您 very_familiar 的高维渐近理论可直接审视其正态性证明与 rate 是否紧;moderately_familiar 的 M-estimation theory 可切入其流形上估计量的渐近分析。立即可做:用 minimax bound 检验其声称的渐近方差是否达到效率下界,或用 higher-order U-statistic 视角分析其去偏余项的高阶展开。

数理统计 / 假设检验 (hypothesis_testing, 15 篇)

1. 10.1080/01621459.2025.2525585 — Testing and Support Recovery in Population-Based Image Data

  • 作者: Lianqiang Qu, Jian Huang, Liuquan Sun, Hongtu Zhu, for the Alzheimer’s Disease Neuroimaging Initiative
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Central China Normal University · Hong Kong Polytechnic University · Academy of Mathematics and Systems Science · University of North Carolina at Chapel Hill
  • 分类: vol 121 · issue 553 · pp 440-453
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维平滑图像数据设定下,本文提出一种多尺度自适应检验(multiscale adaptive test)以检测两组样本均值差异并做 support recovery。核心 estimand 为两组均值差函数的零假设及非零支撑集;关键假设是图像数据具有内在空间平滑性及高维稀疏备择。检验统计量通过自适应权重聚合邻近空间位置信息,在零假设下收敛至 Gumbel 极值分布,且所选尺度可随样本量以特定多项式速率增长。在稀疏备择下,该方法以概率趋于 1 精确识别均值差异位置(support recovery),并自然推广至多样本 ANOVA 检验。对您可能有用:该文的 Gumbel 极值极限与空间自适应聚合机制,为高维假设检验与 support recovery 提供了新的理论工具。
  • 关键技术: multiscale adaptive test, Gumbel extreme value distribution, sparse alternatives, support recovery, spatial adaptive weighting, high-dimensional ANOVA
  • 为什么对您有用: 本文直接连接到 primary interest 中的 hypothesis testing 子方向,聚焦高维空间数据的多尺度检验与 support recovery 理论。用您 very_familiar 的 minimax bounds for estimation problems 工具,可以审视该文在稀疏备择下的 power rate 是否达到 minimax 最优,这是一个具体的攻入点。立即可做:用 minimax 理论验证其声称的 power 与 support recovery 界的紧性。

2. 10.1080/01621459.2025.2537455 — A Minimax Two-Sample Test for Functional Data via Grothendieck’s Divergence

  • 作者: Yan Chen, Hongmei Lin, Xueqin Wang, Canhong Wen
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Science and Technology of China · Shanghai International Studies University · Shanghai University of International Business and Economics · Hefei University of Technology · Institute of Finance Management
  • 分类: vol 121 · issue 553 · pp 612-623
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在密集观测函数数据设定下,研究非参数两样本检验问题,目标是在无有限矩条件下检验两个随机函数分布的同质性。引入新度量 Grothendieck divergence,其满足 homogeneity-zero equivalence 性质,克服高维与观测噪声挑战;对原始数据做 pre-smoothing 后在估计曲线上构造经验检验统计量。理论方面:在无有限矩假设下建立统计量的收敛速率,导出零假设与备择假设下的渐近分布,并证明基于 permutation 的检验达到 minimax optimality。方法对测量误差分布普适,且在 ε-contamination 模型下对重尾/离群点稳健。对您有用:本文在函数数据两样本检验中给出无矩条件的 minimax optimality 证明,直接连接您对 minimax bound 与 hypothesis testing 的核心兴趣。
  • 关键技术: Grothendieck divergence, pre-smoothing for functional data, permutation test, minimax optimality, epsilon-contamination model, convergence rate without finite moments
  • 为什么对您有用: 直接连接您 primary interest 中的 hypothesis testing 与 minimax bound:本文在函数数据两样本检验中给出了无矩条件下的 minimax optimality 证明,您可用 very_familiar 的 minimax bounds for estimation problems 工具验证其声称的 minimax rate 是否紧,并审视 Grothendieck divergence 的构造是否可推广至更高阶 U-statistic 框架。Follow-up 判断:立即可做——用 minimax 理论与 nonparametric statistics 武器即可审视其 rate 的紧性与 permutation test 的 power 性质。

3. 10.1080/01621459.2025.2542552 · arXiv — Confidence Sets for Causal Orderings

  • 作者: Y. Samuel Wang, Mladen Kolar, Mathias Drton
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 690-703
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在可识别的带加性误差的结构方程模型(SEM)设定下,本文研究如何对变量间的因果排序(causal ordering)构建置信集,以量化因果发现中的不确定性。核心方法是将因果排序的检验转化为模型拟合优度检验,并基于残差 bootstrap 构建检验统计量的参考分布,从而保留未被数据拒绝的排序集合。理论上证明了该 bootstrap 置信集的渐近有效性,并展示了如何从排序置信集进一步导出祖先关系的子/超集以及包含模型不确定性的因果效应置信区间。对您可能有用:本文将因果发现的不确定性量化转化为经典的拟合优度检验与 bootstrap 问题,直接连接到因果推断的 identification 理论与假设检验方向。
  • 关键技术: residual bootstrap, goodness-of-fit test, structural equation model with additive errors, causal ordering confidence set, model uncertainty quantification
  • 为什么对您有用: 本文直接连接到因果推断的 identification 理论与数学统计的假设检验两个子方向,将因果排序的不确定性量化转化为 SEM 的拟合优度检验与 bootstrap 推断。研究者 very_familiar 的 M-estimation 理论与 moderately_familiar 的 identification theory 可以直接攻入本文的渐近有效性证明与排序检验构造;后续若想拓展到高维或半参数 SEM 设定,需先在 moderately_familiar 的 semiparametric theory 上长肌肉以处理非参数残差分布。判断:立即可做——用现有的 M-estimation 与 bootstrap 武器即可复现并尝试改进其渐近分析。

4. 10.1080/01621459.2025.2518617 · arXiv — Testing Elliptical Models in High Dimensions

  • 作者: Siyao Wang, Miles E. Lopes
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 351-359
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在高维设定下(d/n → c ∈ (0,∞))检验数据是否服从椭圆分布,现有 goodness-of-fit 检验缺乏高维理论保证。本文提出基于样本协方差矩阵线性泛函的新检验统计量,其核心构造利用了高维下该泛函的中心极限定理。主要理论结果证明:在 d 与 n 成比例增长时,该检验具有渐近有效性(asymptotic validity),且对总体协方差矩阵 Σ 不做任何假设(如 spiked / bounded spectrum 等),这显著弱化了高维检验文献中的常见条件。实证表明检验的经验水平接近名义水平且能可靠检测非椭圆分布;特化为高维正态性检验时,与现有 state-of-the-art 方法比较有优势。对您有用:该检验的渐近无 Σ-假设性质与 RMT 高维谱理论形成对比,为高维假设检验提供了新的泛函视角。
  • 关键技术: high-dimensional CLT for linear functionals of sample covariance, goodness-of-fit test for elliptical distributions, proportional asymptotics (d/n → c), assumption-free on population covariance, high-dimensional normality test
  • 为什么对您有用: 直接连接高维假设检验与 RMT 高维渐近这两个 primary interest 子方向;该检验基于样本协方差矩阵的线性泛函,您可用 very_familiar 的高维渐近 / minimax bound 工具审视其泛函选择是否最优,或用 moderately_familiar 的 M-estimation 理论探索该检验在更一般 M-泛函下的扩展。立即可做:用您熟悉的高维渐近工具验证其无 Σ-假设的 CLT 在 spiked 模型下的鲁棒性。

5. 10.1080/01621459.2026.2615850 — Variable Significance Testing for the Deep Cox Model

  • 作者: Qixian Zhong, Jonas Mueller, Jane-Ling Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Xiamen University · XLAB (Slovenia)
  • 分类: vol 121 · issue 553 · pp 237-246
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在非参数 Cox 模型设定下(link 函数由深度神经网络拟合以避免模型误设),目标是检验特定协变量与生存时间的关联性(即变量显著性检验)。核心方法采用 sample splitting 与 cross-fitting 获得神经网络 link 估计,进而构造检验统计量,规避了 black-box 估计器的 nuisance 参数对 inference 的干扰。理论方面,证明了 DNN 估计器能通过捕捉数据低维结构克服非参数回归的 curse of dimensionality 并给出收敛速率;在 null 下检验统计量渐近正态,在 alternative 下具有一致性(Type II error 控制)。对您可能有用:本文将 cross-fitting + DNN nuisance 估计嵌入假设检验框架,与您关注的 efficiency theory / debiased ML 中 orthogonal score 路线高度同构。
  • 关键技术: nonparametric Cox model, deep neural network nuisance estimation, sample splitting and cross-fitting, variable significance test, asymptotic normality under null, low-dimensional structure exploitation
  • 为什么对您有用: 本文直接连接 hypothesis testing 与 semiparametric efficiency / debiased ML 两个 primary interest 子方向:其 cross-fitting + DNN nuisance 估计的 inference 框路与 one-step / orthogonal score 方法同构,但聚焦于生存分析中的变量检验而非点估计。用您 very_familiar 的 high-dimensional asymptotics 与 minimax 理论可审视其 DNN 收敛速率是否达到该非参数 Cox 模型的 minimax lower bound,判断理论紧度。立即可做:用 very_familiar 的 minimax bound 工具验证其声称的 DNN 克服 curse of dimensionality 的速率是否紧,并可尝试用 moderately_familiar 的 HOIF / semiparametric theory 探究该检验是否触及 semiparametric efficiency bound。

6. 10.1080/01621459.2025.2529602 — A Goodness-of-Fit Assessment for General Learning Procedures in High Dimensions

  • 作者: Chenxuan He, Canyi Chen, Liping Zhu
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Renmin University of China · University of Michigan
  • 分类: vol 121 · issue 553 · pp 536-547
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对高维预测变量下黑箱学习器(如深度神经网络、随机森林等)的最优性评估问题,提出一种通用拟合优度检验方法。目标是在数据生成机制未知时,判断给定学习器是否已达到最优预测性能,即残差是否与预测变量无关。方法核心是利用数据分割(data-splitting),将训练集训练的学习器在测试集上进行评估,通过检查残差的累积协方差来构建检验统计量,从而有效应对高维预测变量带来的维数灾难。该方法适用于从经典线性回归到先进神经网络等多种学习过程,不依赖对模型形式的参数假设。大量模拟和三个真实数据分析验证了该检验的有限样本表现。对您而言,这项工作直接关联到高维统计推断和假设检验的核心兴趣;其残差累积协方差的构造思路,可被借鉴用于评估因果推断中 nuisance 函数估计的充分性,为 debiased ML 提供模型诊断工具。
  • 关键技术: goodness-of-fit test, data splitting, cumulative covariance of residuals, high-dimensional inference, model-free hypothesis testing
  • 为什么对您有用: 直接连接到假设检验和高维统计两个主要兴趣子方向。武器库中的 high-dimensional asymptotics(very_familiar)可用于分析该检验统计量的渐近 null 分布与局部 power;nonparametric statistics(very_familiar)可用来评价其模型无关的通用性。立即可做:方法框架清晰,公开代码可用,短期内可在自己的因果推断应用中复现并测试其对 nuisance 估计器的最优性诊断效果。

7. 10.1080/01621459.2025.2520459 · arXiv — Higher-Order Accurate Two-Sample Network Inference and Network Hashing

  • 作者: Meijia Shao, Dong Xia, Yuan Zhang, Qiong Wu, Shuo Chen
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 373-388
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在两样本网络比较设定下,目标是检验两个随机图(可允许不同规模与稀疏度)的边概率矩阵是否相同,无需依赖重复观测或已知节点配对。核心方法基于网络哈希将高维边概率矩阵映射为低维特征向量,再构造基于 U-statistic 的两样本检验统计量,通过 Edgeworth 展开获得有限样本 higher-order accuracy 并实现 FDR 控制。理论证明该方法在 minimax 意义下 power-optimal,算法在计算速度与内存占用上优于现有方法。对您可能有用:本文的 higher-order U-statistic 构造与 Edgeworth 展开直接触及您关注的 higher-order U 与 hypothesis testing 方向。
  • 关键技术: higher-order U-statistic, Edgeworth expansion, network hashing, minimax power optimality, FDR control for multiple testing, two-sample network comparison
  • 为什么对您有用: 本文直接连接您 primary interest 中的 higher-order U-statistics 与 hypothesis testing:它构造了网络两样本检验的 U-statistic 并用 Edgeworth 展开刻画有限样本 higher-order accuracy,这是您 very_familiar 的 higher-order U 计算与 moderately_familiar 的 higher-order U 理论的直接应用场景。用您熟悉的 treewidth / tensor contraction 视角可以分析其 U-statistic estimator 的计算复杂度口子。follow-up 判断:立即可做——您可用 very_familiar 的 einsum / tensor contraction 工具分析其哈希映射后 U-statistic 的计算代价,并尝试用 HOIF 理论审视其 higher-order accuracy 是否可进一步改进。

8. 10.1080/01621459.2025.2519814 — Adaptive Selection for False Discovery Rate Control Leveraging Symmetry

  • 作者: Kehan Wang, Yuexin Chen, Yixin Han, Wangli Xu, Linglong Kong
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Renmin University of China · University of Alberta
  • 分类: vol 121 · issue 553 · pp 360-372
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在高维多重检验设定下,目标是控制 false discovery rate (FDR) 同时提升 power,现有 knockoff 与 data splitting 方法依赖一维 mirror statistics 的对称性构造,但在确定拒绝域时忽略了非零特征的分布信息导致 power 损失。本文提出 symmetry-based adaptive selection (SAS) 框架,利用零特征对应的二维统计量的对称性估计 local FDR,从而自适应确定拒绝域。理论上证明了 SAS 在温和条件下 FDR 控制的渐近有效性,并给出 power 优势的理论保证。数值实验与两个真实数据集验证了 SAS 在维持 FDR 控制的同时显著提升 power。对您可能有用:SAS 将 mirror symmetry 与 local FDR 估计结合的思路,为高维变量选择中的 FDR 控制提供了比纯 knockoff 更精细的路径。
  • 关键技术: mirror statistics, knockoff filter, data splitting, local false discovery rate, two-dimensional symmetry, asymptotic FDR control
  • 为什么对您有用: 本文直接连接到 primary interest 中的 hypothesis testing 子方向,将 knockoff/mirror symmetry 与 local FDR 估计结合,在高维变量选择场景下提升了 power。从 technical_arsenal 看,用 very_familiar 的高维渐近理论即可验证其渐近 FDR 保证与 power 优势的紧致性。follow-up 判断:立即可做——用 minimax bound 或高维渐近工具分析 SAS 在不同信号稀疏度下的 power-rate 是否达到最优,或探索其与 semiparametric efficiency 的联系。

9. 10.1080/01621459.2025.2540083 · arXiv — A Powerful Transformation of Quantitative Responses for Biobank-Scale Association Studies

  • 作者: Yaowu Liu, Tianying Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 678-689
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对线性回归中误差非高斯时响应变量变换的问题,提出一种新的变换方法,旨在提升生物样本库规模基因关联研究中检测弱遗传信号的统计功效。方法利用误差密度信息构造局部最优势检验(LMP),从而在弱信号下获得最优检验功效。为适应超大规模数据(如UK Biobank的50万样本),作者利用遗传信号稀疏且弱的特性,设计了一致且计算高效的变换函数估计量,避免了对全数据重复拟合。数值模拟和UK Biobank的肺功能性状基因分析表明,该方法能严格控制I类错误,并显著优于现有变换方法。本文方法的核心技术包括误差密度非参估计、局部最优势检验构造以及基于弱信号的计算简化策略。对您的假设检验方向(尤其是大规模基因关联检验中的功效优化)有直接借鉴意义。
  • 关键技术: locally most powerful test, error density estimation, adaptive transformation, computationally efficient estimator, weak signal asymptotics
  • 为什么对您有用: 本文聚焦于假设检验中的变换方法,直接对应您数学统计与假设检验的兴趣,特别是大规模数据中弱信号检测的功效问题。您的武器装备库中非参数统计(误差密度估计)和高维渐近(弱信号渐近理论)可直接用于理解该方法的核心机制,并可尝试将其推广至其他检验场景(如因果推断中的弱工具变量检验)。立即可做:您无需额外学习即可利用密度估计和渐近分析复现或改进该变换策略。

10. 10.1080/01621459.2025.2525589 · arXiv — Integrated Path Stability Selection

  • 作者: Omar Melikechi, Jeffrey W. Miller
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 454-464
  • 相关性 6/10 · novelty: sharper_rate
  • 摘要: 在 stability selection 框架下,目标是控制特征选择中的期望假阳性数 E(FP);现有方法基于最大化 stability path 提供的 E(FP) 上界,但界偏松导致实际选出的特征过少。本文提出 integrated path stability selection,将 stability path 积分而非最大化,从而获得更紧的 E(FP) 上界。核心机制是利用积分路径的更精细的概率不等式,在不增加额外计算量的前提下,显著降低上界冗余。理论结果证明新界严格优于原界,实证(模拟与两项癌症研究数据)显示在相同 E(FP) 目标下能获得更多 true positives。对您可能有用:该文对选择误差率的更紧概率界分析,与高维假设检验及 minimax 理论中的 error control 思路直接相通。
  • 关键技术: stability selection, false positive control, integrated stability path, probability upper bounds, feature selection
  • 为什么对您有用: 本文连接到高维假设检验中的 feature selection 与 error control 子方向;您武器库中 minimax bounds for estimation problems 的紧界分析经验可直接用来审视它声称的'更紧上界'是否在 minimax 意义上已达最优,或是否仍有改进空间。立即可做:用 very_familiar 的 minimax bound 工具验证其 E(FP) 界的紧性。

11. 10.1080/01621459.2025.2544397 — On the Poor Statistical Properties of the P -Curve Meta-Analytic Procedure

  • 作者: Richard D. Morey, Clintin P. Davis-Stober
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Cardiff University · University of Missouri · Hologic (Germany)
  • 分类: vol 121 · issue 553 · pp 741-753
  • 相关性 5/10 · novelty: new_theory
  • 摘要: 本文系统审查了广泛使用的 P-curve 元分析检验程序(基于显著研究的 p 值非参数组合,如 Marden 方法),其声称可检测“证据价值”、“缺乏证据价值”及 p 值的“左偏”。作者证明这些检验不具备其所宣称的性质,且违反了检验的基本 desiderata:可容许性(admissibility)与单调性(monotonicity)——即当证据更强时,检验的拒绝概率反而可能下降。核心技术工具是经典统计决策理论中的可容许性分析与单调性反例构造,揭示了基于截断 p 值组合的检验在原假设与备择假设下的概率分布畸变。结论是 P-curve 检验存在根本性缺陷,应停止使用。对您可能有用:该文将元分析中的流行工具拉回数学统计的严格框架(可容许性、单调性),与您在 hypothesis testing 与数学统计方面的兴趣直接相关。
  • 关键技术: p-value combination tests, statistical admissibility, test monotonicity, nonparametric meta-analysis, truncated p-value distribution
  • 为什么对您有用: 本文直接触及 hypothesis testing 子方向,用数学统计中最核心的可容许性与单调性概念击碎了一个流行但 flawed 的元分析检验,展示了经典决策理论在当代应用中的审查力。您可以用 very_familiar 中的 nonparametric statistics 与 minimax bounds 视角,进一步分析此类截断 p 值组合检验的 power 函数与 minimax 性质,甚至构造满足单调性的替代检验。follow-up 判断:立即可做。

12. 10.1080/01621459.2025.2520460 — Checking the Cox Proportional Hazards Model with Interval-Censored Data

  • 作者: Yangjianchen Xu, Donglin Zeng, D. Y. Lin
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Waterloo · University of Michigan · University of North Carolina at Chapel Hill
  • 分类: vol 121 · issue 553 · pp 389-399
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在区间删失(interval-censored)生存数据设定下,本文研究 Cox 比例风险模型的模型假设检验问题,目标是对协变量函数形式、指数链接函数及比例风险假设进行 goodness-of-fit 检验。核心方法是通过构造特定的随机过程来捕捉模型不同维度的偏离,并利用经验过程理论证明这些过程在正确模型下弱收敛到零均值 Gaussian process。由于极限分布依赖未知参数,作者采用 Monte Carlo 模拟近似极限分布,进而构建图形与数值化的诊断检验程序。模拟与 ARIC 流行病学队列数据应用验证了方法实用性。对您可能有用:本文将经验过程理论应用于区间删失下的模型检验,其 Gaussian process 极限与 Monte Carlo 模拟策略可借鉴到您关注的假设检验与流行病学数据分析方向。
  • 关键技术: empirical process theory, weak convergence to Gaussian process, interval-censored survival data, Cox proportional hazards model, Monte Carlo approximation for null distribution, goodness-of-fit test
  • 为什么对您有用: (1) 连接到 hypothesis testing 子方向(经验过程弱收敛构造检验统计量)以及 epidemiology 二级兴趣(ARIC 队列区间删失数据应用);(2) 您 technical_arsenal 中的 very_familiar 'nonparametric statistics' 与 'software development' 可直接攻这篇 paper 的 Monte Carlo 模拟实现与经验过程收敛率分析口子;(3) 立即可做:用 very_familiar 的非参/经验过程工具即可复现并拓展其检验统计量到其他半参数模型。

13. 10.1080/01621459.2026.2618290 — Towards Better Statistical Understanding of Watermarking LLMs

  • 作者: Zhongze Cai, Shang Liu, Hanzhao Wang, Huaiyang Zhong, Xiaocheng Li
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Imperial College London · The University of Sydney · Virginia Tech
  • 分类: vol 121 · issue 553 · pp 247-258
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在 LLM 生成文本的 red-green list watermark 框架下,研究模型失真与检测能力之间的 tradeoff,将其建模为以 KL 散度约束失真、最大化检测功率的约束优化问题。核心发现是该优化问题的最优解具有解析性质,据此设计了 online dual gradient ascent watermarking 算法,并证明其在失真与检测之间达到渐近 Pareto 最优——显式保证平均 green list 概率提升,从而增强检测能力。文章系统讨论了失真度量的选择,论证了 KL 散度的合理性并指出既有“distortion-free”标准与 perplexity 指标的缺陷。对您有用:该文将水印检测严格转化为 hypothesis testing 与 constrained optimization 问题,其 dual ascent 与渐近 Pareto 最优性分析可直接对接您在 mathematical statistics 与 efficiency theory 中的工具。
  • 关键技术: constrained optimization formulation, online dual gradient ascent, asymptotic Pareto optimality, KL divergence distortion metric, red-green list watermarking, hypothesis testing for detection
  • 为什么对您有用: 本文将水印检测严格转化为 hypothesis testing 与 constrained optimization 问题,直接对接您 primary interest 中的 mathematical statistics (hypothesis testing) 与 efficiency theory(Pareto 最优性即效率边界)。您 very_familiar 的 minimax bounds for estimation 与 moderately_familiar 的 M-estimation theory 可直接攻入其 constrained optimization 与渐近最优性证明的口子,验证其声称的 Pareto optimality 是否紧、KL 约束下是否存在更优检测策略。Follow-up 判断:立即可做——用 minimax / efficiency 视角重新审视其 tradeoff 界,或用 M-estimation 理论分析 dual ascent 的有限样本行为。

14. 10.1080/01621459.2025.2544377 · arXiv — Inference for Dispersion and Curvature of Random Objects

  • 作者: Wookyeong Song, Hans-Georg Müller
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 729-740
  • 相关性 4/10 · novelty: new_method
  • 摘要: 该文研究测地度量空间中随机对象的统计离散度与曲率推断问题。针对Fréchet方差和度量方差这两种离散度度量,推导了它们的联合中心极限定理(CLT),揭示了Alexandrov曲率决定了二者之间的渐近关系。基于此关系,构建了一个新颖的曲率检验,用于推断随机对象所在潜在内蕴空间的曲率。检验的渐近性质得到理论刻画,并在分布数据和点云数据等不同类型数据上验证了有限样本表现。方法通过步态同步数据(对称正定矩阵)和球面能量组分数据进行了实证演示。该工作将非参数统计和假设检验推广到一般度量空间,对您关注的数学统计与假设检验方向具有直接启发。
  • 关键技术: Fréchet variance, metric variance, Alexandrov curvature, central limit theorem in metric spaces, geodesic metric space, nonparametric test
  • 为什么对您有用: 该文直接对应您primary interest中的“hypothesis testing”和“nonparametric statistics”,是对非欧几里得空间中离散度和曲率进行推断的一般性方法。您的very_familiar武器库中的“nonparametric statistics”足以理解其核心技术(CLT在度量空间的推导、检验统计量的构造),因此对后续推广或应用可以立即可做。

15. 10.1080/01621459.2025.2606127 — Possibilistic Inferential Models: A Review

  • 作者: Ryan Martin
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: North Carolina State University
  • 分类: vol 121 · issue 553 · pp 807-826
  • 相关性 2/10 · novelty: survey
  • 摘要: 本文综述 possibilistic inferential models (IM) 的最新进展,目标是在非概率框架下对未知参数进行 data-driven 的不确定性量化与推断。核心设定放弃概率测度而改用 possibility theory,构造一种 possibilistic plausibility function,从而在无需 fiducial 的概率约束下获得可证明的频率可靠性。关键机制包括:通过预测随机化构造 plausibility measure、利用 imprecise probability 的 possibility/necessity 对偶性实现条件化推断,以及开发相应的计算工具。作者进一步推广基本 possibilistic IM,揭示其与 bootstrap 及 conformal prediction 的非预期联系。主要理论结果是一套兼具频率可靠性(validity)与类贝叶斯条件化推理的推断框架,对您关注 hypothesis testing 与非参数推断的交叉视角可能有用。
  • 关键技术: possibility theory, imprecise probability, inferential models, plausibility function, conformal prediction, fiducial inference
  • 为什么对您有用: 直接连接 hypothesis testing 子方向:possibilistic IM 提供了一种非概率的 validity 保证框架,可作为传统频率检验与贝叶斯推断之外的第三种范式入门。用您 very_familiar 的 minimax bounds 视角可以审视其声称的 reliability 是否与经典频率覆盖有可比较的界;用 moderately_familiar 的 M-estimation theory 可尝试将 plausibility function 与 M-estimator 的 objective function 建立联系。属于 survey 且 novelty_flag 为 survey,但作为 outsider 了解 imprecise probability 与 conformal prediction 交叉的 gateway reading,中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉以评估其条件化推断在半参数模型中的适用性。

统计计算 / 算法 (stat_computing, 7 篇)

1. 10.1080/01621459.2025.2537461 — Provably Efficient Posterior Sampling for Sparse Linear Regression via Measure Decomposition

  • 作者: Andrea Montanari, Yuchen Wu
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Stanford University · University of Pennsylvania
  • 分类: vol 121 · issue 553 · pp 636-654
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在稀疏线性回归模型 y=Xθ+ε 下,目标是从 d 维系数 θ 的多模态后验分布中进行采样。对稀疏贝叶斯先验,该后验通常多模态且难以采样;本文提出将后验分布分解为 log-concave 分量与简单乘积测度的混合,从而将多模态采样降为可处理的 log-concave 采样。在随机设计矩阵与温和先验条件下,当样本量与参数维度的比值 n/d 超过某常数阈值时,证明该测度分解普遍可行,由此获得多项式时间可证高效的采样算法,填补了此前该 regime 下缺乏 provably efficient 采样的空白。数值实验表明算法实用且统计性质优于现有方法。对您有用:本文在 n/d>常数 regime 下给出从多模态后验采样的多项式时间算法,直接触及 stat-computing tradeoff 中 polynomial-time achievability 的核心问题。
  • 关键技术: measure decomposition, log-concave sampling, sparse Bayesian posterior, polynomial-time sampling algorithm, random design matrix, multimodal posterior reduction
  • 为什么对您有用: 本文直接触及 stat-computing tradeoff 中 polynomial-time achievability 的核心:在 n/d 超过常数阈值的 regime 下,将多模态后验采样降为 log-concave 采样从而突破多项式时间壁垒。您可以用 minimax bounds for estimation problems 的经验审视其声称的常数阈值是否紧,或用 computation of higher-order U-statistics (treewidth / tensor contraction / einsum) 的图论/组合视角分析其测度分解的算法复杂度结构。立即可做:用 very_familiar 的高维渐近与 minimax 工具验证其 n/d 阈值与统计估计阈值的 gap;若要深入 log-concave 采样的计算复杂度证明,需在 moderately_familiar 的 M-estimation theory 上补充 log-concave measure 的算法理论。

2. 10.1080/01621459.2025.2546586 · arXiv — Linear-Cost Vecchia Approximation of Multivariate Normal Probabilities

  • 作者: Jian Cao, Matthias Katzfuss
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 768-781
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对高维多元正态 (MVN) 概率的数值计算问题,提出了一类线性时间复杂度的算法。现有最优方法是最小化指数倾斜 (MET) 法,但其每一步的复杂度为 O(n³)(n 为维数),限制了其在 n>1000 时的适用性。作者的核心思路是利用 Vecchia 近似的稀疏逆 Cholesky 因子对 MET 的积分核进行重新参数化,使得近似误差对蒙特卡洛误差而言通常可忽略。基于此参数化,推导出估计 MVN 概率(线性时间)和从截断 MVN 分布采样(线性时间且易并行)的算法,收敛速度或接受率与原始 MET 相同。在合成数据和真实地下水污染数据集(含 20,000+ 截断观测)上的实验表明,该方法可处理部分截断高斯过程模型的大规模推断问题。这是一篇以算法设计和计算复杂度分析为主的纯计算方法论文,对统计计算和软件实现方向有直接参考价值。
  • 关键技术: Vecchia approximation, sparse inverse Cholesky factor, minimax exponential tilting, linear-time algorithm, truncated MVN sampling, Gaussian-process models
  • 为什么对您有用: 直接命中您在“统计计算”方向的方法学兴趣:将本来 O(n³) 的数值积分问题降至 O(n),且算法本身易并行。您 very_familiar 工具中的“软件开发”可立即用来复现并扩展这套 Vecchia+MET 的接口(例如嵌入您自己的因果推断或空间统计管线)。中期可做:这里截断 MVN 的采样器在部分可观测/缺失数据设定中很常见,您 moderately_familiar 的“identification theory in causal inference”可以把这套高效采样当作 missing-data 敏感性分析中一个关键计算子模块。值得读全文验证其收敛性证明是否对 GP 核的 regularity 有隐藏假设。

3. 10.1080/01621459.2025.2546577 — Data Thinning for Poisson Factor Models and its Applications

  • 作者: Zhijing Wang, Peirong Xu, Hongyu Zhao, Tao Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Shanghai Jiao Tong University · Yale University
  • 分类: vol 121 · issue 553 · pp 754-767
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在 Poisson factor model 设定下,目标是当样本量 n 与变量数 p 同时发散时选择因子数 K。核心机制利用 Poisson 分布的 thinning 性质,将计数矩阵拆分为训练集与验证集,且拆分后两子集仍保持原分布与因子结构。验证误差可分解为训练误差加 covariance penalty,由此构造数据驱动准则 ICDT。理论证明在 n, p → ∞ 时 ICDT 的选择一致性,并将方法扩展到含响应变量的回归降维场景。模拟与两个真实数据(大规模计数数据)验证了 ICDT 优于现有 ad hoc 准则。对您可能有用:Poisson thinning 是一种不改变分布结构的样本拆分技术,可类比 cross-fitting 思路,为高维计数数据的 semiparametric 推断提供独立子集生成工具。
  • 关键技术: Poisson thinning property, covariance penalty decomposition, factor number selection consistency, Poisson factor model, information criterion
  • 为什么对您有用: 本文连接到 statistical computing 与 semiparametric theory 子方向:Poisson thinning 提供了一种保持分布结构的样本拆分机制,与您熟悉的 cross-fitting / DML 中独立子集划分思路直接对应,可用于高维计数数据的 debiased 推断。用您 very_familiar 的高维渐近理论可直接审视其 n, p 双发散下 selection consistency 的 rate 是否紧。follow-up 判断:立即可做——用 very_familiar 的高维渐近与 minimax bound 工具验证其 consistency 条件是否可进一步放松。

4. 10.1080/01621459.2025.2510000 · arXiv — LAMBDA: A Large Model Based Data Agent

  • 作者: Maojun Sun, Ruijian Han, Binyan Jiang, Houduo Qi, Defeng Sun, Yancheng Yuan et al.
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 1-13
  • 相关性 6/10 · novelty: application
  • 摘要: 本文提出 LAMBDA(Large Model Based Data Agent),一个基于大语言模型的多智能体数据分析系统,旨在通过自然语言实现代码化的无代码数据分析。系统核心设计了两类智能体角色:程序员(programmer)负责根据用户指令和领域知识生成代码,检查员(inspector)负责在必要时调试代码。LAMBDA 提供了用户干预界面以处理异常情况,并通过知识集成机制(Knowledge Integration Mechanism)灵活接入外部模型和算法,满足定制化分析需求。在多个真实数据分析任务中,LAMBDA 展现了良好性能,有望通过人机协作改变传统数据分析范式。该系统的开源代码和案例视频已公开提供。
  • 关键技术: large language models, multi-agent system, code generation, knowledge integration mechanism, user interface
  • 为什么对您有用: 本文属于统计计算与软件方法范畴,直接对应您的主要兴趣中的 statistical computing(numerical methods, algorithm, software)。您对软件开发的熟悉度(very_familiar)使得您能快速理解系统架构并可能将其扩展至自定义分析流程。不过本文的核心是大语言模型的应用,而非传统数值方法或矩阵/张量计算,因此作为统计计算方向的入门级应用论文值得一读,但并非您核心理论方向的直接推进。

5. 10.1080/01621459.2025.2529027 — Fast Approximation of Shapley Values Through Fractional Factorial Designs

  • 作者: Zheng Zhou, Robert Mee, Herbert Hamers, Wei Zheng
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Beijing University of Technology · Knoxville College · University of Tennessee at Knoxville · TIAS School for Business and Society · Tilburg University
  • 分类: vol 121 · issue 553 · pp 525-535
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在 n 个玩家的合作博弈设定下,目标是高效计算或近似 Shapley 值(其精确计算需评估 2^n 个 coalition 值,属 NP-hard)。本文将 coalition 中每个玩家的参与状态映射为二水平因子(two-level factor),将 coalition 值视为因子水平组合下的期望响应,从而建立合作博弈与二水平因子实验的等价联系。基于此,作者推导出 Shapley 值的因子效应(factorial-effect)表示,并提出一种基于新构造的分数因子设计(fractional factorial design)的快速近似方法。在特定条件下,该方法仅需评估少于 4n^2-4 个 coalition 即可获得精确 Shapley 值;一般情况下,增加 O(n^2) 的 coalition 评估即可实现高精度近似。模拟与实例表明,在同等计算成本下,该方法的近似精度显著优于现有流行算法。
  • 关键技术: Shapley value computation, two-level factorial design, fractional factorial design, factorial-effect representation, O(n^2) coalition approximation
  • 为什么对您有用: 本文属于 stat_computing 方向,核心是将组合博弈的 NP-hard 计算转化为实验设计中的因子效应估计,计算复杂度从 2^n 降至 O(n^2)。对您而言,Shapley 值的高维计算瓶颈与您熟悉的 higher-order U-statistics 的 treewidth / tensor contraction 复杂度分析有结构相似性(均涉及子集/组合的求和与计算代价优化)。您武器库中 very_familiar 的 computation of higher-order U-statistics (einsum / tensor contraction) 视角可直接用来审视此 factorial-effect representation 的组合求和结构是否可进一步用 tensor contraction 优化。follow-up 判断:立即可做——可用 einsum / treewidth 框架重写其 factorial-effect 求和,探索计算代价的下界与更优 contraction order。

6. 10.1080/01621459.2025.2582601 — Efficient Optimization of Plasma Radiation Detector Configurations using Imperfect Inference Models

  • 作者: Difan Song, William E. Lewis, Patrick F. Knapp, C. F. Jeff Wu, V. Roshan Joseph
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Georgia Institute of Technology · Sandia National Laboratories · Pacific Environment · Fusion (United States) · Fusion Academy
  • 分类: vol 121 · issue 553 · pp 163-171
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究在磁惯性聚变实验中优化等离子体X射线辐射探测器配置的问题。由于实验极端且具有破坏性,无法直接测量等离子体温度等属性,需借助多个探测器捕获X射线进行推断。作者使用高保真模型(HFM)模拟输出,低保真模型(LFM)进行推断,并基于A-最优性和L-最优性准则开发了新方法,明确考虑了HFM与LFM之间的差异。该方法避免了现有采样优化方法的高计算成本,在保持相似或更好配置质量的同时,计算时间减少50倍。所提出的最优性准则兼顾统计效率和计算可行性,特别适用于高成本模拟场景。本文展示了统计设计思想在物理实验优化中的实用价值,为在其他领域应用类似方法提供了参考。
  • 关键技术: A-optimality, L-optimality, high-fidelity model, low-fidelity model, model discrepancy, experimental design optimization
  • 为什么对您有用: 本文连接具体interest子方向——统计计算中的实验设计优化与计算机模型校准;技术武器库中的“software development”可直接用于实现该A/L最优性优化算法,而“nonparametric statistics”可帮助分析HFM与LFM差异的建模。粗判为中期可做,因为需先学习计算机模型校准和最优实验设计的相关文献(当前武器的very_familiar中未覆盖)。

7. 10.1080/01621459.2025.2550667 — Balanced Sampling With Inequalities: Application to Category Bounding, Matrix Rounding, and Spread Sampling

  • 作者: Arnaud Tripet, Yves Tillé
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Neuchâtel
  • 分类: vol 121 · issue 553 · pp 796-806
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文在平衡抽样框架下提出了一种带有线性不等式约束的新算法,扩展了经典的立方体方法。目标是使Horvitz-Thompson估计量落在预设的固定边界内,保证估计量的有界性。核心机制是通过线性不等式约束调整样本选择,使估计量等于或接近总体总值。该方法应用广泛,包括:对小区域强制最小样本量、约束重叠类别样本量、控制矩阵舍入、不等概率系统抽样、以及非整数包含概率的双重分层抽样,还可用于空间扩散抽样。模拟结果显示其性能与其他扩散抽样方法相当。对您可能有用:该算法为因果推断中的设计平衡提供了一种新工具(如匹配中约束最小样本量),您的'估计理论在因果推断中的运用'可快速评估其适用性,且'软件开发'技能可直接实现原型。
  • 关键技术: cube method, balanced sampling, linear inequality constraints, Horvitz-Thompson estimator, systematic sampling, spread sampling
  • 为什么对您有用: 本文提出的平衡抽样算法可直接用于因果推断中的协变量平衡设计,尤其当需要强制最小样本量或约束重叠类别时(连接子方向:估计理论在因果推断中的运用)。您的'估计理论在因果推断中的运用'(very_familiar)可以评估该算法在匹配或加权设计中的适用性;'软件开发'(very_familiar)可以快速将算法实现为R/Python工具。立即可做:将算法封装成软件包用于观测研究的设计阶段,无需额外理论准备。

天体统计 (astrostats, 1 篇)

1. 10.1080/01621459.2025.2566422 — Spatial Variation on Multiple Scales in Line Transect Data; the Case of Antarctic Fin Whales

  • 作者: Olav Nikolai Breivik, Hans J. Skaug, Martin Jullum, Martin Biuw
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Norwegian Computing Center · Norwegian Institute of Marine Research · University of Bergen · The FRAM Centre
  • 分类: vol 121 · issue 553 · pp 113-125
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文针对线段抽样(line transect)数据中的动物密度估计问题,提出了一种多尺度空间变异模型:长尺度趋势用潜在高斯随机场刻画,短尺度突变用沿轨迹的两状态连续时间马尔可夫过程建模;对群居物种还单独建立了群大小的空间模型。核心估计框架基于 R 包 TMB(Template Model Builder)实现,利用 Laplace 近似对随机效应做积分,保证了计算可行性。模拟重拟合验证了模型对真实丰度的有效捕获,实证应用于南极 Scotia 海的鳍鲸丰度估计。对您而言,这是一篇生态统计的入门级应用文章,展示了空间隐变量模型与连续时间 Markov 过程在野外抽样数据中的结合。
  • 关键技术: line transect sampling, latent Gaussian random field, continuous-time Markov chain, Laplace approximation (TMB), spatial abundance estimation
  • 为什么对您有用: 本文属于生态统计/astrostats 类 gateway reading:数据结构(线段抽样、空间异质性、群大小聚类)和模型(高斯随机场 + CTMC)对统计工作者有清晰吸引力,且 TMB 的 Laplace 近似计算框架与您 stat_computing 兴趣直接相关。武器库完全够支撑进入此方向(very_familiar 的软件开发与高维渐近理论足以理解 TMB 框架),值得花时间读全文以了解空间隐变量模型的工程实现细节。

流行病学 (epidemiology, 3 篇)

1. 10.1080/01621459.2025.2555055 · arXiv — SMART-MC: Characterizing the Dynamics of Multiple Sclerosis Therapy Transitions Using a Covariate-Based Markov Model

  • 作者: Beomchang Kim, Zongqi Xia, Priyam Das
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 85-99
  • 相关性 7/10 · novelty: application
  • 摘要: 该文提出 SMART-MC 方法,在多发性硬化症(MS)的真实临床数据中,用基于协变量的马尔可夫链模型刻画患者在不同疾病修正疗法(DMT)间的转换概率。模型将转移概率参数化为协变量的函数,并通过固定 L2 范数约束每个转移特定系数向量来解决可识别性问题。对于稀疏观察到的转移,模型自动将其估计为常数;对未观察到的转移强制设为零概率,从而控制过拟合并保持可解释性。为优化具有多个局部极值的似然函数,作者开发了可扩展的并行全局优化算法,并给出了基准测试与理论性质。分析揭示了按年龄、种族及临床特征分层的患者子群在 DMT 转移模式上的显著异质性。本文虽不涉及因果识别或高维推断,但其处理稀疏转移矩阵的约束策略和针对多峰似然的优化思路,对您关注的统计计算(并行优化)方向有参考价值,也可作为流行病学应用论文的入门阅读材料。
  • 关键技术: Markov chain with covariate-dependent transitions, L2-norm identifiability constraint, sparse transition matrix handling, parallelized global optimization, multi-modal likelihood optimization
  • 为什么对您有用: 本文属于流行病学(您的 secondary interest)中的真实数据应用,处理的是治疗转换这一常见的临床问题。分析模式(基于协变量的多状态转移概率建模)在因果推断的 longitudinal 设定中也有变现空间(如动态治疗的 Monte Carlo 估计),不过本文的识别策略较弱(固定 L2 约束而非 IV 或 negative control),且不涉及因果估计量。从技术对接看,可立即可做:用您 very_familiar 的软件开发和因果推断估计工具就可以复现其优化流程并移植到 IV/mediation 的过渡建模中——本文的并行全局优化 routine 直接可用,无需额外工具。论文本身作为流行病学应用的可读性较好,值得花时间读全文吸收其数据处理与分析流程。

2. 10.1080/01621459.2025.2547968 — Understanding Inequalities in Cancer Survival Using Bayesian Machine Learning

  • 作者: Piyali Basak, Camille Maringe, F. Javier Rubio, Antonio R. Linero
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Merck & Co., Inc., Rahway, NJ, USA (United States) · London School of Hygiene & Tropical Medicine · Royal Statistical Society · Statistical Service · Statistical Research (United States) · University College London · The University of Texas at Austin
  • 分类: vol 121 · issue 553 · pp 72-84
  • 相关性 5/10 · novelty: application
  • 摘要: 在癌症生存差异研究中,本文利用相对生存框架(excess hazard)分析合并症对结肠癌患者净生存的影响,目标是在英格兰人群数据中识别高超额风险的脆弱亚群。作者提出了相对生存框架下的比例风险BART模型(Bayesian additive regression trees),并扩展至非比例风险情形。BART作为一种灵活的贝叶斯非参数机器学习方法,可自动捕捉协变量与风险函数之间的非线性关系和交互效应。模型后验总结和变量重要度量化提供了工具用于解释驱动生存不平等的因素。应用在英格兰结肠癌数据中,结合先进的数据链接方法,揭示了合并症与社会人口学因素如何加剧生存不平等。对您可能有用:该文展示了相对生存框架下非参数回归的应用,尽管方法为贝叶斯ML而非因果推断,但其对变量重要度和亚组识别的思路可启发流行病学队列分析中的敏感性分析或模型解释。
  • 关键技术: Bayesian additive regression trees (BART), relative survival framework, excess hazard model, proportional hazards assumption, variable importance, data linkage
  • 为什么对您有用: 该文属于流行病学应用,直接对应您的secondary interest中的流行病学(数据集、应用)方向。武器库中的非参数统计(very_familiar)可作为理解BART模型论证和估计性质的预备知识,但BART的贝叶斯计算不在当前武器库中。暂不可做:核心机器(贝叶斯非参数回归、MCMC、BART的后验计算)不在武器库中,若欲跟进需先熟悉BART文献;但论文的数据分析流程和变量重要度方法仍值得读全文作为流行病学应用范例。

3. 10.1080/01621459.2025.2572778 · arXiv — Elastic Shape Analysis of Movement Data

  • 作者: J. E. Borgert, Jan Hannig, J. Derek Tucker, Liubov Arbeeva, Ashley N. Buck, Yvonne M. Golightly et al.
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 126-136
  • 相关性 4/10 · novelty: application
  • 摘要: 本文研究骨关节炎(OA)步态生物力学曲线数据的统计分析问题,设定为 IDEA 研究队列中膝关节受力随时间变化的连续曲线与 OA 严重程度及临床特征的关联。核心方法采用弹性形状分析(Elastic Shape Analysis),对完整运动曲线进行基于平方根速度函数(SRVF)的弹性对齐与形状表示,从而捕捉曲线的相位与幅度变异,而非传统生物力学研究中仅提取少量离散 landmark 汇总。通过嵌套模型比较,定量证明完整曲线形状表示比离散汇总变量与 OA 严重程度及临床特征具有更强的统计关联。这是首批定量评估完整运动曲线相对于离散汇总增量信息价值的工作。对您可能有用:本文展示了函数数据分析在流行病学队列中的实际应用模式,可作为理解连续轨迹数据如何超越离散汇总的入门案例。
  • 关键技术: Elastic Shape Analysis, Square Root Velocity Function (SRVF), elastic curve alignment, nested model comparison, functional data analysis, biomechanical curve representation
  • 为什么对您有用: 本文属于流行病学应用,展示了连续曲线数据(步态生物力学)如何通过弹性形状分析超越传统离散汇总,与您在因果推断中处理纵向/连续轨迹数据的兴趣有场景连接。您的武器库中 nonparametric statistics 和 minimax bounds 可用于审视本文 SRVF 对齐后的估计效率是否达到 semiparametric efficiency bound,但本文本身是应用驱动,方法学 novelty 有限。作为 gateway-reading,本文对函数数据分析在流行病学中的应用是好入门读物,武器库足够支撑理解其统计模型,但若要深入弹性形状分析的理论(如 Riemannian 几何框架下的曲率与测地线),需先在 moderately_familiar 的 M-estimation theory 上补充微分几何视角。值得花时间读摘要和模型比较部分,全文理论深度有限。

其他 (other, 8 篇)

1. 10.1080/01621459.2025.2592926 — Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures

  • 作者: Zeya Wang, Chenglong Ye
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Kentucky
  • 分类: vol 121 · issue 553 · pp 223-236
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究深度聚类(deep clustering)中的内部聚类验证指标(internal clustering validation measures)的评估问题。深度聚类利用深度神经网络在低维嵌入空间中聚类,传统验证指标在高维原始数据上遭受维度灾难,且在不同嵌入空间之间无法可靠比较。作者提出一个系统性评估框架:首先从理论上解释传统指标失效的原因,然后通过检测不同嵌入空间中分组结果排序的一致性来识别可靠的嵌入空间,最后加权各嵌入空间上的指标值得到稳定评分。实验表明新框架与外部指标更一致,减少了深度聚类评估中不当使用内部指标的误导。尽管该工作与因果推断或高维统计理论的直接关联较弱,但其对高维数据评价问题的讨论可能为高维统计中的度量设计提供启示。本文属于方法论文献,提出了新的评估框架。
  • 关键技术: Internal clustering validation, Deep clustering, Embedding space ranking agreement, Weighted scoring scheme, Curse of dimensionality analysis
  • 为什么对您有用: 该论文主题为深度聚类评价,不属于研究者的核心兴趣方向(因果推断、高维统计等)。其高维嵌入空间的分析与研究者对高维统计的熟悉度有一定交叉,但核心工具(聚类验证、深度学习嵌入)不在武器库中。暂不可做:核心机器(深度聚类评估理论和实验设计)不在技术武库中。

2. 10.1080/01621459.2025.2576180 — Online Auction Design Using Distribution-Free Uncertainty Quantification with Applications to E-Commerce

  • 作者: Jiale Han, Xiaowu Dai
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of California System · Data Management (Italy)
  • 分类: vol 121 · issue 553 · pp 137-148
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文研究在线拍卖机制设计问题,目标是在 bidder 价值分布未知且未来参与者数量不确定的设定下,最大化期望收入并保持 incentive compatibility。核心提出 Conformal Online Auction Design (COAD) 机制,利用 conformal prediction 的分布无关不确定性量化技术,结合随机森林/核方法/DNN 等机器学习方法预测 bidder 价值,并基于预测的下置信界设定 bidder-specific reserve price,而非传统单一 reserve price。理论贡献在于证明了 COAD 在分布无关设定下的收入保证性质(finite-sample coverage),实证部分通过 eBay 真实拍卖数据与模拟验证了方法有效性。对您而言,本文的 conformal prediction + ML 组合在因果推断的 sensitivity analysis 或区间估计中可能有迁移价值,但拍卖设计本身不在您的核心兴趣内。
  • 关键技术: conformal prediction, incentive-compatible mechanism design, bidder-specific reserve price, distribution-free uncertainty quantification, revenue guarantee
  • 为什么对您有用: 本文主题(拍卖机制设计)不在您的核心兴趣内,但 conformal prediction 的分布无关有限样本覆盖性质可迁移至因果推断的 sensitivity analysis 与区间估计。您可用 very_familiar 中的 minimax bounds 与 high-dimensional asymptotics 视角审视其声称的 revenue guarantee 是否在更复杂设定下仍成立。Follow-up 判断:中期可做——若想将 conformal prediction 引入因果推断 sensitivity,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以建立 conformal interval 与 semiparametric efficiency bound 的理论桥梁。

3. 10.1080/01621459.2025.2579953 — A Factor-Copula Latent-Vine Time Series Model for Extreme Flood Insurance Losses

  • 作者: Xiaoting Li, Harry Joe, Christian Genest
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of British Columbia · McGill University
  • 分类: vol 121 · issue 553 · pp 149-162
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在高维稀疏极端观测设定下,本文提出 factor-vine copula 模型以刻画多变量极端保险损失的时空依赖结构。该模型结合 vine copula 的灵活尾部依赖建模能力与 factor copula 的稀疏潜在结构可解释性,构成一类特殊的 graphical vine 依赖模型。方法层面,作者将单变量极值边际分布与 tail-weighted dependence measures 嵌入 factor-vine 框架,以克服传统参数 copula 在极值推断与尾部外推中的局限。实证部分使用美国国家洪水保险计划(NFIP)数据,展示模型在评估极端天气事件风险中的效用。本文核心贡献在于为带聚类结构的高维时空极值依赖提供可解释且灵活的参数建模框架,对您在统计计算中处理高维 copula 结构优化与 tensor contraction 复杂度分析可能提供新的 vine graph 拓扑视角。
  • 关键技术: factor-vine copula, tail-weighted dependence measures, univariate extreme-value margins, graphical vine dependence model, latent factor structure, space-time dependence modeling
  • 为什么对您有用: 本文属于高维极值依赖建模的应用方法论,与您 primary interest 中的高维统计与统计计算有间接连接:vine copula 的 graph 拓扑选择与您 very_familiar 的 treewidth / tensor contraction 复杂度分析存在结构相似性,可类比 vine 序列优化与 einsum contraction-order 优化。然而,极值 copula 理论与尾部依赖推断不在您当前武器库内。中期可做:若想进入此方向,需先在 moderately_familiar 的 M-estimation 理论上补充极值 copula 的半参数推断基础,并学习 tail-weighted dependence measure 的渐近理论。

4. 10.1080/01621459.2026.2626478 — Model to Meaning: How to Interpret Statistical Models with R and Python

  • 作者: Brenda Betancourt
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: George Mason University
  • 分类: vol 121 · issue 553 · pp 834-834
  • 相关性 2/10 · novelty: survey
  • 摘要: 这是一篇书评,介绍 Vincent Arel-Bundock 所著《Model to Meaning: How to Interpret Statistical Models with R and Python》一书(Chapman & Hall/CRC Press, 2025)。该书面向实际数据分析者,讲解如何从统计模型(如线性模型、广义线性模型、混合效应模型等)中提取可解释的推断结果,包括边际效应、交互作用、预测区间和模型可视化。全书使用 R 和 Python 两种语言演示代码,强调沟通统计模型含义的实用性。本书没有提出新的统计理论或方法,而是系统整理现有解释技术,适合应用统计学习者和从业者参考。对于您(主要关注理论统计的研究者)而言,本书不涉及因果推断、高维理论或效率理论,作为一本应用导向的指南,其方法学新颖性有限。
  • 关键技术: marginal effects, prediction intervals, model visualization, R programming, Python programming
  • 为什么对您有用: 本书与您的统计计算次级兴趣略有交集,但主要是一本实用指南,不涉及您擅长的非参数理论、因果推断或高维统计。您的技术武库中的软件开发和 R/Python 经验足以理解书中内容,但无助于推进您的主要研究问题。若您需要快速参考如何向非统计受众解释模型结果,本书可作为实用手册,但并非需要深入阅读的研究文献。

5. 10.1080/01621459.2025.2605106 — Likelihood Methods in Survival Analysis: With R Examples

  • 作者: Lu Mao
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: University of Wisconsin–Madison
  • 分类: vol 121 · issue 553 · pp 833-834
  • 相关性 2/10 · novelty: survey
  • 摘要: 本文是 Ma, Webb 与 Hudson 所著《Likelihood Methods in Survival Analysis: With R Examples》的书评,发表于 JASA。该书系统梳理了生存分析中的 likelihood 方法,涵盖参数与半参数设定(如 Cox partial likelihood、martingale 理论),并辅以 R 代码实例。书评作者 Lu Mao 概述了全书结构,指出其将经典 likelihood 推断与计数过程框架结合的特色,但未提出新的理论或方法学贡献。对您而言,该书可作为生存分析 likelihood 推断与 counting process martingale 技术的入门参考,但方法学 novelty 极低。
  • 关键技术: Cox partial likelihood, counting process martingale, parametric survival likelihood, R software implementation
  • 为什么对您有用: 本文属于书评,无方法学 novelty,仅作为生存分析 likelihood 方法的入门读物参考。该书对 counting process martingale 与 Cox partial likelihood 的系统梳理,与您 moderately_familiar 中的 semiparametric theory 有间接联系,但生存分析并非您当前 primary interests 的核心方向。follow-up 判断:暂不可做——该书主题与您当前聚焦的 causal inference / high-dim / efficiency theory / U-statistics 方向偏离较大,无需花时间深读全文。

6. 10.1080/01621459.2025.2563189 · arXiv — Bayesian Signal Matching for Transfer Learning in ERP-Based Brain Computer Interface

  • 作者: Tianwen Ma, Jane E. Huggins, Jian Kang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 100-112
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对基于事件相关电位(ERP)的脑机接口(BCI)拼写系统中的P300检测问题,提出贝叶斯信号匹配(BSM)框架。现有校准策略需要新参与者长时间采集自身数据,容易疲劳导致P300估计偏差。BSM通过贝叶斯分层混合模型对源参与者之间的刺激特定脑电信号联合分布建模,并推断新参与者是否与源参与者共享参数。若相似,则直接使用基线簇参数进行预测,避免重新校准;否则保留自身参数。该框架可推广到其他参数形式的基分类器。仿真和神经退行性疾病患者的真实数据分析表明,BSM能显著提升预测精度并缩短校准时间。本文是迁移学习在BCI领域的一个应用案例,其方法论核心(贝叶斯分层模型)与您主攻的因果推断、高维U统计等方向关联不直接,但展示了统计模型在信号处理中的实用化思路。
  • 关键技术: Bayesian hierarchical mixture model, transfer learning, signal matching, EEG signal calibration, P300 detection
  • 为什么对您有用: 本文属于脑机接口信号处理的应用研究,与您的主要兴趣(因果推断、高维统计、U统计量)及次要兴趣(天体统计、经济理论、流行病学)均不直接吻合。您武器库中的“逆问题与随机噪声”思路可用于理解EEG信号生成,但核心贝叶斯分层模型不在您当前熟悉或中等熟悉的技术范围内,且缺乏与您主攻方向的明显可迁移性。因此,这篇论文暂不可做深入跟进,但可作为跨领域应用案例拓宽视野。

7. 10.1080/01621459.2025.2593538 — Comments: Systems Thinking, Data Minding, and Mindware Agents for Multi-Agent Data Analysis Systems

  • 作者: Xiao-Li Meng
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Harvard University
  • 分类: vol 121 · issue 553 · pp 19-25
  • 相关性 1/10 · novelty: survey
  • 摘要: 本文是 Xiao-Li Meng 对多智能体数据分析系统文章的评论性随笔,核心议题是如何将系统思维与数据思维结合以构建可靠的自动化分析流程。Meng 提出在多智能体框架中需引入 'mindware agent',即负责统计推断逻辑与假设审查的元智能体,以防纯计算智能体在缺乏人类监督时产生系统性偏差。文中没有新的 estimand、收敛率或 minimax 界,而是以统计哲学与软件架构视角讨论 LLM/Agent 时代的统计计算责任。主要贡献在于为统计计算与软件开发方向提供了一个高层概念框架,对您在 statistical computing 与 software development 的 primary interest 有直接的思想启发,但无技术定理可迁移。
  • 关键技术: multi-agent system architecture, mindware agent concept, systems thinking for data analysis, statistical computing responsibility
  • 为什么对您有用: 直接连接到您 primary interest 中的 statistical computing(numerical methods and software)子方向,尤其是您 very_familiar 的 software development:Meng 的 mindware agent 概念为设计具备统计推断审查机制的自动化分析软件提供了高层架构思路。从 technical_arsenal 看,您 very_familiar 的 software development 完全足以理解并尝试实现这种 agent 架构的雏形。属于 gateway-reading:本文是极好的入门随笔,清晰阐述统计学家在 AI/Agent 时代的定位,武器库完全支撑阅读,值得花一小时读全文以获取软件设计视角的灵感,但无需深入数学推导。

8. 10.1080/01621459.2026.2634602 — Correction

  • 作者:
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 121 · issue 553 · pp 838-838
  • 相关性 0/10 · novelty: minor
  • 摘要: 本文为 JASA 的一则勘误(Correction),仅列出作者信息,无任何统计方法或应用内容。对您的研究方向完全无关。
  • 为什么对您有用: 这是一则纯粹的形式勘误,不涉及任何实质性的统计理论、方法或数据应用,无任何阅读价值。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论