跳转至

JASA — Vol 120 Issue 551 · 2026-06-20

  • 共 51 篇 · Journal of the American Statistical Association
  • 目录核对 ⚠️ 疑似漏 7 篇(对照 OpenAlex 58 篇):10.1080/01621459.2024.2415719、10.1080/01621459.2024.2422129、10.1080/01621459.2025.2490300、10.1080/01621459.2024.2419114、10.1080/01621459.2024.2427432 等

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

本期内容主要围绕五条方法主线展开:因果推断与异质性/分布效应、高维推断与去偏/假设检验、半参数/非参数估计与收敛率、网络与复杂结构建模,以及统计计算与分布式推断。具体而言,因果推断主线涵盖了中介分析、联邦因果、离线策略评估及敏感性分析等(如“Bayesian causal mediation forests”、“FACE”、“Distributional Off-Policy Evaluation”等);高维推断主线集中探讨去偏方法、FDR控制与多重检验(如“Debiasing Watermarks”、“High-Dimensional Expected Shortfall Regression”、“Adaptive Testing”等);半参数/非参数主线聚焦密度比、去卷积、筛估计及非欧回归的minimax收敛率(如“Deep Mutual Density Ratio”、“Deconvolution Density”、“Deep Fréchet Regression”等);网络建模主线处理多层与超图结构的社区检测与拟合优度(如“Joint Spectral Clustering”、“PE-SBM”、“Network Goodness-of-Fit”等);计算与效率主线则涉及分布式去偏、复合似然随机逼近与U统计量缩减(如“Distributed Estimation for Cox’s”、“Composite Likelihood meets Stochastic Approximation”、“U-Statistic Reduction”等)。

因果推断与异质性/分布效应主线在本期推进了从均值/条件期望向分布与异质性的拓展,并着重处理多源数据与分布偏移。在异质性估计上,“Bayesian causal mediation forests”与“CL-BART”分别将BART引入中介分析与case-crossover设计以捕捉异质性;在多源联邦推断上,“FACE”通过密度比加权校正跨站点分布偏移实现ATE的自适应高效估计,“Robust Inference for Federated Meta-Learning”则针对站点选择不确定性构造了鲁棒置信区间;在分布与部分识别层面,“Distributional Off-Policy Evaluation”将离线策略评估从期望回报拓展至联合分布的Wasserstein估计,“Safe Policy Learning”利用部分识别与maximin优化处理确定性政策下的安全决策;此外,“Sensitivity Analysis for Quantiles”将Rosenbaum框架的敏感性分析从最大偏倚转向分位数偏倚以缓解保守性。

高维推断与去偏主线本期重点推进了去偏/正交推断在不同目标参数与复杂依赖结构下的适用性,并发展了自适应与多重检验工具。去偏推断的拓展体现在:“High-Dimensional Expected Shortfall Regression”将去偏技术从均值回归延伸至尾部条件均值(ES)回归;“Distributed Estimation for Cox’s”为高维Cox模型提供了通信高效的分布式去偏置信区间;“Simultaneous Inference for GLM with Unmeasured Confounders”通过三阶段正交分解与投影校正实现混淆下的高维z-test。在假设检验与FDR控制方面,“Adaptive Testing”基于Lq-U统计量的渐近独立性实现针对不同稀疏度的自适应p值组合;“High-Dimensional Knockoffs Inference for Time Series”首次在序列依赖下建立模型-X knockoffs的FDR控制;“Statistical Inference for Spectral Density Matrix”与“Frequency Domain Statistical Inference”则分别将高斯逼近与参数自助法引入频域高维参数的检验与FDR程序。

半参数/非参数主线本期在非欧数据回归、密度估计与筛方法上给出了新的收敛率与估计框架。“Deep Fréchet Regression”与“Geodesic Mixed Effects Models”针对度量空间响应变量,分别利用DNN与测地线映射建立收敛速率;“Deep Mutual Density Ratio”通过Bregman散度与DNN逼近互密度比,在低维流形下达到minimax最优率并缓解维度诅咒;“Deconvolution Density with Penalized MLE”在无限维函数空间直接优化惩罚似然,给出了去卷积估计的一致性与收敛速率;“Phase-Type Distributions for Sieve Estimation”首次建立phase-type筛的逼近误差率,补全了半参数M-估计的理论缺口;“U-Statistic Reduction”则利用Edgeworth展开建立不完全U统计量的高阶精确推断,揭示了风险控制精度与计算速度的折中。

对聚焦因果推断、半参数效率与高维方向的研究者,以下论文与核心主题最贴,适合优先看:因果推断与分布偏移方向可看“FACE”、“Robust Inference for Federated Meta-Learning”与“Distributional Off-Policy Evaluation”;高维去偏与假设检验方向可看“High-Dimensional Expected Shortfall Regression”、“Simultaneous Inference for GLM with Unmeasured Confounders”与“High-Dimensional Knockoffs Inference for Time Series”;半参数效率与非参数收敛率方向可看“U-Statistic Reduction”、“Phase-Type Distributions for Sieve Estimation”与“Deep Mutual Density Ratio Estimation”。

因果推断 (causal_inference, 8 篇)

1. 10.1080/01621459.2025.2491155 · arXiv — Estimating Heterogeneous Causal Mediation Effects with Bayesian Decision Tree Ensembles

  • 作者: Angela Ting, Antonio R. Linero
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1400-1413
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在因果中介分析框架下,本文目标是估计条件平均直接与间接效应(CADIE/CAIE)的异质性,克服线性结构方程模型(LSEM)在低维大样本下仍产生不稳定估计的问题。作者提出基于贝叶斯加性回归树(BART)的变系数模型——Bayesian causal mediation forests,对异质性中介效应进行非参数估计与正则化。核心机制利用 BART 的树结构先验实现效应估计向同质性的收缩,并通过后验抽样与后验汇总策略识别异质性子群与解释模型。实证与模拟表明该方法相比 LSEM 估计更稳定且具有保守性。对您可能有用:该文将 BART 非参数建模引入中介效应异质性估计,为 semiparametric theory 与 causal mediation 的交叉提供了具体贝叶斯实现路径。
  • 关键技术: Bayesian additive regression trees (BART), varying coefficient model, conditional average direct/indirect effects, posterior summarization for subgroup identification, causal mediation analysis
  • 为什么对您有用: 本文直接连接 causal inference 的 mediation 子方向,聚焦条件平均直接/间接效应的非参数异质性估计。您武器库中的 semiparametric theory(moderately_familiar)可以攻这篇的口子:它目前是纯贝叶斯 BART 实现,缺乏 semiparametric efficiency bound 与 influence function 视角的理论刻画,您可尝试用 HOIF 或 semiparametric efficiency 理论推导 CADIE 的效率界并构建 debiased ML 估计量,与 BART 做理论对比。中期可做:需先在 semiparametric theory 上长肌肉以补齐效率界推导,但 mediation identification 理论您已熟悉。

2. 10.1080/01621459.2025.2453249 · arXiv — Federated Adaptive Causal Estimation (FACE) of Target Treatment Effects

  • 作者: Larry Han, Jue Hou, Kelly Cho, Rui Duan, Tianxi Cai
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1503-1516
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文提出联邦自适应因果估计(FACE)框架,用于整合多个异质性数据站点的信息,对灵活指定的目标人群进行平均处理效应(ATE)的估计与推断。研究设定中,各站点协变量分布可能不同,且目标人群与源人群存在分布偏移,FACE通过密度比加权校正这种偏移。为安全地整合源站点并避免负迁移,引入基于惩罚回归的自适应加权程序,该程序可同时实现估计的一致性和最优效率。方法在理论上证明了其渐近性质,并在通信效率与隐私保护方面仅需各站点共享一次汇总统计量。实证部分利用美国退伍军人事务部五个区域站点的电子健康记录,比较BNT162b2(辉瑞)与mRNA-1273(莫德纳)疫苗对COVID-19结局的效果,结果显示FACE相比传统方法使标准误降低26%-67%。该工作直接对接因果推断中的异质性处理效应估计与联邦学习场景,其加权策略对您研究中的敏感性问题(如负对照)亦有参考价值。
  • 关键技术: federated learning, density ratio weighting, adaptive weighting via penalized regression, target population causal effect, communication-efficient estimation
  • 为什么对您有用: 直接命中您primary interest中的因果推断子方向——目标处理效应估计与站点异质性下的联邦推断。您very_familiar arsenal中的'因果推断估计理论'可当即用于分析该自适应加权程序在有限样本下的效率增益;'高维渐近'工具则有助于理解惩罚回归的变量选择一致性如何保障最优效率。该框架的密度比加权与adaptive weighting思路也易于迁移到proximal causal inference中的negative control调整问题。立即可做:基于您熟悉的因果推断理论与软件,可在仿真中复现其自适应加权步骤并扩展至其他目标群体定义。

3. 10.1080/01621459.2025.2506197 — Distributional Off-Policy Evaluation in Reinforcement Learning

  • 作者: Zhengling Qi, Chenjia Bai, Zhaoran Wang, Lan Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: George Washington University · Decision Sciences (United States) · Harbin Institute of Technology · ShangHai JiAi Genetics & IVF Institute · Shanghai Artificial Intelligence Laboratory · Northwestern University · University of Miami
  • 分类: vol 120 · issue 551 · pp 1517-1530
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在强化学习离线策略评估中,本文关注的是从行为策略生成的历史数据中,估计目标策略下多变量折扣累积回报的联合分布,而非仅期望值。基于无限时域马尔可夫决策过程设定,提出一种离线Wasserstein方法,利用重要性采样和Wasserstein距离同时估计任意初始状态-动作对的分布。建立了所提估计量在修正Wasserstein度量下的有限样本误差界,该界同时依赖于样本轨迹数和每条轨迹的决策点数量。数值实验表明该方法在有限样本下表现优越。本文对您的主要价值在于:它将因果推断中的off-policy evaluation从期望值拓展到分布估计,与您关注的分布处理效应识别和估计方向直接衔接。
  • 关键技术: distributional reinforcement learning, off-policy evaluation, Wasserstein distance, importance sampling, finite-sample error bound
  • 为什么对您有用: 直接连接因果推断中的离线策略评估子方向,且扩展至分布估计,可用于分布处理效应(如分位数处理效应)的研究。您掌握的nonparametric统计和minimax界工具可直接用来分析该估计量的最优性或推广至更复杂设定(如工具变量分布评估),属于立即可做的范畴。

4. 10.1080/01621459.2025.2495319 · arXivWho Are We Missing? : A Principled Approach to Characterizing the Underrepresented Population

  • 作者: Harsh Parikh, Rachael K. Ross, Elizabeth Stuart, Kara E. Rudolph
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1414-1423
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究随机对照试验(RCT)结果向目标人群推广时,如何识别并刻画代表性不足的子群体。在效果异质性和样本选择偏差的设定下,目标是将RCT的因果效应推广到真实世界人群。作者提出一种基于优化的方法,Rashomon最优树集合(ROOT),通过最小化目标平均处理效应(TATE)估计量的方差来优化目标子群体的分布,从而得到更精确的效应估计。ROOT输出可解释的决策树规则,清晰刻画被低估人群的特征,便于研究者沟通。通过合成数据实验比较,ROOT在精度和可解释性上优于现有替代方法。文章将方法应用于START试验(阿片类药物使用障碍治疗)和TEDS-A住院数据,展示了从RCT到真实世界的推广流程。这项工作直接关联因果推断中的推广性(generalizability)/传导性(transportability)问题,对注重实际应用的流行病学领域尤其有价值。
  • 关键技术: Rashomon set, optimal trees, variance minimization, generalizability, treatment effect heterogeneity, interpretable machine learning
  • 为什么对您有用: 本文聚焦RCT推广性(generalizability),属于因果推断中子方向——外部效度和目标人群ATE估计。研究者可利用其非常熟悉的因果推断估计理论(ATE估计、方差分析)来检验ROOT方法在目标人群中的统计性质,例如估计量的方差最小化是否逼近半参有效界。考虑到ROOT依赖识别假设(如条件可交换性),研究者还需要在中等熟悉的识别理论中补足运输性假设的学习;若直接应用现有causal inference软件库(如R中的generalize包),可立即复现文中实验并评估敏感性。总体而言,这是一篇立即可读的有效应用方法论文,适合作为因果推断推广性方向的入门与参考。

5. 10.1080/01621459.2025.2460231 · arXiv — Estimating Heterogeneous Exposure Effects in the Case-Crossover Design Using BART

  • 作者: Jacob R. Englert, Stefanie T. Ebelt, Howard H. Chang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1335-1346
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在case-crossover设计下,本文估计环境暴露对健康结局的异质效应。目标是在条件逻辑回归框架中融入灵活的贝叶斯非参数模型,以识别个体水平的比值比(OR)异质性。方法CL-BART使用可逆跳MCMC对回归树的和进行采样,替代了原始BART中需要共轭性的吉布斯采样,从而适应条件似然。该方法允许暴露与多种协变量交互,自动选择重要修饰变量,并给出后验估计。通过变量重要性、偏依赖图和低维汇总描述异质性模式。应用于加州热浪对阿尔茨海默病住院的影响,发现合并其他慢性病(如心血管病)会加剧热浪的OR。本文对您:异质处理效应是因果推断的活跃方向,该框架结合了非参数flexibility与条件似然,但其半参效率性质未分析,可考虑用去偏机器学习理论推导sharp界。
  • 关键技术: Bayesian Additive Regression Trees, Conditional Logistic Regression, Reversible Jump MCMC, Heterogeneous Exposure Effects, Case-Crossover Design
  • 为什么对您有用: (1) 异质暴露效应估计是因果推断的核心子方向,且本文应用场景(环境流行病学)匹配次要兴趣。(2) 您对非参理论和因果识别(moderately_familiar)熟悉,可以提出从半参效率理论角度分析CL-BART的影响函数或构造去偏版本,这是中期可做的方向。(3) 此时暂不做:因为核心MCMC引擎和BART树先验不在您的武器库中,但应用思路可借鉴。

6. 10.1080/01621459.2024.2441527 · arXiv — Sensitivity Analysis for Quantiles of Hidden Biases in Matched Observational Studies

  • 作者: Dongxiao Wu, Xinran Li
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1657-1668
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对匹配观察性研究中的隐藏偏倚敏感性分析问题,在Rosenbaum框架基础上提出了基于分位数而非最大隐藏偏倚的敏感性分析方法。传统Rosenbaum敏感性分析依赖于所有匹配集的最大隐藏偏倚,这在实际中可能过于保守;作者转而关注隐藏偏倚的分位数(如中位数、75%分位数等),得到更稳健的推断结论。该方法的p值与置信区间可以同时对所有分位数有效,无需多重调整,作者称之为'免费午餐'——即在不增加计算负担的前提下额外获得了分位数层面的稳健性保证。方法适用于一般结果类型(连续、二元、生存等)和一般匹配设计,并使用一般的检验统计量(如Wilcoxon、Mantel-Haenszel等);对于满足有界原假设的检验统计量,方法同样适用。理论部分给出了随机化推断下的精确有限样本性质,并提供了相应的R包实现。本文做的是纯方法学贡献,对于您主攻的因果推断敏感性分析(特别是Rosenbaum类型的匹配研究)有直接价值,可以立即纳入您的软件工具包中。
  • 关键技术: Rosenbaum sensitivity analysis, quantile of hidden bias, matched observational studies, simultaneously valid across quantiles, bounded null hypothesis, randomization inference
  • 为什么对您有用: 直接对接您primary interest中的causal inference子方向——匹配研究中的敏感性分析,特别是对Rosenbaum框架的推广。您武器库中'estimation theory in causal inference'(very_familiar)可以立即用于评估本文分位数方法的有限样本表现,并考虑将其思想扩展到非参数或半参数设定(如利用influence function构造更一般的分位数敏感性测度)。立即可做:您已有充分的匹配研究理解和技术基础,只需阅读并整合进自己的分析流程,甚至可尝试将分位数逻辑写入您常用的R包中。

7. 10.1080/01621459.2024.2443246 · arXiv — Robust Inference for Federated Meta-Learning

  • 作者: Zijian Guo, Xiudi Li, Larry Han, Tianxi Cai
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1695-1710
  • 相关性 4/10 · novelty: new_method
  • 摘要: 该文研究多源数据联邦元学习下的鲁棒推断问题,目标是对主流模型(与多数站点匹配的模型)进行统计推断。由于各站点数据存在异质性且受隐私限制无法共享个体级数据,需要自适应选择合格站点,这带来了选择不确定性。作者提出一种新颖的抽样方法(RIFL)来构造置信区间,无需站点选择完全无误,且不增加通信成本。该方法适用于三类推断任务:参数模型聚合、高维预测模型、以及平均处理效应(ATE)推断。在来自15个医疗中心(含4个国家274家医院)的COVID-19住院患者EHR数据上,成功用于死亡率风险的联邦学习。对于您而言,此文提供了在因果推断(特别是ATE估计)中处理多源数据与站点选择不确定性的现成框架,可结合您的估计理论进行拓展。
  • 关键技术: federated meta-learning, data-adaptive site selection, robust inference after selection, sampling-based confidence intervals, aggregation of treatment effect estimators
  • 为什么对您有用: 本文直接连接您的首要兴趣——因果推断中的ATE估计,且在高维预测模型部分也涉及高维统计。基于您非常熟悉的因果推断估计理论与高维渐近工具,可快速理解其方法核心并评估其适用性。该框架的ATE推断模块可被直接拓展至proximal CI或敏感性分析场景,属于立即可做的研究方向。

8. 10.1080/01621459.2025.2489135 · arXiv — Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment

  • 作者: Eli Ben-Michael, D. James Greiner, Kosuke Imai, Zhichao Jiang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1386-1399
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文研究在确定性政策(如预审风险评估的固定分类规则)下进行安全政策学习的问题。由于现有政策是确定性的,传统策略学习方法依赖随机性而无法直接应用。作者提出一种最大化最小(maximin)鲁棒优化方法,通过部分识别策略的期望效用,然后选择最大化最坏情况下效用的政策。该方法在结构性假设下保证统计安全性,即限制新政策劣于现有政策的概率。实证分析利用预审风险评估的现场实验数据,表明可在一定效用规格下安全地将部分被捕者重新分类为低风险,从而改进现有工具。该方法本质上将 partial identification 与稳健决策结合,为政策评估提供了无需随机政策假设的替代框架。对您而言,本文的 partial identification + maximin 框架直接连接您的因果推断 identification 兴趣,且可用您熟悉的 minimax 界技术分析其保守性。
  • 关键技术: maximin robust optimization, partial identification, policy learning, deterministic rule, field experiment
  • 为什么对您有用: 本文聚焦于确定性政策的因果推断与稳健优化,直接连接您对 causal inference 中 identification 和 sensitivity analysis 的兴趣。您非常熟悉的 minimax bound 技术可用于论证其 worst-case 策略的紧致性,而 partial identification 框架与您的 identification theory 武器无缝对接。综上,这是一篇立即可读的论文,属于“立即可做”的 gateway reading。

高维统计 / 随机矩阵 (high_dim_rmt, 5 篇)

1. 10.1080/01621459.2025.2485379 · arXiv — Simultaneous Inference for Generalized Linear Models with Unmeasured Confounders

  • 作者: Jin-Hong Du, Larry Wasserman, Kathryn Roeder
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1945-1959
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在基因组大规模同时检验设定下,针对多变量 GLM 中存在未测量混淆因子的问题,目标是恢复主效应系数并进行有效推断。作者提出三阶段框架:首先利用正交结构分离边际与不相关混淆效应以恢复 latent 系数;其次通过 lasso-type 优化联合估计 latent factors 与主效应;最后引入投影与加权偏差校正步骤构建 asymptotic z-test。理论上,在任意混淆机制下建立了各类效应的 identification 条件与 non-asymptotic error bounds,证明了样本量与响应维度双发散下 z-test 的有效 Type-I error 控制。实证显示该方法配合 BH 程序能有效控制 FDR 且 power 优于替代方案。对您有用:该框架在多响应高维 GLM 中处理 latent confounding 的 identification 与 debiased inference 机制,直接连接高维统计与效率理论中的 bias-correction 逻辑。
  • 关键技术: orthogonal structural disentanglement, lasso-type joint estimation of latent factors, projected weighted bias-correction, non-asymptotic error bounds, asymptotic z-test under double asymptotics, Benjamini-Hochberg FDR control
  • 为什么对您有用: 本文连接高维统计与因果推断中未测量混淆的处理:利用正交投影与 lasso 联合估计 latent factors,再通过投影偏差校正做 debiased inference,属于高维 GLM 下带 latent structure 的 semiparametric efficiency 与 debiased ML 范畴。用您 very_familiar 的高维渐近理论可直接审视其 non-asymptotic error bound 的收紧潜力;用 moderately_familiar 的 semiparametric 理论可检验其 bias-correction 步骤是否达到 efficient influence function 所需的 orthogonal score 条件。立即可做:用 very_familiar 的高维渐近与 minimax bound 工具分析其 lasso + projection 估计量的 sharper rate 是否可紧化。

2. 10.1080/01621459.2025.2479244 · arXiv — Frequency Domain Statistical Inference for High-Dimensional Time Series

  • 作者: Jonas Krampe, Efstathios Paparoditis
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1580-1592
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对高维时间序列的频域推断问题,目标是相干性和偏相干性的假设检验。首先推导了相干性和偏相干性的一致估计量,并使其具有适用于检验的极限分布。基于这些分布,开发了检验最大相干性和最大偏相干性是否超过预设阈值的方法。同时,针对大量相干性或偏相干性的多重检验问题,提出了控制错误发现率(FDR)的一致程序。通过模拟和脑电图(EEG)数据的图形交互模型构建验证了方法的有效性。该工作为高维时间序列的二阶结构推断提供了新的统计工具,尤其适用于神经科学等领域的网络分析。对您而言,本文直接连接到primary interest中的高维统计和假设检验,且频域方法与您熟悉的非参数谱密度估计和渐近理论有很好的交叉点。
  • 关键技术: frequency domain analysis, spectral density matrix estimation, coherence and partial coherence, hypothesis testing for time series, false discovery rate control, high-dimensional asymptotics
  • 为什么对您有用: 本文连接的高维统计和假设检验子方向是频域中的高维推断,这在时间序列分析中非常经典但近年较少被聚焦。您武器库中的'high-dimensional asymptotics'(very_familiar)可用来分析其检验统计量的渐近有效性,而'nonparametric statistics'(very_familiar)则有助于评估谱密度估计的非参数收敛性。Follow-up粗判:立即可做——您可直接运用渐近理论和非参数工具来理解其理论框架,甚至探索将频域检验与因果推断中的长期效应结合。

3. 10.1080/01621459.2025.2539539 · arXiv — Kernel Spectral Joint Embeddings for High-Dimensional Noisy Datasets Using Duo-Landmark Integral Operators

  • 作者: Xiucai Ding, Rong Ma
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1463-1476
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对两个独立观测的高维噪声数据集,提出一种核谱联合嵌入方法,旨在捕获并利用数据集间共享的低维非线性结构以提升嵌入质量。方法核心是构造Duo-Landmark积分算子,该算子基于再生核Hilbert空间的卷积核映射,自动提取共享信号结构。在联合流形模型框架下,作者证明了嵌入到该积分算子本征函数的收敛性,保证了统计一致性。数值实验和两个单细胞组学数据集分析展示了该方法在聚类、可视化和去噪等下游任务上的优势。该工作连接核方法、谱分析和联合流形学习,对高维统计和非参数估计研究者有参考价值。
  • 关键技术: Kernel spectral method, Duo-landmark integral operators, Reproducing kernel Hilbert space, Joint manifold model, Eigenfunction convergence
  • 为什么对您有用: 本文属于高维统计与非参数学习的交叉,直接关联研究者的高维统计(随机矩阵理论)兴趣。研究者非常熟悉的非参数统计与高维渐近工具可直接用于分析该方法的假设合理性与收敛性。因此,对该论文的后续拓展立即可做——可从非参数理论视角审视其流形假设的适应性,并探索将方法推广至多数据集场景。

4. 10.1080/01621459.2025.2459443 · arXiv — High-Dimensional Variable Clustering based on Maxima of a Weakly Dependent Random Process

  • 作者: Alexis Boulin, Elena Di Bernardino, Thomas Laloë, Gwladys Toulemonde
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1933-1944
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在高维变量聚类设定下,本文提出基于多变量平稳混合随机过程极大值独立性的 Asymptotic Independent block (AI-block) 模型,定义了总体层面的聚类结构。该模型具有可识别性:在划分的偏序下存在最大元,为统计推断奠定基础。作者提出一种依赖调谐参数的算法,无需预先指定聚类数即可恢复变量聚类,并证明在多项式计算复杂度下算法具有一致性。同时提供了调谐参数的数据驱动选择方法,并在神经科学与环境数据集上进行了实证验证。对您有用之处:该文将高维聚类与极值过程的弱依赖结构结合,其多项式复杂度一致性证明与偏序可识别性框架,为高维统计中的变量分组推断提供了新视角。
  • 关键技术: stationary mixing random process, asymptotic independent block model, partial order identifiability, polynomial-complexity clustering algorithm, data-driven tuning parameter selection, extremal dependence
  • 为什么对您有用: 本文连接到高维统计中变量聚类与依赖结构推断的子方向;您武器库中 minimax bounds for estimation problems 与 high-dimensional asymptotics 可直接用于审视其一致性条件与收敛率是否可进一步收紧。立即可做:用 very_familiar 的高维渐近工具验证其多项式复杂度下的聚类恢复率是否达到 minimax 最优,或探索极值依赖假设在更一般的高维 copula / RMT 设定下的可识别性边界。

5. 10.1080/01621459.2024.2431344 · arXiv — High-Dimensional Knockoffs Inference for Time Series Data

  • 作者: Chien-Ming Chi, Yingying Fan, Ching-Kang Ing, Jinchi Lv
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1763-1774
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文在时间序列数据的高维变量选择中首次建立模型-X knockoffs推断的理论框架,目标是在序列依赖下控制FDR。提出TSKI方法,利用子采样(subsampling)和e值(e-values)聚合处理序列相关性,并推广Barber等人的稳健knockoffs以放宽已知协变量分布的严格假设。建立了渐近FDR控制的充分条件,并通过理论分析揭示序列依赖和未知协方差分布对FDR的影响。使用Lasso系数差统计量在广义线性时间序列模型下进行功效分析。数值模拟和经济通胀数据验证方法有效性。对您有用的点:高维假设检验与FDR控制正是您的核心兴趣,本文的序列依赖处理思路可与您熟悉的高维渐近工具结合,用于拓展因果推断中的时间序列变量选择问题。
  • 关键技术: model-X knockoffs, subsampling and e-values, FDR control, Lasso coefficient difference statistic, generalized linear time series
  • 为什么对您有用: 本文直接连接您的高维统计与假设检验兴趣,其FDR控制理论依赖的高维渐近分析正是您very_familiar的领域。您可以利用minimax下界和高维渐近工具验证该方法的sharpness或提出改进,但时间序列结构的细节需要额外学习,属中期可做。

非参数 / 半参数 (nonparam_semipara, 13 篇)

1. 10.1080/01621459.2025.2507437 — Deep Mutual Density Ratio Estimation with Bregman Divergence and Its Applications

  • 作者: Dongxiao Han, Siming Zheng, Guohao Shen, Xinyuan Song, Liuquan Sun, Jian Huang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Nankai University · Chinese University of Hong Kong · Hong Kong Polytechnic University · Chinese Academy of Sciences · Academy of Mathematics and Systems Science
  • 分类: vol 120 · issue 551 · pp 1990-2001
  • 相关性 8/10 · novelty: sharper_rate
  • 摘要: 本文研究两个随机向量之间互密度比(联合密度与边际密度乘积之比)的非参数估计问题,目标是在 bounded support 与低维 manifold 假设下获得 minimax optimal 收敛率。方法上,利用 Bregman divergence 构造目标函数,并用深度神经网络逼近互密度比的 log 形式,避免了直接密度估计的困难。理论上,给出了非渐近误差界,证明了在 bounded support 下达到 minimax optimal rate,且当分布支撑在低维 manifold 上时能缓解 curse of dimensionality;进一步将结果推广至过参数化神经网络与无界支撑情形。应用涵盖条件密度估计、互信息估计与独立性检验。对您有用:本文的 minimax rate 与 manifold-adaptivity 分析可直接对接您对 nonparametric minimax bounds 与 semiparametric efficiency 的兴趣。
  • 关键技术: Bregman divergence, mutual density ratio estimation, deep neural network approximation, minimax rate of convergence, manifold-adaptivity, non-asymptotic error bound
  • 为什么对您有用: 本文直接连接您 primary interest 中的 nonparametric theory 与 minimax bounds:互密度比估计的 minimax rate 与 manifold-adaptivity 是经典的 nonparametric minimax 问题,您用 very_familiar 的 minimax bounds 工具即可验证其声称的 rate 是否紧。Follow-up 判断:立即可做——您现有的 minimax bound 与 nonparametric statistics 武器足以展开阅读并尝试将此密度比估计嵌入 semiparametric CI 的 nuisance parameter 估计中,考察其是否能达到 semiparametric efficiency bound 所需的 rate 条件。

2. 10.1080/01621459.2024.2445873 — Higher Order Accurate Symmetric Bootstrap Confidence Intervals in High Dimensional Penalized Regression

  • 作者: Debraj Das, Arindam Chatterjee, S. N. Lahiri
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Indian Institute of Technology Bombay · Indian Statistical Institute · Washington University in St. Louis
  • 分类: vol 120 · issue 551 · pp 1645-1656
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在高维惩罚回归(满足 Oracle 或 Strong Oracle 性质)设定下,本文研究回归参数的两侧对称 Bootstrap 置信区间(CI)的高阶精度。对满足 Strong Oracle 性质的 Class I 方法(如 SCAD),经典 Hall 对称 Bootstrap CI 在维度随 n 以任意多项式速率增长时仍可达到 O(n^{-2}) 的误差精度;而对仅满足 Oracle 性质的 Class II 方法(如 Lasso 的自适应版本),需对对称 Bootstrap CI 做非平凡修正才能达到同等 O(n^{-2}) 精度。核心机制利用了惩罚估计的 Oracle 近似结构结合 Bootstrap 的 Edgeworth 展开,从而突破了一阶 Bootstrap CI 在两侧区间上无法超越 Oracle 极限的瓶颈。对您可能有用:本文将高阶 Bootstrap 精度理论从固定维推广到超高维惩罚回归,直接连接到您对 higher-order U-statistics / HOIF 与 semiparametric efficiency 的高阶推断兴趣。
  • 关键技术: symmetric bootstrap confidence interval, strong oracle property, Edgeworth expansion, penalized regression, higher-order accuracy, high-dimensional polynomial growth
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 higher-order U-statistics / HOIF 高阶推断理论,探讨两侧 CI 的 O(n^{-2}) 精度如何在高维惩罚回归中实现。您武器库中 very_familiar 的 higher-order U-statistics (treewidth / einsum) 计算复杂度视角,可以用来审视本文 Bootstrap 重采样计算在高维下的实际代价,并探索是否可用 HOIF 替代 Bootstrap 达到同等高阶精度。中期可做:需先在 moderately_familiar 的 HOIF 理论上长肌肉,以将 HOIF 的高阶修正机制移植到惩罚回归的推断场景中。

3. 10.1080/01621459.2025.2507982 · arXiv — Deep Fréchet Regression

  • 作者: Su I Iao, Yidong Zhou, Hans-Georg Müller
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1437-1448
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对响应变量为一般度量空间中的非欧几里得对象(如概率分布、网络数据)而预测变量为多元欧几里得向量的回归问题,提出深度Fréchet回归模型。模型利用深度神经网络处理高维预测变量以应对非参数回归中的维度诅咒,同时采用流形学习将度量空间映射到低维欧几里得空间。通过局部Fréchet回归将低维表征逆映射回原始度量空间中的对象。理论部分建立了带相依次高斯噪声的深度神经网络收敛速率,并将局部Fréchet回归推广到含误差的多元预测变量情形,从而得到完整回归模型的收敛速率。模拟和实例分析表明,在概率分布与网络数据方面该方法优于已有方法。对您而言,该工作直接贡献于非参数回归理论,与您非常熟悉的非参数统计和极小极大界工具可对接,以检验所得收敛速率的渐近最优性。
  • 关键技术: Fréchet regression, deep neural networks, manifold learning, local Fréchet regression, convergence rate analysis, sub-Gaussian noise dependence
  • 为什么对您有用: 本文属于非参数回归理论,是您的主要兴趣方向之一。您非常熟悉的极小极大界和高维渐近工具可以直接用于检验其收敛速率是否最优,例如推导在某种光滑性假设下的下界。此外,深度神经网络部分涉及近似理论(ReLU网络速率),不属于您的当前武器库,因此需要中期努力掌握该部分后才能进行实质性扩展(如设计半参数Fréchet回归)。整体而言,这是一篇可读性强的方法学论文,值得作为非参数深度回归的入门阅读。

4. 10.1080/01621459.2025.2459442 — Phase-Type Distributions for Sieve Estimation

  • 作者: Hu Xiangbin, Yudong Wang, Zhisheng Ye, Xingqiu Zhao
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: National University of Singapore · Hong Kong Polytechnic University
  • 分类: vol 120 · issue 551 · pp 1828-1839
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在许多半参数模型中,感兴趣的无穷维参数是概率密度函数,但在缺失数据存在时非参数估计往往困难。本文提出使用 phase-type 分布作为 sieve 方法进行密度估计,phase-type 分布在非负分布空间中稠密,且具有在最小、最大和卷积运算下封闭的性质,与加速失效时间模型兼容。然而,phase-type 分布过度参数化且其逼近误差率长期未知,阻碍了其作为 sieve 方法的理论发展。作者设计了一个可识别的 phase-type 密度筛类,并首次建立了对给定密度的逼近误差率。在此基础上,将所提筛用于半参数 M-估计,其中非参数分量为密度,基于逼近误差率结果建立了 phase-type 筛估计量的渐近性质。应用聚焦于带缺失指标的右删失数据,数值实验表明所提估计量比现有方法更有效。本文为半参数模型中密度估计提供了一种新 sieve 工具,其逼近误差率结果可直接用于研究者熟悉的 minimax 下界分析。
  • 关键技术: Phase-type distribution, Sieve estimation, Approximation error rate, Semiparametric M-estimation, Missing data
  • 为什么对您有用: 本文直接关联研究者的 primary interest 中的 semiparametric and nonparametric theory 和 M-estimation,phase-type sieve 方法为半参数密度估计提供了新途径。研究者可以用自身熟练的 minimax 下界工具检验所给逼近误差率是否最优,或利用半参数理论框架扩展该方法到更复杂的因果推断设定。立即可做:基于 nonparametric statistics 和 minimax bounds 验证误差率紧性;中期可做:若需将方法推广至含有内生性的缺失数据模型,则需先补充 identification theory 中的工具。

5. 10.1080/01621459.2024.2436686 — Deconvolution Density Estimation with Penalized MLE

  • 作者: Yun Cai, Hong Gu, Toby Kenney
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Dalhousie University
  • 分类: vol 120 · issue 551 · pp 1711-1723
  • 相关性 7/10 · novelty: new_theory
  • 摘要: 在测量误差模型(X=Y+ε)的密度去卷积问题中,目标是在误差分布已知时估计Y的密度。传统基于Fourier变换的无限维方法在低信噪比或小样本下数值不稳定,而有限维基展开的penalized MLE受限于模型空间。本文提出在无限维函数空间上直接优化penalized likelihood,兼顾了正则化方法的稳定性与函数空间的灵活性。理论上,首次给出了去卷积penalized MLE的consistency与收敛速率结果;数值上,在低信噪比与小样本设定下优于现有Fourier方法与有限维sieve方法。对您可能有用:本文的无限维penalized MLE框架与收敛速率分析,可直接对比您熟悉的nonparametric minimax rate与inverse problems with random noise理论。
  • 关键技术: penalized maximum likelihood, density deconvolution, infinite-dimensional optimization, consistency and convergence rate, measurement error model
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 nonparametric theory 与 inverse problems with random noise:去卷积本质上是带有随机噪声的逆问题,其收敛速率严重依赖误差分布尾部(smoothness)的假设。您可以用 very_familiar 的 minimax bounds for estimation problems 武器,审视本文声称的收敛速率是否达到已知 minimax lower bound,判断其是否 sharp;同时,penalized MLE 的无限维优化计算路径,可对比您 moderately_familiar 的 M-estimation theory 中关于 penalized sieve / profile likelihood 的经典收敛框架。Follow-up 判断:立即可做——用 minimax rate 工具验证其理论紧性,并评估其计算算法在更高维逆问题中的可推广性。

6. 10.1080/01621459.2025.2506198 · arXiv — Conformal Prediction for Network-Assisted Regression

  • 作者: Robert Lunde, Elizaveta Levina, Ji Zhu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1633-1644
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究网络辅助回归中的统计推断问题,目标是在节点属性预测中构造有效的预测区间,网络协变量(如图嵌入坐标)与常规协变量均被使用。作者提出一种基于联合可交换性(joint exchangeability)假设的网络保形预测方法,该方法的预测区间不依赖节点独立性,而是利用网络结构的对称性。证明在有限样本下该区间达到精确覆盖有效性(finite sample validity),在渐近意义下实现条件有效性(asymptotic conditional validity)。方法通过模拟和引文网络数据集验证。对您而言,本文属于非参数推断领域的新应用场景,保形预测作为一种分布自由方法,可与您熟悉的非参数统计和M估计理论结合,用于网络因果推断或流行病学社交网络分析中的预测。
  • 关键技术: Conformal prediction, Joint exchangeability, Network covariates, Finite sample validity, Asymptotic conditional validity
  • 为什么对您有用: (1)本文属于非参数推断在网络数据中的新应用,与您主要兴趣中的“非参数与半参数理论”直接相关;您也关注预测问题的推断,保形预测是当前热门框架。(2)您的 arsenal 中“very_familiar”的“nonparametric statistics”足以理解保形预测的核心假设和覆盖性质,而“moderately_familiar”的“M-estimation theory”可用于分析保形得分函数的收敛性。(3)中期可做:需要先系统阅读保形预测文献(特别是分位数回归与 exchangeability 的变体)以补足该方向的细节技巧,之后即可尝试扩展至网络因果推断中的处理效应预测或敏感性分析。

7. 10.1080/01621459.2025.2504037 — A Unified Framework for Residual Diagnostics in Generalized Linear Models and Beyond

  • 作者: Dungang Liu, Zewei Lin, Heping Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Systems Analytics (United States) · Yale University
  • 分类: vol 120 · issue 551 · pp 1840-1852
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在广义线性模型(GLM)及其半参数扩展(如 GAM)框架下,针对离散数据中经典 Pearson/deviance 残差诊断失效的问题,本文提出以函数而非点统计量作为残差载体(functional residual),以保留模型结构部分无法捕捉的剩余随机性。核心机制是定义一个映射函数来刻画响应变量给定协变量下的条件分布与拟合分布之间的差异,并建立其理论性质(收敛性、与概率尺度残差/替代残差的统一关系)。基于此,作者构造了 functional-residual-vs-covariate 图和 Function-to-Function(F-to-F)图等新诊断工具,数值研究表明其能有效揭示高阶项遗漏、交互效应缺失、散度参数误设及零膨胀成分遗漏等多种模型误设。对您可能有用:本文的 functional residual 概念为半参数模型(GAM)的模型检验提供了新视角,其理论性质分析可借由您熟悉的 M-estimation 与半参数理论框架进一步审视。
  • 关键技术: functional residual, generalized linear model diagnostics, probability-scale residual, surrogate residual, generalized additive model, model misspecification detection
  • 为什么对您有用: 本文直接连接到 semiparametric theory(GAM 的模型检验)与 nonparametric statistics(用函数对象刻画分布差异而非点统计量)。您武器库中 M-estimation theory(moderately_familiar)与 nonparametric statistics(very_familiar)可直接用于审视其 functional residual 的理论性质(如影响函数、大样本收敛率),判断其是否达到半参数效率界或存在可改进的 sharper rate。中期可做:若想沿此方向做理论深化(如推导 functional residual 的 semiparametric efficiency bound 或高阶修正),需先在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是 functional-valued estimator 的 influence function 推导。

8. 10.1080/01621459.2025.2468012 · arXiv — Robustifying Likelihoods by Optimistically Re-weighting Data

  • 作者: Miheer Dewaskar, Christopher Tosh, Jeremias Knoblauch, David B. Dunson
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1787-1798
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在似然推断面临模型误设(如异常值、污染数据或参数假设不当)时,即使微小误设也可能导致推断严重失稳(brittleness)。本文提出在经验测度的 TV 距离邻域内,寻找对当前模型最友好的数据生成过程,由此导出 Optimistically Weighted Likelihood (OWL) 以稳健化原似然。核心机制是将稳健化问题转化为对观测数据的乐观重加权,TV 邻域的约束确保了重加权后分布与经验分布的偏差可控。理论部分聚焦 TV 邻域,分析了 OWL 的性质并给出了估计算法;实证在混合模型与回归中展示了方法对局部误设的缓解效果。对您可能有用:OWL 的 TV 邻域约束与重加权机制,为 semiparametric / nonparametric 模型下的 M-estimation 稳健性分析提供了一个新的视角。
  • 关键技术: Optimistically Weighted Likelihood (OWL), total variation (TV) neighborhood, model misspecification robustification, empirical measure re-weighting, M-estimation under contamination
  • 为什么对您有用: 本文直接连接到 semiparametric / nonparametric theory 下的 M-estimation 稳健性问题,TV 邻域内的乐观重加权为处理局部模型误设提供了新框架。您武器库中 moderately_familiar 的 M-estimation theory 可直接攻入本文的理论分析口子,验证其 TV 邻域约束下的 estimator 是否具备 n^{-1/2}-CAN 及 influence function 的显式表达。follow-up 粗判:立即可做——用 very_familiar 的 minimax bounds 工具评估 OWL 在特定误设邻域下的收敛率是否达到最优。

9. 10.1080/01621459.2025.2480867 — Estimation and Inference of Quantile Spatially Varying Coefficient Models Over Complicated Domains

  • 作者: Myungjin Kim, Li Wang, Huixia Judy Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Kyungpook National University · George Mason University · George Washington University
  • 分类: vol 120 · issue 551 · pp 1853-1867
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文在复杂/不规则空间域上提出分位数空间变系数模型(QSVCM),目标 estimand 为条件分位数对协变量的空间非平稳依赖函数。核心估计方法基于三角剖分上的双变量惩罚样条分位数回归,并使用 ADMM 算法求解。理论上证明了估计量的 L2 收敛性及在特定 regularity 条件下的最优收敛速率;推断方面采用 wild residual bootstrap 构造系数的点wise 置信区间,并用 conformal prediction 构造响应变量的预测区间。实证通过美国死亡率与 PM 数据集展示方法适用性。对您有用:该工作在非参数分位数回归下给出最优速率与三角剖分样条工具,可作为空间设定下 semipara/nonpara 效率界与推断的参考案例。
  • 关键技术: bivariate penalized splines on triangulation, quantile spatially varying coefficient model, ADMM optimization, wild residual bootstrap, conformal prediction interval, L2 convergence rate
  • 为什么对您有用: 直接连接非参数与半参数理论(primary interest),具体涉及不规则域上函数系数估计的最优收敛速率与 bootstrap 推断。用您 very_familiar 的 minimax bounds for estimation problems 可验证其声称的最优速率是否紧,或用 moderately_familiar 的 M-estimation theory 分析其 penalized spline 分位数 M-estimator 的渐近性质。follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉以推导该空间变系数模型的 semiparametric efficiency bound。

10. 10.1080/01621459.2024.2427935 · arXiv — Bayesian Clustering via Fusing of Localized Densities

  • 作者: Alexander Dombowsky, David B. Dunson
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1775-1786
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文提出一种称为FOLD(Fusing of Localized Densities)的贝叶斯聚类方法,旨在解决传统混合模型聚类对核(如高斯核)误规范高度敏感的问题,即真实簇内密度即使轻微非高斯也会导致簇被拆分为多个高斯成分。FOLD的核心创新在于利用核后验将混合成分融合在一起:它不将每个成分视为一个簇,而是基于聚类损失函数的后验期望(贝叶斯决策理论)将成分合并为有限个簇。该方法可直接作为MCMC混合模型后处理的附加步骤,自然提供不确定性量化,且倾向于输出较少的簇。理论方面,作者证明了在核误规范下FOLD的聚类最优性,包括一致性。模拟和真实数据实验表明,FOLD在保持有意义分组结构的同时,能有效减少簇数量,优于现有竞争者。对您而言,本文涉及非参数密度估计和模型误规范下的鲁棒推断,与您对非参数理论和统计计算(MCMC后处理算法)的兴趣高度相关。
  • 关键技术: Bayesian clustering, mixture model, kernel misspecification, loss-based clustering, posterior distribution
  • 为什么对您有用: 本文直接针对非参数混合模型中核误规范的鲁棒性问题,属于非参数统计与贝叶斯方法的交叉,与您对非参数理论(尤其是密度估计)的兴趣一致。您的技术武器库中‘非参数统计’和‘M-estimation理论’(可通过损失函数后验期望理解其估计方程)可用来分析FOLD的渐近性质,例如其聚类损失函数的相合性。目前来看,这是一篇方法论文,未直接涉及高维或U统计量,但您可考虑将其拓展至高维聚类场景或与U统计量的连接(如通过核平均),这属于中期可做的工作——需要先巩固您在非参数贝叶斯方面的工具。

11. 10.1080/01621459.2025.2474267 · arXiv — Geodesic Mixed Effects Models for Repeatedly Observed/Longitudinal Random Objects

  • 作者: Satarupa Bhattacharjee, Hans-Georg Müller
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1879-1892
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对纵向随机对象(random objects)数据,提出一种测地混合效应模型(geodesic mixed effects models),其中均值响应轨迹为度量空间中的测地线(geodesics),观测与模型的偏差由扰动映射(perturbation maps)或传输(transport)量化。该方法不依赖线性或局部线性(Riemannian)结构,适用于协方差矩阵、Riemannian流形数据和概率分布等复杂数据类型。核心方法是利用全局 Fréchet 回归从含噪观测中估计测地线,并通过另一层 Fréchet 回归建模基线协变量对轨迹的影响。作者推导了估计量的渐近收敛性质,并通过模拟和实际数据示例验证了方法的有效性。对您有用:本文属于非参数度量空间回归的前沿工作,直接关联您的 primary interest 中“非参数统计”方向,并可与您熟悉的 nonparametric statistics 和 estimation theory 工具结合,用于检验理论最优性或扩展至因果推断中的分布型协变量处理。
  • 关键技术: Fréchet regression, geodesic mixed effects models, perturbation maps, transport maps, asymptotic theory in metric spaces
  • 为什么对您有用: 本文属于非参数统计与度量空间回归的前沿方法,直接对应您的 primary interest 中“semiparametric and nonparametric theory”里的非参数回归方向。您非常熟悉的 nonparametric statistics 和 estimation theory 工具可用来分析其收敛率或提出改进,例如检查测地线估计的 minimax 优化性。立即可做:您的 nonparametric statistics 武器库已足够支撑您对本文理论进行深入检验或拓展。

12. 10.1080/01621459.2025.2529024 · arXiv — Evaluation of Binary Classifiers for Asymptotically Dependent and Independent Extremes

  • 作者: Juliette Legrand, Philippe Naveau, Marco Oesting
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1558-1568
  • 相关性 2/10 · novelty: new_method
  • 摘要: 在多变量极值理论框架下,本文研究如何评估和比较二元分类器对极端事件的预测能力,目标 estimand 是针对极端区域的分类风险函数。核心设定基于 multivariate regular variation 与 hidden regular variation,区分了渐近相依与渐近独立两种极值尾部结构。提出的 empirical risk estimator 利用阈值选取与极值概率加权,推导了其在大样本下的收敛性质与渐近分布。模拟对比了不同分类器在该风险下的表现,并在多瑙河流域极端径流数据上进行了实证分析。对您可能有用:本文将 hidden regular variation 这一非参数极值工具引入分类风险评估,其渐近独立/相依的区分逻辑与 semiparametric theory 中处理稀疏事件的 influence function 设计有潜在交叉。
  • 关键技术: multivariate regular variation, hidden regular variation, extremal classification risk, empirical risk estimator, asymptotic dependence/independence, threshold-based estimation
  • 为什么对您有用: 本文连接到 semiparametric & nonparametric theory 子方向,具体是多变量极值理论中的 regular variation 与 hidden regular variation 结构下的估计问题。您武器库中的 nonparametric statistics 与 minimax bounds 可以用来审视本文 empirical risk estimator 的收敛率是否达到极值稀疏设定下的 minimax 下界,这是直接可攻的口子。中期可做:若想深入极值分类的 efficiency theory,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,推导该 extremal risk 的 semiparametric efficiency bound。

13. 10.1080/01621459.2025.2479220 — Prediction of Cognitive Function via Brain Region Volumes with Applications to Alzheimer’s Disease Based on Space-Factor-Guided Functional Principal Component Analysis

  • 作者: Shoudao Wen, Yi Li, Dehan Kong, Huazhen Lin
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Southwestern University of Finance and Economics · Statistical Research (United States) · University of Michigan · University of Toronto
  • 分类: vol 120 · issue 551 · pp 1373-1385
  • 相关性 2/10 · novelty: new_method
  • 摘要: 论文针对阿尔茨海默病早期认知功能预测问题,以脑区体积密度曲线为特征,研究其与认知衰退的关系。由于体积曲线具有高度空间依赖性和分段结构,传统FPCA无法有效处理。作者提出空间因子引导的功能主成分分析(SF-FPCA):先用因子过程提取各ROI间固有相关性的低维特征,再对因子过程做FPCA以刻画时间依赖性;同时将载荷矩阵分解为空间坐标的光滑函数与分段常数矩阵,实现区域内光滑、区域间断的建模。在ADNI数据上,SF-FPCA的拟合优度优于对比方法;基于SF-FPCA提取的特征预测认知功能比单纯使用体积更准确。进一步识别出36个关键ROI,并发现左右半球脑萎缩对认知下降的影响机制不同。该工作是一篇扎实的非参数功能数据方法论文,对流行病学中纵向脑影像分析有参考价值。
  • 关键技术: Functional Principal Component Analysis, space-factor-guided dimension reduction, piecewise constant loadings, volume density curves, ADNI data
  • 为什么对您有用: 本文属于流行病学应用(secondary interest)中的认知衰退预测,使用的功能数据分析方法可视为非参数统计的一种延伸。您非常熟悉的非参数统计工具(如minimax界、FPCA理论)可以直接用来考察SF-FPCA估计量的收敛速率和最优性;软件开发经验也可用于复现和扩展该方法的R/Python代码。follow-up粗判:立即可做——利用非参数统计的理论框架检验SF-FPCA的估计效率;中期可做——若将其思想拓展至因果推断中的纵向数据(需先熟悉功能因果推断文献);暂不可做——因不涉及U-statistics或统计-计算权衡。

效率理论 / Debiased ML (efficiency_dml, 2 篇)

1. 10.1080/01621459.2025.2516820 · arXiv — Communication-Efficient Distributed Estimation and Inference for Cox’s Model

  • 作者: Pierre Bayle, Jianqing Fan, Zhipeng Lou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1736-1746
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对多中心生物医学研究中因隐私和所有权限制无法共享个体数据的问题,发展了高维稀疏Cox比例风险模型的通信高效迭代分布式估计算法。在温和条件下,即使迭代次数较少,所提估计量也能达到与理想全样本估计量相同的收敛速率。为构建高维风险回归系数线性组合的置信区间,作者提出了新的去偏方法,建立了中心极限定理,并给出了一致方差估计量,从而得到渐近有效的分布式置信区间。基于去相关得分检验,文章还提供了有效且强有力的分布式假设检验,允许时依协变量和删失生存时间。模拟和实际数据实验表明,所提方法在估计精度和推断有效性上优于现有替代方法。本文对您正在研究的debiased ML和high-dimensional inference有直接方法论联系,尤其是分布式设置下的统计推断与假设检验问题。
  • 关键技术: communication-efficient distributed algorithm, debiased Lasso, decorrelated score test, Cox proportional hazards model, high-dimensional sparse inference, central limit theorem
  • 为什么对您有用: 本文涉及高维稀疏Cox模型下的分布式推断,直接关联您的高维统计与debiased ML兴趣:去偏方法和去相关得分检验是semiparametric效率理论的核心工具。您可以用very_familiar的高维渐近理论和软件研发能力,将本文的分布式框架推广到更一般的生存模型或因果推断中的时间事件数据(如Cox IV)。此外,本文的假设检验方法可与您moderately_familiar的HOIF结合,在分布式环境下实现高阶渐进效率。这是中期可做的:需先在moderately_familiar的semiparametric theory上加强(特别是去偏估计在Cox模型下的推广)。

2. 10.1080/01621459.2024.2448860 · arXiv — High-Dimensional Expected Shortfall Regression

  • 作者: Shushu Zhang, Xuming He, Kean Ming Tan, Wen-Xin Zhou
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1799-1810
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在高维稀疏模型设定下,本文研究条件期望短缺(expected shortfall, ES)回归的估计与推断问题,目标参数为给定高维协变量时响应变量尾部条件均值。作者提出 lasso 惩罚 ES 回归估计器,并在有限样本框架下建立非渐近误差界,显式依赖样本量 n、维度 p 与稀疏度 s。为对单个协变量做统计推断,进一步构造 debiased 估计器并证明其渐近正态性,从而可构建渐近有效的置信区间与检验。数值模拟与健康差异(health disparity)数据应用验证了方法的有效性。对您有用:本文将 debiased/orthogonal 推断技术从均值/分位数回归拓展至 ES 回归,直接连接 efficiency theory 与高维推断方向。
  • 关键技术: lasso-penalized expected shortfall regression, non-asymptotic error bound, debiased estimator, asymptotic normality, high-dimensional inference, conditional tail expectation
  • 为什么对您有用: 本文直接连接 efficiency theory(debiased inference)与高维统计方向,将 debiased Lasso 技术从均值/分位数回归成功移植到 ES 回归这一更复杂的尾部参数,属于高维推断的新方法拓展。用您 very_familiar 的高维渐近理论可直接审视其非渐近误差界与 debiased 步骤的矩条件是否可进一步放松;若想跟进 ES 回归的 semiparametric efficiency bound,需先在 moderately_familiar 的 semiparametric theory 上长肌肉(推导 ES 的 efficient influence function)。判断:中期可做。

数理统计 / 假设检验 (hypothesis_testing, 7 篇)

1. 10.1080/01621459.2024.2439617 · arXiv — Adaptive Testing for High-Dimensional Data

  • 作者: Yangfan Zhang, Runmin Wang, Xiaofeng Shao
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1893-1905
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在高维全局检验设定下,本文提出一类基于 Lq-范数的 U-statistics,覆盖均值向量、空间符号、线性模型系数联合检验及分量独立性检验等 estimand。核心机制是:在温和矩与累积量条件下,推导出不同 q 值对应的 Lq-U-statistics 的渐近正态性与相互渐近独立性,从而通过简单 p-value 组合实现针对不同稀疏度 alternative 的自适应检验。为缓解完整 U-statistic 的 O(n^q r) 计算代价,作者引入基于单调指标求和的不对称核变体,并设计动态规划算法将计算量降至 O(nr)。主要理论结果确立了渐近独立性命题与计算加速的精确复杂度阶,对您有用:直接连接高维 hypothesis testing 与 higher-order U-statistics 的计算优化。
  • 关键技术: Lq-norm based U-statistics, asymptotic independence of U-statistics, asymmetric kernel U-statistic, dynamic programming for U-statistic computation, adaptive p-value combination, high-dimensional global testing
  • 为什么对您有用: 本文直接连接您的高维 hypothesis testing 与 higher-order U-statistics 两个 primary interest 子方向,其动态规划降复杂度机制(O(n^q r) → O(nr))与您用 treewidth / einsum 分析 U-statistic 计算代价的技术路线高度同构。您可用 very_familiar 的 higher-order U-statistics (treewidth / tensor contraction / einsum) 武器直接分析其不对称核变体的 contraction 结构,验证 O(nr) 界是否紧或能否进一步优化;此为立即可做的 follow-up。

2. 10.1080/01621459.2025.2468013 — Statistical Inference for High-Dimensional Spectral Density Matrix

  • 作者: Jinyuan Chang, Qing Jiang, Tucker McElroy, Xiaofeng Shao
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Chinese Academy of Sciences · Southwestern University of Finance and Economics · Academy of Mathematics and Systems Science · Beijing Normal University · United States Census Bureau · Washington University in St. Louis
  • 分类: vol 120 · issue 551 · pp 1960-1974
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文研究高维时间序列中谱密度矩阵的统计推断问题,核心目标是检验交叉谱密度在给定频率集合上是否为零(全局检验)以及同时检验多个频率的零假设(多重检验)。方法层面,作者首次将高斯逼近(Gaussian approximation)和参数自助法(parametric bootstrap)引入频率域高维参数推断,构造了全局检验统计量并推导其渐近分布,同时提出了基于多重比较的错误发现率(FDR)控制程序。理论上,论文建立了检验的大小准确性和功效的渐近保证,并证明了FDR控制的多重检验程序在弱假设下的有效性。数值模拟和实际数据分析验证了方法在有限样本下的良好表现。本文与您对高维假设检验的兴趣直接相连,尤其是频率域中的多重检验问题可迁移至因果推断中处理时间序列数据时的多重假设检验场景。
  • 关键技术: Gaussian approximation, parametric bootstrap, frequency domain inference, FDR control via multiple testing, high-dimensional spectral density
  • 为什么对您有用: 本文直接连接您的高维统计和假设检验兴趣子方向,特别是高维频率域下的全局检验和多重检验。您的high-dimensional asymptotics(very_familiar)可以沿用来验证论文的渐近结果是否紧致,例如通过对比检验统计量的收敛速率与现有的高维中心极限定理。由于您已掌握高维渐近的核心工具,理解本文理论线(高斯逼近、bootstrap的渐近有效性)属于立即可做的范畴,无需先补其他技能。

3. 10.1080/01621459.2024.2427436 · arXiv — Simulation-Based, Finite-Sample Inference for Privatized Data

  • 作者: Jordan Awan, Zhanyu Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1669-1682
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对差分隐私机制引入的噪声导致统计量抽样分布复杂难解的问题,提出一种基于模拟的 'repro sample' 方法,用于构造有限样本下有效的置信区间和假设检验。该方法是 Xie & Wang 工作的推广,适用于各类私有推断问题,并能正确校准由隐私机制(如截断)引入的偏差。与传统参数 bootstrap 等推断方法相比,本文方法在覆盖率和第一类错误率上均有显著改进。此外,本文还为一般模型(不限于隐私)发展了 repro sample 的重大改进与扩展:其一是修正程序以在考虑 Monte Carlo 误差后仍能保证覆盖率和第一类错误;其二是提出高效数值算法来实现置信区间与 p 值的计算。从假设检验与统计计算的角度,本文提供的模拟推断框架可直接应用于您的 hypothesis testing 工作,而其高效算法部分也与您的 statistical computing 兴趣(数值方法)高度契合。
  • 关键技术: simulation-based inference, repro sample, differential privacy, parametric bootstrap, coverage guarantee, Monte Carlo error calibration
  • 为什么对您有用: 本文直接关联您 primary interest 中的 hypothesis testing 和 statistical computing:其核心是有限样本下保证覆盖率的推断方法,是检验问题的新工具。与您的 technical arsenal 对照:您非常熟悉的 'nonparametric statistics' 和 'software development' 可用来评估该模拟方法对非参数设置的适应性;而 'higher-order U-statistics' 中的 treewidth / einsum 技能虽然本问题不直接涉及,但您可思考应当如何将 repro sample 的模拟策略与 U-statistics 的抽样分布结合(中期可做,需先了解 repro sample 的理论框架)。本文提出的高效数值算法则是 stat computing 方向的立即可做参考项。总体而言,这篇文章适合深入阅读,作为 hypothesis testing 仿真推断的新方法纳入工具库。

4. 10.1080/01621459.2025.2479242 · arXiv — Network Goodness-of-Fit for the Block-Model Family

  • 作者: Jiashun Jin, Zheng Tracy Ke, Jiajun Tang, Jingming Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1919-1932
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在 block-model 族(SBM, DCBM, MMSBM, DCMM)的网络模型设定下,目标是检验所假设的模型是否正确拟合真实网络。作者提出 GoF-MSCORE 检验方法,核心机制有两点:一是以 cycle count 统计量作为 GoF 的通用 recipe;二是提出新的网络拟合方案(基于 MSCORE)。在四个模型下,若假设模型正确,对应 GoF 统计量均收敛到参数无关的 N(0,1) 极限零分布;同时分析了检验的 power,证明在许多设定下该统计量具有最优性。实证分析 12 个常用真实网络发现 DCMM 几乎全部拟合良好,而 SBM/DCBM/MMSBM 在较大网络上常被拒绝;理论补充显示 DCMM 的覆盖广度接近 rank-K 网络模型。对您可能有用:本文将 cycle count 构造为高阶 U-statistic 并推导其极限分布与最优 power,直接连接到 hypothesis testing 与 higher-order U-statistics 的交叉点。
  • 关键技术: cycle count statistics, network goodness-of-fit, MSCORE fitting scheme, parameter-free limiting null distribution, power optimality analysis, degree-corrected mixed membership model (DCMM)
  • 为什么对您有用: 本文直接连接到 hypothesis testing 与 higher-order U-statistics:cycle count 本质上是网络上的高阶 U-statistic,其极限分布与 power 分析依赖经典的 U-statistic projection 与 degeneracy 理论。用您 very_familiar 的 higher-order U-statistics (treewidth / tensor contraction) 视角,可以审视 cycle count 在大网络上的计算复杂度,并探索用 einsum 优化高阶 cycle 统计量的求值路径。follow-up 粗判:立即可做——用 very_familiar 的 U-statistic 计算工具分析 cycle count 的 tensor contraction cost,并验证其 degenerate U-statistic 的投影结构是否与您已有的理论框架一致。

5. 10.1080/01621459.2025.2464271 · arXiv — Fast Signal Region Detection With Application to Whole Genome Association Studies

  • 作者: Wei Zhang, Fan Wang, Fang Yao
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1360-1372
  • 相关性 5/10 · novelty: new_method
  • 摘要: 在全基因组关联研究(WGAS)的多因果变异聚合效应设定下,目标是同时检测多个信号区域(signal regions)。本文提出一种基于二分递归与重搜索排列的快速算法,配合高维检验,动态调整临界值序列以提升检测精度并降低计算量,区别于传统 scan 或 knockoff 方法。核心机制为 binary splitting with re-search,在每次分割后依据动态阈值重新搜索与排列候选区域,理论证明该方法在较弱假设下仍具 family-wise error rate 控制及检测一致性。实证与 UK Biobank 乳腺癌数据应用显示,算法计算速度显著快于 scan 类方法,且能发现新关联区域。对您有用:该动态阈值二分搜索机制可视为高维多重检验中降低计算复杂度的一种策略,与您对 hypothesis testing 及 stat computing 的兴趣直接相关。
  • 关键技术: binary splitting with re-search, dynamic critical value sequence, high-dimensional multiple testing, family-wise error rate control, region-based scan statistic, whole-genome association study
  • 为什么对您有用: 本文直接连接到您 primary interest 中的 hypothesis testing(高维多重检验的 FWER 控制与信号区域检测)以及 stat computing(算法计算复杂度优化)。您武器库中 very_familiar 的 minimax bounds 与 software development 可用于验证该动态阈值序列在更一般高维设定下的 rate sharpness,并复现其 binary splitting 算法。Follow-up 判断:立即可做——用 minimax bound 审视其检测一致性声称的 rate 是否紧,并用 einsum / tensor contraction 视角审视其递归分割的计算成本模型是否有进一步优化空间。

6. 10.1080/01621459.2025.2450837 — Identifying Genetic Variants for Brain Connectivity Using Ball Covariance Ranking and Aggregation

  • 作者: Wei Dai, Heping Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Yale University
  • 分类: vol 120 · issue 551 · pp 1323-1334
  • 相关性 5/10
  • 摘要: 在 SNP-set 与脑功能连接矩阵的关联分析设定下,目标是识别对高维相关性矩阵有影响的 SNP 集合,同时控制 FDR。本文提出 Ball Covariance Ranking and Aggregation (BCRA) 方法,通过 Ball covariance 度量捕捉 SNP 集与矩阵型响应间的复杂依赖结构,再经 ranking 与 aggregation 步骤构建集合水平的检验统计量。为应对大规模数据计算瓶颈,提出 subsample-BCRA,利用子采样近似将运行时间缩短 700 倍。模拟显示两方法在交互结构检测与 FDR 控制上表现良好;UK Biobank 34129 人实证发现 10 个 SNP-set(29 SNPs)显著影响功能连接,并识别出已知基因 NBPF15 的 eQTL 及 9 个与精神行为障碍相关的新基因。对您有用之处在于,BCRA 的 ranking/aggregation 构造与高阶 U-statistic 的投影/聚合思想有结构相似性,且 subsample 策略涉及统计-计算权衡。
  • 关键技术: Ball covariance, SNP-set hypothesis testing, ranking and aggregation, false discovery rate control, subsample approximation, matrix-valued response
  • 为什么对您有用: 本文直接连接 hypothesis testing 与统计计算加速两个子方向:(1) BCRA 的 ranking/aggregation 检验构造可视为对高阶依赖度量的降维投影,与您 higher-order U-statistic 的 treewidth/einsum 复杂度分析有结构对应——可探讨其 subsample 近似是否可用 tensor contraction 视角给出更紧的计算-统计权衡界;(2) subsample-BCRA 的 700 倍加速是典型的 computationally constrained inference 场景,可用您 very_familiar 的高维渐近理论验证其 FDR 控制的有限样本表现是否与渐近保证一致。Follow-up 判断:立即可做——用 very_familiar 的 higher-order U-statistic 复杂度框架(treewidth/einsum)分析 BCRA 统计量的计算成本,并对比 subsample 策略的精度-效率权衡。

7. 10.1080/01621459.2025.2520455 · arXiv — Debiasing Watermarks for Large Language Models via Maximal Coupling

  • 作者: Yangxinyu Xie, Xiang Li, Tanwi Mallick, Weijie Su, Ruixun Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1424-1436
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文针对大型语言模型(LLM)文本水印中引入的生成分布偏差问题,提出一种基于最大耦合(maximal coupling)的去偏水印方法。该方法将词元集合分为绿色和红色列表,通过提升绿色词元的生成概率嵌入水印信号;为校正这一概率扰动,使用均匀硬币翻转决定是否应用偏差校正,并将校正结果编码为伪随机水印信号。理论分析证明了该水印策略的无偏性——校正后生成分布与原始模型分布一致——以及检测功效的鲁棒性。实验结果表明,该方法在保持文本质量的同时实现了高检测率,并对旨在改善文本质量的针对性修改具有韧性。从假设检验角度看,水印检测是一个二元检验问题,本文提供了检验功效的理论保证;最大耦合作为一种概率耦合工具,可能推广至其他统计检验中的偏差校正场景。
  • 关键技术: green/red list watermark, maximal coupling, bias correction via coin flip, pseudorandom signal embedding, hypothesis test for watermark detection
  • 为什么对您有用: 本文直接关联您对假设检验的兴趣,因为水印检测本质上是检验LLM生成文本是否带有水印信号的假设检验问题,文章提供了无偏性和检测功效的理论分析。最大耦合方法是一种概率耦合技术,可能与您熟悉的非参数统计或逆问题中的去偏工具存在连接;此外,该方法的设计思路(通过随机化消除偏差)也可作为您在因果推断敏感性分析中构建无偏估计量的参考。从问题发现角度看,您可以用假设检验的最优性理论(如Neyman-Pearson引理)审视该方法的功效是否紧,或用您对高维统计的理解评估多token联合检测的场景——属于中期可做,需先在 moderately_familiar 的M估计理论中加深对耦合概率的理解。

统计计算 / 算法 (stat_computing, 7 篇)

1. 10.1080/01621459.2025.2455202 · arXiv — Efficient Estimation for Longitudinal Networks via Adaptive Merging

  • 作者: Haoran Zhang, Junhui Wang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1683-1694
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对纵向网络的高效估计问题,提出了一种自适应合并框架,通过合并稀疏的邻近快照来增加观测边数、降低方差,同时利用局部时间结构控制偏差。方法结合张量分解和点过程建模网络的动态演化,采用投影梯度下降算法进行参数估计,并建立了每次迭代的估计误差上界。理论分析表明,该估计量能够显著降低渐近均方误差,且网络合并的最优邻域大小由偏差-方差权衡决定。数值实验包括合成数据和一个军事化国家间争端数据集,验证了方法的实际优势。该工作为纵向网络分析提供了一套兼顾偏差控制的方差缩减工具,其张量分解与高阶统计量的结构相通,可使用您熟悉的树宽/einsum复杂度分析来评估计算成本。
  • 关键技术: adaptive network merging, tensor decomposition, point processes, projected gradient descent, bias-variance tradeoff
  • 为什么对您有用: 本文属于统计计算方向,其核心任务是设计兼顾偏差控制的合并策略与可扩展算法。研究者非常熟悉高阶U统计量的树宽/einsum复杂度分析,可以直接用于剖析张量分解步骤的计算瓶颈;同时,其高维渐近工具箱可用于验证合并策略的最优性条件。中期可做:需要在点过程与网络模型的基础文献上稍加投入,之后即可将偏差-方差权衡的分析范式迁移到自身的高阶统计量问题中。

2. 10.1080/01621459.2024.2436219 · arXiv — When Composite Likelihood meets Stochastic Approximation

  • 作者: Giuseppe Alfonzetti, Ruggero Bellio, Yunxiao Chen, Irini Moustaki
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1906-1918
  • 相关性 6/10 · novelty: new_method
  • 摘要: 在复合似然(composite likelihood)框架下,当似然组件数与样本量均很大时,传统极大复合似然估计的计算成本过高;本文提出用随机优化(stochastic approximation)近似该估计器。核心机制是:在每次迭代中仅随机抽取一部分似然组件来构造随机梯度,从而将计算量从 O(nK) 降至可接受范围。理论证明该新估计器具有渐近正态性,且其极限方差由两部分复合而成——数据抽样变异性与优化噪声,后者取决于构造随机梯度时的抽样分布;当样本量 n 与迭代次数 T 以特定相对速率发散时,两种不确定性可被精确刻画。实证通过 Ising 模型与 gamma frailty 模型模拟及大规模心理健康调查数据验证了方法有效性。对您可能有用:该文将随机近似引入复合似然,为高维/大样本下 semiparametric 与因果推断中常见的不完全似然/部分似然估计提供了计算加速思路。
  • 关键技术: composite likelihood, stochastic approximation, stochastic gradient descent, asymptotic normality with compound variance, Ising model, gamma frailty model
  • 为什么对您有用: 本文直接连接到 statistical computing 与 semiparametric theory 的交叉:复合似然是 semiparametric / latent-variable 模型中处理不可行全似然的标准工具,随机近似则提供了大样本下的计算捷径。您武器库中的 M-estimation theory(moderately_familiar)可以直接攻入其渐近方差分解的理论证明口子,验证 compound variance 的 rate 条件是否与 M-estimator 的经典收敛条件一致。Follow-up 粗判:中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,具体是将 stochastic approximation 的迭代收敛与 M-estimator 的 one-step correction 做统一分析;若想进一步将此框架迁移到因果推断的 IPW / DR 估计器上,还需结合您 very_familiar 的因果估计理论做适配。

3. 10.1080/01621459.2025.2464270 — Cutting Feedback in Misspecified Copula Models

  • 作者: Michael Stanley Smith, Weichang Yu, David J. Nott, David T. Frazier
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: The University of Melbourne · National University of Singapore · Monash University
  • 分类: vol 120 · issue 551 · pp 1975-1989
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在copula模型中,边际分布和copula函数分别指定,当某一部分模型设定错误时,标准贝叶斯后验会受到污染。本文提出一种模块化贝叶斯推断框架,通过“cutting feedback”限制错误指定模块对后验推断的影响,类似于贝叶斯版的IFM估计。作者考虑了两种cut:第一种cut限制错误指定的copula对边际推断的影响;第二种cut使用秩的伪似然来限制错误指定的边际对copula参数推断的影响。理论证明,若仅有一个模块错误指定,适当选择的后验cut能在渐近上对另一模块的参数给出准确的不确定性量化。由于cut后验难以直接计算,论文进一步发展了新的变分推断方法实现计算。模拟和宏观经济预测中的多元时间序列copula应用(涉及1096维copula)表明,cutting feedback能大幅提升后验推断和预测精度。对您而言,本文的模块化cutting思想可类比因果推断中的同类技术,而新提出的变分推断算法为你熟悉的统计计算方向提供了可直接实现和扩展的方法。
  • 关键技术: cutting feedback, modular Bayesian inference, variational inference, pseudo likelihood of ranks, inference for margins (IFM)
  • 为什么对您有用: 本文的核心——模块化cutting反馈——与您在因果推断中处理错误指定或干扰模块的思路类似,可直接触发您在因果识别(尤其是IV、proximal CI)中类似问题的思考。技术武器库中,您非常熟悉的"software development"可直接用来实现文中的变分推断算法并测试其计算效率,而"minimax bounds for estimation problems"可用来分析cut后验的渐近最优性。总体而言,这是立即可做的:您可以立即编写代码复现文中的变分推断方法,并尝试应用到您熟悉的因果推断场景(如切割错误指定的输出模型)。

4. 10.1080/01621459.2025.2540653 — Optimal Transport based Cross-Domain Integration for Heterogeneous Data

  • 作者: Yubai Yuan, Yijiao Zhang, Babak Shahbaba, Norbert Fortin, Keiland Cooper, Qing Nie et al.
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Pennsylvania State University · Fudan University · University of California, Irvine · University of California, Santa Barbara
  • 分类: vol 120 · issue 551 · pp 1449-1462
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对异质性纵向数据集(如神经科学数据)中共享动态模式提取困难的问题,提出基于最优传输的跨域整合框架。核心思想是利用Gromov-Wasserstein(GW)和fused Gromov-Wasserstein(FGW)距离,将多个领域的纵向数据对齐到公共潜在空间,通过barycentric projection实现无需辅助匹配信息的整合。理论方面,建立了监督学习任务中的泛化误差界,揭示了数据对齐与模式学习之间的非平凡权衡,并推导了barycentric projection在GW和FGW距离下的收敛速率。数值实验在模拟数据和真实神经科学数据上表明,该方法显著提升了跨域预测精度。对您有用:本文的非参数泛化界分析可用您熟悉的minimax技术验证其sharp性,但核心工具最优传输尚不在您的武器库中,可作为统计计算方向的新方法关注。
  • 关键技术: Optimal Transport, Gromov-Wasserstein Distance, Fused Gromov-Wasserstein Distance, Domain Adaptation, Barycentric Projection, Generalization Error Bound
  • 为什么对您有用: (1) 本文属于跨域数据整合,与您兴趣中的统计计算(最优传输算法)和非参数理论(泛化误差界)有连接;(2) 您very_familiar的minimax bounds方法可用于验证本文泛化界是否sharp,但核心工具最优传输(GW/FGW)您尚不熟悉;(3) 暂不可做,因为需要补充最优传输和domain adaptation的理论与算法基础。

5. 10.1080/01621459.2024.2447111 · arXiv — Robust Bayesian Modeling of Counts with Zero Inflation and Outliers: Theoretical Robustness and Efficient Computation

  • 作者: Yasuyuki Hamura, Kaoru Irie, Shonosuke Sugasawa
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1545-1557
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对零膨胀和离群计数数据,提出一种鲁棒贝叶斯建模框架。标准 Poisson 或负二项模型对这类污染敏感,作者引入重缩放 Beta 分布(rescaled beta distribution)来同时吸收零膨胀和大离群值的影响。后验推断通过定制的 Gibbs 抽样实现,计算效率高且易于实现。理论部分证明了后验鲁棒性:极端离群值会自动被后验分布忽略,无需手动剔除。模型进一步扩展至趋势滤波和空间建模,利用预测高斯过程展示实证效果。本文对您可能有用:虽然不直接涉及因果推断或高维理论,但高效的 Gibbs 采样算法和鲁棒性理论可迁移至您关注的统计计算与软件实现方向。
  • 关键技术: rescaled beta distribution, Gibbs sampling, posterior robustness, predictive Gaussian process, trend filtering, spatial modeling
  • 为什么对您有用: 该论文连接至您的主要兴趣 'statistical computing(数值方法与算法)',特别是高效的 Gibbs 采样实现。您非常熟悉的 'software development' 工具可直接用于复现、优化或对比该采样算法。另外,后验鲁棒性的理论分析(自动忽略极端值的性质)与您 moderately_familiar 的 'M-estimation theory' 中的稳健性概念有交集,可中期尝试将其思想迁移至因果推断中的敏感性分析。综合判断:立即可做的改进包括用更高效率的数值线性代数替换 Gibbs 中的某些步骤,中期可做的是在稳健因果推断(如 IV 中的逆概率权重)中引入类似的重缩放分布。

6. 10.1080/01621459.2025.2540256 — Correction

  • 作者:
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 2011-2014
  • 相关性 1/10 · novelty: minor
  • 摘要: 本文是对 Bhattacharya 等人原论文中 Dirichlet-Laplace (DL) 先验下 MCMC 算法的一个更正。原算法在条件高斯设定中以错误顺序抽取条件分布,导致未能正确从所有潜变量的联合后验中抽样。本文详细诊断了该问题,并给出两类简单补救方案:一是直接修正原算法的抽样顺序,二是基于先验的另一种等价参数化形式设计新算法。文中不涉及对原论文理论结果(如收缩性质、收敛率)的任何影响,纯粹是针对计算实现细节的修正。该文对于熟悉贝叶斯计算但容易忽视条件分布顺序的统计研究者具有警示意义,特别适合与您的统计计算(numerical methods, algorithm)兴趣直接对接。
  • 关键技术: MCMC, Dirichlet-Laplace prior, conditional sampling order, posterior simulation, conditionally Gaussian model
  • 为什么对您有用: 本文与您的统计计算兴趣直接相关,属于 MCMC 算法调试与修正的实例。您武器库中 software development 一项可在此类算法实现细节上发挥作用(例如在测试或包装 R/Julia 包时避免类似顺序错误)。本文适合作为快速阅读的警醒案例,立即可读。

7. 10.1080/01621459.2025.2526711 — Financial Data Analytics with R: Monte-Carlo Validation

  • 作者: Tony Sit
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Chinese University of Hong Kong
  • 分类: vol 120 · issue 551 · pp 2009-2010
  • 相关性 0/10 · novelty: minor
  • 摘要: 本文是JASA上对Jenny K. Chen所著《Financial Data Analytics with R: Monte-Carlo Validation》的书评。该书系统介绍了金融数据分析中常用的蒙特卡洛验证方法,涵盖模拟设计、随机数生成、方差缩减技术等核心内容。全书共275页,以R语言为实践工具,提供大量可复现代码。书评指出该书结合了金融背景与计算实现,适合作为应用型统计工作者的参考读物。内容虽偏重实践,但缺少理论深度和前沿方法(如分布式模拟或多层蒙特卡洛)。作为书评,该文本身并未提出新方法学贡献;其价值在于为R用户提供蒙特卡洛金融分析的入门手册。对于您而言,该书评指向统计计算领域的具体实践方向,但您已有扎实的统计软件开发和R使用经验,入门级读物价值有限。
  • 关键技术: Monte-Carlo simulation, variance reduction, R programming, financial data analytics
  • 为什么对您有用: 本文位于stat_computing领域,涉及蒙特卡洛验证这一数值方法实践。由于您对统计计算(软件、数值方法)有secondary兴趣,本文可视为该方向的入门指引。但您的技术武器库在'软件发展'方面已非常熟悉,而该书内容偏向基础知识,缺乏您可能关心的tensor-network或einsum复杂度等高级技术,因此不值得花时间精读全文。

流行病学 (epidemiology, 1 篇)

1. 10.1080/01621459.2025.2460232 · arXiv — Distributional Outcome Regression via Quantile Functions and its Application to Modelling Continuously Monitored Heart Rate and Physical Activity

  • 作者: Rahul Ghosal, Sujit K. Ghosh, Jennifer A. Schrack, Vadim Zipunnikov
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1347-1359
  • 相关性 3/10 · novelty: new_method
  • 摘要: 在分布性数据分析框架下,本文提出分布性结局回归模型 DORQF,目标 estimand 为条件分布的分位函数,设定中允许同时包含标量与分布性预测变量(如心率与体力活动的日分布)。核心机制通过不强制单系数单调的参数化结构,结合约束优化保证联合单调性,从而避免过强假设;推断方面利用 asymptotic projection 构造 functional coefficients 的联合置信带,并提出全局显著性检验。实证基于 Baltimore 老龄纵向研究的 781 名老年人一周分钟级 Actiheart 数据,量化年龄相关的心率储备分布变化,并控制日常体力活动分布等协变量。对您可能有用:该文展示了分布性回归在流行病学 wearable 数据中的应用范式,其 projection-based confidence band 构造与 semiparametric 推断有技术交集。
  • 关键技术: distributional outcome regression, quantile function modeling, joint monotonicity constraint, asymptotic projection-based confidence band, global significance test, wearable sensor data analysis
  • 为什么对您有用: (1) 本文属于流行病学 wearable 数据的应用范式,连接您 secondary interest 中 epidemiology 的数据集与因果/回归建模;(2) 其 projection-based joint confidence band 构造触及您 very_familiar 中的高维渐近理论,可用 minimax bound 视角审视其推断的 rate 是否紧;(3) 属于 gateway-reading:对分布性数据分析入门友好,武器库足以支撑读懂其推断部分,值得花时间读全文以了解流行病学高频数据建模的典型 pipeline。

其他 (other, 8 篇)

1. 10.1080/01621459.2024.2448029 · arXiv — U-Statistic Reduction: Higher-Order Accurate Risk Control and Statistical-Computational Trade-Off

  • 作者: Meijia Shao, Dong Xia, Yuan Zhang
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1593-1606
  • 相关性 10/10 · novelty: new_method
  • 摘要: U统计量在统计学习工具中扮演核心角色,但计算复杂度高,通常通过U统计量缩减(incomplete U-statistics)加速。现有缩减方法几乎只关注检验功效(power),缺乏对风险控制(risk control)准确性的理论保证。本文首次建立了不完全U统计量的高阶精确统计推断程序,利用新的Edgeworth展开技术得到剩余项的sharp界。该框架将不同抽样设计的case-by-case分析转化为原则性的例行计算,首次揭示了风险控制精度与计算速度之间的折中关系,补充了经典的方差-速度折中。数值实验和真实数据应用验证了理论结果的尖锐性。对于您而言,这篇论文直接连接higher-order U-statistics(very familiar)和statistical-computational tradeoff(您想进入的方向),可作为理解该权衡的标准入门文献。
  • 关键技术: U-statistic reduction, incomplete U-statistics, Edgeworth expansion, higher-order risk control, statistical-computational tradeoff, variance-speed tradeoff
  • 为什么对您有用: (1)直接命中您的两个primary interests:higher-order U-statistics(您最熟悉的领域之一)和statistical-computational tradeoff(您想深入了解的方向);这篇论文首次在同一框架下给出风险控制精度与计算速度的量化权衡,可作为进入统计-计算折中领域的gateway reading。(2)兵器库中very_familiar的“higher-order U-statistics理论与计算(treewidth/tensor contraction)”可直接用于分析文中incomplete U-statistics的收缩路径与计算成本,甚至改进其加速算法。立即可做的是复现并扩展其数值实验,用您的tensor-contraction视角解释折中曲线。

2. 10.1080/01621459.2025.2516201 · arXiv — Joint Spectral Clustering in Multilayer Degree-Corrected Stochastic Blockmodels

  • 作者: Joshua Agterberg, Zachary Lubberts, Jesús Arroyo
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1607-1620
  • 相关性 6/10 · novelty: sharper_rate
  • 摘要: 本文研究多层网络数据的联合社区检测问题,提出多层度修正随机块模型(multilayer DCSBM),假设各层共享相同的社区结构,但允许度参数和层间连接概率矩阵不同。首先证明模型的可识别性,并基于谱嵌入与K-means聚类的联合谱聚类算法。理论结果表明,即使各层存在显著异质性,误聚类率随网络层数增加呈指数级下降,显著优于单层方法。算法无需正交对齐等后处理,计算效率高。通过模拟实验验证了方法对现有多层社区检测方法的优势。案例分析使用2016年1月至2021年9月的美国机场数据,识别出有意义的社区结构及疫情对航空旅行的影响趋势。对您而言,本文的谱聚类分析与随机矩阵特征向量收敛性有潜在联系,可作为高维网络数据分析的补充参考。
  • 关键技术: multilayer degree-corrected stochastic blockmodel, joint spectral clustering, identifiability analysis, misclustering error rate, exponential improvement, K-means clustering
  • 为什么对您有用: 本文涉及的多图层随机块模型及谱聚类理论,与您在高维统计方向对随机矩阵特征向量的兴趣有一定交集,可以关注其指数级速率改善背后的谱分析工具。虽然不属于核心因果推断或U统计方向,但作为应用统计方法的前沿成果,可作为理解网络数据聚类技术的入门材料。当前武器库中的非参数统计和最小最大界工具可用于评估其理论紧致性,但全文可暂缓深读。

3. 10.1080/01621459.2025.2507825 · arXiv — Partially Exchangeable Stochastic Block Models for (Node-Colored) Multilayer Networks

  • 作者: Daniele Durante, Francesco Gaffi, Antonio Lijoi, Igor Prünster
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1811-1827
  • 相关性 5/10 · novelty: new_method
  • 摘要: 针对节点着色(node-colored)多层网络(不同层节点集可能不同)缺乏灵活的随机块模型的问题,该文提出了部分可交换随机块模型(PE-SBM)。模型通过层次随机分割先验(hierarchical random partition prior)实现节点到组的分配,组数由数据自动学习,从而同时捕捉层内和层间的块连通结构。关键机制是基于部分可交换性构造,使得模型在概率上保持一致,并能导出跨层联合聚类的闭式预测分布,便于先验设定和理论性质分析。后验推断采用可折叠吉布斯采样器,计算可行。在模拟和真实犯罪网络数据上,该模型显著优于现有方法。该文的方法贡献在于将部分可交换性与随机块模型结合,填补了节点着色多层网络建模的空白。对于您,虽然不属于您的主要兴趣方向,但多层结构下的可交换性建模思路可能启发因果推断中复杂网络干扰或多层ATE估计的设计,例如利用分层先验建模工具变量中不同层级的相关性。然而,核心建模工具(贝叶斯非参数随机块模型)不在您当前武器库中,且缺乏贝叶斯推断经验,因此暂不可直接跟进。
  • 关键技术: Partially exchangeable stochastic block models, Hierarchical random partition prior, Collapsed Gibbs sampler, Node-colored multilayer networks, Closed-form predictive co-clustering probabilities
  • 为什么对您有用: 本文属于统计建模方法,可间接连接到nonparametric & semiparametric theory中的随机块模型,但未涉及因果推断或高维理论。从技术转移视角,其层次先验和闭式预测结构可以用于推导多层因果设定中的识别条件(例如敏感性分析中的结构约束),但需先补充贝叶斯非参数建模能力(moderately_familiar中缺少,属暂不可做)。follow-up粗判:暂不可做——核心机器(贝叶斯非参数先验、随机块模型推断)不在当前武器库中。

4. 10.1080/01621459.2025.2485359 · arXiv — Asymptotic Guarantees for Bayesian Phylogenetic Tree Reconstruction

  • 作者: Alisa Kirichenko, Luke J. Kelly, Jere Koskela
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1569-1579
  • 相关性 4/10 · novelty: weaker_assumption
  • 摘要: 本文研究贝叶斯系统发育树重建的一致性准则,目标是从 DNA 序列样本推断共同祖先,覆盖 BEAST、MrBayes、RevBayes 等广泛使用的贝叶斯算法。与现有渐进保证不同,该方法不需要对分支长度进行离散化或有界性假设,仅依赖可处理的后验收缩条件。作者通过两个实例展示准则的实用性:Kingman 合并先验(有根超度量树)和独立先验(无约束二叉树),并在这两种情况下都获得了与已知频率派结果匹配的收敛速度(仅差对数因子)。该方法还适用于非二元树模型,具有高度灵活性。对于研究者而言,本文提供了非参数贝叶斯后验收缩在复杂树空间上的一个有趣应用,其放松有界性假设的思路与效率理论中弱假设下的 minimax rate 问题有共鸣,可作为非参数理论扩展的参考。
  • 关键技术: Bayesian consistency, posterior contraction rate, Kingman coalescent prior, tree shape priors, no boundedness assumptions
  • 为什么对您有用: 本文与研究者主要的非参数统计兴趣有间接联系,它展示了在非欧氏树空间上建立后验收缩率的方法,并放松了经典假设(分支长度有界性),属于非参数贝叶斯理论的新进展。然而,核心证明工具(树空间几何、合并先验的收缩性质)不在研究者当前武库中,需要专门学习后才能深入评价。因此暂不可直接转化为可动手问题,但值得作为非参数贝叶斯扩展阅读,尤其是其“更弱假设给出相同率”的分析策略。

5. 10.1080/01621459.2024.2444700 · arXiv — Modeling Preferences: A Bayesian Mixture of Finite Mixtures for Rankings and Ratings

  • 作者: Michael Pearce, Elena A. Erosheva
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1621-1632
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文提出联合建模排名和评分数据的统一统计模型——Bradley-Terry-Luce-Binomial (BTL-Binomial),以同时利用两种偏好表达方式的互补信息。模型通过评判者随机效应捕捉个体差异,并通过潜在类别混合框架处理偏好异质性,且类别数无需事先指定。采用贝叶斯有限混合模型(MFM)进行参数估计,相比传统可逆跳跃MCMC实现了更高的计算效率。在模拟及学术同行评审真实数据上展示了联合推断与决策能力。虽不直接涉及因果或高维推断,但其异质性建模思路和贝叶斯MFM方法在您熟悉的统计计算(特别是混合模型实现)领域有借鉴意义。
  • 关键技术: Bayesian mixture of finite mixtures (MFM), Bradley-Terry-Luce model, Binomial model, judge-specific random effects, latent class model
  • 为什么对您有用: 本文主要贡献于贝叶斯混合模型,与您的主要兴趣(因果推断、高维统计等)方向不直接重叠。但其计算高效的MFM实现(利用您非常熟悉的软件开发能力可复现)可作为统计计算的一个应用案例;此外,潜在类别框架在您 moderately_familiar 的因果推断识别理论中处理未观测异质性时或有类比价值。整体上属于弱相关的新方法论文,读全文的必要性较低,如需扩展贝叶斯建模视野可快速浏览。

6. 10.1080/01621459.2024.2428466 · arXiv — When Frictions Are Fractional: Rough Noise in High-Frequency Data

  • 作者: Carsten H. Chong, Thomas Delerue, Guoying Li
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1531-1544
  • 相关性 3/10 · novelty: new_method
  • 摘要: 本文针对高频金融数据中的市场微观结构噪声,提出噪声为粗糙(rough)的分数布朗运动模型,即噪声局部行为类似分数布朗运动。假设有效价格服从连续Itô半鞅,作者推导了噪声粗糙度参数、积分价格波动率和噪声波动率的一致估计量及其渐近置信区间。估计方法基于将观测收益分解为有效收益与粗糙噪声的和,利用不同频率下的自协方差结构进行矩估计。通过模拟和真实数据(如美股日内收益率)验证了方法的有效性,并发现粗糙噪声模型能解释波动率签名图中时变的发散率。该文为高频数据噪声建模提供了新的半参数框架,其估计理论依赖于鞅差序列和分数布朗运动的渐近分析。对您可能有用:虽然主题是金融,但其半参数设定和渐近估计技术可与您熟悉的非参数统计和估计理论相连接,用于处理具有粗糙扰动的连续时间因果模型。
  • 关键技术: fractional Brownian motion, Itô semimartingale, rough volatility, consistent estimation, asymptotic confidence intervals, volatility signature plot
  • 为什么对您有用: 本文涉及半参数模型(粗糙度参数+非参数连续路径)与渐近推断,直接连接您对'半参数与非参数理论'的兴趣。您可以用'非参数统计'(very_familiar)中的局部矩估计工具来理解其估计机制,并考虑将该噪声模型拓展至具有测量误差的因果推断设定(如连续时间IV/mediation)。立即可做:您已有的非参数和渐近理论背景已足够读懂本文的主要理论部分,无需额外准备。

7. 10.1080/01621459.2025.2455200 · arXiv — Modeling Hypergraphs with Diversity and Heterogeneous Popularity

  • 作者: Xianshi Yu, Ji Zhu
  • 期刊/来源: Journal of the American Statistical Association
  • 分类: vol 120 · issue 551 · pp 1491-1502
  • 相关性 2/10 · novelty: new_method
  • 摘要: 本文研究超图(hyperedges)的统计建模,传统模型多基于节点间的相似性,而本文提出基于多样性和节点异质性流行度的新模型。模型使用行列式点过程(determinantal point process)刻画超边内部的多样性,每个节点赋予一个流行度参数。作者证明了极大似然估计量的一致性和渐近正态性,证明难点在于参数空间的特殊构型。参数估计算法采用投影加速梯度下降法,在模拟中展示了有效性。在What's Cooking食谱数据上应用该模型,获得了食材的嵌入表示。该工作为超图建模提供了新视角,但其统计理论框架与研究者当前主攻的因果推断、半参数效率理论距离较远。
  • 关键技术: determinantal point process, latent space model for hypergraphs, projected accelerated gradient descent, maximum likelihood estimation, asymptotic normality
  • 为什么对您有用: 本文涉及超图的高阶交互结构,与研究者感兴趣的higher-order U-statistics中处理多项关系有概念层面的联系;估计量的渐近理论(一致性、正态性)也与研究者熟悉的nonparametric statistics和high-dimensional asymptotics有交集。然而,核心工具(DPP、超图嵌入)不在研究者当前武器库的非常熟悉或中等熟悉列表中,且缺乏与因果推断、效率理论、计算-统计权衡的直接接口。因此,该文暂不可作为立即可做的follow-up来源,但可作为了解网络数据高阶建模的入门阅读。

8. 10.1080/01621459.2025.2506201 — Generalized Linear Mixed Models: Modern Concepts, Methods and Applications, 2nd ed.

  • 作者: Xing Liu
  • 期刊/来源: Journal of the American Statistical Association
  • 机构: Eastern Connecticut State University
  • 分类: vol 120 · issue 551 · pp 2003-2005
  • 相关性 0/10 · novelty: survey
  • 摘要: 本文是 Stroup 等人所著《Generalized Linear Mixed Models: Modern Concepts, Methods and Applications》第二版的书评,发表于 JASA。该书主要在 GLMM 框架下整合了现代概念与方法,涵盖从线性混合模型到广义情形的理论与应用,重点讨论了 likelihood-based inference 与设计视角。书评指出新版在计算方法(如 SAS PROC GLIMMIX 实现)和广度上有所更新,但理论深度仍偏向应用统计而非严格的数学统计推导。对您而言,GLMM 的 semiparametric efficiency 与高维设定下的 inference 问题在本书中未被深入触及,仅可作为了解 GLMM 应用生态的入门读物。
  • 关键技术: generalized linear mixed models, likelihood-based inference, quasi-likelihood, Laplace approximation, restricted maximum likelihood
  • 为什么对您有用: GLMM 的 semiparametric / high-dimensional inference 理论与您 primary interest 中的 semiparametric efficiency bounds 和 high-dimensional statistics 有潜在交叉,但本书及书评均停留在传统应用层面,未触及这些前沿理论。用您 very_familiar 的高维渐近理论或 moderately_familiar 的 semiparametric 理论可以攻击 GLMM 在高维随机效应下的 efficiency 与 inference 问题,但这需要自行构建理论框架,本书无法提供直接入口。中期可做:需先在 moderately_familiar 的 semiparametric 理论上长肌肉,才能将 GLMM 的复杂相关结构纳入 efficiency bound 计算。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论