JRSSB — Vol 88 Issue 2 · 2026-05-26¶

共 11 篇 · Journal of the Royal Statistical Society Series B

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

这一期共11篇论文，整体上可归纳为四条主线：因果推断与图模型（CStrees、interventional DAG等价）、高维统计与张量/矩阵方法（稀疏张量分解变点检测、低秩PMI矩阵推断）、非参数/半参数方法与稳健推断（流形GP、block maxima bootstrap、Riemannian Huber mean、特征分配模型）、以及假设检验与计算（水印检测、分布式学习、流形假设探索、空间填充设计）。其中，因果推断与高维方法各占两篇，非参数/半参数方向最为集中（四篇），假设检验与计算方向覆盖应用与理论。

在因果推断主线上，两篇论文分别从不同角度推进了因果模型的表示与等价性。Representation of context-specific causal models 引入CStrees模型族，通过新的因子分解准则统一并推广了DAG、labelled DAG与staged tree，并给出了观测与干预数据下的模型等价图刻画（推广Verma-Pearl准则），直接服务于context-specific因果结构的识别。另一篇Inference of dependency knowledge graph for EHR虽非直接因果，但其低秩PMI矩阵的entrywise渐近正态性为从观测数据中恢复稀疏图边提供了推断工具，与因果图学习中的边检验问题有方法上的交叉。

高维统计与张量/矩阵方法主线中，Spectral change point estimation 将变点检测问题转化为CUSUM张量的稀疏张量分解，通过频率特定投影降维实现部分结构变点的定位，理论覆盖变点数目与位置的一致性。Inference of dependency knowledge graph 则聚焦于非线性统计量（PMI）的低秩矩阵推断，填补了时序依赖下entrywise渐近正态性的理论空白，其方法可直接用于高维图模型中的边显著性检验。

非参数/半参数方法主线最为丰富。Scalable Bayesian inference for heat kernel GP 通过图Laplacian的reduced-rank近似将流形GP计算复杂度降至O(n)，并保留几何结构，适用于fMRI等大规模流形数据。Bootstrapping estimators based on the block maxima 揭示了block maxima估计量下naive bootstrap的不一致性，并提出基于circular block maxima的一致bootstrap方案，对极值推断的实践有直接指导。Huber means on Riemannian manifolds 在流形上引入稳健的Huber mean，给出breakdown point至少0.5的稳健性保证，并构建了CLT与置信域，适合重尾流形数据。Bayesian analysis of product feature allocation 则从贝叶斯非参数角度统一了IBP等特征分配模型的预测结构与后验分布，为生态学等领域的特征计数提供闭式推断。

假设检验与计算方向中，Robust detection of watermarks 提出截断拟合优度检验（Tr-GoF），在人类编辑干扰下达到鲁棒检测的最优性，且自适应无需知晓编辑水平，对比揭示了求和型统计量的脆弱性。Additive-Effect Assisted Learning 在隐私与通信约束下，通过两阶段协议实现分布式学习中Alice达到集中式oracle性能，其隐私感知筛选与协同迭代训练策略具有实用价值。Statistical exploration of the manifold hypothesis 提出LMS模型从统计机制解释流形涌现，为高维数据几何结构的探索性推断提供理论框架。A stratified L2-discrepancy 则从空间填充设计角度提出新的均匀性度量，涵盖最小aberration准则并给出下界与构造方法。

与因果推断方向最贴的优先看 Representation of context-specific causal models（CStrees与干预等价）和 Inference of dependency knowledge graph（低秩图边推断）；与半参数效率/稳健推断方向最贴的优先看 Huber means on Riemannian manifolds（流形稳健估计与CLT）和 Bootstrapping estimators based on the block maxima（bootstrap一致性）；与高维统计方向最贴的优先看 Spectral change point estimation（稀疏张量分解变点）和 Inference of dependency knowledge graph（低秩矩阵entrywise推断）。

因果推断 (causal_inference, 1 篇)¶

1. 10.1093/jrsssb/qkaf059 — Representation of context-specific causal models with observational and interventional data¶

作者: Eliana Duarte, Liam Solus
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 567-610
相关性 8/10 · novelty: new_method
摘要: 本文在观测与干预（硬/软干预）数据共存设定下，研究 context-specific 因果模型的表示问题，引入新的 context-specific 条件独立模型族 CStrees。CStrees 通过新的因子分解准则推广了经典 interventional DAG 模型的因子分解性质，并严格包含 DAG、labelled DAG 与 staged tree 模型族。作者给出观测 CStrees 的模型等价图刻画（推广 Verma-Pearl DAG 等价准则），并进一步将其扩展到 context-specific 干干预下的 CStree 模型等价。文中形式化了 context-specific 干预概念，使其可嵌入 CStree 的简洁图表示；并提出从观测与干预数据（干预目标未知、效应可为硬/软且 context-specific）学习 CStrees 的算法，模拟与真实数据上表现良好。对您有用：CStrees 的因子分解与等价刻画为 context-specific 设定下的 identification 与 estimation 提供了新图工具，可连接到您因果推断 identification theory 的兴趣。
关键技术: context-specific conditional independence, CStree factorization, Verma-Pearl equivalence extension, context-specific intervention, model equivalence characterization, structure learning from mixed data
为什么对您有用: 本文直接连接到因果推断 identification theory 子方向：CStrees 推广了 DAG 因子分解与 Verma-Pearl 等价准则，为 context-specific 设定下的 identification 提供新图表示工具。您在 identification theory 方向 moderately_familiar，可用 semiparametric theory 与 M-estimation 的视角审视 CStree 模型下参数的 identification 与估计效率，这是一个中期可做的方向——需先在 context-specific 因果图的语言上长肌肉（熟悉 staged tree / CStree 的图论定义与因子分解）。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶

1. 10.1093/jrsssb/qkaf064 — Spectral change point estimation for high-dimensional time series by sparse tensor decomposition¶

作者: Xinyu Zhang, Kung-Sik Chan
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 677-696
相关性 9/10 · novelty: new_method
摘要: 在高维时间序列的频域框架下，本文研究部分结构变点（仅涉及部分序列/频段）的检测与定位问题，目标 estimand 为所有变点位置、受影响序列及对应频段。方法核心：先基于分块谱估计构造 CUSUM 张量，再通过频率特定投影降维——投影方向由自适应稀疏水平的张量分解算法估计，最后跨频段聚合投影 CUSUM 向量做变点检测。理论上证明了估计变点数的正确性与位置的收敛速率，并给出投影方向估计的误差界以识别频率特定受影响序列，参数选择有数据驱动规则。对您可能有用：CUSUM 张量 + 稀疏张量分解的降维-聚合策略，直接连接到您的高维统计与张量/einsum 计算武器库。
关键技术: CUSUM tensor construction, sparse tensor decomposition, frequency-specific projection, spectral estimation in frequency domain, high-dimensional change point detection, error bounds for projection direction
为什么对您有用: 本文连接到高维统计与统计计算（张量分解）子方向：CUSUM 张量的构造与稀疏张量分解算法直接触及您 very_familiar 的 tensor contraction / einsum 计算工具，可分析其分解算法的计算复杂度与 contraction order 优化。立即可做：用 einsum/treewidth 视角审视其张量分解的计算成本，并验证理论收敛速率是否可达 minimax 下界。

2. 10.1093/jrsssb/qkaf061 — Inference of dependency knowledge graph for Electronic Health Records¶

作者: Zhiwei Xu, Ziming Gan, Doudou Zhou, Shuting Shen, Junwei Lu, Tianxi Cai
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 637-656
相关性 4/10 · novelty: new_theory
摘要: 在高维电子健康记录(EHR)知识图谱(KG)构建问题中，目标是在动态log-linear主题模型下对KG边的存在性进行统计推断，关键假设为PMI矩阵的低秩结构与时序依赖。方法通过对经验点互信息(PMI)矩阵做SVD估计KG嵌入，再建立低秩估计量的逐元素(entrywise)渐近正态性，从而以控制type I error的方式恢复稀疏图边。核心理论难点在于PMI是非线性统计量，传统低秩矩阵推断理论不直接适用，本文填补了低秩时序依赖模型下非线性统计量推断的空白。主要结果为entrywise渐近正态性定理及相应的edge recovery一致性保证，实证上在真实EHR数据构建了临床KG。对您有用：entrywise低秩矩阵推断与您的高维渐近/RMT兴趣直接对接，且非线性统计量(PMI)推断框架可能为higher-order U-stat在依赖结构下的推断提供参照。
关键技术: singular value decomposition on PMI matrix, entrywise asymptotic normality, dynamic log-linear topic model, pointwise mutual information, low-rank estimator inference under temporal dependence, sparse edge recovery with type I error control
为什么对您有用: 连接到高维统计/RMT方向——entrywise低秩矩阵推断是近年高维推断热点，PMI的非线性变换增加了理论难度。technical_arsenal中'high-dimensional asymptotics'可直接对接entrywise normality部分；'minimax bounds for estimation problems'可审视其低秩估计rate是否紧；PMI本质上是二阶U-stat类型的非线性变换，其推断缺口可用'HOIF / higher-order U-statistics'视角切入分析高阶投影在依赖结构下的性质。中期可做：需先在'theory of higher-order U-statistics'上长肌肉，才能系统分析PMI这类非线性变换在时序依赖下的高阶投影与推断。

非参数 / 半参数 (nonparam_semipara, 4 篇)¶

1. 10.1093/jrsssb/qkaf057 — Scalable Bayesian inference for heat kernel Gaussian processes on manifolds¶

作者: Junhui He, Guoxuan Ma, Jian Kang, Ying Yang
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 516-539
相关性 4/10 · novelty: new_method
摘要: 本文在流形上的指数族模型设定下，研究 heat kernel Gaussian process 的可扩展贝叶斯推断问题，目标是估计 fMRI 激活流形。核心方法通过图 Laplacian 转移矩阵的 reduced-rank 近似与截断 SVD 计算 eigenpair，将计算复杂度从 O(n^3) 降至 O(n)，同时保留数据的内蕴几何。理论贡献在于建立了该近似下 GP 后验收敛的保证，数值实验在 Human Connectome Project 数据上验证了可扩展性与精度提升。对您可能有用：流形上非参数 GP 的低秩近似策略与图 Laplacian eigenpair 截断技术，可直接迁移到您熟悉的 inverse problems with random noise 与非参数估计中的计算加速。
关键技术: heat kernel Gaussian process, graph Laplacian transition matrix, reduced-rank approximation, truncated SVD eigenpair, exponential family model on manifold, scalable Bayesian inference
为什么对您有用: 本文连接到非参数统计与统计计算两个子方向：图 Laplacian 的 reduced-rank 近似与截断 SVD 属于您 very_familiar 的数值方法与软件开发武器库，可直接用来分析该 GP estimator 的计算-统计权衡。立即可做：用您熟悉的 inverse problems with random noise 视角审视该低秩近似对后验收敛率的影响，或用 einsum / tensor contraction 优化其 eigenpair 计算流程。

2. 10.1093/jrsssb/qkaf060 — Bootstrapping estimators based on the block maxima method¶

作者: Axel Bücher, Torben Staud
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 611-636
相关性 3/10 · novelty: new_theory
摘要: 在极值理论的 block maxima 方法框架下，研究 sliding/circular/disjoint block maxima 估计量的 bootstrap 推断问题；关键设定为 multivariate extreme value distribution 及其 regular variation 假设。核心发现：naive block bootstrap 在 IID 情形下即不一致（失败机制源于 sliding window 的重叠结构破坏了 resampling 的 exchangeability），作者提出基于 circular block maxema 的 consistent bootstrap 方案。作为副产品，证明 classical resampling bootstrap 对 disjoint block maxema 估计量的一致性，并证明 circular block maxema 估计量与 sliding block maxema 估计量具有相同的渐近方差——后者原本涉及极值分布协方差的复杂积分，现在可绕过直接估计。对您可能有用：bootstrap 一致性/不一致性的证明策略（特别是 naive 方法的失败机制分析）与 nonparametric inference 中 subsampling 及 block bootstrap 的理论有方法论连接。
关键技术: sliding block maxima, circular block maxima, block bootstrap consistency, multivariate extreme value distribution, asymptotic variance equivalence, regular variation
为什么对您有用: 连接到 nonparametric statistics 与 hypothesis testing 子方向——bootstrap 一致性是 nonparametric inference 的核心工具，naive bootstrap 在 IID 下不一致这一反直觉结果值得注意。用 very_familiar 的 nonparametric statistics 可理解其渐近理论框架，但极值理论的专门工具（regular variation、max-stable distribution、extremal dependence measure）不在武器库中。中期可做：需先在极值理论的 regular variation / max-stable distribution 上长肌肉才能深入跟进此类推断问题。

3. 10.1093/jrsssb/qkaf054 — Huber means on Riemannian manifolds¶

作者: Jongmin Lee, Sungkyu Jung
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 444-463
相关性 3/10 · novelty: new_method
摘要: 本文在 Riemannian 流形上引入 Huber mean，作为 Fréchet mean 的稳健替代，通过混合 L2 与 L1 损失定义 M-estimator。作者给出了 Huber mean 存在性与唯一性的近乎最小条件，并讨论了无偏性的 regularity 条件；在满足这些条件时，Huber mean 具有一致性并满足 CLT，其极限分布的协方差矩阵由 moment-based estimator 估计，进而构造了稳健的单样本位置检验与近似置信域。理论上，Huber mean 的 breakdown point 至少为 0.5（在等距同变估计中最高），且在重尾分布下比 Fréchet mean 更高效。对您而言，该文的 M-estimation 理论框架与 influence function 推导可作为非参数/半参数稳健估计的参考案例，但流形设定与您主攻的因果/高维方向距离较远。
关键技术: M-estimation on Riemannian manifolds, Huber loss on manifolds, Fréchet mean robustness, breakdown point analysis, moment-based covariance estimator, manifold CLT
为什么对您有用: 本文连接到您 nonparametric statistics 与 M-estimation theory 的武器库：其 influence function 推导与极限协方差矩估计的思路可迁移到半参数稳健估计场景。但核心设定是流形数据而非您关注的因果/高维/效率界问题，技术迁移口子较窄——流形上的几何约束（如切空间映射、曲率条件）不在您 very_familiar 范围内。中期可做：若想在非参数稳健估计方向拓展，需先在 moderately_familiar 的 M-estimation theory 上补流形几何基础；否则仅作为方法论旁读，不必深追全文。

4. 10.1093/jrsssb/qkaf058 — Bayesian analysis of product feature allocation models¶

作者: Lorenzo Ghilotti, Federico Camerlenghi, Tommaso Rigon
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 540-566
相关性 2/10 · novelty: new_theory
摘要: 本文研究贝叶斯非参数特征分配模型（feature allocation）的一大类先验，其概率分布具有乘积结构，包含经典的 Indian buffet process（IBP）。在 exchangeable 与 product-form 假设下，作者推导了整类模型的预测结构（predictive structure）与底层随机过程的 posterior law 的闭式表达式。进一步给出了已有特征数与未来样本中未见特征数的分布，导出特征模型下的 α-diversity；并引入新例子如 IBP 的混合与 beta-Bernoulli 模型（有限随机特征数）。实证部分将方法应用于生态学 incidence data 的物种丰富度估计（Danish forests 与 Barro Colorado Island 数据）。对您可能有用：本文的 product-form 结构与 Gibbs-type 先验的类比，为非参数先验的 posterior characterization 提供了系统框架，可作为 semiparametric/nonparametric theory 中随机测度与 partition/feature 结构的参考。
关键技术: feature allocation models, Indian buffet process, product-form priors, predictive structure, posterior characterization, alpha-diversity
为什么对您有用: 本文连接到 nonparametric theory 中随机测度与 feature/partition 结构的先验设计，属于您 moderately_familiar 的 semiparametric theory 领域。用您 very_familiar 的 nonparametric statistics 与 minimax bounds 视角，可以审视这类 product-form 先验在估计 α-diversity 时的收敛率是否达到 minimax optimal——这是一个立即可做的理论延伸方向。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)¶

1. 10.1093/jrsssb/qkaf056 — Robust detection of watermarks for large language models under human edits¶

作者: Xiang Li, Feng Ruan, Huiyuan Wang, Qi Long, Weijie J Su
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 491-515
相关性 7/10 · novelty: new_theory
摘要: 本文研究大语言模型水印在人类编辑干扰下的检测问题，目标是在混合模型设定下区分水印文本与人类文本，关键假设是人类编辑以随机替换/删除方式稀释水印信号。核心提出截断拟合优度检验（Tr-GoF），通过截断极端词元得分抑制编辑噪声，而非沿用现有方法的求和统计量。理论证明：在大幅编辑且水印信号渐消的渐近 regime 下，Tr-GoF 达到鲁棒检测的最优性，且自适应实现——无需精确知晓编辑水平或 LLM 概率规格，而 Neyman–Pearson LR 检验虽最优但不可行；在中等编辑 regime 下，Tr-GoF 达到最高检测效率率。对比表明，求和型统计量因加性结构对编辑噪声脆弱，无法在两种 regime 下达到最优鲁棒性。对您有用：本文将 goodness-of-fit 检验与自适应最优性结合，是 hypothesis testing 子方向中渐近效率与鲁棒性权衡的精致案例。
关键技术: truncated goodness-of-fit test, Gumbel-max watermark, mixture model detection, asymptotic optimality under vanishing signal, Neyman-Pearson likelihood ratio benchmark, robust detection efficiency rate
为什么对您有用: 直接连接到 hypothesis testing 子方向——渐近最优性与鲁棒性的权衡是您熟悉的 minimax / efficiency 理论在检测问题中的体现。用您 very_familiar 的 minimax bounds 工具可以直接审视其声称的 optimality regime 是否紧、截断阈值的选取是否有更精细的 rate；此外，Tr-GoF 的自适应性质与 semiparametric efficiency 中 adaptive estimation 的逻辑同构，可用 moderately_familiar 的 semiparametric theory 视角审视其效率界。立即可做：用 minimax bound 验证其鲁棒检测 rate 的紧性。

统计计算 / 算法 (stat_computing, 1 篇)¶

1. 10.1093/jrsssb/qkaf062 — Additive-Effect Assisted Learning¶

作者: Jiawei Zhang, Yuhong Yang, Jie Ding
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 657-676
相关性 3/10 · novelty: new_method
摘要: 在分布式协作学习设定下，两个持有不同变量集的agent（Alice与Bob）通过非私密标识符对齐观测，目标是Alice借助Bob数据提升建模性能，同时受隐私约束（数据值/变量名不可泄露）与通信约束（传输轮次有限）。方法分两阶段：第一阶段提出隐私感知的假设检验筛选机制，Alice仅基于Bob传输的sketchy data判断Bob数据是否有用；第二阶段采用协同迭代训练，仅交换摘要统计量。理论证明在有限传输轮次下Alice可达到集中式数据的oracle performance，即与全数据集中训练同等的收敛率。数值实验验证了两阶段协议的有效性。对您可能有用：oracle效率声明与semiparametric efficiency bound有概念联系，假设检验筛选阶段涉及hypothesis testing的分布式变体。
关键技术: privacy-aware hypothesis testing screening, sketchy data transmission, synergistic iterative model training, oracle efficiency under communication constraint, summary statistics exchange, additive-effect model
为什么对您有用: 本文连接到efficiency theory中oracle efficiency的概念以及hypothesis testing的分布式筛选设定。用semiparametric efficiency bound可以检验其oracle performance声明在更general的semiparametric模型（而非仅additive-effect）下是否仍成立，这是可攻的口子。中期可做：需先在moderately_familiar的semiparametric theory上长肌肉，才能将oracle效率分析从additive模型推广到semiparametric设定下给出sharp bound。

其他 (other, 2 篇)¶

1. 10.1093/jrsssb/qkag055 — Statistical exploration of the manifold hypothesis¶

作者: Nick Whiteley, Annie Gray, Patrick Rubin-Delanchy
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 353-385
相关性 6/10
摘要: 本文提出"潜在度量空间(LMS)模型"来解释流形假设——即高维数据为何常集中在低维流形附近。LMS模型通过潜在变量、相关性和平稳性等基本概念，展示复杂流形结构可从极简的通用统计模型中涌现，为流形假设的普遍成立提供统计解释而非领域特设假设。基于LMS模型，作者在最小假设下推导了发现与解释高维数据几何结构的程序，结合降维方法与图分析算法进行探索性推断。理论贡献在于将流形涌现归因于可识别的统计机制，但未给出minimax收敛率或semiparametric efficiency bound等经典理论量。对您而言，LMS中的latent variable结构与proximal CI的negative control设定有形式类比，图分析算法与treewidth计算视角有弱连接。
关键技术: latent metric space model, manifold hypothesis, stationary correlation structure, graph-analytic dimension reduction, latent variable geometry

2. 10.1093/jrsssb/qkaf055 — A stratified L 2-discrepancy with application to space-filling designs¶

作者: Ye Tian, Hongquan Xu
期刊/来源: Journal of the Royal Statistical Society Series B
分类: vol 88 · issue 2 · pp 464-490
相关性 1/10 · novelty: new_method
摘要: 本文在计算机实验的空间填充设计框架下，提出分层 L2-偏差（stratified L2-discrepancy）来评估设计在分层子区域上的均匀性，estimand 为设计点集在加权分层域上的均匀度度量。该偏差通过权重调节各子区域均匀性偏好，计算简便，满足 Koksma–Hlawka 型不等式，并克服了传统偏差在高维时面临的维数灾难。该准则将若干最小 aberration 型准则作为特例涵盖，并证明最大强度强正交表具有低分层 L2-偏差，适用于计算机实验。作者进一步给出该偏差的下界及达到下界的设计构造方法，并提出更一般的分层 L2-偏差版本以评估灵活分层性质的设计。对您而言，Koksma–Hlawka 不等式与 quasi-Monte Carlo 数值积分误差界有弱联系，可作为统计计算/数值方法的边缘参考，但核心主题（实验设计偏差）不在您的 primary interests 范围内。
关键技术: stratified L2-discrepancy, Koksma-Hlawka inequality, strong orthogonal arrays, minimum aberration criteria, space-filling design lower bound, quasi-Monte Carlo integration
为什么对您有用: 本文核心主题（实验设计偏差/空间填充设计）不在您的 primary interests 列表中。Koksma–Hlawka 不等式与 quasi-Monte Carlo 数值积分误差界有弱联系，可归入统计计算/数值方法的边缘，但与您关注的 causal inference、高维 RMT、semiparametric efficiency 等方向无实质交叉。武器库中的 minimax bounds（用于估计问题）和 nonparametric statistics 无法直接攻入此设计偏差下界问题——该领域有独立的 combinatorial design theory 工具体系。暂不可做：核心机器（combinatorial design theory / orthogonal array theory）不在武器库中，且与您当前研究方向无自然衔接。

Maintained by 陈星宇 · Homepage · Source on GitHub