AoAS — Vol 19 Issue 2 · 2026-06-19¶
- 共 38 篇 · Annals of Applied Statistics
- 目录核对 ⚠️ 疑似漏 6 篇(对照 OpenAlex 44 篇):10.1214/24-aoas2004、10.1214/24-aoas2000、10.1214/24-aoas1984、10.1214/24-aoas1973、10.1214/24-aoas2009 等
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
本期 AoAS 第 19 卷第 2 期共 38 篇,可归纳为四条主线:因果推断中的识别、效率与敏感性(约 7 篇),半参数/非参数建模与可解释性(约 7 篇),假设检验与多重比较校准(3 篇),以及高维数据中的结构学习(2 篇)。剩余论文多为流行病学应用或特定领域的统计方法(如空间回归、生存分析、影像重建),方法创新相对局部。以下几段展开最关键的两条主线。
因果推断主线覆盖了从弱工具变量、高维处理、缺失数据到联邦学习分布偏移的多个切口。多篇论文聚焦于当标准 IV 或双重稳健方法失效时的替代策略:一篇处理许多弱 IV 且存在选择偏差,用敏感性分析与解析功效公式量化未观测混杂的影响;另一篇针对高维处理(联合分析)的异质性效应,用贝叶斯混合正则化回归自动发现相似效应子组。缺失数据与未观测混杂同时存在时,一篇推导了双稳健估计量并给出基于风险比的敏感性分析。联邦学习场景下,条件最大最小化目标函数被用于学习跨医院鲁棒的个性化决策规则,并等价于对抗性分布鲁棒性。此外,移动健康中的零膨胀计数结果用 Thompson sampling 结合计数模型做在线决策,而干预导致的预测模型更新偏差则通过 holdout set 策略实现安全的无偏更新。
半参数/非参数主线展示了结构化建模在可解释性和有限样本保证上的进展。一篇用非参数加性 kernel 回归估计离线强化学习中的 Q 函数,获得稀疏加性表示与特征交互效应;另一篇将深度神经网络嵌入 two-part 模型处理半连续数据,并为每个特征提供基于 bootstrap 的统计推断。纵向组合计数数据用 GEE 结合 B-spline 与 pairwise-distance 惩罚实现可证明的子群识别;函数因子模型将 brain connectivity 分解为有限秩 global covariance 与带状 local covariance,并利用秩约束矩阵补全实现识别与估计。贝叶斯非参数方向有基于 Dirichlet Process 与 spike-and-slab 的空间聚类用于转录组数据,以及用 Pólya Tree 先验处理批量标记调查数据,精确高效地推断种群大小。另有一篇通过部分共享参数实现聚类分析的灵活性与简约性,并给出了渐近理论。
对于主攻因果推断的研究者,可优先看那篇多弱 IV 敏感性分析与那篇高维处理异质性效应估计,以及缺失数据下的双稳健+敏感性分析。半参数效率方向可关注非参数加性 Q 函数与函数因子模型的结构可识别性,后者涉及秩约束补全。假设检验方向可看 Learn then test 框架与全基因组信号检测的 dBiRS 算法。高维方向的两篇(合作差分网络与影像遗传学 CCA)侧重于算法与实证,理论深度相对有限。
因果推断 (causal_inference, 6 篇)¶
1. 10.1214/24-aoas1920 — Sensitivity analysis and power in the presence of many weak instruments: Application to the effect of incarceration on future earnings¶
- 作者: Ashkan Ertefaie, Jesse Y. Hsu, Harding Harding, Jeffrey Morenoff, Dylan S. Small
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Pennsylvania · University of California, Berkeley · University of Michigan
- 分类: vol 19 · issue 2
- 相关性 9/10 · novelty:
new_method - 摘要: 本文针对存在许多弱工具变量且伴随后随机选择偏差的情形,提出一种对工具变量估计进行敏感性分析和功效计算的方法。研究背景是评估监禁判决对罪犯未来收入的影响,数据来自密歇根州2003-2006年重罪判决案例,利用法官随机分配构建基于法官ID的工具变量向量。标准IV方法无法处理两个关键特征:许多法官对监禁倾向不强(弱IV),且仅包含判决案例导致选择偏差。作者开发了一套对多弱IV稳健的敏感性分析流程,量化选择偏差对处理效应估计的影响,并推导了相应的解析功效公式。通过蒙特卡洛模拟验证了方法的统计功效和有效性;实证分析表明,被判处监禁显著降低了罪犯的收入。对于关注因果推断中IV与敏感性分析的研究者,本文提供了弱IV高维场景下识别假设检验和偏差量化的一套可操作框架。
- 关键技术:
many weak instruments,sensitivity analysis,power formula,selection bias,random judge assignment,instrumental variable estimation - 为什么对您有用: (1) 本文直接对应因果推断中工具变量法与敏感性分析的交叉方向,且聚焦‘许多弱IV’这一高维场景,是您primary interest中的IV和敏感性分析的具体应用。(2) 您武器库中的‘estimation theory in causal inference’和‘high-dimensional asymptotics’可用于分析其估计量的渐近行为,而‘identification theory’则帮助评估其识别假设的合理性。(3) 属于中期可做:您需先在‘high-dimensional asymptotics’上进一步加强(特别是多弱IV的联立估计理论),才能将本文方法迁移到其他纵向或mediation IV设定中。
2. 10.1214/25-aoas2017 — Federated learning of robust individualized decision rules with application to heterogeneous multihospital sepsis population¶
- 作者: Xinlei Chen, Victor B. Talisa, Xiaoqing Tan, Zhengling Qi, Jason N. Kennedy, Chung-Chou H. Chang et al.
- 期刊/来源: Annals of Applied Statistics
- 机构: University of Pittsburgh · George Washington University
- 分类: vol 19 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本文针对多医院异质性数据场景,目标是在数据不可共享的联邦学习框架下,学习鲁棒的个性化决策规则(IDR),使得训练医院得到的规则能在未见过医院的异质性人群中安全有效应用。方法上,作者提出条件最大化最小(conditional maximin)目标函数,通过最大化跨医院最差情况下的平均个体结局来保证对分布偏移的鲁棒性,并设计了去中心化的联邦学习算法以遵守隐私约束。理论层面,该目标函数等价于一个极小极大优化问题,其解具有对抗性分布鲁棒性。实证部分使用UPMC医疗系统多家医院脓毒症患者的电子健康记录,结果表明该方法相比传统全局最优IDR,在可能经历极端不良结局的患者中生存率提高了10个百分点,在应用于未训练医院时总体生存率提高2-3个百分点。对您而言,这是个性化治疗规则(individualized treatment regime)估计在真实多中心医疗数据上的完整应用,直接连接您causal inference方向中的treatment regime问题,同时其条件最大化最小框架也可用您熟悉的minimax bound理论分析是否达到最优鲁棒速率。
- 关键技术:
conditional maximin objective,federated learning,individualized decision rules,robust optimization,heterogeneous treatment effects - 为什么对您有用: 本文连接您primary interest中的causal inference子方向——个性化治疗规则(ITR/IDR)的鲁棒估计,并在多医院联邦学习设定下处理分布外推广。您武器库中very_familiar的minimax bounds for estimation problems可直接用于分析该条件最大化最小目标是否达到最优鲁棒率;causal inference estimation theory可帮助理解和改进估计器的识别假设。判为立即可做:核心识别和估计框架与您very_familiar的nonparametric statistics和causal estimation高度重合,可直接展开细读其实证设计与代码复现,并考虑扩展至多任务learning或连续治疗规则。
3. 10.1214/24-aoas1994 · arXiv — Estimating heterogeneous causal effects of high-dimensional treatments: Application to conjoint analysis¶
- 作者: Max Goplerud, Kosuke Imai, Nicole E. Pashley
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本文研究高维处理(如联合分析中的多因素设计)的异质性因果效应估计问题,目标估计量是条件平均处理效应(CATE),但高维处理组合导致估计和解释困难。作者提出一种贝叶斯混合正则化逻辑回归方法,通过直接建模组别成员与协变量的关系,自动识别具有相似处理效应模式的最大异质性子组。该方法利用正则化(L1/L2)处理高维性,混合模型允许组的数量和结构由数据驱动决定,避免预分组的主观性。技术核心包括将处理效应建模为每个组内的稀疏因子,并使用变分或 MCMC 进行后验推断。应用于联合分析数据(调查实验),研究受访者对移民属性的选择偏好,结果发现一组高偏见受访者显著歧视非欧洲移民。对您而言,本文提供了处理高维处理的异质性因果效应的具体估计工具,可直接用您熟悉的因果推断估计理论(如 DR 或 IPW)与贝叶斯混合方法结合,或扩展至其他多因子调查设计,例如您感兴趣的流行病学或经济实验数据。
- 关键技术:
Bayesian mixture of regularized logistic regressions,maximally heterogeneous subgroups,conjoint analysis,high-dimensional factorial design,conditional average treatment effect,regularized regression - 为什么对您有用: ① 本文聚焦高维处理(联合实验中多因子设计)的异质性因果效应估计,属于因果推断中处理效应异质性的重要应用方向,直接关联您 primary interest 中的 'causal inference (estimation)'。② 您极熟悉的 'estimation theory in causal inference' 可用于分析该方法的偏差-方差权衡(如正则化参数选择对 CATE 估计的影响),同时提供的 R 包可作为 'software development' 的快速验证工具,便于在您自己的数据上复现或扩展。③ 现有武器库足以理解方法框架并复现结果,属 '立即可做':可用极熟悉的高维统计和因果估计工具评估其在模拟和真实数据下的性能,或扩展至其他高维处理设计(如多因子 RCT 或 conjoint 变体)。
4. 10.1214/24-aoas2005 · arXiv — Effects of adolescent victimization on offending: Flexible methods for missing data and unmeasured confounding¶
- 作者: Mateo Dulce Rubio, Edward H. Kennedy, Valerio Baćak, Daniel S. Nagin
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 8/10 · novelty:
new_method - 摘要: 本文利用美国全国代表性纵向调查Add Health数据,估计青少年期受害对日后犯罪行为的平均处理效应(ATT)。鉴于暴露和结局变量均存在缺失,作者推导了一个新的双稳健估计量,该估计量结合了倾向得分加权和结果回归,并在缺失机制下保持一致性。进一步,作者提出了一种基于风险比的敏感性分析方法,用于评估未观测混杂对结论的稳健性。分析表明:若所有受害青少年均未受害,其犯罪率会下降3.86个百分点(95% CI: [0.28, 7.45]),且效应随受害年龄增大而减弱。敏感性分析表明该结果对中等强度的未观测混杂是稳健的。该论文提供了完整的实证因果推断范本,其中缺失数据处理和敏感性分析的技术细节对您延伸因果推断方法(如将双稳健ATT推广到连续型暴露或更复杂的缺失模式)具有直接参考价值。
- 关键技术:
doubly robust ATT estimation,inverse probability weighting,outcome regression for missing data,risk-ratio sensitivity analysis,longitudinal panel data - 为什么对您有用: 本文直接关联您对因果推断(尤其是ATT估计和缺失数据下识别)的primary interest。您very_familiar中的estimation theory in causal inference可以立即用于理解该双稳健估计量的渐近性质,并检验其效率界是否可进一步提升。中期来看,可将本文的敏感性分析思路与moderately_familiar中的identification theory结合,发展更一般的部分识别框架。
5. 10.1214/25-aoas2030 · arXiv — Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study¶
- 作者: Xueqing Liu, Nina Deliu, Tanujit Chakraborty, Lauren Bell, Bibhas Chakraborty
- 期刊/来源: Annals of Applied Statistics
- 机构: Duke-NUS Medical School · Medical Research Council · Sapienza University of Rome · University of Cambridge · Sorbonne University Abu Dhabi · Duke University · National University of Singapore
- 分类: vol 19 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 该论文针对移动健康(mHealth)中零膨胀计数结果(如饮酒次数)的在线决策问题,提出了将四种常见计数数据模型(Poisson、负二项、零膨胀Poisson、零膨胀负二项)与汤普森采样(Thompson sampling)相结合的上下文多臂老虎机算法。核心机制是:在每一决策时刻,利用用户当前上下文(时变协变量)从后验分布中抽取参数,选择能最大化期望即时奖励的动作;通过将计数模型融入贝叶斯更新,自然处理了过离散和零膨胀结构。作者推导了累积遗憾的边界,展示了算法在理论上的次线性遗憾率。在Drink Less真实数据上,所提方法相比现有基准显著提升了用户参与度;模拟实验也验证了其在最大化累积近端结局上的优势。配套R包'countts'提供了完整实现。该工作直接连接您的因果推断兴趣中的动态治疗策略(just-in-time adaptive interventions),并为流行病学应用中的计数结局在线学习提供了可操作的建模范式。
- 关键技术:
Thompson sampling,zero-inflated count models,contextual bandits,regret bound analysis,just-in-time adaptive interventions - 为什么对您有用: 本文连接您因果推断子方向中的动态治疗策略(contextual bandit框架),为mHealth中的序列决策提供了处理零膨胀计数结果的实用方法。您非常熟悉因果推断中的估计理论(estimation theory in causal inference)和软件开发,因此可以立即复现并扩展该方法(例如更换先验或加入延迟效应),属于立即可做的follow-up。此外,文章推导的遗憾界验证了算法一致性,与您的高维渐近分析能力高度兼容。
6. 10.1214/24-aoas1982 — Holdout sets for safe predictive model updating¶
- 作者: Sami Haidar-Wehbe, Samuel R. Emerson, Louis J. M. Aslett, James Liley
- 期刊/来源: Annals of Applied Statistics
- 机构: Durham University
- 分类: vol 19 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 在医疗等复杂场景中,基于风险分数指导干预,但直接更新风险分数会导致估计偏差。本文提出使用“holdout set”——即人群中不接收干预引导的子集——来无偏更新风险分数。理论证明该方法能使总成本以 O(N) 速率增长(N 为人群规模),并论证一般情况下不存在竞争方案。通过定义适当损失函数,给出最优 holdout 规模(OHS)可识别的条件,提出参数和半参数 OHS 估计算法。在子痫前期风险分数数据集上展示了方法的实用效果。对您而言,该工作将因果推断中干预导致的偏差问题与预测模型更新相结合,提供了可操作的安全策略。
- 关键技术:
holdout set,optimal holdout size estimation,bias-variance tradeoff,parametric and semiparametric estimation,risk score updating - 为什么对您有用: 直接连接到您的因果推断兴趣中“干预敏感性”这一分支——更新预测模型时,干预引入的偏差是因果推断的核心问题。您的非参数统计与 M-估计技术(very_familiar)可以立刻用于推广 OHS 估计到更灵活的损失函数或高维协变量场景,属于“立即可做”的 follow-up。此外,流行病学应用的子痫前期数据集也匹配您的 secondary interest。
高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶
1. 10.1214/25-aoas2026 — Cooperative differential network learning with hub detection for multicenter neuroimaging data¶
- 作者: Hao Chen, Dingzi Guo, Ying Guo, Yong He, Dong Liu, Lei Liu et al.
- 期刊/来源: Annals of Applied Statistics
- 机构: Shandong University · China Institute of Finance and Capital Markets · Emory University · Nanyang Technological University · Washington University in St. Louis · Peking University · Beijing Institute of Big Data Research
- 分类: vol 19 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 在多中心 fMRI 数据设定下,目标是跨中心异质性条件下的 differential network 与 hub node 的联合估计,假设各中心共享部分网络结构但存在 site-specific 差异。方法将问题建模为 penalized logistic regression,引入 Cooperative Penalty(跨中心共享结构)与 Hub Penalty(中心节点检测)实现多 differential network 的协同估计与 hub 检测,并辅以 ensemble-learning 提升经验表现。理论方面未给出显式收敛率或 minimax bound,主要贡献在方法层面。实证通过仿真与 ADHD 多中心 fMRI 数据验证,识别出跨中心一致 hub 脑区与 differential interaction 模式。对您可能有用:多中心协同估计的 penalty 设计思路可迁移至高维因果推断中多环境(multi-environment)IV 或 mediation 的异质性处理。
- 关键技术:
penalized logistic regression,multi-task sparse estimation,hub detection penalty,cooperative regularization,ensemble learning,differential network estimation - 为什么对您有用: (1) 连接到高维统计中多任务/多环境稀疏估计子方向,penalty 设计(cooperative + hub)为多中心异质性数据提供结构化建模范式;(2) 用 very_familiar 中的高维渐近理论可尝试分析该 penalized logistic estimator 的收敛率与 variable-selection consistency,填补原文理论空白;(3) 中期可做——需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以推导非凸 penalty 下 multi-task M-estimator 的 oracle property 与 rate。
2. 10.1214/24-aoas2010 · arXiv — A general framework of brain region detection and genetic variants selection in imaging genetics¶
- 作者: Siqiang Su, Zhenghao Li, Long Feng, Ting Li
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 在影像遗传学(imaging genetics)的高维设定下,目标是同时识别与临床表型关联的脑区并选择重要遗传变异(SNP),面临影像与基因双高维的'big data squared'问题及脑影像空间结构信息丢失的挑战。本文提出基于典型相关分析(CCA)的线性模型,将脑影像、基因信息与临床表型联合建模,通过稀疏化/结构化约束实现脑区检测与变量选择。算法层面开发了可扩展的优化方法以应对双高维计算瓶颈,但理论部分未给出高维收敛率或渐近分布的严格证明。实证上用 UK Biobank 数据揭示了尾状核脑区与特定 SNP 及其调控基因对反应速度的显著关联。对您可能有用:本文的高维双模态联合建模框架可作为高维渐近 / RMT 分析的潜在应用场景。
- 关键技术:
sparse CCA,joint multimodal modeling,spatial structure preservation,scalable optimization,high-dimensional variable selection - 为什么对您有用: 本文连接到高维统计与统计计算方向,处理双高维(影像×基因)的可扩展算法设计。用您 very_familiar 的高维渐近理论可以尝试为这类 sparse CCA 模型补上目前缺失的渐近保证(如高维下的 selection consistency 或 debiased inference);用您 moderately_familiar 的 M-estimation 理论可分析其优化目标函数的极值性质。Follow-up 判断:中期可做——需先在 moderately_familiar 的 M-estimation 理论上长肌肉以推导高维 M-estimator 的渐近性质,同时本文缺乏 RMT 或 minimax 视角的理论深度,暂不构成立即可做的理论切入点。
非参数 / 半参数 (nonparam_semipara, 7 篇)¶
1. 10.1214/24-aoas1987 · arXiv — Nonparametric additive value functions: Interpretable reinforcement learning with an application to surgical recovery¶
- 作者: Patrick Emedom-Nnamdi, Timothy R. Smith, Jukka-Pekka Onnela, Junwei Lu
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 在离线强化学习(RL)框架下,目标是估计可解释的 action-value function(Q-function),以优化术后恢复的个性化干预策略。作者提出非参数加性模型,摒弃经典 RL 的线性假设与黑箱神经网络,通过 local kernel regression 与 basis expansion 获得稀疏加性表示,允许提取单特征的非线性贡献及特征对的交互效应。估计量在 additive structure 假设下具备非参数收敛性质,且通过 sparse additive representation 实现特征层面的可解释性。模拟与脊柱疾病恢复数据的应用表明,该方法能给出与临床知识一致的推荐策略。对您可能有用:该文的 additive kernel/basis 估计与 sparse interaction selection 直接关联 semiparametric/nonparametric theory 与 causal longitudinal decision 问题。
- 关键技术:
nonparametric additive model,local kernel regression,basis expansion,sparse additive representation,offline reinforcement learning,action-value function estimation - 为什么对您有用: 本文连接到 causal inference 的 longitudinal/RL decision 子方向(离线策略评估与优化),以及 semiparametric & nonparametric theory(additive model 的稀疏估计)。用您 very_familiar 的 nonparametric statistics 与 moderately_familiar 的 M-estimation theory 可以直接审视其 additive kernel estimator 的收敛率是否达到 minimax optimal,以及 sparse interaction selection 的 oracle property。Follow-up 判断:立即可做——用 minimax bound 验证其非参数收敛率,或用 semiparametric efficiency theory 探究该 additive Q-function estimator 是否可进一步 debias 以达到 efficient inference。
2. 10.1214/25-aoas2013 — A deep neural network two-part model and feature importance test for semicontinuous data¶
- 作者: Baiming Zou, Xinlei Mi, Shiyu Wan, Di Wu, James G. Xenakis, Jianhua Hu et al.
- 期刊/来源: Annals of Applied Statistics
- 机构: University of North Carolina at Chapel Hill · Gilead Sciences (France) · Harvard University Press · Columbia University
- 分类: vol 19 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 针对临床中常见的半连续数据(如存在大量零值的术后疼痛评分),传统参数/半参数 two-part 模型依赖线性可加假设,无法捕捉非线性和交互效应。本文提出基于深度神经网络的 two-part 模型,通过引入 bootstrap 过程与过滤算法提升 DNN 估计稳定性(sDNN)。为增强可解释性,进一步推导了特征重要性检验程序(fsDNN),在复杂关联下为每个特征提供统计推断,并利用筛选出的特征进一步提升预测性能。理论/实证表明 fsDNN 在各类数据复杂度下均优于传统 two-part 模型及常用机器学习方法,并附带 R 软件包。对您可能有用:本文将 DNN 嵌入半参数 two-part 结构并附加特征检验,为半连续数据的非参数建模与推断提供了一个可复现的计算方案。
- 关键技术:
two-part model,deep neural network approximation,bootstrap stabilization,feature importance testing,semicontinuous data - 为什么对您有用: 本文属于非参数/半参数建模与统计计算的交叉:two-part 模型是半连续数据的经典半参数框架,本文用 DNN 替代其线性可加部分并附加特征筛选检验,触及您 primary interest 中的非参数理论与统计计算(R 包实现)。然而,本文未涉及 semiparametric efficiency bound、influence function 或 minimax rate 等您熟悉的理论工具,其特征重要性检验基于 bootstrap 稳定化而非 HOIF 或 debiased ML,理论深度有限。中期可做:若想将您 moderately_familiar 的 HOIF / semiparametric theory 引入 two-part 模型的特征推断(构造 efficient influence function 与 debiased test),需先在 HOIF 应用于非参数 DNN screening 的理论上长肌肉;本文的 R 包与数据集可作为实证起点。
3. 10.1214/24-aoas2001 — Cluster analysis of longitudinal profiles for compositional count data¶
- 作者: Chenyang Duan, Yuan Jiang
- 期刊/来源: Annals of Applied Statistics
- 机构: AbbVie (United States) · Oregon State University
- 分类: vol 19 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 在生态/流行病学纵向组合计数数据设定下,目标是基于物种丰度的时间轨迹进行聚类分组,关键假设为组合约束与纵向相依结构可由 GEE 捕获。提出 COMPARING 方法:用广义估计方程 (GEE) 同时处理组合与纵向相依,非参数 B-spline 逼近纵向曲线,并引入 pairwise-distance penalization 识别相似轨迹子群。理论贡献为建立 B-spline 估计曲线的收敛速率,并证明真实子群可被高概率正确识别。实证部分通过非洲水牛血源寄生虫数据展示了方法的生物学意义。对您有用之处在于其 B-spline 收敛率与聚类一致性证明属于非参数 M-估计范畴,可作为纵向因果中介或轨迹建模的参考。
- 关键技术:
generalized estimating equation (GEE),B-spline nonparametric approximation,pairwise-distance penalization,convergence rate of spline M-estimator,cluster recovery probability - 为什么对您有用: 本文连接到流行病学纵向数据的应用场景,其 B-spline 收敛率与聚类一致性理论属于您 moderately_familiar 的 M-estimation theory 与非参数统计范畴。用 very_familiar 的 minimax bound 工具可以验证其声称的 B-spline 收敛率是否紧,或用 moderately_familiar 的 M-estimation theory 推导更精细的 semiparametric efficiency bound。作为流行病学纵向组合数据的 gateway reading,数据结构(组合计数+纵向相依)清晰暴露,适合了解此类数据的建模挑战,但方法学 novelty 属常规组合,读摘要即可把握核心,不必花时间读全文证明。
4. 10.1214/25-aoas2022 · arXiv — Functional factor modeling of brain connectivity¶
- 作者: Kyle Stanley, Nicole Lazar, Matthew Reimherr
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 在离散观测多维函数数据(如 fMRI)设定下,目标是识别与估计刻画长程依赖的 global covariance 与刻画短程依赖的 local covariance 的分解。模型假设 global covariance 具有限秩且平滑、local covariance 为带状(可无限秩),在此条件下证明分解可识别。恢复 global covariance 等价于秩约束矩阵补全,据此构造了具有一致性的 loading estimator 及其更可解释的后处理版本。理论证明利用了平滑性与带状结构带来的谱衰减分离,实证通过模拟与静息态 fMRI 数据揭示了丰富的协方差结构。对您可能有用:该秩约束矩阵补全视角与您的高维渐近/随机矩阵理论背景直接对接,且带状+低秩的谱分离设定是 RMT 与函数数据分析交叉的典型切入点。
- 关键技术:
functional factor model,rank-constrained matrix completion,banded covariance structure,identifiability via smoothness and banding,spectral decomposition of functional data - 为什么对您有用: 本文连接到您的高维统计与随机矩阵理论子方向:秩约束矩阵补全与低秩+带状协方差结构的谱恢复是 RMT Marchenko-Pastur 型工具的经典应用场景。您武器库中 very_familiar 的 high-dimensional asymptotics 与 minimax bounds 可直接用于分析该 estimator 的更精细收敛率(如是否达到 minimax rate)。立即可做:用您熟悉的 RMT 谱界工具验证/改进其秩约束矩阵补全 estimator 的 rate,并探讨带状+低秩设定下的 minimax lower bound。
5. 10.1214/25-aoas2014 · arXiv — Bayesian nonparametric clustering with feature selection for spatially resolved transcriptomics data¶
- 作者: Bencong Zhu, Guanyu Hu, Lin Xu, Xiaodan Fan, Qiwei Li
- 期刊/来源: Annals of Applied Statistics
- 机构: Chinese University of Hong Kong · The University of Texas Health Science Center at Houston · The University of Texas Southwestern Medical Center · The University of Texas at Dallas
- 分类: vol 19 · issue 2
- 相关性 3/10 · novelty:
new_method - 摘要: 在空间转录组学(SRT)数据设定下,目标是对具有零膨胀、过度散布和异质性的高维计数数据进行聚类与特征选择。本文提出 BNPSpace,一个贝叶斯非参数空间聚类框架,直接对 SRT 计数数据建模,避免启发式预处理与人为指定聚类数。核心机制采用 Dirichlet Process 实现聚类数的非参数推断,结合 Markov random field 先验融入空间邻域信息以鼓励平滑分区,并引入 spike-and-slab 先验进行基因特征选择以获得稀疏判别集。主要理论贡献在于非参数贝叶斯后验推断的 MCMC 计算框架,实证显示其在恢复空间域与稀疏特征上优于依赖预处理的现有方法。对您可能有用:本文的 MRF 先验与 spike-and-slab 稀疏机制可启发高维因果推断中混杂变量选择的贝叶斯建模思路。
- 关键技术:
Bayesian nonparametric clustering,Dirichlet Process,Markov random field prior,spike-and-slab variable selection,zero-inflated count data modeling,MCMC posterior inference - 为什么对您有用: (1) 连接到非参数理论(Bayesian nonparametric / Dirichlet Process)与高维特征选择(spike-and-slab),属于 primary interest 中 semiparametric & nonparametric theory 的贝叶斯分支。(2) 武器库中 M-estimation theory 与 minimax bounds 难以直接攻破其贝叶斯后验收敛率的理论缺口,但 very_familiar 的 software development 可直接复现其 MCMC 计算框架。(3) 中期可做:若想在此类贝叶斯非参数模型上建立频率学派视角的收敛率或 minimax 界,需先在 moderately_familiar 的 M-estimation theory 上补充 Bayesian nonparametric posterior contraction 理论(点名缺 Schwartz / Ghosal-van der Vaart 后验收敛率工具)。
6. 10.1214/25-aoas2019 — A Pólya Tree modelling framework for batch-mark data¶
- 作者: Ioannis Rotous, Alex Diana, Eleni Matechou
- 期刊/来源: Annals of Applied Statistics
- 机构: University College London · University of Essex · University of Kent
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
new_method - 摘要: 针对野生动物批量标记(batch-mark)调查数据,目标是在开放种群中估计种群大小及个体的进入/退出模式。传统方法依赖近似推断或随个体数增长而难以扩展,且不易联合建模不同的观测过程。本文提出一种基于贝叶斯非参数Pólya Tree先验的新型建模框架(PTBM),在个体进入和退出时间的二维格点上定义先验,从而利用Pólya Tree的共轭性实现精确且高效的贝叶斯推断。该方法将计算复杂度从依赖个体数量降低到依赖抽样次数,并能灵活处理不同观测过程的似然函数。通过模拟和两个案例研究,PTBM与近期两种方法对比展示了更好的可扩展性和推断精度。对您而言,本文在非参数贝叶斯先验应用于复杂调查数据方面提供了新视角,与您擅长的非参数统计和逆问题方法有潜在交叉,可借鉴其格点划分和精确后验更新的思路。
- 关键技术:
Pólya Tree prior,Bayesian nonparametric modeling,bivariate grid partition,exact posterior inference,batch-mark data likelihood - 为什么对您有用: 本文属于非参数贝叶斯方法在生态调查数据中的应用,与您‘非参数统计学’这一非常熟悉的武器直接对口——您可以利用对非参数先验和逆问题的理解来快速把握Pólya Tree的构造和共轭性质。但Pólya Tree的具体实现和贝叶斯计算链并非您当前的日常工具,属于‘中期可做’:需要在‘非参数统计学’基础上补强贝叶斯非参数的计算细节,才能将此类格点划分思路迁移到您自己的高维或因果推断设定中。
7. 10.1214/25-aoas2018 · arXiv — A flexible and parsimonious modelling strategy for clustered data analysis¶
- 作者: Tao Huang, Youquan Pei, Jinhong You, Wenyang Zhang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
new_method - 摘要: 针对聚类数据分析中异质性与同质性的建模权衡,提出一种灵活而简约的建模策略。该策略通过在某些成分上共享参数(简约性)而在其他成分上允许簇特异变化(灵活性),同时兼顾组间异质性和组内同质性。建立参数估计程序并推导了估计量的渐近性质,包括一致性和收敛速率。大量模拟实验验证了方法在有限样本下的表现,真实数据展示了策略的实际应用价值。论文还指出该思路对迁移学习具有启发性。对您而言,该工作展示了非参数/半参数建模在聚类场景中的具体构造与理论验证,可用您的非参数统计功底直接改进其估计程序或扩展至因果推断中的异质性处理效应。
- 关键技术:
flexible parsimonious modelling,cluster-specific effects,asymptotic properties,semiparametric estimation - 为什么对您有用: 该文属于半参数/非参数建模方向,直接连接您的 nonparametric statistics 与 semiparametric theory 兴趣。其建模策略(部分参数共享部分灵活)与您熟悉的非参数方法(如核平滑、样条)可结合,您可立即尝试用 minimax 速率分析其估计量的最优性。短期可读:方法本身具体,您的武器库足以理解并复现其渐近分析。
效率理论 / Debiased ML (efficiency_dml, 1 篇)¶
1. 10.1214/25-aoas2012 · arXiv — Augmented doubly robust post-imputation inference for proteomic data¶
- 作者: Haeun Moon, Jin-Hong Du, Jing Lei, Kathryn Roeder
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 7/10 · novelty:
new_method - 摘要: 本文针对质谱蛋白质组学数据中缺失值比例高、插补后分析易引入系统性偏差的问题,提出了一个受双重稳健估计启发的后插补推断框架。该框架利用变分自编码器等机器学习工具从高维肽段数据中增强插补质量,同时采用参数模型估计缺失机制(倾向得分)以对插补结果进行去偏。估计量与双机器学习框架兼容,具备可证的理论性质(如渐进正态性和效率性)。模拟研究表明,该方法在偏差校正和方差控制上显著优于现有插补后推断流程。在单细胞蛋白质组学和阿尔茨海默病的大规模实际数据中,该方法利用插补数据获得额外且有意义的发现,同时维持了良好的假阳性控制。该方法与您主要兴趣中的去偏机器学习(debiased ML)以及因果推断中的双重稳健估计密切相关,可推广至其他缺失数据分析场景。
- 关键技术:
doubly robust estimator,double machine learning,variational autoencoder (VAE),propensity score estimation,post-imputation inference - 为什么对您有用: 本文直接连接您主要兴趣中的去偏机器学习(debiased ML)和双重稳健估计,为缺失数据中的因果推断提供了新思路。您的技术库中‘estimation theory in causal inference’和‘非参数统计’足以理解并验证其双重稳健性质,中期可尝试用‘semiparametric theory’严格推导其效率界。结论:立即可做——核心DR和DML框架您已熟悉。
数理统计 / 假设检验 (hypothesis_testing, 3 篇)¶
1. 10.1214/24-aoas1998 · arXiv — Learn then test: Calibrating predictive algorithms to achieve risk control¶
- 作者: Anastasios N. Angelopoulos, Stephen Bates, Emmanuel J. Candès, Michael I. Jordan, Lihua Lei
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 7/10 · novelty:
new_method - 摘要: 本文提出一种“先学习后测试”(Learn-Then-Test)框架,用于校准机器学习模型,使其预测满足显式的有限样本统计保证。核心思想是将风险控制问题重新表述为多重假设检验问题,从而引入FWER/FDR等经典多重比较技术。与现有校准方法不同,本框架不要求重新拟合模型,且能在任意未知数据分布下工作。作者针对多标签分类、实例分割、异常检测和置信集覆盖等任务生成了具体的校准协议,通过逐步检验步骤控制风险。方法在计算机视觉与表格医疗数据上得到验证,展示了实用性与灵活性。对您而言,该工作将假设检验思想引入预测校准,提供了严谨的有限样本保证框架,与您对假设检验的兴趣直接吻合,同时可借助非参数统计的功底快速把握其理论细节。
- 关键技术:
multiple hypothesis testing,finite-sample risk control,FDR and FWER control,risk-controlling prediction sets,step-up/step-down procedures - 为什么对您有用: 直接连接您对假设检验的兴趣:该工作将风险控制重构为多重假设检验,并推导了有限样本保证。您非常熟悉的非参数统计和非渐近推断武器库可以直接用于分析其校准过程的保守性(例如推导更紧的边界)。立即可做:无需新工具即可复现其算法,并在因果推断的敏感性分析或多重比较场景中试用。
2. 10.1214/25-aoas2023 — The properties of covariate-adaptive randomization procedures with possibly unequal allocation ratio¶
- 作者: Xiao Liu, Feifang Hu, Wei Ma
- 期刊/来源: Annals of Applied Statistics
- 机构: Renmin University of China · George Washington University
- 分类: vol 19 · issue 2
- 相关性 5/10 · novelty:
new_theory - 摘要: 在临床试验的协变量自适应随机化(CAR)设定下,本文研究非等比例分配(如 2:1)下平衡离散、连续及其混合协变量的理论性质,关键假设是存在可被随机化程序使用的“随机化协变量”与未被使用的“额外协变量”的划分。作者提出统一框架涵盖多种现有 CAR 程序,证明其对随机化协变量具有更优的平衡性质(imbalance 度量方差缩减)。对额外协变量,离散情形下 CAR 仍能附带改善平衡;但在非等比例分配下平衡连续协变量时,发现额外协变量会出现系统性偏移(shift problem),这是以往等比例文献未触及的新现象。作者给出 shift problem 发生的条件与理论解释,并提出两种实用修正方案。对您有用:本文揭示了非等比例 CAR 下连续协变量平衡与额外协变量偏移的 trade-off,为临床试验设计中的协变量调整推断(CAR 下方差估计与 hypothesis testing)提供了新的理论约束。
- 关键技术:
covariate-adaptive randomization,unequal allocation ratio,shift problem in continuous covariate balancing,randomized vs additional covariates classification,balancing property variance reduction - 为什么对您有用: 本文直接连接到 hypothesis testing 与临床试验推断子方向:CAR 下协变量调整后的方差估计与检验问题是近年热点,shift problem 的发现为非等比例设定下的稳健推断敲了警钟。用您 very_familiar 的高维渐近工具可以验证其 imbalance 度量的收敛率是否紧;用 moderately_familiar 的 M-estimation theory 可尝试推导修正方案下估计量的渐近分布。中期可做:需先在 moderately_familiar 的 M-estimation theory 上长肌肉,以建立修正 CAR 程序下 treatment effect 估计的严格渐近正态性与有效检验。
3. 10.1214/25-aoas2029 · arXiv — Computationally efficient whole-genome signal region detection for quantitative and binary traits¶
- 作者: Fan Wang, Wei Zhang, Fang Yao
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 在全基因组关联研究的 signal region detection 设定下,目标是识别与连续或二元表型关联的遗传信号区域,同时控制 family-wise error rate (FWER) 与 false discovery rate (FDR)。本文提出分布式 BiRS (dBiRS) 算法,将原仅适用于二元性状两样本均值检验的 BiRS 扩展至基于广义线性模型 (GLM) summary statistics 的 infinity-norm 检验统计量,从而支持协变量调整与连续/二元结局。核心机制是分块并行计算各区块的检验统计量,再由中心节点聚合,在保证检测精度的同时大幅提升计算效率;理论上证明了 FWER 与 FDR 的渐近控制,并保留了原 BiRS 相较于 scan 算法的 power 优势。实证上,利用 UK Biobank 全外显子测序数据验证了先前发现并识别出新的罕见变异。对您可能有用:本文的 infinity-norm 检验与分布式聚合框架为高维多重检验中的计算-统计权衡提供了一个具体案例,连接到您对 statistical-computational tradeoff 与 hypothesis testing 的兴趣。
- 关键技术:
infinity-norm test statistic,distributed block-wise aggregation,GLM summary statistics,FWER and FDR control,binary and re-search (BiRS) algorithm,whole-genome scan - 为什么对您有用: 本文直接连接到您 primary interest 中的 hypothesis testing(高维多重检验的 FWER/FDR 控制)以及 statistical-computational tradeoff(分布式聚合实现 polynomial-time achievability,避免 scan 算法的指数级窗口搜索开销)。您武器库中 very_familiar 的 minimax bounds for estimation problems 与 software development 可直接攻破本文的理论保证与算法实现口子——评估其 infinity-norm 检验在更一般高维设定下的 power 界是否紧,以及复现/优化其分布式 einsum 式聚合逻辑。Follow-up 粗判:立即可做。
统计计算 / 算法 (stat_computing, 1 篇)¶
1. 10.1214/24-aoas1962 · arXiv — A Bayesian approach to GRAPPA parallel fMRI image reconstruction increases SNR and power of task detection¶
- 作者: Chase J. Sakitis, Daniel B. Rowe
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
application - 摘要: 在 fMRI 并行成像的 GRAPPA 框架下,目标是从欠采样 k-space 数据重建全视野图像,传统 GRAPPA 使用逐扫描固定的局部插值权重填补缺失空间频率,忽略了测量不确定性。本文提出贝叶斯 GRAPPA(BGRAPPA),利用自校准 k-space 阵列构建先验,通过后验分布估计缺失的空间频率值并重建图像。核心机制是将固定权重替换为带先验分布的贝叶斯估计,从而在重建中显式量化并吸收测量噪声。模拟与实验单切片结果显示,BGRAPPA 相比传统方法减少了伪影、降低了噪声(提升 SNR),并增强了任务检测的统计功效。对您可能有用:本文展示了贝叶斯先验在信号重建逆问题中降低噪声、提升后续假设检验功效的完整计算管线,可作为 stat_computing 与 inverse problems 交叉的应用案例阅读。
- 关键技术:
Bayesian posterior estimation,k-space parallel imaging reconstruction,GRAPPA autocalibration weights,signal-to-noise ratio optimization,task detection power analysis - 为什么对您有用: 本文连接到 stat_computing(数值重建算法)与 inverse problems with random noise(从欠采样观测反演全信号)。您武器库中的 inverse problems with random noise 可直接切入分析其贝叶斯后验估计的收敛与噪声压缩机制,software development 经验也可用于复现其重建管线。判断为立即可做:用 very_familiar 的逆问题理论即可审视其先验设定与噪声缩减声称的数学机制,但本文偏向应用算法,理论深度有限。
经济理论 / 应用 (econ_theory, 2 篇)¶
1. 10.1214/25-aoas2016 — Is the price cap for gas useful? Evidence from European countries¶
- 作者: Francesco Ravazzolo, Luca Rossini
- 期刊/来源: Annals of Applied Statistics
- 机构: Free University of Bozen-Bolzano · Fondazione Eni Enrico Mattei
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
application - 摘要: 在俄乌冲突背景下,本文研究欧洲天然气价格上限政策的干预效果,核心 estimand 为价格上限对天然气冲击向其他商品价格传导的平滑作用。方法上,作者先对天然气价格构建截断正态与均匀分布的混合模型以检测异常值(即价格尖峰),再在德国与意大利的多商品价格面板数据上拟合 Bayesian VAR 模型,通过脉冲响应函数量化天然气冲击对电力等商品价格的短期与长期影响。实证结果表明:引入天然气价格下限可平滑冲击对电力价格的传导,而无上限时该冲击的影响呈指数放大;对其他商品,无价格上限时天然气冲击在短期与长期均显著。本文为经济政策评估提供了 Bayesian VAR 与混合分布结合的实证范式,对您在 econ_theory 子方向上关注政策干预的因果效应有参考价值。
- 关键技术:
Bayesian VAR,truncated normal mixture model,impulse response function,outlier detection via mixture distribution,commodity price shock transmission - 为什么对您有用: 本文属于 econ_theory 子方向的真实数据实证研究,提供了欧洲能源市场的多商品价格面板数据及 Bayesian VAR 脉冲响应分析流程,可作为您了解经济政策干预评估的入门读物。您武器库中的 very_familiar(高维渐近理论、软件开发)与 moderately_familiar(M-estimation 理论)足以支撑您复现其 Bayesian VAR 与混合模型的计算,但若要从因果推断视角改进其政策效应识别(目前仅靠 VAR 脉冲响应,缺乏正式的 identification strategy),需先在 moderately_familiar 的 identification theory 上长肌肉。作为 gateway reading 值得花时间读全文以熟悉能源市场数据结构与 VAR 实证范式,但方法学 novelty 属于 application 级别。
2. 10.1214/25-aoas2020 — Predicting gender employment discrepancies: A multivariate Fay-Herriot model for transformed proportions¶
- 作者: Esteban Cabello, Domingo Morales, Agustín Pérez
- 期刊/来源: Annals of Applied Statistics
- 机构: Universitat de Miguel Hernández d'Elx
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
minor - 摘要: 本文在区域级小样本设定下,目标是预测多职业部门中男女就业比例及暴露指数(exposure index),直接估计量因样本量小而不精确。核心方法是对成分型(compositional)直接估计量施加 log-ratio 变换后,建立 multivariate Fay–Herriot 模型以捕捉比例间的依赖结构。由拟合模型导出比例与暴露指数的小区域估计量,并用 parametric bootstrap 估计其 RMSE。实证基于 2022 年西班牙劳动力调查数据,揭示省级性别职业隔离状况。对您而言,本文是经济数据应用案例,方法学 novelty 属常规扩展。
- 关键技术:
multivariate Fay-Herriot model,compositional data analysis,log-ratio transformation,small area estimation,parametric bootstrap - 为什么对您有用: 本文属于经济理论/应用因果的 secondary interest,提供了西班牙劳动力调查的真实成分型数据集与暴露指数建模流程,可作为小区域估计的入门读物。武器库中的 M-estimation theory 与高维渐近理论足以支撑进入此方向,但本文方法学 novelty 有限(novelty_flag=minor),不值得花时间读全文,仅可留意其数据集。
流行病学 (epidemiology, 7 篇)¶
1. 10.1214/24-aoas2007 — Bayesian data augmentation for recurrent events under intermittent assessment in overlapping intervals with applications to EMR data¶
- 作者: Xin Liu, Patrick M. Schnell
- 期刊/来源: Annals of Applied Statistics
- 机构: The Ohio State University
- 分类: vol 19 · issue 2
- 相关性 6/10 · novelty:
application - 摘要: 电子病历(EMR)中重复事件(如跌倒)的记录常存在间断性评估与重叠区间,且仅有计数上下界而非精确时间或次数,导致似然函数难以表示。本文提出贝叶斯数据增强方法,在Gibbs采样器中通过非齐次泊松过程生成事件时间,并用拒绝采样筛选与观测约束兼容的集合。利用泊松过程的独立增量特性,引入三种加速技巧:独立分区采样、截断生成与序贯采样,以适应大规模EMR数据。模拟研究表明该方法能准确估计对数线性泊松过程强度参数。本文以乳腺癌患者跌倒风险因素识别为动机,分析了5501名患者的EMR数据,发现某些药物类别与跌倒风险显著相关。该方法虽专门针对EMR数据特性设计,但其思想可推广至其他间断观测的重复事件场景。与您对流行病学数据集和因果推断的应用兴趣直接相关,展示了在复杂观测结构下如何通过计算策略实现有效推断。
- 关键技术:
Bayesian data augmentation,Gibbs sampler,non-homogeneous Poisson process,rejection sampling,partitioned independent sampling - 为什么对您有用: 本文属于流行病学应用,直接对应您的次要兴趣中‘流行病学(应用、数据集、因果推断)’方向。方法学上,贝叶斯数据增强与Gibbs采样虽非您的核心武器,但其处理观测缺失与区间截断的思路可与您熟悉的‘inverse problems with random noise’结合,用于更复杂的缺失数据场景。作为流行病学入门读物,本文清晰展示了数据侧(EMR结构、重叠区间)与模型侧(泊松过程强度、贝叶斯层次)的衔接,值得花时间阅读全文以吸收其计算策略。您的统计软件工程经验可帮助复现或改编该方法到其他重复事件分析中。
2. 10.1214/24-aoas1995 — Biomarker detection for disease classification in longitudinal microbiome data¶
- 作者: Chao Cheng, Hanteng Ma, Yujie Zhong, Anne-Catrin Uhlemann, Xingdong Feng, Jianhua Hu
- 期刊/来源: Annals of Applied Statistics
- 机构: Shanghai University of Finance and Economics · Office of Infectious Diseases · Columbia University
- 分类: vol 19 · issue 2
- 相关性 6/10 · novelty:
new_method - 摘要: 在纵向微生物组数据分析设定下,目标是识别与多重耐药菌(MDRB)定植状态相关的生物标志物,estimand 为条件 log-odds,关键假设为 compositional constraint 与低秩函数结构。核心方法为 FCQM(Functional Compositional data Quadratic Method):采用 log-contrast 模型处理 compositional covariates,结合低秩近似刻画纵向函数型协变量,并用非凸惩罚(如 SCAD/MCP)做变量选择。理论贡献为证明了估计量的 oracle property(即以概率趋于 1 选中真实稀疏子集且参数达到 oracle rate)。算法层面提出了高效的求解流程。实证通过模拟与肝移植队列数据验证了标志物挑选的准确性。对您可能有用:本文提供了一个流行病学纵向队列中 compositional 数据 + 函数型回归的完整分析范式。
- 关键技术:
log-contrast model,low-rank approximation,nonconvex penalty (SCAD/MCP),oracle property,functional logistic regression,compositional data analysis - 为什么对您有用: 本文属于流行病学纵向队列的应用方法论文,直接连接 epidemiology secondary interest 中的真实数据集与因果/关联推断应用。技术层面,log-contrast + 非凸惩罚的 oracle property 证明属于您 moderately_familiar 的 M-estimation theory 可攻的口子,但纵向函数型低秩近似与 compositional constraint 的联合处理需要额外长肌肉。作为 gateway reading,本文对微生物组 compositional 数据的建模逻辑讲得较清楚,数据结构(纵向、compositionality、稀疏标志物挑选)值得统计学者关注,值得花时间读全文以了解该领域常见数据预处理与建模范式。
3. 10.1214/24-aoas2006 · arXiv — Modeling structure and country-specific heterogeneity in misclassification matrices of verbal autopsy-based cause of death classifiers¶
- 作者: Sandipan Pramanik, Scott Zeger, Dianna Blau, Abhirup Datta
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 5/10 · novelty:
new_method - 摘要: 在 verbal autopsy (VA) 死因分类的 misclassification 校正设定下,目标是估计并校正 country-specific 的误分类矩阵,以减少 cause-specific mortality fractions (CSMF) 的偏差。现有 VA-calibration 方法因样本量不足而跨国家合并数据,隐含假设误分类率同质,但本文实证表明该假设不成立。作者提出基于两个潜在机制(intrinsic accuracy 与 systematic preference)的 base model 来稀疏刻画误分类结构,并证明其在特定误分类 odds 不变性下可识别。随后通过可解释的 effect size 扩展模型以引入国家异质性,并用 shrinkage priors 在数据稀缺场景下自适应平衡 bias-variance tradeoff。最终给出了 6 个国家 VA 误分类率的 uncertainty-quantified 估计。对您可能有用:该文在流行病学因果/偏差校正场景中展示了可识别性证明与 shrinkage 半参数建模的结合。
- 关键技术:
misclassification matrix calibration,latent mechanism identifiability,odds invariance,shrinkage prior,bias-variance tradeoff in data-scarce settings,cause-specific mortality fractions - 为什么对您有用: (1) 连接到流行病学因果推断中的 misclassification bias 校正子方向,属于真实数据集(CHAMPS)驱动的应用统计工作;(2) 武器库中 M-estimation theory 与 semiparametric theory 可直接攻其 identifiability 证明与 shrinkage prior 的理论性质分析;(3) 判断为中期可做:若想将此框架推广至高维或更复杂因果设定,需先在 moderately_familiar 的 semiparametric theory 上长肌肉以建立更一般的效率界。
4. 10.1214/24-aoas1955 · arXiv — Kullback-Leibler-based discrete failure time models for integration of published prediction models with new time-to-event dataset¶
- 作者: Di Wang, Wen Ye, Randall Sung, Hui Jiang, Jeremy M. G. Taylor, Lisa Ly et al.
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 在生存分析/预后预测设定下,目标是利用外部大规模已发表模型与内部小样本个体级时间-事件数据整合,以改善罕见事件下的估计精度。核心假设是内外数据源底层分布可能异质,且受隐私/数据共享限制无法直接合并。方法提出基于离散风险(discrete hazard)的 Kullback-Leibler 判别信息度量外部模型与内部数据的偏离,并将其作为惩罚项融入内部数据的似然,构建 KL-penalized 离散失效时间模型。理论部分给出了惩罚估计量的渐近性质,证明在分布偏离时该方法比仅用内部数据更稳健、比直接合并更安全。实证应用于肾移植队列(局部小样本 + 国家登记处已发表模型),预测性能优于纯内部分析。对您可能有用:该文为流行病学队列数据的外部模型整合提供了半参数惩罚似然框架,可直接迁移到您关注的因果推断中外部 IV/倾向得分模型的借用与异质性诊断。
- 关键技术:
discrete hazard model,Kullback-Leibler divergence penalty,external model integration,asymptotic properties of penalized M-estimator,time-to-event data,heterogeneity adjustment - 为什么对您有用: 本文属于流行病学应用(肾移植队列),但方法学核心是 KL 惩罚似然下的 M-estimation 与渐近理论,与您 primary interest 中的 semiparametric theory / M-estimation theory 直接对接;外部模型整合的异质性度量思路也可迁移到 proximal CI / IV 设定下 negative-control 模型的跨数据源借用。用您 very_familiar 的 M-estimation theory 可以立即分析其惩罚估计量的 influence function 与 semiparametric efficiency bound 是否紧;follow-up 判断:立即可做——用 M-estimation 和 semiparametric theory 武器即可展开对其渐近效率与鲁棒性的理论审视。
5. 10.1214/24-aoas1999 · arXiv — A unified quantile framework for nonlinear heterogeneous transcriptome-wide associations¶
- 作者: Tianying Wang, Iuliana Ionita-Laza, Ying Wei
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 4/10 · novelty:
new_method - 摘要: 转录组全关联研究(TWAS)是整合GWAS与基因表达数据挖掘基因-性状关联的重要工具,但现有方法大多假设线性关系。本文提出QTWAS框架,将分位数回归嵌入TWAS模型,允许基因表达预测在不同性状水平上具有非线性异质性效应。具体而言,该框架先基于基因型与表达数据建立分位数回归预测模型,再将其应用于GWAS汇总统计量进行关联检验,从而捕捉传统线性TWAS遗漏的关联信号。通过大量模拟和两个实际数据分析(连续性状与二分类性状),QTWAS比标准线性TWAS检出了更多显著的基因-性状关联。该方法在流行病学基因组研究中具有直接应用价值,且其分位数视角可推广到其他暴露-结局的异质性关联分析。
- 关键技术:
quantile regression,transcriptome-wide association study,nonlinear heterogeneous associations,gene expression imputation,burden test for nonlinear effects - 为什么对您有用: (1) 本文属于流行病学基因组学的应用方法研究,直接对应您的 secondary interest 中的 epidemiology 子方向。 (2) 您非常熟悉的 nonparametric statistics 中的分位数回归理论可用于评价该方法在高维基因数据下的估计稳定性,而 high-dimensional asymptotics 可分析其预测模型在稀疏性假设下的收敛速率。 (3) 立即可做:将该框架扩展到因果推断中的分位数处理效应(QTE),并用您熟悉的 minimax bounds 检验其识别条件是否可弱化。
6. 10.1214/24-aoas1923 — Analyzing environmental bioassays with spatial odds, risk, and survival probability ratio regressions¶
- 作者: Debashis Mondal, Xiaohui Chang
- 期刊/来源: Annals of Applied Statistics
- 机构: Washington University in St. Louis · Oregon State University
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
application - 摘要: 本文针对纽约-新泽西港口的沉积物毒性测试数据,提出基于odds、风险比和生存概率比的空间回归分析方法,以评估环境生物测定结果。核心方法采用非欧几里得距离度量空间相关性,适用于具有非凸边界的复杂采样区域,并能够预测未采样地点的毒性水平、量化特定污染物的贡献。研究发现,使用这些比率指标的空间模型可以显著改进当前评估实践。文章结合了广义线性混合模型与空间自相关结构,提供了污染物效应的归因风险估计。对您而言,这是一篇环境流行病学领域的应用论文,展示了比率型指标在空间数据中的建模流程,可直接用作跨学科合作的参考案例。
- 关键技术:
spatial odds ratio regression,non-Euclidean distance,attributable risk,generalized linear mixed model,spatial prediction - 为什么对您有用: 本文属于流行病学应用方向(环境毒理学),可作为研究者拓展次要兴趣的入门读物。运用您非常熟悉的非参数统计概念(如空间平滑与模型选择),可以审视本文中距离度量选取的敏感性及预测不确定性。该论文无需额外工具即可阅读全文,适合作为理解空间流行病学数据分析的快速通道。
7. 10.1214/24-aoas1996 · arXiv — CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images¶
- 作者: Chong Zhong, Yang Li, Danjuan Yang, Meiyan Li, Xingtao Zhou, Bo Fu et al.
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 1/10 · novelty:
application - 摘要: 该论文针对近视筛查中的两个关键指标——等效球镜度(SE)和眼轴长度(AL)提出联合预测框架。基于超广角眼底图像,作者构建了Copula增强卷积神经网络(CeCNN),将多响应回归问题形式化为一个图像协变量与多个离散-连续混合响应之间的非线性关系,其中CNN骨干网络刻画非线性关联。为了充分刻画响应之间的条件依赖结构(超越图像协变量所能解释的部分),作者在CNN损失函数中引入copula似然项,并给出了条件依赖的统计解释。理论上初步论证了copula损失可提升CNN权重估计的效率。在自采UWF数据集上的实验表明,CeCNN显著增强了多种骨干CNN的预测能力,支持了眼科学中AL作为重要近视测量指标的观点。该工作属于前沿医学影像统计应用,方法中融合了copula建模与深度学习,对流行病学中的多变量预测问题(如多种生物标志物联合预测)具有借鉴意义。
- 关键技术:
Copula-based likelihood loss,Convolutional Neural Network (CNN),multiresponse regression,ultra-widefield fundus imaging,conditional dependence modeling - 为什么对您有用: (1)本文属于流行病学应用,使用真实数据集(UWF眼底图像)做疾病筛查预测,与您 secondary interest 中流行病学方向(datasets, applied causal work)直接对接。(2)方法上虽然非因果,但其 copula 增强似然损失的 efficiency gain 论证与您 highly_familiar 的非参数统计和估计理论相通,可思考此类依赖结构在因果推断中介分析或 sensitivity analysis 中的类似运用。(3)中期可做:若想迁移 copula 条件依赖建模到因果推断中的负对照或工具变量设定,需先在 moderately_familiar 的 HOIF 或识别理论中提升处理混合响应及依赖结构的能力。
其他 (other, 9 篇)¶
1. 10.1214/24-aoas2003 — Estimating reporting bias in 311 complaint data¶
- 作者: Kate S. Boxer, Boyeong Hong, Constantine E. Kontokosta, Daniel B. Neill
- 期刊/来源: Annals of Applied Statistics
- 机构: New York University
- 分类: vol 19 · issue 2
- 相关性 3/10 · novelty:
application - 摘要: 本文关注纽约市311投诉系统中供暖与热水问题的报告偏倚估计。首先,通过拟合潜变量模型,同时估计基于建筑特征的潜在问题概率和基于人口特征的报告概率。其次,通过对比实际投诉数与同类建筑的预期数,识别出“少于预期”的建筑物。两种方法共同揭示哪些社区及社会经济特征与报告不足相关。该研究为政府利用居民生成数据进行公平政策制定提供了分析方法。对您而言,报告偏倚是流行病学数据中常见问题,本文的潜变量框架可作为简单基线,但其方法学深度有限,未涉及因果识别或敏感性分析。
- 关键技术:
latent variable model,underreporting estimation,observed vs expected comparison - 为什么对您有用: 本文属于应用统计在日常数据(in epidemiology 类似的报告偏倚场景)中的应用。您可用 very_familiar 的 estimation theory 评估其潜变量模型的可识别性与稳定性,但核心方法较简单,暂无需要攻克的深层障碍。作为入门级应用案例可快速阅读,暂不展开。
2. 10.1214/24-aoas1981 — Rice-distributed autoregressive time series modeling of magnitude functional MRI data¶
- 作者: Daniel W. Adrian, Ranjan Maitra, Daniel B. Rowe
- 期刊/来源: Annals of Applied Statistics
- 机构: Grand Valley State University · Iowa State University · Marquette University
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
application - 摘要: 本文针对功能性磁共振成像(fMRI)幅度数据,提出一种兼具Rice分布和p阶自回归(AR(p))误差的时间序列模型,解决了传统高斯AR模型与Rice分布之间的“分布不匹配”问题。参数估计采用期望最大化(EM)算法,通过将幅度数据与缺失的相位数据联合处理,并结合AR阶数确定和激活检测检验统计量。在仿真和低SNR实验fMRI数据上,与高斯幅度AR(p)模型及复值高斯时间序列模型进行对比。结果表明,Rice-AR(p)模型在参数估计和激活检测上优于高斯幅度模型;复值模型虽然因利用更多数据而表现更好,但在实际中很少采集完整复值数据。因此,本文既为常见的幅度-only fMRI数据集提供了改进分析方法,同时也强烈建议保留并分析复值fMRI时间序列的相位信息。该论文对您统计计算兴趣中的EM算法及复杂模型比较有参考价值,但属于应用统计范畴,与您核心的理论方向关联有限。
- 关键技术:
Expectation-Maximization (EM) algorithm,Autoregressive (AR) model,Rice distribution,complex-valued time series,activation detection - 为什么对您有用: 本文是fMRI建模的应用研究,与您的primary interests直接联系较弱,但涉及统计计算中的EM算法和缺失数据处理(与您inverse problems的经验相呼应)。作为应用案例,可提供模型比较和参数估计的实践思路,但核心统计工具(Rice分布、AR阶数选择)不在您当前武器库中。暂不可做:若要深入应用或改进此模型,需补充fMRI数据结构和预处理知识,且该领域与您的主攻方向差异较大;但可作为统计计算兴趣的gateway reading,了解实际数据建模中的分布选择与计算策略。
3. 10.1214/24-aoas1997 — An application of vine-based regression to flight landing data¶
- 作者: Hassan Alnasser, Claudia Czado
- 期刊/来源: Annals of Applied Statistics
- 机构: Technical University of Munich
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
application - 摘要: 本文针对航空着陆数据提出基于藤(vine)copula 的分布回归模型,目标是量化影响飞机减速至可控速度(80 knots)所需距离的协变量效应。研究使用快速存取记录器(QAR)提供的 711 次航班数据,利用藤 copula 处理非线性、非高斯依赖结构,并比较了 D-vine、C-vine 等三种藤回归与两种高斯基准模型。结果显示 D-vine 回归在拟合和解释上最优,基于该模型计算的条件概率识别出 41 个高风险航班。对各高风险航班的协变量边缘分布和依赖模式分析表明,制定防控策略需同时考虑变量间的非对称依赖和尾部行为。该文以实际应用为导向,方法上融合了藤 copula 与分布回归,但未涉及新的方法论或理论贡献。
- 关键技术:
vine copula,distributional regression,D-vine,conditional quantile modeling,copula-based regression - 为什么对您有用: 该论文属于半参数建模的航空安全应用,与您的主要兴趣(半参数非参数理论、统计计算)有弱关联——藤 copula 是一种半参数工具,可视为 distributional regression 的一种实现。但该文未提出新方法或理论结果,且应用领域(航空安全)不在您的二级兴趣(天文学、经济学、流行病学)之列。如果您的武器库中 moderately_familiar 的“半参数理论”项需要巩固,本文可作为实例参考;但核心工具(藤 copula)与您熟悉的 nonparametric statistics / minimax bounds 距离较远,暂不构成立即可做的问题来源。
4. 10.1214/25-aoas2027 · arXiv — Synthesizing data products, mathematical models, and observations for lake temperature forecasting¶
- 作者: Maike F. Holthuijzen, Robert B. Gramacy, Cayelan C. Carey, David M. Higdon, R. Quinn Thomas
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
application - 摘要: 本文针对湖泊水温预测问题,提出结合物理过程模型(GLM)与观测数据的偏差校正高斯过程代理模型(GPBC)框架。GLM作为机理模拟器存在输入随机性大、不确定性量化困难及系统性偏差等问题,作者用GP作为代理模型近似GLM输出,并在GP均值函数中显式建模GLM的系统性偏差。该方法在处理高维输入的同时,通过GP的异方差结构捕捉输入依赖的变异性,实现了对物理模型偏差的校正与预测不确定性的量化。实证表明,GPBC在未来两周的预测精度与UQ表现上优于纯气候学模型和原始GLM模拟。对您而言,本文展示了GP代理模型在修正物理模型偏差时的具体构建方式,可作为统计计算与数值方法在环境科学应用中的参考案例。
- 关键技术:
Gaussian process surrogate,bias-corrected GP (GPBC),process-based model calibration,heteroskedastic GP,uncertainty quantification - 为什么对您有用: 本文属于环境科学中的统计计算应用,核心是GP代理模型与物理模型偏差校正,与您的primary interest(统计计算/数值方法)有弱连接,但未触及高维统计或半参数效率理论。您的武器库中very_familiar的软件开发与数值方法足以理解并复现其GP构建流程,属于立即可做但收益有限(仅限应用模式参考)。作为gateway reading,本文对物理模型偏差校正的UQ思路有清晰展示,但数据结构与模型设定较专一,对统计方法论推进不大,建议快速浏览GPBC构建部分即可,无需深读全文。
5. 10.1214/24-aoas2008 · arXiv — Supervised centrality via sparse network influence regression: An application to the 2021 Henan floods’ social network¶
- 作者: Yingying Ma, Wei Lan, Chenlei Leng, Ting Li, Hansheng Wang
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 2/10 · novelty:
new_method - 摘要: 在社交网络设定下,目标是利用节点响应变量(如评论/转发/点赞数)识别任务特定的“监督中心性”(supervised centrality),而非传统拓扑中心性。作者提出稀疏网络影响回归(sparse network influence regression),为每个用户引入个体异质性参数以刻画其影响力,并施加稀疏约束以筛选关键节点。针对大规模网络的计算困难,设计了前向添加算法(forward-addition algorithm),理论上证明该算法能一致地识别出影响节点的超集。实证分析2021年河南洪水新浪微博数据,发现不同响应变量下关键用户存在差异。对您而言,本文的稀疏M-estimation与算法一致性证明可作为高维网络M-estimation的参考案例。
- 关键技术:
sparse network influence regression,supervised centrality,forward-addition algorithm,individual heterogeneity,superset identification consistency,sparse M-estimation - 为什么对您有用: 本文连接到高维统计中的稀疏M-estimation与变量筛选一致性,但核心是网络节点排序而非因果推断或RMT。用您very_familiar中的M-estimation理论(moderately_familiar)可以审视其前向添加算法的筛选一致性条件是否可进一步收紧。中期可做:需先在moderately_familiar的M-estimation理论(特别是高维稀疏回归的screening性质)上长肌肉,才能对其理论边界做 sharper rate 分析;若仅关注计算算法,则立即可读但 novelty 有限。
6. 10.1214/24-aoas2002 · arXiv — Bayesian inference for partial orders from random linear extensions: Power relations from 12th century royal acta¶
- 作者: Geoff K. Nicholls, Jeong Eun Lee, Nicholas Karn, David Johnson, Rukuang Huang, Alexis Muir-Watt
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 1/10 · novelty:
application - 摘要: 本文研究从 12 世纪皇家法案的见证人排序数据中推断主教社会等级的演化问题,estimand 为随时间演化的偏序集(poset)结构。构建了一个隐马尔可夫模型(HMM),隐状态为演化 poset(社会层级),发射分布为服从该 poset 的随机线性扩展(即观测到的全序名单),并引入"插队"噪声过程。该模型推广了 Mallows 与 Plackett-Luce 等经典排序模型,其 poset 先验满足边际一致性,并通过参数控制 poset 深度及利用协变量指导个体层级位置。实证结果表明主教地位存在显著时变特征,且 Bucket Order 与 VSP order 等简化模型被拒绝。对您而言,本文展示了 HMM 与贝叶斯结构推断在历史排序数据中的应用,可作为经济/社会序列排序数据的建模参考。
- ⚠️ 摘要不完整,待重跑(
python -m research_news.rerun) - 关键技术:
Hidden Markov Model,partial order (poset) inference,random linear extension,Mallows model generalization,Bayesian latent-variable prior,Plackett-Luce model - 为什么对您有用: 本文属于经济理论(历史社会排序数据)的应用贝叶斯推断,核心 estimand 是时变偏序结构而非因果效应或高维参数,与您 primary interests 的数学统计/效率理论/高维工具交集较浅。您武器库中的 very_familiar(高维渐近/软件开发)和 moderately_familiar(M-estimation)无法直接攻入其贝叶斯 poset MCMC 推断的核心口子。作为 gateway reading,本文对历史排序数据的建模思路有一定参考价值,但方法学 novelty 对您而言偏低。follow-up 判定:暂不可做——核心贝叶斯 poset 采样与边际一致性先验构造不在当前武器库内,且与您主攻方向距离较远,不建议花时间读全文。
7. 10.1214/24-aoas1993 — A MultiRun step-stress model for trend renewal data with applications to lifetime assessment for rechargeable batteries¶
- 作者: Sheng-Tsaing Tseng, Nan-Jung Hsu, Chien-Chi Wu
- 期刊/来源: Annals of Applied Statistics
- 机构: National Tsing Hua University
- 分类: vol 19 · issue 2
- 相关性 1/10 · novelty:
new_method - 摘要: 本文针对高可靠性可充电锂电池的寿命评估,提出一种多轮k级步进应力加速实验,并采用趋势更新过程(TRP)将电池容量退化建模为计数过程。通过利用累积暴露的马尔可夫性质,将多步应力TRP模型等价转换为多个恒定应力TRP模型,进而使用最大似然估计参数并推断正常使用条件下的寿命终点(EOP)。该转换简化了似然计算,并允许直接借用经典加速寿命检验的分析工具。模拟和实际锂电池数据验证了方法的有效性。对您而言,该纵向计数过程建模思路与因果推断中的重复测量设定有概念联系,但核心模型(TRP)与您现有武器库匹配度一般,短期深读投入产出较低。
- 关键技术:
Trend renewal process (TRP),Counting process,Multi-run step-stress model,Markov property of cumulative exposure,Maximum likelihood estimation,Accelerated life testing - 为什么对您有用: 本文属于工程可靠性应用,其纵向计数过程建模(TRP+步进应力)与您关注的因果推断中重复测量(longitudinal)设定具有概念上的联系。可从您非常熟悉的nonparametric statistics出发,尝试将TRP模型半参数化以放松分布假设,或使用minimax bounds评估估计效率。但核心TRP计数过程工具不在您的武器库内,且数据生成机制(加速试验)与观测性因果推断差异较大,属于暂不可做的方向。
8. 10.1214/25-aoas2035 — A dual-dictionary model for mining domain-specific Chinese texts¶
- 作者: Jiaze Xu, Changzai Pan, Ke Deng
- 期刊/来源: Annals of Applied Statistics
- 机构: Tsinghua University
- 分类: vol 19 · issue 2
- 相关性 1/10 · novelty:
new_method - 摘要: 本文针对领域特定中文文本的无标注处理问题,提出 TopWORDS-MEPA(TWM)统计模型,目标是在极少训练信息下同时完成元模式发现、命名实体识别、分词与关系抽取。核心机制基于双字典(dual-dictionary)结构:一个领域专用字典与一个通用字典,通过 EM-type 算法在未标注语料上迭代优化字典概率与文本切分,实现 unsupervised/semi-supervised 的联合推断。理论层面未给出 minimax rate 或 consistency 证明,主要贡献在算法与实证;模拟与真实数据表明 TWM 相比监督学习与大语言模型在领域文本上性能稳定、计算成本低、解释性更强。对您而言,本文方法学 novelty 有限,但其双字典 EM 框架可作为统计计算与 NLP 交叉的入门案例。
- 关键技术:
dual-dictionary model,EM-type algorithm,unsupervised word segmentation,meta-pattern discovery,semi-supervised text mining - 为什么对您有用: 本文与您的主要研究方向(因果推断、高维RMT、半参数效率等)无直接交集,属于统计计算与 NLP 交叉的应用方法论文。您的
technical_arsenal中 software development 与 EM-type 算法实现可支撑复现,但核心理论工具(minimax、U-statistic、influence function)在此无施展空间。follow-up 判断:暂不可做——缺乏您关心的理论口子(无 consistency/minimax 分析),且 NLP 字典模型不在武器库内;若仅作统计计算练手可读,但不值得深读全文。
9. 10.1214/24-aoas1992 · arXiv — Comparing baseball players across eras via novel Full House Modeling¶
- 作者: Shen Yan, Adrian Burgos, Jr., Christopher Kinson, Daniel J. Eck
- 期刊/来源: Annals of Applied Statistics
- 分类: vol 19 · issue 2
- 相关性 0/10 · novelty:
application - 摘要: 本文提出 Full House Model 框架,用于跨时代比较 MLB 球员表现统计量;核心 estimand 是经"人才池规模"调整后的球员成就指标,假设同一赛季内球员表现与人才池大小存在可建模的平衡关系。方法通过将赛季内成就与人才池规模联合建模实现 era-adjustment,并辅以 sensitivity 与 multiverse 分析检验建模输入(如人才池估计)变动对排名的影响。理论层面未给出收敛率或效率界,实质贡献在于应用框架与数据驱动的排名重构。对您可能有用:本文的 sensitivity / multiverse 分析思路可迁移至因果推断的 sensitivity analysis 设定。
- ⚠️ 摘要不完整,待重跑(
python -m research_news.rerun) - 关键技术:
era-adjustment modeling,sensitivity analysis,multiverse analysis,talent pool estimation - 为什么对您有用: 本文与您的 primary interests(因果推断、高维、半参数效率等)无直接方法论重叠;其 sensitivity/multiverse 分析与因果 sensitivity analysis 有概念连接,但技术深度较浅。用您 very_familiar 的 minimax bounds 或 moderately_familiar 的 semiparametric theory 无法直接攻入本文框架——本文缺乏效率界或估计量的渐近理论。属于 gateway-reading 范畴:不是好入门读物(聚焦棒球数据,无通用统计方法论提炼);武器库足够但主题偏窄;不建议花时间读全文。
Maintained by 陈星宇 · Homepage · Source on GitHub