跳转至

JRSS-C — Vol 75 Issue 3 · 2026-06-20

  • 共 13 篇 · Journal of the Royal Statistical Society Series C
  • 目录核对 ✅ 13 篇全部抓到(对照 OpenAlex 13 篇)

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

第一段:本期共有13篇论文,按方法/主题可归纳为四条主线。因果推断与效应异质性集中了3篇,涉及结果误分类下的识别与估计(逆概率加权、双重稳健)、心理学实验中效应泛化的分布偏移分解(加权、外推)、以及多中心RCT中条件平均处理效应的预测与不确定性量化(meta分析+causal forest/BART)。复杂数据建模覆盖6篇,包括传染病隐马尔可夫SEIR模型参数恢复、小区域贝叶斯分层模型、零膨胀数据的空间尺度转换、函数数据稳健域选择、声学谱图贝叶斯非参数建模、以及关系事件模型中的全局协变量效应估计。假设检验有1篇,提出自适应Fisher方法以同时适应超稀疏到中等稀疏信号。其余3篇分属数据科学应用:最优传输聚类触球分布、贝叶斯代理模型预测退化曲线、以及转维MCMC检测差异甲基化位点。

第二条主线聚焦因果推断与效应异质性估计的三篇。《Estimating causal effect in case–control studies with nondifferential misclassified outcomes》在回顾性设计下利用外部患病率与误分类率建立非参数可识别性,提出IPW与双重稳健两类估计器,后者在倾向得分或结果模型之一正确时一致。《Diagnosing the role of observable distribution shift in effect generalization for psychological experiments》将两研究间的效应量差异分解为可观测分布偏移的贡献,通过加权与外推量化各因素贡献度,并发现实际中效应异质性有限时偏移的贡献被高估。《Precision mental health》在多中心RCT中通过两阶段方法(先各站点用参数/非参数估计CATE,再跨站点汇总并构造预测区间)为患者提供个性化效应的不确定表达,同时捕获站点内与站点间变异。三篇从不同角度推进了因果效应的识别、分解与预测,方法工具涵盖调整权重、双重稳健、因果森林与元分析。

第三条主线为假设检验与函数数据分析各一篇。《Adaptive Fisher's method using weakly geometric grid for combining p-values》针对稀疏信号检测,在经典Fisher方法基础上引入自适应网格搜索,理论证明在p值数量超过样本量时仍可保持功效,适合大规模多重比较场景。《Robust domain selection for functional data via interval-wise testing and effect size mapping》扩展区间检验以处理异常值与缺失片段,同时利用功能性M估计构建检验统计量,并用效应量热力图辅助有临床意义的子区间识别。两者均涉及检验行为的改进,但适用场景差异明显。

对于侧重因果推断的读者,可优先阅读因果推断与效应异质性估计的三篇(结果误分类、效应泛化、多中心CATE预测);关注半参数效率与鲁棒方法的读者,可关注函数数据域选择与零膨胀数据尺度转换;对假设检验与多重比较感兴趣的读者,自适应Fisher方法值得细读。

因果推断 (causal_inference, 2 篇)

1. 10.1093/jrsssc/qlag012 — Estimating causal effect in case–control studies with nondifferential misclassified outcomes

  • 作者: Min Zeng, Zijian Sui, Zeyang Jia, Jinfeng Xu, Hong Zhang
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: University of Science and Technology of China · Hefei University of Technology · City University of Hong Kong
  • 分类: vol 75 · issue 3 · pp 763-785
  • 相关性 8/10 · novelty: new_method
  • 摘要: 该论文研究病例对照研究中结果变量存在非差分误分类时的因果效应估计问题。病例对照设计下个体按结果状态抽样,导致回顾性设计使因果推断复杂化;当结果被误分类(如基于照料者报告的症状)时,问题进一步加剧。作者利用外部信息(疾病患病率和误分类率)建立了平均处理效应(ATE)和条件平均处理效应(CATE)的非参数可识别性,覆盖了非差分和差分误分类情景。针对非差分误分类,提出了两种新颖的估计方法:一种基于逆概率加权(IPW),另一种为双重稳健(DR)估计,后者在倾向得分或结果模型之一正确时仍保持一致。通过大量仿真和两个真实数据案例(全球肠道多中心研究)验证了有限样本性能。对您而言,该文直接关联因果推断中结果误分类的识别与估计主题,且在流行病学病例对照应用中有实践价值。
  • 关键技术: case-control sampling, nondifferential misclassification, inverse probability weighting, doubly robust estimation, identification using external information
  • 为什么对您有用: (1)该文聚焦病例对照设计中结果误分类下的因果推断,属于您的 primary interest 中因果推断的子方向——敏感性分析与识别问题。(2)武器库中「因果推断的估计理论」可直接用于评估其双重稳健估计量的一致性与效率,而「非参数统计」工具可用于检验其可识别性条件的紧性。(3)立即可做:该文方法的技术难度不高(IPW 与 DR 估计),您的现有武器足以复现并扩展至差分误分类或更多协变量场景。

2. 10.1093/jrsssc/qlag019 — Diagnosing the role of observable distribution shift in effect generalization for psychological experiments

  • 作者: Ying Jin, Kevin Guo, Dominik Rothenhäusler
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: University of Pennsylvania · Stanford Medicine · Stanford University
  • 分类: vol 75 · issue 3 · pp 801-828
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对心理学实验中效应量在复制研究间的差异归因问题,提出一个基于可推广性方法的框架,将两个研究间的效应量差异分解为来自不同观察分布偏移(如被试抑郁分数分布变化)的贡献。研究动机是某项眼动干预对错误记忆效应的复制实验中,效应量下降被归因于抑郁分数分布偏移。作者利用通用性方法(包括加权、外推等技术)统一纳入常见的偏移来源,并给出可解释的贡献度总结。针对样本量有限和选择性偏倚等实际挑战,文章提出了相应的统计处理方式。在原始实验中发现,尽管抑郁分数偏移显著,但由于效应异质性有限,该偏移对效应差异的实际贡献远小于未观测因素的贡献。文中另有两个额外实验对所得结论进行了展示,证明方法能提供情境依赖的洞见。本文所提出的工具在仅有少数研究、不足以进行元分析的早期科学过程中尤为有用。对您而言,本文将因果推断中的可推广性和敏感性分析具体应用于心理学实验的复制危机,与您主要兴趣中的因果识别和估计方法紧密相连。
  • 关键技术: generalizability methods, effect decomposition, distribution shift analysis, sensitivity analysis, selection bias correction, out-of-sample generalization
  • 为什么对您有用: 本文将因果推断中的可推广性(generalizability)和敏感性分析(sensitivity analysis)具体应用于心理学实验的效应差异分解问题,直接对应您的primary interests中'causal inference (identification, estimation, sensitivity analysis)'子方向。您非常熟悉的'estimation theory in causal inference'可直接用于理解本文使用的加权/外推估计量;您中度熟悉的'identification theory'也有助于审视其因果假设的合理性。从follow-up角度:立即可做——您可使用类似框架对本领域的复制实验或跨人群效应推广进行分解分析,技术门槛不高,核心是理解分解逻辑和假设。

非参数 / 半参数 (nonparam_semipara, 2 篇)

1. 10.1093/jrsssc/qlag014 · arXiv — Robust domain selection for functional data via interval-wise testing and effect size mapping

  • 作者: Yeonjoo Park, Aiguo Han
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 分类: vol 75 · issue 3 · pp 786-800
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在函数数据分析(FDA)框架下,研究目标是 domain selection——识别函数域上呈现组间位置参数差异的子区间,核心假设为函数轨迹可能含异常值与缺失片段。方法扩展了 interval-wise testing(IWT),同时考虑函数特征的多个方面以检测可解释域;针对异常值与缺失,采用基于 functional M-estimator 的检验统计量进行区间推断。此外,引入 effect size heatmap,从最小到最大尺度计算 robustified effect size,以反映组间动态函数行为,辅助临床选择有意义的子区间。模拟与定量超声(QUS)数据应用验证了方法性能。对您而言,本文的 functional M-estimator 推断与多尺度 effect size 映射,可作为非参数理论中 M-estimation 与区间检验结合的实例参考。
  • 关键技术: interval-wise testing, functional M-estimation, robustified effect size, domain selection, effect size heatmap
  • 为什么对您有用: 本文连接到非参数理论中的 M-estimation 推断子方向,其 functional M-estimator 的区间检验设计可视为您 moderately_familiar 中 M-estimation theory 的函数数据延伸。用 very_familiar 的 nonparametric statistics 可直接审视其检验统计量的收敛与 effect size 映射的尺度一致性。立即可做:用 minimax bounds 检验其 domain selection 的检测效力是否达到最优率,或用 M-estimation 理论分析其 robust 统计量的影响函数。

2. 10.1093/jrsssc/qlaf057 · arXiv — Bayesian inference for latent spectral shapes

  • 作者: Daria Valente, Hiu Ching Yip, Gianluca Mastrantonio, Enrico Bibbona, Olivier Friard, Marco Gamba
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 分类: vol 75 · issue 3 · pp 564-582
  • 相关性 0/10 · novelty: application
  • 摘要: 本文针对动物叫声的谱图数据提出一个分层贝叶斯模型,旨在识别不同物种的潜在频谱形状。模型通过同步函数对齐不同时长的叫声,并用圆形时间表示处理周期性采样伪影。为了克服参数空间的高维性,采用最近邻高斯过程(NNGP)进行近似,并用MCMC进行后验抽样。应用于八种狐猴的叫声数据,定义了代表性声音并计算距离度量进行物种比较。交叉验证和模拟实验验证了模型的可预测性和参数识别能力。该工作展示了贝叶斯非参数方法在生物声学中的应用,其同步建模思路对纵向或时间错位数据的分析有借鉴意义。
  • 关键技术: Nearest Neighbour Gaussian Process (NNGP), Hierarchical Bayesian model, Markov chain Monte Carlo, Spectrogram analysis, Synchronization function
  • 为什么对您有用: 本文属于非参数贝叶斯方法在复杂时间序列中的应用,其核心可扩展高斯过程(NNGP)属于统计计算的前沿技术。研究者若对可扩展高斯过程感兴趣(属于'统计计算'子方向),可从本文学习NNGP的实现与MCMC策略。目前武器库中缺少对NNGP的直接经验,属于中期可做:需先熟悉高斯过程近似方法(moderately_familiar中的'半参数理论'可提供基础)。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)

1. 10.1093/jrsssc/qlaf069 — Adaptive Fisher’s method using weakly geometric grid for combining p -values with application to COVID-19 surveillance

  • 作者: Yusi Fang, Zhao Ren, George C Tseng
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: University of Pittsburgh
  • 分类: vol 75 · issue 3 · pp 699-717
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在多重假设检验设定下,目标是检测稀疏信号(如 COVID-19 早期区域爆发),estimand 为全局是否存在非零信号。经典 Fisher's method 对中等稀疏信号有效但对超稀疏信号乏力,而现有方法难以兼顾两者。本文提出 Adaptive Fisher's method,通过 weakly geometric grid 搜索策略自适应覆盖从超稀疏到中等稀疏的整条谱。理论证明该方法在 mild regularity 条件下对近似 p-value 组合具有鲁棒性,即使 p-value 数量远超推导它们的样本量也能保持检验功效,并提供了计算其 p-value 的高效算法。实证以美国早期 COVID-19 监测数据展示该方法在不同稀疏度区域的一致检测力。对您可能有用:weakly geometric grid 的自适应搜索与近似 p-value 鲁棒性分析,为高维稀疏信号检测的 hypothesis testing 提供了新视角。
  • 关键技术: p-value combination, Adaptive Fisher's method, weakly geometric grid, sparse signal detection, approximated p-value robustness
  • 为什么对您有用: 直接连接 hypothesis testing 子方向,处理 p-value 数量远超样本量的高维稀疏信号检测场景。technical_arsenal 中 minimax bounds for estimation problems 的思路可用来审视其声称的整条稀疏谱功效是否达到 minimax optimal,very_familiar 的 software development 也可直接复现其高效算法。判断:立即可做——用 very_familiar 的 minimax 理论验证其 rate 是否紧,并可用 einsum / tensor contraction 视角审视其 grid search 组合的计算复杂度。

流行病学 (epidemiology, 3 篇)

1. 10.1093/jrsssc/qlaf068 · arXiv — Precision mental health: predicting heterogeneous treatment effects for depression through data integration

  • 作者: Carly L Brantner, Trang Quynh Nguyen, Harsh Parikh, Congwen Zhao, Hwanhee Hong, Elizabeth A Stuart
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 分类: vol 75 · issue 3 · pp 677-698
  • 相关性 7/10 · novelty: new_method
  • 摘要: 在多中心 RCT 数据整合设定下,目标是预测目标人群的 CATE 并量化其不确定性,关键假设为各 RCT 人群间存在可迁移的效应异质性分布。本文提出两阶段 meta-analytic 方法:第一阶段在各个 RCT 内用参数回归或非参数方法(causal forest / BART)估计 study-specific CATE;第二阶段跨 RCT 汇总 CATE 的分布,为目标患者 profile 构造 95% prediction interval,同时捕捉 within-study 与 between-study 变异性。模拟与抑郁治疗(duloxetine vs vortioxetine)真实 RCT 数据应用显示,该方法在需要时能产生比单研究置信区间更宽的预测区间,实证仅发现年龄可能带来效应异质性。对您可能有用:该文提供了一个将非参数 CATE 估计与 meta-analysis 结合的流行病学应用范例,展示了如何在 transportability 设定下量化异质性不确定性。
  • 关键技术: CATE estimation, meta-analytic prediction interval, causal forest, BART, transportability across RCTs, between-study variability decomposition
  • 为什么对您有用: 本文连接到流行病学应用与因果推断的 CATE/transportability 子方向。武器库中 very_familiar 的非参数统计与 estimation theory in causal inference 可以直接用来审视其第一阶段 CATE 估计的收敛性质与效率;moderately_familiar 的 semiparametric theory 可用来评估其 prediction interval 的渐近覆盖是否达到某种效率界。follow-up 判断:立即可做——用 very_familiar 的 minimax bounds 工具分析其非参数第一阶段在异质性稀疏设定下的 rate,或用 semiparametric efficiency bound 检验其 prediction interval 是否保守过度。

2. 10.1093/jrsssc/qlaf067 — Inference for hidden stochastic compartmental models: application to typhoid fever dynamics in Mayotte

  • 作者: Ibrahim Bouzalmat, Benoîte de Saporta, Solym M Manou-Abi
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: Centre National de la Recherche Scientifique · Université de Montpellier · Université de Poitiers · Géosciences Montpellier
  • 分类: vol 75 · issue 3 · pp 649-676
  • 相关性 5/10 · novelty: application
  • 摘要: 本文旨在估计一个随机SEIR(易感-暴露-感染-移除)流行病模型的参数,目标估计量为污染率、潜伏率和隔离率等关键流行病学参数。数据来自马约特岛的伤寒热报告,观察方案独特:仅能获取周期性的累积新移除计数(即新报告病例的累计值),而非逐日病例数。作者首先给出完全模型下参数作为某些矩或转移概率函数的解析表达式。然后利用隐马尔可夫链框架,将真实感染状态视为隐藏状态,并自适应标准Baum-Welch算法来估计转移矩阵,从而恢复感兴趣参数。通过合成数据考察方法表现,并分析了使用更少隔室的模型对数据拟合的影响以辅助模型选择。最后将该方法应用于真实的伤寒数据,得到参数的估计值。整体工作是对经典隐马尔可夫模型在传染病监测中的一项应用创新,方法本身较为成熟。
  • 关键技术: Hidden Markov model, Baum-Welch algorithm, Compartmental SEIR model, Cumulated count data, Stochastic epidemic model
  • 为什么对您有用: 本文属于流行病学应用(secondary interest),展示了在聚合数据(累积计数)下利用隐马尔可夫链进行参数估计的完整流程。研究者武器库中的“identification theory in causal inference”可用来思考此类传染病观测数据中污染率与隔离率的因果识别问题,但需要先熟悉HMM框架和Baum-Welch算法的收敛性分析,属于中期可做方向(需先在HMM模型学习上长肌肉)。

3. 10.1093/jrsssc/qlaf070 — A multivariate Bayesian hierarchical model for small area estimation of criminal victimization rates in domains defined by age and sex

  • 作者: Emily Berg, Alexandra Thompson
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: Iowa State University · Bureau of Labor Statistics · United States Department of Justice
  • 分类: vol 75 · issue 3 · pp 718-743
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对美国国家犯罪受害调查(NCVS)中定义的年龄与性别交叉小域,提出多变量贝叶斯分层模型以改进犯罪受害率的小区域估计。直接调查估计量因样本量不足而不稳定,模型通过借用跨域信息提高精度。研究比较了对数变换与原始尺度两种模型设定,并针对简单 assault、抢劫、严重 assault 等四种暴力犯罪类型在两个时间段分别给出估计。模型采用马尔可夫链蒙特卡洛(MCMC)进行推断,并通过后验预测检验评估拟合。结果显示模型优于直接估计,且对数变换模型在部分域上更稳健。该文是调查统计和小区域估计的典型应用,对流行病学中基于调查数据的小域发病率估计具有直接参考价值。
  • 关键技术: Multivariate Bayesian hierarchical model, small area estimation, log-transformation, Markov chain Monte Carlo, survey weighting
  • 为什么对您有用: 本文属于流行病学应用(犯罪受害率可视为社会流行病学指标),正好对应研究者的 secondary interest:流行病学(应用、数据集)。武器库中的「估计理论 in causal inference」可迁移至此处的小域分层模型——贝叶斯结构与非参平滑思想相通。这是一篇入门友好的应用文章,数据结构和模型假设清晰,适合作为流行病学小域估计的范例阅读,值得花时间浏览以熟悉此类应用的数据分析流水线。

其他 (other, 5 篇)

1. 10.1093/jrsssc/qlag010 · arXiv — Bayesian emulation of geotechnical deterioration curves using quadratic and B-spline hierarchical models

  • 作者: Jordan L Oakley, Aleksandra Svalova, Peter Helm, Dennis Prangle, Mohamed Rouainia, Stephanie Glendinning et al.
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 分类: vol 75 · issue 3 · pp 744-762
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对岩土基础设施(如边坡、堤防)安全系数随时间的退化曲线,提出了一种贝叶斯高斯过程仿真器(emulator)来预测安全系数的时间序列。作者基于75个计算机实验的集合,训练了全贝叶斯GP仿真器;构建了两个层次模型:一个用二次模型近似安全系数的时间演化,另一个用B样条模型近似,并对其参数进行仿真。GP仿真器以边坡初始条件为输入,输出模型参数,进而生成安全系数的时间曲线。该方法有望将时间依赖性退化引入岩土资产管理,辅助边坡设计、维护和修复决策。本文是纯粹的应用性工作,集中于工程领域的计算机实验代理建模,未涉及新的统计方法论。对于统计学家而言,本文可作为计算机实验仿真和层次贝叶斯建模的工程应用案例,但其方法论贡献有限。
  • 关键技术: Gaussian process emulator, Bayesian hierarchical model, B-splines, computer experiments
  • 为什么对您有用: 本文虽不属于您的主要兴趣方向,但展示了贝叶斯GP仿真器在工程系统建模中的实际应用,与统计计算(数值方法与算法)有间接关联。您若对计算机实验的代理建模感兴趣,可从中了解工程领域对仿真器的需求和数据特点,但方法论上不涉及您武器库中的高维统计或因果推断工具。作为gateway阅读,本文适合快速浏览以拓宽应用视角,但无需投入深度分析。

2. 10.1093/jrsssc/qlaf060 — The geometry of touching: optimal transport to cluster playing styles and match outcomes in soccer

  • 作者: Alessandro Spelta, Paolo Pagnottoni, Nicolò Pecora
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: University of Pavia · University of Insubria · Azienda Unità Sanitaria Locale Piacenza · Ospedaliera di Piacenza · Catholic University of America
  • 分类: vol 75 · issue 3 · pp 624-648
  • 相关性 1/10 · novelty: application
  • 摘要: 本文在足球比赛空间数据设定下,研究球员触球分布与比赛结果之间的关联及预测问题。核心方法是将球员触球位置建模为空间概率分布,利用 balanced 与 unbalanced optimal transport(Wasserstein 距离)量化不同比赛间触球分布的几何与体积差异。通过计算 Wasserstein barycentres 对球队触球分布进行聚类,提取主导打法风格;实证表明胜利方的触球分布一致性更高,且该聚类特征对比赛胜负结果具有预测力。方法学 novelty 主要在于将 optimal transport 工具引入体育空间数据分析,理论层面无 minimax 或效率界的新结果。对您而言,本文可作为 optimal transport 在非标准空间数据中应用的实证案例,但与因果推断或高维统计的核心理论兴趣距离较远。
  • 关键技术: optimal transport distance, Wasserstein barycentre, unbalanced optimal transport, spatial distribution clustering, predictive classification
  • 为什么对您有用: 本文与您 primary interests 的核心理论方向(因果推断、高维 RMT、效率理论等)无直接交集,仅涉及 optimal transport 这一计算几何工具的实证应用。若您对 optimal transport 的计算复杂度与 tensor contraction / einsum 的联系有兴趣,本文可作为入门级应用场景阅读,但未触及计算复杂度理论或统计效率界。Follow-up 判断:暂不可做——本文是纯应用实证,缺乏可供您用 minimax bound 或 higher-order U-stat 工具切入的理论口子;若要深入 optimal transport 计算理论,需先补足连续优化与测度论基础(武器库暂缺)。

3. 10.1093/jrsssc/qlaf058 — Relational event models with global covariates: an application to bike sharing

  • 作者: Melania Lembo, Rūta Juozaitienė, Veronica Vinciotti, Ernst C Wit
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: Università della Svizzera italiana · Vytautas Magnus University · University of Trento
  • 分类: vol 75 · issue 3 · pp 583-600
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文采用关系事件模型(relational event model)分析共享单车骑行网络,目标是同时估计全局协变量(如天气、时段)和节点/边特异性协变量对骑行事件发生率的影响。关系事件模型的常用部分似然方法将全局协变量视为 nuisance,为此作者提出一种时间偏移的非事件采样策略,与嵌套病例对照设计结合,使得部分似然退化为一个易于估计的逻辑加法模型,从而有效恢复全局协变量的效应。该方法避免了全似然在超大事件过程中的计算不可行性问题,模拟实验验证了估计的一致性和计算效率。对华盛顿特区约35万次骑行的实际数据分析显示,天气和时段对骑行流量有显著影响,同时节点和边协变量(如站点容量、距离)也保持重要。对您而言,这是一篇方法驱动的应用统计论文,尽管核心方法(事件史采样、逻辑加法模型)与您的主要兴趣(因果推断、高维、U-统计)距离较远,但其采样策略和部分似然技巧在纵向事件数据分析中具有潜在借鉴意义。
  • 关键技术: Relational event model, nested case-control sampling, time-shifted non-events, partial likelihood, logistic additive model
  • 为什么对您有用: 本文并非因果推断或高维统计的核心议题,但与次要兴趣中的流行病学应用(事件史数据、纵向骑行记录)存在弱连接。武器库中无事件史分析基础工具(如部分似然、风险集构造),因此暂不可做——需先补充事件史模型和采样设计的相关知识。可作入门级阅读以了解关系事件模型的应用流程,但方法学转移性有限。

4. 10.1093/jrsssc/qlaf059 — Uncovering alterations in cancer epigenetics via trans-dimensional Markov chain Monte Carlo and hidden Markov models

  • 作者: Farhad Shokoohi, Saeedeh Hajebi Khaniki
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: University of Nevada, Las Vegas · Mashhad University of Medical Sciences
  • 分类: vol 75 · issue 3 · pp 601-623
  • 相关性 1/10 · novelty: new_method
  • 摘要: 本文研究癌症表观遗传学中差异甲基化胞嘧啶(DMC)的识别问题,设定为基于双硫氰酸测序(BS-Seq)数据的 binomial emission HMM 模型,核心挑战是数据自相关、缺失值与多重比较。方法上提出 trans-dimensional MCMC(TMCMC)进行模型选择,并引入 Expander-Collider penalty 以纠正 HMM 状态数的欠估与过估;同时设计了处理 BS-Seq 数据特有缺失与协变量的机制。模拟实验显示该方法在 DMC 检测上优于现有竞争方法,并在结直肠癌真实数据中发现了 Tp53 通路富集的新 DMC 与基因。对您而言,本文展示了 MCMC 与 HMM 在生物统计中的典型应用,但方法论上属于生物统计特定场景的工程化改进,与您关注的 hypothesis testing 或 semiparametric 理论距离较远。
  • 关键技术: trans-dimensional MCMC, hidden Markov model, binomial emission distribution, Expander-Collider penalty, bisulfite sequencing data modeling, family-wise error control
  • 为什么对您有用: 本文属于生物统计应用,与您 primary interests(causal inference / high-dim / efficiency)无直接交集,亦非 astrostats / econ / epi 的 gateway reading。若从 technical_arsenal 视角看,TMCMC 与 HMM 的 trans-dimensional 模型选择不在您 very_familiar 或 moderately_familiar 列表中,且本文未触及 minimax / U-statistics / semiparametric 等理论工具。结论:暂不可做——核心计算与概率机器(trans-dimensional MCMC / HMM 状态空间推断)不在武器库中,且主题偏离核心方向,不建议花时间深读全文。

5. 10.1093/jrsssc/qlaf056 — Change of support for zero-inflated data: deriving fine-scale species distribution inferences from spatially aggregated data

  • 作者: Baptiste Alglave, Bastien Mourguiart, Kasper Kristensen, Etienne Rivot, Mathieu Woillez, Youen Vermard et al.
  • 期刊/来源: Journal of the Royal Statistical Society Series C
  • 机构: Université de Bretagne Sud · Ifremer · Technical University of Denmark · Institut National de Recherche pour l'Agriculture, l'Alimentation et l'Environnement · Ecology and Ecosystem Health · Université Clermont Auvergne · ENSAE Paris
  • 分类: vol 75 · issue 3 · pp 547-563
  • 相关性 1/10 · novelty: new_method
  • 摘要: 在环境科学的空间数据设定下,目标是解决零膨胀且重尾分布数据的 change of support (COS) 问题,即从粗分辨率聚合数据推断细分辨率点级过程的参数与预测。现有 COS 方法仅覆盖 Poisson 或 Gaussian 等少数分布,本文针对渔业数据常见的零膨胀重尾特征,提出层级模型:假设点级数据位置已知,聚合观测为其卷积叠加,通过层级结构将细尺度零膨胀过程与粗尺度观测桥接。模拟研究验证了估计精度与预测优势,比索 Bay of Biscay 比目鱼案例表明该方法在揭示环境对物种分布效应上优于 ad hoc 地理处理方法。对您可能有用:若未来在流行病学或经济学的空间聚合数据(如区域级疾病计数、县级经济指标)中遇到零膨胀设定,此层级卷积建模思路可提供非标准分布 COS 的参考框架。
  • 关键技术: change of support (COS), hierarchical Bayesian model, zero-inflated distribution, spatial convolution, aggregated data inference
  • 为什么对您有用: 本文属于应用空间统计,核心连接到 secondary interest 中流行病学或经济学的空间聚合数据推断问题(如区域级零膨胀计数数据的因果或回归分析中常见的 support misalignment)。从 technical_arsenal 角度,本文层级卷积的参数推断可用 very_familiar 的软件开发与 moderately_familiar 的 M-estimation 理论审视其计算与收敛性质,但缺乏与 primary interest(因果推断、高维、效率理论)的直接理论接口。follow-up 判断:中期可做——若要在流行病学/经济学空间数据中引入 COS 修正并做 semiparametric efficient estimation,需先在 moderately_familiar 的 semiparametric theory 上长肌肉,将层级卷积结构嵌入 influence function 框架。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论