跳转至

StatMed — Vol 45 Issue 8-9 · 2026-06-24

  • 共 41 篇 · Statistics in Medicine

本期导览

自动生成:归纳本期主要主题与脉络,不打分、不排名

StatMed Vol 45 Issue 8–9 的 41 篇论文大致可归为几条主线。因果推断占据了最大篇幅,约14篇,集中在聚类/纵向数据下的识别与估计、半竞争风险中介分析、高维倾向得分调参与偏倚检测、以及未测量混杂的敏感性分析。生存数据与时变效应建模是另一条强主线,涉及半竞争风险参数AFT、时变协变量效应、复发事件、中位生存meta等,且多条与因果推断交叉。半参数/非参方法包括左截断右删失回归的sieve似然、纵向序数赢率、函数线性模型测量误差校正、以及非参数AFROC曲线推断。贝叶斯方法广泛出现在流行病学应用(环境温度-死亡率变化点检测、SARI nowcasting、药物不良事件信号检测)和自适应试验设计(BAR12)。此外还有高维与计算方向(稀疏多任务学习、变分贝叶斯多源异质性、有限混合回归的EM-PGM)以及诊断/分类框架(误差控制分类器、成分数据差异丰度检验)。

因果推断主线内部可细分为多个子主题。聚类/纵向处理效应方面:Using Propensity Score Weighting With Clustered Data 比较了四种IPTW策略,指出纳入个体层面协变量可显著降低偏差;Matching‐Based Nonparametric Estimation of Group ATE 提出匹配+偏差校正的双稳健估计量,避免倾向分数极值问题;Neural Network Assisted Estimation for SNAFTM 用神经网络逼近高维条件期望以处理时变混杂;Inverse Probability Weighting for Recurrent Event Models 为复发事件模型提供IPW调整。半竞争风险与中介分析:Hypothesis Tests of Direct and Indirect Effects Under Various Semicompeting Risks Models 将中介效应检验嵌入三种经典半竞争风险模型;Sensitivity Analysis for Unmeasured Confounding in Causal Mediation Analysis With Survival Outcome 提出模拟-调整法并开发R包;A New Parametric AFT Model for Semi‐Competing Risks Data 构建三状态Weibull联合分布。高维倾向得分与偏倚检测:Tuning LASSO Models for Propensity Score Weighting 论证标准CV过度正则化,提出平衡指标调参及阴性对照暴露残余偏倚检测;Missingness in Eligibility Criteria for Target Trial Emulation 对比插补时机选择。此外,Correcting for a Baseline Difference 和 Randomization‐Based Covariance Analysis 均为RCT中的协变量调整问题,前者揭示了Lord’s paradox。

半参数效率方面值得注意:Regression for Left‐Truncated and Right‐Censored Data 用sieve似然达到了半参数效率界;Longitudinal Extension of the Win Odds 通过GEE估计概率指数模型;Generalized Functional Linear Regression With Measurement Error 比较了FSIMEX与MEM两种校正方案;Nonparametric Inference for AFROC 给出了弱假设下的渐近性质与bootstrap推断。贝叶斯主线中,Structure Identification, Estimation and Variable Selection for Varying Coefficient EV Models 虽主方向不在因果,但其B样条+双惩罚的特征可用于纵向测量误差处理;Nonparametric Bayesian Meta‐Analysis With Change Point Detection 提供了环境流行病学中时间分段检测的灵活工具;Unsupervised Sparse Multi‐Task Learning 和 Variational Bayes for High‐Dimensional Multi‐Source Heterogeneous Data 分别展示了稀疏正则化与变分近似在高维生物标志物与多源数据中的实用计算方案。

与因果推断最贴的论文集中在聚类/纵向IPTW、半竞争风险中介、高维PS调参、以及RCT协变量调整这几组,适合优先阅读。半参数效率方向可重点看左截断sieve似然与非参数AFROC两篇。高维方向可关注LASSO调参与变分贝叶斯两篇。

因果推断 (causal_inference, 14 篇)

1. 10.1002/sim.70530 — Hypothesis Tests of Direct and Indirect Effects Under Various Semicompeting Risks Models

  • 作者: Jih‐Chang Yu, Yen‐Tsung Huang
  • 期刊/来源: Statistics in Medicine
  • 机构: National Taiwan University · National Taipei University of Business · National Taipei University · Institute of Statistical Science, Academia Sinica
  • 分类: vol 45 · issue 8-9
  • 相关性 9/10 · novelty: new_method
  • 摘要: 在 semicompeting risks 框架下,目标是检验从 treatment 到 primary outcome 的 direct effect (DE) 与经由 intermediate outcome 的 indirect effect (IE),其中 intermediate outcome 会被 primary outcome censor 但反之不会。作者将 semicompeting risks 问题形式化为 mediation model,在三种经典模型设定下(Clayton copula、gamma frailty、multistate)建立 DE/IE 与模型参数的对应关系并给出检验规则。推断方法上,Clayton copula 模型采用 U-statistic 理论,multistate 和 gamma frailty 模型采用 nonparametric maximum likelihood estimation (NPMLE)。模拟研究表明:Clayton copula 在模型正确设定下功效最高但存在 misspecification bias,gamma frailty 最稳健但效率有损失,multistate 在效率与稳健性之间取得平衡。对您而言,这是 mediation analysis 在复杂生存数据场景下的应用,涉及 U-statistic 推断与 semiparametric 模型的效率-稳健性权衡。
  • 关键技术: semicompeting risks, mediation analysis, U-statistic inference, nonparametric maximum likelihood estimation, Clayton copula model, gamma frailty model
  • 为什么对您有用: (1) 连接到 causal inference 中的 mediation analysis 与 longitudinal/生存数据场景,semicompeting risks 是 mediation 在生存分析中的重要特例。(2) 您 very_familiar 的「computation of higher-order U-statistics」可直接用于审视 Clayton copula 模型中 U-statistic 的计算复杂度与高阶项贡献;moderately_familiar 的「semiparametric theory」可用于分析 NPMLE 在 multistate/gamma frailty 模型下的效率性质。(3) 立即可做:用您熟悉的 U-statistic 工具验证文中 Clayton copula 检验统计量的渐近性质、计算高阶修正项,或用 minimax bound 视角审视三种模型的效率-稳健性 tradeoff。

2. 10.1002/sim.70501 — Using Propensity Score Weighting With Clustered Data When the Treatment Is Applied at the Level of the Cluster and Outcomes Are Assessed at the Level of the Individual: The Observational Analog of Cluster Randomization Trials

  • 作者: Peter C. Austin
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Toronto · Sunnybrook Hospital · Sunnybrook Research Institute
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究聚类数据下处理在聚类层面施加、结局在个体层面测量的倾向分数加权方法,目标是估计平均处理效应(ATE)。设定类似于 cluster randomization trials 的观察性研究类比,关键假设包括可忽略性(需正确设定聚类层面协变量)。提出四种 IPTW 策略:仅聚类层面协变量、加入个体协变量的聚类均值、在结局回归中调整个体协变量、以及组合策略。模拟比较显示,在结局回归模型中纳入个体层面基线变量可显著降低偏差和均方误差,提高估计精度。对您在因果推断中聚类/纵向数据设定下的 identification 与效率理论有直接参考价值。
  • 关键技术: inverse probability of treatment weighting, propensity score estimation, clustered data analysis, cluster randomization trials analog, covariate adjustment in outcome model
  • 为什么对您有用: 直接连接因果推断中聚类数据的 identification 与估计问题,涉及您熟悉的 semiparametric efficiency 理论——可思考如何推导该设定下的 semiparametric efficiency bound 以及不同策略的效率比较。立即可做:用您 very_familiar 的 estimation theory 和 moderately_familiar 的 semiparametric theory 推导该设定下的 efficient influence function,验证模拟发现的效率增益是否达到效率界。

3. 10.1002/sim.70451 · arXiv — Matching‐Based Nonparametric Estimation of Group Average Treatment Effects

  • 作者: Peng Wu, Pengtao Zeng, Zhaoqing Tian, Shaojie Wei
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究 Group Average Treatment Effects (GATEs) 的估计问题,目标参数是在给定关键协变量子集定义的子群体上的平均处理效应,无需对全部协变量分层。作者提出两种非参数方法:基于匹配的估计量通过匹配技术填补潜在结果再做非参数回归,避免了倾向分数接近 0 或 1 时的加权不稳定问题;偏差校正匹配估计量进一步纳入 outcome regression 模型进行校正,在高维协变量下减小偏差。理论证明了偏差校正估计量的相合性、双稳健性(propensity model 或 outcome model 任一正确即可)和渐近正态性,但未给出半参数效率界或 influence function 的显式表达。模拟和实际数据分析展示了方法在有限样本下的优势,对您在因果推断中关注异质性处理效应估计有直接参考价值。
  • 关键技术: matching-based imputation, bias-corrected matching estimator, double robustness, nonparametric regression, group average treatment effects, asymptotic normality
  • 为什么对您有用: 直接连接到因果推断中的异质性处理效应估计,GATEs 是 ATE 的自然推广,与您熟悉的 identification theory 和 semiparametric theory 相关。您可以用 very_familiar 的 nonparametric statistics 和 estimation theory in causal inference 分析其双稳健性条件和渐近性质,或用 moderately_familiar 的 semiparametric theory 推导其 efficient influence function 以判断是否达到效率界。follow-up 判断:立即可做——用现有武器库即可验证其理论声称或推导 sharper efficiency results。

4. 10.1002/sim.70503 — Tuning LASSO Models for Propensity Score Weighting and Using Synthetic Negative Control Exposures for Residual Bias Detection

  • 作者: Richard Wyss, Ben B. Hansen, Georg Hahn, Lars van der Laan, Kueiyu Joshua Lin
  • 期刊/来源: Statistics in Medicine
  • 机构: Brigham and Women's Hospital · University of Michigan · University of Washington · Massachusetts General Hospital
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文聚焦于高维医疗数据库研究中倾向性评分加权(PS weighting)的LASSO模型调参问题。标准交叉验证(CV)选正则化参数会过度正则化,导致PS加权估计量偏倚增大;理论提示需要欠平滑(undersmoothing)以最小化偏倚,但这一最优程度通常依赖于未知或难以推导的有效影响函数(EIF)。作者提出用平衡指标(balance metrics)作为简单、广泛可用的替代准则来选择欠平滑程度,并在数值实验中证明该方法相比CV稳定降低偏倚。进一步地,为检测残余混淆,本文构建了合成阴性对照暴露(synthetic negative control exposures)框架,通过分析这些虚拟暴露的关联是否显著来判断部分可交换性是否成立。模拟显示该方法能有效识别因控制不足导致的残留偏倚。作者不依赖EIF推导,而是通过平衡检验和阴性对照提供实用的、可推广的调参与诊断工具。本文与您的因果推断兴趣(PS加权、阴性对照、偏倚敏感性)高度相关,且可与您已有的高维统计和非参工具结合,评估平衡指标与EIF欠平滑之间的关系。
  • 关键技术: LASSO, propensity score weighting, undersmoothing, balance metrics, synthetic negative control exposures, cross-validation
  • 为什么对您有用: 本文直接连接到您primary interest中的causal inference子方向——倾向性评分加权下的高维协变量控制与偏倚检测,并利用了negative control概念(与proximal CI的设定相通)。您熟悉的nonparametric statistics和high-dimensional asymptotics可以直接用来理论化平衡指标与EIF欠平滑的关系(例如推导平衡指标的最优阈值或渐近性质),这是一个中期可做的问题,需要在moderately_familiar的identification theory上进一步深入。总体是一篇实用的方法学文章,值得展开读。

5. 10.1002/sim.70528 — A Latent Variable Approach for Causal Effect Estimation Under Misclassified Treatment Assignment

  • 作者: Yimeng Shang, Yu‐Han Chiu, Lan Kong
  • 期刊/来源: Statistics in Medicine
  • 机构: Pennsylvania State University · Department of Public Health · Penn State Milton S. Hershey Medical Center · Brown University
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 在观察性研究中,处理分配错误分类(misclassification)常导致因果效应估计偏倚。本论文提出了一种鲁棒的潜变量方法,无需验证数据集即可纠正偏倚。方法在潜在结果框架中将真实处理分配视为潜变量,构建包含三个子模型的似然函数:结果模型、处理分配倾向得分模型和测量误差模型。为增强对测量误差机制错误设定的稳健性,进一步使用神经网络估计测量误差模型。模拟表明,该方法在各种错误分类假设下表现良好,神经网络能有效缓解函数形式误设的影响。应用部分使用基于 Right Heart Catheterization (RHC) 研究的合成数据。该方法与您关注的 causal inference 中处理分配误差下的 identification 与 estimation 直接相关,并连接 misclassification 这一常见且棘手的实际问题。
  • 关键技术: latent variable model, measurement error model, neural network, propensity score
  • 为什么对您有用: 本文直接处理 causal inference 中的 treatment misclassification 问题,与您的 primary interest 中的 identification and estimation 紧密相关,属于方法论有增量贡献的应用导向工作。您完全可以使用 very_familiar 中的 nonparametric statistics 和 estimation theory 来理解其理论性质(如神经网络的非参数近似能力如何影响估计的一致性),并通过一套模拟验证其有限样本表现——立即可做。工作本身没有新的理论突破(缺乏效率界或 minimax 分析),但为该类问题提供了一个新的实用框架。

6. 10.1002/sim.70548 — Sensitivity Analysis for Unmeasured Confounding in Causal Mediation Analysis With Survival Outcome

  • 作者: Yi Guo, Dan Chen, Xinming Xu, Zhicheng Zhang, Yu Wen, Xueying Zheng et al.
  • 期刊/来源: Statistics in Medicine
  • 机构: Shanghai Public Health Clinical Center · Ministry of Education · University of Pittsburgh
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文针对因果中介分析中未测量混杂的敏感性分析问题,以生存结局为重点,提出了一种新的模拟-调整方法。该方法通过设定敏感性参数(暴露、中介、结局对未测量混杂的回归系数),从所述条件的分布中生成模拟的未测量混杂变量,然后比较调整前后中介效应的变化,评估结果对未测量混杂的敏感程度。作者还开发了三维可视化工具来展示敏感性分析结果,并提供了R包“medsenssurv”以方便实际应用。在模拟研究中验证了方法的有限样本表现,并应用到中国健康与营养调查(CHNS)数据中,分析高血压在肥胖与中风关系中的中介效应。该方法放宽了传统敏感分析中“罕见结局”假设且考虑了暴露与未测量混杂的关系,弥补了现有生存结局中介分析敏感性方法的不足。对于您从事的中介分析和敏感性分析方法研究,本文提出的模拟策略和实现工具可直接应用于您关注的因果推断实证问题。
  • 关键技术: sensitivity analysis, unmeasured confounding, causal mediation analysis, survival outcome, simulated confounder, three-dimensional visualization
  • 为什么对您有用: 本文直接解决因果中介分析中未测量混杂的敏感性评估问题,与您primary interests中的“sensitivity analysis”和“mediation”子方向高度匹配。您可以运用“estimation theory in causal inference”中的现有工具(如对中介效应估计量的理解)来审视该方法的识别假设是否可放松,并利用“software development”能力直接复现/扩展其R包。本文方法新、工具全,属于“立即可做”的层次——您可以在自己的中介分析数据集上试用该R包,计算敏感性指标,或进一步将其与您熟悉的非参数中介估计手法结合。

7. 10.1002/sim.70467 — Neural Network Assisted Estimation for the Structural Nested Accelerated Failure Time Models

  • 作者: Yiming Chen, Tianzhou Ma, Paul Smith, Takumi Saegusa
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Maryland, College Park
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_method
  • 摘要: 本文研究纵向生存数据中 time-varying confounding 下的因果效应估计,目标参数是 Structural Nested Accelerated Failure Time Model (SNAFTM) 下的加速因子。传统 G-estimation 在高维输入时计算负担重且功效低,作者提出两种神经网络辅助算法 GE-SCORE 和 GE-MIMIC,利用神经网络逼近高维条件期望和生存函数,结合 SNAFTM 的结构约束进行估计。模拟显示方法在高维设定下偏差更低,CARDIA 数据集应用识别并量化了吸烟对首次心血管事件的因果效应。对您在 longitudinal causal inference 和 semiparametric efficiency 方向的兴趣有直接参考价值。
  • 关键技术: Structural Nested Accelerated Failure Time Model, G-estimation, neural network approximation, time-varying confounding, survival analysis
  • 为什么对您有用: 直接连接到您 primary interest 中的 longitudinal causal inference 和 semiparametric theory。SNAFTM 的 G-estimation 本质上是 semiparametric 估计问题,您可以用 semiparametric efficiency bound 和 influence function 的视角审视其效率性质,或用 higher-order U-statistics / HOIF 分析高维 nuisance parameter 估计的影响。follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上长肌肉,特别是 SNAFTM 的 identification 和 efficiency theory,然后可以研究其 efficiency bound 和 debiased 性质。

8. 10.1002/sim.70485 · arXiv — Inverse Probability Weighting for Recurrent Event Models

  • 作者: Jiren Sun, Tobias Mütze, Tianmeng Lyu
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: application
  • 摘要: 在复发事件临床试验中,患者可能经历中期事件(如死亡、停药),影响对疗效的解释。本文针对“假设中期事件不发生”的治疗效果估计问题,提出逆概率加权(IPW)估计量。该方法对常用的Lin-Wei-Yang-Ying(LWYY)和负二项(NB)模型进行加权调整,通过基线协变量和内部时变协变量校正混杂。模拟研究表明,所提估计量在偏差和功效上优于其他分析方法。与您的因果推断兴趣直接相关,尤其涉及时变混杂调整和假设策略估计。
  • 关键技术: Inverse Probability Weighting (IPW), Lin-Wei-Yang-Ying (LWYY) model, Negative Binomial model, time-varying confounding, hypothetical strategy estimand
  • 为什么对您有用: 该研究将IPW方法应用于复发事件因果推断,涉及时变混杂调整和假设策略估计,这是您因果推断兴趣的子方向。您对IPW和识别理论非常熟悉(very_familiar),但需熟悉复发事件建模框架(LWYY、NB)才能直接扩展,属中期可做:先在学习该领域模型上长肌肉即可。

9. 10.1002/sim.70538 · arXiv — Examining the Efficacy of Coarsened Exact Matching as an Alternative to Propensity Score Matching

  • 作者: Fei Wan
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: minor
  • 摘要: 本文在观察性研究的因果推断设定下,系统审视了 Coarsened Exact Matching (CEM) 作为 Propensity Score Matching (PSM) 替代方案的理论性质与实践表现。作者首先指出 CEM 的核心理论缺陷:它并非真正的精确匹配,coarsening 引入的 residual confounding 需要依赖 outcome model 的正确设定来消除偏差,反而增加了对模型误设的敏感性。其次,作者从理论上澄清了 PSM 的 imbalance 归因于随机变异,而非方法本身的缺陷。模拟结果表明:在以 multivariate SMD 衡量时,PSM 比 CEM 更有效地降低 imbalance;当协变量维度增加时,CEM 受到维度灾难影响,导致大量样本损失和估计不稳定;PSM 对模型误设表现出更强的鲁棒性。
  • 关键技术: propensity score matching, coarsened exact matching, residual confounding, model dependence, multivariate standardized mean difference, curse of dimensionality
  • 为什么对您有用: 本文直接涉及因果推断中 matching 方法的理论比较与性质分析,属于您 primary interest 中因果推断的 identification 与 estimation 范畴。文章对 CEM 的理论批判(residual confounding、model dependence)和模拟设计思路,对理解 matching 方法的理论性质有参考价值。follow-up 判断:立即可做,用 very_familiar 中的 estimation theory in causal inference 和 minimax bounds 视角可以进一步量化分析 CEM 在高维设定下的效率损失。

10. 10.1002/sim.70500 — Missingness in Eligibility Criteria for Target Trial Emulation in EHR With Survival Outcomes

  • 作者: Jenny Shen, Kristin A. Linn, Amy S. Clark, Ronac Mamtani, Rebecca A. Hubbard
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Pennsylvania · Hospital of the University of Pennsylvania · Brown University
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: application
  • 摘要: 该文针对电子健康记录(EHR)数据中目标试验模拟(target trial emulation)时资格标准变量缺失的问题,探讨多重插补(MI)的时机选择:是在排除不符合条件个体之前插补,还是之后插补。研究以生存结局为终点,比较了完全病例分析、排除后插补和排除前插补(使用随机森林等灵活模型)三种策略。通过模拟研究和一项晚期乳腺癌治疗的真实EHR数据分析,发现在资格变量缺失比例较高时,排除前插补能显著降低偏差。研究强调了实际应用中处理缺失数据的细节对因果参数估计的实质性影响。该文的工作直接针对您主要兴趣中的因果推断(纵向数据、生存结局)以及二级兴趣流行病学中的实际数据分析挑战,提供了可操作的方法建议。
  • 关键技术: target trial emulation, multiple imputation, missing data in eligibility criteria, survival analysis, random forest imputation
  • 为什么对您有用: 本文聚焦目标试验模拟中缺失数据处理的操作决策,属于您主要兴趣中因果推断的纵向生存结局子方向。您对估计理论(very_familiar)可直接用于评估不同插补策略的偏差-方差权衡,也为后续开发基于高效影响函数的缺失数据鲁棒方法提供了现实动机。立即可做的切入点是利用您熟悉的非参数理论和高维渐近工具,对排除前插补的偏差进行渐近展开分析,理论化其优于排除后插补的条件。

11. 10.1002/sim.70510 · arXiv — Bayesian Hierarchical Models With Calibrated Mixtures of g‐priors for Assessing Treatment Effect Moderation in Meta‐Analysis

  • 作者: Qiao Wang, Hwanhee Hong
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文在个体参与者数据元分析(IPD-MA)框架下,目标是评估治疗效应调节(即处理-协变量交互效应),面临高异质性、弱调节效应和稀疏真实调节因子等现实挑战。作者提出校准的混合 g 先验(calibrated mixtures of g-priors)贝叶斯分层模型,通过引入研究层校准参数和调节因子层收缩参数,在保守与乐观两种视角下灵活控制收缩强度。与传统贝叶斯收缩方法(如 Horseshoe、lassoshrinkage)相比,该方法在模拟中表现出同等或更优的均方误差和区间覆盖率,尤其在高异质性、高模型稀疏性、弱调节效应和设计矩阵相关时优势明显。在四个随机对照试验的抑郁症数据中,该方法识别出核心治疗效应调节因子,结果与临床知识一致。本文的方法创新在于为多研究场景定制先验分布,提高了估计效率并降低了风险。对您而言:治疗效应异质性是因果推断的关键问题,该贝叶斯分层先验设计可作为您因果估计工具箱中处理异质性时的一个补充视角。
  • 关键技术: Individual participant data meta-analysis, Calibrated mixtures of g-priors, Bayesian hierarchical model, Treatment effect moderation, Shrinkage estimation
  • 为什么对您有用: 本文属于流行病学应用的方法学论文,使用贝叶斯分层模型和混合 g 先验分析 IPD 元分析中的治疗效应调节,与您的 secondary interest(流行病学与因果推断应用)高度相关。作为 gateway 阅读,该文对统计学者友好,但需要贝叶斯分层模型的基础知识;您的武器库中虽没有专门的贝叶斯先验设计经验,但非参和估算理论可以帮助理解其先验的收缩效果,若要跟进则需先熟悉贝叶斯计算(MCMC)和元分析框架,属于中期可做。值得花时间读全文,因为它展示了处理真实世界中高异质性和弱效应时的实用策略,可作为您进入流行病学应用领域的数据分析模式参考。

12. 10.1002/sim.70495 · arXiv — Comparing HIV Vaccine Immunogenicity Across Trials With Different Populations and Study Designs

  • 作者: Yutong Jin, Alex Luedtke, Zoe Moodie, Holly Janes, David Benkeser
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: application
  • 摘要: 本文研究如何在不同人群和研究设计的 HIV 疫苗试验之间客观比较疫苗诱导的免疫原性(immune response),避免因试验设计差异导致的混杂偏倚。作者在因果推断框架下定义了一类标准化因果估计量(standardized causal estimands),通过逆概率加权和结局模型调整使来自不同试验的免疫原性测量可比。估计量采用增广逆概率加权(AIPW)形式,兼具双稳健性(doubly robust),在模拟中表现良好。实际应用中,该方法被用于比较三项近年 HIV 疫苗试验的免疫原性数据。对您而言,本文是因果推断在流行病学疫苗试验中的典型应用,展示了如何用标准化方法实现跨试验比较,可以直接借鉴到您感兴趣的流行病学应用或因果推断的实际问题中。
  • 关键技术: causal estimands, standardization, inverse probability weighting, augmented inverse probability weighting (AIPW), doubly robust estimation, vaccine immunogenicity comparison
  • 为什么对您有用: 本文直接连接您的 causal inference 兴趣子方向(跨试验比较中的估计与识别),以及 epidemiology 应用。您可以利用技术兵器库中的 'estimation theory in causal inference' 深入理解 AIPW 估计量的构造和稳健性,并使用 'identification theory in causal inference' 检查 estimands 的识别条件是否合理。立即可做:您可以尝试将类似的标准化框架应用于自己关注的因果推断问题(如敏感性分析或多中心试验),只需调动非常熟悉的估计理论即可。

13. 10.1002/sim.70549 — Correcting for a Baseline Difference in Group Comparisons on a Binary Outcome: Covariate Adjustment or Analysis of Change?

  • 作者: Gerard J. P. Van Breukelen
  • 期刊/来源: Statistics in Medicine
  • 机构: Maastricht University · Department of Health
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: minor
  • 摘要: 本文研究二分类结局下组间比较时如何校正基线差异,比较了协变量调整(logistic回归包含基线和分组)与分析变化(结局变量减基线后的序数回归)两种策略,并纳入混合logistic回归和GEE作为重复测量方法。数学上证明了logistic回归与混合logistic回归/GEE在特定设定下的近等价性,以及分析变化方法之间的近等价性。在虚构场景和实际吸烟预防研究数据中均复现了Lord's paradox:当基线存在组间差异时,协变量调整与变化分析可能得出矛盾结论。文章用因果图讨论了不同方法的估计目标差异。该工作直接连接您在因果推断中关于估计量选择和识别假定的兴趣,特别是Lord's paradox在非连续结局中的延伸。您可用非常熟悉的非参数统计或因果推断估计理论来检验其数学证明的严谨性,并进一步思考在高维协变量或非线性情形下的推广。
  • 关键技术: logistic regression, ordinal regression, generalized estimating equations (GEE), mixed logistic regression, Lord's paradox, covariate adjustment, change score analysis
  • 为什么对您有用: 本文属于因果推断中基线调整方法的基础比较,直接连接到您对估计量选择(如协变量调整 vs 变化分析)的日常关切,且与识别理论中的Lord's paradox话题紧密相关。您可以使用非常熟悉的'estimation theory in causal inference'来快速评估其数学等价性证明的完整性和局限性。follow-up粗判:立即可做——武器库中的非参数统计和因果推断估计理论足以理解并批判性地吸收本文结论。

14. 10.1002/sim.70422 — Randomization‐Based Covariance Analysis for Confidence Intervals of Treatment Comparisons Based on Restricted Mean Survival Time With Categorized Time‐to‐Event Data

  • 作者: Taylor Krajewski, Gary Koch
  • 期刊/来源: Statistics in Medicine
  • 机构: University of North Carolina at Chapel Hill · Duke University
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: new_method
  • 摘要: 该论文针对随机对照试验中限制平均生存时间(RMST)的治疗比较,提出基于随机化的协方差分析(RB-ANCOVA)进行协变量调整。现有方法依赖模型假设,可能不适用于复杂生存数据;RB-ANCOVA通过将协变量均值差异约束为零构造RMST差值的置信区间,无需参数假设。方法支持单次或多次时间间隔下两组比较及单次间隔下多组比较,所得置信区间较未调整的RMST差值更精确。在ALS临床试验数据上演示了应用。该方法为RCT中的因果疗效比较提供了一种稳健、非参数的推断工具,与您因果推断方向中的试验数据分析高度相关。
  • 关键技术: Randomization-based ANCOVA, Restricted mean survival time, Covariate-adjusted confidence intervals, Categorized time-to-event data
  • 为什么对您有用: (1)该论文直接属于因果推断中随机对照试验的处理效应估计,特别是RMST作为生存分析中替代MTD的因果比较指标,是您primary interest中“causal inference”的一个应用方向。(2)您的技术库中“estimation theory in causal inference”和“nonparametric statistics”可以用于理解其推断原理和评估其置信区间覆盖性能。(3)立即可做:您可以使用该框架分析您自己参与的临床试验数据,或扩展至更复杂的协变量调整情形(如时间依赖协变量)。

非参数 / 半参数 (nonparam_semipara, 4 篇)

1. 10.1002/sim.70509 · arXiv — Regression for Left‐Truncated and Right‐Censored Data: A Semiparametric Sieve Likelihood Approach

  • 作者: Spencer Matthews, Bin Nan
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 8/10 · novelty: new_theory
  • 摘要: 在 left-truncation 和 right-censoring 同时存在的生存数据设定下,目标是线性回归系数的 semiparametric efficient estimation。作者提出 semiparametric sieve likelihood 方法,用 sieve space 近似误差分布的未知密度,构造似然估计量。证明了回归系数估计量具有 consistency、n^{-1/2}-CAN 以及 semiparametric efficiency(达到效率下界)。模拟研究覆盖多种误差分布,并应用于加拿大健康与衰老研究和 90+ 研究的痴呆数据。对您在 semiparametric efficiency theory 和流行病学队列数据分析方向有直接参考价值。
  • 关键技术: sieve maximum likelihood estimation, semiparametric efficiency bound, left-truncated right-censored data, asymptotic normality, influence function
  • 为什么对您有用: 直接连接到 semiparametric efficiency theory 这一 primary interest,展示了如何在复杂截断机制下构造达到效率下界的估计量。您熟悉的 nonparametric statistics 和 semiparametric theory(moderately_familiar)足以理解并可能扩展该方法——立即可做:可用 HOIF 或 higher-order U-statistic 视角分析其高阶性质或探索 sieve 逼近的 minimax rate。

2. 10.1002/sim.70536 — Longitudinal Extension of the Win Odds for Ordinal Repeated Measurements

  • 作者: Yongxi Long, Bart C. Jacobs, Ewout W. Steyerberg, Erik W. van Zwet
  • 期刊/来源: Statistics in Medicine
  • 机构: Leiden University Medical Center · Erasmus MC · University Medical Center Utrecht
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对重复测量的序数结局,将赢率(win odds)这一效应量扩展至纵向设置。赢率定义为从第一组随机抽取的受试者比第二组有更好结局的几率,等价于Mann-Whitney U统计量的单调变换,可通过概率指数模型(probabilistic index model)调整协变量。核心贡献是修改该模型的估计方程,利用GEE对同一受试者不同时间点的相关性建模;参数估计可通过数据重组后调用R包geepack实现,方差估计采用sandwich型估计量。模拟显示估计一致性良好,置信区间覆盖接近名义水平,并在Guillain-Barré综合征试验中进行实例分析。该工作为纵向序数数据的非参数比较提供了实用的半参数工具。对您而言,本文与U统计量和半参数模型直接相关,且附有R包,可衔接您的统计软件开发与非参数/半参数理论兴趣。
  • 关键技术: win odds, probabilistic index model, generalized estimating equations (GEE), sandwich variance estimator, Mann-Whitney U test, ordinal repeated measurements
  • 为什么对您有用: 本文涉及半参数概率指数模型和Mann-Whitney U统计量的纵向扩展,与您对半参数/非参数理论及U统计量的兴趣直接相关。您对higher-order U-statistics的计算(treewidth/tensor contraction)已非常熟悉,可立即利用R包lwo进行应用或开发扩展;同时,该估计量的渐近效率分析可进一步利用您 moderately familiar 的半参数理论工具(如效率界)进行中期研究。总体而言,本文提供的工具和方法立即可做,且为深入探索纵向非参数效应量提供了入口。

3. 10.1002/sim.70507 · arXiv — Generalized Functional Linear Regression Models With Functional and Scalar Covariates Prone to Measurement Error

  • 作者: Yuanyuan Luan, Roger S. Zoh, Sneha Jadhav, Lan Xue, Carmen D. Tekwe
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究广义函数线性回归模型中,当函数型和标量型协变量同时存在经典测量误差时的偏差校正问题,目标是估计回归系数向量的无偏估计。作者提出了两种方法:联合函数模拟外推法(FSIMEX)和混合效应模型法(MEM),前者通过模拟不同误差水平后外推至零误差情形,后者通过显式建模测量误差结构进行似然推断。模拟比较显示,FSIMEX 估计量在有限样本下偏差最低,接近 Oracle 基准,优于仅处理函数型协变量的 PACE 方法和忽略误差的 Naive 方法。实证分析使用 NHANES 数据,将体力活动作为含异方差误差的函数型协变量、总热量摄入作为含误差的标量协变量,校正后部分协变量效应估计值发生显著变化。本文属于应用导向的方法论文,对您在 semiparametric theory 和 M-estimation 方面的技术积累有直接参考价值。
  • 关键技术: functional linear regression, SIMEX (simulation extrapolation), classical measurement error correction, mixed effects model, PACE (principal components analysis through conditional expectation), functional principal components
  • 为什么对您有用: 本文涉及 semiparametric theory 中的测量误差校正问题,属于您 moderately_familiar 的 M-estimation theory 范畴。FSIMEX 的外推机制和 MEM 的似然结构都可以用您熟悉的 minimax bounds 和 estimation theory 工具进行理论分析(如建立估计量的收敛速率、渐近正态性)。中期可做:需要先在 semiparametric theory 上补充测量误差模型的效率界理论,然后可以研究 FSIMEX 在高维函数型协变量下的扩展或理论性质。

4. 10.1002/sim.70502 — Evaluation of AI‐Based Medical Device Concerning Localization Information Using Nonparametric Inference for the Alternative Free‐Response ROC Curve

  • 作者: Kaiyuan Liu, Xiao‐Hua Zhou
  • 期刊/来源: Statistics in Medicine
  • 机构: Peking University · Peking University International Hospital
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: new_method
  • 摘要: 针对AI医疗设备定位异常的AFROC曲线评估,现有方法依赖同观察独立性及参数模型假定,在实际情况中难以检验。本文提出非参数经验AFROC曲线估计量,在弱假设下推导其一致性与渐近正态性。采用bootstrap方法构造AFROC曲线及AUC等指标的置信区间与置信带,无需参数假定。模拟研究表明,当参数假定被违反时,新方法显著优于传统参数方法。实例应用为AI辅助肺结节诊断,展示了方法的实际价值。该文为诊断测试评估提供了非参数推断工具,扩展了ROC分析在非理想条件下的应用范围。对于您而言,非参数推断与bootstrap技巧可直接迁移至流行病学队列中的诊断效能评估或因果推断中的敏感度分析。
  • 关键技术: empirical AFROC curve, nonparametric inference, bootstrap confidence band, asymptotic normality, alternative free-response ROC
  • 为什么对您有用: 论文连接您的非参数统计(primary)与流行病学应用(secondary)两个兴趣子方向。武器库中'非参数统计'和'bootstrap'可直接复现其核心推断流程,属于立即可做的范畴。若要进一步理论改进(如用U-statistic投影刻画AFROC估计量的方差紧界),则需先在中等级别的'高阶U统计理论'上积累深度,属于中期可做。

数理统计 / 假设检验 (hypothesis_testing, 1 篇)

1. 10.1002/sim.70523 · arXiv — A Nonparametric Bayesian Local–Global Model for Enhanced Adverse Event Signal Detection in Spontaneous Reporting System Data

  • 作者: Xin‐Wei Huang, Saptarshi Chakraborty
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: new_method
  • 摘要: 在自发报告系统(SRS)的药物不良事件(AE)信号检测问题中,目标是识别观测计数相对于独立假设下期望计数不成比例高的 drug-AE 对。本文提出 local–global mixture Dirichlet process(DP)先验的非参数贝叶斯模型,通过捕获药物间 AE 信号强度的复杂关联实现跨药物的信息共享,在灵活性与收缩之间取得平衡。方法层面采用 MCMC 算法进行后验推断,并在 FDR 控制、FNR 优化的多重假设检验框架下进行信号检测。模拟研究表明,在严格控制 FDR 的前提下,敏感性相比现有方法提升两倍或以上;FDA FAERS 他汀类药物数据的实证分析验证了其实用性。对您而言,本文提供了一个非参数贝叶斯方法在多重假设检验与 FDR 控制中的具体应用案例。
  • 关键技术: Dirichlet process mixture prior, local-global shrinkage, MCMC posterior inference, FDR-controlled hypothesis testing, false negative rate optimization, Bayesian nonparametrics
  • 为什么对您有用: 本文连接到您 primary interest 中的 hypothesis testing(多重检验框架下的 FDR/FNR 权衡),以及 nonparametric theory(DP 先验的非参数贝叶斯建模)。从 technical_arsenal 角度,您 very_familiar 的 minimax bounds 和 nonparametric statistics 可用于分析该类贝叶斯收缩估计的频率学派性质(如 posterior contraction rate)。follow-up 判断:中期可做——需先在 moderately_familiar 的 semiparametric theory 上补充非参数贝叶斯后验收敛理论,才能深入分析其频率学派下的最优性。

统计计算 / 算法 (stat_computing, 3 篇)

1. 10.1002/sim.70526 — Unsupervised Sparse Multi‐Task Learning With Application to Alzheimer's Disease

  • 作者: Hao Chen, Jiadong Ji, Dong Liu, Bofeng Yu
  • 期刊/来源: Statistics in Medicine
  • 机构: Shandong University · Shandong University of Finance and Economics · National University of Singapore
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对阿尔茨海默病(AD)进展中高维fMRI数据的功能连接生物标志物识别问题,提出了一种统一统计方法SMART(Sparse Multi-task Adaptive Regularization Truncation)。该方法同时施加三种惩罚:L1罚实现稀疏性选择,L2,1罚处理疾病阶段异质性以保持跨任务稳定模式,截断L1罚(TLP)自适应地处理连接共线性而不需预指定结构。SMART的联合正则化自然地刻画平稳激活模式,TLP的双参数(自适应分组阈值与稀疏度控制)提供生物学保真度与模型复杂度之间的原则性权衡。计算上,开发了DC-ADMM算法将优化分解为可处理的子问题,并建立了有限步收敛到KKT点的理论保证。综合仿真和AD神经影像真实数据分析显示,SMART在连接生物标志物识别准确性、特征选择稳定性和模型可解释性上优于现有方法。对您而言,本文的方法属于高维稀疏多任务学习在流行病学中的应用,与您对统计计算和软件开发的兴趣直接相关,且R包可直接复现。
  • 关键技术: multi-task learning, truncated L1 penalty, DC-ADMM algorithm, sparse group lasso, adaptive regularization
  • 为什么对您有用: (1) 论文涉及的高维稀疏正则化与多任务学习属于你的primary interest中high-dimensional statistics方向,且AD流行病学应用对应你的secondary interest epidemiology。 (2) 你武器库中的 high-dimensional asymptotics 可用于分析SMART估计的相合性速率; software development 可直接评估其R包(SMART)的代码质量与复现性。 (3) 中期可做:要理解TLP的理论性质(如oracle property),需先加强moderately_familiar中的M-estimation theory。

2. 10.1002/sim.70512 — Variational Bayes for High‐Dimensional Multi‐Source Heterogeneous Data With Sparse Priors

  • 作者: Wenting Liu, Lu Luo, Huiqiong Li, Niansheng Tang
  • 期刊/来源: Statistics in Medicine
  • 机构: Yunnan University · Yunnan Agricultural University
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文提出一种贝叶斯方法,用于高维多源异质性数据的联合建模,目标是从多个亚群中提取共享特征并揭示各亚群的独特异质性。模型采用spike-and-slab先验,其中slab为Laplace分布、spike为Dirac点质量,以诱导稀疏性。为克服Gibbs采样的计算瓶颈,采用平均场变分贝叶斯近似,利用可分解的spike-and-slab分布族,大幅提升计算效率并保留了后验推断和变量选择能力(通过后验包含概率)。模拟研究和TCGA五种癌症数据的实例分析表明,新方法在计算效率和可扩展性上优于Gibbs采样和惩罚频率学派整合分析方法。该方法已实现为R包VBMS发布于CRAN。对您而言,变分贝叶斯在异质性高维数据上的应用可直接借鉴到您高维因果推断(如IV或mediation)中的稀疏变量选择与计算效率优化问题。
  • 关键技术: spike-and-slab prior, Laplace slab, Dirac spike, mean-field variational Bayes, posterior inclusion probabilities, multi-source heterogeneous data
  • 为什么对您有用: 1)本文主题属于统计计算中的变分贝叶斯方法,直接对应您的primary interest中的statistical computing;同时高维多源数据稀疏变量选择是高维统计的子方向,与您熟悉的高维渐近理论有重合。2)您武器库中的“高维渐近”可直接用于分析本文变分估计的收敛性(但需额外处理变分近似误差);中期可做:需先在moderately_familiar的“M估计理论”上强化,才能严格分析其半参数效率或整合到您的因果推断框架中。3)实证分析使用的TCGA癌症数据可作为您入门生物医学高维数据分析的参考案例。

3. 10.1002/sim.70477 — Penalized Estimation in Finite Mixtures of Multivariate Regression Models via the EM‐PGM Algorithm

  • 作者: Heeyeon Kang, Sunyoung Shin
  • 期刊/来源: Statistics in Medicine
  • 机构: Pohang University of Science and Technology
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文研究有限混合多元回归模型(mvFMR),该模型同时建模多个结局变量并捕捉潜在的子群异质性,适用于医学研究中多诊断指标和表型结局同时测量的场景。在协变量高维的情形下,论文采用惩罚最大似然估计以实现变量选择和可扩展性。作者提出EM-PGM算法,结合期望最大化框架与近端梯度法(PGM),有效处理高维性和惩罚函数的非可微性。模拟研究表明,mvFMR配合EM-PGM在估计精度、稀疏恢复和计算效率上均优于对比方法。糖尿病诊断数据和癌细胞系百科全书(CCLE)数据的应用实例进一步展示了该方法在真实生物医学数据中的实用性。该算法开发为混合模型在高维医学数据分析中的计算实现提供了实用的工具。
  • 关键技术: finite mixture of multivariate regression, penalized maximum likelihood, EM algorithm, proximal gradient method, high-dimensional variable selection
  • 为什么对您有用: 本文直接对应您的'统计计算'兴趣,尤其是EM与近端梯度结合的算法设计。您已在'software development'和'high-dimensional asymptotics'方面非常熟悉,可以快速评估该算法的实现细节或将其推广至其他模型族(立即可做)。同时,M-estimation理论(moderately_familiar)可用于分析该惩罚估计的相合性与收敛率,中期可进一步深化理论。

经济理论 / 应用 (econ_theory, 1 篇)

1. 10.1002/sim.70486 — Optimizing Medical Guidelines: Insights Using a Generalized Method of Moments Approach

  • 作者: Vidhura S. Tennekoon
  • 期刊/来源: Statistics in Medicine
  • 机构: Indiana University – Purdue University Indianapolis
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: application
  • 摘要: 本文在结构模型框架下研究医学指南的优化问题,目标是估计专家委员会在制定孕期 BMI 指南时隐含的风险权重参数。作者构建了一个 GMM 估计量,通过将专家目标函数建模为最小化聚合健康风险得分,利用 2011–2021 年间 4110 万条出生记录的大规模数据进行参数识别与估计。核心发现是专家对低出生体重和高出生体重风险赋予相等权重,而孕妇群体对高出生体重风险的权重较低,且现行指南即使在自身标准下也是次优的。作者据此提出随孕前 BMI 连续调整的个体化指南方案,并论证其能同时降低聚合风险并提高依从性。对您而言,这篇论文展示了 GMM 在结构因果模型参数识别中的具体应用,属于经济理论与应用因果工作的交叉。
  • 关键技术: Generalized Method of Moments (GMM), structural model estimation, preference revelation, moment condition specification, large-scale administrative data
  • 为什么对您有用: (1) 连接到 secondary interest 中的经济理论方向,展示了结构计量方法如何从观测数据中恢复潜在偏好参数。(2) 技术上使用的是标准 GMM 框架,属于 very_familiar 中的估计理论范畴,但结构模型的设定和 moment condition 的构建需要领域知识。(3) 属于应用实证工作,方法论 novelty 有限(novelty_flag = application),但数据集规模和建模思路对理解结构因果推断有参考价值——若您对结构计量入门感兴趣,本文是可读的 gateway reading;若追求方法学创新,则不必深读。

流行病学 (epidemiology, 11 篇)

1. 10.1002/sim.70506 — Nonparametric Bayesian Meta‐Analysis Model With Change Point Detection: A Case Study on Time‐Varying Temperature–Mortality Associations

  • 作者: Daewon Yang, Taeryon Choi, Jinsu Park, Hohyun Jung, Yoonhee Kim, Masahiro Hashizume et al.
  • 期刊/来源: Statistics in Medicine
  • 机构: Chungnam National University · Statistics Korea · Korea University · Myongji University · Sungshin Women's University · National Center for Global Health and Medicine · University of Tokyo Health Sciences · Department of Health 等
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文在环境流行病学中研究温度与死亡率之间U/J形关联的时间变化,传统两阶段模型假设线性变化并采用正态随机效应,但日本数据提示变化可能非线性且存在跳跃点。作者提出两阶段框架:第一阶段用分布式滞后非线性模型(DLNM)估计每年每个地点的关联曲线;第二阶段用基于Probit Stick-Breaking Process(PSBP)的非参数贝叶斯元分析模型同时进行跨地点整合和时间分段检测。模型还混合高斯与t分布误差项以抵抗离群值,并通过模拟验证稳健性。应用于日本多城市数据,识别出温度‐死亡率关联的时变模式(如冷效应在特定年份后减弱)。该方法为环境流行病学的时间变化分析提供了灵活的贝叶斯工具,可直接应用于您二级兴趣中流行病学队列研究的暴露‐反应建模。
  • 关键技术: Nonparametric Bayesian meta-analysis, Probit Stick-Breaking Process (PSBP), Change point detection, Distributed lag nonlinear model (DLNM), Mixture of Gaussian and t-distributed errors
  • 为什么对您有用: 本文连接您的二级兴趣(流行病学应用),展示了如何用贝叶斯非参数方法处理元分析中的非线性时间变化和稳健性问题。文中使用的DLNM和变化点检测技术可移植到您的因果推断纵向数据设定中(如暴露滞后模型中的时间异质性)。作为gateway reading,本文对统计方法阐述清晰,武器库中的nonparametric statistics和estimation theory in causal inference足以理解其核心步骤,值得花时间读全文以获取流行病学应用中的建模直觉。

2. 10.1002/sim.70552 — Flexible and Interpretable Modeling of Overlapping Exposure Risks in Self‐Controlled Case Series Analysis

  • 作者: Xuezhixing Zhang, Paul Milligan, Yin Bun Cheung
  • 期刊/来源: Statistics in Medicine
  • 机构: National University of Singapore · Duke-NUS Medical School · London School of Hygiene & Tropical Medicine · Tampere University
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: new_method
  • 摘要: 自控病例系列(SCCS)方法常用于评估短暂暴露与后续健康事件的风险关联,但传统样条SCCS模型无法处理重叠暴露期以及多个暴露之间的复杂交互效应。本文提出一种新的半参数SCCS方法,采用函数部分线性单指标(PLSI)连接函数,将多个暴露线性组合为单指标后通过非参数链接函数建模交互作用,从而在灵活性和可解释性上优于现有方法。通过模拟研究比较了标准方法在各种实际暴露设定下的表现,验证了PLSI-SCCS估计量的稳健性。该方法应用于MMR疫苗接种和疟疾化学预防两个真实数据集,展示了其处理多重重叠暴露的实用能力。本文是应用流行病学中的方法学贡献,其半参数建模思路对您二次兴趣中的流行病学应用具有参考价值,且所涉的非参数链接函数估计技术可直接与您已熟悉的非参数统计方法对接。
  • 关键技术: self-controlled case series, partial linear single index (PLSI), nonparametric link function, semiparametric estimation, overlapping exposure risks
  • 为什么对您有用: 本文属于二次兴趣流行病学中的应用因果推断工作,直接涉及SCCS这一观察性研究设计中的暴露风险估计。您非常熟悉的非参数统计和因果推断中的估计理论可用于分析该PLSI半参数估计量的渐近性质,而您中等熟悉的半参数理论则可进一步推导其效率界。本文方法清晰、附有真实数据和模拟,适合作为流行病学方法学的入门读物,值得花时间阅读全文以了解SCCS与半参数建模的结合方式。

3. 10.1002/sim.70529 — Joint Bayesian Nowcasting of Severe Acute Respiratory Illness and COVID‐19 Positives in Brazil

  • 作者: Alba Halliday, Oliver Stoner, Theo Economou, Leonardo Soares Bastos
  • 期刊/来源: Statistics in Medicine
  • 机构: Imperial College London · University of Glasgow · Cyprus Institute · University of Exeter · Instituto Nacional de Matemática Pura e Aplicada · Fundação Oswaldo Cruz
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: application
  • 摘要: 本文针对巴西严重急性呼吸道疾病(SARI)及其中 COVID-19 阳性病例的联合 nowcasting 与短期预测问题,提出一个贝叶斯层次框架。已有方法大多只处理单一结局,或仅关注回顾性重构发病率,而本文通过 beta‑二项式组件将 SARI 总数与阳性计数关联,并用独立的条件广义 Dirichlet‑多项式(GDM)组件分别刻画两者的延迟报告模式。模型在三个分量(总数、阳性比率、延迟分布)中引入随时间和地域变化的潜在效应,以捕捉疾病水平和报告行为的动态变化。利用巴西 2021–2024 年全国监测数据,对 27 个联邦单元进行滚动 20 天预测实验,与基准贝叶斯 nowcasting 方法相比,联合模型在同期现在预测(nowcast)上均方绝对误差和连续等级概率评分降低约三分之一,高发区域改进尤为显著;能量评分表明联合预测的校准度也更优。本文对您作为流行病学 secondary interest 的入门阅读很有价值:它清晰展示了延迟报告校正这一经典流行病学问题,并使用标准贝叶斯工具实现;您的非参数统计和高维渐近背景足以理解其模型假设和误差分析,全文值得通读以熟悉真实监测数据的分析流程。
  • 关键技术: Bayesian hierarchical model, generalized-Dirichlet-multinomial (GDM), beta-binomial model, nowcasting with reporting delays, rolling prediction experiment
  • 为什么对您有用: 本文属于流行病学领域的应用研究,直接对应您的 secondary interest(流行病学数据集与因果推断)。该论文是优秀的入门读物:问题设定(延迟报告校正、联合预测)交代清楚,不依赖领域专有术语;模型基于广义 Dirichlet‑多项式和 beta‑二项式,您非常熟悉的非参数统计和估计理论足够支撑理解其假设与近似。值得花时间读全文,尤其是在巴西真实监测数据上的滚动验证设计,可作为未来您参与流行病学合作项目时处理类似时间序列预测的参考模板。

4. 10.1002/sim.70433 · arXiv — A Bayesian Prevalence‐Incidence Mixture Model for Screening Outcomes With Misclassification

  • 作者: Thomas Klausch, Birgit I. Lissenberg‐Witte, Veerle M. H. Coupé
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文针对结直肠癌高危人群的监控数据,目标是从电子健康记录中估计腺瘤发生时间并探索协变量关联。数据面临三个挑战:1)腺瘤事件是区间删失的,仅知发生在两次结肠镜之间;2)结肠镜可能漏检,导致误分类;3)部分个体基线时已患腺瘤(患病状态未知),若基线检查缺失或漏检则无法观测。作者提出了一个贝叶斯患病-发病率混合模型(PIM),通过数据增广和正则化先验处理不可观测的患病状态和误分类,同时结合半参数累计发病率函数估计。模型利用标记数据中的敏感度信息(如结肠镜漏检率)设定信息先验,并通过模拟研究验证了在正确指定先验时的良好性能。文中还提供了非参数估计量作为模型拟合的参照,并以R包BayesPIM实现。本文方法直接对应筛检流行病学中的经典测量误差结构(区间删失、误分类、左截断),研究者可借鉴其贝叶斯数据增广框架来处理因果推断中的类似可识别性问题。
  • 关键技术: Bayesian prevalence-incidence mixture model, interval censored survival data, misclassification modeling, data augmentation, regularization priors, cumulative incidence estimation
  • 为什么对您有用: (1)与流行病学应用直接相关(筛检数据的测量误差与删失处理),是secondary interest中“epidemiology (datasets, applied causal work)”的典型例子;虽然本文并非因果推断,但其中的误分类和区间删失结构在因果推断的纵贯数据中同样常见。(2)技术武器库中的 estimation theory in causal inference(如处理测量误差的识别策略)可帮助批判性理解其先验设定是否合理,而 very_familiar 中的 nonparametric statistics(非参数累计发病率)可用于验证其模型假设。(3)中期可做:研究者若想将类似框架用于因果推断,需要先在 moderately_familiar 的 identification theory(如控制误分类的识别条件)上深耕,因为贝叶斯先验的敏感性分析本身就是一个可扩展的方向。

5. 10.1002/sim.70527 — Flexible Modeling of Time‐Dependent Covariate Effects in Survival Models With Correlated Competing Risks: Application to the Evaluation of Risk‐Reducing Salpingo‐Oophorectomy in Women With BRCA1 Pathogenic Variants

  • 作者: Seungwoo Lee, Laurent Briollais, Yun‐Hee Choi, BCFR
  • 期刊/来源: Statistics in Medicine
  • 机构: Western University · Mount Sinai Hospital · University of Toronto · Lunenfeld-Tanenbaum Research Institute · Public Health Ontario
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: application
  • 摘要: 在竞争风险框架下,本文研究时变二元干预(预防性手术)对生存结局的时变效应估计,目标参数为时变 hazard ratio 和 penetrance function。核心方法是在 cause-specific hazards 模型中用 B-splines 参数化时变系数,允许干预效应随时间灵活变化,同时处理卵巢癌和死亡等相关的竞争事件。模拟研究表明该方法在估计时变效应和 penetrance function 上表现良好,优于永久暴露模型和 Cox-Oakes 模型等参数替代方案。实证分析应用于 BRCA1 携带者队列数据,发现风险降低性输卵管卵巢切除术对乳腺癌有显著保护效应,且 B-splines 模型的预测能力更优。对您而言,这是一篇流行病学应用论文,展示了时变系数建模在医学干预评估中的实际价值。
  • 关键技术: B-splines time-varying coefficients, cause-specific hazards model, correlated competing risks, penetrance function estimation, time-dependent covariate modeling
  • 为什么对您有用: 本文属于流行病学应用论文(novelty_flag = application),方法学贡献有限(B-splines 参数化是成熟技术)。对您的 primary interests(因果推断、半参数理论、效率理论)没有直接推进。若您对 BRCA1 携带者队列数据或竞争风险框架下的时变干预效应应用场景感兴趣,可作为实证案例阅读;否则不建议花时间深读。

6. 10.1002/sim.70504 — Time‐Varying Hormonal Treatment and Metastasis‐Free Survival Among ER+ Breast Cancer Patients: A Natural History Modelling Approach

  • 作者: Letizia Orsini, Alessandro Gasparini, Kamila Czene, Keith Humphreys
  • 期刊/来源: Statistics in Medicine
  • 机构: Karolinska Institutet · Swedish e-Science Research Centre
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: application
  • 摘要: 本文针对ER+乳腺癌患者激素治疗的时变效应,估计不同治疗时长(5年 vs 10年)对转移-free生存的影响。研究基于瑞典2005-2020年9,716例浸润性ER+乳腺癌队列数据,使用生物启发的自然历史模型(而非传统Cox或加速失效模型)来刻画治疗对肿瘤生长和转移过程的动态作用。模型采用最大似然估计拟合,将激素治疗效应嵌入肿瘤自然史框架中,从而体现治疗对转移进展的非比例影响。结果显示,对于20 mm有症状患者,10年治疗相比5年可将10年无转移生存率从92.8%提升至96.1%,且治疗期间转移性肿瘤生长率显著降低。该方法学上的贡献在于将医学领域知识直接转化为统计模型结构,捕捉了传统统计模型难以刻画的时变效应。对您而言,这是一项流行病学应用实例,展示了如何在因果推断框架中处理时变治疗效应,您可以利用熟悉的非参数统计和因果推断估计理论(如g-computation、TMLE)检验其模型假设的敏感性,或探索更灵活的估计策略。
  • 关键技术: natural history model, time-varying treatment effect, maximum likelihood, cohort study
  • 为什么对您有用: 本文连接您的流行病学应用兴趣,具体涉及时变治疗效果的估计。您武器库中的非参数统计和因果推断估计理论(如g-formula、TMLE)可直接用于检验该自然历史模型的假设稳健性(如未测量的混杂、模型误设)。follow-up粗判:立即可做——使用标准因果推断方法(如IPW或g-computation)复现并评估结果对模型假设的敏感性。

7. 10.1002/sim.70377 — Validation of a Risk‐Prediction Model in the Presence of Outcome Misclassification

  • 作者: Runjia Zou, Brian D Williamson, Susan M Shortreed, R Yates Coley
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Washington · Kaiser Permanente Washington Health Research Institute · Fred Hutch Cancer Center
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文针对电子健康记录(EHR)数据构建的预测模型在验证阶段面临结果误分类的问题。当使用误分类的结果评估模型性能时,TPR、FPR、PPV、NPV和AUC等指标会偏离真实值。作者提出利用一个规模较小的金标准图表审查样本来校正误分类偏差,并推导了这些性能指标的校正公式。方法考虑了误分类与特征独立或依赖、以及单向或双向误分类等多种场景。模拟研究显示,相比于仅使用误分类结果或仅使用小样本金标准,所提方法在偏差和区间覆盖上均有改进,且精密度更高。本文的贡献在于为EHR预测模型验证提供了一种实用的误分类调整工具。对于流行病学研究者,该方法能够更可靠地评估预测模型在真实临床决策中的效用。
  • 关键技术: outcome misclassification adjustment, gold-standard chart review subsample, correction formulas for TPR/FPR/PPV/NPV/AUC, misclassification scenarios (dependent/independent, unidirectional/bidirectional)
  • 为什么对您有用: 本文连接您对流行病学中应用因果推断的次级兴趣,尤其是EHR数据中测量误差对模型验证的影响。您对逆问题和非参数统计非常熟悉,可以将本文的校正公式视为一种反卷积问题,利用您的技术背景分析其识别性和最优估计。此外,若您未来从事预测模型验证的实证研究,该方法是立即可用的工具。

8. 10.1002/sim.70508 · arXiv — Bayesian Random‐Effects Meta‐Analysis of Aggregate Data on Clinical Events

  • 作者: Christian Röver, Qiong Wu, Anja Loos, Tim Friede
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: minor
  • 摘要: 本文针对罕见临床事件的荟萃分析,将Holzhauer提出的基于风险比的固定效应模型扩展为随机效应模型,以处理研究间异质性。采用贝叶斯框架建模,详细描述了先验设定和似然函数,使模型能直接处理汇总数据(如风险比及其置信区间)。通过两套真实数据集展示应用,并进行了敏感性分析(不同先验)和蒙特卡洛模拟来评估估计的稳健性。结果表明贝叶斯随机效应模型能有效整合稀疏事件信息,并提供异质性估计。该工作为流行病学中稀有事件证据综合提供了可直接使用的工具。对您而言,这是一篇流行病学应用的规范案例,可帮助您快速熟悉该领域荟萃分析的数据结构和分析流程。
  • 关键技术: Bayesian random-effects meta-analysis, survival analysis (hazard ratio), aggregate data, sensitivity analysis, Monte Carlo simulation
  • 为什么对您有用: 本文属于流行病学应用(secondary interest),是学习罕见事件荟萃分析标准方法的入门材料。您的非参数统计和估计理论背景足以理解其贝叶斯建模逻辑,不需额外学习复杂工具。值得花时间快速阅读全文以了解临床荟萃分析的实际操作,但方法学创新有限,无需深入钻研。

9. 10.1002/sim.70484 · arXiv — Expected Value of Sample Information Calculations for Risk Prediction Model Development

  • 作者: Abdollah Safari, Paul Gustafson, Mohsen Sadatsafavi
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对风险预测模型的开发样本量规划问题,从决策理论角度提出Expected Value of Sample Information(EVSI)概念,定义为获取额外开发样本在临床净收益(Net Benefit)上的期望增益。传统方法关注模型性能指标的置信区间或预测稳定性,而EVSI直接量化提高样本量所带来的临床效用提升。作者设计了一个基于bootstrap的算法来估计EVSI,并在一个案例研究中验证了其可行性和表面效度。结果表明,EVSI能有效补充经典推断方法,为设计预测模型开发研究提供决策导向的样本量依据。该工作将决策分析与统计推断结合,适用于流行病学中风险预测模型的构建。对您而言,本文展示了如何利用bootstrap等计算工具(属于您的very_familiar领域)解决应用问题,且可直接迁移至其他预测模型的样本量评估中。
  • 关键技术: Expected Value of Sample Information (EVSI), bootstrap algorithm, decision curve analysis, net benefit, risk prediction model
  • 为什么对您有用: 本文属于流行病学应用(secondary interest),聚焦风险预测模型开发中的样本量计算问题。您非常熟悉的软件开发与统计计算能力(bootstrap算法实现)可直接用于复现或扩展本文方法。此外,该研究的决策理论框架可与因果推断中的效用分析(如您关注的proximal CI和IV)结合,探索在不同识别假设下的样本信息价值。结论:立即可做——用您的软件技能即可实现EVSI计算,并检验其在其他数据集上的表现。

10. 10.1002/sim.70405 — A New Parametric Accelerated Failure Time Model for Semi‐Competing Risks Data

  • 作者: Antoniya Dineva, Oliver Kuss, Annika Hoyer
  • 期刊/来源: Statistics in Medicine
  • 机构: Bielefeld University · Deutsches Diabetes-Zentrum e.V. · Heinrich Heine University Düsseldorf
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对半竞争风险数据(非终点事件可被死亡截断,但死亡始终可观测)提出了一个新的参数加速失效时间(AFT)模型。模型基于illness-death三状态转移框架,对健康到疾病、健康到死亡、疾病到死亡三个转移分别假设独立Weibull分布,并通过随机效应关联个体内的相关性,构建三元联合分布。参数估计采用极大似然法,似然函数同时处理了左截断(延迟进入队列)和疾病发生的区间删失(仅在定期随访中观察到诊断区间)。以PAQUID痴呆症队列数据为例,模型给出了合理结果,且模拟研究展示了估计的数值稳健性和准确性。您若关注流行病学队列中的时间-事件数据建模,本文提供了一个参数化、解释直观的AFT替代方案,尤其适合需要明确基线分布的生存分析问题。
  • 关键技术: accelerated failure time (AFT) model, illness-death model, Weibull distribution, interval censoring, left truncation, maximum likelihood estimation
  • 为什么对您有用: 本文属于流行病学应用方向,其半竞争风险设定与因果推断中竞争风险、中介分析密切相关,可直接作为实证模型参考。从方法论角度看,可利用您非常熟悉的nonparametric statistics技术放松Weibull参数假设,发展为半参数AFT模型,但需要先掌握semiparametric theory中的高效估计框架(属于moderately_familiar),因此属于中期可做的扩展:先在semiparametric theory上加强,再研究其效率界是否被充分挖掘。

11. 10.1002/sim.70558 — Extending the Median Odds Ratio ( MOR ), the Interval Odds Ratio ( IOR ), and the Proportion of Opposed Odds Ratios ( POOR ) for Use With 3‐Level Multilevel Logistic Regression Models

  • 作者: Peter C. Austin, George Leckie
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Toronto · Sunnybrook Hospital · Sunnybrook Research Institute · University of Bristol
  • 分类: vol 45 · issue 8-9
  • 相关性 3/10 · novelty: minor
  • 摘要: 本文研究三层多层 logistic 回归模型中 cluster-level 效应异质性的量化问题,目标是将 MOR(median odds ratio)、IOR(interval odds ratio)、POOR(proportion of opposed odds ratios)三个指标从二层模型扩展到三层结构(如患者-医生-医院)。核心方法是利用随机效应的方差成分推导这些指标在三层层级下的解析表达式,涉及 conditional vs. marginal odds ratio 的区分以及 random effects distribution 的积分性质。主要贡献是给出了三层结构下各指标的数学推导,并用急性心梗患者死亡率数据(患者嵌套于医生、医生嵌套于医院)进行实证演示。对您而言,这是流行病学多层结构数据中处理 unmeasured cluster-level confounding 的描述性工具,属于应用方法学扩展。
  • 关键技术: multilevel logistic regression, random effects variance components, conditional vs marginal odds ratio, cluster-level heterogeneity quantification, three-level hierarchical model
  • 为什么对您有用: 本文属于流行病学应用方法学,连接到您 secondary interest 中的 epidemiology 数据结构与因果推断设定。技术层面涉及 random effects 模型的 identification 与 interpretation,与您 moderately_familiar 中的 identification theory in causal inference 有交叉,但核心是描述性统计量而非因果参数估计。暂不可做:本文是针对特定多层结构的描述性指标扩展,不涉及 identification theory 的核心难点或效率理论问题,武器库中的 semiparametric efficiency 或 higher-order U-statistics 工具在此无施展空间。

其他 (other, 7 篇)

1. 10.1002/sim.70434 — Structure Identification, Estimation and Variable Selection for Varying Coefficient EV Models With Longitudinal Data

  • 作者: Mingtao Zhao, Jingxiang Cao, Jun Sun, Yan Fan, Sanying Feng, Fanqun Li
  • 期刊/来源: Statistics in Medicine
  • 机构: Anhui University of Finance and Economics · Shanghai International Studies University · Shanghai University of International Business and Economics · Zhengzhou University
  • 分类: vol 45 · issue 8-9
  • 相关性 7/10 · novelty: new_method
  • 摘要: 本文针对纵向数据下的变系数测量误差(EV)模型,提出了一种偏差校正的双惩罚二次推断函数方法,同时实现模型结构识别、参数估计和变量选择。该方法的特色在于不预先假定每个回归系数是常数还是变系数,而是通过B样条基近似未知系数函数,并利用两个惩罚项自动区分常数系数与变系数。在正则条件下,证明了估计量的相合性和稀疏性。作者开发了一个三步迭代算法便于实际计算。模拟研究和真实数据分析显示了有限样本下的优良表现。对您而言,该论文虽然不在主要兴趣方向内,但涉及纵向数据的非参数函数估计和变量选择,可为流行病学或纵向因果推断中的测量误差处理提供方法参考,且您熟悉的非参数统计和M估计理论可直接理解其技术核心。
  • 关键技术: B-spline approximation, bias-corrected quadratic inference function, double penalization, varying coefficient model, errors-in-variables, longitudinal data
  • 为什么对您有用: 本文涉及纵向数据中变系数模型的估计与变量选择,属于非参数/半参数建模的推广,与您'非参数统计'和'M估计理论'的武器库直接对接。虽然不直接涉及因果推断或高效率理论,但测量误差修正方法与因果推断中的误差模型有可迁移之处。作为流行病学应用方向的入门阅读,本文方法框架清晰,适合快速理解纵向测量误差数据的分析思路,不涉及您武器库之外的复杂计算理论,属于'立即可做'的借鉴范围。

2. 10.1002/sim.70537 — Information‐Based Composite Likelihood Method for Hybrid Meta‐Analysis Integrating Individual Participant Data and Aggregated Data

  • 作者: Guoqing Diao, Arvind Shah, Jianxin Lin, Joseph G. Ibrahim
  • 期刊/来源: Statistics in Medicine
  • 机构: George Washington University · Merck & Co., Inc., Rahway, NJ, USA (United States) · University of North Carolina at Chapel Hill
  • 分类: vol 45 · issue 8-9
  • 相关性 6/10 · novelty: new_method
  • 摘要: 本文研究混合meta-analysis的估计问题,设定是个体水平数据(IPD)与汇总数据(AD)同时可用的场景,目标是提高处理效应估计的效率。作者提出基于composite likelihood的信息整合方法,充分利用AD研究中报告的结局变量和协变量的描述性统计量,并通过建模潜在的between-study异质性来整合信息。估计量通过最大化composite likelihood函数获得,基于composite likelihood理论证明了其一致性与渐近正态性。模拟研究表明,相比现有方法,所提方法在效率上有明显提升。本文属于应用导向的方法论工作,理论贡献相对有限。
  • 关键技术: composite likelihood, meta-analysis, between-study heterogeneity, asymptotic normality, information integration
  • 为什么对您有用: 本文属于应用导向的meta-analysis方法论工作,与您primary interests的核心方向(因果推断、高维统计、半参数效率理论)距离较远。技术层面使用的是经典composite likelihood理论,不涉及semiparametric efficiency bound或debiasing等您关注的效率理论工具。若您对meta-analysis本身有应用需求,本文可作为方法参考;但从理论创新角度,暂不可做——核心机器不在您的武器库关注范围内,且该方向与您当前研究主线偏离较大。

3. 10.1002/sim.70534 — Score Matching for Differential Abundance Testing of Compositional High‐Throughput Sequencing Data

  • 作者: Johannes Ostner, Hongzhe Li, Christian L. Müller
  • 期刊/来源: Statistics in Medicine
  • 机构: Helmholtz Zentrum München · Ludwig-Maximilians-Universität München · University of Pennsylvania · Flatiron Health (United States) · Flatiron Institute
  • 分类: vol 45 · issue 8-9
  • 相关性 5/10 · novelty: new_method
  • 摘要: 本文针对高通量测序数据(单细胞RNA-Seq和微生物扩增子)中常见的过度零膨胀成分数据,提出了一种差异丰度(DA)测试方法cosmoDA。该方法扩展了a-b幂交互模型,引入协变量信息以刻画群体异质性,并通过带惩罚的广义得分匹配(penalized generalized score matching)实现参数估计。核心机制在于利用Box-Cox型幂变换处理零值,并在模型拟合中施加稀疏性惩罚,从而在估计特征交互的同时控制相关特征造成的假阳性。仿真表明,cosmoDA能准确恢复特征交互结构,显著降低相关特征下的假发现率(FDR)。在单细胞和扩增子数据上的应用验证了数据自适应变换的有效性,并评估了零值替换策略对下游DA结果的影响。对您而言,本文提出的统计建模思路(成分数据+得分匹配)可作为高维零膨胀数据推断的一个参考案例,但其主题与您的主要研究兴趣(因果推断、高维随机矩阵等)距离较远。
  • 关键技术: score matching, generalized score matching, a-b power interaction model, compositional data analysis, penalized estimation, differential abundance testing
  • 为什么对您有用: 本文是高维成分数据统计方法在生物医学应用中的具体实例,可连接至您的次要兴趣流行病学(应用领域)。武器库中的“M估计理论”有助于理解惩罚得分匹配的渐近性质,但本文核心工具(广义得分匹配、成分数据模型)不在您当前武器库中,且差异丰度测试与因果推断、高维随机矩阵等主要方向交集有限。因此,暂不可做——若未来需要进入微生物组统计方向,可作为入门阅读,但需额外补充成分数据分析和得分匹配的专业知识。

4. 10.1002/sim.70498 — Two‐Step Error‐Controlling Classifiers With Application to Cost‐Effective Disease Diagnosis

  • 作者: Kehao Zhu, Kwun Chuen Gary Chan, Ying‐Qi Zhao, Yingye Zheng
  • 期刊/来源: Statistics in Medicine
  • 机构: University of Washington · Fred Hutch Cancer Center
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: new_method
  • 摘要: 本文针对癌症诊断等临床场景中成本高昂的生物标志物检测问题,提出了一种两步骤误差控制分类器框架。该框架在传统“rul-in/rul-out”决策基础上,引入中性区域处理不确定分类,从而允许对特定个体子集选择性启用昂贵检测。最优解基于Neyman-Pearson引理的扩展,刻画了分类性能提升与检测成本之间的权衡。通过前列腺癌诊断的生物标志物研究展示了实际应用。方法将分类决策与成本效益分析结合,为流行病学中的诊断优化提供了新视角。对您可能有用:虽不直接属于主要兴趣,但其决策框架和Neyman-Pearson扩展技巧与假设检验方向有联系,且流行病学应用符合您的二级兴趣。
  • 关键技术: Neyman-Pearson Lemma extension, two-step classifiers, neutral zone decision framework, cost-sensitive classification, biomarker testing optimization
  • 为什么对您有用: 本文属于流行病学应用领域,符合您对流行病学数据集的次要兴趣。方法学上基于Neyman-Pearson引理扩展,与您的假设检验兴趣有直接联系。从武器库角度看,您可以用minimax界分析该分类器的最优性(例如分类错误率与成本的权衡是否能被现有的minimax下界刻画),这属于very_familiar工具,可立即可做。同时,该决策框架可考虑迁移到因果推断中的个体化处理效果评估问题。

5. 10.1002/sim.70533 · arXiv — Meta‐Analysis of Median Survival Times With Inverse‐Variance Weighting

  • 作者: Sean McGrath, Cheng‐Han Yang, Jonathan Kimmelman, Omer Ozturk, Russell Steele, Andrea Benedetti
  • 期刊/来源: Statistics in Medicine
  • 分类: vol 45 · issue 8-9
  • 相关性 4/10 · novelty: minor
  • 摘要: 本文研究如何对中位生存时间进行 meta-analysis,核心困难是原始研究通常只报告 median 及其置信区间,而不报告标准误。作者提出从报告的置信区间反推 within-study standard error,再用 inverse-variance weighting 进行合并;证明了当置信区间由 Brookmeyer–Crowley 方法构造时,该估计量对标准误是相合的。模拟研究表明:在中等样本量(n>50)下,该方法与使用真实标准误的 benchmark 表现相近;但在有效样本量较小时,标准误估计会有偏。实证部分用非小细胞肺癌 RCT 数据展示了 pooled median、median difference 和 median ratio 的应用。对您而言,这是方法学上相对成熟的 meta-analysis 扩展,与 primary interests 的理论工具关联较弱。
  • 关键技术: inverse-variance weighting, Brookmeyer–Crowley confidence interval, Kaplan–Meier estimator, median survival time estimation, meta-analysis of quantiles
  • 为什么对您有用: 本文属于流行病学/医学统计的应用方法论文,与您 primary interests(因果推断、高维统计、半参数效率理论、高阶 U 统计量等)的技术路线关联较弱。技术武器库中的 semiparametric theory 和 M-estimation theory 虽可触及本文的估计量性质分析,但问题本身是 meta-analysis 的标准工具扩展,novelty 有限。follow-up 判断:暂不可做——核心问题不在您的研究主线上,且不涉及您感兴趣的 efficiency bound、debiasing 或高维推断等深层理论。

6. 10.1002/sim.70551BAR12 : Bayesian Autoregressive Phase 1‐2 Design for Cell Therapy Trials With Manufacturing Changes

  • 作者: Cheng‐Han Yang, Peter F. Thall, David Marin, Sheferaw Y. Belay, Ruitao Lin
  • 期刊/来源: Statistics in Medicine
  • 机构: The University of Texas MD Anderson Cancer Center
  • 分类: vol 45 · issue 8-9
  • 相关性 3/10 · novelty: new_method
  • 摘要: 针对细胞治疗试验中制造过程修改(tweak)的早期剂量探索问题,提出了贝叶斯自回归阶段1-2设计(BAR12)。该方法使用一阶自回归模型结合spike-and-slab先验,区分修改前后的毒性-疗效联合分布,从而允许在试验进行中引入制造修改而不必重启试验。通过模拟多种剂量-反应函数,将BAR12与两种传统设计(忽略修改或忽略修改前数据)比较,结果显示BAR12在正确剂量选择概率、患者分配到最优剂量的比例以及无效/有毒剂量识别方面均更优。该方法本质上是贝叶斯自适应设计,未涉及因果识别的形式化框架。虽然与您的主要兴趣(因果推断、高维统计等)不直接重叠,但作为流行病学/临床试验设计中的应用案例,展示了贝叶斯方法在复杂实际场景下的灵活建模能力。
  • 关键技术: Bayesian autoregressive model, spike-and-slab prior, phase 1-2 dose-finding, adaptive design, simulation-based operating characteristics
  • 为什么对您有用: 本文属于流行病学/临床试验设计的应用方向,与您的次要兴趣“流行病学(数据集、应用因果工作)”有交集。您的技术武器库中“软件发展”项可用于复现或扩展该设计的模拟评估,但核心方法论(贝叶斯自回归、MCMC)不在您的武器库中,因此属于暂不可做的方向——缺少贝叶斯建模和MCMC计算的经验积累。若想深入该方向,需要先补充贝叶斯自适应设计的基础知识。

7. 10.1002/sim.70511 — Wasserstein Boxplots for the Analysis of EEG Power Spectral Densities With Applications to Autism

  • 作者: Puyuan Liu, Donatello Telesca, Abigail Dickinson, Shafali Jeste, Damla Şentürk
  • 期刊/来源: Statistics in Medicine
  • 机构: University of California, Los Angeles · Center for Autism and Related Disorders
  • 分类: vol 45 · issue 8-9
  • 相关性 2/10 · novelty: application
  • 摘要: 本文针对脑电图(EEG)功率谱密度的可视化,提出一种基于2-Wasserstein距离的箱线图方法,用于概括样本密度函数的中心趋势、离散度和异常值。该方法在单个样本内沿用功能箱线图框架,但采用Wasserstein度量度量密度间距离,避免传统变换带来的度量失真。进一步,论文扩展至跨样本比较:以神经典型发育儿童为参照组,量化自闭症儿童功率谱的偏离;并引入协变量调整,在控制年龄(峰值alpha频率PAF)后估计自闭症样本相对于参照组Fréchet均值的余差。本文的核心贡献在于将传统箱线图从欧氏空间推广到概率密度空间,并实现参照组条件下的条件偏差可视化。应用实例表明,该方法能有效揭示自闭症儿童与正常发育儿童在脑电频谱特征上的差异,且年龄调整后的分析显示PAF移动对分组效应的影响。对于次要兴趣中的流行病学应用,本文提供了一个实际数据分析案例,展示了如何将非标准数据类型(密度)的探索性工具与临床分组比较相结合。
  • 关键技术: 2-Wasserstein metric, functional boxplot, Fréchet mean, covariate-adjusted boxplot, EEG power spectral densities, peak alpha frequency (PAF)
  • 为什么对您有用: 本文属于流行病学应用(自闭症队列的EEG数据分析),涉及神经发育研究中的统计可视化。研究者可用'非参统计'中的分布比较想法理解Wasserstein距离的几何直觉,但最优运输和Fréchet均值框架不在当前武器库的核心(缺'最优运输'工具),因此暂不可做直接拓展。作为流行病学领域的入门读物,值得花时间了解功能数据分析在生物医学中的应用模式。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论