JASA · 2026-05-18¶

共 17 篇 · Journal of the American Statistical Association

因果推断 (causal_inference, 3 篇)¶

1. 10.1080/01621459.2026.2664228 — Successive classification learning for estimating quantile optimal treatment regimes¶

作者: Junwen Xia, Jingxiao Zhang, Dehan Kong
期刊/来源: Journal of the American Statistical Association
分类: pp 1-26
相关性 7/10 · novelty: new_method
摘要: 本文研究分位数最优治疗策略（quantile OTRs）的估计问题，目标是在给定分位数下最大化潜在结果，并特别处理离散结果情形。作者将分位数 OTR 估计重构为逐次分类任务，通过依次训练一系列分类器来逼近最优决策边界，从而利用机器学习分类算法提升计算效率并处理复杂边界。针对离散结果直接套用现有方法导致不一致的问题，引入平滑技术将离散结果映射为连续替代变量，保证估计的相合性与有效性。理论上给出了估计量的相合性保证，实证显示该方法在有限样本下表现优于现有方法。对您有用：该工作将因果推断中的 OTR 转化为逐次分类，其平滑处理离散结果的技巧和理论保证，对您在因果推断（最优个体化治疗）和半参数理论方面的研究有直接参考价值。
关键技术: quantile optimal treatment regimes, successive classification, smoothing technique for discrete outcomes, surrogate outcome mapping, consistency guarantees
为什么对您有用: 直接涉及因果推断中的最优治疗策略（OTR），其针对离散结果的平滑技巧和逐次分类重构方法，对您在因果推断（个体化治疗/longitudinal）和半参数理论的研究具有方法迁移和理论参考价值。

2. 10.1080/01621459.2026.2627027 — Optimized Variance Estimation under Interference and Complex Experimental Designs¶

作者: Christopher Harshaw, Joel Middleton, Fredrik Sävje
期刊/来源: Journal of the American Statistical Association
分类: pp 1-14
相关性 0/10 · novelty: new_method
摘要: 在干扰和复杂实验设计下，基于设计的处理效应估计量通常不存在无偏且一致的方差估计量，研究者只能依赖保守的方差估计。本文将构建最小保守方差估计量的问题转化为优化问题：在给定风险偏好与潜在结果先验知识下，寻找真实方差的最小可估上界。作者刻画了二次型类中的可容许边界集合，并证明在多种自然目标函数下，该优化问题为凸规划。所得估计量在先验知识错误时仍保证保守性，而在知识较准确时保守性大幅降低。数值实验显示其比现有方法显著降低保守性，提升推断精度。对您有用：该文将因果推断的方差估计转化为凸优化问题，对您在因果推断（干扰下的实验设计）和统计计算（凸规划求解）的交叉研究有直接的方法论启发。
关键技术: design-based inference, interference, variance bound optimization, quadratic form, convex programming, conservative variance estimation
为什么对您有用: 直接关联您在因果推断（干扰下的处理效应估计）和统计计算（凸优化数值方法）的兴趣；提供了在无法达到有效界时，通过优化二次型上界构建稳健方差估计的新视角，对假设检验和区间估计有重要应用价值。

3. 10.1080/01621459.2026.2624831 — Out-of-Distribution Generalization under Random, Dense Distributional Shifts¶

作者: Yujin Jeong, Dominik Rothenhäusler
期刊/来源: Journal of the American Statistical Association
分类: pp 1-12
相关性 0/10 · novelty: new_method
摘要: 本文研究在随机、稠密分布偏移（dense distributional shifts）下的参数推断与预测问题，设定为：当偏移通过大量微小随机变化影响整个数据生成系统而非仅局部（如covariate shift仅改变p(x)），目标是在部分观测的偏移分布下识别并估计目标参数。作者首先给出经验证据说明稠密随机偏移在现实中普遍存在，随后提出distributional uncertainty model，将环境随机扰动建模为对联合分布的稠密扰动，并在此基础上构造参数推断与预测工具。方法核心是将偏移参数化为一族受约束的分布扰动，利用worst-case / robust优化思想给出可识别的估计量，并提供诊断工具评估模型拟合。实证部分在多个真实数据集上验证了框架的实用性。对您而言，该框架为causal inference中sensitivity analysis和invariance假设的放松提供了新视角，尤其适用于评估因果结论在环境扰动下的稳健性。
关键技术: dense distributional shifts, distributional uncertainty model, invariance assumption relaxation, robust parameter inference, model diagnostics for distributional shift
为什么对您有用: 直接关联causal inference中的sensitivity analysis与invariance假设放松，为评估因果估计在环境扰动下的稳健性提供了不同于传统sparse shift（如covariate shift）的新框架，可迁移至proximal CI或IV设定下评估分布偏移敏感性。

高维统计 / 随机矩阵 (high_dim_rmt, 2 篇)¶

1. 10.1080/01621459.2026.2658863 — Sequential Knockoffs for Variable Selection in Reinforcement Learning¶

作者: Tao Ma, Jin Zhu, Hengrui Cai, Zhengling Qi, Yunxiao Chen, Chengchun Shi et al.
期刊/来源: Journal of the American Statistical Association
分类: pp 1-29
相关性 3/10 · novelty: new_method
摘要: 在高维强化学习（RL）与马尔可夫决策过程（MDP）设定下，本文目标是识别使过程仍满足 MDP 且保留原奖励函数的“最小充分状态”（minimal sufficient state）。作者提出 SEEK（Sequential Knockoffs）算法，通过构造序列 Knockoff 特征来控制变量选择的误发现率（FDR）。该方法对底层 RL 算法不可知，适用于具有复杂非线性动态的高维系统。理论上，SEEK 在大样本下实现了选择相合性（selection consistency）。实证表明其在变量选择精度与学习策略的次优性间隙（suboptimality gap）上均优于对比方法。该工作将高维变量选择中的 Knockoff 框架拓展至序列决策设定，对您研究高维统计中的 FDR 控制及纵向因果推断（动态治疗策略）中的变量筛选具有参考价值。
关键技术: model-X knockoffs, false discovery rate control, Markov decision process, selection consistency, high-dimensional variable selection
为什么对您有用: 将高维变量选择（Knockoffs/FDR控制）拓展至序列决策与动态系统，对您研究高维统计中的假设检验/变量选择以及纵向因果推断（动态治疗策略）中的状态筛选有直接借鉴意义。

2. 10.1080/01621459.2026.2632869 — High-Dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association¶

作者: Shangyuan Ye, Shauna Rakshe, Ye Liang
期刊/来源: Journal of the American Statistical Association
分类: pp 1-13
相关性 0/10 · novelty: weaker_assumption
摘要: 在高维变量选择与统计推断问题中，现有 post-selection inference 方法通常依赖显式线性回归模型与稀疏性假设，本文在无需指定回归模型形式与稀疏性假设的设定下，提出 sufficient dimension association (SDA) 来衡量给定其他预测变量下每个预测变量与响应变量的条件关联，estimand 为 SDA 系数，关键假设为预测变量服从高斯分布或已标准化且满足 Markov blanket 性质。提出了 SDA 的估计量并证明其渐近正态性（n^{-1/2}-CAN）；构建了三种检验统计量，并提出了控制 false discovery rate (FDR) 的多重检验程序。核心技术利用了高维高斯假设下的 Markov blanket 结构，避免了回归模型误设与稀疏性破坏的问题。理论上证明了估计量的渐近性质与 FDR 控制的有效性，模拟与阿尔茨海默病基因数据展示了其在非线性和非稀疏设定下的优势。对您可能有用：该工作提供了一种绕过高维稀疏假设与模型设定的新推断框架，其高维条件关联检验与 FDR 控制方法可直接迁移到您的高维统计与假设检验研究中。
关键技术: sufficient dimension association, Markov blanket property, high-dimensional variable selection, false discovery rate control, post-selection inference, conditional independence testing
为什么对您有用: 该方法绕过了高维推断中常见的稀疏性与线性模型假设，利用 Markov blanket 与高斯假设实现条件关联推断，对您在高维统计与假设检验方向探索放松假设的新推断框架具有直接参考价值。

非参数 / 半参数 (nonparam_semipara, 2 篇)¶

1. 10.1080/01621459.2026.2658287 — Structured Conformal Inference for Matrix Completion with Applications to Group Recommender Systems¶

作者: Ziyi Liang, Tianmin Xie, Xin Tong, Matteo Sesia
期刊/来源: Journal of the American Statistical Association
分类: pp 1-25
相关性 3/10 · novelty: new_method
摘要: 在稀疏观测矩阵的矩阵补全设定下，本文研究同一列（或特定组）缺失条目的联合置信域构建问题，estimand 为一组缺失值的联合预测区域，无需特定模型假设。方法基于 conformal inference，可与任意黑盒矩阵补全算法结合提供不确定性量化。为解决结构化校准数据导致的非交换性（lack of exchangeability），文章提出广义加权 conformalization 框架，通过组装模拟测试组依赖结构的校准集实现组级联合覆盖保证，并引入新计算方法克服相应计算瓶颈。理论证明了加权框架的有效性，模拟与 MovieLens 100K 数据分析验证了其实用性。对您可能有用：该工作将 conformal inference 推广至非交换的矩阵结构化校准，对您在统计计算（加权 conformal 算法）及高维统计（矩阵补全的不确定性量化）方向有直接参考价值。
关键技术: conformal inference, weighted conformalization, matrix completion, joint confidence region, lack of exchangeability
为什么对您有用: 涉及矩阵补全的不确定性量化与加权 conformal 推断的计算方法，与您的高维统计（矩阵补全）和统计计算（数值算法）兴趣相关，提供了处理非交换性结构的新思路。

2. 10.1080/01621459.2026.2667536 — Principled Estimation and Prediction with Competing Risks: a Bayesian Nonparametric Approach¶

作者: Claudio Del Sole, Antonio Lijoi, Igor Prünster
期刊/来源: Journal of the American Statistical Association
分类: pp 1-33
相关性 0/10 · novelty: new_method
摘要: 本文在竞争风险的多状态建模框架下，利用贝叶斯非参数方法研究转移概率的估计与预测问题，核心 estimand 为特定原因的预测概率曲线、生存函数及子分布函数。方法上，引入了一类基于分层完全随机测度的灵活非参数先验，并确定了该类中条件共轭的特例；推导了数据与潜在随机划分的联合边际分布，完整刻画了后验分布。基于此分布结果，提出了“预测曲线”（prediction curve）以刻画未来事件属于特定类型的概率随时间变化的函数，这是该领域的重要创新。此外，文章还给出了相应的后验估计与采样算法，并在模拟与临床数据集上验证了方法的有效性。该工作将完全随机测度与随机划分理论拓展至竞争风险设定，对您在非参数理论方面的兴趣有直接参考价值，同时其竞争风险模型与临床数据集也可服务于流行病学方向的因果推断应用。
关键技术: completely random measures, Bayesian nonparametrics, competing risks, latent random partition, multi-state model, subdistribution function
为什么对您有用: 论文核心是完全随机测度与随机划分的非参数理论拓展，契合您对非参数理论的兴趣；同时竞争风险设定与临床数据集对您在流行病学方向的因果推断应用有模型与数据集借鉴价值。

统计计算 / 算法 (stat_computing, 9 篇)¶

1. 10.1080/01621459.2025.2567045 — Conditional Probability Tensor Decompositions for Multivariate Categorical Response Regression¶

作者: Aaron J. Molstad, Xin Zhang
期刊/来源: Journal of the American Statistical Association
分类: pp 1-14
相关性 5/10 · novelty: new_method
摘要: 在多变量类别型响应回归设定下，目标是对条件概率质量函数建模，其中响应变量数、每类类别数及预测变量维度均较大。作者提出 functional probability tensor decomposition：将张量值函数分解为低秩概率张量，利用条件独立性与概率张量秩的联系进行结构约束。该低秩分解模型等价于 mixture of regressions，可通过最大似然拟合，作者推导了 penalized EM 算法并分析了其统计性质。模拟与基因功能分类应用表明该方法在高维多响应设定下表现良好。对您而言，张量分解结构与 penalized EM 的计算方案可直接迁移至统计计算中的张量/矩阵数值方法研究，低秩结构假设也与高维统计中的降维思路相通。
关键技术: functional probability tensor decomposition, low-rank probability tensor, mixture of regressions, penalized EM algorithm, maximum likelihood estimation, multivariate categorical response regression
为什么对您有用: 张量分解的数值算法与 penalized EM 直接对应您 statistical computing 中 tensor/matrix 数值方法的兴趣；低秩结构在高维多响应设定下的统计性质分析也与 high-dimensional statistics 方向有方法重叠。

2. 10.1080/01621459.2026.2658285 — Tree Bandits for Generative Bayes¶

作者: Sean O’Hagan, Jungeum Kim, Veronika Ročková
期刊/来源: Journal of the American Statistical Association
分类: pp 1-29
相关性 4/10 · novelty: new_method
摘要: 在似然函数不可解的生成模型中，近似贝叶斯计算（ABC）是推断的最后手段，但其拒绝采样机制需要海量先验试验且接受率极低。本文提出一种自适应框架，利用递归划分分类器在 ABC 查找表上逐步将高似然区域细化为矩形框，并将每个框视为二项 Bandit 问题的臂，以 ABC 接受作为奖励。臂的选择倾向取决于先验分布和历史拒绝记录，算法在高概率区域放置更多分裂，避开注定被拒绝的低概率区域。作者提出了 ABC-Tree（后验采样）和 ABC-MAP（最大后验估计）两种算法，在大幅降低模拟成本的同时保证了近似精度，并给出了近乎最优的遗憾界（regret bounds）理论保证。该工作将树结构与 Bandit 算法结合以加速 ABC 计算，对您在统计计算（数值方法与算法）方向的兴趣有直接参考价值，其 regret bound 分析也可作为 Bandit 理论在计算方法中应用的范例。
关键技术: Approximate Bayesian Computation (ABC), Tree-based bandits, Recursive partitioning, Regret bounds, Likelihood-free inference, Rejection sampling
为什么对您有用: 直接对应您在统计计算（数值方法与算法）方向的兴趣，展示了如何用 Bandit 理论与树结构加速似然不可解模型的计算，其 regret bound 的理论分析对算法设计有借鉴意义。

3. 10.1080/01621459.2026.2627493 — Spatial Scale-Aware Tail Dependence Modeling for High-Dimensional Spatial Extremes¶

作者: Muyang Shi, Likun Zhang, Mark D. Risser, Benjamin A. Shaby
期刊/来源: Journal of the American Statistical Association
分类: pp 1-14
相关性 2/10 · novelty: new_method
摘要: 在空间极值建模中，现有模型通常在整个空间域上仅给出单一尾部依赖类别，无法刻画异质性尾部依赖结构。本文提出一种混合模型，修改流行的随机尺度构造（Gaussian随机场乘以径向变量），允许径向变量在空间上平滑变化并为高斯过程引入非平稳性。该模型随极端程度增加，长距离呈现渐近独立，短距离可呈现渐近依赖或独立，实现同一模型内依赖类型的空间自适应切换。采用copula方法在贝叶斯层次模型框架下对依赖模型与边际模型进行联合推断，三种模拟场景下频率覆盖率接近名义水平。应用于美国中部夏季极端降水数据，发现联合尾部具有非平稳依赖结构，无法被现有极限极值模型或次渐近模型捕捉。对您而言，该文的高维空间贝叶斯推断计算方案及copula建模思路可为统计计算方向提供参考，但与您核心的效率理论或RMT方向关联较弱。
关键技术: random scale construction, Bayesian hierarchical model, copula approach, spatial non-stationarity, tail dependence modeling
为什么对您有用: 该文涉及高维空间过程的贝叶斯推断计算，与您统计计算方向有一定关联；但其核心是空间极值建模，与RMT、效率理论、半参数理论等核心方向距离较远，主要收益在于了解高维空间贝叶斯推断的计算策略与copula参数化技巧。

4. 10.1080/01621459.2026.2657051 — Mixture Modeling for Temporal Point Processes with Memory¶

作者: Xiaotian Zheng, Athanasios Kottas, Bruno Sansó
期刊/来源: Journal of the American Statistical Association
分类: pp 1-33
相关性 2/10 · novelty: new_method
摘要: 在时间点过程框架下，目标是构建能捕捉历史依赖性的条件持续时间密度模型，通过将条件持续时间密度建模为若干滞后持续时间的一阶条件密度之混合，实现高阶动态建模。由此得到的条件强度函数可表示为一阶风险函数的局部混合；通过为一阶条件密度指定不同分布族（对应递增/递减/非单调风险函数），可灵活生成自激或自调节点过程。从持续时间过程角度发展了平稳边际密度的构造方法，形成具有高阶 Markov 依赖的相依更新过程，并进一步扩展至聚类点过程以刻画多因素驱动的持续时间聚集行为。推断采用 Bayes 方法，涵盖后验采样、模型检验与预测，在合成数据与真实数据上验证了模型性质。对您而言，该文的高阶 Markov 依赖建模思路与 mixture 灵活参数化策略可迁移至 longitudinal causal inference 中的序列依赖结构建模，且点过程框架在流行病学事件数据中有直接应用场景。
关键技术: temporal point process with memory, mixture of first-order conditional duration densities, local mixture of hazard functions, dependent renewal process, high-order Markov dependence, Bayesian inference for point processes
为什么对您有用: 高阶 Markov 依赖的 mixture 建模思路可迁移至 longitudinal causal inference 中的序列依赖结构；点过程框架在流行病学事件数据（secondary interest）中有直接应用价值。

5. 10.1080/01621459.2026.2657609 — Extracting Interpretable Models from Tree Ensembles: Computational and Statistical Perspectives¶

作者: Brian Liu, Rahul Mazumder, Peter Radchenko
期刊/来源: Journal of the American Statistical Association
分类: pp 1-25
相关性 2/10 · novelty: new_method
摘要: 在树集成的非参数框架下，目标是提取紧凑且可解释的决策规则集，同时灵活控制规则数量与交互深度。提出一种基于优化的估计器，通过正则化联合约束规则复杂度，并设计了定制的精确算法求解底层组合优化问题，以及近似算法计算正则化路径。理论方面，建立了非渐近预测误差界，将估计器与在同等复杂度约束下选择最优数据依赖线性组合的 oracle 进行对比。结果表明该估计器的大样本预测性能与 oracle 相当。实验验证了其在规则提取精度上优于现有算法。对您有用：其定制优化算法与正则化路径计算思路直接契合统计计算方向，非渐近 oracle 界的分析对非参数理论有参考价值。
关键技术: tree ensemble, decision rule extraction, exact optimization algorithm, regularization path, non-asymptotic oracle inequality
为什么对您有用: 论文的定制优化算法与正则化路径计算直接契合您的统计计算兴趣；非渐近 oracle 误差界的推导对非参数理论方向有参考价值。

6. 10.1080/01621459.2025.2565851 — A Regression Framework for Studying Relationships among Attributes under Network Interference¶

作者: Cornelius Fritz, Michael Schweinberger, Subhankar Bhadra, David R. Hunter
期刊/来源: Journal of the American Statistical Association
分类: pp 1-12
相关性 0/10 · novelty: new_theory
摘要: 本文在网络干扰（network interference）设定下，提出一个用于网络连接与相互依赖结果的联合概率回归框架，旨在研究连接单元属性间的关系。方法上，该框架通过伪似然（pseudo-likelihood）捕捉连接与属性间的复杂依赖，同时保留了线性/逻辑回归的可解释性。计算上，利用 minorization-maximization (MM) 算法对伪似然进行凸优化，实现了可扩展的统计计算。理论上，在仅观测单次依赖连接与属性数据的设定下，建立了伪似然估计量的收敛速率。模拟与 X 平台仇恨言论数据验证了方法的有效性。对您有用：该文的 MM 凸优化算法与单次网络观测下的收敛率理论直接契合您在统计计算与数学统计方面的兴趣，且网络干扰设定对因果推断中的干扰（interference）研究有模型构建的参考价值。
关键技术: network interference, pseudo-likelihood estimation, minorization-maximization (MM) algorithm, convex optimization, convergence rates
为什么对您有用: MM凸优化算法与单次网络观测下的收敛率理论直接契合您在统计计算（数值方法与算法）方面的兴趣；同时网络干扰设定对因果推断中的干扰（interference）研究有模型参考价值。

7. 10.1080/01621459.2026.2671450 — An efficient Monte Carlo method for valid prior-free possibilistic statistical inference¶

作者: Ryan Martin
期刊/来源: Journal of the American Statistical Association
分类: pp 1-25
相关性 0/10 · novelty: new_method
摘要: 在 Inferential Models (IMs) 框架下，目标是实现无先验、类贝叶斯且具有频率学派校准性质的 possibilistic 推断；由于 IM 输出为可能性测度而非概率测度，传统 Monte Carlo 方法无法直接应用。本文提出一种专门针对 possibilistic 输出的 Monte Carlo 方法，核心机制是对 IM 的 credal set 进行刻画，从而找到其“最佳概率近似”——一个可轻易近似与采样的混合分布。通过从该混合分布采样并转换，实现对 IM possibilistic 输出的近似。数值结果表明该近似在精度与计算效率上均表现良好。对您可能有用：虽然 IM 框架较为小众，但其针对非标准测度（possibilistic）的 Monte Carlo 采样与混合分布近似算法设计，对您在统计计算（数值方法）方向的算法开发有一定参考价值。
关键技术: Inferential models, possibilistic inference, credal set characterization, Monte Carlo approximation, mixture distribution sampling
为什么对您有用: 属于统计计算（数值方法）方向，虽然 IM 框架本身非您核心关注，但其针对非概率测度的 Monte Carlo 近似与混合分布采样算法设计，可为处理非标准推断计算问题提供方法学借鉴。

8. 10.1080/01621459.2026.2635067 — Scalable Bayesian Image-on-Scalar Regression for Population-Scale Neuroimaging Data Analysis¶

作者: Yuliang Xu, Timothy D. Johnson, Thomas E. Nichols, Jian Kang
期刊/来源: Journal of the American Statistical Association
分类: pp 1-13
相关性 0/10 · novelty: new_method
摘要: 在大规模神经影像数据的 Image-on-Scalar Regression (ISR) 设定下，传统贝叶斯方法面临计算瓶颈且难以处理个体间不一致的脑掩码。本文提出一种可扩展的贝叶斯 ISR 模型，采用带显著性区域指示变量的高斯过程先验。核心计算上，引入基于随机梯度朗之万动力学（SGLD）与内存映射结合的后验采样算法。该算法随子样本量线性扩展，内存占用受限于批次大小，绕开了传统 Gibbs 采样对全量数据的内存需求。在 UK Biobank 任务态 fMRI 数据（38,639 样本，120,000+ 体素）上，相比零插补 Gibbs 采样实现 4-11 倍加速和 8-18% 功效提升。对您可能有用：其 SGLD 与内存映射结合的大规模矩阵/张量计算策略，可直接迁移到您关注的统计计算与高维数据算法设计中。
关键技术: stochastic gradient Langevin dynamics, Gaussian process priors, memory mapping, Image-on-Scalar Regression, scalable Bayesian computation
为什么对您有用: 核心贡献在统计计算（SGLD与内存映射处理超大规模数据），其算法设计思路对您 primary interest 中的统计计算（数值方法与算法）有直接借鉴价值，尤其是处理高维张量/矩阵数据时的内存与计算优化。

9. 10.1080/01621459.2026.2664077 — Scalable calibration of individual-based epidemic models through categorical approximations¶

作者: Lorenzo Rimella, Michael Whitehouse, Nick Whiteley, Paul Fearnhead, Chris Jewell
期刊/来源: Journal of the American Statistical Association
分类: pp 1-26
相关性 0/10 · novelty: new_method
摘要: 在部分观测的个体化流行病学模型中，精确似然计算复杂度随种群规模指数增长，本文提出基于类别分布近似似然的确定性方法（CAL）。CAL将个体转移概率用类别分布近似，使近似似然支持自动微分，从而可利用TensorFlow等库通过梯度上升或HMC等算法轻松实现参数估计或后验抽样。理论上证明了极大近似似然估计量（MALE）的相合性。实证在多种流行病学设定（个体异质性转移率、空间交互、漏报误报）下验证了真值恢复及与竞争方法相当的似然值，计算成本大幅降低；并在2001年英国口蹄疫爆发数据（162775个农场）上展示了可扩展性。该方法为流行病学大规模个体模型提供了基于自动微分的快速计算方案，契合您在统计计算（数值方法与算法）及流行病学应用与数据集上的兴趣。
关键技术: categorical approximation, automatic differentiation, approximate likelihood, consistency of MALE, individual-based epidemic model
为什么对您有用: 提供了基于自动微分的大规模流行病学模型快速计算方案，契合您在统计计算（数值方法与算法）及流行病学应用与数据集上的兴趣。

其他 (other, 1 篇)¶

1. 10.1080/01621459.2026.2656455 — Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems¶

作者: Yiran Huang, Jian-Feng Yang, Haoda Fu
期刊/来源: Journal of the American Statistical Association
分类: pp 1-23
相关性 0/10
摘要: ```json { "topic": "stat_computing", "summary_zh": "本文在 human-in-the-loop 主动学习框架下，目标是最小化标注成本的同时最大化模型预测精度，核心设定是同时决定"标注哪个样本"与"以何种查询方式标注"。与传统仅关注样本选择的主动学习不同，作者提出一个整合多种查询类型信息的统计模型，并基于该模型自动决定下一步的最优查询策略；进一步引入 data-driven 的 exploration-exploitation 框架，可嵌入多种已有主动学习算法。在五个真实数据集（含复杂医学影像任务）上的仿真表明，所提框架在准确率和损失上均优于对比方法。该工作对您在统计计算方向的算法设计有参考价值，但需注意此处的"efficient"指标注效率而非半参数效率界，理论深度有限。", "key_techniques": [ "active learning", "exploration-exploitation trade-off", "multi-query type integration", "human-in-the-loop labeling", "data-driven query selection" ], "why_relevant": "与您 primary i

Maintained by 陈星宇 · Homepage · Source on GitHub