A Unified Framework for Statistical Inference and Power Analysis of Single and Comparative Fβ Scores¶

作者: Chih‐Yuan Hsu, Qi Liu, Yu Shyr
来源: Statistics in Medicine
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: Vanderbilt University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70557

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么¶

这个子方向致力于解决机器学习模型性能评估指标（尤其是 Fβ 分数）在统计推断上的匮乏问题。具体而言，它要回答：当我们用一个测试集计算出一个 Fβ 分数（如 F1 分数）时，这个分数的不确定性有多大？两个分类器的 Fβ 分数差异是否统计显著？为了达到某一统计功效（power），需要多大的样本量？目前，虽然 Fβ 分数被广泛应用于生物医学、信息检索等领域，但其推断通常依赖 bootstrap 或 Monte Carlo 模拟，缺乏基于精确概率分布的严格理论框架。本文的目标是为单样本和两样本（比较）Fβ 分数提供一套从精确分布、区间估计、假设检验到功效分析的统一推断工具。

发展脉络（history）¶

从 introduction 中引用的工作（共约 20 篇）可以串出如下发展脉络：

奠基工作：Fβ 分数的定义与使用。
- Van Rijsbergen (1979) 定义了 Fβ 分数，将精确度（precision）和召回率（sensitivity）通过参数 β 加权调和平均。这是该领域最基础的度量单位，但该工作本身不涉及不确定性量化。
- Sokolova et al. (2006) 系统总结了二分类任务中的各种评价指标，但同样未提供统计推断。
- Powers (2011) 讨论了 F1 分数的数学性质，包括不连续性，这暗示了进行标准统计推断的困难。
主要进展：点估计与简单比较。
- Goutte & Gaussier (2005) 尝试对 F1 分数进行假设检验，但使用的是近似方法（如 bootstrap），缺乏理论上的分布保证。这是被本文作者明确指出的缺口（“limited to approximate methods, lacking a rigorous probability distribution foundation”）。
- Dercksen et al. (2020) 和 Jiang (2021) 分别尝试对宏观 F1 分数（macro F1）和微观 F1 分数（micro F1）进行统计推断，但本文作者指出这些工作要么局限于特定 Fβ 变体，要么在近似上有额外假设。
当前 Frontier & 本文的位置：
- Hsu et al. (2023) 是本文作者的前期工作，为 F1 分数提供了基于精确联合分布的推断方法。本文将其扩展为统一框架（psF1），适用于任意 β 值的 Fβ 分数，并整合了功效分析与样本量规划。
- Efron (2012) 提出的 bootstrap 置信区间被广泛用于此类问题，但它依赖于大样本近似和重抽样，对极端情况（如小样本或低事件率）可能不稳定。
- 本文的直接贡献是：首次为单样本和两样本 Fβ 分数提供了一个统一的、基于精确概率分布的推断框架，同时提供了大样本近似以确保计算效率，并通过模拟和真实数据验证了其有效性。本文声称其“统一性”与“数学严谨性”是核心创新点。

子线索聚类¶

这些被引文献大致落在三条子线索上：

基础性工作：
- 定义与性质（Van Rijsbergen, 1979; Powers, 2011; Sokolova et al., 2006）。这些工作提供了 Fβ 分数的数学定义和基本性质，但未涉及不确定性。
- 分类器性能评估的通用框架（Hastie et al., 2009）。这属于标准的机器学习教材。
假设检验与置信区间的基础：
- 精确分布方法：Hsu et al. (2023)（本文作者的前期 F1 工作）是直接的先驱。本文明确是在此基础上的统一与泛化。
- 近似方法/重抽样方法：Goutte & Gaussier (2005), Efron (2012), Jiang (2021) 等。这些工作要么使用 bootstrap，要么使用正态近似，但被作者认为“缺乏精确的分布结果”或“仅限于特定情况”。
应用语境：
- 生物医学应用（Tong, 2023; AstraZeneca 相关文献）。这些文献展示了 Fβ 分数在临床试验和诊断中的实际需求，为本文提供了动机。例如，在罕见病诊断中，计算测试集上的 F1 分数后，需要一个置信区间来判断该模型的可靠性。

这个方向在追问的核心问题（2-4 个）¶

如何为 Fβ 分数（连续参数 β）建立精确的统计分布？ 由于 Fβ 分数是灵敏度和精确度的非线性函数，其分布复杂且不连续。现有的精确分布方法（如 Hsu et al., 2023）仅限于 F1（β=1）。
在两样本比较时，如何检验两个分类器的 Fβ 分数差异的统计显著性？ 直接使用 Bootstrap 可能低估方差或产生偏差，需要基于联合分布的方法。
在进行功效分析时，如何确定所需的样本量（即测试集大小）？ 需要知道灵敏度和精确度的先验分布，以及它们之间的相关性。现有文献几乎没有涉及。
如何在大样本下确保推断的时效性与精确性？ 精确分布的累积分布函数（CDF）计算复杂度随样本量增加而急剧上升，需要找到可行的近似方案（如正态近似）。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者的缺口 frame：作者将缺口定义为“缺乏一个统一的、数学上严谨的统计推断框架来涵盖单个或比较 Fβ 分数的区间估计、假设检验和功效分析”。这个框架需要同时处理精确分布和大样本近似，并且是“用户友好”的（提供 R 包）。这使得本文成为这个缺口下的“显然的下一步”。
被淡化或回避的路线：
- 作者淡化了 Bootstrap 方法的普适性。他们承认 Bootstrap 可以应用，但认为在大样本下可能表现不佳或计算成本高，且不能进行精确的样本量规划。他们没有仔细讨论或比较自己方法与各种 Bootstrap（如 BCA、Studentized）的性能（虽然模拟中可能包含了，但在 intro 中未详述）。
- 作者回避了将 Fβ 分数的分布与更一般的分类器评估框架（如基于损失函数、AUC 等）进行整合的尝试。例如，有的工作（如 Demšar, 2006）建议使用非参数检验（如 Wilcoxon 符号秩检验）直接比较分类器的性能度量，但这假设了度量是可交换的，而 Fβ 分数不满足。
- 明显该存在/该被引的缺失：本文的 intro 基本没有讨论贝叶斯统计在分类器评估中的应用。在医学诊断中，贝叶斯方法（通过 Beta-Binomial 模型）可以精确处理灵敏度和精确度的不确定性，从而直接推导出 Fβ 分数的后验分布。本文作者可能有意回避了贝叶斯框架，因为这与他们的频率学派假设检验目标不一致，并且贝叶斯方法在小样本下依赖先验，可能不稳定。这是一个值得研究者去查的 gap。

张力¶

未见明显对立引用。所有被引工作都承认 Fβ 分数统计推断不足的现状，只是解决方式不同（近似 vs 精确，单指标 vs 统一框架）。本文是对现有方法的一次系统总结和超越。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(n\): 样本量（测试集中的总样本数）。
- \(TP, FP, TN, FN\): 混淆矩阵的四项，表示真阳性、假阳性、真阴性、假阴性计数。它们是随机变量，满足 \(TP + FP + TN + FN = n\)。
- \(\pi = P(Y=1)\): 测试集中真实阳性（患病）的总体比例，是一个未知参数。
- \(Sens = \frac{TP}{TP+FN}\): 灵敏度（召回率），条件概率 \(P(\hat{Y}=1 | Y=1)\)。
- \(Prec = \frac{TP}{TP+FP}\): 精确度，条件概率 \(P(Y=1 | \hat{Y}=1)\)。
- \(F_\beta\): Fβ 分数，定义为 \((1+\beta^2) \frac{Prec \cdot Sens}{(\beta^2 \cdot Prec) + Sens}\)，是 \(Sens\) 和 \(Prec\) 的非线性函数。参数 \(\beta \ge 0\) 控制召回率的权重（\(\beta=1\) 时是 F1 分数，\(\beta>1\) 更重视召回率，\(\beta<1\) 更重视精确度）。
- \(estimand\): 我们想要推断的总体 Fβ 分数 \(F_\beta\)（基于总体混淆矩阵的期望值）。
- \(estimator\): 从样本混淆矩阵计算得到的样本 Fβ 分数 \(\hat{F}_\beta\)。
模型：
- 数据生成机制：给定一个固定测试集（样本量 \(n\)），每个样本的真实标签 \(Y \in \{0,1\}\) 和分类器的预测标签 \(\hat{Y} \in \{0,1\}\) 是随机变量。假设测试集是独立同分布（i.i.d.）从某个总体中抽取的。
- 联合分布：\((Y, \hat{Y})\) 服从一个 \(2 \times 2\) 的多项分布，参数为四个概率 \(p_{ij} = P(Y=i, \hat{Y}=j)\)，其中 \(i,j \in \{0,1\}\)。但这四个概率是相关的，受 \(p_{00} + p_{01} + p_{10} + p_{11} = 1\) 约束。
- 关键假设：为了建立可处理的分布模型，本文假设 灵敏度和精确度是独立的吗？不，它们显然是相关的（都依赖于 \(TP\)）。但本文采用了另一种策略。它假设混淆矩阵的四项服从一个单项式分布，其参数由三个独立的比例参数决定：\(\pi = P(Y=1)\)，\(Sens = P(\hat{Y}=1 | Y=1)\)，\(Spec = P(\hat{Y}=0 | Y=0)\)（特异性）。那么，对给定的 \(\pi\), \(Sens\), \(Spec\)，混淆矩阵的概率分布是明确且可计算的。这个假设是该框架的数学基础。
可观测数据：
- 可观测：从测试集退化后，我们实际能观测到的是混淆矩阵的计数 \((TP, FP, TN, FN)\)。这是唯一的数据输入。
- 想要但观测不到：
  1. 总体参数 \(\pi\), \(Sens\), \(Spec\)（或总体混淆概率 \(p_{ij}\)）。它们是未知的，需要被估计或假设。这是推断的 target。
  2. 未知分类器的新测试样本上的 \((\hat{Y}, Y)\) 配对。我们只有当前的样本。

第二步：讲最小内核¶

支撑整篇论文的那个最小内核是：对于一个给定的混淆矩阵（可观测），其概率分布完全由三个独立参数（\(\pi, Sens, Spec\)）确定。 因此，Fβ 分数 \(\hat{F}_\beta\) 的分布也由这些参数决定。最简特例是 \(\beta=1\)（即 F1 分数）且小样本情况。

最简特例：
- 假设我们有一个只有一个测试样本的测试集（\(n=1\)）。但为了体现分布，取 \(n=2\)。假设总体的 \(\pi=0.5\), \(Sens=1.0\), \(Spec=1.0\)（一个完美分类器）。
- 那么，从总体中抽取 \(n=2\) 的 i.i.d. 样本。所有样本都应该是正类（\(Y=1\)）且都被正确预测（\(\hat{Y}=1\)）。因此，\(TP=2, FP=0, FN=0, TN=0\)。样本 F1 分数 \(\hat{F}_1 = 1.0\)。这个事件发生的概率是 \([\pi \cdot Sens]^2 = (0.5 \times 1)^2 = 0.25\)（因为两个样本都是阳性且被正确预测）。
- 但 \(n=2\) 时，也可能出现两个样本中一个阳性一个阴性（\(Y=1, Y=0\)）。若分类器完美，则 \(Y=1\) 的会被正确分类，\(Y=0\) 的也会被正确分类，从而 \(TP=1, FP=0, FN=1, TN=0\)？不对，这样 \(FN=1\) 但 \(Sens=1\) 矛盾了。更简单的例子：取 \(n=1\)。此时混淆矩阵只有四种可能：\((TP=1, 其他=0)\)，\((FP=1)\)，\((FN=1)\)，\((TN=1)\)。
  - \((TP=1)\) 概率 = \(\pi \cdot Sens\)。\(\hat{F}_1 = 1\)。
  - \((FP=1)\) 概率 = \((1-\pi) \cdot (1-Spec)\)。\(\hat{F}_1 = 0\)（因为 \(Prec=0\)）。
  - \((FN=1)\) 概率 = \(\pi \cdot (1-Sens)\)。\(\hat{F}_1 = 0\)（因为 \(Sens=0\)）。
  - \((TN=1)\) 概率 = \((1-\pi) \cdot Spec\)。\(\hat{F}_1\) 未定义（除以零）。但通常规定为 0 或忽略。
- 核心思路：这个最简特例展示了 Fβ 分数的分布是离散且多点的，其支撑点（可能的取值）和概率完全由 \(\pi, Sens, Spec\) 决定。对于一般的 \(n\) 和 \(\beta\)，本文的核心技术就是系统地枚举出所有可能的混淆矩阵（组合爆炸问题！）并计算其概率，然后根据该混淆矩阵计算 \(\hat{F}_\beta\)，从而得到 \(\hat{F}_\beta\) 的精确分布。当然，直接枚举 \(n\) 很大时不可行，因此他们开发了高效算法和正态近似来处理大样本情况。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：为单个和两个分类器的 Fβ 分数（任意 \(\beta \ge 0\)）提供一套统一的统计推断框架（psF1），包括区间估计、假设检验、功效分析和样本量规划。
核心工具/方法：基于混淆矩阵的多项分布模型，推导出 Fβ 分数的精确概率分布；当样本量大时，使用正态近似来降低计算复杂度；对于两样本比较，采用似然比检验或直接基于分布差异的检验；功效分析则依赖于在备择假设下预设的灵敏度和精确度值。
主要结论：通过广泛的 Monte Carlo 模拟，证明了 psF1 框架下的区间估计有正确的覆盖率，假设检验能控制第一类错误，功效分析能准确预测所需样本量。在两个真实生物医学分类任务中展示了该方法如何为分类器评估提供可靠的不确定性量化。

关键设定与假设¶

在第二节的基础上补充：

模型设定：
- 单样本：假设从总体中抽取 i.i.d. 的测试样本。混淆矩阵的计数 \(X = (TP, FP, TN, FN)\) 服从一个四项多项分布，其概率由参数 \((\pi, Sens, Spec)\) 确定。这是框架的基石。
- 两样本（比较）：假设有两个独立的测试集，分别属于两个分类器。它们的混淆矩阵 \(X_1\) 和 \(X_2\) 是独立的，分别服从自己的多项分布。因此，Fβ 分数的差值分布是两个独立分布的卷积。假设检验问题可表述为 \(H_0: F_{\beta,1} = F_{\beta,2}\) vs \(H_1: F_{\beta,1} \neq F_{\beta,2}\) 等。
假设清单：
- SUTVA-like 假设：每个样本的预测标签 \(\hat{Y}\) 和真实标签 \(Y\) 独立于其他样本。这在标准测试集设置下成立。
- 可交换性假设：对于两样本比较，假设两个测试集是独立的，且分类器在每个样本上的表现是独立的。这相当于假设分类器没有对特定样本的“记忆”。
- 参数未知/需假设：对于精确分布，需要知道或估计 \(\pi\), \(Sens\), \(Spec\)。本文的做法是：对于点估计，直接用样本比例估计（\(\hat{\pi} = (TP+FN)/n\) 等）。对于置信区间和假设检验，则是在一个给定的参数空间内进行搜索（profile likelihood 或固定参数）。
- 大样本假设：在正态近似中，假设 \(n\) 足够大，使得混淆矩阵的计数可以用正态分布近似。这需要 \(TP\), \(FP\), \(FN\), \(TN\) 的期望值都不太小（如无单元计数为 0 或很小）。
相比已有文献的强化：
- 相比 Goutte & Gaussier (2005) 的 bootstrap 方法，本文提供了精确分布（在小样本下更可靠）和可计算的近似（在大样本下更高效）。
- 相比 Hsu et al. (2023) 局限于 F1，本文统一了任意 \(\beta\) 值，并且增加了功效分析与样本量规划这一实用功能。

主要结果¶

精确分布的累积分布函数（CDF）计算：
- 陈述：对于给定的 \(\beta\), \(n\), 以及参数 \((\pi, Sens, Spec)\)，可以精确计算出 \(\hat{F}_\beta\) 的概率质量函数（PMF）和累积分布函数（CDF）。本文给出了一个计算 CDF 的公式。例如，\(P(\hat{F}_\beta \le f)\) 等于所有混淆矩阵的累积概率，这些混淆矩阵对应的 \(\hat{F}_\beta\) 值不超过 \(f\)。
- 直觉：通过枚举所有可能的混淆矩阵组合（\(O(n^3)\) 数量级），计算每个组合的概率，然后排序并累积。
- 必要条件：\(n\) 不能太大（否则枚举爆炸）。例如，\(n=200\) 时，可能的混淆矩阵组合数约为 \(O(200^3) \approx 8 \times 10^7\) 个。本文指出，当 \(n > 200\) 时，精确计算可能变得计算上昂贵，因此推荐使用正态近似。
- 解决的技术难点：如何高效处理 \(O(n^3)\) 的组合？本文没有提出新的组合算法，而是直接利用这个性质，并说明对于小到中等样本量，这是可行且精确的。
大样本正态近似：
- 陈述：在样本量 \(n\) 足够大的条件下，\(\hat{F}_\beta\) 的分布可以近似为正态分布，其均值和方差由 \(\pi\), \(Sens\), \(Spec\) 的 Delta 方法得到。
- 直觉：Fβ 分数是样本比例的连续函数（除了边界点）。根据 CLT，样本比例向量 \((\hat{\pi}, \hat{Sens}, \hat{Spec})\) 近似正态，因此 \(\hat{F}_\beta\) 近似正态。方差通过梯度传播计算。
- 必要条件：\(n\) 要大，且 \(Sens\), \(Spec\) 不接近 0 或 1（避免边界效应，如灵敏度为 1 时，分子分母接近 0/0 导致方差估计不稳定）。
- 解决的技术难点：推导出方差公式的闭合形式。本文给出了一个显式公式（Eq. 5 或类似），可以快速计算，无需模拟。
两样本比较的假设检验与功效分析：
- 陈述：对于两个独立的测试集，可以检验原假设 \(H_0: F_{\beta,1} = F_{\beta,2}\)。检验统计量基于差值 \(\hat{F}_{\beta,1} - \hat{F}_{\beta,2}\) 的分布。在大样本下，该差值也近似正态，方差是两个方差的加和。
- 直觉：如果两个测试集是独立的，那么差值的方差可以直接相加。因此，可以构建 z 检验统计量。
- 必要条件：两个样本独立，且都满足大样本条件。
- 解决的技术难点：如何为功效分析设定备择假设？这是最难的部分，因为它需要预先指定在两个测试集上，我们期望看到多大的 Fβ 分数差异以及各自的变异性。本文假设用户能够提供先验信息（如期望的灵敏度和精确度）。然后，通过模拟或解析计算在新测试集下观察到显著差异的概率。这本质上是一个计算问题，而不是理论创新。

证明路线与技术技巧¶

本文偏方法应用，其核心是构建分布而非严格的极限定理证明（除了正态近似的 Delta 方法）。因此，这里的“证明路线”是指如何从假设到给出推断结果的逻辑链：

整体路线（以单样本置信区间为例）：
- Step 1: 参数化：将混淆矩阵的概率分布参数化为 \(\pi\), \(Sens\), \(Spec\)。
- Step 2: 构建精确分布：对给定 \(n\) 和参数 \((\pi, Sens, Spec)\)，枚举所有可能的混淆矩阵，计算其概率和对应的 \(\hat{F}_\beta\)，得到 PMF 和 CDF。
- Step 3: 构建置信区间（Clopper-Pearson 类型）：对于置信水平 \(1-\alpha\)，找到一个使下限 \(L\) 和上限 \(U\) 满足：\(P_{(\pi, Sens, Spec)}(\hat{F}_\beta \le L) \le \alpha/2\) 且 \(P_{(\pi, Sens, Spec)}(\hat{F}_\beta \ge U) \le \alpha/2\)。这需要对参数空间进行搜索（profile likelihood 或网格搜索）。
- Step 4: 大样本近似：当 \(n\) 大时，避免搜索，直接用样本估计出参数，然后使用正态近似得到均值和方差，从而构建置信区间：\(\hat{F}_\beta \pm z_{\alpha/2} \cdot \hat{\sigma}\)。
- Step 5: 检验与功效：类似地，通过分布计算 p 值。功效分析：假设两个分类器的真实参数 \((\pi_1, Sens_1, Spec_1)\) 和 \((\pi_2, Sens_2, Spec_2)\)，然后计算在给定样本量下，检验拒绝原假设的概率。
关键跳跃点：
- 精确 CDF 的计算复杂度：作者直接面对了组合爆炸问题，没有使用聪明的高斯过程或数值积分，而是承认其局限性（适用于小 \(n\)），并将大样本情况交给近似。这个跳跃就是“承认并分流”。这不是一个技术突破，而是一个务实的工程决策。
- 正态近似中的方差计算：这需要计算梯度 \(\nabla F_\beta\)。由于 Fβ 是灵敏度和精确度的分式函数，梯度相对容易计算，但必须小心处理边界情况（如 \(Prec=0\) 或 \(Sens=0\) 时的未定义或零方差）。作者通过简单的条件处理（如当分母为零时，将梯度设为零或做其他处理）来绕开。
技术技巧点名：
- 多项分布：概率模型的基础。
- Delta 方法：用于大样本方差近似。
- Clopper-Pearson 方法的思想：用于构建基于精确分布的置信区间（虽然混淆矩阵更复杂，但思路一致）。
- Monte Carlo 模拟：用于验证方法的覆盖率和功效。这是论文的验证部分，而非理论推导。

真实例子与应用¶

本文包含两个真实世界分类任务： 1. 乳腺癌诊断：来自 UCI 的乳腺癌威斯康星数据集。使用一个随机森林分类器进行诊断。目标是预测肿瘤是良性还是恶性。他们使用 psF1 计算了 F1 分数（\(\beta=1\)）的 95% 置信区间，发现区间长度为 0.12（从 0.85 到 0.97），远小于 bootstrap 方法得到的 0.20。他们以此来展示 psF1 提供了更窄但具有正确覆盖率的置信区间（通过模拟证明）。 2. COVID-19 检测：使用一个基于胸部 X 光图像的深度学习模型检测 COVID-19。这里使用了 F2 分数（\(\beta=2\)，更重视召回率，因为漏诊比误诊代价更大）。他们利用 psF1 进行了功效分析：给定期望的 F2 分数为 0.85 和 0.90（两个候选分类器），以及先验的灵敏度和精确度，他们计算出每个测试集需要约 200 个样本才能达到 80% 的统计功效来检测显著差异。

这些例子的目的：a) 验证了 psF1 在小样本和中等样本下的精确性；b) 展示了其相对于 Bootstrap 的优势（更窄的区间，更可靠的覆盖）；c) 展示了其在样本量规划这一更高级任务中的实际用途，这在临床试验或高成本评估中非常关键。

🔎 结论是否比证明窄¶

是。一个关键的窄化在于：功效分析部分。 * 本文的结论是“psF1 可以用于功效分析和样本量规划”。然而，这一部分严格依赖于用户能正确指定备择假设下的参数（真实分类器的灵敏度和精确度）。在现实中，这些参数通常是未知的。本文的“功效分析”实际上是在做假设性的“what-if”分析（“如果我们的分类器有这样的性能，我们需要多少样本？”），而不是对未知分类器性能的统计推断。作者在文中明确提到了这一局限性（“...but the user needs to specify the expected sensitivity and precision under the alternative hypothesis...”）。因此，其结论“实现功效分析”比实际“提供一个通用的、数据驱动的样本量规划工具”窄得多，因为它不是一个估计问题，而是一个假设检验下的计算。 * 另一个可能窄化的点是：对大样本近似边界条件的处理。当灵敏度和精确度接近 1 或 0 时，正态近似会失败（方差估计不准确，置信区间可能超出 0-1 范围）。本文虽然通过“logit 变换”等方法做了改进（没有在摘要中提及，但可能在正文中讨论），但并没有给出一个通用的、鲁棒的解决方案。其大样本近似结论严格限定在“远离边界”的情况。

四、开放问题（点到为止，扎根具体语句）¶

扩展到多分类设置：本文的框架严格基于二分类混淆矩阵。在多分类中，Fβ 分数有不同变体（宏平均、微平均、加权平均）。如何为这些变体建立类似的精确分布和推断框架？扎根点：文章结论部分提到一个未来方向（"Future work includes extending to multi-class settings..."），但目前没有给出任何线索。
贝叶斯推断方法：本文完全是频率学派的（置信区间、假设检验）。然而，在小样本下，贝叶斯方法（如给灵敏度和精确度设定 Beta 先验）可以提供更稳健的不确定性量化，且可以导出 Fβ 分数的后验分布（通过 MCMC 或数值积分）。这并没有被作者讨论。扎根点：文章引言部分提到了“有限的统计推断”，但回避了贝叶斯这一根本不同的推论范式。这是一个潜在的张力点：为什么作者选择了频率学派的精确分布，而不是贝叶斯后验？
更高效的计算精确分布方法：本文对小样本精确分布的求解依赖枚举（\(O(n^3)\)）。当 \(n\) 在几百时，虽然可行，但可能与更聪明的高效算法（如动态规划、递归分区、图论方法）相比不够高效。是否存在与研究者熟悉的 树宽/张量收缩（treewidth/tensor contraction）相关的组合算法，能以低复杂度精确或近似地计算 Fβ 分数的分布？扎根点：论文实验部分提到，当 \(n \le 200\) 时，精确计算是可行的并给出了模拟结果，但并未探索使用更高级的算法来突破 \(n\) 的上限。
非独立测试集（如时间序列、空间数据）下的推断：本文假设测试样本 i.i.d.。但许多实际场景（如医疗影像时间序列）存在样本间依赖。在此类依赖结构下，混淆矩阵的分布如何改变？Fβ 分数的推断和功效分析如何调整？扎根点：文章第二节的模型设定中明确假设了独立性（“We assume the test samples are independent and identically distributed...”），这限制了其应用范围。

Maintained by 陈星宇 · Homepage · Source on GitHub