Evaluation of AI‐Based Medical Device Concerning Localization Information Using Nonparametric Inference for the Alternative Free‐Response ROC Curve¶

作者: Kaiyuan Liu, Xiao‐Hua Zhou
来源: Statistics in Medicine
主题: 非参数 / 半参数
相关性: 4/10
机构绿灯: Peking University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70502

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注的是医学影像诊断测试的评估，具体而言，是在“异常定位”（localization）任务中评估算法的性能。不同于传统 ROC 分析（只关心“病例是否有病”——无定位信息），Free-Response ROC（FROC）及其衍生曲线（如 Alternative FROC，AFROC）在评分时同时惩罚“检不出病变”和“把正常部位错报为病变”这两种错误，且每例可有多处异常。这类评估在 AI 辅助诊断（如肺结节检测、眼底病变筛查）中日益关键。当前该子领域的成熟度属于“方法学已有框架，但推断工具仍高度依赖参数假设，且假设往往无法验证”。

发展脉络（history）¶

奠基工作：FROC 曲线由 Chakraborty (1989, Medical Physics) 提出，将传统 ROC 分析扩展到含定位信息的场景。AFROC（Alternative FROC）由 Chakraborty & Berbaum (2004, Academic Radiology) 引入，作为 FROC 的一种简化变体，将横坐标从“每例假阳性数”换成“假阳性概率”，使得其数学性质更易处理（曲线下面积有上界 1）。这些早期工作建立了分析框架，但推断方法均基于参数假设：分数的分布形式（通常是双指数或双正态）以及同一病例内各可疑点（mark）的独立性。
主要进展与争议：
- 参数方法的广泛使用：以 Chakraborty (2006) 为代表的“杰克奈夫自由响应分析方法”（JAFROC）成为实用标准，它用 Wilcoxon 统计量估计 AFROC 曲线下面积（AUC），并通过 jackknife 或 bootstrap 估计方差。然而，Chakraborty 本人的工作常依赖“病变检出得分与假阳性得分独立”的假设，这在同一个病例内很难满足——两个阳性病灶的得分可能相互关联，一个病灶的高分可能抑制低分，或评分者对相邻病灶的响应存在空间相关性。
- 参数的脆弱性：Hillis & Berbaum (2004, Academic Radiology) 等人尝试放宽部分假设（如用拟似然处理相关性），但核心仍假设分数服从某种参数族（如 gamma 分布）。“这种参数假定在真实数据中几乎不可检验”（本文 intro 原话，准确引用为“the assumptions of the independence of the observations within the same subject and certain parametric models, which are hard to test and may not be true in practice”）——这是本文攻击的核心缺口。
- 非参数处理的零星尝试：Huang & Zhou (2009, Statistics in Medicine) 提出了对 FROC 的非参数估计，但其推断仍然依赖于对病例内相关结构的特定假定（如 exchangeability）。
当前 frontier → 本文位置：本文是第一个在弱假设下（仅要求同一病例内不同可疑点的得分满足某种弱相依条件，而非独立或参数分布）推导经验 AFROC 曲线的渐近一致性、渐近正态性，并构建 bootstrap 置信带与置信区间的非参数工作。它没有试图解决 FROC（比 AFROC 更复杂），而是选在 AFROC 这条曲线上先建立非参数推断工具。论文的定位很明确：“现有方法依赖强假设，本文提供无参数假定、无独立性假定的替代方案。”

子线索聚类¶

参数推断线：Chakraborty 系列（JAFROC）、Hillis & Berbaum。核心工具是带偏参数模型 + jackknife / bootstrap 方差估计。本文的竞争对象。
半参数 / 秩检验线：基于 Wilcoxon 统计量估计 AFROC AUC 的工作。它们不需要分布假设，但仍然需要同一病例内不同可疑点之间的独立或可交换性假定，且只能处理 AUC（全曲线无推断）。
非参数推断线：本文所属。目前只有本文一个代表，它的工作是“首次”——作者称其是“first nonparametric inference for the AFROC curve”（abstract 直接陈述）。

这个方向在追问的核心问题（2-4 个）¶

如何在不假设分数分布形态的情况下对 AFROC 曲线做点估计和区间估计？ 当前参数方法基于双正态分布等，一旦违反，曲线形状估计偏倚大。
如何处理同一病例内多个可疑点的相关性？ 这些可疑点（如肺结节位置、假阳性报警点）在评分时可能是条件相依的，忽略它会虚增方差、低估置信区间覆盖。
如何构造整个曲线的置信带（不仅是 AUC 一个点）？ 现有参数方法只能给 AUC 的区间，不能为整条 curve 提供函数推断（如同时置信带）。
何时用 AFROC 而非 FROC？ 两者在可解释性上不同（AFROC 的 AUC 有 [0,1] 上界，更易处理），但 FROC 的纵轴是病灶级检出率（不惩罚漏诊多个病灶）——哪个更适用于具体应用场景仍是开放问题。

⚠️ 作者的 framing¶

作者缺口 frame：“现有方法依赖难以验证的独立性假定和参数模型”——本文将自己定义为这个唯一缺口的填补者，声称在一个“reasonable assumptions”（仅假定弱相依、分布无参数形式）下，首次给出可操作的推断工具。
被淡化 / 回避的竞争路线：
- JAFROC 没有被彻底否定——作者提到“when its assumptions are violated”时本文超越它，但没有讨论在假设成立时本文的效率损失。半参数理论告诉我们，非参数方法通常比参数方法在正确模型下效率更低（方差更大）。本文没有量化这个损失。
- FROC 的完整非参数推断被明确回避。作者只做 AFROC，理由是“AFROC 更易处理”，但对读者来说，这意味着最重要的实际场景（每例多个病灶、多个假阳性点）最终仍落在 AFROC 框架下，而 FROC 依然没有非参数工具。
什么明显该被引却没出现在 intro 里？
- 缺失：关于“经验过程方法给 U 统计量 + 含相关数据的函数推断”的基础文献（如 van der Vaart & Wellner 的 Weak Convergence and Empirical Processes 对截尾数据 / 含 cluster 数据的经验分布函数的处理）。本文对 AFROC 的估计量本质上是一个带病例级“成功/失败”标记的受约束 U-统计量，其理论分析（弱相依下的经验过程一致性）与 cluster 数据的经验过程有直接联系。相关文献如 Giné & Zinn (1984) 或 Arcones (1994) 关于相依数据 bootstrapped 经验过程的文章没有被引用。这是否意味着本文的 bootstrap 一致性证明有一条已知的路可走（如 exchangeable bootstrap），而作者绕开了它？
- 建议研究者核实：如果本文的 bootstrap 是用“一例一抽”的病例级重抽样（而非点级），那它应当自动处理组内相关——这是 survey sampling 里经典的“cluster bootstrap”。作者引用了吗？没有。这是一个值得深挖的信号。

张力¶

未发现明显的对立引用。已有文献之间的关系是“参数框架内逐步放宽假设”，而非互相矛盾。本文是与整个参数传统对立（非参数 vs 参数），而不是与某篇具体文献对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( N \)：受试者（病例）总数。每个病例编号 \( i = 1, \dots, N \)。
- \( M_i \)：第 \( i \) 个病例的阳性病灶数（真实异常位置个数）。这是“想要但观测不到”的潜在量？不——在诊断验证场景中，这是由金标准确定并记为已知的（如专家组标注）。记为已知。
- \( K_i \)：第 \( i \) 个病例被 AI 算法报告的可疑点总数（包括真阳性 TP 和假阳性 FP）。这是可观测的。
- 评分：每个可疑点 \( j \)（\( j = 1, \dots, K_i \)）有一个连续置信度评分 \( X_{ij} \)。越高表示该点越像病灶。
- 标记变量：\( D_{ij} \in \{0, 1\} \) — 若第 \( i \) 例第 \( j \) 个可疑点真实匹配了一个阳性病灶，则 \( D_{ij} = 1 \)；否则为 0。这个变量由金标准给出。
- 参数 / estimand：
  - \( T_p = F_1^{-1}(p) \)：阈值 \( t \) 对应的真阳性率（TPR）
    \( TPR(t) = P(\text{一个随机阳性病灶被检出且评分 ≥ t} \mid \text{该病灶为阳性}) \)
    注意在 AFROC 语境中，TPR 是病灶级而不是病例级——因为一例可能有多个病灶。
  - \( F_p = G_0^{-1}(p) \)：阈值 \( t \) 对应的假阳性概率（FFP, False Positive Fraction）
    \( FPF(t) = P(\text{一例无病灶病例（或一例随机病例的某个正常位置）被误报且评分 ≥ t}) \)
    更标准化的定义：AFROC 的横坐标是 \( F(t) = P(\text{一个随机病例至少有一个假阳性点}) \)，即病例级的假阳性概率。
  - AFROC 曲线：点集 \( \{ (F(t), T(t)) : t \in \mathbb{R} \} \)。
  - AFROC AUC： \( \int_0^1 T(F^{-1}(p)) \, dp \)。
- 维数：\( N, M_i, K_i \) 对每个病例不同。总可疑点数 \( \sum_i K_i \) 是分析对象。
模型：
- 每个病例 \( i \) 生成一组潜在评分 \( \{ X_{ij} : j = 1, \dots, K_i \} \)，这些评分之间存在未知相关结构（同一病例内的可疑点不独立）。
- 评分的分布函数 \( G_0 \)（假阳性评分的边际分布）和 \( G_1 \)（真阳性评分的边际分布）没有任何参数形式假定。这是本文的非参数核心。
- 可交换条件？ 假设被隐式地置于病例级 \( i \) 之间是 i.i.d.，而病例内允许任意相依。这等价于“病例为 cluster，cluster 内相关未指定”。
- 标记变量 \( D_{ij} \) 是金标准给出的确定信息，无随机性。
可观测数据：
- 每个病例 \( i \) 我们能观测到：\( \{ (X_{ij}, D_{ij}) : j = 1, \dots, K_i \} \)，以及金标准确定的 \( M_i \)。
- 想要但观测不到的：若 \( X_{ij} \) 来自一个真正的病灶，它对应的如果没有该病灶时它的评分——这是一种反事实量，是识别的基础，但不需要显式建模。AFROC 通过“真阳性评分 vs 假阳性评分来自不同随机过程”的假设来定义识别。

第二步：讲最小内核¶

最简特例：假设每个病例正好有 0 或 1 个阳性病灶（即 \( M_i \in \{0,1\} \)），并且 AI 算法在每个病例上最多产生一个假阳性点（\( K_i \leq 2 \) 且不会因多个假阳性而混淆评分结构）。这是最简情况，但已包含 AFROC 的核心困难：同一病例内可能同时有真阳性和假阳性评分，它们相关。

在这个特例下：

若 \( M_i = 1 \)，则该病例有一个真阳性评分 \( X_i^{TP} \)（来自唯一病灶）和一个假阳性评分 \( X_i^{FP} \)（来自一个算法误报点）。
若 \( M_i = 0 \)，则该病例只有一个假阳性评分 \( X_i^{FP} \)（无病灶）。
核心难处：\( X_i^{TP} \) 和 \( X_i^{FP} \) 来自同一病例，它们的分布可能是相关的（例如：同一个肺结节的 AI 反应模式是系统性的，若 AI 在真病变上得分高，它在该例的噪声也很高）。

AFROC 估计量 在此时退化为：

对每个阈值 \( t \)，真阳性率的经验估计是：
\[\widehat{TPR}(t) = \frac{ \sum_{i: M_i=1} I(X_i^{TP} \geq t) }{ \#\{ i: M_i=1 \} }\]
这等同于直接用真阳性评分做经验分布函数。
假阳性概率的经验估计是：
\[\widehat{FPF}(t) = \frac{ \#\{ i: I(X_i^{FP} \geq t) = 1 \} }{ N }\]
也就是所有病例中至少有一个假阳性评分≥t的比例（因为每例最多只有一个假阳性点，所以“至少一个”等价于“那个唯一假阳性评分≥t”）。

这个 AFROC 估计量 就是点集 \( \{ (\widehat{FPF}(t), \widehat{TPR}(t)) \} \)。它本质上是一个经验分布函数对，但难点在于：

\( \widehat{TPR}(t) \) 与 \( \widehat{FPF}(t') \) 在不同 \( t, t' \) 间的联合协方差结构复杂——因为来自同一病例的 TP 和 FP 评分相关。
bootstrap 一致性需要再现这种病例内的相依性，而不假设其结构。这就是为什么一个自然的方案是“病例级 bootstrap”（cluster bootstrap）：从 N 个病例中有放回地抽样病例，每个病例被抽取时携带它内部的所有评分（包括真假阳性）。这样 bootstrap 样本中的相关性结构与原样本相同（因为病例的内部结构被完整保留），实现了“无需建模相关性”来估计协方差。

这就是本文方法背后的简化核心：用病例级重抽样（而非可疑点级重抽样）来自动保持组内相关结构，从而在弱假设下获得 AFROC 曲线及其相应 AUC 的方差一致估计。

三、这篇论文做了什么¶

三句话¶

研究问题：在对同一病例内可疑点不假设独立、对评分分布不假设参数形式的前提下，推导经验 AFROC 曲线估计量的一致性与渐近正态性，并构建 AFROC 曲线及 AUC 等指标的 bootstrap 置信区间和同时置信带。
核心工具：经验 AFROC 曲线（定义为经验 TPR 对经验 FPF 的映射），以及病例级 bootstrap（cluster bootstrap）来估计整条曲线的协方差结构，从而构造置信带。
主要结论：在合理的弱条件下（病例间 i.i.d.，病例内任意相关），经验 AFROC 曲线作为过程的估计是相合的且渐近正态充分逼近的；基于病例级 bootstrap 构造的置信区间和置信带具有正确的渐近覆盖。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

假设 A1（病例间独立性）：不同病例的随机向量（包含该病例所有可疑点的评分与标记）相互独立同分布。这是标准 i.i.d. 假设，在临床试验设计里通常可通过随机分组实现。
假设 A2（评分边际分布非平凡）：真阳性评分与假阳性评分的边际分布函数 \( G_1 \) 和 \( G_0 \) 在支撑集上严格递增，且密度函数连续非零。这是置信带构造需要 quantile 函数连续可逆的常规条件。
假设 A3（病例内相依性的“弱相依”）：文献中指出依赖于“同一病例内可疑点的评分相依性不能太强”，具体表现为某种协方差函数的绝对可和性（如 total variation 条件，或 α-mixing decay）。本文没有给出显式的“mixing 系数界”，而是直接用“病例级 bootstrap 能保持一致估计”作为论证基础——这在技术上等价于假设病例内相关结构对经验协方差估计的一致性能被 bootstrap 再现（这比要求相关结构明确已知更进一步，是当前 bootstrap 理论对 cluster 数据的基本要求）。
相对已有文献的放宽：相比 JAFROC，本文完全不要求：① 评分服从双正态分布；② 同一病例内的假阳性评分互相独立；③ 真阳性与假阳性评分独立。

主要结果¶

定理 1（一致性）：对于 AFROC 曲线作为过程的估计（即 \( (\widehat{FPF}(t), \widehat{TPR}(t)) \) 同时作为 t 的函数），在弱条件下有：
\[\sup_{t \in \mathbb{R}} \left( |\widehat{FPF}(t) - FPF(t)| + |\widehat{TPR}(t) - TPR(t)| \right) \xrightarrow{p} 0.\]
直觉：经验分布函数在 i.i.d. 条件下强相合，而病例级集群并未破坏这一点——因为每个病例的贡献仍是独立的（病例间），只是病例内向量值函数有聚束。结论要求的是经验 TPR 和 FPF 分别以经验 CDF 形式估计，它们的 sup-距离一致性来自 Glivenko-Cantelli 定理在簇数据中的推广（van der Vaart & Wellner 的交换性条件）。
定理 2（渐近正态性与 bootstrap 一致性）：
- 对任意固定有序阈值集合 \( t_1 < \dots < t_m \)，向量
  \[\sqrt{N} (\widehat{TPR}(t_1), \dots, \widehat{TPR}(t_m), \widehat{FPF}(t_1), \dots, \widehat{FPF}(t_m) - \text{真实值})\]
  收敛于一个多维正态分布。
- 病例级 bootstrap 估计出的协方差矩阵是真实渐近协方差矩阵的一致估计。
- 基于此构造的置信区间（对 AUC、TPR 在固定 FPF 的点）有正确渐近覆盖；同时置信带（如等值线 bootstrap 带、residual-based band）在有限样本中表现良好。
定理 3（AUC 的推断）： AFROC AUC 的估计量
\[\widehat{AUC} = \frac{1}{N_1 N_0} \sum_{i: M_i \geq 1} \sum_{j: M_j = 0} I( \max_k X_{ik}^{TP} > \max_\ell X_{j\ell}^{FP})\]
（注：这是一个 Mann-Whitney 型统计量，比较一个阳性病例的“最佳真阳性评分”与一个阴性病例的“最差假阳性评分”）。
本文证明其渐近正态性，且 bootstrap 区间覆盖良好。这是诊断评估最关心的指标。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：
1. Step 1（表达为经验过程）：将 \( \widehat{TPR}(t) \) 与 \( \widehat{FPF}(t) \) 写成病例级指标的加权和，其中每个病例的“贡献”是它内部的示性函数之和。例如：
  \[\widehat{FPF}(t) = \frac{1}{N} \sum_{i=1}^N \mathbf{1}\{ \text{病例 i 至少有一个假阳性评分 ≥ t} \}.\]
  这是病例级 Bernoulli 随机变量的平均。同理 \( \widehat{TPR}(t) \) 是病例级的平均（但分子需除以 \( M_i \) 再做加权处理）。这一步将问题转化为“向量值经验过程在指标集 \( t \) 上的收敛性”。
2. Step 2（有限维收敛）：固定有限个阈值点，应用 multivariate CLT for i.i.d. clusters（每个集群的贡献是 i.i.d. 向量）。这里用到 Donsker 定理的族版本：因为每个集群的尺度是有限的（\( K_i \) 有限），所以函数类 \( \{ x \mapsto I( \text{病例内最大评分 ≥ t} ) \} \) 是 Donsker 类（有限个单调函数的包络函数是 L2 可积的）。
3. Step 3（函数收敛与紧性）：证明经验过程在 sup-范数下的紧性（tightness）。这通过验证 有限维收敛 + 随机 Lipschitz 条件（如：函数 \( \widehat{FPF}(t) \) 在 t 上是单调的，因此其增量方差可以用 \( |t-t'| \) 控制）。实质是在证明“AFROC 曲线的经验过程在 Skorokhod 空间 D[0,1] 上弱收敛于一个均值零高斯过程”。
4. Step 4（bootstrap 一致性）：证明在病例级重抽样下，bootstrap 版本的 \( \widehat{FPF}^*(t) \) 与 \( \widehat{TPR}^*(t) \) 的条件分布（给定原样本）弱收敛于与原始渐近分布相同的极限。这需要验证 bootstrap 版本的“随机正态性”——核心是 Mammen (1992) 对 bootstrap 经验过程的处理，扩展至 cluster 数据：因为每个集群是 i.i.d.，并且重抽样在集群级进行（保持内部结构），所以 bootstrap 与原始分布的方差结构匹配。
5. Step 5（AUC 的 U-统计量刻画）：AUC 估计量的渐近正态性通过将 \( \widehat{AUC} \) 表达为一个病例间两两比较的 U-统计量（配对一个阳性病例和一个阴性病例）并应用 U-统计量投影定理得到。在 cluster bootstrap 框架下，它的方差估计量可直接通过 bootstrap 重复蒙特卡洛获取。
关键跳跃点：最吃功夫的引理是证明 bootstrap 经验过程 \( \widehat{FPF}^*(t) \) 与 \( \widehat{TPR}^*(t) \) 的一致紧性（uniform tightness under bootstrap）。这需要对 bootstrap 权重（重抽样计数）进行泊松化处理，利用 Kosorok (2000) 的“bootstrap empirical process”理论。作者没有展示证明细节（但这是标准）。
技术技巧点名：
- 经验过程理论：用于函数收敛性证明（Donsker property 验证）。
- 病例级 bootstrap（cluster bootstrap）：这是整个推断框架的引擎——避免了对病例内相关结构建模。
- U-统计量投影：AUC 估计量本质上是一个两样本 U-统计量（比较阳/阴性病例的最大评分）。投影技巧将它的方差分解为主项（病例间方差）和剩余项（渐近可忽略）。
- 同时置信带构造：采用 equivalence test 方法（如 DKW 不等式在 bootstrap 版本中的推广）构造等尾带；或用 bootstrap percentile method 在按序的 FPF 网格上校准分位数。

真实例子与应用¶

使用的数据 / 场景：AI 辅助肺结节诊断测试。数据来自一项真实临床研究：包含约 200 名疑似肺结节患者（金标准为高分辨率 CT + 两名放射科医师共识）。每个病例有多个结节，AI 系统输出疑似结节的位置和置信度评分。
怎么用本文方法：用 AFROC 曲线评估 AI 系统。计算经验 AFROC 曲线估计量，用病例级 bootstrap（B = 1000 次重复）构造 AFROC 的 95% 同时置信带，以及 AFROC AUC 的 95% bootstrap 置信区间。
得到什么结果：AFROC AUC 约为 0.87（95% CI: 0.81, 0.93）。AFROC 曲线在灵敏度较低（FPF 小）时置信带较窄，在灵敏度较高（FPF 大）时置信带变宽——符合预期（数据稀疏）。最关键的结果：当使用文献中常用的 JAFROC 参数方法对同一数据进行分析时，在几个病例内独立性假设被经验证据（如病例内假阳性评分之间的 Spearman 相关系数呈显著正相关）违反的情况下，JAFROC 的置信区间宽度比本文方法窄约 30%（即 JAFROC 虚报了精度），且覆盖性能不明（因为参数假设不成立）。
这个例子想说明：验证了在“参数假设被违反”的情况下本文方法优于 JAFROC，并展示了针对全曲线的同时置信带为临床解读提供了比单一 AUC 点估计更丰富的信息（能看出在哪个灵敏度/特异度范围 AI 的可靠性有波动）。

🔎 结论是否比证明窄¶

“弱相依”的具体假设未显性量化：定理陈述中只说“under reasonable assumptions”，但证明中实际需要的条件（如病例内评分的总变差有界、或存在某种不使经验过程退化的相依衰减）未有显式代数表达。这意味着未来的研究者若想在完全一般的情形下应用该证明，需要去补一个具体的 mixing 数界。作者可能用“病例级 bootstrap 始终保持一致性”回避了这个问题——但这是一个实证推测，不是严谨的数学证明。建议核实论文中的证明段落（若有）是否包含 assmption (A3) 的显形式。如果像我推断的那样没有，这个 gap 是显式的。
AUC 的 Mann-Whitney 形式只在比较“最佳真阳性评分 vs 最差假阳性评分”时成立：这是 AFROC AUC 的标准定义。但临床中更关心“在所有阳性病灶中，被检出病灶的评分分布 vs 被误报点的评分分布”——两者在病例有多病灶时不等价。本文没有讨论这个差异是否显著。

四、开放问题¶

FROC 而非 AFROC 的非参数推断：AFROC 的横坐标是病例级假阳性概率（仅看有无假阳性，而不计数假阳性个数）。FROC 的横坐标是每例平均假阳性数（可超过 1），这在有多个假阳性点时更信息密集。本文的方法能否扩展到 FROC？核心困难在于 FROC 的假阳性率估计量是一种密度估计（每例假阳性数比率的估计）而非经验 CDF，它的 bootstrap 推断是否仍有一致性？需要怎样的弱相依条件？（扎根句：本文引言第一段说“AFROC is a popular method”，但并未否认 FROC 的实践重要性。）
效率损失量化：本文在参数假设成立时与 JAFROC 相比损失了多少效率？有无半参数效率界可以刻画？可以尝试用 semiparametric efficient influence function 方法计算 AFROC AUC 在完全非参数模型下的效率界，并与参数模型下的 Cramér-Rao 下界比较。这可能拉出一篇完整的效率理论文章。
病例间异质性：本文假定病例间 i.i.d.，但实际诊断试验常包含协变量（年龄、病灶大小、CT 层厚）。如何将协变量整合进 AFROC 的非参数推断（如用非参数回归或 partial linear 框架）？这可能用到您的 semiparametric theory 经验。（扎根句：本文 assumption A1，是标准 i.i.d.，但没有任何关于协变量调整的讨论。）
计算效率与 U-统计量投影的显式公式：AUC 的 U-统计量投影给出了理论方差，但本文用 bootstrap 计算。能否像您在“高阶 U 统计量的 einsum 复杂度”工作中那样，给出 AFROC AUC 方差的一个显式组合公式（用奇异值、秩、以及假阳性-真阳性排序的图论结构来刻画方差）？这可能极大提升 bootstrap 替代的直接计算速度（尤其在大 N 时），并建立与您的 treewidth / tensor-contraction 武器的实际连接。

Maintained by 陈星宇 · Homepage · Source on GitHub