Nonparametric worst-case bounds for publication bias on the summary receiver operating characteristic curve¶

作者: Yi Zhou, Ao Huang, Satoshi Hattori
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是诊断试验荟萃分析中的发表偏倚敏感性分析。根本的科学问题是：当多个诊断试验研究（每个报告一对敏感度与特异度）被选择性发表时，基于这些已发表研究估计的汇总受试者工作特征（SROC）曲线及其曲线下面积（SAUC）会如何被扭曲？如何量化这种扭曲的最坏情况，从而评估结论的稳健性？当前成熟度属于方法学应用阶段——已有若干参数化敏感性分析方法，但非参数最坏情况界方法尚属空白。

发展脉络¶

奠基工作：SROC 曲线的提出与双变量建模
Reitsma et al. (2005) 奠定了诊断试验荟萃分析的标准方法：用双变量随机效应模型联合建模敏感度与特异度（的对数几率变换），从而导出 SROC 曲线。这是本文所有后续工作的统计模型基础。
主要进展：发表偏倚的检测与参数化校正
Deeks et al. (2005) 和 Bürkner & Doebler (2014) 研究了在诊断荟萃分析中检测发表偏倚的统计检验（漏斗图不对称性检验），发现线性回归和秩相关检验不可靠，而 trim-and-fill 与 lnDOR 的组合在足够多研究时表现尚可。这为后续敏感性分析提供了检测工具，但无法量化偏倚大小。
Piao et al. (2018) 首次将 Copas 选择模型从单变量结局扩展到双变量结局（敏感度与特异度对），用 EM 算法进行最大似然估计。这是参数化校正的开端，但依赖对选择函数形式的强假设。
Zhou et al. (2021) 进一步扩展了 Copas 的似然基敏感性分析，提出基于 t-统计量或 P-值的截止值依赖选择函数，在给定边际选择概率下约束似然最大化，从而估计 SROC 曲线或 SAUC。这是本文作者自己的前期工作，也是本文直接对标的参数化方法。
当前 frontier：利用外部信息与非参数化
Huang et al. (2020) 和 Huang et al. (2021) 提出利用临床试验注册库（已知已注册但未发表的研究）来估计选择函数参数，从而避免纯敏感性分析。这提供了更客观的校正，但依赖注册库数据的可用性。
Marks-Anglin et al. (2021) 将 Copas 模型扩展到网络荟萃分析，用 EM 算法实现稳定估计。
Zhou et al. (2023) 将 SROC 分析扩展到时间依赖的预后研究场景，并提出了相应的发表偏倚敏感性分析方法。
本文的位置：本文是上述脉络的自然延伸——在参数化选择函数方法（Zhou et al., 2021）的基础上，放弃对选择函数形式的参数假设，采用非参数选择函数，推导 SROC 曲线的最坏情况界。这是从“参数化敏感性分析”到“非参数最坏情况界”的方法学跳跃。

子线索聚类¶

参数化选择模型（Copas 型）：Piao et al. (2018), Zhou et al. (2021), Marks-Anglin et al. (2021), Zhou et al. (2023)。核心思路：假设选择概率是某个观测统计量（如 t-统计量）的已知函数（如 probit 或 logistic），通过似然或 EM 估计参数。优点：可给出点估计和置信区间。缺点：函数形式假设不可检验，误设会导致偏倚。
利用外部信息（注册库）：Huang et al. (2020), Huang et al. (2021)。核心思路：利用临床试验注册库中已知但未发表的研究信息，将发表偏倚视为缺失数据问题，用 IPW 或直接估计选择函数。优点：减少对选择函数形式的依赖。缺点：注册库数据往往不完整或不可得。
检测与描述性方法：Deeks et al. (2005), Bürkner & Doebler (2014)。核心思路：用漏斗图不对称性检验或 trim-and-fill 检测发表偏倚的存在。优点：简单、可视化。缺点：无法量化偏倚大小，检验效力有限。
非参数最坏情况界（本文）：本文属于此簇。核心思路：不对选择函数做参数假设，只约束边际选择概率的范围，然后优化 SROC 曲线偏倚的最大最小值。优点：假设最弱，结论稳健。缺点：只给出界而非点估计，可能过于保守。

这个方向在追问的核心问题¶

识别问题：在选择性发表（缺失非随机，MNAR）下，SROC 曲线是否可识别？需要什么假设？
敏感性分析框架：如何量化发表偏倚对 SROC 曲线的影响，而不依赖对选择机制的强参数假设？
计算可行性：当选择函数是非参数时，如何有效计算最坏情况界？
与现有方法的比较：非参数界是否比参数化敏感性分析提供更多信息？在什么条件下更优？

当前主流方法：参数化 Copas 选择模型（Zhou et al., 2021）是主流，但面临函数形式误设风险。已知瓶颈：缺乏对选择函数形式的稳健性检验，且参数化方法在边际选择概率接近 1 时可能不稳定。

⚠️ 作者的 framing¶

作者将缺口 frame 成：“现有方法都利用参数化选择函数来建模选择性发表机制”（引言第 2 段）。因此，本文的“显然的下一步”是放弃参数假设，采用非参数选择函数，推导最坏情况界。作者淡化了以下竞争路线： - 利用注册库信息的方法（Huang et al., 2020, 2021）：作者仅在引言末尾提及“当注册库信息可用时，可将其纳入”，但未深入讨论其与本文方法的互补性或比较。 - 贝叶斯方法：未在引言中提及，可能因为贝叶斯方法也需要对选择函数指定先验，本质上仍是参数化。

什么明显该被引/该存在、却没出现在 intro 里？ - 关于非参数识别的文献：在缺失数据/因果推断中，非参数最坏情况界（如 Manski 界）有大量工作，但本文未引用。这可能是因为作者来自生物统计/荟萃分析领域，而非因果推断领域。值得研究者去查：Manski (1990) 的“Nonparametric bounds on treatment effects”及其在缺失数据中的应用，看是否与本文有更深层的联系。 - E-value：在流行病学敏感性分析中广泛使用的 E-value（VanderWeele & Ding, 2017）也未出现。这可能是因为 E-value 针对未测量混杂，而非发表偏倚，但两者在“最坏情况界”的哲学上有相通之处。

张力¶

未见明显对立引用。所有被引工作基本在同一个框架内（双变量正态模型 + 选择函数），只是假设强度和估计方法不同。一个潜在的张力是：参数化方法（Zhou et al., 2021）声称可以给出点估计和置信区间，而非参数界只能给出区间——但参数化方法的点估计依赖于不可检验的假设，而非参数界的区间在假设更弱的意义上更可信。作者在引言中未直接讨论这一张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - 下标 \(i = 1, \dots, n\)：第 \(i\) 个诊断试验研究。 - \(n\)：已发表（可观测）的研究数量。 - \(N\)：所有已进行的研究数量（包括未发表的），不可观测。 - \((\text{se}_i, \text{sp}_i)\)：第 \(i\) 个研究的真实敏感度与特异度。它们是潜在量（每个研究有其真实值，但受抽样误差影响）。 - \((x_i, y_i)\)：第 \(i\) 个研究的可观测数据。\(x_i = 1 - \text{sp}_i\)（假阳性率），\(y_i = \text{se}_i\)（真阳性率）。在双变量正态模型中，通常对 \((x_i, y_i)\) 做 logit 变换：\((\text{logit}(x_i), \text{logit}(y_i))\)。 - \((\hat{x}_i, \hat{y}_i)\)：第 \(i\) 个研究观测到的假阳性率与真阳性率（即从该研究样本中估计的）。它们是随机变量，围绕真实值 \((x_i, y_i)\) 有抽样误差。 - \(\boldsymbol{\theta} = (\mu_x, \mu_y, \sigma_x^2, \sigma_y^2, \rho)\)：双变量正态模型的参数。\(\mu_x, \mu_y\) 是 logit 变换后假阳性率和真阳性率的总体均值；\(\sigma_x^2, \sigma_y^2\) 是研究间方差；\(\rho\) 是研究间相关系数。 - \(S_i\)：第 \(i\) 个研究的发表状态（\(S_i = 1\) 表示发表，\(S_i = 0\) 表示未发表）。不可观测（我们只能看到已发表的研究，不知道未发表的研究是否存在）。 - \(p_i = P(S_i = 1 \mid \text{data}_i)\)：第 \(i\) 个研究的选择概率，依赖于该研究的结果（如 \((\hat{x}_i, \hat{y}_i)\) 及其标准误）。这是选择函数的核心。 - \(\pi = E[p_i]\)：边际选择概率，即所有研究中被发表的比例。不可观测，是敏感性分析的关键参数。 - \(B(\boldsymbol{\theta})\)：SROC 曲线上的偏倚（bias），定义为基于已发表研究的估计值与基于所有研究的真实值之差。这是本文要 bound 的对象。 - \(\text{SAUC}\)：SROC 曲线下面积。

模型： - 双变量正态模型（Reitsma et al., 2005）：假设 logit 变换后的 \((\text{logit}(x_i), \text{logit}(y_i))\) 在研究间服从二元正态分布：

\[\begin{pmatrix} \text{logit}(x_i) \\ \text{logit}(y_i) \end{pmatrix} \sim N\left( \begin{pmatrix} \mu_x \\ \mu_y \end{pmatrix}, \begin{pmatrix} \sigma_x^2 & \rho\sigma_x\sigma_y \\ \rho\sigma_x\sigma_y & \sigma_y^2 \end{pmatrix} \right)\]

这是随机效应模型，捕捉研究间的异质性。 - 选择模型：发表状态 \(S_i\) 依赖于研究结果。本文假设选择函数 \(p_i = P(S_i = 1 \mid \text{data}_i)\) 是非参数的，即只假设它是某个未知函数，不指定其形式。唯一约束是边际选择概率 \(\pi\) 在某个范围内（如 \([0.5, 1]\)）。 - 可观测数据：我们只能观测到已发表的研究 \(\{(\hat{x}_i, \hat{y}_i, \text{se}(\hat{x}_i), \text{se}(\hat{y}_i)) : S_i = 1\}\)。不可观测的是：未发表的研究（其数据完全缺失）、选择函数 \(p_i\) 的具体形式、边际选择概率 \(\pi\)、以及所有研究的真实参数 \(\boldsymbol{\theta}\)。

关键识别问题：在 MNAR 下，仅凭已发表数据无法唯一识别 \(\boldsymbol{\theta}\)。本文不试图点识别，而是推导 \(\boldsymbol{\theta}\) 或 SROC 曲线在给定 \(\pi\) 范围下的最坏情况界。

第二步：讲最小内核¶

最简特例：假设只有 \(n=2\) 个已发表研究，且我们只关心 SROC 曲线上的一个点（比如假阳性率 \(x=0.2\) 对应的真阳性率 \(y\)）。进一步假设： - 所有研究有相同的标准误（即 \(\text{se}(\hat{x}_i) = \text{se}(\hat{y}_i) = \sigma\) 已知）。 - 选择函数只依赖于 \(y_i\)（真阳性率），且是单调的：\(p_i = f(y_i)\)，\(f\) 是未知的递增函数（越“好”的结果越可能发表）。 - 边际选择概率 \(\pi\) 已知为 0.7（即 70% 的研究被发表）。

问题：给定已发表的两个研究的 \((x_i, y_i)\) 观测值，以及 \(\pi=0.7\)，SROC 曲线上 \(x=0.2\) 处的 \(y\) 值可能被高估多少？低估多少？

核心思路： 1. 反事实推理：已发表研究的 \(y_i\) 倾向于偏高（因为 \(f\) 递增）。如果我们知道未发表研究的 \(y_i\) 分布，就能校正偏倚。但我们不知道。 2. 最坏情况界：在约束“选择函数是递增的且边际选择概率为 0.7”下，未发表研究的 \(y_i\) 可以取哪些值？最坏情况（使 SROC 曲线偏倚最大或最小）对应未发表研究的 \(y_i\) 全部取极值（全部非常低或全部非常高）。 3. 优化：将问题转化为一个非线性规划：在约束（a）选择函数单调递增，（b）边际选择概率 = 0.7，（c）已发表数据固定下，最大化/最小化 SROC 曲线上的 \(y\) 值。这个优化问题的解就是最坏情况界。

为什么成立：因为选择函数是非参数的，唯一约束是单调性和边际概率，所以未发表研究的分布可以任意“坏”。最坏情况界就是在这个约束下能达到的极值。这个界是紧的（sharp），即存在某个满足约束的选择函数使得界达到。

一般化：在实际中，\(n\) 很大，SROC 曲线是连续函数，选择函数可能依赖于多个变量（如 \(x_i\) 和 \(y_i\) 及其标准误），且 \(\pi\) 未知（需在某个范围内变化）。但核心数学困难不变：在非参数选择函数和边际概率约束下，优化 SROC 曲线上的偏倚。本文的关键想法是：用蒙特卡洛方法近似偏倚，然后用非线性规划求解优化问题。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在诊断试验荟萃分析中，当选择性发表机制未知（非参数选择函数）时，如何推导 SROC 曲线及其曲线下面积（SAUC）的最坏情况界，以评估发表偏倚对结论稳健性的影响。
核心工具/方法：采用非参数选择函数（仅假设选择概率是研究结果的未知函数），结合蒙特卡洛近似（模拟已发表研究的偏倚分布）和非线性规划（在边际选择概率约束下优化偏倚的最大最小值）。
主要结论：在最小假设下，可以给出 SROC 曲线和 SAUC 的最坏情况界，该界随边际选择概率 \(\pi\) 的降低而变宽（即不确定性增大）。应用于两个真实荟萃分析，展示了该方法如何揭示结论的稳健性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

双变量正态模型（假设 1）：\(\text{logit}(x_i), \text{logit}(y_i)\) 在研究间服从二元正态分布，参数 \(\boldsymbol{\theta} = (\mu_x, \mu_y, \sigma_x^2, \sigma_y^2, \rho)\)。这是标准假设，与 Reitsma et al. (2005) 一致。
选择函数（假设 2）：发表概率 \(p_i = P(S_i = 1 \mid \text{data}_i)\) 是研究结果 \((\hat{x}_i, \hat{y}_i)\) 及其标准误的未知函数。本文不指定其形式，只假设它满足：
(a) \(0 < p_i < 1\)（每个研究都有非零发表概率）；
(b) 边际选择概率 \(\pi = E[p_i]\) 在某个已知区间内（如 \([0.5, 1]\)），这是敏感性分析参数。
可忽略的抽样误差（近似假设）：在蒙特卡洛近似中，假设每个研究的 \((\hat{x}_i, \hat{y}_i)\) 的抽样分布已知（如基于该研究样本量的大样本正态近似），但本文方法不要求精确分布。
与已有文献的对比：相比 Zhou et al. (2021) 的参数化选择函数（如 probit 形式），本文放宽了对选择函数形式的假设，但强化了对边际选择概率 \(\pi\) 的依赖（参数化方法中 \(\pi\) 是估计的副产品，本文中 \(\pi\) 是敏感性分析的输入参数）。

主要结果¶

本文是应用/方法型论文，主要结果包括方法框架和两个真实数据例子。没有理论定理。

方法框架（第 2-3 节）： 1. 偏倚定义：令 \(\hat{\boldsymbol{\theta}}_{\text{obs}}\) 为基于已发表研究的 ML 估计，\(\boldsymbol{\theta}_{\text{true}}\) 为所有研究的真实参数。SROC 曲线上的偏倚定义为 \(B(\boldsymbol{\theta}) = \text{SROC}(x; \hat{\boldsymbol{\theta}}_{\text{obs}}) - \text{SROC}(x; \boldsymbol{\theta}_{\text{true}})\)。类似定义 SAUC 的偏倚。 2. 蒙特卡洛近似：由于 \(\boldsymbol{\theta}_{\text{true}}\) 未知，无法直接计算 \(B(\boldsymbol{\theta})\)。本文提出用蒙特卡洛方法模拟：在给定 \(\pi\) 和选择函数形式（非参数）下，生成大量“可能”的未发表研究，然后计算偏倚的分布。具体地： - 从已发表数据估计 \(\hat{\boldsymbol{\theta}}_{\text{obs}}\)。 - 假设一个候选的选择函数（满足非参数约束），生成未发表研究的 \((\hat{x}_i, \hat{y}_i)\)。 - 用所有研究（已发表 + 模拟的未发表）重新估计 \(\boldsymbol{\theta}\)，计算偏倚。 - 重复多次，得到偏倚的近似分布。 3. 非线性规划：为了找到最坏情况界，需要优化选择函数（在非参数约束下）使得偏倚最大或最小。本文将其转化为一个非线性规划问题： - 目标函数：偏倚 \(B(\boldsymbol{\theta})\)（或 SAUC 的偏倚）。 - 决策变量：选择函数 \(p_i\) 在有限个点上的值（通过离散化近似）。 - 约束：边际选择概率 \(\pi\) 固定；\(p_i\) 在 \([0,1]\) 内；选择函数单调性（可选，取决于设定）。 - 用标准非线性规划求解器（如梯度下降）求解。

真实例子（第 4 节）： - 例子 1：关于快速流感诊断测试的荟萃分析（17 个研究）。本文展示了在不同 \(\pi\) 值（0.7, 0.8, 0.9, 1.0）下的 SROC 曲线最坏情况界。结果：当 \(\pi=1.0\)（无发表偏倚）时，SROC 曲线是唯一的；当 \(\pi=0.7\) 时，最坏情况界很宽，表明结论对发表偏倚敏感。SAUC 的界也类似。 - 例子 2：关于超声诊断阑尾炎的荟萃分析（14 个研究）。类似分析，展示了最坏情况界如何随 \(\pi\) 变化。 - 这些例子想说明什么：验证了方法的可行性（能在真实数据上运行），并展示了最坏情况界如何为荟萃分析结论的稳健性提供直观信息。例如，如果 SAUC 的最坏情况界下限仍高于某个临床阈值，则结论相对稳健；否则需谨慎。

证明路线与技术技巧¶

本文是应用型，没有严格的数学证明。技术路线如下：

整体路线（3 步）：
Step 1：从已发表数据估计双变量正态模型的参数 \(\hat{\boldsymbol{\theta}}_{\text{obs}}\)，并计算 SROC 曲线和 SAUC。
Step 2：对给定的边际选择概率 \(\pi\)，用蒙特卡洛方法模拟“可能”的未发表研究。这需要假设一个选择函数形式（非参数，但需离散化）。具体地，将选择函数参数化为有限个点上的值（如将 \((\hat{x}_i, \hat{y}_i)\) 空间划分为网格，每个网格点对应一个选择概率）。
Step 3：用非线性规划优化选择函数的参数（网格点上的选择概率），使得 SROC 曲线或 SAUC 的偏倚最大/最小。约束包括：边际选择概率 = \(\pi\)，选择概率在 \([0,1]\) 内，以及可选的单调性约束。
关键跳跃点：最吃功夫的部分是如何将非参数选择函数离散化并纳入优化框架。作者的做法是：将 \((\hat{x}_i, \hat{y}_i)\) 空间离散化为 \(K\) 个网格点，每个网格点 \(k\) 对应一个选择概率 \(p_k\)。然后，边际选择概率 \(\pi = \sum_{k} w_k p_k\)，其中 \(w_k\) 是网格点 \(k\) 的权重（基于所有研究的分布）。这样，优化问题就变成了一个有限维的非线性规划。难点在于网格划分的粗细（\(K\) 的大小）会影响计算精度和速度，且需要保证离散化后的选择函数能近似任意连续函数。
技术技巧点名：
蒙特卡洛方法：用于近似偏倚的分布，避免解析推导。
非线性规划：用于求解最坏情况界，是核心计算工具。
离散化：将无限维的非参数选择函数问题转化为有限维优化问题。

真实例子与应用¶

已在上文“主要结果”中详细描述。本文为应用型，两个真实数据例子是核心贡献的一部分。

🔎 结论是否比证明窄¶

是。本文的结论（最坏情况界）依赖于离散化近似和蒙特卡洛模拟，而非严格的数学证明。作者在文中明确承认了这一点（第 3 节末尾：“The proposed method relies on Monte Carlo approximation and nonlinear programming, and thus the bounds are approximate rather than exact.”）。此外，最坏情况界的“紧性”（sharpness）也未严格证明——作者仅声称在离散化足够细时界是紧的，但未给出收敛率或误差界。值得研究者去查：作者是否在附录中提供了模拟研究来验证离散化精度？如果未提供，这是一个潜在的弱点。

四、开放问题¶

最坏情况界的紧性：本文的界依赖于离散化近似，其误差是否可控？能否给出离散化网格大小与界精度之间的理论关系？（扎根于第 3 节末尾的“approximate rather than exact”声明）
单调性约束的合理性：本文假设选择函数是单调的（越“好”的结果越可能发表），但在某些场景下（如发表“阴性”结果也有价值），单调性可能不成立。能否放松单调性约束，或检验其敏感性？（扎根于第 2 节对选择函数的讨论）
与参数化方法的比较：本文的非参数界与 Zhou et al. (2021) 的参数化敏感性分析相比，在什么条件下更窄或更宽？能否设计一个模拟研究来系统比较两者的表现？（扎根于引言中“all these methods utilize parametric selection functions”的对比）
扩展到更复杂的荟萃分析：本文方法能否扩展到网络荟萃分析（如 Marks-Anglin et al., 2021）或预后研究（如 Zhou et al., 2023）？非参数选择函数在这些更复杂设定下的计算可行性如何？（扎根于未来工作部分）

Maintained by 陈星宇 · Homepage · Source on GitHub