Copas‐Heckman‐Type Sensitivity Analysis for Publication Bias in Rare‐Event Meta‐Analysis Under Generalized Linear Mixed Models¶

作者: Yi Zhou, Taojun Hu, Yuji Sakamoto, Ao Huang, Xiao‐Hua Zhou et al.
来源: Statistics in Medicine
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在罕见事件（如某不良反应发生率极低）的 Meta-analysis 中，如何对发表偏倚进行敏感性分析与修正。当前该方向的成熟度处于“标准模型（Normal-Normal）下的方法已相对完备，但罕见事件下的精确模型（GLMM）刚刚起步”的阶段——已有大量基于 NN 模型的 Copas-Heckman 类方法，但它们在罕见事件数据上因正态近似失效而表现不佳；GLMM 虽在估计效应上更精确，但缺乏配套的 PB 修正框架。

发展脉络 - 奠基工作：Copas & Heckman (1990s) 提出了基于选择模型的 PB 敏感性分析框架，核心是引入一个潜在 Gaussian 变量刻画研究被发表的概率，并将该概率与真实效应及标准误挂钩。这一框架确立了“PB 是选择偏倚、可用潜变量建模”的范式。 - 主要进展（NN 模型下的扩展）：后续工作基本都在 NN 随机效应模型下打磨 Copas 框架。例如，Huang et al. (2020, 2021) 引入临床试验注册库数据，用逆概率加权（IPW）和 EM 算法估计 Copas 选择函数中的未知参数，减少了敏感性分析中参数人为扫描的随意性；Piao et al. (2018) 将 Copas 模型从单变量扩展到双变量（诊断试验的灵敏度与特异度）；Li et al. (2021) 用经验似然构建了 Copas 下的全似然推断，提升了估计效率。作者在 intro 中明确指出：“Almost all of these methods were developed based on the NN model or its multivariate versions.” - 当前 frontier（罕见事件下的 GLMM 估计）：罕见事件导致 2×2 表中出现零事件，NN 模型的正态近似失效。Jackson et al. (2018) 与 Jansen & Holling (2022) 系统比较了多种 GLMM（如超几何-正态模型、Beta-binomial 模型）在罕见事件下的表现，确认 GLMM 在点估计与区间估计上优于带 continuity correction 的两阶段 NN 方法。Xu et al. (2021) 进一步梳理了单阶段频繁ist框架下处理零事件的方法。然而，这些工作只关注“无 PB 时的效应估计”，未触及 PB 修正。 - 本文的位置：填补“GLMM 下缺乏 PB 修正方法”的缺口。作者引用 Hu et al. (2024)（同一团队的前作，基于 \(t\)-统计量选择函数在 GLMM 下做 PB 敏感性分析），指出前作仍依赖 continuity correction，而本文将经典 Copas-Heckman 的潜变量 Gaussian 选择机制迁移至 contrast-based GLMM，彻底避开 continuity correction。

子线索聚类 1. NN 模型下的 Copas-Heckman 类 PB 修正：Huang et al. (2020, 2021) 的 IPW/注册库方法、Piao et al. (2018) 的双变量扩展、Li et al. (2021) 的经验似然。这一簇在 NN 框架内已较完备，但无法直接用于罕见事件。 2. 罕见事件下的 GLMM 估计（无 PB 修正）：Jackson et al. (2018)、Jansen & Holling (2022)、Xu et al. (2021)、Mathes & Kuss (2021)。这一簇聚焦于超几何-正态、Beta-binomial、Poisson 随机效应等精确似然模型，确认了 GLMM 在罕见事件下的优势，但完全回避了 PB。 3. GLMM 下的 PB 敏感性分析（刚刚起步）：Hu et al. (2024) 提出基于 \(t\)-统计量选择函数的 GLMM PB 敏感性分析，但仍需 continuity correction；本文（Zhou et al. 2024）提出基于 Copas-Heckman 潜变量机制的 GLMM PB 敏感性分析，无需 continuity correction。

这个方向在追问的核心问题 1. 识别问题：在选择模型下，PB 的选择机制（哪些研究会被发表）与异质性（研究间真实效应的变异）纠缠在一起，如何在不引入外部信息（如注册库）时，通过敏感性分析而非点估计来呈现 PB 的影响范围？ 2. 模型适配问题：NN 模型在罕见事件下失效，GLMM 提供了精确的_within-study_似然，但如何在 GLMM 的非线性结构（logit/probit 链接函数、离散似然）中嵌入原本依赖线性正态结构的 Copas 潜变量选择机制？ 3. 计算与推断问题：GLMM 的似然本身已需数值积分（如 Adaptive Gauss-Hermite Quadrature），加入选择机制后联合似然更复杂，如何保证方法在标准软件（如 R metafor / lme4）上低计算成本实现？

⚠️ 作者的 framing - 作者把缺口 frame 成什么：作者将缺口定位为“罕见事件 GLMM 下缺乏 Copas-Heckman 类 PB 敏感性分析”，并强调本文方法“completely avoid the need for continuity corrections”且“can be easily implemented using standard software with low computational cost”。这让本文成为“NN 下 Copas 方法在 GLMM 下的自然且更优的推广”。 - 哪些竞争路线被他淡化或回避了：作者淡化了“利用外部数据（临床试验注册库）识别选择函数参数”的路线（Huang et al. 2020, 2021），仍走纯敏感性分析的路线（参数需人为扫描）。同时，作者回避了_arm-based_ GLMM（如 White et al. 2019 讨论的 AB vs CB 模型差异），只做_contrast-based_ GLMM，这意味着本文方法不直接适用于需要估计边际风险差等更广_estimands_的场景。 - 什么明显该被引 / 该存在、却没出现在 intro 里：半参数选择模型的理论工作（如 Scharfstein et al. 1999 在缺失数据下用半参数方法识别选择函数）未出现；因果推断中处理_selection bias_的敏感性分析框架（如 Rosenbaum 的边界方法）未出现。这值得研究者去查：本文的潜变量 Gaussian 假设是否是半参数框架的一个特例，能否放宽？

张力未见明显对立引用。被引工作之间是“互补与递进”关系：NN 下的方法承认自身在罕见事件下失效，GLMM 下的方法承认自身未处理 PB，本文试图合并两者优势。唯一潜在的张力在于：Hu et al. (2024) 用 \(t\)-统计量选择函数在 GLMM 下做 PB，本文用 Copas 潜变量选择机制在 GLMM 下做 PB——两者在同一设定下提出不同选择函数，模拟中谁更稳健尚未有定论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(K\)：纳入 Meta-analysis 的研究数量（样本量指标）。
\(i = 1, \dots, K\)：研究索引。
\(y_{i1}, y_{i0}\)：研究 \(i\) 中处理组与对照组的事件数（可观测的离散随机变量）。
\(n_{i1}, n_{i0}\)：研究 \(i\) 中处理组与对照组的总样本量（可观测的已知常数）。
\(\theta_i\)：研究 \(i\) 的真实效应大小（如真实 log odds ratio \(\log\frac{p_{i1}(1-p_{i0})}{p_{i0}(1-p_{i1})}\)），是潜在/不可观测的参数。
\(\mu\)：总体平均效应（\(\theta_i\) 的均值），是本文要估的_estimand_。
\(\tau^2\)：研究间异质性方差（\(\theta_i\) 的方差），是另一个_estimand_。
\(Z_i\)：潜在 Gaussian 选择变量（不可观测），决定研究 \(i\) 是否被发表。\(Z_i \sim N(\rho \cdot \text{some function of } \theta_i, 1 - \rho^2)\)，其中 \(\rho\) 是选择偏倚强度参数。
\(S_i\)：发表指示变量（可观测，\(S_i = 1\) 表示研究 \(i\) 被发表并纳入 Meta-analysis，\(S_i = 0\) 表示未发表/未纳入）。我们实际只观测到 \(S_i = 1\) 的研究。
模型：Within-study 层面，\(y_{i1}, y_{i0}\) 服从精确离散分布（如二项分布 \(y_{i1} \sim \text{Bin}(n_{i1}, p_{i1})\)，且 \(\text{logit}(p_{i1}) = \text{logit}(p_{i0}) + \theta_i\)），这是 GLMM 的核心；Between-study 层面，\(\theta_i \sim N(\mu, \tau^2)\)；Selection 层面，研究 \(i\) 被发表的概率 \(\Pr(S_i = 1 \mid \theta_i, n_{i1}, n_{i0}) = \Pr(Z_i > c_i \mid \theta_i, n_{i1}, n_{i0})\)，其中 \(c_i\) 是与样本量相关的阈值（如 \(c_i = -\text{some function of } n_{i1}, n_{i0}\)），\(Z_i\) 与 \(\theta_i\) 的联合分布为 Gaussian，相关系数为 \(\rho\)。
可观测数据：研究者实际只能观测到 \(\{ (y_{i1}, y_{i0}, n_{i1}, n_{i0}) : S_i = 1 \}\)，即被发表研究的效应数据与样本量。\(\theta_i, Z_i, S_i = 0\) 的研究均不可观测。PB 的本质是：\(S_i\) 依赖于 \(\theta_i\)（效应越显著，越可能发表），导致观测到的数据不再是 \(\theta_i\) 的代表性样本，从而 \(\mu\) 的标准估计（如 GLMM 的 MLE）有偏。

第二步：讲最小内核

剥掉所有一般性（多个 GLMM 家族、多参数敏感性扫描、一般链接函数），最小内核是：单个二项 GLMM（logit 链接）下，Copas 潜变量选择机制如何修正 PB 对 \(\mu\) 的估计。

在最简特例中： - Within-study：\(y_{i1} \sim \text{Bin}(n_{i1}, p_{i1})\)，\(\text{logit}(p_{i1}) = \alpha_i + \theta_i\)；\(y_{i0} \sim \text{Bin}(n_{i0}, p_{i0})\)，\(\text{logit}(p_{i0}) = \alpha_i\)。这里 \(\alpha_i\) 是研究特异性基线风险（对照组的 logit 风险），\(\theta_i\) 是 log odds ratio。 - Between-study：\(\theta_i \sim N(\mu, \tau^2)\)。 - Selection：引入 \(Z_i \sim N(0, 1)\)，且 \((\theta_i, Z_i)\) 联合 Gaussian，相关系数 \(\rho\)。发表规则为 \(S_i = 1\) 当且仅当 \(Z_i > -\gamma \cdot \sqrt{n_{i1} + n_{i0}}\)（\(\gamma > 0\) 控制发表门槛随样本量增大而降低）。

核心数学困难与破解： - 困难：在 NN 模型下，Copas 方法利用正态分布的线性可加性，将观测到的效应 \(\hat{\theta}_i\)（近似正态）与 \(Z_i\) 的联合分布写成条件正态，从而在给定 \(Z_i > c_i\) 下，\(\hat{\theta}_i\) 的条件分布仍是正态（只是均值被截断偏移），可用解析式修正。但在 GLMM 下，观测到的是 \(y_{i1}, y_{i0}\)（离散），\(\theta_i\) 是潜在正态，\(Z_i\) 也是潜在正态，三者构成“离散-连续-连续”的混合结构，\(\Pr(y_{i1}, y_{i0}, S_i = 1)\) 的联合似然没有解析式。 - 破解：本文的关键想法是，不直接对 \(\theta_i\) 与 \(Z_i\) 的联合分布建模，而是对 \(Z_i\) 与 \(\theta_i\) 的条件关系建模，然后在 GLMM 的随机效应分布中注入选择偏倚。具体地，将 \(\theta_i\) 分解为 \(\theta_i = \mu + \tau \cdot (\rho Z_i + \sqrt{1 - \rho^2} \epsilon_i)\)，其中 \(\epsilon_i \sim N(0, 1)\) 独立于 \(Z_i\)。在给定 \(Z_i > c_i\)（即 \(S_i = 1\)）下，\(\theta_i\) 的条件分布变为 \(N(\mu + \tau \rho \cdot E[Z_i \mid Z_i > c_i], \tau^2(1 - \rho^2) + \tau^2 \rho^2 \text{Var}(Z_i \mid Z_i > c_i))\)。这个条件分布仍是正态，但均值与方差都被选择机制扭曲了（均值偏移、方差缩小）。于是，GLMM 的_within-study_离散似然不变，只需将_between-study_的随机效应分布从 \(N(\mu, \tau^2)\) 替换为这个条件正态分布，即可在联合似然中自动包含 PB 的修正。这就是最小内核：通过将选择偏倚参数 \(\rho\) 吸收到随机效应的条件分布中，把 PB 修正问题转化为“带扭曲随机效应的 GLMM 估计问题”。

三、这篇论文做了什么¶

三句话 ①研究了罕见事件 Meta-analysis 中，在 contrast-based GLMM 框架下对发表偏倚进行敏感性分析的问题。 ②核心工具是将经典 Copas-Heckman 潜变量 Gaussian 选择机制嵌入 GLMM 的随机效应分布，通过条件正态分解将 PB 参数 \(\rho\) 吸收到随机效应的条件均值与方差中。 ③主要结论是：该方法无需 continuity correction，可通过标准软件（如 R lme4 / metafor）低计算成本实现，模拟与真实数据表明其在修正 PB 上优于基于 NN 模型的传统 Copas 方法与基于 \(t\)-统计量的 GLMM 方法。

关键设定与假设 在第二节最小记号基础上补全： - GLMM 家族：本文覆盖三种_contrast-based_ GLMM： 1. 1SBN 模型（单样本二项正态）：用于 odds ratio，\(y_{i1} \sim \text{Bin}(n_{i1}, p_{i1})\)，\(y_{i0} \sim \text{Bin}(n_{i0}, p_{i0})\)，\(\text{logit}(p_{i1}) = \alpha_i + \theta_i\)，\(\text{logit}(p_{i0}) = \alpha_i\)，\(\theta_i \sim N(\mu, \tau^2)\)。 2. SGBN 模型（超几何-正态）：用于 odds ratio，给定总事件数 \(y_i = y_{i1} + y_{i0}\)，\(y_{i1} \sim \text{Hypergeometric}(n_{i1}, n_{i0}, y_i)\)，\(\theta_i\) 定义为 log odds ratio，\(\theta_i \sim N(\mu, \tau^2)\)。 3. BB 模型（Beta-binomial）：用于 proportion，\(y_{i1} \sim \text{BB}(n_{i1}, \pi_i, \rho_i)\)，\(\text{logit}(\pi_i) = \mu\)，异质性通过 intra-class correlation \(\rho_i\) 或方差参数刻画。 - 选择机制假设（Copas-Heckman 型）： - 存在潜在 \(Z_i \sim N(0, 1)\)，\((\theta_i, Z_i)\) 联合 Gaussian，相关系数 \(\rho\)（\(\rho = 0\) 表示无 PB）。 - 发表指示 \(S_i = 1\) 当且仅当 \(Z_i > c_i\)，其中 \(c_i = -\gamma \cdot f(n_{i1}, n_{i0})\)（\(\gamma > 0\)，\(f\) 是样本量的某个单调增函数，如 \(\sqrt{n_{i1} + n_{i0}}\) 或 \(\sqrt{1/\tilde{\sigma}_i^2}\)，\(\tilde{\sigma}_i^2\) 是研究 \(i\) 的效应估计方差近似）。 - 统计含义：\(\rho > 0\) 表示效应越大的研究越可能被发表（选择性发表正向显著结果）；\(\gamma\) 越大表示发表门槛越低（大样本研究更容易发表）。这比 SUTVA / ignorability 更强：它假设 PB 机制可被一个单参数 \(\rho\) 与一个样本量函数 \(c_i\) 完全刻画，且选择只依赖 \(\theta_i\) 与样本量，不依赖其他协变量。 - 相比已有文献放宽或强化了什么：相比 NN 下的 Copas 方法，放宽了_within-study_正态假设（用精确离散似然）；相比 Hu et al. (2024) 的 \(t\)-统计量方法，放宽了对 continuity correction 的依赖（直接用离散似然）。但强化了对选择机制的 Gaussian 假设（\(Z_i\) 必须正态，\(\theta_i\) 与 \(Z_i\) 必须联合 Gaussian），这在因果推断的敏感性分析中是一个较强的参数化假设。

主要结果 - 定理/核心结果（无编号，陈述在 Section 3 & 4）： 1. 条件似然构造：在给定 \(S_i = 1\)（即 \(Z_i > c_i\)）下，研究 \(i\) 的联合似然为 \(\Pr(y_{i1}, y_{i0} \mid S_i = 1) = \int \Pr(y_{i1}, y_{i0} \mid \theta_i) \cdot f(\theta_i \mid Z_i > c_i) d\theta_i\)，其中 \(f(\theta_i \mid Z_i > c_i)\) 是截断条件正态（均值 \(\mu + \tau \rho \cdot \lambda(c_i)\)，方差 \(\tau^2(1 - \rho^2 \delta(c_i))\)，\(\lambda(c_i) = \phi(c_i)/\Phi(c_i)\) 是逆 Mills 比，\(\delta(c_i) = \lambda(c_i)(\lambda(c_i) - c_i)\)）。这个似然可用 Gauss-Hermite 数值积分计算。 2. 敏感性分析框架：由于 \(\rho\) 与 \(\gamma\) 不可仅从已发表数据识别（缺失 \(S_i = 0\) 的数据），本文采用 Copas 的敏感性分析路线：固定 \(\gamma\) 在一个范围内（如 \(\gamma \in [\gamma_{\min}, \gamma_{\max}]\)，对应“最少/最多发表”），对每个 \(\gamma\)，扫描 \(\rho\)（或通过边际似然估计 \(\rho\)），得到 \(\mu\) 的估计区间，呈现 PB 对 \(\mu\) 的影响范围。 3. 估计与推断：\(\mu, \tau^2, \alpha_i\) 等参数通过最大化上述条件似然（可用 lme4 的自适应 Gauss-Hermite 积分实现），标准误由 Fisher 信息矩阵给出。\(\rho\) 可作为敏感性参数扫描，也可在给定 \(\gamma\) 下通过边际似然（\(\Pr(S_i = 1 \mid n_{i1}, n_{i0})\) 部分）估计。 - 直觉：PB 导致观测到的 \(\theta_i\) 分布右偏（正向显著结果多），条件正态的均值偏移 \(\tau \rho \cdot \lambda(c_i)\) 正好刻画了这个偏移；修正后的 \(\mu\) 估计扣除了这个偏移。 - 必要条件：\(\theta_i\) 的正态假设、\(Z_i\) 的正态假设、\((\theta_i, Z_i)\) 的联合正态假设、\(c_i\) 仅依赖样本量的假设。 - 解决的技术难点：在 GLMM 的非线性离散似然中嵌入选择机制，避免了 NN 模型下对效应估计及其标准误的正态近似，从而在罕见事件（零事件）下无需 continuity correction。

证明路线与技术技巧 本文是方法型论文，核心推导是条件似然的构造与参数化，而非渐近定理的严格证明。推导路线如下： 1. 联合分布分解：写出 \((y_{i1}, y_{i0}, \theta_i, Z_i, S_i)\) 的联合分布，分解为 \(\Pr(y_{i1}, y_{i0} \mid \theta_i) \cdot f(\theta_i \mid Z_i) \cdot f(Z_i) \cdot \Pr(S_i \mid Z_i)\)。 2. 条件化选择事件：积分掉 \(Z_i\)，在 \(S_i = 1\)（即 \(Z_i > c_i\)）下，得到 \(\theta_i\) 的条件分布 \(f(\theta_i \mid Z_i > c_i)\)。这里用到正态分布的条件期望与方差公式（给定联合正态变量的一部分超过阈值，另一部分的条件分布仍是正态，均值与方差由逆 Mills 比 \(\lambda\) 与 \(\delta\) 调整）。 3. 构造条件似然：将 \(\Pr(y_{i1}, y_{i0} \mid \theta_i)\)（离散二项/超几何/Beta-binomial 似然）与 \(f(\theta_i \mid Z_i > c_i)\)（截断条件正态）相乘并积分掉 \(\theta_i\)，得到单个研究的条件似然。 4. 叠加边际发表概率：整个研究的联合似然为 \(\prod_{i: S_i = 1} \Pr(y_{i1}, y_{i0} \mid S_i = 1) \cdot \prod_{i=1}^K \Pr(S_i = 1)\)。后者 \(\Pr(S_i = 1) = \Phi(\gamma \cdot f(n_{i1}, n_{i0}))\) 提供了 \(\gamma\) 的信息（若假设所有研究均被尝试，则观测到的 \(K\) 只是总研究池的一个子集，\(\Pr(S_i = 1)\) 的边际分布可估 \(\gamma\)）。 5. 敏感性分析实施：固定 \(\gamma\)，用条件似然估计 \(\mu, \tau^2, \rho\) 等；或固定 \(\rho\)，估计 \(\mu, \tau^2, \gamma\) 等；扫描参数组合，绘制 \(\mu\) 的估计随 \(\rho\) 或 \(\gamma\) 变化的曲线（contour plot），呈现 PB 的影响范围。

技术技巧点名： - 正态分布的条件期望与方差公式（逆 Mills 比）：用在步骤 2，将 \((\theta_i, Z_i)\) 的联合正态在 \(Z_i > c_i\) 下的条件分布解析写出，是整个方法的核心数学技巧。 - 自适应 Gauss-Hermite 积分：用在步骤 3，计算条件似然中积分掉 \(\theta_i\) 的部分，这是 GLMM 的标准计算工具，本文直接借用 lme4 的实现。 - 边际似然与条件似然的分离：用在步骤 4，将 \(\Pr(S_i = 1)\) 的边际部分与 \(\Pr(y_{i1}, y_{i0} \mid S_i = 1)\) 的条件部分分离，前者用于估计 \(\gamma\)，后者用于估计 \(\mu, \tau^2, \rho\)，这是 Copas 框架的标准做法，本文在 GLMM 下复用。

真实例子与应用 - 用的什么数据 / 场景： 1. Odds ratio 的罕见事件 Meta-analysis：Nieminen et al. (2012) 的 10 个研究，比较两种抗抑郁药的不良反应（罕见事件，多个研究有零事件）。 2. Proportion 的罕见事件 Meta-analysis：某手术并发症发生率的 Meta-analysis（具体数据引用在文中）。 - 怎么把本文方法用上去：对每个数据集，拟合 1SBN / SGBN / BB 模型（视_estimands_而定），在条件似然中嵌入 Copas 选择机制，扫描 \(\gamma\) 与 \(\rho\)，得到 \(\mu\)（总体 log OR 或 proportion）的敏感性分析曲线。 - 得到什么结果：在 odds ratio 数据中，传统 NN 模型的 Copas 方法因 continuity correction 导致估计不稳定（不同 correction 值给出不同结果），本文方法（1SBN / SGBN）无需 correction，给出更稳定的 \(\mu\) 估计区间；在 \(\rho = 0\)（无 PB）时，本文估计与标准 GLMM 一致；在 \(\rho > 0\) 时，本文估计显示 \(\mu\) 被 PB 向上扭曲，修正后 \(\mu\) 降低。 - 这个例子想说明什么：验证本文方法在罕见事件下避免了 continuity correction 的随意性，且能呈现 PB 对效应估计的定量影响；同时展示方法在标准软件上的可实现性。

🔎 结论是否比证明窄 本文未给出严格的渐近一致性或效率定理（如“条件 MLE 的 \(\sqrt{K}\)-一致性、渐近正态性”），只在模拟中验证了有限样本表现。作者在文中泛泛 claim “can be easily implemented using standard software with low computational cost”，但未严格证明条件 MLE 在 \(\rho, \gamma\) 被扫描时的数值稳定性（如 Gauss-Hermite 积分在 \(\rho\) 较大时是否因截断正态的方差过小而积分困难）。这是一个“条件 X（数值积分收敛）下实际可行，却被泛泛 claim 为低计算成本”的地方。

四、开放问题（点到为止，扎根具体语句）¶

\(\rho\) 与 \(\gamma\) 的识别与估计理论缺口：本文依赖敏感性分析（扫描 \(\rho\) 与 \(\gamma\)），未给出“在什么条件下，\(\rho\) 与 \(\gamma\) 可从已发表数据 + 外部信息（如注册库）被点识别”的理论。扎根点：intro 中 “However, limited methods can be applied to address PB in the GLMMs” 及 Section 4 中仅用边际发表概率 \(\Pr(S_i = 1)\) 估 \(\gamma\)，未讨论非参数识别。可追问：在 GLMM 下，引入注册库数据（Huang et al. 2020 的 IPW 思路）能否点识别 \(\rho\)？
联合 Gaussian 假设的放宽：本文假设 \((\theta_i, Z_i)\) 联合 Gaussian，这在因果推断的敏感性分析中是一个强参数化假设。扎根点：Section 3 中 “we assume \((\theta_i, Z_i)\) follows a bivariate normal distribution”。可追问：能否将 \(Z_i\) 的分布放宽为半参数（如只假设 \(Z_i\) 的前两阶矩），用 HOIF / 半参数效率理论刻画 \(\mu\) 的估计界？
条件 MLE 的渐近理论：本文未给出条件 MLE（在给定 \(\gamma\) 下估 \(\mu, \tau^2, \rho\)）的渐近分布。扎根点：全文无 Theorem / Lemma 给出 \(\sqrt{K}\)-一致性或渐近正态性。可追问：在 \(K \to \infty\) 且 \(\theta_i\) 的条件分布为截断正态时，条件 MLE 是否达到半参数效率界（若视 \(\alpha_i\) 为 nuisance 参数）？
Arm-based GLMM 下的 PB 修正：本文只做_contrast-based_ GLMM，回避了_arm-based_ 模型（White et al. 2019 讨论的 AB vs CB 差异）。扎根点：intro 中 “we propose a framework of sensitivity analysis for evaluating the impact of PB in the contrast-based GLMMs”，未提及 AB 模型。可追问：在 AB 模型下（\(\alpha_i\) 为随机效应），Copas 潜变量选择机制如何嵌入？是否需要多变量截断正态（因选择可能同时依赖 \(\alpha_i\) 与 \(\theta_i\)）？

Maintained by 陈星宇 · Homepage · Source on GitHub

Copas‐Heckman‐Type Sensitivity Analysis for Publication Bias in Rare‐Event Meta‐Analysis Under Generalized Linear Mixed Models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论