The applicability to systematic reviews of common effect, random effects and fixed effects approaches to meta-analysis¶

作者: Richard J Stevens
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: University of Oxford（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261439260

一、领域脉络与小综述¶

这个方向是什么¶

本文所讨论的子方向是荟萃分析（meta-analysis）中目标参数（estimand）的定义与推断有效性。其根本问题是：当研究者通过系统综述（systematic review）搜集多个研究的结果后，应如何定义“被估计的总体参数”（即荟萃分析想要回答的那个科学问题），以及不同定义方式是否导致可信的统计推断（如置信区间覆盖真实值的概率）。当前成熟度：这是一个在应用领域（医学、社会科学）极为常见、但在方法论层面近年来才被充分审视的议题，尤其是关于“post hoc”定义目标参数所带来的统计问题，仍在方法论文献中被积极辩论。

发展脉络（history）¶

奠基工作（1970s-80s）：Meta-analysis 的现代形式由 Glass (1976) 提出；DerSimonian & Laird (1986) 和 Hedges & Olkin (1985) 奠定了 Random Effects 方法的框架。这些早期工作确立了“将多个研究定量综合”的统计基础。
主要进展（1990s-2010s）：Borenstein et al. (2009) 的著作和软件（Comprehensive Meta-Analysis）将方法普及到各应用领域。Higgins et al. (2009, BMK 教科书) 系统化了 Cochrane Collaboration 的指导。这期间，传统 fixed effect（本文称作 common effect）与 random effects 的争论不断：random effects 的优势在于允许研究间的异质性，但其对异质性方差的估计常不稳健。
当前 frontier 与争议（2010s-现在）：一种被称为 Fixed Effects（注意英文的 s）的新方法被提出（例如 Stata 命令中的 metan 选项，以及部分指南推荐），其独特之处在于目标参数由纳入研究的方差（即样本量或精度） 加权定义，而非由研究协议预定义。这引发了关于其 estimand 是“事后（post hoc）”性质的批判。Kolaski, Hopkins et al. (2022) 和这篇文章的作者（Stevens, 2023）对此方法进行了系统批判。
本文的位置：本文是方法论批判性综述，通过数学推导和模拟实验，系统论证了 Fixed Effects（复数）方法在系统综述情境下不满足逻辑前提，并对比 Common Effect 和 Random Effects 方法的（相对）有效性。它显然是在回应“哪种荟萃分析方法更合适”的持续辩论。
引用句定位（作者原话）：
对奠基工作：“The usual approach has been to choose between fixed effect meta-analysis, and random effects meta-analysis” (引文1-3, Hedges & Olkin; DerSimonian & Laird)。
对 Fixed Effects 方法的定位：“An alternative method is called fixed effects (note the s in the name). This method has the unique property that the target estimand is defined by the variances of the studies found by the systematic review.” (引文4-6, Stata手册, Borenstein)。
对 Kolaski 等批判的认可：“Kolaski et al. (2022) provide a detailed critique. The present manuscript expands on points made by Kolaski et al.” (引文7)。

子线索聚类¶

Common Effect 方法（本文第一个簇）：假设所有纳入研究的真实效应大小相同（或同质）。目标参数是那个共同的 μ。适用场景：研究间变异可忽略。作者指出，这需要强假设，但一旦假设成立，该方法是有效的。
Random Effects 方法（第二个簇）：假设各研究的真实效应大小来自一个公共分布（均值 μ，方差 τ²）。目标参数是该分布的均值。适用场景：异质性存在。作者指出，该方法假设研究选择与效应大小无关。
Fixed Effects（复数）方法（第三个簇，本文批判焦点）：目标参数并非由科学问题预先定义，而是由纳入研究的方差（精度）加权和定义。这是一个“事后”参数。

这个方向在追问的核心问题¶

Estimand 的预先定义性：荟萃分析的目标参数是否必须由研究协议#/PICO(patient, intervention, comparison, outcome)# 预先确定，还是可以由数据事后决定？
假设的合理性：Common Effect 和 Fixed Effects（复数）方法各自需要什么假设？这些假设在系统综述的典型情境下是否现实？（尤其是 Fixed Effects（复数）方法所需的“方差独立于效应大小”的假设）
推断的有效性：当假设被违背时，不同方法的置信区间是否能正确覆盖真实目标参数？
已知瓶颈：对于 Fixed Effects（复数），其“post hoc”性质导致无法将估计结果推广到任何明确的超总体，也无法与科学问题直接对应。

⚠️ 作者的 framing（必须明确标注）¶

这是作者的说法：作者将缺口 frame 为“Fixed Effects（复数）方法的核心问题是其目标参数是post hoc的，这违背了科学推断的‘预先指定’原则，并且其所需的额外假设（方差独立于效应大小）在系统综述中是不现实的。”
淡化/回避的竞争路线：作者没有深入讨论Random Effects 方法本身的一个潜在问题：如果研究的纳入与效应大小相关（例如，小样本研究可能有更极端的效应），那么随机效应估计也不是无偏的。作者仅提及“selecting and analysing data without consideration of how the data were generated can lead to bias and error”，但并未将纳入偏差 (publication bias) 作为固定效应 vs 随机效应的核心区分点来处理。作者也没有提及贝叶斯荟萃分析（如贝叶斯随机效应模型）或多水平荟萃分析。
什么明显该被引/该存在、却没出现在 intro 里？：作者没有引用任何关于估计后推断的模型选择后 (post-selection) 问题的文献（如 Leeb & Pötscher, Berk et al.）。Fixed Effects（复数）方法的 post hoc 性质本质上是一种模型选择后的固定效应估计，有大量统计文献讨论此类推断的失效问题。这是明显的缺失——许多更深层的理论工作可用于支撑或批判其论点。建议研究者去查这几篇：
- Leeb, H., & Pötscher, B. M. (2005). Model selection and inference: Facts and fiction. Econometric Theory.
- Berk, R., Brown, L., Buja, A., Zhang, K., & Zhao, L. (2013). Valid post-selection inference. The Annals of Statistics.

张力¶

未见明显对立引用：所有被引工作都承认 Common Effect 与 Random Effects 的差异；对 Fixed Effects（复数）的批评（如 Kolaski 2022）与其拥护者（如 Borenstein et al.）之间存在张力，但后者并未提供严格的统计辩护，更多是实践层面的推荐。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号与记号：
i = 1, …, k: 索引纳入荟萃分析的第 i 个研究。
y_i: 从第 i 个研究中观测到的效应大小（effect size），如对数优势比（log odds ratio）、标准化均数差（SMD）。
v_i: y_i 的采样方差（sampling variance），即 Var(y_i | θ_i)。在大样本下，我们假设 v_i 由每个研究的样本量、变异性等因素决定，并被近似已知（通常从每个研究的原始数据或输出中计算得到）。
θ_i: 第 i 个研究的真实效应大小（潜在量，不可观测）。
μ: 公共（common）效应或随机效应分布的中心目标参数。
τ²: 随机效应模型中，各研究间效应的方差（between-study variance）。
w_i: 在 FE（固定效应）或 FE（复数）模型中，赋予第 i 个研究的权重。通常 w_i = 1/v_i。
target: 我们要估计的目标参数。
模型：我们考虑最常见的荟萃分析模型家族。
Common Effect (CE) 模型：假设 θ_i = μ 对所有 i 成立。即所有研究的真实效应完全相同。模型为：y_i | θ_i, v_i ~ N(μ, v_i)。可观测数据为 {(y_i, v_i)}，估计目标为 μ。
Random Effects (RE) 模型：假设 θ_i ~ N(μ, τ²)。模型为：y_i | θ_i, v_i ~ N(θ_i, v_i) 且 θ_i ~ N(μ, τ²)。边际分布为 y_i ~ N(μ, v_i + τ²)。可观测数据为 {(y_i, v_i)}。估计目标为 μ。
Fixed Effects (复数, FE(p)) 模型：模型假设与 Common Effect 相同（即假设 θ_i 是固定常数，可能不同），但其目标参数并非 μ，而是加权和：定义目标参数为 μ_w = (∑ w_i θ_i) / (∑ w_i)，其中 w_i = 1/v_i。即各真实效应大小以其精度加权后的平均。
可观测数据 vs 潜在量：
可观测：(y_i, v_i)。v_i 常被视为已知（从数据中计算得到）。
潜在量：θ_i（每个研究的真实效应）。在 FE(p) 方法中，目标参数 μ_w 本身也是由这些不可观测的 θ_i 组成的。只有当研究的 v_i 与 θ_i 独立时，μ_w 才等于某个有意义的总体参数。

第二步：讲最小内核——最简单的二研究特例（k=2）¶

考虑最简单的荟萃分析：只有两项研究。

数据：Study 1: y₁ = 0.5, v₁ = 1（小样本，大方差）；Study 2: y₂ = 0.0, v₂ = 0.1（大样本，小方差）。
目标参数（论文核心问题）：Fixed Effects (复数) 方法的估计目标是什么？
Common Effect 目标：假设两个研究共享相同的 μ。如果假设成立，最佳估计是加权平均：μ̂ = (y₁/v₁ + y₂/v₂) / (1/v₁ + 1/v₂) = (0.5 + 0) / (1 + 10) = 0.5/11 ≈ 0.045。置信区间覆盖的是这个 μ。
Random Effects 目标：假设两个研究的 θ_i 来自一个分布（均值为 μ, 方差 τ²）。如果 τ² > 0，加权会改变。
Fixed Effects (复数) 目标：目标参数不是 μ，而是 μ_w = (θ₁/v₁ + θ₂/v₂) / (1/v₁ + 1/v₂)。但 θ₁和θ₂是固定的、不同的常数（因为用的是“固定效应”模型，允许不同）。这个 μ_w 的值不仅依赖于 θ₁ 和 θ₂，还依赖于 v₁和v₂ (这里的 v 是采样方差，不是研究的随机变异)。
Post hoc 性质的核心：
在这个最简单的例子中，如果研究者预先协议规定要估计“所有研究的总体公共效应 μ”，那么 μ 应该是 0.25 (或 0.0?)——这是科学问题。
但是，Fixed Effects (复数) 方法会直接估计 μ_w。它不会问你“μ 是什么”，而是说“我们要估计的是（θ₁/1 + θ₂/0.1）/ (1+10)”。因为 v₂很小，μ_w 几乎等于 θ₂（大样本研究的真实效应），而完全忽略了 θ₁。
问题：研究者真的关心“大样本研究的 θ₂”吗？如果协议规定研究范围包括小样本和大样本，那答案是否定的。除非 v₂ 值本身就对应了一个有科学意义的新群体（比如“变量 B 固定”），但一般来说不是——它只是样本量体现的随机波动。
额外假设：为了使 μ_w 有意义且可解释（例如作为某个总体参数的近似），论文指出需要假设 v₁与θ₁独立（更一般地，各研究的采样方差的分布与效应大小无关）。在这个例子中，如果小样本研究（v₁大）更可能发现更大的效应（θ₁ > θ₂，即发表偏倚或小样本效应），那么 μ_w 就会系统性地高估大样本研究的效应。
证明思路（直观）：
在 Fixed Effects (复数) 下，我们估计 μ̂_w = (∑ y_i / v_i) / (∑ 1/v_i)。
这是在估计 E[∑ (θ_i / v_i) + random error] / (∑ 1/v_i)。
因为 random error → 0，μ̂_w 的极限是 (∑ θ_i / v_i) / (∑ 1/v_i) = μ_w。
置信区间：要构造置信区间，我们需要近似 Var(μ̂_w) ≈ 1 / (∑ 1/v_i)（这是常见的）。但这只在假设 μ̂_w 近似正态分布的假设下成立。
关键跳跃：为了证明这个置信区间覆盖 μ_w 的概率正确（即名义覆盖 95%），我们需要 μ_w 本身是固定的（非随机）。但在这里，v_i 是由数据决定的（发现哪些研究决定了 v_i），所以 μ_w 本身是随机的（不同的数据会得出不同的目标）。那么μ̂_w 减去其随机的目标，其方差就大于 1/(∑ 1/v_i)——这导致置信区间过窄，覆盖失败。
这个二研究例子简单揭示了问题的根源。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：系统比较了荟萃分析中三种方法（Common Effect、Random Effects 与 Fixed Effects（复数））的目标参数（estimand） 定义、所需假设及其对推断有效性的影响。
核心工具/方法：通过数学推导（比较各方法目标参数的差异）、案例研究（两个实际数据集）和模拟实验（设计数据结构，比较置信区间覆盖概率），批判性检验了 Fixed Effects（复数）方法的 post hoc 性质。
主要结论：Fixed Effects（复数）方法的目标参数是事后定义的，且需要额外的不合理假设（方差独立于效应大小），导致其置信区间未能覆盖其实际目标。Common Effect 和 Random Effects 方法在其各自假设下是潜在有效的。

关键设定与假设¶

（在第二节最小记号基础上补全）

核心假设（三种方法的对比）：
CE (Common Effect)：θ_i = μ, ∀ i。假设所有研究的真实效应相同。如果这个假设成立，CE 是有效的。如果假设不成立（存在异质性），CE 估计的“那个” μ 没有意义（它只是一个加权平均，不代表任何单个研究的效应）。
RE (Random Effects)：θ_i ~ i.i.d ~ N(μ, τ²)。假设研究间效应来自一个公共的超总体分布。需要假设研究的选择与θ_i独立（即没有纳入偏差/发表偏倚）。作者强调，这是关键但常被忽视的假设。
FE(p) (Fixed Effects (复数))：θ_i = 固定常数（可能不同）。假设每个研究有固定的效应。无额外的参数分布假设。但其目标参数是事后定义的：μ = (∑ w_i θ_i) / (∑ w_i)，其中 w_i = 1/v_i。为了推断的有效性，需要额外假设：v_i 独立于 θ_i。论文称之为“极不现实”的假设。
与已有文献的比较：
相比 Kolaski et al. (2022) 的定性批判，本文增加了数学化建模和模拟实验的定量证据。
相比 Borenstein et al. (2009)（推荐 FE(p) 方法用于“研究间效应可变”的情景），本文明确指出了其目标参数的事后性质。

主要结果¶

数学推导结果：
目标参数的差异：证明 CE 和 RE 方法的目标是在设计阶段（protocol stage）确定的——它们回答的是“所有研究共享的效应是多少”或“效应分布的中心是什么”。FE(p) 方法的目标是分析阶段（analysis stage）由数据（v_i 实际值）事后决定的。
FE(p) 的不合理假设：证明 FE(p) 方法在生成其所谓的“固定效应”estimand 时，隐含假设了“效应大小与可通过增加样本量（v_i 更小）来减少的采样误差无关”。论文指出，这在许多医学研究中不成立（例如，小样本的早期试验往往有更大的效应）。
模拟实验：
设计：生成来自总体均值为 0 的异质性研究（τ²=1），并引入小样本效应（真值 θ_i 与 v_i 相关）。使用 CE, RE, FE(p) 方法估计并构造 95% 置信区间。
核心结果：
- FE(p) 方法的 95% 置信区间仅覆盖了其 post hoc 目标（即由模拟中 v_i 定义的 μ_w）约 70% 的时间（而非 95%）。结论是固定效应方法（复数）的置信区间不可信。
- CE 和 RE 方法在各自假设下（CE 假设同质性，RE 假设研究选择与效应大小独立）覆盖了其目标接近 95%。当研究选择偏差（与效应大小相关的 v_i）存在时，CE 和 RE 方法的覆盖率也大幅下降，但 RE 优于 CE（因为 RE 允许 τ²）。
- 这个模拟有力地支持了论文的论点：FE(p) 的 post hoc 性质导致推断无效，而RE 方法对纳入偏差有有限保护但没有解决根本问题。

证明路线与技术技巧¶

整体路线（1-3 步逻辑主干）：
定义并区分目标参数：用数学形式写出三种方法的目标参数表达式。
数学推导 vs 定义：证明 FE(p) 目标参数依赖于随机变量 v_i，因此是随机的。为了使其可估计，必须假设 v_i 与 θ_i 独立。这一假设在现实世界中无法验证且极可能不成立。
模拟验证：设计一个数据生成过程（包含小样本效应和异质性），比较三种方法对各自目标参数的置信区间覆盖率。结果印证了理论预测。
关键跳跃点：最吃功夫的引理是关于 FE(p) 置信区间失效的数学解释。它需要将 v_i 视为随机（而非固定）变量。通常的方差公式 Var(μ̂_w) = 1/(∑ w_i) 是在给定 v_i 为固定值的条件下推导的。但若 v_i 是随机的（由研究选择和纳入决定），则 μ̂_w 的方差会更大，导致置信区间过窄。
技术技巧点名：
这是方法论综述，没有用到高深的数学工具。主要技巧是清晰的分解：将目标参数分解为“协议定义” vs “数据定义”；模拟：设计一个 DGP 来体现实际中可能出现的复杂情况（异质性+研究选择偏差）；数学推导：使用了简单的期望和方差运算，以及条件期望的塔式法则来证明 FE(p) 目标参数的后验性质。

真实例子与应用¶

数据/场景：两个案例研究，均来自已发表的系统综述：
案例1（Diabetes Prevention）：关于一项干预对患者饮食依从性的影响。
案例2（Childhood obesity）：关于一种教育干预对儿童肥胖的影响。
如何用：对每个数据集，分别用 CE, RE, FE(p) 方法进行荟萃分析，并报告结果和相应的置信区间。
结果：对于案例1，FE(p) 方法报告的点估计值显著小于 CE/RE 方法。作者分析，这是因为 FE(p) 的目标是“后验的”，其权重由每个研究的方差决定，因此实际上反映的是大型研究的效应，而非全部证据。对于案例1，这导致了有偏的结论。对于案例2，结果类似，但差距较小。这个例子直观展示了 post hoc 目标参数如何扭曲结论。
例子想说明什么：真实数据案例使数学论证具体化，展示了当研究间存在异质性且 v_i 与 θ_i 相关时（这是常见情况），FE(p) 方法得出的结论可以被“大样本研究”主导，而这可能完全不是研究者想回答的科学问题。

🔎 结论是否比证明窄¶

是。论文的结论非常保守：“Common effect 和 random effects 方法对于系统综述的定量分析是潜在有效的。” 这个结论只在“假设成立”的前提下有效。对于 CE 方法，假设是“所有研究同质”。对于 RE 方法，假设是“没有纳入偏差（即研究选择与效应大小独立）”。现实中，这两个假设都常常不成立（尤其纳入偏差在系统综述中几乎总是存在）。作者在结论中没有量化这种“潜在有效”在现实中的可靠程度，而是将其留给读者判断。因此，结论实际上是弱于作者在文中展示的批判力量的——他证明了 FE(p) 在假设不成立时已经完全失效，但 CE/RE 模型的问题（异质性偏差、纳入偏差）同样会导致推断失效，只是作者没有在数学上平等地批判它们。
具体语句（来自论文）：“Of the three methods considered here, the common effect method and the random effects method are potentially valid for the quantitative analysis of systematic reviews.” 这里的“potentially”一词弱化了其实质结论的力量，暗示作者没有全盘否定这些方法，而是指出了在严格条件下它们可能有效。作者没有说“在现实世界中有效”，这是一个窄化的结论。

四、开放问题（点到为止，扎根具体语句）¶

FE(p) 的“后验推断”的精确渐近性质：固定效应（复数）方法的目标参数 μ_w 依赖于随机变量 v_i。能否在更一般的异质性和选择偏差下，推导出 μ̂_w 的渐近分布（如 ν = 0 或方差无穷大时）？这需要处理加权和中的随机分母。这与论文中“confidence intervals from fixed effects ... do not account for the post hoc nature” (结论句) 有关。一个完整的理论刻画，或许可以采用 M-估计理论 来处理 v_i 的随机性。
“研究选择”对 RE 方法的影响的量化：论文指出，“the random effects method requires the assumption that the studies found by the systematic review are a simple random sample from the population of interest.” (3.2节) 。这个假设在现实中几乎总是被违背（因为系统综述的纳入标准本身会过滤。能否在明确的纳入偏差模型下，推导出 RE 估计量（如 DerSimonian-Laird）的渐近偏差和方差 （即类似半个 minimax 界）？这是一个明确的问题，它扎根于作者的定性批判。
是否存在一个“不事后”的固定效应方法？：论文批评 FE(p) 是 post hoc 的。那么，是否存在一个完全由协议事先定义的、允许研究效应不同但用固定效应（没有 τ²）进行推断的方法？例如，如果协议定义目标为“在所有进行的研究中，以未加权的平均效应作为目标”，那么是否可以用固定效应模型来估计它？这需要重新定义估计量与权重。这个问题的种子在于作者指出“Common effect is the only method with a target established by protocol” (讨论部分)。这个方法（即加权平均所有研究效应）是否应在实践中被标准化使用？其推断性质如何？这是一个可操作的研究方向。
更广泛的关于“事后目标”的文献连接：作者未能链接到 post-selection inference 的文献。一个直接的开放问题是：是否可以用正则化或选择性推理来修正 FE(p) 的置信区间，使其在假设相关性存在时也能有效？这需要更高级的数学工具，但问题的种子在作者对“post hoc”的批判中。

Maintained by 陈星宇 · Homepage · Source on GitHub