The applicability to systematic reviews of common effect, random effects and fixed effects approaches to meta-analysis¶
作者: Richard J Stevens
来源: Statistical Methods in Medical Research
主题: 数理统计 / 假设检验
相关性: 2/10
机构绿灯: University of Oxford(US News 前 50,免分进入精读)
链接: https://doi.org/10.1177/09622802261439260
一、领域脉络与小综述¶
这个方向是什么¶
本文所讨论的子方向是荟萃分析(meta-analysis)中目标参数(estimand)的定义与推断有效性。其根本问题是:当研究者通过系统综述(systematic review)搜集多个研究的结果后,应如何定义“被估计的总体参数”(即荟萃分析想要回答的那个科学问题),以及不同定义方式是否导致可信的统计推断(如置信区间覆盖真实值的概率)。当前成熟度:这是一个在应用领域(医学、社会科学)极为常见、但在方法论层面近年来才被充分审视的议题,尤其是关于“post hoc”定义目标参数所带来的统计问题,仍在方法论文献中被积极辩论。
发展脉络(history)¶
- 奠基工作(1970s-80s):Meta-analysis 的现代形式由 Glass (1976) 提出;DerSimonian & Laird (1986) 和 Hedges & Olkin (1985) 奠定了 Random Effects 方法的框架。这些早期工作确立了“将多个研究定量综合”的统计基础。
- 主要进展(1990s-2010s):Borenstein et al. (2009) 的著作和软件(Comprehensive Meta-Analysis)将方法普及到各应用领域。Higgins et al. (2009, BMK 教科书) 系统化了 Cochrane Collaboration 的指导。这期间,传统 fixed effect(本文称作 common effect)与 random effects 的争论不断:random effects 的优势在于允许研究间的异质性,但其对异质性方差的估计常不稳健。
- 当前 frontier 与争议(2010s-现在):一种被称为 Fixed Effects(注意英文的 s)的新方法被提出(例如 Stata 命令中的
metan选项,以及部分指南推荐),其独特之处在于目标参数由纳入研究的方差(即样本量或精度) 加权定义,而非由研究协议预定义。这引发了关于其 estimand 是“事后(post hoc)”性质的批判。Kolaski, Hopkins et al. (2022) 和这篇文章的作者(Stevens, 2023)对此方法进行了系统批判。 -
本文的位置:本文是方法论批判性综述,通过数学推导和模拟实验,系统论证了 Fixed Effects(复数)方法在系统综述情境下不满足逻辑前提,并对比 Common Effect 和 Random Effects 方法的(相对)有效性。它显然是在回应“哪种荟萃分析方法更合适”的持续辩论。
-
引用句定位(作者原话):
- 对奠基工作:“The usual approach has been to choose between fixed effect meta-analysis, and random effects meta-analysis” (引文1-3, Hedges & Olkin; DerSimonian & Laird)。
- 对 Fixed Effects 方法的定位:“An alternative method is called fixed effects (note the s in the name). This method has the unique property that the target estimand is defined by the variances of the studies found by the systematic review.” (引文4-6, Stata手册, Borenstein)。
- 对 Kolaski 等批判的认可:“Kolaski et al. (2022) provide a detailed critique. The present manuscript expands on points made by Kolaski et al.” (引文7)。
子线索聚类¶
- Common Effect 方法(本文第一个簇):假设所有纳入研究的真实效应大小相同(或同质)。目标参数是那个共同的 μ。适用场景:研究间变异可忽略。作者指出,这需要强假设,但一旦假设成立,该方法是有效的。
- Random Effects 方法(第二个簇):假设各研究的真实效应大小来自一个公共分布(均值 μ,方差 τ²)。目标参数是该分布的均值。适用场景:异质性存在。作者指出,该方法假设研究选择与效应大小无关。
- Fixed Effects(复数)方法(第三个簇,本文批判焦点):目标参数并非由科学问题预先定义,而是由纳入研究的方差(精度)加权和定义。这是一个“事后”参数。
这个方向在追问的核心问题¶
- Estimand 的预先定义性:荟萃分析的目标参数是否必须由研究协议#/PICO(patient, intervention, comparison, outcome)# 预先确定,还是可以由数据事后决定?
- 假设的合理性:Common Effect 和 Fixed Effects(复数)方法各自需要什么假设?这些假设在系统综述的典型情境下是否现实?(尤其是 Fixed Effects(复数)方法所需的“方差独立于效应大小”的假设)
- 推断的有效性:当假设被违背时,不同方法的置信区间是否能正确覆盖真实目标参数?
- 已知瓶颈:对于 Fixed Effects(复数),其“post hoc”性质导致无法将估计结果推广到任何明确的超总体,也无法与科学问题直接对应。
⚠️ 作者的 framing(必须明确标注)¶
- 这是作者的说法:作者将缺口 frame 为“Fixed Effects(复数)方法的核心问题是其目标参数是post hoc的,这违背了科学推断的‘预先指定’原则,并且其所需的额外假设(方差独立于效应大小)在系统综述中是不现实的。”
- 淡化/回避的竞争路线:作者没有深入讨论Random Effects 方法本身的一个潜在问题:如果研究的纳入与效应大小相关(例如,小样本研究可能有更极端的效应),那么随机效应估计也不是无偏的。作者仅提及“selecting and analysing data without consideration of how the data were generated can lead to bias and error”,但并未将纳入偏差 (publication bias) 作为固定效应 vs 随机效应的核心区分点来处理。作者也没有提及贝叶斯荟萃分析(如贝叶斯随机效应模型)或多水平荟萃分析。
- 什么明显该被引/该存在、却没出现在 intro 里?:作者没有引用任何关于估计后推断的模型选择后 (post-selection) 问题的文献(如 Leeb & Pötscher, Berk et al.)。Fixed Effects(复数)方法的 post hoc 性质本质上是一种模型选择后的固定效应估计,有大量统计文献讨论此类推断的失效问题。这是明显的缺失——许多更深层的理论工作可用于支撑或批判其论点。建议研究者去查这几篇:
- Leeb, H., & Pötscher, B. M. (2005). Model selection and inference: Facts and fiction. Econometric Theory.
- Berk, R., Brown, L., Buja, A., Zhang, K., & Zhao, L. (2013). Valid post-selection inference. The Annals of Statistics.
张力¶
- 未见明显对立引用:所有被引工作都承认 Common Effect 与 Random Effects 的差异;对 Fixed Effects(复数)的批评(如 Kolaski 2022)与其拥护者(如 Borenstein et al.)之间存在张力,但后者并未提供严格的统计辩护,更多是实践层面的推荐。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
- 符号与记号:
- i = 1, …, k: 索引纳入荟萃分析的第 i 个研究。
- y_i: 从第 i 个研究中观测到的效应大小(effect size),如对数优势比(log odds ratio)、标准化均数差(SMD)。
- v_i: y_i 的采样方差(sampling variance),即 Var(y_i | θ_i)。在大样本下,我们假设 v_i 由每个研究的样本量、变异性等因素决定,并被近似已知(通常从每个研究的原始数据或输出中计算得到)。
- θ_i: 第 i 个研究的真实效应大小(潜在量,不可观测)。
- μ: 公共(common)效应或随机效应分布的中心目标参数。
- τ²: 随机效应模型中,各研究间效应的方差(between-study variance)。
- w_i: 在 FE(固定效应)或 FE(复数)模型中,赋予第 i 个研究的权重。通常 w_i = 1/v_i。
-
target: 我们要估计的目标参数。
-
模型:我们考虑最常见的荟萃分析模型家族。
- Common Effect (CE) 模型:假设 θ_i = μ 对所有 i 成立。即所有研究的真实效应完全相同。模型为:y_i | θ_i, v_i ~ N(μ, v_i)。可观测数据为 {(y_i, v_i)},估计目标为 μ。
- Random Effects (RE) 模型:假设 θ_i ~ N(μ, τ²)。模型为:y_i | θ_i, v_i ~ N(θ_i, v_i) 且 θ_i ~ N(μ, τ²)。边际分布为 y_i ~ N(μ, v_i + τ²)。可观测数据为 {(y_i, v_i)}。估计目标为 μ。
-
Fixed Effects (复数, FE(p)) 模型:模型假设与 Common Effect 相同(即假设 θ_i 是固定常数,可能不同),但其目标参数并非 μ,而是加权和:定义目标参数为 μ_w = (∑ w_i θ_i) / (∑ w_i),其中 w_i = 1/v_i。即各真实效应大小以其精度加权后的平均。
-
可观测数据 vs 潜在量:
- 可观测:(y_i, v_i)。v_i 常被视为已知(从数据中计算得到)。
- 潜在量:θ_i(每个研究的真实效应)。在 FE(p) 方法中,目标参数 μ_w 本身也是由这些不可观测的 θ_i 组成的。只有当研究的 v_i 与 θ_i 独立时,μ_w 才等于某个有意义的总体参数。
第二步:讲最小内核——最简单的二研究特例(k=2)¶
考虑最简单的荟萃分析:只有两项研究。
- 数据:Study 1: y₁ = 0.5, v₁ = 1(小样本,大方差);Study 2: y₂ = 0.0, v₂ = 0.1(大样本,小方差)。
- 目标参数(论文核心问题):Fixed Effects (复数) 方法的估计目标是什么?
- Common Effect 目标:假设两个研究共享相同的 μ。如果假设成立,最佳估计是加权平均:μ̂ = (y₁/v₁ + y₂/v₂) / (1/v₁ + 1/v₂) = (0.5 + 0) / (1 + 10) = 0.5/11 ≈ 0.045。置信区间覆盖的是这个 μ。
- Random Effects 目标:假设两个研究的 θ_i 来自一个分布(均值为 μ, 方差 τ²)。如果 τ² > 0,加权会改变。
-
Fixed Effects (复数) 目标:目标参数不是 μ,而是 μ_w = (θ₁/v₁ + θ₂/v₂) / (1/v₁ + 1/v₂)。但 θ₁和θ₂是固定的、不同的常数(因为用的是“固定效应”模型,允许不同)。这个 μ_w 的值不仅依赖于 θ₁ 和 θ₂,还依赖于 v₁和v₂ (这里的 v 是采样方差,不是研究的随机变异)。
-
Post hoc 性质的核心:
- 在这个最简单的例子中,如果研究者预先协议规定要估计“所有研究的总体公共效应 μ”,那么 μ 应该是 0.25 (或 0.0?)——这是科学问题。
- 但是,Fixed Effects (复数) 方法会直接估计 μ_w。它不会问你“μ 是什么”,而是说“我们要估计的是(θ₁/1 + θ₂/0.1)/ (1+10)”。因为 v₂很小,μ_w 几乎等于 θ₂(大样本研究的真实效应),而完全忽略了 θ₁。
- 问题:研究者真的关心“大样本研究的 θ₂”吗?如果协议规定研究范围包括小样本和大样本,那答案是否定的。除非 v₂ 值本身就对应了一个有科学意义的新群体(比如“变量 B 固定”),但一般来说不是——它只是样本量体现的随机波动。
-
额外假设:为了使 μ_w 有意义且可解释(例如作为某个总体参数的近似),论文指出需要假设 v₁与θ₁独立(更一般地,各研究的采样方差的分布与效应大小无关)。在这个例子中,如果小样本研究(v₁大)更可能发现更大的效应(θ₁ > θ₂,即发表偏倚或小样本效应),那么 μ_w 就会系统性地高估大样本研究的效应。
-
证明思路(直观):
- 在 Fixed Effects (复数) 下,我们估计 μ̂_w = (∑ y_i / v_i) / (∑ 1/v_i)。
- 这是在估计 E[∑ (θ_i / v_i) + random error] / (∑ 1/v_i)。
- 因为 random error → 0,μ̂_w 的极限是 (∑ θ_i / v_i) / (∑ 1/v_i) = μ_w。
- 置信区间:要构造置信区间,我们需要近似 Var(μ̂_w) ≈ 1 / (∑ 1/v_i)(这是常见的)。但这只在假设 μ̂_w 近似正态分布的假设下成立。
- 关键跳跃:为了证明这个置信区间覆盖 μ_w 的概率正确(即名义覆盖 95%),我们需要 μ_w 本身是固定的(非随机)。但在这里,v_i 是由数据决定的(发现哪些研究决定了 v_i),所以 μ_w 本身是随机的(不同的数据会得出不同的目标)。那么μ̂_w 减去其随机的目标,其方差就大于 1/(∑ 1/v_i)——这导致置信区间过窄,覆盖失败。
- 这个二研究例子简单揭示了问题的根源。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:系统比较了荟萃分析中三种方法(Common Effect、Random Effects 与 Fixed Effects(复数))的目标参数(estimand) 定义、所需假设及其对推断有效性的影响。
- 核心工具/方法:通过数学推导(比较各方法目标参数的差异)、案例研究(两个实际数据集)和模拟实验(设计数据结构,比较置信区间覆盖概率),批判性检验了 Fixed Effects(复数)方法的 post hoc 性质。
- 主要结论:Fixed Effects(复数)方法的目标参数是事后定义的,且需要额外的不合理假设(方差独立于效应大小),导致其置信区间未能覆盖其实际目标。Common Effect 和 Random Effects 方法在其各自假设下是潜在有效的。
关键设定与假设¶
(在第二节最小记号基础上补全)
- 核心假设(三种方法的对比):
- CE (Common Effect):θ_i = μ, ∀ i。假设所有研究的真实效应相同。如果这个假设成立,CE 是有效的。如果假设不成立(存在异质性),CE 估计的“那个” μ 没有意义(它只是一个加权平均,不代表任何单个研究的效应)。
- RE (Random Effects):θ_i ~ i.i.d ~ N(μ, τ²)。假设研究间效应来自一个公共的超总体分布。需要假设研究的选择与θ_i独立(即没有纳入偏差/发表偏倚)。作者强调,这是关键但常被忽视的假设。
-
FE(p) (Fixed Effects (复数)):θ_i = 固定常数(可能不同)。假设每个研究有固定的效应。无额外的参数分布假设。但其目标参数是事后定义的:μ = (∑ w_i θ_i) / (∑ w_i),其中 w_i = 1/v_i。为了推断的有效性,需要额外假设:v_i 独立于 θ_i。论文称之为“极不现实”的假设。
-
与已有文献的比较:
- 相比 Kolaski et al. (2022) 的定性批判,本文增加了数学化建模和模拟实验的定量证据。
- 相比 Borenstein et al. (2009)(推荐 FE(p) 方法用于“研究间效应可变”的情景),本文明确指出了其目标参数的事后性质。
主要结果¶
- 数学推导结果:
- 目标参数的差异:证明 CE 和 RE 方法的目标是在设计阶段(protocol stage)确定的——它们回答的是“所有研究共享的效应是多少”或“效应分布的中心是什么”。FE(p) 方法的目标是分析阶段(analysis stage)由数据(v_i 实际值)事后决定的。
-
FE(p) 的不合理假设:证明 FE(p) 方法在生成其所谓的“固定效应”estimand 时,隐含假设了“效应大小与可通过增加样本量(v_i 更小)来减少的采样误差无关”。论文指出,这在许多医学研究中不成立(例如,小样本的早期试验往往有更大的效应)。
-
模拟实验:
- 设计:生成来自总体均值为 0 的异质性研究(τ²=1),并引入小样本效应(真值 θ_i 与 v_i 相关)。使用 CE, RE, FE(p) 方法估计并构造 95% 置信区间。
- 核心结果:
- FE(p) 方法的 95% 置信区间仅覆盖了其 post hoc 目标(即由模拟中 v_i 定义的 μ_w)约 70% 的时间(而非 95%)。结论是固定效应方法(复数)的置信区间不可信。
- CE 和 RE 方法在各自假设下(CE 假设同质性,RE 假设研究选择与效应大小独立)覆盖了其目标接近 95%。当研究选择偏差(与效应大小相关的 v_i)存在时,CE 和 RE 方法的覆盖率也大幅下降,但 RE 优于 CE(因为 RE 允许 τ²)。
- 这个模拟有力地支持了论文的论点:FE(p) 的 post hoc 性质导致推断无效,而RE 方法对纳入偏差有有限保护但没有解决根本问题。
证明路线与技术技巧¶
- 整体路线(1-3 步逻辑主干):
- 定义并区分目标参数:用数学形式写出三种方法的目标参数表达式。
- 数学推导 vs 定义:证明 FE(p) 目标参数依赖于随机变量 v_i,因此是随机的。为了使其可估计,必须假设 v_i 与 θ_i 独立。这一假设在现实世界中无法验证且极可能不成立。
-
模拟验证:设计一个数据生成过程(包含小样本效应和异质性),比较三种方法对各自目标参数的置信区间覆盖率。结果印证了理论预测。
-
关键跳跃点:最吃功夫的引理是关于 FE(p) 置信区间失效的数学解释。它需要将 v_i 视为随机(而非固定)变量。通常的方差公式 Var(μ̂_w) = 1/(∑ w_i) 是在给定 v_i 为固定值的条件下推导的。但若 v_i 是随机的(由研究选择和纳入决定),则 μ̂_w 的方差会更大,导致置信区间过窄。
-
技术技巧点名:
- 这是方法论综述,没有用到高深的数学工具。主要技巧是清晰的分解:将目标参数分解为“协议定义” vs “数据定义”;模拟:设计一个 DGP 来体现实际中可能出现的复杂情况(异质性+研究选择偏差);数学推导:使用了简单的期望和方差运算,以及条件期望的塔式法则来证明 FE(p) 目标参数的后验性质。
真实例子与应用¶
- 数据/场景:两个案例研究,均来自已发表的系统综述:
- 案例1(Diabetes Prevention):关于一项干预对患者饮食依从性的影响。
- 案例2(Childhood obesity):关于一种教育干预对儿童肥胖的影响。
- 如何用:对每个数据集,分别用 CE, RE, FE(p) 方法进行荟萃分析,并报告结果和相应的置信区间。
- 结果:对于案例1,FE(p) 方法报告的点估计值显著小于 CE/RE 方法。作者分析,这是因为 FE(p) 的目标是“后验的”,其权重由每个研究的方差决定,因此实际上反映的是大型研究的效应,而非全部证据。对于案例1,这导致了有偏的结论。对于案例2,结果类似,但差距较小。这个例子直观展示了 post hoc 目标参数如何扭曲结论。
- 例子想说明什么:真实数据案例使数学论证具体化,展示了当研究间存在异质性且 v_i 与 θ_i 相关时(这是常见情况),FE(p) 方法得出的结论可以被“大样本研究”主导,而这可能完全不是研究者想回答的科学问题。
🔎 结论是否比证明窄¶
-
是。论文的结论非常保守:“Common effect 和 random effects 方法对于系统综述的定量分析是潜在有效的。” 这个结论只在“假设成立”的前提下有效。对于 CE 方法,假设是“所有研究同质”。对于 RE 方法,假设是“没有纳入偏差(即研究选择与效应大小独立)”。现实中,这两个假设都常常不成立(尤其纳入偏差在系统综述中几乎总是存在)。作者在结论中没有量化这种“潜在有效”在现实中的可靠程度,而是将其留给读者判断。因此,结论实际上是弱于作者在文中展示的批判力量的——他证明了 FE(p) 在假设不成立时已经完全失效,但 CE/RE 模型的问题(异质性偏差、纳入偏差)同样会导致推断失效,只是作者没有在数学上平等地批判它们。
-
具体语句(来自论文):“Of the three methods considered here, the common effect method and the random effects method are potentially valid for the quantitative analysis of systematic reviews.” 这里的“potentially”一词弱化了其实质结论的力量,暗示作者没有全盘否定这些方法,而是指出了在严格条件下它们可能有效。作者没有说“在现实世界中有效”,这是一个窄化的结论。
四、开放问题(点到为止,扎根具体语句)¶
- FE(p) 的“后验推断”的精确渐近性质:固定效应(复数)方法的目标参数 μ_w 依赖于随机变量 v_i。能否在更一般的异质性和选择偏差下,推导出 μ̂_w 的渐近分布(如 ν = 0 或方差无穷大时)?这需要处理加权和中的随机分母。这与论文中“confidence intervals from fixed effects ... do not account for the post hoc nature” (结论句) 有关。一个完整的理论刻画,或许可以采用 M-估计理论 来处理 v_i 的随机性。
- “研究选择”对 RE 方法的影响的量化:论文指出,“the random effects method requires the assumption that the studies found by the systematic review are a simple random sample from the population of interest.” (3.2节) 。这个假设在现实中几乎总是被违背(因为系统综述的纳入标准本身会过滤。能否在明确的纳入偏差模型下,推导出 RE 估计量(如 DerSimonian-Laird)的渐近偏差和方差 (即类似半个 minimax 界)?这是一个明确的问题,它扎根于作者的定性批判。
- 是否存在一个“不事后”的固定效应方法?:论文批评 FE(p) 是 post hoc 的。那么,是否存在一个完全由协议事先定义的、允许研究效应不同但用固定效应(没有 τ²)进行推断的方法?例如,如果协议定义目标为“在所有进行的研究中,以未加权的平均效应作为目标”,那么是否可以用固定效应模型来估计它?这需要重新定义估计量与权重。这个问题的种子在于作者指出“Common effect is the only method with a target established by protocol” (讨论部分)。这个方法(即加权平均所有研究效应)是否应在实践中被标准化使用?其推断性质如何?这是一个可操作的研究方向。
- 更广泛的关于“事后目标”的文献连接:作者未能链接到 post-selection inference 的文献。一个直接的开放问题是:是否可以用正则化或选择性推理来修正 FE(p) 的置信区间,使其在假设相关性存在时也能有效?这需要更高级的数学工具,但问题的种子在作者对“post hoc”的批判中。
Maintained by 陈星宇 · Homepage · Source on GitHub