跳转至

The Illusion of the “Self-correcting” Nature of Science

作者: George Davey Smith
来源: Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: University of Bristol(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001987


一、领域脉络与小综述

这个方向是什么

本例聚焦于因果推断中工具变量(IV)法的非线性效应估计,具体是孟德尔随机化(Mendelian Randomization, MR)中“残差非线性”方法的误用与科学纠错问题。该方向当前成熟度较低:核心方法已被指出在逻辑上自相矛盾,部分论文虽被撤稿但大量问题论文仍未被标记,科学“自我纠正”机制被证明是幻觉。这不是一篇提出新方法的论文,而是一篇基于具体案例对方法论误用与出版系统缺陷的评论。

发展脉络

  • 奠基工作:孟德尔随机化(Davey Smith & Ebrahim, 2003)。核心思路:使用遗传变异作为工具变量,在“工具变量有效性假设”(关联性、排他性、忽略混杂)下估计暴露对结果的因果效应。经典 MR 假设因果效应是线性的。
  • 主要进展:线性 MR 被扩展至非线性因果效应估计。2014 年,Epidemiology 发表了一篇论文(以下简称“原文作者 1, 2014”),提出“残差非线性孟德尔随机化”方法:将暴露(X)对工具变量(Z)回归,得到预测值(^X)和残差(X — ^X),然后将结果(Y)在不同残差层内对预测值分组进行 MR,声称得到非线性因果效应。该方法后续被“进一步开发”(原文作者 2, 2016? 作者原文为 “further developed”)。
  • 当前 Frontier 与批判:批评者指出此方法会产生“荒谬的发现”(原文 ref 3,亦称 “demonstrated the method can produce nonsensical findings”)和“自我驳斥的发现”(self-refuting findings, ref 4, 5)。作者之一甚至称其结果为“逻辑不可能性”(logical impossibility, ref 6)。批评者进一步揭示了荒谬结果产生的原因(ref 7),并在原始论文发表时就有评论(ref 8)提示了问题。
  • 本文位置:作者 Davey Smith 以该案例为标本,论证科学并非可靠地自我纠正——即便有两篇最明显的错误论文被撤稿(ref 9, 10),其他同样错误的论文只是被“更正”或完全不处理,新论文(如 ref 11)仍持续引用该方法并重现错误结果。本文是一篇评论,不贡献新工具,但提供了方法论误用与出版学交叉的警示证据。

子线索聚类

本案例基本上是一条孤立的方法学误用线,没有形成 2-4 条明显的子线索。被引文献可分为: - 方法提出与推广线:原作者 1 (2014);原作者 2 (后续开发);以及使用该方法的多数实证论文。 - 批判与驳斥线:ref 3-8,包括指出“荒谬”、“自我驳斥”、“逻辑不可能性”以及原始评论。 - 出版与纠错线:ref 9-10(撤稿论文);ref 11(近期仍使用该方法的错误分析);ref 12(对“自我纠正”的乐观观点);ref 13(批判乐观观点的文献)。

该方向正在追问的核心问题

  1. 如何正确估计工具变量下非线性因果效应? 残差非线性方法是对标准线性 MR 的补缺尝试,但其识别假设被证明在常见场景下失败。
  2. 方法误用如何被识别且被纠正? 哪些信号——如产生逻辑不可能估计——可以被归为方法论故障而非真实发现?
  3. 科学出版系统对错误方法的反应速度与完整性如何? 这是一个期刊、作者、审稿人间责任的实证问题。
  4. 对已发现问题方法,最好的警示方式是什么? 作者建议在线添加警告,但实证依据仍需被检验。

⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)

  • 作者的缺口定义:作者完全将问题 frame 成“科学自我纠正的幻觉”——方法错了但系统没有纠错。他把本文定位为对该乐观观点的直接反驳,并提请期刊主动干预(添加警示)。
  • 被淡化或回避的竞争路线:本文只讲该特定方法在 MR 里的误用。它完全没有讨论其他常见的、可能同样有问题的非线性 IV 方法(如分位数 IV、多项式 IV),也没有讨论 MR 的其他识别假设敏感性(如多效性、弱工具变量)。作者似乎接受“MR 方法是好方法,被误用了”的先设,而不深入识别本身就可能因为假设不可检验而无法保护。
  • 明显该出现但未在 intro 里被引的:未看到对“非线性工具变量识别本身”的更一般性文献的引用(如 Newey & Powell, 2003 / 关于非参数 IV 识别)。也未看到对其他医学应用中类似“自洽性可检验”判断方法的引用(如 Negative Control Outcome 在 MR 中的应用)。读者需要自行去核查 ref 1 与 ref 8 之间的具体批评论点才能判断残差非线性方法是否真的可以修复。

张力

未见明显对立的引用。所有被引工作除了 ref 12 以外,都一致指向该方法的问题;ref 12 被作者标记为“过度乐观”并批评。因此不存在“在实体上得出相反结论的文献互相打架”的情形。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

在讨论该方法前,先立下记号。假设我们关注二值工具变量 + 连续暴露 + 连续结果的最简场景:

  • Z:工具变量(遗传变异,二值,0/1)。可观测
  • X:暴露(如维生素 D 水平,连续数值)。可观测
  • Y:结果(如心脑血管疾病风险,连续或二值)。可观测
  • U:未观测混杂(同时影响 X 和 Y)。不可观测,只能靠假设控制。
  • β:X 对 Y 的真实因果效应(常数或函数)。目标参数
  • ?_ ?_ : 样本数量(测量个数,通常较大,如全国队列 UK Biobank 的数十万人)。

模型(最简线性设定):假设正确生成机制是: - Z → X(相关性),e.g., X = αZ + ε_x, ε_x ~ N(0, σ²_x) - Z —||— Y | X (排他性约束),即 Z 只通过 X 影响 Y。 - (X, Z) → Y, e.g., Y = βX + ε_y, ε_y ~ N(0, σ²_y),且 ε_y 与 Z 无关。 在该最简模型下,β 是常数(线性因果效应)。

可观测data:{ (Z_i, X_i, Y_i), i = 1,..., n }。研究者能看到三变量的所有样本值。 想要的但观测不到: - 混杂 U(如果存在,则排他性约束被违反)。 - 真实因果曲线形状(是线性还是非线性?)。 - 潜在违反排他性下的 Z → Y 直接路径。

第二步:讲最小内核——该方法如何产生荒谬结果

将复杂场景剥去后,最简例子:真实因果效应是线性的(常数 β),但工具变量 Z 是弱 IV,且存在微弱直接效应

设定: - Z ∈ {0,1},P(Z=1)=0.5。 - X = Z + U + ε_x,U ~ N(0,0.5),ε_x ~ N(0,1),Z、U、ε_x 相互独立。这里 X 是 Z 的影响受混杂 U 的制约。 - Y = βX + γZ + U + ε_y,其中 β=0(真实的因果效应是零),γ=0.1(Z 对 Y 的微小直接效应,违反排他性),U 是混杂。所以真实的观察关联是:E[Y | X] 受 U 影响很大。

残差非线性方法操作: 1. 对 X 依 Z 回归,得到预测值 E[hat]X = α̂ Z 以及残差 R = X − E[hat]X。 2. 将样本依残差 R 分层:低残差组、中残差组、高残差组。 3. 在每个分层内实施标准 MR(此时将 E[hat]X 当作暴露,Z 当作 IV),利用两阶段最小二乘(2SLS)等方法得到 β_E[hat]X→Y(在该层中的效应)。 4. 声称不同的 β_E[hat]X→Y 值反映了 X 对 Y 的非线性因果效应(即因果效应的异质性)。

在该最简例子中,该方法会输出什么? - 因为 β=0,真实的因果效应为零,但 R 中包含大量 U 信息(X = Z + U + ε_x, R ≈ U + ε_x)。在 MR 分层内的 2SLS 估计时,在 R 低层,U 值低于平均,在 R 高层,U 值高于平均。然而,因为 γ ≠ 0(Z 对 Y 有直接效应),在低 R 层(U 小),Y = γZ + (U+ε_y) ≈ γZ + small,在高 R 层(U 大),Y ≈ γZ + large。由于 Z 在这个分层内仍然是 IV,2SLS 会估计出 β_IV 约等于(在低 R 层)较小的 β = 0?不——2SLS 此时实际上在做:第四步:分母是 Z 对 X 回归的系数(这个系数是 1),分子是 Z 对 Y 回归的系数(在这个层内 Y 包含直接效应 γZ, 且混杂 U 的影响被分层削掉了,但 Z 的直接效应仍然存在)。因此,β_IV = γ = 0.1,该层内的估计非零。在另一层,直接效应仍是 γ = 0.1,但混杂 U 的影响已经不同了,然而因为 Y = γZ + g(U) + ε_y,在低层 U 的影响是减去某个量,高层是加上某个量,所以分子成为 γZ + constant(但 constant 与 Z 不相关,所以不影响 IV 估计),因此 β_IV ≈ γ,在所有层得到相同的 0.1。 - 部分论文声称在不同的层得到了不同的 β,这是因为再加入 Y 与残差 R 之间的非线性——一句话:作者声称看到的“非线性效应”其实来自分层策略与 Z 直接效应的共同作用,而非 X 对 Y 的真正非线性。在该最简模拟下,该方法的输出是常数 β=0 时,仍然得到“非线性效应”——输出的是观测关联(包括直接效应和混杂),而不是因果效应*。

  • 关键结论:仅当排他性假设成立、且无 U 混杂(这时残差只包含无信息噪声),该方法才可能正确——但那时 MR 原本就只需线性模型,不需要非线性估计。在该最简例子中,可知该方法是“重现观测关联的方法”而非“因果估计方法”。

三、这篇论文做了什么(本次重心)

三句话

① 本文以“残差非线性孟德尔随机化”方法为案例,驳斥了科学是可靠自我纠正系统的观点。② 作者通过回顾该方法的提出、其在多个论文中产生的“逻辑不可能性”结果、以及部分撤稿但多数问题论文未被修正的现状,论证科学的自我纠错是缓慢且不完全的。③ 主要结论:对已发现错误的方法,期刊应主动添加在线警告,以减缓错误结论的扩散,而非仅依赖撤稿或更正。

关键设定与假设

本文为评论(editorial / commentary),不提出新统计模型或定理。它引用了该方法(残差非线性 MR)的各种已有检验结果。

  • 核心假设:文献 ref 3-7 的论证(该方法的输出荒谬)是正确的,且引用的实证案例(维生素 D 错误)真实反映了方法故障。
  • 设定:该方法假设:在对 X 残差分层后,MR 能有效剥离混杂,并估计出 X 效应在不同分位上的差异。批评者的设定则指出该方法重现的是观察关联而非因果效应。
  • 削弱/放宽的方面:本文并未否认“非线性因果效应能用 MR 估计”这个更大的目标。它只攻击该特定方法的实现。

主要结果

  • 案例 1:维生素 D 的错误:两篇撤稿论文(ref 9, 10),声称 UK Biobank 人群中有接近一半的人群(维生素 D 水平低于中位数)得到保护性因果效应,另一人群得到有害效应,产生“逻辑不可能性”(维生素 D 在同一亚组同时保护与有害?原文指这种效应颠倒是不可能的)。实际上,该方法将观察关联(混杂信号)直接公式化为因果效应。
  • 案例 2:持续的引用:即使在撤稿后,仍有新论文(ref 11)在同样的 UK Biobank 上使用该方法分析维生素 D 与心脑血管结局,且得到几乎同样的、荒谬的、与观察关联一模一样的“因果曲线”。这表明纠正根本不生效。
  • 定量结论
  • 存在 2 篇明确错误论文被撤稿;但“other papers that are clearly equally erroneous have only been corrected”且 “in the vast majority of cases, papers using residual nonlinear Mendelian randomization have been left to stand”。
  • 无基线对比(无同期正确方法的错误率)。
  • 稳健性:该方法产生与移除 U 无关的虚假信号已有跨数据源、跨分析者的重现。

证明路线与技术技巧(本文为评论,无技术证明)

该节备注:本文为纯评论,无数学证明或无技术细节,故不能拆解证明路线。以下列出评论的逻辑结构。

  • 逻辑主干
  • 介绍该方法(问题实质)。
  • 列举批评者的证据。
  • 指出撤稿/更正的不完整性。
  • 批评乐观的“自我纠正”观点。
  • 推荐干预策略:期刊在线警示。
  • 关键跳跃点:作者没有提供独立的技术检验(比如自己跑模拟),完全依赖已有的文献批评。因此“该方法是错误的”这一前提,是引用的结果,而非本文的论证过程。
  • 技术技巧:无。

真实例子与应用(有)

  • 数据集:UK Biobank(大型队列),样本量数万—数十万人。
  • 使用场景:研究维生素 D 血清水平与心脑血管结局(包括高血压、冠心病等)的非线性因果效应。
  • 如何应用:残差非线性 MR——Z 是维生素 D 代谢相关遗传变异(多个 SNP 单独使用或联合工具变量),X 是血清 25-OH D 浓度(连续),Y 是心脑血管结局(二值或连续)。分层:将 X 按残差(X — 预测值)分四层,每层内部采用标准 IV 估计。
  • 得到的结果:该文发现在预测值低层(即残差低 = 实际维生素 D 水平低于或等于预测值,通常代表有其他因素使其低),“因果效应”为负(保护),在预测值高层为正(有害)。但批评者发现该曲线几乎与 X-Y 观察关联曲线重合,且若将 Y 与 X 用观察回归拟合,也完全相同,暗示该方法只是重现了观察偏差。
  • 该例子想说明:(a)验证了方法是错误的;(b)该方法在错误发现被公诸于众后仍在被出新论文使用,说明自我纠正无效。

🔎 结论是否比证明窄

是的,遵守本文要求必须点出。 作者声明“the method can produce nonsensical findings and generate results that are self-refuting”是对该方法在所有场景下的泛化指责,但其脚下的实证基础主要有: - 具体案例(维生素 D,UK Biobank)。 - 之前 ref 3-7 的分析,但这些分析也局限于特定的识别框架和假设。 - 并没有在数学上证明:对所有非线性函数 f(•),当工具变量 Z 是弱 IV 或有直接效应 γ ≠ 0 时,残差非线性 MR 一定失败。 这种泛化属于“强有力的经验论证”,但并非严格的识别定理证明。作者在文中也坦诚了这种局限:具体的 reason nonsensical findings are produced 是“becoming clearer”(仍未全部明确)。因此,结论的范围(“所有使用该方法的论文都应被强制警示”)是证据驱动的强烈建议,但其背后的数学严谨性并未被本文提升。研究者若想严格分析该方法的理论故障,还需自行推导。


四、开放问题(点到为止,扎根具体语句)

  1. 能否给出残差非线性 MR 方法在何种具体识别条件下是仍然安全(即能一致估计)的严格刻画?
  2. 扎根于:“the reasons nonsensical findings are produced are becoming clearer”(仍未完全明确;在 ref 8 的原始评论中或许有提示)。

  3. 该方法声称要估计非线性因果效应,但输出与观察关联重合,是否意味其实质是在估计 E[Y | X, Z] 而非 E[Y | do(X)]?

  4. 扎根于:作者论述 “the ‘causal effect estimates’ obtained using residual nonlinear Mendelian randomization simply reproduced the observational associations.”

  5. 期刊添加在线警示的做法,有无实验表明其能降低对已问题论文的引用?

  6. 扎根于:作者的建议 “by clearly displaying online warnings to readers attempting to access papers presenting methods that have been shown to be… highly problematic”。文中完全未提供任何警示有效性的实证。

  7. 这是否成立一个更一般的统计方法学问题:当一种方法可产生“逻辑不可能结果”(如效应方向颠倒)时,该类错误能否作为通用诊断信号来抵制其它方法?

  8. 扎根于:作者在 ref 4/5/6 中提及 “logical impossibility”。该点可能是把信号转变为方法稳健性检验的一种思路。

无“技术可迁移”空话;研究者可去同领域最近 5 篇关于 MR 非线性方法的 intro 确认这些 gap 是否已被其他人识别并推进。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论