跳转至

The Same but Different?: A Systematic Review of the Impact of Selection and Collider Bias on Internal Validity

作者: Natalie S. Levy, Katrina L. Kezios
来源: Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: Columbia University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001864


一、领域脉络与小综述

这个方向是什么: 这个子方向关注的是观察性研究中内部效度的两个核心威胁——选择偏倚与碰撞偏倚——在理论上是否等价、在实证后果上是否一致。根本问题在于:当研究者通过对撞因子进行条件化或样本筛选时,所引入的偏倚,与传统意义上因暴露与结局的共同原因被控制而消除的选择偏倚,在量级与方向上是否有可比性。当前该方向处于概念统一期但实证结论分裂期——理论上两者已被统一框架(图模型、d-分离)打通,但文献中对两者后果的判断却呈现系统性分歧。

发展脉络: 1. 奠基工作(图模型框架的确立):Greenland (2003) 与 Pearl (2009) 等工作建立了有向无环图(DAG)框架,将选择偏倚与碰撞偏倚统一在"对撞路径打开"的概念下。引用句指出:"Greenland (2003) and Pearl (2009) established the graphical framework for understanding bias from conditioning on a collider." 这奠定了两者理论等价性的基础。

  1. 主要进展(理论等价性的确立):Hernán et al. (2004) 明确提出"对撞限制偏倚是选择偏倚的一种形式",试图在概念上合并两者。随后的教科书(如 Modern Epidemiology, 4th ed., 2021)采纳了这一观点,将两者并列讨论。然而,本文发现,尽管概念统一,文献中对两者后果的描述却走向了不同方向。

  2. 当前 Frontier(后果评估的分歧):近期工作开始量化偏倚的量级与方向。Munafò et al. (2018) 在讨论碰撞偏倚时,结论倾向于"影响微小";而选择偏倚的文献(如 Howe et al. 2016)则强调其效果的可变性。本文系统性地揭示了这一分歧,并追问:为什么理论上等价的两个概念,在文献中却得出不同的后果判断?

  3. 本文的位置:本文是一篇系统性综述,不提出新方法,而是诊断现有文献的分裂——指出分歧的根源在于评估条件不同(sharp null 假设、交互作用形式),为后续方法学研究清理地基。

子线索聚类: 1. 碰撞偏倚的量化评估:多数文献在 sharp null hypothesis(暴露与结局无关联)下评估偏倚量级,结论多为"影响有限"。典型如 Munafò et al. (2018)。 2. 选择偏倚的量化评估:文献通常在更一般的设定下讨论,强调偏倚方向与量级取决于具体结构,结论多为"效果可变"。 3. 交互作用的角色:碰撞偏倚文献较少讨论暴露与结局的交互作用;而选择偏倚文献常涉及乘性与加性交互的区别。

这个方向在追问的核心问题: 1. 理论等价是否意味着后果等价?——图模型框架下两者等价,但文献结论为何分裂? 2. 评估条件如何影响偏倚结论?——Sharp null 假设是否低估了碰撞偏倚的实际影响? 3. 交互作用在偏倚生成中的角色是什么?——乘性 vs. 加性交互如何影响对撞路径的打开程度?

⚠️ 作者的 framing: 作者将缺口 frame 为:"理论等价但结论分裂,根源在于评估条件的不一致"。这一 framing 让本文的"系统性诊断"成为显然的下一步。然而,作者淡化了另一条可能的竞争路线:也许两者本就不该完全等价——选择偏倚可能涉及更复杂的筛选机制(如基于结局的筛选),而碰撞偏倚更多涉及协变量的条件化。这一差异在 intro 中未被充分讨论。此外,缺失的引用:intro 未引用任何关于"非 sharp null 下碰撞偏倚"的已有工作——这可能意味着这一方向确实是空白,也可能意味着作者选择性忽略了早期探索。

张力: 未见明显对立引用。文献之间的分歧更多是隐性的——不同子领域在不同假设下得出不同结论,而非在同一问题上正面冲突。这种隐性分裂本身就是高价值信号:它提示现有理论框架可能在"假设敏感性"上存在盲区。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号定义
  • \(A\):暴露变量。
  • \(Y\):结局变量。
  • \(C\):碰撞因子,是 \(A\)\(Y\) 的共同结果,即 \(A \to C \leftarrow Y\)
  • \(S\):选择指示变量,\(S=1\) 表示进入样本,\(S=0\) 表示未进入。
  • \(U\):潜在混杂因子,\(A\)\(Y\) 的共同原因,即 \(U \to A\)\(U \to Y\)
  • \(\beta_{obs}\):观测到的暴露-结局关联度量(如回归系数、OR、RR)。
  • \(\beta_{true}\):真实的暴露-结局因果效应。
  • Bias:定义为 \(\beta_{obs} - \beta_{true}\)(加性尺度)或 \(\beta_{obs} / \beta_{true}\)(乘性尺度)。

  • 模型(数据生成机制)

  • 碰撞偏倚场景\(A\)\(Y\) 独立生成(或由 \(U\) 混杂),\(C\)\(A\)\(Y\) 共同决定,即 \(C = f(A, Y, \epsilon_C)\)。研究者通过对 \(C\) 进行条件化(如只研究 \(C=1\) 的子集)或基于 \(C\) 进行样本筛选(\(S = \mathbb{I}(C=1)\))来引入偏倚。
  • 选择偏倚场景\(S\)(选择)由 \(A\)\(Y\) 或两者共同决定。经典选择偏倚中,\(S\) 可能与 \(U\) 相关,或直接由 \(Y\) 决定(如存活偏倚)。

  • 可观测数据

  • 研究者只能观测到 \((A, Y, C)\)\(S=1\) 样本中的实现。
  • 不可观测 / 潜在量\(U\)(混杂)、反事实结局 \(Y(a)\)、以及 \(S=0\) 样本的信息。
  • 关键识别问题:在 \(S=1\) 样本中,\(A\)\(Y\) 的关联是否等于因果效应?偏倚的方向与量级如何?

第二步:最小内核

最简特例:二值暴露、二值结局、二值碰撞因子

考虑最简单的设定: - \(A \in \{0, 1\}\)\(Y \in \{0, 1\}\)\(C \in \{0, 1\}\)。 - \(A\)\(Y\) 之间无真实因果效应(sharp null\(P(Y=1|A=1) = P(Y=1|A=0) = p_Y\))。 - \(C\)\(A\)\(Y\) 决定:\(P(C=1|A, Y) = \alpha_A A + \alpha_Y Y + \alpha_{AY} A \cdot Y\)(线性概率模型,简化讨论)。 - 研究者只观测 \(C=1\) 的样本(即 \(S = \mathbb{I}(C=1)\))。

在这个特例下,碰撞偏倚如何产生? - 在全样本中,\(A \perp\!\!\!\perp Y\)(sharp null 成立)。 - 在 \(C=1\) 子样本中:

\[P(Y=1|A=1, C=1) - P(Y=1|A=0, C=1) \neq 0\]
因为条件化 \(C=1\) 打开了 \(A \to C \leftarrow Y\) 这条对撞路径,\(A\)\(Y\)\(C=1\) 下变得相关。

偏倚量级取决于什么? - 若 \(\alpha_{AY} = 0\)(无交互作用),偏倚量级由 \(\alpha_A\)\(\alpha_Y\) 决定,通常较小。 - 若 \(\alpha_{AY} \neq 0\)(存在交互作用),偏倚量级放大。

本文发现的核心问题: - 现有碰撞偏倚文献几乎都在 sharp null(\(A \perp\!\!\!\perp Y\))下评估偏倚,此时偏倚确实可能"微小"。 - 但若 \(A\)\(Y\) 有真实因果效应(非 sharp null),碰撞偏倚的量级与方向会如何变化?现有文献几乎没有回答。 - 交互作用的尺度问题:碰撞偏倚文献多讨论乘性交互,而选择偏倚文献常涉及加性交互——两者在二值结局下不等价,导致结论不可比。

这个最小内核支撑了整篇论文的发现:文献结论的分裂,源于评估条件(sharp null、交互尺度)的不一致。论文的系统性综述,正是围绕这一内核展开证据收集与对比。


三、这篇论文做了什么

三句话: 1. 研究了选择偏倚与碰撞偏倚文献中关于偏倚后果的结论是否一致这一问题。 2. 核心方法是系统性综述——检索 2000-2024 年的方法学文章与教科书,按预设标准提取关于偏倚量级、方向、受影响层、评估条件的结论。 3. 主要结论是:尽管理论上两者等价,但文献结论分裂——碰撞偏倚被描述为"影响微小",选择偏倚被描述为"效果可变";根源在于碰撞偏倚文献多在 sharp null 下评估,且对交互作用的讨论不足。

关键设定与假设: - 纳入标准:同行评审的方法学文章 + 流行病学教科书;讨论内部效度;涉及选择偏倚或碰撞偏倚的量级或方向;英文;2000 年后出版。 - 排除标准:仅讨论外部效度、仅讨论信息偏倚、纯模拟研究(无方法学讨论)、案例研究(无一般性结论)。 - 数据提取框架: 1. 偏倚的量级结论。 2. 偏倚的方向结论。 3. 受影响的层。 4. 评估条件(是否在 sharp null 下、是否考虑交互作用)。 - 统计含义:这一设定确保了综述聚焦于"方法学共识与分歧",而非单个实证案例的偏倚报告。

主要结果

  1. 文献筛选结果
  2. 检索到 5508 篇文章,最终纳入 33 篇;检索到 205 本教科书,最终纳入 12 本。
  3. 纳入标准严格,确保每篇都有明确的"关于偏倚后果的一般性结论"。

  4. 核心发现一:量级结论的分裂

  5. 碰撞偏倚文献:多数结论为"影响微小"或"在特定条件下可忽略"。典型引用:"Collider bias is often described as minimal in magnitude."
  6. 选择偏倚文献:结论多为"效果可变"、"取决于具体机制"、"可能严重"。
  7. 统计含义:这一分裂与理论上的"等价性"直接矛盾。

  8. 核心发现二:评估条件的差异

  9. 碰撞偏倚文献:多数在 sharp null hypothesis\(A \perp\!\!\!\perp Y\))下评估偏倚。本文统计:33 篇中,明确提及 sharp null 的占多数。
  10. 选择偏倚文献:通常在更一般的设定下讨论,不假设 \(A \perp\!\!\!\perp Y\)
  11. 统计含义:Sharp null 下,碰撞偏倚的量级确实可能较小;但若 \(A\)\(Y\) 有真实效应,偏倚可能放大。现有文献的"微小"结论可能是评估条件的人为产物。

  12. 核心发现三:交互作用的角色

  13. 碰撞偏倚文献:较少讨论 \(A\)\(Y\) 之间的交互作用;若讨论,多聚焦乘性交互。
  14. 选择偏倚文献:常涉及乘性与加性交互的区别,且强调交互作用对偏倚方向的影响。
  15. 统计含义:交互作用是决定碰撞偏倚量级的关键因素(见第二节最小内核),但现有文献对其讨论不足。

  16. 核心发现四:受影响的层

  17. 碰撞偏倚文献:多讨论"全样本"层面的偏倚,较少区分不同层。
  18. 选择偏倚文献:常区分不同选择层(如病例-对照研究中的选择层)。

证明路线与技术技巧: 本文为综述,无数学证明。但其证据合成逻辑如下: 1. 分类与编码:将每篇文献的结论编码为"微小/可变/严重"等类别,并记录评估条件。 2. 对比分析:对比碰撞偏倚与选择偏倚两类文献的结论分布,识别系统性差异。 3. 归因分析:将差异归因于评估条件(sharp null、交互尺度)的不同。 4. 逻辑链条:理论等价 → 文献结论分裂 → 评估条件不同 → 建议统一评估框架。

真实例子与应用: 本文为纯综述,无真实数据例子。但其证据来源是 33 篇方法学文章与 12 本教科书,每篇都包含具体的偏倚场景与结论。本文在结果部分引用了多篇文献的具体语句,作为证据支撑。

🔎 结论是否比证明窄: 本文的结论严格基于纳入文献的内容分析,未做外推。但有一点值得注意:作者建议"未来研究应在非 sharp null 下评估碰撞偏倚",这一建议是基于现有文献的缺口,而非本文的直接证据。换言之,本文并未证明"非 sharp null 下碰撞偏倚更大",而是指出"现有文献未在非 sharp null 下评估,因此结论可能偏颇"。这一区分需要研究者注意。


四、开放问题(点到为止,扎根具体语句)

  1. 非 Sharp Null 下的碰撞偏倚量化:本文结论部分明确指出:"Investigating collider bias not under the sharp null... may improve our ability to predict and quantify its impact."——扎根于 Abstract 与 Conclusion。问题:在 \(A\)\(Y\) 有真实因果效应(非 sharp null)时,碰撞偏倚的量级与方向如何随效应大小、交互作用形式变化?是否有解析界或敏感性分析框架?

  2. 乘性 vs. 加性交互的统一框架:本文发现碰撞偏倚文献多讨论乘性交互,而选择偏倚文献涉及加性交互。问题:能否建立一个统一框架,同时刻画乘性与加性交互对碰撞偏倚的影响?这一框架是否能解释两类文献结论的分裂?

  3. 碰撞偏倚的敏感性分析工具:本文指出碰撞偏倚文献缺乏实用的敏感性分析工具。问题:能否借鉴选择偏倚的敏感性分析框架(如 E-value、bounding approach),开发针对碰撞偏倚的敏感性分析方法?该方法应能处理非 sharp null 场景。

  4. 理论等价性的边界条件:本文假设选择偏倚与碰撞偏倚在理论上等价,但未深究边界条件。问题:是否存在特定场景(如基于结局的选择、动态选择),使得两者的偏倚结构不再等价?这一边界条件是否解释了文献结论的分裂?

提醒:要确认某条是否真 gap,建议检索 2024-2025 年的因果推断方法学文献,查看是否有"非 sharp null 下碰撞偏倚"的相关工作。若 5 篇以上 intro 都指向这一缺口,则为共识;若互相打架,则为机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论