跳转至

How can the use of different modes of survey data collection introduce bias? An introduction to mode effects using directed acyclic graphs (DAGs)

作者: Georgia D Tomova, Richard J Silverwood, Peter W G Tennant, Liam Wright
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本问题是:在流行病学与社会调查的混合模式数据收集(如同时提供面对面访谈与在线问卷)中,如何识别并消除由“测量机制差异”与“样本构成差异”交织产生的偏倚。当前成熟度处于“现象已知、DAG定性框架刚建立、定量修正工具尚未统一”的阶段:调查方法论领域早已承认模式效应与模式选择的存在,但流行病学实证分析中普遍采用朴素的条件化(如回归调整调查模式)来处理,尚未充分意识到这种操作在特定因果结构下会引入新的碰撞偏倚。

发展脉络(history): - 奠基工作:调查方法论领域早期工作(如 Vannieuwenhuyze 等 2014,引用号 25-27)已用简单因果图考虑过模式效应与选择的混淆,但仅限于狭窄场景,且未系统剖析条件化带来的偏倚结构。 - 主要进展:流行病学因果图工具的成熟——Schisterman 等 2009 定义了过度调整偏倚;Lu 等 2022 统一了选择偏倚的定义(Type 1: 碰撞器条件化;Type 2: 效果测量修饰因子限制);Tennant 等 2020 与 van Zwieten 等 2022 推广了 DAG 在混杂识别与中介/过度调整中的应用。这些工作为识别“条件化模式变量”的偏倚性质提供了语言。 - 当前 frontier:混合模式调查中测量误差与选择偏倚的交织。Shino 等 2021 与 Struminskaya 等 2021 在调查方法论中讨论了代表性与测量的双重效应及无应答偏倚,但未用因果图完整推演条件化的后果;Shaw 等 2018 与 Boe 等 2022 提供了回归校准的实用指南,VanderWeele 等 2018 提供了差分测量误差的敏感性分析公式,但均未针对“模式变量作为碰撞器”这一特定结构给出修正方案。 - 本文的位置:本文是首次在流行病学语境下,用 DAG 系统遍历混合模式调查的真实值、测量值、模式选择变量之间的因果结构,明确指出“对模式做条件化或等价插补”会激活碰撞器分层偏倚,并建议转向定量偏倚分析。

子线索聚类: 1. 因果图与偏倚定性识别:Schisterman 2009(过度调整)、Lu 2022(选择偏倚统一定义)、Tennant 2020(DAG 实践指南)、van Zwieten 2022(过度调整避坑)。这一簇在用 DAG 语言定义与分类偏倚,为本文识别“模式条件化=碰撞器偏倚”提供理论标签。 2. 混合模式调查的实证与方法:Burkill 2016(同一受访者跨模式测量的差异实证)、Vannieuwenhuyze 2014(用协变量调整分离选择与测量效应,但假设极强)、Shino 2021(双模式调查中的代表性与测量效应)、Struminskaya 2021(混合模式面板的无应答偏倚与调查期长度)。这一簇积累了模式效应存在的实证证据,并尝试了朴素调整方案。 3. 测量误差修正与敏感性分析:Shaw 2018(流行病学测量误差实践综述)、Rutter 2023(UK Biobank 回归稀释偏倚与校准)、Boe 2022(回归校准实操问题)、VanderWeele 2018(差分测量误差敏感性分析公式)。这一簇提供了定量工具,但未针对“模式碰撞器”结构定制。

这个方向在追问的核心问题: 1. 模式效应(测量差异)与模式选择(样本构成差异)在什么因果结构下会产生不可分离的混淆偏倚? 2. 对调查模式变量做条件化(回归调整、分层、插补)在什么条件下会消除偏倚,又在什么条件下会引入或放大碰撞偏倚? 3. 当条件化不可行时,如何利用校准数据或敏感性分析对模式效应进行定量修正?

⚠️ 作者的 framing: - 作者把缺口 frame 成:流行病学界对模式效应的处理往往停留在“朴素条件化”,而未意识到模式变量在存在模式选择时充当碰撞器,条件化会打开非因果路径。这让“用 DAG 阐明碰撞结构并转向定量偏倚分析”成为显然的下一步。 - 被淡化或回避的竞争路线:Vannieuwenhuyze 2014 提出的“用协变量解释测量效应而非选择效应”的替代模型,作者仅在引用中提及其“假设极强”,未在正文中系统对比其与定量偏倚分析的优劣;基于测量误差模型的参数化修正(如回归校准)被提及但未被作为主要推荐,作者主推敏感性分析。 - 什么明显该被引 / 该存在却没出现:因果推断中关于“不可观测碰撞器”的识别与 bounds 文献(如 Manski 1990 的 partial identification,或 Balke & Pearl 1997 的 bounds),以及 proximal causal inference(用代理变量替代不可观测碰撞器)的近期工作——这些直接处理“条件化不可行时的替代识别策略”,却未在 intro 出现。这是值得研究者去查的缺口。

张力: 未见明显对立引用。各被引工作在不同子线索上互补:DAG 文献提供定性语言,调查文献提供实证证据,测量误差文献提供定量工具。唯一潜在张力:Vannieuwenhuyze 2014 建议用协变量调整分离选择与测量效应,而本文结论是这种调整在模式为碰撞器时可能引入偏倚——但本文并未直接证明 Vannieuwenhuyze 的方法失效,仅指出其假设极强。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(X\):潜在真实暴露值(latent true exposure,如真实的水果摄入量),不可直接观测。
  • \(Y\):潜在真实结局值(latent true outcome,如真实的心血管疾病状态),不可直接观测。
  • \(M\):调查模式变量(mode of data collection),取值为 {在线问卷, 面对面访谈} 等,可观测
  • \(S\):参与/选择变量(selection / participation),取值为 {参与调查, 不参与},部分可观测(只观测到 \(S=1\) 的样本)。
  • \(X^*\):测量暴露值(measured exposure),由真实值 \(X\) 经模式 \(M\) 测量后得到,可观测(当 \(S=1\) 时)。
  • \(Y^*\):测量结局值(measured outcome),由真实值 \(Y\) 经模式 \(M\) 测量后得到,可观测(当 \(S=1\) 时)。
  • \(U_X, U_Y\):影响真实值 \(X, Y\) 的不可观测背景变量(如健康意识、教育水平)。
  • \(U_P\):影响参与倾向 \(S\) 的不可观测背景变量(如技术熟练度、时间可用性)。
  • estimand\(X\)\(Y\) 的因果效应(如 \(P(Y=1 \mid do(X=x)) - P(Y=1 \mid do(X=x'))\)),或更常见的,在可观测样本中 \(X^*\)\(Y^*\) 的关联能否无偏估计该因果效应。

模型(数据生成机制): 1. 真实值生成:\(X \leftarrow U_X\), \(Y \leftarrow X + U_Y\)\(X\) 因果影响 \(Y\),且可能有不可观测混杂 \(U_X \rightarrow U_Y\))。 2. 模式选择:\(M \leftarrow X, Y, U_P\) 等(个体的真实特征与背景决定其选择哪种模式)。 3. 参与决定:\(S \leftarrow M, U_P\) 等(模式可用性与背景决定其是否参与)。 4. 测量生成:\(X^* \leftarrow X, M\)(模式影响测量,如在线问卷可能低估摄入量);\(Y^* \leftarrow Y, M\)(同理)。 5. 研究者实际能观测到的是:\(\{M, X^*, Y^*\}\)\(S=1\) 的子样本中的取值。\(X, Y, U_X, U_Y, U_P, S\) 的完整状态不可观测。

第二步:最小内核——模式变量作为碰撞器的条件化偏倚

剥掉所有高维、多模式、纵向的复杂性,考虑最简特例:单一暴露 \(X\)、单一结局 \(Y\)、两种模式 \(M \in \{0, 1\}\),且存在模式选择(\(X\)\(U_P\) 共同决定 \(M\))与模式效应(\(M\) 影响 \(X^*\) 的测量)。

核心 DAG 结构: - \(X \rightarrow M\)(真实暴露影响模式选择,如高教育者更倾向在线问卷) - \(U_P \rightarrow M\)(参与倾向影响模式选择,如技术熟练者更倾向在线) - \(X \rightarrow X^*\)(真实值决定测量值) - \(M \rightarrow X^*\)(模式影响测量,即模式效应) - \(U_P \rightarrow Y\)(参与倾向与真实结局相关,如技术熟练者更健康)

在这个结构下,\(M\)\(X\)\(U_P\)碰撞器\(X \rightarrow M \leftarrow U_P\))。

要证的命题(退化到最简情形): 在 \(S=1\) 的可观测样本中,对 \(M\) 做条件化(如回归调整 \(M\),或在 \(M=0\)\(M=1\) 子样本中分别估计再合并),会打开 \(X \rightarrow M \leftarrow U_P \rightarrow Y\) 这条非因果路径,使得 \(X^*\)\(Y^*\)(或 \(Y\))之间的关联不仅包含 \(X \rightarrow Y\) 的因果效应与测量误差,还包含由 \(U_P\) 传导的虚假关联。

为什么成立(直觉走一遍): 1. 不条件化 \(M\) 时:\(X\)\(U_P\) 在边际上独立(无共同祖先),\(X \rightarrow M \leftarrow U_P\) 路径阻塞,\(X\)\(Y\) 之间的关联仅来自 \(X \rightarrow Y\)(因果)与可能的 \(U_X \rightarrow X, U_X \rightarrow Y\)(混杂)。 2. 条件化 \(M=m\) 时:在 \(M=m\) 的子人群中,\(X\) 高的人更可能因 \(X\) 选了 \(M=m\)\(U_P\) 高的人也更可能因 \(U_P\) 选了 \(M=m\)。因此,在 \(M=m\) 子人群中,\(X\)\(U_P\) 不再独立——\(X\) 高时 \(U_P\) 倾向低(因为两者都能导致 \(M=m\),观察到一个高,另一个就不必那么高也能达到同一 \(M\)),反之亦然。这打开了 \(X \rightarrow M \leftarrow U_P \rightarrow Y\) 的路径,使得 \(X\)\(Y\) 之间多了一条非因果关联。 3. 如果研究者用 \(X^*\) 替代 \(X\),且 \(M \rightarrow X^*\),则 \(X^*\) 继承了 \(X\)\(M\) 的关联,条件化 \(M\) 同样会通过 \(X^*\)\(U_P\) 的诱导关联产生偏倚。 4. 等价操作:插补缺失的模式数据(如假设未观测到 \(M\) 的个体若在线会怎么回答)本质上也是对 \(M\) 的潜在值做条件化,同样激活碰撞器路径。

这个最小内核揭示了本文的核心数学困难:在存在模式选择时,模式变量 \(M\) 的因果角色是碰撞器而非混杂因子,对它做条件化不是“控制偏倚”而是“制造偏倚”。整篇论文的后续结构分析,都是在这个内核上加壳(加入 \(Y \rightarrow M\)\(M \rightarrow Y^*\)、中介结构等),但核心机制始终是“碰撞器条件化打开非因果路径”。


三、这篇论文做了什么

三句话: ①研究了混合模式调查数据中,模式效应(测量差异)与模式选择(样本构成差异)如何通过 DAG 结构产生偏倚,以及朴素条件化方法为何失效。 ②核心工具是 DAG 定性分析(识别模式变量作为碰撞器的结构)与定量偏倚分析的建议。 ③主要结论是:在存在模式选择时,对模式做条件化(回归调整、分层、插补)会引入碰撞器分层偏倚,应转向定量偏倚分析(如敏感性分析)。

关键设定与假设: 在第二节最小记号基础上补全: - 模式效应\(M \rightarrow X^*\) 与/或 \(M \rightarrow Y^*\) 存在(模式直接影响测量值)。统计含义:同一真实值在不同模式下被测量出不同结果,即差分测量误差。 - 模式选择\(X \rightarrow M\)\(Y \rightarrow M\)\(U_P \rightarrow M\) 等存在(真实值或背景变量影响模式选择)。统计含义:不同特征的个体选择不同模式,导致各模式子样本的构成差异。 - 参与选择\(S\) 节点及其父节点(如 \(U_P \rightarrow S\))。统计含义:只有 \(S=1\) 的个体进入可观测样本,这是经典选择偏倚来源。 - 过度调整 / 中介结构:若 \(M\)\(X \rightarrow Y\) 路径上的中介(或与中介强相关),对 \(M\) 条件化会阻断因果路径,引入过度调整偏倚(引用 Schisterman 2009 与 van Zwieten 2022)。 - 假设的放宽/强化:相比 Vannieuwenhuyze 2014(假设存在足够协变量能完全解释选择或测量效应),本文不假设此类协变量存在,反而强调在不可观测背景变量(\(U_P\))存在时,条件化必然引入偏倚。

主要结果: 本文为定性 / 方法型,无定理证明,核心结果是 DAG 结构分类与偏倚方向的定性判定: 1. 模式作为混杂因子(图 2A):\(M\) 仅由暴露外变量决定且直接影响结局测量(\(M \rightarrow Y^*\)),但不影响暴露测量也不受真实值影响。此时对 \(M\) 条件化可消除混杂偏倚。这是最无害但罕见的结构。 2. 模式作为碰撞器(图 2B):\(X \rightarrow M \leftarrow U_P\)\(U_P \rightarrow Y\)。此时对 \(M\) 条件化打开 \(X - U_P - Y\) 非因果路径,引入碰撞器偏倚。这是本文最核心的警示结构。 3. 模式作为中介 / 过度调整(图 2C):\(X \rightarrow M \rightarrow Y^*\)(模式是因果路径上的中介)。对 \(M\) 条件化阻断因果效应,引入过度调整偏倚。 4. 复合结构(图 3):真实暴露与真实结局共同决定模式选择(\(X \rightarrow M, Y \rightarrow M\)),且模式影响两者测量(\(M \rightarrow X^*, M \rightarrow Y^*\))。此时 \(M\) 既是碰撞器(\(X \rightarrow M \leftarrow Y\))又带模式效应。对 \(M\) 条件化同时打开 \(X-Y\) 的非因果路径并可能阻断中介路径,偏倚方向不确定(可能放大或缩小真实效应),且无法通过简单调整消除。 5. 插补等价于条件化:文中明确指出,对缺失模式数据的插补(如假设未观测个体的潜在模式回答)本质上是对 \(M\) 的潜在值做条件化,在碰撞器结构下同样引入偏倚。

证明路线与技术技巧: 本文无数学证明,核心论证路线是DAG 的 d-分离判定: 1. 整体路线:枚举混合模式调查中可能的因果结构(模式作为混杂、碰撞器、中介、复合)→ 在每种结构下判定对 \(M\) 条件化后哪些路径被打开/阻断 → 对比条件化前后的偏倚来源与方向 → 得出“条件化在碰撞器/中介结构下有害”的结论。 2. 关键跳跃点:从“模式效应存在”到“条件化模式有害”的跳跃,依赖于识别 \(M\) 的碰撞器角色(\(X \rightarrow M \leftarrow U_P\)\(X \rightarrow M \leftarrow Y\))。这一步的难点在于:流行病学直觉常把“影响结局的变量”当作混杂因子去调整,而忽略了它可能是真实值与不可观测背景的共同后代。作者用 Lu 2022 的 Type 1 选择偏倚框架来定位这一现象。 3. 技术技巧点名: - d-分离:用于判定条件化 \(M\) 后路径的打开/阻断,是整篇论文的推理引擎。 - 碰撞器分层偏倚:核心定性工具,来自 Hernán 等 2004 与 Lu 2022 的选择偏倚分类。 - 过度调整偏倚:来自 Schisterman 2009 的定义,用于处理 \(M\) 作为中介的结构。 - 差分测量误差\(M \rightarrow X^*\) 的结构,来自测量误差文献(Shaw 2018, VanderWeele 2018)。

真实例子与应用: 本文为纯方法 / 框架型论文,无真实数据实证例子。文中提到的 UK National Diet and Nutrition Survey(引用 2)与 Natsal-3(引用 39)仅作为背景举例说明混合模式调查的存在,并未用本文框架分析具体数据。文中也未提供模拟实验量化偏倚大小。作者在讨论部分建议采用定量偏倚分析(如 VanderWeele 2018 的敏感性分析公式或模拟不同模式效应大小下的偏倚范围),但未给出具体操作步骤或代码。

🔎 结论是否比证明窄: 本文的结论“对模式做条件化可能引入碰撞器偏倚”在 DAG 结构假设下严格成立(d-分离判定是确定性的)。但以下地方被泛泛 claim 而未严格限定: - “定量偏倚分析是处理模式效应的推荐方法”——这一推荐未给出具体实施框架,也未证明在复合结构下敏感性分析能给出 bounds 而非点估计。 - “插补等价于条件化且同样引入偏倚”——这一 claim 依赖于插补模型对 \(M\) 的潜在值做条件化,但若插补模型仅用 \(M\) 的观测值作为特征而不做反事实推断,是否同样激活碰撞器路径?文中未区分这两种插补的因果含义。


四、开放问题(点到为止,扎根具体语句)

  1. 碰撞器结构下的 partial identification / bounds:本文指出条件化 \(M\) 引入偏倚且方向不确定(图 3 复合结构),但未给出在不可观测 \(U_P\)\(X, Y\) 下的效应 bounds。扎根点:文中“the direction of bias is unpredictable”与“quantitative bias analysis”建议——可追问:在 \(X \rightarrow M \leftarrow Y\)\(M \rightarrow X^*, Y^*\) 的结构下,\(X\)\(Y\) 的因果效应的 sharp bounds 是什么?(需查 Manski 1990 或 Balke & Pearl 1997 的 bounds 框架是否可移植到此结构。)

  2. proximal causal inference 替代条件化:文中未引 proximal causal inference 文献,但 \(U_P\) 不可观测是核心瓶颈。扎根点:文中“unmeasured common causes of mode selection and the outcome”——可追问:若存在 \(U_P\) 的代理变量(如技术使用痕迹),能否用 proximal identification 框架(Tchetgen Tchetgen 等 2020)替代对 \(M\) 的条件化,实现无偏识别?

  3. 差分测量误差与碰撞器偏倚的定量分离:本文定性指出模式效应(\(M \rightarrow X^*\))与碰撞器偏倚(\(X \rightarrow M \leftarrow U_P \rightarrow Y\))共存,但未给出两者的定量贡献分解。扎根点:VanderWeele 2018 的差分测量误差敏感性分析公式仅处理测量误差,未处理碰撞器——可追问:在复合结构下,如何设计敏感性分析同时参数化模式效应大小与碰撞器关联强度,并给出修正估计的 bounds?

  4. 纵向混合模式下的偏倚累积:本文仅考虑单时间点测量,未涉及纵向面板调查中模式切换的偏倚。扎根点:Struminskaya 2021 讨论了面板无应答,但未用 DAG——可追问:在 \(t=1, 2\) 两期面板中,若 \(M_1\) 影响 \(M_2\) 的选择且 \(M_1\) 是碰撞器,条件化 \(M_1, M_2\) 会打开哪些跨时间路径?(需查纵向因果推断的 DAG 文献,如 VanderWeele 2019 的 longitudinal mediation。)

提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论