How can the use of different modes of survey data collection introduce bias? An introduction to mode effects using directed acyclic graphs (DAGs)¶

作者: Georgia D Tomova, Richard J Silverwood, Peter W G Tennant, Liam Wright
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本问题是：在流行病学与社会调查的混合模式数据收集（如同时提供面对面访谈与在线问卷）中，如何识别并消除由“测量机制差异”与“样本构成差异”交织产生的偏倚。当前成熟度处于“现象已知、DAG定性框架刚建立、定量修正工具尚未统一”的阶段：调查方法论领域早已承认模式效应与模式选择的存在，但流行病学实证分析中普遍采用朴素的条件化（如回归调整调查模式）来处理，尚未充分意识到这种操作在特定因果结构下会引入新的碰撞偏倚。

发展脉络（history）： - 奠基工作：调查方法论领域早期工作（如 Vannieuwenhuyze 等 2014，引用号 25-27）已用简单因果图考虑过模式效应与选择的混淆，但仅限于狭窄场景，且未系统剖析条件化带来的偏倚结构。 - 主要进展：流行病学因果图工具的成熟——Schisterman 等 2009 定义了过度调整偏倚；Lu 等 2022 统一了选择偏倚的定义（Type 1: 碰撞器条件化；Type 2: 效果测量修饰因子限制）；Tennant 等 2020 与 van Zwieten 等 2022 推广了 DAG 在混杂识别与中介/过度调整中的应用。这些工作为识别“条件化模式变量”的偏倚性质提供了语言。 - 当前 frontier：混合模式调查中测量误差与选择偏倚的交织。Shino 等 2021 与 Struminskaya 等 2021 在调查方法论中讨论了代表性与测量的双重效应及无应答偏倚，但未用因果图完整推演条件化的后果；Shaw 等 2018 与 Boe 等 2022 提供了回归校准的实用指南，VanderWeele 等 2018 提供了差分测量误差的敏感性分析公式，但均未针对“模式变量作为碰撞器”这一特定结构给出修正方案。 - 本文的位置：本文是首次在流行病学语境下，用 DAG 系统遍历混合模式调查的真实值、测量值、模式选择变量之间的因果结构，明确指出“对模式做条件化或等价插补”会激活碰撞器分层偏倚，并建议转向定量偏倚分析。

子线索聚类： 1. 因果图与偏倚定性识别：Schisterman 2009（过度调整）、Lu 2022（选择偏倚统一定义）、Tennant 2020（DAG 实践指南）、van Zwieten 2022（过度调整避坑）。这一簇在用 DAG 语言定义与分类偏倚，为本文识别“模式条件化=碰撞器偏倚”提供理论标签。 2. 混合模式调查的实证与方法：Burkill 2016（同一受访者跨模式测量的差异实证）、Vannieuwenhuyze 2014（用协变量调整分离选择与测量效应，但假设极强）、Shino 2021（双模式调查中的代表性与测量效应）、Struminskaya 2021（混合模式面板的无应答偏倚与调查期长度）。这一簇积累了模式效应存在的实证证据，并尝试了朴素调整方案。 3. 测量误差修正与敏感性分析：Shaw 2018（流行病学测量误差实践综述）、Rutter 2023（UK Biobank 回归稀释偏倚与校准）、Boe 2022（回归校准实操问题）、VanderWeele 2018（差分测量误差敏感性分析公式）。这一簇提供了定量工具，但未针对“模式碰撞器”结构定制。

这个方向在追问的核心问题： 1. 模式效应（测量差异）与模式选择（样本构成差异）在什么因果结构下会产生不可分离的混淆偏倚？ 2. 对调查模式变量做条件化（回归调整、分层、插补）在什么条件下会消除偏倚，又在什么条件下会引入或放大碰撞偏倚？ 3. 当条件化不可行时，如何利用校准数据或敏感性分析对模式效应进行定量修正？

⚠️ 作者的 framing： - 作者把缺口 frame 成：流行病学界对模式效应的处理往往停留在“朴素条件化”，而未意识到模式变量在存在模式选择时充当碰撞器，条件化会打开非因果路径。这让“用 DAG 阐明碰撞结构并转向定量偏倚分析”成为显然的下一步。 - 被淡化或回避的竞争路线：Vannieuwenhuyze 2014 提出的“用协变量解释测量效应而非选择效应”的替代模型，作者仅在引用中提及其“假设极强”，未在正文中系统对比其与定量偏倚分析的优劣；基于测量误差模型的参数化修正（如回归校准）被提及但未被作为主要推荐，作者主推敏感性分析。 - 什么明显该被引 / 该存在却没出现：因果推断中关于“不可观测碰撞器”的识别与 bounds 文献（如 Manski 1990 的 partial identification，或 Balke & Pearl 1997 的 bounds），以及 proximal causal inference（用代理变量替代不可观测碰撞器）的近期工作——这些直接处理“条件化不可行时的替代识别策略”，却未在 intro 出现。这是值得研究者去查的缺口。

张力：未见明显对立引用。各被引工作在不同子线索上互补：DAG 文献提供定性语言，调查文献提供实证证据，测量误差文献提供定量工具。唯一潜在张力：Vannieuwenhuyze 2014 建议用协变量调整分离选择与测量效应，而本文结论是这种调整在模式为碰撞器时可能引入偏倚——但本文并未直接证明 Vannieuwenhuyze 的方法失效，仅指出其假设极强。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X\)：潜在真实暴露值（latent true exposure，如真实的水果摄入量），不可直接观测。
\(Y\)：潜在真实结局值（latent true outcome，如真实的心血管疾病状态），不可直接观测。
\(M\)：调查模式变量（mode of data collection），取值为 {在线问卷, 面对面访谈} 等，可观测。
\(S\)：参与/选择变量（selection / participation），取值为 {参与调查, 不参与}，部分可观测（只观测到 \(S=1\) 的样本）。
\(X^*\)：测量暴露值（measured exposure），由真实值 \(X\) 经模式 \(M\) 测量后得到，可观测（当 \(S=1\) 时）。
\(Y^*\)：测量结局值（measured outcome），由真实值 \(Y\) 经模式 \(M\) 测量后得到，可观测（当 \(S=1\) 时）。
\(U_X, U_Y\)：影响真实值 \(X, Y\) 的不可观测背景变量（如健康意识、教育水平）。
\(U_P\)：影响参与倾向 \(S\) 的不可观测背景变量（如技术熟练度、时间可用性）。
estimand：\(X\) 对 \(Y\) 的因果效应（如 \(P(Y=1 \mid do(X=x)) - P(Y=1 \mid do(X=x'))\)），或更常见的，在可观测样本中 \(X^*\) 对 \(Y^*\) 的关联能否无偏估计该因果效应。

模型（数据生成机制）： 1. 真实值生成：\(X \leftarrow U_X\), \(Y \leftarrow X + U_Y\)（\(X\) 因果影响 \(Y\)，且可能有不可观测混杂 \(U_X \rightarrow U_Y\)）。 2. 模式选择：\(M \leftarrow X, Y, U_P\) 等（个体的真实特征与背景决定其选择哪种模式）。 3. 参与决定：\(S \leftarrow M, U_P\) 等（模式可用性与背景决定其是否参与）。 4. 测量生成：\(X^* \leftarrow X, M\)（模式影响测量，如在线问卷可能低估摄入量）；\(Y^* \leftarrow Y, M\)（同理）。 5. 研究者实际能观测到的是：\(\{M, X^*, Y^*\}\) 在 \(S=1\) 的子样本中的取值。\(X, Y, U_X, U_Y, U_P, S\) 的完整状态不可观测。

第二步：最小内核——模式变量作为碰撞器的条件化偏倚

剥掉所有高维、多模式、纵向的复杂性，考虑最简特例：单一暴露 \(X\)、单一结局 \(Y\)、两种模式 \(M \in \{0, 1\}\)，且存在模式选择（\(X\) 与 \(U_P\) 共同决定 \(M\)）与模式效应（\(M\) 影响 \(X^*\) 的测量）。

核心 DAG 结构： - \(X \rightarrow M\)（真实暴露影响模式选择，如高教育者更倾向在线问卷） - \(U_P \rightarrow M\)（参与倾向影响模式选择，如技术熟练者更倾向在线） - \(X \rightarrow X^*\)（真实值决定测量值） - \(M \rightarrow X^*\)（模式影响测量，即模式效应） - \(U_P \rightarrow Y\)（参与倾向与真实结局相关，如技术熟练者更健康）

在这个结构下，\(M\) 是 \(X\) 与 \(U_P\) 的碰撞器（\(X \rightarrow M \leftarrow U_P\)）。

要证的命题（退化到最简情形）：在 \(S=1\) 的可观测样本中，对 \(M\) 做条件化（如回归调整 \(M\)，或在 \(M=0\) 与 \(M=1\) 子样本中分别估计再合并），会打开 \(X \rightarrow M \leftarrow U_P \rightarrow Y\) 这条非因果路径，使得 \(X^*\) 与 \(Y^*\)（或 \(Y\)）之间的关联不仅包含 \(X \rightarrow Y\) 的因果效应与测量误差，还包含由 \(U_P\) 传导的虚假关联。

为什么成立（直觉走一遍）： 1. 不条件化 \(M\) 时：\(X\) 与 \(U_P\) 在边际上独立（无共同祖先），\(X \rightarrow M \leftarrow U_P\) 路径阻塞，\(X\) 与 \(Y\) 之间的关联仅来自 \(X \rightarrow Y\)（因果）与可能的 \(U_X \rightarrow X, U_X \rightarrow Y\)（混杂）。 2. 条件化 \(M=m\) 时：在 \(M=m\) 的子人群中，\(X\) 高的人更可能因 \(X\) 选了 \(M=m\)，\(U_P\) 高的人也更可能因 \(U_P\) 选了 \(M=m\)。因此，在 \(M=m\) 子人群中，\(X\) 与 \(U_P\) 不再独立——\(X\) 高时 \(U_P\) 倾向低（因为两者都能导致 \(M=m\)，观察到一个高，另一个就不必那么高也能达到同一 \(M\)），反之亦然。这打开了 \(X \rightarrow M \leftarrow U_P \rightarrow Y\) 的路径，使得 \(X\) 与 \(Y\) 之间多了一条非因果关联。 3. 如果研究者用 \(X^*\) 替代 \(X\)，且 \(M \rightarrow X^*\)，则 \(X^*\) 继承了 \(X\) 与 \(M\) 的关联，条件化 \(M\) 同样会通过 \(X^*\) 与 \(U_P\) 的诱导关联产生偏倚。 4. 等价操作：插补缺失的模式数据（如假设未观测到 \(M\) 的个体若在线会怎么回答）本质上也是对 \(M\) 的潜在值做条件化，同样激活碰撞器路径。

这个最小内核揭示了本文的核心数学困难：在存在模式选择时，模式变量 \(M\) 的因果角色是碰撞器而非混杂因子，对它做条件化不是“控制偏倚”而是“制造偏倚”。整篇论文的后续结构分析，都是在这个内核上加壳（加入 \(Y \rightarrow M\)、\(M \rightarrow Y^*\)、中介结构等），但核心机制始终是“碰撞器条件化打开非因果路径”。

三、这篇论文做了什么¶

三句话： ①研究了混合模式调查数据中，模式效应（测量差异）与模式选择（样本构成差异）如何通过 DAG 结构产生偏倚，以及朴素条件化方法为何失效。 ②核心工具是 DAG 定性分析（识别模式变量作为碰撞器的结构）与定量偏倚分析的建议。 ③主要结论是：在存在模式选择时，对模式做条件化（回归调整、分层、插补）会引入碰撞器分层偏倚，应转向定量偏倚分析（如敏感性分析）。

关键设定与假设：在第二节最小记号基础上补全： - 模式效应：\(M \rightarrow X^*\) 与/或 \(M \rightarrow Y^*\) 存在（模式直接影响测量值）。统计含义：同一真实值在不同模式下被测量出不同结果，即差分测量误差。 - 模式选择：\(X \rightarrow M\)、\(Y \rightarrow M\)、\(U_P \rightarrow M\) 等存在（真实值或背景变量影响模式选择）。统计含义：不同特征的个体选择不同模式，导致各模式子样本的构成差异。 - 参与选择：\(S\) 节点及其父节点（如 \(U_P \rightarrow S\)）。统计含义：只有 \(S=1\) 的个体进入可观测样本，这是经典选择偏倚来源。 - 过度调整 / 中介结构：若 \(M\) 是 \(X \rightarrow Y\) 路径上的中介（或与中介强相关），对 \(M\) 条件化会阻断因果路径，引入过度调整偏倚（引用 Schisterman 2009 与 van Zwieten 2022）。 - 假设的放宽/强化：相比 Vannieuwenhuyze 2014（假设存在足够协变量能完全解释选择或测量效应），本文不假设此类协变量存在，反而强调在不可观测背景变量（\(U_P\)）存在时，条件化必然引入偏倚。

主要结果：本文为定性 / 方法型，无定理证明，核心结果是 DAG 结构分类与偏倚方向的定性判定： 1. 模式作为混杂因子（图 2A）：\(M\) 仅由暴露外变量决定且直接影响结局测量（\(M \rightarrow Y^*\)），但不影响暴露测量也不受真实值影响。此时对 \(M\) 条件化可消除混杂偏倚。这是最无害但罕见的结构。 2. 模式作为碰撞器（图 2B）：\(X \rightarrow M \leftarrow U_P\) 且 \(U_P \rightarrow Y\)。此时对 \(M\) 条件化打开 \(X - U_P - Y\) 非因果路径，引入碰撞器偏倚。这是本文最核心的警示结构。 3. 模式作为中介 / 过度调整（图 2C）：\(X \rightarrow M \rightarrow Y^*\)（模式是因果路径上的中介）。对 \(M\) 条件化阻断因果效应，引入过度调整偏倚。 4. 复合结构（图 3）：真实暴露与真实结局共同决定模式选择（\(X \rightarrow M, Y \rightarrow M\)），且模式影响两者测量（\(M \rightarrow X^*, M \rightarrow Y^*\)）。此时 \(M\) 既是碰撞器（\(X \rightarrow M \leftarrow Y\)）又带模式效应。对 \(M\) 条件化同时打开 \(X-Y\) 的非因果路径并可能阻断中介路径，偏倚方向不确定（可能放大或缩小真实效应），且无法通过简单调整消除。 5. 插补等价于条件化：文中明确指出，对缺失模式数据的插补（如假设未观测个体的潜在模式回答）本质上是对 \(M\) 的潜在值做条件化，在碰撞器结构下同样引入偏倚。

证明路线与技术技巧：本文无数学证明，核心论证路线是DAG 的 d-分离判定： 1. 整体路线：枚举混合模式调查中可能的因果结构（模式作为混杂、碰撞器、中介、复合）→ 在每种结构下判定对 \(M\) 条件化后哪些路径被打开/阻断 → 对比条件化前后的偏倚来源与方向 → 得出“条件化在碰撞器/中介结构下有害”的结论。 2. 关键跳跃点：从“模式效应存在”到“条件化模式有害”的跳跃，依赖于识别 \(M\) 的碰撞器角色（\(X \rightarrow M \leftarrow U_P\) 或 \(X \rightarrow M \leftarrow Y\)）。这一步的难点在于：流行病学直觉常把“影响结局的变量”当作混杂因子去调整，而忽略了它可能是真实值与不可观测背景的共同后代。作者用 Lu 2022 的 Type 1 选择偏倚框架来定位这一现象。 3. 技术技巧点名： - d-分离：用于判定条件化 \(M\) 后路径的打开/阻断，是整篇论文的推理引擎。 - 碰撞器分层偏倚：核心定性工具，来自 Hernán 等 2004 与 Lu 2022 的选择偏倚分类。 - 过度调整偏倚：来自 Schisterman 2009 的定义，用于处理 \(M\) 作为中介的结构。 - 差分测量误差：\(M \rightarrow X^*\) 的结构，来自测量误差文献（Shaw 2018, VanderWeele 2018）。

真实例子与应用：本文为纯方法 / 框架型论文，无真实数据实证例子。文中提到的 UK National Diet and Nutrition Survey（引用 2）与 Natsal-3（引用 39）仅作为背景举例说明混合模式调查的存在，并未用本文框架分析具体数据。文中也未提供模拟实验量化偏倚大小。作者在讨论部分建议采用定量偏倚分析（如 VanderWeele 2018 的敏感性分析公式或模拟不同模式效应大小下的偏倚范围），但未给出具体操作步骤或代码。

🔎 结论是否比证明窄：本文的结论“对模式做条件化可能引入碰撞器偏倚”在 DAG 结构假设下严格成立（d-分离判定是确定性的）。但以下地方被泛泛 claim 而未严格限定： - “定量偏倚分析是处理模式效应的推荐方法”——这一推荐未给出具体实施框架，也未证明在复合结构下敏感性分析能给出 bounds 而非点估计。 - “插补等价于条件化且同样引入偏倚”——这一 claim 依赖于插补模型对 \(M\) 的潜在值做条件化，但若插补模型仅用 \(M\) 的观测值作为特征而不做反事实推断，是否同样激活碰撞器路径？文中未区分这两种插补的因果含义。

四、开放问题（点到为止，扎根具体语句）¶

碰撞器结构下的 partial identification / bounds：本文指出条件化 \(M\) 引入偏倚且方向不确定（图 3 复合结构），但未给出在不可观测 \(U_P\) 与 \(X, Y\) 下的效应 bounds。扎根点：文中“the direction of bias is unpredictable”与“quantitative bias analysis”建议——可追问：在 \(X \rightarrow M \leftarrow Y\) 且 \(M \rightarrow X^*, Y^*\) 的结构下，\(X\) 对 \(Y\) 的因果效应的 sharp bounds 是什么？（需查 Manski 1990 或 Balke & Pearl 1997 的 bounds 框架是否可移植到此结构。）
proximal causal inference 替代条件化：文中未引 proximal causal inference 文献，但 \(U_P\) 不可观测是核心瓶颈。扎根点：文中“unmeasured common causes of mode selection and the outcome”——可追问：若存在 \(U_P\) 的代理变量（如技术使用痕迹），能否用 proximal identification 框架（Tchetgen Tchetgen 等 2020）替代对 \(M\) 的条件化，实现无偏识别？
差分测量误差与碰撞器偏倚的定量分离：本文定性指出模式效应（\(M \rightarrow X^*\)）与碰撞器偏倚（\(X \rightarrow M \leftarrow U_P \rightarrow Y\)）共存，但未给出两者的定量贡献分解。扎根点：VanderWeele 2018 的差分测量误差敏感性分析公式仅处理测量误差，未处理碰撞器——可追问：在复合结构下，如何设计敏感性分析同时参数化模式效应大小与碰撞器关联强度，并给出修正估计的 bounds？
纵向混合模式下的偏倚累积：本文仅考虑单时间点测量，未涉及纵向面板调查中模式切换的偏倚。扎根点：Struminskaya 2021 讨论了面板无应答，但未用 DAG——可追问：在 \(t=1, 2\) 两期面板中，若 \(M_1\) 影响 \(M_2\) 的选择且 \(M_1\) 是碰撞器，条件化 \(M_1, M_2\) 会打开哪些跨时间路径？（需查纵向因果推断的 DAG 文献，如 VanderWeele 2019 的 longitudinal mediation。）

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

How can the use of different modes of survey data collection introduce bias? An introduction to mode effects using directed acyclic graphs (DAGs)¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论