Empirically Assessing the Plausibility of Unconfoundedness in Observational Studies¶

作者: Fernando Pires Hartwig, Kate Tilling, George Davey Smith
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：观察性研究中的因果推断依赖于“无混杂性”假设——即条件于观测协变量后，处理分配与潜在结局独立。由于不可观测混杂的存在，该假设本质上不可验证。本子方向致力于寻找纯经验性、弱结构性的检验或诊断工具，以评估条件无混杂性的合理性，从而为因果效应估计提供可信度证据。当前该方向仍处于方法零散、尚未形成统一标准的阶段，成熟度较低。

发展脉络： - 奠基工作：Rosenbaum & Rubin (1983) 建立倾向得分框架，将无混杂性条件化，但留下核心缺口：如何验证选定的协变量集确实足以阻断所有混杂路径？ - 主要进展（混杂结构先验路线）：VanderWeele & Shpitser (2011) 提出基于因果图的混杂选取准则（控制所有处理或结局的直接原因），但作者在本文中指出，该路线“requires (at least partial) assumptions about the confounding structure, which may be difficult to know in practice”。Lipsitch et al. (2010) 引入阴性对照，作者评价其“assume that confounders between exposure and outcome are the same as the confounders between the negative control exposure/outcome”，同样依赖强先验。 - 主要进展（偏差放大路线）：Ding et al. (2017) 证明在线性及一般单调模型下，纳入工具变量会放大不可观测混杂偏差。本文作者引用此工作，指出若怀疑调整集含工具变量且无效，可移除之做敏感性分析，但这仍需“assume that the instrument is valid”。 - 当前 frontier（证据三角与选择偏差修正）：Lawlor et al. (2016) 与 Gutierrez et al. (2025) 推动证据三角，本文作者将其定位为本文方法的归宿：“Our method should be viewed as one tool that can be triangulated with other strategies”。Barry et al. (2020) 利用对撞偏差做 MR 偏差修正，作者承认其有用但指出“the modelling assumptions are considered plausible”仍是门槛。 - 本文的位置：作者试图填补一个空缺——提供一种不要求任何混杂结构先验知识的经验评估策略，仅依赖时间顺序与选择机制假设。

子线索聚类： 1. 混杂选取与图论路线：VanderWeele (2011, 2019), Witte & Didelez (2018)。依赖因果 DAG 的部分知识，决定该控制谁。瓶颈：DAG 子结构常不可知。 2. 阴性对照与对撞路线：Lipsitch et al. (2010), Ding et al. (2017), Barry et al. (2020)。利用额外变量（阴性暴露/结局、工具变量、对撞子）诊断偏差。瓶颈：需假设阴性对照与主暴露共享混杂结构，或工具变量有效。 3. 缺失数据与选择偏差修正路线：Sterne et al. (2009), Perkins et al. (2018)。用多重插补或逆概率加权修正选择偏差。瓶颈：需假设缺失机制（MAR）或选择机制已知。 4. 证据三角路线：Lawlor et al. (2016), Davey Smith (2020), Gutierrez et al. (2025)。整合不同偏差来源的研究。瓶颈：非形式化，难以给出单一 P 值或界。

核心追问与瓶颈： 1. 能否在零混杂结构先验下，仅凭观测数据给出条件无混杂性的经验反证？——当前主流（阴性对照、图论准则）均需先验；瓶颈在于如何避开它。 2. 当调整集既含混杂因子又含工具变量时，如何避免偏差放大？——Ding (2017) 给出理论，但需识别工具变量；瓶颈在于无图时的识别。 3. 选择偏差（条件于暴露后的对撞）能否被修正或利用？——Barry (2020) 利用它，但需模型假设；瓶颈在于强参数假设。

⚠️ 作者的 framing： - 作者将缺口 frame 为：“现有经验评估方法均需至少部分混杂结构假设，这在实践中难以获知”，从而让本文的“零混杂结构先验、仅靠时间顺序”策略成为显然的下一步。 - 被淡化或回避的竞争路线：半参数敏感性分析（如 Rosenbaum 的边界框架、Tchetgen 的 E-value）完全未在 intro 出现。这类方法同样不要求知道不可观测混杂的具体结构，只做边界量化，与本文“检验有无”的思路形成功能竞争。 - 明显该引却未出现的：Rosenbaum (2002) 的敏感性分析专著；Tchetgen & VanderWeele (2012) 的 E-value / RB 框架；VanderWeele & Ding (2017) 的 E-value 论文。这些是评估无混杂性合理性的标准工具，缺席值得研究者去查——是作者刻意划定边界，还是遗漏？

张力：未见明显对立引用。但存在隐性张力：Ding et al. (2017) 指出纳入工具变量会放大偏差，VanderWeele (2019) 建议排除工具变量；而本文的检验步骤要求“纳入与暴露条件相关的协变量子集”，若该子集含工具变量，检验本身可能受偏差放大影响——作者在文中仅以“若怀疑含工具变量可移除并做敏感性分析”一笔带过，未在理论层正面解决。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

\(X\)：暴露（处理）变量（本文实证中为二值：剖腹产 vs 阴道分娩）。
\(Y\)：结局变量（本文实证中为连续：30 岁时的 IQ 得分）。
\(C\)：候选调整集，即研究者打算条件于它的所有观测协变量的集合（本文中为母亲肤色、受教育年限、社会经济地位五分位数）。
\(U\)：不可观测混杂因子（想要但观测不到，是无混杂性假设失效的根源）。
\(S\)：选择指示变量（\(S=1\) 表示个体进入研究样本，\(S=0\) 表示失访/未入选）。
\(V\)：\(C\) 中与 \(X\) 条件相关的子集（给定 \(C \setminus V\) 后，\(V \perp\!\!\!\perp X\) 不成立的那些协变量）。
\(W\)：\(C\) 中与 \(X\) 条件无关的子集，即 \(C \setminus V\)（给定 \(V\) 后，\(W \perp\!\!\!\perp X\)）。
可观测数据：对 \(S=1\) 的个体，观测到 \((X, Y, C)\)；\(U\) 不可观测；\(S\) 的生成机制部分由设计保证（时间顺序）。
潜在结局：\(Y(x)\) 为处理取值 \(x\) 时的潜在结局。条件无混杂性假设为 \(Y(x) \perp\!\!\!\perp X \mid C\)（在 \(S=1\) 下）。

模型与数据生成机制：时间顺序：\(C\)（出生前协变量）\(\to X\)（分娩方式）\(\to Y\)（30 岁 IQ）。选择 \(S\) 可依赖于 \(C, X, Y\)，但作者核心假设要求 \(S\) 不依赖于 \(X\)（即 \(X \perp\!\!\!\perp S \mid C\)，或更弱条件）。\(U\) 为不可观测变量，可同时影响 \(X\) 与 \(Y\)。

第二步：最小内核

剥掉所有一般性讨论，本文的最小内核是一个条件关联检验的逻辑反证机制：

最简特例（二值暴露 \(X\)，单个连续协变量 \(C\)，单个不可观测 \(U\)）：假设 \(C\) 是 \(X\) 的唯一观测原因（故 \(V=\{C\}\)，\(W=\emptyset\)）。\(U\) 是不可观测混杂，同时影响 \(X\) 与 \(Y\)。 - 若条件无混杂性成立（\(Y \perp\!\!\!\perp X \mid C\)），则因为 \(C\) 已阻断 \(X \to Y\) 的所有观测路径，且 \(U\) 不存在或已被 \(C\) 阻断，\(Y\) 与 \(X\) 在给定 \(C\) 下应独立。 - 但本文检验的不是 \(Y\) 与 \(X\) 的关联（那已被倾向得分方法检验），而是\(Y\) 与 \(V\)（即 \(C\)）在给定 \(X\) 及 \(W\)（此处无）下的条件关联。

为什么这能反证无混杂性？最小内核的证明逻辑： 1. 由时间顺序与选择假设，在 \(S=1\) 下，\(W \perp\!\!\!\perp X \mid V\)（定义）。 2. 若条件无混杂性成立（\(Y(x) \perp\!\!\!\perp X \mid C\)），且 \(W\) 不直接因果影响 \(Y\)（或其影响已被 \(V\) 阻断），则 \(W\) 应与 \(Y\) 在给定 \((V, X)\) 下独立。 3. 但本文检验的是 \(V\) 与 \(Y\) 在给定 \((W, X)\) 下的关联。核心等价性（命题 1）：在无混杂性 + 时间顺序 + 选择假设下，\(V \perp\!\!\!\perp Y \mid (W, X)\) 必须成立。 4. 直觉：若 \(V\) 仅通过 \(X\) 影响 \(Y\)（因为 \(V\) 是 \(X\) 的原因，且无混杂性保证无 \(U\) 开后门），则在控制 \(X\) 后，\(V\) 对 \(Y\) 的因果路径被阻断；\(V\) 与 \(Y\) 的任何残余条件关联，只能来自 \(V\) 作为混杂因子的一部分（与 \(U\) 相关）或 \(V\) 直接影响 \(Y\) 但未被 \(W\) 捕获——这均意味着 \(C\) 不足以阻断所有后门路径。 5. 反证法：若在数据中检测到 \(V \not\!\!\!\perp Y \mid (W, X)\)（即与暴露条件相关的协变量子集，在控制暴露及其他协变量后仍与结局相关），则条件无混杂性假设不成立，或选择/时间顺序假设被违反。

数学上在干什么：把“不可观测的 \(U\) 是否存在”的不可验证问题，转化为“观测的 \(V\) 在给定 \((W, X)\) 下是否与 \(Y\) 独立”的可检验命题。这是一个 d-separation 的经验检验：在因果图中，若 \(C\) 足以阻断所有混杂路径，则 \(V\)（\(X\) 的观测原因）在控制 \(X\) 后应与 \(Y\) 独立（除非 \(V\) 有直接边到 \(Y\)，此时需进一步讨论）。

三、这篇论文做了什么¶

三句话： ① 研究了如何在不依赖任何混杂结构先验假设下，经验性评估条件无混杂性的合理性； ② 核心工具是检验调整集中与暴露条件相关的协变量子集 \(V\)，在给定暴露 \(X\) 及其余协变量 \(W\) 下，与结局 \(Y\) 的条件关联； ③ 主要结论是：在时间顺序与特定选择机制假设下，若该条件关联存在，则条件无混杂性不成立；若不存在，则无混杂性“更合理”（但非确证）。

关键设定与假设：在第二节记号基础上，完整设定如下： - 假设 1（时间顺序）：\(C\) 发生在 \(X\) 前，\(X\) 发生在 \(Y\) 前。这由研究设计保证（如出生队列中协变量在出生前记录）。 - 假设 2（选择机制）：核心版本要求 \(X \perp\!\!\!\perp S \mid C\)（暴露不独立影响选择）。放宽版本允许 \(X\) 影响选择，但要求 \(Y(x) \perp\!\!\!\perp S \mid (C, X)\)（潜在结局不独立影响选择，即无基于结局的选择偏差）。 - 假设 3（无混杂性，待检验）：\(Y(x) \perp\!\!\!\perp X \mid C\)（在 \(S=1\) 下）。 - 假设 4（faithfulness）：作者明确标注此假设：若条件关联为零，则对应因果路径不存在（无恰好抵消的路径）。作者指出，违反 faithfulness 与低统计功效在有限样本中难以区分，后果类似。 - 统计含义：假设 1 是流行病学设计的基石；假设 2 比标准无混杂性更强（标准框架常忽略选择）；假设 4 是因果图推断的标准公理，但实践中常被质疑（参数恰好抵消）。 - 与已有文献的对比：相比 VanderWeele (2011) 需知道“谁是 \(X\) 的原因、谁是 \(Y\) 的原因”，本文仅需知道时间顺序（设计保证）和统计关联（数据可算），不要求因果图先验。相比 Lipsitch et al. (2010) 需阴性对照共享混杂结构，本文不引入额外变量。

主要结果： - 命题 1（核心检验的逻辑基础）：在假设 1-3 及 faithfulness 下，若 \(V \not\!\!\!\perp Y \mid (W, X)\)（在 \(S=1\) 样本中），则条件无混杂性假设不成立。直觉：\(V\) 是 \(X\) 的原因，若 \(C\) 足以阻断混杂，控制 \(X\) 后 \(V\) 对 \(Y\) 的路径应被阻断；残余关联只能来自未阻断的后门路径（即 \(U\) 存在且 \(C\) 未完全捕获）。 - 命题 2（放宽选择假设）：若允许 \(X\) 影响选择（即 \(X\) 不独立于 \(S\)），但假设 \(Y(x) \perp\!\!\!\perp S \mid (C, X)\)，则命题 1 的结论仍成立。这放宽了失访不能与暴露相关的限制，允许暴露影响失访，只要潜在结局不额外影响失访。 - 推论（\(V\) 的直接效应问题）：若 \(V\) 不仅通过 \(X\) 影响 \(Y\)，还有直接边 \(V \to Y\)，则 \(V \not\!\!\!\perp Y \mid (W, X)\) 可能仅反映该直接效应，而非不可观测混杂。作者承认此局限，指出此时检验不能区分“直接效应”与“不可观测混杂”，但强调：若 \(V\) 有直接效应，则 \(V\) 本身就是混杂因子（同时影响 \(X\) 与 \(Y\)），将其纳入 \(C\) 是必要的；若 \(V\) 无直接效应且检验拒绝，则明确指示 \(C\) 不足。

证明路线与技术技巧： - 整体路线： 1. 从因果 DAG 与时间顺序出发，写出 \(C, X, Y, U, S\) 的拓扑排序。 2. 利用 d-separation 定理：在无混杂性（\(Y(x) \perp\!\!\!\perp X \mid C\)）下，推导 \(V\) 与 \(Y\) 在给定 \((W, X)\) 下的条件独立性。 3. 关键步骤：证明 \(V \to X \to Y\) 路径在控制 \(X\) 后被阻断；证明任何经由 \(U\) 的后门路径在控制 \(C\) 后被阻断（若无混杂性成立）；因此 \(V\) 与 \(Y\) 的所有路径均被阻断，条件独立性成立。 4. 逆否命题：若 \(V \not\!\!\!\perp Y \mid (W, X)\)，则上述阻断失败，即存在未被 \(C\) 阻断的后门路径（不可观测混杂）或 \(V\) 有直接边到 \(Y\)。 5. 处理选择偏差：引入 \(S\)，证明在 \(X \perp\!\!\!\perp S \mid C\) 或 \(Y(x) \perp\!\!\!\perp S \mid (C, X)\) 下，选择不开启新的非因果路径（如对撞路径），条件独立性在 \(S=1\) 子样本中仍成立。 - 关键跳跃点：处理选择偏差开启的对撞路径。条件于 \(S=1\) 可能开启 \(C \to S \to Y\) 等对撞路径，使 \(V\) 与 \(Y\) 产生虚假关联。作者通过假设 \(X\) 或 \(Y(x)\) 不影响 \(S\)，保证对撞路径不被开启，或在开启后可被控制变量阻断。 - 技术技巧： - d-separation 与 DAG 推理：用于建立条件独立性与因果路径阻断的等价性。 - 反证法逻辑：将不可验证的无混杂性转化为可验证的条件关联检验。 - 选择机制的图论处理：将 \(S\) 作为对撞子纳入 DAG，分析条件于 \(S\) 后的路径开启。

真实例子与应用： - 数据：1982 Pelotas（巴西）出生队列（Horta et al., 2015; Barros et al., 2006, 2019）。5914 名新生儿，30 岁时随访 3701 人（随访率 68.1%）。 - 场景：评估分娩方式（\(X\)：剖腹产 vs 阴道）对 30 岁智商（\(Y\)：IQ 得分）的因果效应。 - 协变量 \(C\)：母亲肤色、受教育年限、社会经济地位五分位数（均为出生前记录，满足时间顺序）。 - 如何应用： 1. 检验 \(V\)（\(C\) 中与 \(X\) 条件相关的子集）：通过回归 \(X \sim C\) 识别 \(V\)（与暴露显著相关的协变量）。 2. 检验 \(V \perp\!\!\!\perp Y \mid (W, X)\)：回归 \(Y \sim V + W + X\)，检验 \(V\) 的系数是否为零。 - 结果：在 Pelotas 数据中，\(V\)（社会经济地位、受教育年限）在给定 \((W, X)\) 下与 \(Y\)（IQ）显著相关（P 值极小）。这意味着条件无混杂性假设不成立（或 \(V\) 有直接效应），提示社会经济变量虽与暴露相关，但可能未完全捕获所有混杂（如家庭环境、遗传等不可观测因素），或其本身有直接效应。 - 想说明什么：展示方法在真实数据中如何运作，并揭示一个看似“控制了社会经济地位”的分析，实际上仍可能受不可观测混杂干扰——为该研究的因果结论提供谨慎证据。

模拟实验： - 作者使用参数模拟与 plasmode 模拟（Schreck et al., 2023，基于真实数据重采样）验证有限样本表现。 - 模拟设定：构造不同强度的不可观测混杂 \(U\)，检验本文方法在不同样本量下的拒绝率（功效）与误拒率（第一类错误）。 - 结果：当 \(U\) 存在且影响 \(X\) 与 \(Y\) 时，拒绝率随样本量与混杂强度增加而上升；当无混杂时，误拒率接近名义水平（0.05）。但作者承认，在低功效设定下（小样本或弱混杂），检验可能无法拒绝，此时“不拒绝”不等于“无混杂性成立”。

测量误差讨论： - 作者引用 Keogh et al. (2020, 2014) 指出，协变量测量误差可能导致 \(V\) 的条件关联被稀释（向零偏），使检验功效下降，甚至使本应拒绝的无混杂性假设未被拒绝。 - 测量误差也可能使 \(W\)（本应与 \(X\) 条件独立）显得与 \(X\) 相关，导致 \(V\) 的划分错误。 - 作者明确写：“Whether measurement error correction techniques – which often require strong assumptions on the error structure and magnitude – could be used in combination with the proposed procedure requires further methodological research.”

🔎 结论是否比证明窄： - 作者在正文中将“不拒绝 \(V \perp\!\!\!\perp Y \mid (W, X)\)”泛泛表述为“makes unconfoundedness more plausible”，但理论证明仅给出“拒绝则无混杂性不成立”的严格结论。“不拒绝”在逻辑上不提供任何确证（可能是功效不足或 faithfulness 违反），作者在讨论中承认了这一点，但 framing 仍有弱化局限的倾向。 - Faithfulness 假设的违反：作者承认“Violations or near-violations of faithfulness and low statistical power are difficult (if at all possible) to distinguish in finite samples”，但未在定理陈述中将其作为严格前提，而是在讨论中补充。研究者需注意：定理的严格表述是“在 faithfulness 下，拒绝则无混杂性不成立”，而“不拒绝则更合理”是未经证明的直觉延伸。

四、开放问题（点到为止）¶

如何区分 \(V\) 的直接效应与不可观测混杂？——扎根在本文对命题 1 局限性的讨论：“if \(V\) has a direct effect on \(Y\) not through \(X\), then the test could reject even if unconfoundedness holds”。要证/估的是：在 \(V \not\!\!\!\perp Y \mid (W, X)\) 被拒绝后，能否进一步分解该关联中“直接效应”与“残余混杂”的份额？这需要新的识别假设（如工具变量或阴性对照）。
测量误差与检验功效的联合建模——扎根在作者原话：“Whether measurement error correction techniques … could be used in combination with the proposed procedure requires further methodological research”。要估的是：在给定测量误差结构下，本文检验的功效下界是什么？能否构造对测量误差稳健的检验统计量？
选择偏差的放宽——扎根在假设 2 的限制：当前要求 \(Y(x) \perp\!\!\!\perp S \mid (C, X)\)（无基于潜在结局的选择）。要证的是：若 \(Y(x)\) 影响选择（如智商高者更易随访），能否通过逆概率加权或多重插补修正选择偏差，使本文检验仍适用？作者提及 IPW 可用，但未给出理论保证。
与半参数敏感性分析的衔接——扎根在 intro 缺失的文献：本文检验给出“拒绝/不拒绝”的二值判断，但未量化“若无混杂性不成立，偏差有多大”。要估的是：能否将本文检验与 Rosenbaum 框架或 E-value 结合，在检验拒绝后，自动输出偏差边界或 E-value？这需查阅 Rosenbaum (2002) 与 VanderWeele & Ding (2017) 以确认是否真为 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

Empirically Assessing the Plausibility of Unconfoundedness in Observational Studies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论