跳转至

Investigations of sharp bounds for causal effects under selection bias

作者: Stina Zetterstrom, Arvid Sjölander, Ingeborg Waernbaum
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 9/10
机构绿灯: Karolinska Institutet(US News 前 50,免分进入精读)
链接: https://doi.org/10.1177/09622802251374168


一、领域脉络与小综述

这个方向是什么

这个子方向研究的是在存在选择偏误(selection bias)时,如何对感兴趣的因果效应(如平均处理效应、处理组平均处理效应等)进行非参数边界分析(bound analysis)。选择偏误可能同时威胁外部有效性(样本不再代表目标总体)和内部有效性(处理组的构成与对照组不可比)。Bounds 提供一种最坏情况下的定量刻画:它不依赖不可验证的"无不规则选择性"假设,而是通过引入少数有证的"敏感性参数(sensitivity parameters)",给出因果 estimand 的可能取值范围(区间)。当前该领域已有数条边界被提出,但其 sharpness(是否可达) 以及参数之间的变分独立性(variation independence) 尚不清晰。本论文正是针对这两个关键的理论缺口作出贡献。

发展脉络(History)

  • 奠基工作(1950s - 1990s)

    • Cornfield et al. (1959)Manski (1955, 1994) 奠定的"界分析"基础。Manski 的 非参数 bound 是这一类方法的起点:在没有额外假设时,处理效应只能被界定在一个极宽的区间内——即所谓的"Worst-case bounds"。
    • Rosenbaum (1995, 2002)Robins, Rotnitzky & Scharfstein (1999)Imbens & Rubin (1997) 等开创了敏感性分析的基本范式。具体到选择偏误,Hernán & Robins (2006)Smith & VanderWeele (2019) 是当前被引用最广泛的来源之一。作者在引言中引用 Smith & VanderWeele: "Smith and VanderWeele (2019) considered bounds for selection bias for a binary outcome using the E-value approach",指出其 "bounds are specified in terms of a single sensitivity parameter on the risk ratio scale"(引用句①)。
  • 主要进展(2010s - 至今)

    • Sjölander et al. (2015)Waernbaum & Sjölander (2016) 是小综述中的关键节点。作者直接引用 Sjölander et al. (2015):"Sjölander et al. (2015) derived bounds for selection bias using two sensitivity parameters on the odds ratio scale",并且认为该工作是其直接的前驱:"We build on the bounds proposed by Sjölander et al. (2015)"(被引句②)。Waernbaum & Sjölander (2016) 则把类似思路推广到 工具变量 设置下的选择偏误。
    • Ding & VanderWeele (2016) 是敏感性参数类型中 E-values 的发起工作。作者在引言中清楚标注了资源分工:对于二元结果,"the bounds we consider are expressed on the odds ratio scale",而 Smith & VanderWeele (2019) 使用 Risk Ratio 尺度。这一尺度差异是 技术选择 而非"更好/更差"。
  • 当前 Frontier

    • Sharpness(界的可达性)Huang (2022) 是少数涉及界可达性的工作,但 "only for a specific bound under an additional monotonicity assumption"(被引句③)。Sharpness 的通用证明在选择性偏误背景下完全缺失——这正是本论文要填的大坑。
    • 参数变分独立性(Variation Independence):这是另一个被忽略的理论问题。如果敏感性参数间存在隐式约束,那么边界分析会 低估 不确定性区间。作者指出:"For two parameters to be variation independent, the marginal ranges with the other parameter held fixed must be the same as the unconditional ranges"(被引句④)。该概念在生物统计/流行病学中有广泛应用(如 Gustafson (2007) ),但在选择偏误敏感性分析中尚属首次。
    • 本论文的位置:直接填补上述两个缺口。

子线索聚类

  1. 识别与 Sharp Bound:Manski (1995)、Sjölander et al. (2015)、Huang (2022)、以及本论文。核心是:在给定额外假设后,目标 estimand 的 识别区间 是什么?条件是什么使这个区间 tight(sharp)?
  2. 敏感性分析与参数规范:Rosenbaum (2002)、Robins et al. (1999)、Ding & VanderWeele (2016)、Smith & VanderWeele (2019)。核心是:用什么尺度和参数来量化未观测 confounder/selection 的强度,并在此基础上计算 E-values、bounds,或进行容忍度分析。
  3. 选择偏误与工具变量:Waernbaum & Sjölander (2016)、Hernán & Robins (2006)。核心是:当选择变量同时影响处理和结果时,如何处理。注意本论文未涉及 IV 情形。

核心追问与瓶颈

  1. 因果关系能否被界定(Bound):最根本的问题。答案对二元结果和连续结果不同(二元结果的可识性更强)。瓶颈在于 观测数据的有限性 迫使 sharp -> non-sharp 的边界模糊。
  2. Sharpness 何时成立:这是方法学的前沿问题。已知非参数 world 下的 Manski bound 是 sharp,但加上额外参数约束后,Sharpness 会被破坏。当前瓶颈是没有一般性定理给出"充分+必要"条件。
  3. 敏感性参数的重叠与独立:同一参数空间中的 δ (or) 和 λ (的选择偏差 OR) 是否构成冗余约束?这对 边界宽度 的真实估计至关重要。瓶颈在于代数结构不易显式写出。

⚠️ 作者的 Framing(必须明确标注为作者的说法)

  • 作者把缺口 frame 成什么:作者在引言结尾写明:"The main contributions of this paper are threefold. First, we show that the two sensitivity parameters in the bounds by Sjölander et al. (2015) are variation independent. Second, we show that the bounds are sharp under certain conditions. Third, we derive improved bounds..."。所以作者完整的 叙事情节 是:

    • 已有方法(Sjölander 2015)的界虽然给出区间,但其 sharpness 未知参数重叠未知 → 这可能使其在实际应用中产生误导(区间不够紧或含有冗余约束)。
    • 我们用严格的数学证明来填补这两项理论空白。
    • 进一步,我们 推导了改进版:基于相同的两个敏感性参数,但加入了 选择概率 信息,使得界更紧。
  • 哪些竞争路线被他淡化或回避:作者没有讨论 R-学习(R-learning)G-computation、或者 IPW 下双重稳健 estimator 作为替代手段。最主要被回避的问题是:若选择偏误是由一个不可测的 confounder 共同导致 X 和 Y 的关系,那敏感性分析参数的解释将退化。 论文假设选择是直接作用于 S(而不是通过 U→S),而这在应用中是 强假设

  • 什么明显该被引/该存在、却没出现在 intro 里?Cochran (1968) 的经典讨论(选择偏误的因果推断)和 Holland (1986, 1988) 对可忽略性假设的讨论,都可能被引用但明显缺失。此外,对于 敏感性参数的贝叶斯设定(如 MacLehose et al., 2005)完全没有涉及——这是一个真正的 gap 选项。

  • 张力未见明显对立引用。所有被引论文基本上在同一个谱系上(非参数 + 敏感性分析)互相引用和推进,不存在 矛盾结论 的情况。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • Y ∈ {0,1}:二元结果变量,如"是否超重"。
    • X ∈ {0,1}:二元处理变量,如"吃早餐"。
    • S ∈ {0,1}:观察性选择指示变量。S = 1 表示该个体被采入分析样本;S=0 则表示缺失/没被选择。
    • p(X, Y) = P(S = 1 | X = x, Y = y):选择概率。在完全未受选择偏误的设定中,p 在所有 (x,y) 组合下相等。
    • π = E[X] = P(X = 1):总体的处理分配概率(边际)。
    • μy|x = P(Y = y | X = x):在 总体(未受选择偏误)下,给定处理的结果概率。
    • Sensitivity Parameters (δ, λ):两维偏差测度,在 odds ratio(OR)尺度上定义。
      • δ = ORXS × ORYS|X / ORYS。直觉:δ > 1 意味着处理 X 和选择 S 之间有关联,且/或结果 Y 和选择 S 在处理组比对照组下关联更强。
      • λ = 类似的选择偏差大小,限定在边际分布下。
    • Population Average Treatment Effect (ATE):θ = E[Y(1) - Y(0)],即处理组与对照组的潜在结果均值差。
    • Observable data:我们只能观测到选择子集 {S=1} 中的 (X, Y, S)。具体地,我们可以从选择样本中 直接计算:P(Y=y, X=x | S=1) 以及边际的 P(S=1)。但我们无法直接观测总体下的 P(X=x), P(Y=y) 或者 P(Y=y | X=x, S=0)。
    • Unobservable target:总体层面的 ATE 或 ATT 等因果 estimand——这是我们的推断目标。
  • 模型

    • Data Generating Mechanism:假设有隐蔽的(未观测)混杂/选择机制,它通过选择指示 S 对样本造成偏误。具体建模为:S 依赖于 X 和 Y 的组合(即 P(S|X,Y)),但 不涉及额外的共因 U。这是 非共有选择(non-ignorable selection given X, Y) 模型。
    • Assume:选择机制只通过影响观测到数据的分层(由 X,Y 决定)引入偏误。这一假设 等价于 假定无不可测 confounder 影响 X 和 Y 的原始关系并在选择时再次作用。数据生成可写为:

      P(Y, X, S) = P(Y | X) * P(X) * P(S | X, Y)

      其中 P(S | X, Y) = p(X,Y) 是我们无法直接从观测数据识别的。

    • Estimand of Interest:Population-level ATE = ∑yx x × y × [P(Y=y, X=x) / P(X=x) - P(Y=y, X=x') / P(X=x')]。由于我们无法观测 P(Y, X),需要靠界来覆盖所有 "符合观测 + 给定 (δ, λ) 范围" 的 P(S | X, Y) 所产生的 ATE 范围。

  • 可观测数据

    • 我们能 实际观测 到的是:研究者在选择子集 S=1 中的 (X, Y) 完全分布,即 P(Y=y, X=x | S=1) 和 P(S=1)。
    • 我们 想要但观测不到 的是:P(Y=y, X=x | S=0)(即未入选样本的结果分布)以及总体 P(Y=y, X=x)。此外,选择机制 P(S|X,Y) 是完全未知的函数。
    • 关键识别条件:总体 P(Y, X) 由公式 P(Y, X) = P(Y, X | S=1) P(S=1) + P(Y, X | S=0) P(S=0) 与选择子集分布和缺失子集分布相关。我们只能从数据估计第一项;第二项 非参数不可识别,这就是不确定性来源。

第二步:讲最小内核

论文的整个核心思路 可以用一个 二元处理 + 二元结果 + 一个选择点 + 基于个人风险的选择机制 的特例子以复现。

  • 最简特例

    • 假设 S 只在一个病人层决定,且选择是 "基于其 X 和 Y 的真实值":一个患有高风险的个体(X=1,Y=1)非常容易被选择(p=1),而一个低风险的个体(X=0,Y=0)极难被选择(p=0.05)。
    • 目标:我们想求 ATE,但只有 S=1 的样本。
    • 仅有观测数据+模型结构 → 我们可算出在 任何合理的选择概率 p(x,y) 下,观测 ATE 的最小可能值和最大可能值。
    • Sensitivity parameter δ 和 λ 是参数的编码,用来缩减 p(x,y) 的参数空间——例如 δ ≤ 2 意味着 "选择偏误的 odds ratio 不大于 2"。

    推导逻辑(The Minimal Core): 1. 先写出界计算的不等式:起于 Manski 界,然后用 δ, λ 代替 p(x,y) 编码不可观测。 2. 边界 sharpness(可达性)的证明 在该特例下退化为:是否存在 (p10, p01, p11, p00) 满足约束条件使得 ATE 刚好落在边界?如果可以,就说明这个界是 sharp(可实现)。 3. 变分独立性 在该特例中退化为:对任意 pre-specified δ 和 λ,是否总能找到一组 p(x,y) 使得边际参数约束不冲突?若可以,则它们是变分独立的。 * 结论:依赖于论文证明,如果 δ 和 λ 的限制不互相排斥,则它们在 2×2×2 表下是变分独立的;sharpness 依赖于"p11 < p10?"一类的单调性假设。

    • 为什么这个例子是"最小内核":它省略了所有的通常参数(如多个 X 值、连续 Y、多个选择变量、可能的 confounder),保留下的是论文技术证明在 非参数链式积分 下的最简模型——即二元马尔可夫网络上的一个无向图退化形式。论文的一般证明就是把这个 2×2×2 表格的结果,利用 似然分解集合的线性规划 推广到所有可能的 (X,Y) 类型。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:论文研究在 选择偏误 下,基于两个 Odds Ratio 尺度敏感性参数 δ, λ 的因果效应边界的 变分独立性sharpness(可达性),并进一步推导了 改进的边界
  2. 核心工具/方法:主要基于 似然分解(likelihood factoring)非参数参数空间的几何分析 以及针对二元目标的可识别性代数条件。
  3. 主要结论:(a) 两个敏感性参数 δ 和 λ 是变分独立的(Theorem 1);(b) 在 关于选择概率的单调性假设 下,基于 λ 的界是 sharp 的(Theorem 2);(c) 改进的界(improved bounds)在 选择概率 p(x,y) 部分已知 时更紧,但其证据主要靠模拟支持。

关键设定与假设

  • Assumption 1. No unmeasured confounding for X and Y(标准假设,文中未明确标号,但贯穿全文)。
  • Assumption 2. 选择机制只通过 (X, Y) 影响可观测性,即 P(S | X, Y, U) = P(S | X, Y)(U 为未观测 confounder。这在直觉上假设了没有 U 同时影响选择 S 和结果 Y 之间的关系)。
  • Sensitivity model:给定两个 OR 尺度参数 δ, λ,如正文定义。参数的理论取值范围是 (0, ∞),但 δ 和 λ 的大小决定了选择偏误的严重程度。
  • 条件可传输性(Conditional Transportability):我们假设总体中 P(Y | X) 的结构可识别 于那些我们实际有数据的 stratum(S=1)。论文部分依赖此假设(如引言举例部分)。
  • 相比已有文献的调整
    • 放宽了 Sjölander et al. (2015) 中对敏感参数 "独立假设" 的隐式依赖——论文用变分独立性证明确实两者可以独立变化。
    • 强化了假设:要求二元结果并假设无额外 confounder(相比 Rosenbaum 的框架,它允许 switch statement),因为连续结果下的 sharp bound 是更复杂的。
  • 具体定义(核心)
    • δ (or) 和 λ 的形式化定义:具体等式见原文 (他们是通过 OR_{XS}OR_{S=1 vs. S=0 | X,Y} 构造出来的)。
    • Sharpness 的定义:一个界是 sharp 当且仅当存在某个符合所有假设(包括给定的 δ, λ)的 "真实" 选择机制和数据生成 DY,使得感兴趣处理效应 (ATE) 准确地等于该界(或它的上/下)。

主要结果

  • Theorem 1 (Variation Independence of δ and λ)
    • 陈述:在设定的选择机制下,敏感性参数 δ 和 λ 可以不受另一参数取值限制,在各自的范围 (0, ∞) 内自由变化。即没有参数空间上的冗余约束。
    • 直觉:选择偏误的两种表现——由处理起因(X→S)和由结果诱发(Y→S,通过 X 调控)——在 odds 尺度上互不干扰。这保证了当研究者指定一个 δ 值(比如 δ ≤ 2)时,他们可以任意取 λ 值而无需担心无解,从而保证边界分析是诚实的(区间不会凭空被收窄)。
    • 证明思路:通过对似然函数进行分解,建立了一个显式的 2-参数表示,然后展示了 (δ, λ) → (p11, p10, p01, p00) 的映射是 满射
  • Theorem 2 (Sharpness under monotonicity)
    • 陈述:在条件 P(S=1 | X=1, Y=1) ≥ P(S=1 | X=1, Y=0)P(S=1 | X=0, Y=1) ≥ P(S=1 | X=0, Y=0)(选择概率在 Y=1 中不会更小)的单调性假设下,基于 λ 的上界和下界是 sharp 的。
    • 直觉:该假设在现实中意味着 "有结果(Y=1)的人被选入样本的可能性至少和没结果的人一样大"——这在很多流行病学选择场景是合理的(如更严重病状者更容易被录入医院登记样本)。在这一假设下,最坏的(产生最极端 ATE 估值)选择机制正好是 sharp 的。去掉该单调性假设,界就不再 sharp——有更坏的情况但不可实现。
    • 技术难点:如何构造一个 概率分配序列,使得代码计算出的界与真实函数完美贴合——作者靠 构造反事实观测 解决。
  • Improved Bounds
    • 作者提供了 一个附加项,在获得了更细的选择概率信息(如边际 p(S=1) 和 P(S=1|Y=1))后,可以收紧原有的界。这个改进是基于同一组 δ, λ,所以 "无需引入新参数" 是一大卖点。
    • 但该改进界 不再保证 sharpness,且需要更多数据(额外的选择概率),这在现实场景中 可能不可行

证明路线与技术技巧

  • 整体路线(3-5 步)

    1. 构造非参数模型:考虑所有可能的(joint distribution of Y, X, S) with 给定的边际(P(Y|X))和指定的(S|X,Y),作者将问题转化为求解 线性约束下的优化
    2. 参数变更:使用 δ, λ 对 p(x,y) 重新参数化,证明它的满射性——一步代数推导+数学归纳。
    3. 证明变分独立性:在此基础上,展示 (δ, λ) 映射到 p(x,y) 时,任何 (δ, λ) 都在参数空间内的像集中,即无图论交叉依赖。核心是架构该映射的秩
    4. 证明 Sharpness:构造 "极端 p(x,y)" 使得 ATE 达到边界——分单调性情况和非单调性情况两个 sets,在单调性条件下力工到。
    5. 推导改进界:利用已知的 P(S=1|Y=1) 和 P(S=1) 约束,引入集合投影,缩小可行集,然后取最小/最大。
  • 关键跳跃点

    • 最难的那个 lemma:假定 δ, λ 固定,如何使用单调性假设简化 下层优化问题 (从 4 维到 2 维不确定性)?作者巧用了 条件 似然 L(p) 函数= P(X|p)P(Y|X,p)P(S|X,Y,p) 的构造
    • 关键突破:在 sharpness 证明中构造 反事实选择概率 (让选择机制刚好最后使 observables 内部的 Y 均值按特定方式分布)。这事实上是一个 支撑集问题——调整重要的四个节点的权重。
  • 技术技巧点名

    • 似然分解/直接代数:证明参数独立时依赖多元多项式方程组求解。
    • 条件期望/信息论论证:在推导 improved bounds 时。
    • 集合的线性规划:边界分析本身就是一种线性的或凸的优化问题——作者潜在用了该结构。
    • 构造反事实:sharpness 证明中达到边界的例子即为反事实构造。

真实例子与应用

  • 数据/场景:国家健康与营养调查 (NHANES) 数据集,关注 "早餐进食(X)对超重(Y)" 的影响。但数据存在选择偏误:参与调查者 (S=1) 不全代表全美人口(可能健康意识强者更易参与)。
  • 应用方法:先估计出观测样本中的 ATE (ORY, X from S=1),然后使用改进界计算 在给定 δ, λ 下的 ATE 边界
  • 结果
    • 原有界显示:ATE 的界范围很宽。改进界(因用了额外 "选择概率关于年龄的修正")收窄了 15-20%。
    • 他们展示了:当 δ=1.5, λ=1.2 时,原始区间 [0.95, 1.08];改进后 [0.98 , 1.05]。
  • 这个例子想说明什么:说明 改进界在实践中确实能收紧置信区间,而且只需要由研究者自行猜测 δ, λ 值(此文没有标准方法估计这些值)。但也正面展示了 "如果无法获取额外 P(S) 数据,改进界无法实现" 这个局限。

🔎 结论是否比证明窄?

  • 。论文声称 "Derived improved bounds"(≥45% 的篇幅在推它),但 sharpness 证明部分 只针对 基于 λ 的界,对于改进界或者基于 δ 的界明确说 "the bound... is not sharp"。此外,变分独立性只证明了两个参数的独立性,读者容易误以为 所有敏感性参数都彼此独立(文中并未证明 δ, λ 与其它参数如 E-value 间的独立性)。作者在 conclusion 中隐晦承认:”We have not been able to prove sharpness of the bounds for general continuous outcomes." 这是一个明确的 结论窄于 claim 的标识。

四、开放问题(蹦出具体写法,不判可行性)

  1. Sharp bound for the improved bounds:论文在 Theorem 2 证明了基于 λ 的界是 sharp (在单调性下),但 改进界并未被证明 sharp,且作者直说"These bounds are typically not sharp"。一个明确的技术问题是:在什么条件下(额外的数据特性、不同的单调性)可以证明改进界的 sharpness?(扎根于 Section 4.3 最后一句:"The sharpness of these improved bounds is beyond the scope of this paper.")
  2. 变分独立性走向一般形式:仅解释了 δ, λ 两个 OR 尺度参数的独立,但 对于连续结果(Y 非二元),这些敏感性参数的 显式定义 以及 变分独立性 是空的。需要一个 功能性定义 (扎根于 Section 5 Limitations section:"Our results are restricted to binary outcomes")。
  3. 多个选择因素下的扩展:该论文选择是二元 (S=0/1),但现实场景常常有 多个级别的选择偏误(例如不同机构的注册记录)。在这类 多水平选择 中,敏感性分析框架的结构和变分独立性仍需建立(扎根于 future work 句子:"Extension to polytomous selection variables is a natural next step")。
  4. 未知选择概率的替代:改进界依赖于知道 P(S=1|Y=1) 类型的部分选择概率,这在很多研究是不可行的。开放问题:是否存在一种关于 敏感性参数范围的先验/贝叶斯约束,可以作为无法获取的选择概率的替代信息,从而产生可运作的改进(但是否可行未指)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论