跳转至

A Unified Three-Stage Weighting Framework for Causal Inference and Mediation Analysis under Case-Control Sampling

作者: Tarikul Islam, Mahbub A. H. M. Latif
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.26543


一、领域脉络与小综述

这个方向是什么

这个子方向的核心问题是:如何从病例-对照研究(case-control study)这种因结果依赖抽样(outcome-dependent sampling)而扭曲了总体分布的数据中,进行有效的因果推断与因果中介分析(causal mediation analysis)。病例-对照研究在流行病学中极为常见,尤其当结局罕见或前瞻性随访成本过高时,它能大幅提升效率。然而,其抽样机制(按结局Y=1/0分别抽样)导致观测到的样本分布与目标总体分布不同,使得许多总体层面的因果参数(如平均处理效应、风险差、风险比)无法直接识别。该方向的成熟度:理论框架已基本建立(识别条件、加权方法),但实际应用仍有限,且存在若干关键缺口

发展脉络(history)

  1. 奠基工作:条件关联的可识别性与logistic回归的统治地位

    • Cornfield (1951)Prentice & Pyke (1979) 奠定了病例-对照研究的统计基础。核心发现是:在病例-对照抽样下,条件优势比(conditional odds ratio) 是可识别的,且logistic回归的斜率参数(除截距外)可以直接从回顾性样本中有效估计。这使得logistic回归成为该领域的标准工具。
    • Miettinen (1976)Greenland (1981, 1987) 进一步澄清了在不同抽样方案(如case-base, survivor, risk-set sampling)下,哪些参数(如发病率密度比、风险比、绝对风险)可以被估计或近似。
  2. 主要进展:从条件关联到总体因果效应——已知患病率下的加权方法

    • Robins et al. (1994)van der Laan (2008) 开创性地指出,如果总体结局患病率(population outcome prevalence)是已知的,则可以通过逆概率加权(IPW)来重建目标总体分布,从而估计边际因果效应。
    • Rose & van der Laan (2008, 2009, 2014)Balzer et al. (2016) 在此基础上发展了更复杂的估计量,包括靶向最大似然估计(TMLE)双稳健估计半参数有效估计,用于在结局依赖抽样下估计因果优势比、风险比和风险差。这些方法不再局限于logistic回归,而是引入了现代因果推断的工具箱。
  3. 当前Frontier:识别理论的深化、中介分析的挑战与统一框架的缺失

    • L. Penning de Vries & Groenwold (2022)O'Brien et al. (2022) 提供了更正式的识别分析,阐明了在多种回顾性抽样方案下,因果效应可被恢复所需的具体假设。这强化了理论基础。
    • VanderWeele & Vansteelandt (2010)Valeri & VanderWeele (2013) 将中介分析引入病例-对照研究,但严重依赖罕见病假设(rare disease approximation) 或强参数假设。VanderWeele & Tchetgen Tchetgen (2016) 尝试处理匹配病例-对照设计中的中介分析,但仍有局限。
    • Mésidor et al. (2026) 的方法学综述指出,尽管理论进展显著,但因果推断方法在病例-对照研究中的实际应用仍然有限,存在重要的方法学空白。
  4. 本文的位置:本文(Islam & Latif, 2026)试图填补上述空白,提出一个统一的三阶段加权框架(3S-weighting),该框架不要求已知总体患病率,能同时估计总效应和路径特异性中介效应,且仅需外部边际协变量信息。它试图将患病率恢复、总体重建和因果加权整合为一个模块化流程。

子线索聚类

  1. 基于已知患病率的加权方法:以Robins, van der Laan, Rose, Balzer等为代表。核心思路是,若已知总体患病率π,则可通过设计权重(π/π_cc 或 (1-π)/(1-π_cc))重建总体。本文的Stage 2直接继承此思路,但Stage 1的目标是估计π,从而摆脱对已知π的依赖。
  2. 基于罕见病假设或强参数假设的中介分析:以VanderWeele, Valeri, Tchetgen Tchetgen等为代表。这些方法在病例-对照数据中估计中介效应时,要么假设结局罕见(从而优势比近似风险比),要么对数据生成过程施加很强的参数结构。本文的Stage 3通过先重建总体,再应用标准加权中介方法,试图绕开这些假设。
  3. 识别理论与抽样方案分类:以Penning de Vries & Groenwold, O'Brien等为代表。这类工作专注于厘清不同回顾性抽样设计(case-control, case-base, risk-set, survivor)下,哪些因果参数是可识别的,以及需要什么外部信息。本文的识别策略(Lemma 1 & 2)建立在此类理论基础上,特别是利用了“给定Y后X的分布不变”这一关键假设(公式8)。

这个方向在追问的核心问题

  1. 如何在不已知总体患病率的情况下,从病例-对照数据中识别总体因果效应? 这是本文试图解决的首要问题。现有方法要么假设π已知,要么依赖罕见病假设。
  2. 如何将因果中介分析(特别是路径特异性效应)扩展到病例-对照设计,而不依赖强参数假设或罕见病假设? 这是本文的第二个核心贡献点。
  3. 如何利用外部信息(如人口普查数据中的边际协变量分布)来辅助识别和估计? 这是本文提出的具体技术路径(密度比学习+标签偏移校正)。
  4. 如何构建一个模块化、易于实施的统一框架,以促进因果推断方法在病例-对照研究中的实际应用? 这是本文的最终目标,回应了Mésidor et al. (2026) 的呼吁。

⚠️ 作者的 framing

  • 作者的缺口frame:作者将现有文献的缺口概括为三点:(i) 大多数方法需要已知总体患病率;(ii) 中介方法依赖罕见病假设或强参数假设;(iii) 缺乏一个能同时处理总效应和中介效应的统一框架。通过将本文定位为同时解决这三个缺口的“显然的下一步”,作者构建了一个强有力的叙事。
  • 被淡化或回避的竞争路线
    • 双稳健估计(Doubly Robust Estimation):作者在引言中提到了Rose & van der Laan (2014) 和 Balzer et al. (2016) 的双稳健方法,但并未深入讨论其与本文方法在效率或稳健性上的优劣。双稳健方法通常对模型误设更稳健,而本文的3S-weighting框架在Stage 1和Stage 3都依赖于模型(分类器、倾向性得分、中介密度比),其双稳健性质(如果存在)未被讨论。
    • TMLE(Targeted Maximum Likelihood Estimation):TMLE是处理此类问题的另一强大工具,作者仅在引言中提及,但未将其作为主要比较对象。TMLE通常具有半参数有效性,而本文的加权估计量是否达到效率界,作者在讨论中承认“formal semiparametric efficiency theory ... remains to be developed”。
  • 什么明显该被引/该存在、却没出现在intro里?
    • 关于密度比估计的文献:本文的核心技术之一是密度比估计(density-ratio learning),但引言中并未引用该领域的经典或最新工作(如Sugiyama et al., 2012的“Density Ratio Estimation in Machine Learning”)。这可能是作者认为该技术是“现成工具”,但作为一篇方法学论文,引用其基础文献是惯例。
    • 关于标签偏移(Label Shift)的文献:标签偏移校正(Lemma 2)是本文Stage 1的另一核心,但同样缺乏对该领域(如Lipton et al., 2018; Saerens et al., 2002)的引用。
    • 关于最大熵原理(Maximum Entropy)的引用:作者在Stage 1中利用最大熵原理从边际分布生成联合分布,但未引用相关文献(如Jaynes, 1957)。这虽然是一个标准技巧,但引用会增强方法的理论支撑。

张力

未见明显对立引用。该领域的文献呈现出一种“渐进式补充”的关系,而非根本性矛盾。主要张力在于“已知患病率”与“未知患病率”两种设定之间的方法学差异,以及“罕见病假设”与“一般情况”之间的权衡。本文试图在后者(一般情况)下取得进展。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • O = (X, A, M, Y):目标总体中的一个随机个体。X是预处理协变量向量,A是二元处理/暴露变量,M是中介变量,Y是二元结局变量。
    • S:抽样指示变量。S=1表示该个体被选入病例-对照研究。
    • π = P_pop(Y=1)目标总体中的结局患病率。这是本文Stage 1要估计的关键参数。
    • p_cc = P_cc(Y=1)病例-对照样本中的结局患病率。这是由设计决定的(例如,病例和对照各占一半),通常不等于π。
    • r(X) = P_pop(X) / P_cc(X)密度比。衡量协变量X在总体和样本中的分布差异。
    • S_cc(X) = P_cc(Y=1 | X):在病例-对照样本中,给定X时Y=1的条件概率。
    • S_pop(X) = P_pop(Y=1 | X):在目标总体中,给定X时Y=1的条件概率。这是我们要恢复的目标。
    • α(π):标签偏移校正因子,连接S_ccS_pop
    • w_design:设计权重,用于将病例-对照样本重建为总体。
    • SW_A:稳定的处理权重(逆概率权重),用于控制混淆。
    • SW_PDE, SW_TDE:稳定的中介权重,用于估计路径特异性效应。
    • RR_TE, RR_PDE, RR_PIE, RR_InE:总效应、纯直接效应、纯间接效应、交互效应的风险比。
  • 模型

    • 数据生成机制:目标总体服从一个未知的联合分布P_pop(X, A, M, Y)。我们假设存在一个潜在结果框架,其中Y(a, m)M(a)是定义良好的。
    • 抽样机制:病例-对照抽样。P(S=1 | Y, A, M, X) = P(S=1 | Y)。即,抽样仅依赖于结局Y,与A, M, X条件独立。这意味着,在给定Y的条件下,样本中X, A, M的分布与总体中相同:P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)这是本文所有识别结果的核心假设(公式8)
    • 外部信息:我们假设可以获得目标总体的边际协变量分布 P_pop(X_1), ..., P_pop(X_p)(例如,从人口普查数据中获取年龄、性别的边际分布)。注意,我们不知道联合分布P_pop(X)
  • 可观测数据

    • 病例-对照样本{ (Y_i, A_i, M_i, X_i) : i = 1, ..., n },这些是从P_cc(X, A, M, Y)中独立抽取的。这是研究者实际能观测到的主要数据
    • 外部边际协变量信息P_pop(X_1), ..., P_pop(X_p)。这是研究者可以获得的辅助信息,但通常不是个体层面的数据。
    • 想要但观测不到的量
      • 目标总体的联合分布P_pop(X, A, M, Y)
      • 总体患病率π
      • 潜在结果Y(a, m)M(a)
      • 总体中的条件风险函数S_pop(X)

第二步:讲最小内核

本文的核心思路可以浓缩为以下最小内核如何利用一个“有偏”的样本(病例-对照)和一个“不完整”的外部信息(边际分布),来恢复一个“无偏”的总体参数(因果效应)?

最简特例:假设只有一个二元协变量X(例如,性别:男/女),且我们已知总体中男性的比例P_pop(X=男) = 0.5。

  1. 问题:我们从一个病例-对照样本中收集了数据,其中病例和对照各占一半(p_cc = 0.5)。我们想估计处理A对结局Y的总体平均处理效应(ATE)。但样本中X的分布可能被扭曲了(例如,因为病例组中男性更多)。

  2. Stage 1:估计总体患病率π

    • 我们不知道π,但我们可以利用外部信息P_pop(X=男)=0.5
    • 首先,我们估计密度比r(X)。由于我们已知总体和样本中X的分布,我们可以直接计算:
      • 假设样本中男性的比例是P_cc(X=男) = 0.6
      • 那么,r(X=男) = P_pop(X=男) / P_cc(X=男) = 0.5 / 0.6 = 0.833
      • r(X=女) = P_pop(X=女) / P_cc(X=女) = 0.5 / 0.4 = 1.25
    • 其次,我们在病例-对照样本中拟合一个logistic回归模型,得到S_cc(X) = P_cc(Y=1 | X)。由于抽样扭曲,这个模型的截距是错误的,但斜率(即X对Y的log-OR)是正确的。
    • 然后,我们利用标签偏移校正(Lemma 2)来恢复总体风险函数S_pop(X)。这个校正依赖于一个未知的校正因子α(π),而α(π)本身是π的函数。
    • 最后,我们利用密度比加权(公式2)来估计π。这个公式的本质是:总体患病率π = 在样本中,对S_pop(X; π)进行密度比加权平均。由于S_pop依赖于π,我们得到一个关于π的方程T(π) = π,通过求解这个不动点方程得到π的估计值。
  3. Stage 2:重建总体

    • 一旦我们估计出π_hat,我们就可以构建设计权重:
      • 对于病例(Y=1):w_design = π_hat / p_cc
      • 对于对照(Y=0):w_design = (1 - π_hat) / (1 - p_cc)
    • 对样本中的每个个体应用这个权重,我们就得到了一个“伪总体”,其中Y的分布与目标总体一致(患病率为π_hat),且X的分布也被校正了。
  4. Stage 3:估计因果效应

    • 在这个“伪总体”中,我们可以应用标准的因果推断方法(如IPW)来估计ATE。例如,我们估计倾向性得分P(A=1 | X),然后计算稳定的处理权重SW_A
    • 最终的权重是W_TE = w_design * SW_A。在这个加权伪总体中,处理A与混淆变量X无关,因此我们可以直接比较加权后的Y均值来估计ATE。
    • 对于中介分析,我们只需在w_design的基础上,再乘以中介权重(如SW_PDE),即可估计路径特异性效应。

这个最小内核揭示了本文的核心数学困难:Stage 1中π的估计是一个自洽(self-consistency)问题。我们不知道π,但我们可以用π的函数(S_pop)和密度比来“猜测”π,而正确的π应该使得这个猜测等于它自己。这通过一个不动点方程来解决。一旦π被估计出来,后续的Stage 2和Stage 3就是标准技术的直接应用。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:本文研究了在病例-对照抽样(outcome-dependent sampling)下,如何在不已知总体结局患病率的情况下,进行因果推断和因果中介分析。
  2. 核心工具/方法:提出了一个三阶段加权(3S-weighting)框架,该框架依次使用密度比学习+标签偏移校正估计患病率、设计权重重建总体分布、以及稳定的因果/中介权重估计总效应和路径特异性效应。
  3. 主要结论:模拟研究表明,忽略回顾性抽样的常规分析会产生严重偏差,而所提方法能一致地恢复总体因果参数。NHANES数据应用展示了框架的实用性。

关键设定与假设

  • 设定:目标总体为(X, A, M, Y),其中Y为二元结局,A为二元处理,M为二元中介。数据来自病例-对照抽样,即P(S=1 | Y, A, M, X) = P(S=1 | Y)。外部可获得目标总体的边际协变量分布P_pop(X_j)
  • 关键假设
    1. 一致性(Consistency)Y = Y(A, M(A))M = M(A)。观测到的结局和中介等于在观测到的处理水平下的潜在结果。
    2. 条件可交换性(Conditional Exchangeability)
      • Y(a, m) ⊥ A | X:给定X,处理A与潜在结果独立(无未观测混淆)。
      • Y(a, m) ⊥ M | A=a, X:给定A和X,中介M与潜在结果独立(无中介-结局混淆)。
    3. 正值性(Positivity)0 < P(A=a | X) < 10 < P(M=m | A=a, X) < 1
    4. 抽样机制假设P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)。即,在给定结局Y的条件下,协变量、处理和中介的联合分布在总体和样本中是相同的。这是本文识别策略的基石,也是病例-对照研究中的标准假设。
    5. 外部信息可及性:可以获得目标总体的边际协变量分布P_pop(X_j)。这是Stage 1中生成合成样本和估计密度比的前提。
  • 相比已有文献的放宽/强化
    • 放宽:不要求已知总体患病率π(对比Robins et al., 1994; van der Laan, 2008)。不依赖罕见病假设(对比VanderWeele & Vansteelandt, 2010)。
    • 强化:需要外部边际协变量信息。这是本文方法可行性的代价。此外,假设P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)虽然标准,但在某些复杂抽样(如匹配病例-对照)下可能不成立。

主要结果

  • 理论结果

    • Lemma 1:建立了密度比加权的基础:E_pop[f(X)] = E_cc[r(X) f(X)]。这是Stage 1和Stage 2的理论核心。
    • Lemma 2:建立了标签偏移校正公式:odds_pop(X) = α(π) * odds_cc(X)。它表明,在病例-对照抽样下,总体和样本的条件优势比之间只差一个与X无关的乘性因子α(π),该因子仅依赖于总体患病率π和样本患病率p_cc。
    • Lemma 3:给出了在标准因果假设下,嵌套反事实均值的加权识别公式(公式6和7)。这为Stage 3的中介权重提供了理论依据。
    • π的估计:通过求解不动点方程T(π) = π(公式4)来估计总体患病率。该方程结合了密度比r(X)和标签偏移校正后的风险函数S_pop(X; π)
  • 模拟结果

    • 数据生成:模拟了一个包含二元处理A、二元中介M、二元结局Y和两个协变量X1, X2的总体。总体患病率π≈0.209。真实因果效应为RR_TE=2.79, RR_PDE=2.41, RR_PIE=1.12, RR_InE=1.04
    • 核心结论:随着样本量从250例增加到4000例,所有估计量(TE, PDE, PIE, InE)的绝对偏差、标准差和RMSE均单调递减,提供了一致性的经验证据。例如,对于TE,偏差从0.16降至0.034,RMSE从0.625降至0.128。PIE和InE的估计非常精确,偏差极小。
    • 效率增益:图3(b)显示,相对于最小样本量(n=250),当n=4000时,标准差减少了超过70%,表明效率增益显著。
  • 真实数据例子(NHANES)

    • 数据:2017-2018 NHANES数据,共5140人。结局为心血管疾病(CVD,患病率11.1%),处理为当前吸烟状态(18.2%),中介为高血压(37.9%)。协变量包括年龄、性别、种族、BMI。
    • 方法应用:从全队列中抽取一个平衡的病例-对照样本(n=1146,病例和对照各573人)。利用全队列的协变量边际分布作为外部信息。
    • 结果
      • 患病率恢复:估计的患病率π_hat = 0.114,非常接近真实值0.111。这验证了Stage 1的有效性。
      • 因果效应:估计的总效应RR_TE = 1.16(95% CI: 0.88, 1.54),纯直接效应RR_PDE = 1.13,纯间接效应RR_PIE = 1.03,交互效应RR_InE = 1.00。所有置信区间都包含1,表明在该数据中未发现显著的因果效应。
      • 与标准logistic回归对比:标准logistic回归给出的优势比为1.74,而本文方法在优势比尺度上的总效应为1.18。作者解释这种差异是因为两者估计的是不同的参数(条件关联 vs. 边际因果效应),且本文方法校正了抽样偏差。
    • 这个例子想说明什么:主要目的是方法学展示,证明该框架在真实流行病学数据中是可行且稳定的,能够利用外部信息从大幅缩减的回顾性样本中恢复总体参数。

证明路线与技术技巧

  • 整体路线

    1. Stage 1:估计π。核心是证明π = E_cc[r(X) S_pop(X; π)]。证明路线是:
      • π = E_pop[P_pop(Y=1|X)]出发(公式1)。
      • 利用Lemma 1(密度比加权)将期望从总体转换到样本:π = E_cc[r(X) P_pop(Y=1|X)]
      • 利用Lemma 2(标签偏移校正)将未知的P_pop(Y=1|X)表示为已知的S_cc(X)和未知的π的函数:S_pop(X; π)
      • 得到关于π的不动点方程T(π) = π,其中T(π) = E_cc[r(X) S_pop(X; π)] / E_cc[r(X)]
    2. Stage 2:重建总体。一旦得到π_hat,构建设计权重w_design,使得加权后的样本中Y的分布等于π_hat。这一步是直接的,其正确性由w_design的定义保证。
    3. Stage 3:估计因果效应。在加权后的伪总体中,应用Lemma 3。Lemma 3的证明路线是:
      • 对于总效应E[Y(a, M(a))],利用一致性、条件可交换性和IPW识别公式(公式6)。
      • 对于嵌套反事实均值E[Y(a, M(a*))],利用一致性、顺序可忽略性和一个“乘除1”的技巧,引入中介密度比f(M|A=a*, X) / f(M|A=a, X),得到加权识别公式(公式7)。
  • 关键跳跃点

    • πT(π)的跳跃:这是本文最核心的数学创新。它巧妙地将一个看似不可识别的参数(π)转化为一个自洽方程的解。这个跳跃依赖于两个关键引理(Lemma 1和2)以及外部边际协变量信息(用于估计r(X))。
    • 密度比估计的转化:将高维密度比估计问题转化为一个二分类问题。通过生成一个与样本大小相当的合成总体样本,并训练一个分类器来区分“合成样本”和“病例-对照样本”,分类器的输出R(X)可以直接用于计算密度比r(X) = R(X) / (1-R(X))。这避免了直接估计高维密度,是一个实用的技术技巧。
  • 技术技巧点名

    • 密度比学习(Density-ratio learning):通过二分类来估计密度比,避免了高维密度估计的困难。
    • 标签偏移校正(Label-shift correction):利用odds_pop = α * odds_cc这一关系,将样本中的条件风险函数校正为总体的条件风险函数。
    • 不动点迭代/求根(Fixed-point iteration / Root-finding):用于求解T(π) = π,得到π的估计值。
    • 自标准化重要性加权(Self-normalized importance weighting):在公式(2)中,分母Σ r(X_i)用于归一化,提高了数值稳定性。
    • 稳定的逆概率权重(Stabilized IPW):使用P(A=a) / P(A=a|X)代替1/P(A=a|X),减少了极端权重的影响。
    • 中介密度比加权(Mediator density-ratio weighting):通过f(M|A=a*, X) / f(M|A=a, X)来构造中介权重,实现对嵌套反事实均值的识别。

🔎 结论是否比证明窄

  • 是的,存在结论比证明窄的情况
    • 关于“统一框架”的声称:作者在摘要和引言中声称这是一个“统一框架”,但论文的理论证明和模拟实验都只针对二元处理、二元中介和二元结局。虽然第3.4节讨论了向纵向动态设定的扩展,但这只是一个概念性讨论,没有提供任何理论证明或模拟验证。因此,该框架的“统一性”目前仅限于一个非常特定的数据场景。
    • 关于“不依赖罕见病假设”的声称:这是本文的一个主要卖点。然而,在NHANES应用中,CVD的患病率为11.1%,这并不算“罕见”。模拟中的患病率为20.9%,也不算罕见。因此,该声称在论文的实证部分得到了支持。但论文没有讨论当结局非常罕见(例如,患病率<1%)时,Stage 1中π的估计是否会遇到数值问题或效率问题。在极端罕见的情况下,病例样本量可能很小,密度比估计和标签偏移校正的稳定性值得怀疑。
    • 关于“效率”的声称:作者在讨论中承认“formal semiparametric efficiency theory for the proposed estimator remains to be developed”。这意味着,虽然模拟显示偏差随样本量减小,但我们不知道这个估计量是否达到了半参数效率界。它可能不是最优的。作者没有提供任何关于方差的理论结果,仅依赖bootstrap进行推断。

四、开放问题

  1. 半参数效率理论:本文提出的三阶段加权估计量的影响函数(influence function)是什么?它是否达到了半参数效率界? 作者在讨论中明确承认这是未来工作(Section 6: “formal semiparametric efficiency theory ... remains to be developed”)。这是一个非常具体且重要的理论问题。
  2. 不确定性在三个阶段间的传播:本文使用bootstrap来获得标准误,但能否推导出解析的方差公式,以显式地刻画Stage 1中π的估计误差如何传播到Stage 3的因果效应估计中? 作者在讨论中提到了这一点(Section 6: “uncertainty propagation across the three estimation stages”)。
  3. 对连续/多类别处理、中介和结局的扩展:本文的理论和模拟都局限于二元变量。如何将3S-weighting框架扩展到连续处理、连续中介或时间-事件结局(time-to-event outcome)? 作者在讨论中将其列为未来方向(Section 6: “Extension to multi-category, continuous, or time-to-event outcomes”)。
  4. 密度比估计的稳健性:Stage 1中密度比r(X)的估计依赖于一个关键假设P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)如果这个假设被违反(例如,在匹配病例-对照设计中),密度比估计会如何偏误?是否存在对这类偏误更稳健的密度比估计方法? 这是一个值得探索的稳健性问题,扎根于Lemma 2的证明假设(公式8)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论