A Unified Three-Stage Weighting Framework for Causal Inference and Mediation Analysis under Case-Control Sampling¶

作者: Tarikul Islam, Mahbub A. H. M. Latif
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.26543

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：如何从病例-对照研究（case-control study）这种因结果依赖抽样（outcome-dependent sampling）而扭曲了总体分布的数据中，进行有效的因果推断与因果中介分析（causal mediation analysis）。病例-对照研究在流行病学中极为常见，尤其当结局罕见或前瞻性随访成本过高时，它能大幅提升效率。然而，其抽样机制（按结局Y=1/0分别抽样）导致观测到的样本分布与目标总体分布不同，使得许多总体层面的因果参数（如平均处理效应、风险差、风险比）无法直接识别。该方向的成熟度：理论框架已基本建立（识别条件、加权方法），但实际应用仍有限，且存在若干关键缺口。

发展脉络（history）¶

奠基工作：条件关联的可识别性与logistic回归的统治地位
- Cornfield (1951) 与 Prentice & Pyke (1979) 奠定了病例-对照研究的统计基础。核心发现是：在病例-对照抽样下，条件优势比（conditional odds ratio） 是可识别的，且logistic回归的斜率参数（除截距外）可以直接从回顾性样本中有效估计。这使得logistic回归成为该领域的标准工具。
- Miettinen (1976) 与 Greenland (1981, 1987) 进一步澄清了在不同抽样方案（如case-base, survivor, risk-set sampling）下，哪些参数（如发病率密度比、风险比、绝对风险）可以被估计或近似。
主要进展：从条件关联到总体因果效应——已知患病率下的加权方法
- Robins et al. (1994) 与 van der Laan (2008) 开创性地指出，如果总体结局患病率（population outcome prevalence）是已知的，则可以通过逆概率加权（IPW）来重建目标总体分布，从而估计边际因果效应。
- Rose & van der Laan (2008, 2009, 2014) 与 Balzer et al. (2016) 在此基础上发展了更复杂的估计量，包括靶向最大似然估计（TMLE）、双稳健估计和半参数有效估计，用于在结局依赖抽样下估计因果优势比、风险比和风险差。这些方法不再局限于logistic回归，而是引入了现代因果推断的工具箱。
当前Frontier：识别理论的深化、中介分析的挑战与统一框架的缺失
- L. Penning de Vries & Groenwold (2022) 与 O'Brien et al. (2022) 提供了更正式的识别分析，阐明了在多种回顾性抽样方案下，因果效应可被恢复所需的具体假设。这强化了理论基础。
- VanderWeele & Vansteelandt (2010) 与 Valeri & VanderWeele (2013) 将中介分析引入病例-对照研究，但严重依赖罕见病假设（rare disease approximation） 或强参数假设。VanderWeele & Tchetgen Tchetgen (2016) 尝试处理匹配病例-对照设计中的中介分析，但仍有局限。
- Mésidor et al. (2026) 的方法学综述指出，尽管理论进展显著，但因果推断方法在病例-对照研究中的实际应用仍然有限，存在重要的方法学空白。
本文的位置：本文（Islam & Latif, 2026）试图填补上述空白，提出一个统一的三阶段加权框架（3S-weighting），该框架不要求已知总体患病率，能同时估计总效应和路径特异性中介效应，且仅需外部边际协变量信息。它试图将患病率恢复、总体重建和因果加权整合为一个模块化流程。

子线索聚类¶

基于已知患病率的加权方法：以Robins, van der Laan, Rose, Balzer等为代表。核心思路是，若已知总体患病率π，则可通过设计权重（π/π_cc 或 (1-π)/(1-π_cc)）重建总体。本文的Stage 2直接继承此思路，但Stage 1的目标是估计π，从而摆脱对已知π的依赖。
基于罕见病假设或强参数假设的中介分析：以VanderWeele, Valeri, Tchetgen Tchetgen等为代表。这些方法在病例-对照数据中估计中介效应时，要么假设结局罕见（从而优势比近似风险比），要么对数据生成过程施加很强的参数结构。本文的Stage 3通过先重建总体，再应用标准加权中介方法，试图绕开这些假设。
识别理论与抽样方案分类：以Penning de Vries & Groenwold, O'Brien等为代表。这类工作专注于厘清不同回顾性抽样设计（case-control, case-base, risk-set, survivor）下，哪些因果参数是可识别的，以及需要什么外部信息。本文的识别策略（Lemma 1 & 2）建立在此类理论基础上，特别是利用了“给定Y后X的分布不变”这一关键假设（公式8）。

这个方向在追问的核心问题¶

如何在不已知总体患病率的情况下，从病例-对照数据中识别总体因果效应？ 这是本文试图解决的首要问题。现有方法要么假设π已知，要么依赖罕见病假设。
如何将因果中介分析（特别是路径特异性效应）扩展到病例-对照设计，而不依赖强参数假设或罕见病假设？ 这是本文的第二个核心贡献点。
如何利用外部信息（如人口普查数据中的边际协变量分布）来辅助识别和估计？ 这是本文提出的具体技术路径（密度比学习+标签偏移校正）。
如何构建一个模块化、易于实施的统一框架，以促进因果推断方法在病例-对照研究中的实际应用？ 这是本文的最终目标，回应了Mésidor et al. (2026) 的呼吁。

⚠️ 作者的 framing¶

作者的缺口frame：作者将现有文献的缺口概括为三点：(i) 大多数方法需要已知总体患病率；(ii) 中介方法依赖罕见病假设或强参数假设；(iii) 缺乏一个能同时处理总效应和中介效应的统一框架。通过将本文定位为同时解决这三个缺口的“显然的下一步”，作者构建了一个强有力的叙事。
被淡化或回避的竞争路线：
- 双稳健估计（Doubly Robust Estimation）：作者在引言中提到了Rose & van der Laan (2014) 和 Balzer et al. (2016) 的双稳健方法，但并未深入讨论其与本文方法在效率或稳健性上的优劣。双稳健方法通常对模型误设更稳健，而本文的3S-weighting框架在Stage 1和Stage 3都依赖于模型（分类器、倾向性得分、中介密度比），其双稳健性质（如果存在）未被讨论。
- TMLE（Targeted Maximum Likelihood Estimation）：TMLE是处理此类问题的另一强大工具，作者仅在引言中提及，但未将其作为主要比较对象。TMLE通常具有半参数有效性，而本文的加权估计量是否达到效率界，作者在讨论中承认“formal semiparametric efficiency theory ... remains to be developed”。
什么明显该被引/该存在、却没出现在intro里？
- 关于密度比估计的文献：本文的核心技术之一是密度比估计（density-ratio learning），但引言中并未引用该领域的经典或最新工作（如Sugiyama et al., 2012的“Density Ratio Estimation in Machine Learning”）。这可能是作者认为该技术是“现成工具”，但作为一篇方法学论文，引用其基础文献是惯例。
- 关于标签偏移（Label Shift）的文献：标签偏移校正（Lemma 2）是本文Stage 1的另一核心，但同样缺乏对该领域（如Lipton et al., 2018; Saerens et al., 2002）的引用。
- 关于最大熵原理（Maximum Entropy）的引用：作者在Stage 1中利用最大熵原理从边际分布生成联合分布，但未引用相关文献（如Jaynes, 1957）。这虽然是一个标准技巧，但引用会增强方法的理论支撑。

张力¶

未见明显对立引用。该领域的文献呈现出一种“渐进式补充”的关系，而非根本性矛盾。主要张力在于“已知患病率”与“未知患病率”两种设定之间的方法学差异，以及“罕见病假设”与“一般情况”之间的权衡。本文试图在后者（一般情况）下取得进展。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- O = (X, A, M, Y)：目标总体中的一个随机个体。X是预处理协变量向量，A是二元处理/暴露变量，M是中介变量，Y是二元结局变量。
- S：抽样指示变量。S=1表示该个体被选入病例-对照研究。
- π = P_pop(Y=1)：目标总体中的结局患病率。这是本文Stage 1要估计的关键参数。
- p_cc = P_cc(Y=1)：病例-对照样本中的结局患病率。这是由设计决定的（例如，病例和对照各占一半），通常不等于π。
- r(X) = P_pop(X) / P_cc(X)：密度比。衡量协变量X在总体和样本中的分布差异。
- S_cc(X) = P_cc(Y=1 | X)：在病例-对照样本中，给定X时Y=1的条件概率。
- S_pop(X) = P_pop(Y=1 | X)：在目标总体中，给定X时Y=1的条件概率。这是我们要恢复的目标。
- α(π)：标签偏移校正因子，连接S_cc和S_pop。
- w_design：设计权重，用于将病例-对照样本重建为总体。
- SW_A：稳定的处理权重（逆概率权重），用于控制混淆。
- SW_PDE, SW_TDE：稳定的中介权重，用于估计路径特异性效应。
- RR_TE, RR_PDE, RR_PIE, RR_InE：总效应、纯直接效应、纯间接效应、交互效应的风险比。
模型：
- 数据生成机制：目标总体服从一个未知的联合分布P_pop(X, A, M, Y)。我们假设存在一个潜在结果框架，其中Y(a, m)和M(a)是定义良好的。
- 抽样机制：病例-对照抽样。P(S=1 | Y, A, M, X) = P(S=1 | Y)。即，抽样仅依赖于结局Y，与A, M, X条件独立。这意味着，在给定Y的条件下，样本中X, A, M的分布与总体中相同：P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)。这是本文所有识别结果的核心假设（公式8）。
- 外部信息：我们假设可以获得目标总体的边际协变量分布 P_pop(X_1), ..., P_pop(X_p)（例如，从人口普查数据中获取年龄、性别的边际分布）。注意，我们不知道联合分布P_pop(X)。
可观测数据：
- 病例-对照样本：{ (Y_i, A_i, M_i, X_i) : i = 1, ..., n }，这些是从P_cc(X, A, M, Y)中独立抽取的。这是研究者实际能观测到的主要数据。
- 外部边际协变量信息：P_pop(X_1), ..., P_pop(X_p)。这是研究者可以获得的辅助信息，但通常不是个体层面的数据。
- 想要但观测不到的量：
  - 目标总体的联合分布P_pop(X, A, M, Y)。
  - 总体患病率π。
  - 潜在结果Y(a, m)和M(a)。
  - 总体中的条件风险函数S_pop(X)。

第二步：讲最小内核¶

本文的核心思路可以浓缩为以下最小内核：如何利用一个“有偏”的样本（病例-对照）和一个“不完整”的外部信息（边际分布），来恢复一个“无偏”的总体参数（因果效应）？

最简特例：假设只有一个二元协变量X（例如，性别：男/女），且我们已知总体中男性的比例P_pop(X=男) = 0.5。

问题：我们从一个病例-对照样本中收集了数据，其中病例和对照各占一半（p_cc = 0.5）。我们想估计处理A对结局Y的总体平均处理效应（ATE）。但样本中X的分布可能被扭曲了（例如，因为病例组中男性更多）。
Stage 1：估计总体患病率π
- 我们不知道π，但我们可以利用外部信息P_pop(X=男)=0.5。
- 首先，我们估计密度比r(X)。由于我们已知总体和样本中X的分布，我们可以直接计算：
  - 假设样本中男性的比例是P_cc(X=男) = 0.6。
  - 那么，r(X=男) = P_pop(X=男) / P_cc(X=男) = 0.5 / 0.6 = 0.833。
  - r(X=女) = P_pop(X=女) / P_cc(X=女) = 0.5 / 0.4 = 1.25。
- 其次，我们在病例-对照样本中拟合一个logistic回归模型，得到S_cc(X) = P_cc(Y=1 | X)。由于抽样扭曲，这个模型的截距是错误的，但斜率（即X对Y的log-OR）是正确的。
- 然后，我们利用标签偏移校正（Lemma 2）来恢复总体风险函数S_pop(X)。这个校正依赖于一个未知的校正因子α(π)，而α(π)本身是π的函数。
- 最后，我们利用密度比加权（公式2）来估计π。这个公式的本质是：总体患病率π = 在样本中，对S_pop(X; π)进行密度比加权平均。由于S_pop依赖于π，我们得到一个关于π的方程T(π) = π，通过求解这个不动点方程得到π的估计值。
Stage 2：重建总体
- 一旦我们估计出π_hat，我们就可以构建设计权重：
  - 对于病例（Y=1）：w_design = π_hat / p_cc
  - 对于对照（Y=0）：w_design = (1 - π_hat) / (1 - p_cc)
- 对样本中的每个个体应用这个权重，我们就得到了一个“伪总体”，其中Y的分布与目标总体一致（患病率为π_hat），且X的分布也被校正了。
Stage 3：估计因果效应
- 在这个“伪总体”中，我们可以应用标准的因果推断方法（如IPW）来估计ATE。例如，我们估计倾向性得分P(A=1 | X)，然后计算稳定的处理权重SW_A。
- 最终的权重是W_TE = w_design * SW_A。在这个加权伪总体中，处理A与混淆变量X无关，因此我们可以直接比较加权后的Y均值来估计ATE。
- 对于中介分析，我们只需在w_design的基础上，再乘以中介权重（如SW_PDE），即可估计路径特异性效应。

这个最小内核揭示了本文的核心数学困难：Stage 1中π的估计是一个自洽（self-consistency）问题。我们不知道π，但我们可以用π的函数（S_pop）和密度比来“猜测”π，而正确的π应该使得这个猜测等于它自己。这通过一个不动点方程来解决。一旦π被估计出来，后续的Stage 2和Stage 3就是标准技术的直接应用。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文研究了在病例-对照抽样（outcome-dependent sampling）下，如何在不已知总体结局患病率的情况下，进行因果推断和因果中介分析。
核心工具/方法：提出了一个三阶段加权（3S-weighting）框架，该框架依次使用密度比学习+标签偏移校正估计患病率、设计权重重建总体分布、以及稳定的因果/中介权重估计总效应和路径特异性效应。
主要结论：模拟研究表明，忽略回顾性抽样的常规分析会产生严重偏差，而所提方法能一致地恢复总体因果参数。NHANES数据应用展示了框架的实用性。

关键设定与假设¶

设定：目标总体为(X, A, M, Y)，其中Y为二元结局，A为二元处理，M为二元中介。数据来自病例-对照抽样，即P(S=1 | Y, A, M, X) = P(S=1 | Y)。外部可获得目标总体的边际协变量分布P_pop(X_j)。
关键假设：
1. 一致性（Consistency）：Y = Y(A, M(A))，M = M(A)。观测到的结局和中介等于在观测到的处理水平下的潜在结果。
2. 条件可交换性（Conditional Exchangeability）：
  - Y(a, m) ⊥ A | X：给定X，处理A与潜在结果独立（无未观测混淆）。
  - Y(a, m) ⊥ M | A=a, X：给定A和X，中介M与潜在结果独立（无中介-结局混淆）。
3. 正值性（Positivity）：0 < P(A=a | X) < 1 且 0 < P(M=m | A=a, X) < 1。
4. 抽样机制假设：P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)。即，在给定结局Y的条件下，协变量、处理和中介的联合分布在总体和样本中是相同的。这是本文识别策略的基石，也是病例-对照研究中的标准假设。
5. 外部信息可及性：可以获得目标总体的边际协变量分布P_pop(X_j)。这是Stage 1中生成合成样本和估计密度比的前提。
相比已有文献的放宽/强化：
- 放宽：不要求已知总体患病率π（对比Robins et al., 1994; van der Laan, 2008）。不依赖罕见病假设（对比VanderWeele & Vansteelandt, 2010）。
- 强化：需要外部边际协变量信息。这是本文方法可行性的代价。此外，假设P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)虽然标准，但在某些复杂抽样（如匹配病例-对照）下可能不成立。

主要结果¶

理论结果：
- Lemma 1：建立了密度比加权的基础：E_pop[f(X)] = E_cc[r(X) f(X)]。这是Stage 1和Stage 2的理论核心。
- Lemma 2：建立了标签偏移校正公式：odds_pop(X) = α(π) * odds_cc(X)。它表明，在病例-对照抽样下，总体和样本的条件优势比之间只差一个与X无关的乘性因子α(π)，该因子仅依赖于总体患病率π和样本患病率p_cc。
- Lemma 3：给出了在标准因果假设下，嵌套反事实均值的加权识别公式（公式6和7）。这为Stage 3的中介权重提供了理论依据。
- π的估计：通过求解不动点方程T(π) = π（公式4）来估计总体患病率。该方程结合了密度比r(X)和标签偏移校正后的风险函数S_pop(X; π)。
模拟结果：
- 数据生成：模拟了一个包含二元处理A、二元中介M、二元结局Y和两个协变量X1, X2的总体。总体患病率π≈0.209。真实因果效应为RR_TE=2.79, RR_PDE=2.41, RR_PIE=1.12, RR_InE=1.04。
- 核心结论：随着样本量从250例增加到4000例，所有估计量（TE, PDE, PIE, InE）的绝对偏差、标准差和RMSE均单调递减，提供了一致性的经验证据。例如，对于TE，偏差从0.16降至0.034，RMSE从0.625降至0.128。PIE和InE的估计非常精确，偏差极小。
- 效率增益：图3(b)显示，相对于最小样本量（n=250），当n=4000时，标准差减少了超过70%，表明效率增益显著。
真实数据例子（NHANES）：
- 数据：2017-2018 NHANES数据，共5140人。结局为心血管疾病（CVD，患病率11.1%），处理为当前吸烟状态（18.2%），中介为高血压（37.9%）。协变量包括年龄、性别、种族、BMI。
- 方法应用：从全队列中抽取一个平衡的病例-对照样本（n=1146，病例和对照各573人）。利用全队列的协变量边际分布作为外部信息。
- 结果：
  - 患病率恢复：估计的患病率π_hat = 0.114，非常接近真实值0.111。这验证了Stage 1的有效性。
  - 因果效应：估计的总效应RR_TE = 1.16（95% CI: 0.88, 1.54），纯直接效应RR_PDE = 1.13，纯间接效应RR_PIE = 1.03，交互效应RR_InE = 1.00。所有置信区间都包含1，表明在该数据中未发现显著的因果效应。
  - 与标准logistic回归对比：标准logistic回归给出的优势比为1.74，而本文方法在优势比尺度上的总效应为1.18。作者解释这种差异是因为两者估计的是不同的参数（条件关联 vs. 边际因果效应），且本文方法校正了抽样偏差。
- 这个例子想说明什么：主要目的是方法学展示，证明该框架在真实流行病学数据中是可行且稳定的，能够利用外部信息从大幅缩减的回顾性样本中恢复总体参数。

证明路线与技术技巧¶

整体路线：
1. Stage 1：估计π。核心是证明π = E_cc[r(X) S_pop(X; π)]。证明路线是：
  - 从π = E_pop[P_pop(Y=1|X)]出发（公式1）。
  - 利用Lemma 1（密度比加权）将期望从总体转换到样本：π = E_cc[r(X) P_pop(Y=1|X)]。
  - 利用Lemma 2（标签偏移校正）将未知的P_pop(Y=1|X)表示为已知的S_cc(X)和未知的π的函数：S_pop(X; π)。
  - 得到关于π的不动点方程T(π) = π，其中T(π) = E_cc[r(X) S_pop(X; π)] / E_cc[r(X)]。
2. Stage 2：重建总体。一旦得到π_hat，构建设计权重w_design，使得加权后的样本中Y的分布等于π_hat。这一步是直接的，其正确性由w_design的定义保证。
3. Stage 3：估计因果效应。在加权后的伪总体中，应用Lemma 3。Lemma 3的证明路线是：
  - 对于总效应E[Y(a, M(a))]，利用一致性、条件可交换性和IPW识别公式（公式6）。
  - 对于嵌套反事实均值E[Y(a, M(a*))]，利用一致性、顺序可忽略性和一个“乘除1”的技巧，引入中介密度比f(M|A=a*, X) / f(M|A=a, X)，得到加权识别公式（公式7）。
关键跳跃点：
- 从π到T(π)的跳跃：这是本文最核心的数学创新。它巧妙地将一个看似不可识别的参数（π）转化为一个自洽方程的解。这个跳跃依赖于两个关键引理（Lemma 1和2）以及外部边际协变量信息（用于估计r(X)）。
- 密度比估计的转化：将高维密度比估计问题转化为一个二分类问题。通过生成一个与样本大小相当的合成总体样本，并训练一个分类器来区分“合成样本”和“病例-对照样本”，分类器的输出R(X)可以直接用于计算密度比r(X) = R(X) / (1-R(X))。这避免了直接估计高维密度，是一个实用的技术技巧。
技术技巧点名：
- 密度比学习（Density-ratio learning）：通过二分类来估计密度比，避免了高维密度估计的困难。
- 标签偏移校正（Label-shift correction）：利用odds_pop = α * odds_cc这一关系，将样本中的条件风险函数校正为总体的条件风险函数。
- 不动点迭代/求根（Fixed-point iteration / Root-finding）：用于求解T(π) = π，得到π的估计值。
- 自标准化重要性加权（Self-normalized importance weighting）：在公式(2)中，分母Σ r(X_i)用于归一化，提高了数值稳定性。
- 稳定的逆概率权重（Stabilized IPW）：使用P(A=a) / P(A=a|X)代替1/P(A=a|X)，减少了极端权重的影响。
- 中介密度比加权（Mediator density-ratio weighting）：通过f(M|A=a*, X) / f(M|A=a, X)来构造中介权重，实现对嵌套反事实均值的识别。

🔎 结论是否比证明窄¶

是的，存在结论比证明窄的情况。
- 关于“统一框架”的声称：作者在摘要和引言中声称这是一个“统一框架”，但论文的理论证明和模拟实验都只针对二元处理、二元中介和二元结局。虽然第3.4节讨论了向纵向动态设定的扩展，但这只是一个概念性讨论，没有提供任何理论证明或模拟验证。因此，该框架的“统一性”目前仅限于一个非常特定的数据场景。
- 关于“不依赖罕见病假设”的声称：这是本文的一个主要卖点。然而，在NHANES应用中，CVD的患病率为11.1%，这并不算“罕见”。模拟中的患病率为20.9%，也不算罕见。因此，该声称在论文的实证部分得到了支持。但论文没有讨论当结局非常罕见（例如，患病率<1%）时，Stage 1中π的估计是否会遇到数值问题或效率问题。在极端罕见的情况下，病例样本量可能很小，密度比估计和标签偏移校正的稳定性值得怀疑。
- 关于“效率”的声称：作者在讨论中承认“formal semiparametric efficiency theory for the proposed estimator remains to be developed”。这意味着，虽然模拟显示偏差随样本量减小，但我们不知道这个估计量是否达到了半参数效率界。它可能不是最优的。作者没有提供任何关于方差的理论结果，仅依赖bootstrap进行推断。

四、开放问题¶

半参数效率理论：本文提出的三阶段加权估计量的影响函数（influence function）是什么？它是否达到了半参数效率界？ 作者在讨论中明确承认这是未来工作（Section 6: “formal semiparametric efficiency theory ... remains to be developed”）。这是一个非常具体且重要的理论问题。
不确定性在三个阶段间的传播：本文使用bootstrap来获得标准误，但能否推导出解析的方差公式，以显式地刻画Stage 1中π的估计误差如何传播到Stage 3的因果效应估计中？ 作者在讨论中提到了这一点（Section 6: “uncertainty propagation across the three estimation stages”）。
对连续/多类别处理、中介和结局的扩展：本文的理论和模拟都局限于二元变量。如何将3S-weighting框架扩展到连续处理、连续中介或时间-事件结局（time-to-event outcome）？ 作者在讨论中将其列为未来方向（Section 6: “Extension to multi-category, continuous, or time-to-event outcomes”）。
密度比估计的稳健性：Stage 1中密度比r(X)的估计依赖于一个关键假设：P_pop(X, A, M | Y=y) = P_cc(X, A, M | Y=y)。如果这个假设被违反（例如，在匹配病例-对照设计中），密度比估计会如何偏误？是否存在对这类偏误更稳健的密度比估计方法？ 这是一个值得探索的稳健性问题，扎根于Lemma 2的证明假设（公式8）。

Maintained by 陈星宇 · Homepage · Source on GitHub