Revisiting the Population Attributable Fraction¶
作者: Mark Klose, Paul N. Zivich, Stephen R. Cole
来源: Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001867
一、领域脉络与小综述¶
这个方向是什么¶
Population Attributable Fraction(PAF)是一个流行病学指标,旨在回答:“如果某个暴露被移除,人群中的结局(如疾病或死亡)会减少多少?”其经典形式是 Levin 在 1953 年提出的公式:\( \text{PAF} = \frac{p_e(RR - 1)}{1 + p_e(RR - 1)} \),其中 \(p_e\) 是暴露在人群中的患病率,RR 是相对风险。PAF 的核心统计 / 科学问题是:如何从观测数据(可能来自非随机样本)中,识别并估计一个具有因果解释的“可归因比例”,并且将其从研究样本推广(transport)到一个目标总体。这个子方向的成熟度较高——经典方法已在流行病学教科书中占据标准章节,但正式引入因果推断框架下的 identification 条件以及样本-总体不一致时的 transportability 是较近期的进展。本文正处在这个「经典指标接受因果与 transportability 框架的改造」的阶段。
发展脉络¶
-
奠基工作:
- Levin (1953): 提出 PAF 的经典公式。作者引用时称其为“最初的提议”,但指出它隐含了“研究人群是目标总体的随机样本”这一假设。
- Miettinen (1974): 提出另一个基于暴露优势比(odds ratio)的估计量。作者引用时同样指出其隐含了相同假设(研究人群是随机样本)。
- 这两篇奠定了 PAF 的经典估计方法,但都没有将 PAF 置于因果推断的正式框架下,也没有处理样本与目标总体不一致的问题。
-
主要进展(因果推断框架下的 PAF):
- Bruzzi et al. (1985) 和 Greenland & Drescher (1993):作者认为这些工作将 PAF 纳入了回归框架,使其能够对协变量进行调整。特别是 Greenland & Drescher 提供了一种调整后的 PAF 方法,但在因果识别方面仍然不够正式。
- Hernán (2005):首次将 PAF 与逆概率权重的因果推断方法联系起来。作者引用:“Hernán 25 随后将 PAF 定义为在研究人群中,在给定协变量和处理条件下,将曝露者的结局风险设定为非曝露者的风险时,结局发病率的比例降低。” 这标志着一个关键进展:PAF 不再仅仅是关联度量,而被正式理解为一种反事实量,其识别需要条件可交换性等因果假设。
- Suzuki et al. (2012) 和 Månsson et al. (2022):作者提到这些工作进一步将“调整后的 PAF”推广到“标准 PAF”的语境下,并引入了基于 g-公式(cohort data)的标准化方法。
-
当前 Frontier(Transportability):
- 本文的核心定位是:将 PAF 的估计从“研究样本”推广到“并非研究样本随机抽样的目标总体”。作者将此称为 transportability。
- Lesko et al. (2017):作者引用:“[...] 然而,当样本并非目标总体的随机样本时,PAF 的估计值不能代表目标总体的 PAF [...] Lesko 等人 19 讨论了如何将这些识别条件扩展到利用 transportability 的 PAF。” 这是本文的直接前驱,指出了经典方法的局限性,并提出了一个解决方案(transportability 的识别条件)。本文可以被视为 Lesko 等人工作的具体化和实证应用。
-
本文位置:本文站在 Bruzzi 等人提供的调整方法和 Hernán 提供的因果语言之上,具体解决了 Lesko 等人指出的样本非随机时 PAF 的 transport 问题。它的主要贡献不是新的识别条件,而是将这些条件与两种加权方法(IPTW 和 IOSW)在真实数据上演示出来,并使用了两种方差估计方法(bootstrap 和 M-estimation)。
子线索聚类¶
- PAF 的关联估计与标准化:以 Levin (1953), Miettinen (1974), Bruzzi et al. (1985), Greenland & Drescher (1993) 为代表。关注的是在没有严格因果框架下,如何从研究样本得到 PAF 的点/区间估计。
- PAF 的因果定义与识别:以 Hernán (2005), Suzuki et al. (2012), Månsson et al. (2022) 为代表。核心是:PAF 首先是一个反事实量,其识别依赖于无混杂、正性、一致性等因果假设。方法上常用 g-formula / standardization 或 IPTW。
- PAF 的 Transportability:以 Lesko et al. (2017) 和本文为代表。核心是:当研究人群与目标总体人群分布不一致时,如何将可识别(在研究人群中)的潜在风险 transport 到目标总体。关键假设从“样本是目标总体的随机抽样”变为条件交换性(条件于协变量,抽样权重与结局无关) 和正性(目标总体中的每个协变量模式在研究样本中都有正概率出现)。本文属于此线索。
方向在追问的核心问题¶
- 因果识别:如何在不满足无混杂假设(例如,存在未测量混杂)的情况下识别 PAF?这是整个因果推断领域的通用挑战,但不涉及本文。
- 非随机样本下的 Transportability:除了基于抽样权重的逆概率加权,有没有更稳健或更高效的 transport 方法?例如,对于数据适应性更强的 g-computation 或 double robust 方法。
- 方差估计:在 PAF 需要 transport 的情况下,哪种方差估计方法(bootstrap vs. M-estimation)在有限样本下表现更好?本文给出了两种方法,但未进行模拟比较。这是应用中的实际困难。
- 多重暴露:当暴露是多重(如多种毒品使用史)或连续(如注射吸毒频率)时,如何定义和估计 PAF?本文只做了最简单的二值暴露。
⚠️ 作者的 Framing(必须明确标注为作者的表述)¶
- 作者的缺口:作者将缺口 frame 为「Levin 和 Miettinen 的经典估计方法隐含了“研究人群是目标总体的随机样本”这一假设,这在许多实际流行病学研究中不成立」。因此,本文的“显然下一步”是明确定义目标总体和施加 transportability 的识别条件,然后使用加权方法(IPTW, IOSW)进行估计。
- 淡化/回避的竞争路线:本文完全回避了讨论double robust (DR) 估计或targeted maximum likelihood estimation (TMLE) 在 PAF transport 场景下的可能优势。文中的 IPTW 和 M-estimation 都是单模型并且对模型设定敏感(即控制协变量和抽样权重的模型都是参数回归,形式依赖于正确设定)。这是一个明显的竞争路线或被作者认为不必要复杂化的领域。
- 什么明显该被引 / 该存在、却不在 Intro 里?:本文没有引用任何关于 inverse probability weighting 的稳健性或概率比权重(odds weighting) vs 逆概率权重的理论比较文献。这在统计学方法论文献中是一个活跃的领域,但本文并未触及。此外,没有引用操作 PAF 的 R 包或现成函数**(如
epitools或paf包),这暗示本文可能是为了填补流行病学应用实践中的 gap,而非方法学创新。
张力¶
未见明显对立引用。所列引文彼此之间不存在矛盾性结论,都是沿着“从关联 → 因果 → transport”这一渐进路径的共识性进展。唯一的张力可能存在于“需不需要调整协变量”上(Bruzzi/Greenland 的“调整” vs. Levin 的“未调整”),但这只是方法发展的自然演进,并非对立。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
符号:
- \(A\): 暴露变量(二值,1=暴露,0=未暴露)。本文中是“注射吸毒史”(Yes/No)。
- \(Y\): 结局变量(二值,1=结局发生,0=未发生)。本文中是“AIDS 或死亡”(Yes/No)。
- \(S\): 抽样指示变量(二值,1=在研究样本中,0=不在)。本文中,\(S=1\) 代表 WIHS 研究样本;\(S=0\) 代表未被抽到(属于目标总体,符合条件的美国 HIV 诊断女性)。
- \(Z\): 协变量集合。用于控制混杂(影响 \(A\) 和 \(Y\))和/或 transportability(影响 \(S\) 和 \(Y\))。本文的协变量包括年龄、种族等。
- \(P(Y)\): 目标总体中结局的边际风险。
- \(P^{S=1}(Y)\): 样本中(\(S=1\))结局的边际风险。
- \(\text{PAF}\): Population Attributable Fraction。
- \(\text{PAF}^{\text{target}}\): 目标总体中的 PAF。
模型:
- 数据生成机制:研究样本 (\(S=1\)) 是取自一个更大目标总体 (所有符合条件的女性 HIV 诊断者) 的非随机子集。目标总体中,\(A\) 由协变量 \(Z\) 决定(混杂);\(Y\) 由 \(A\) 和 \(Z\) 共同决定。抽样过程 \(S\) 可能与 \(Z\) 和 \(Y\)(或其潜在值)有关(即抽样机制是选择性的)。核心假设是条件交换性(Conditional exchangeability for sampling):在给定协变量 \(Z\) 后,样本指示变量 \(S\) 与潜在结局无关。即 \(Y^a \perp S \mid Z\)。这使得我们可以通过调整 \(Z\) 来 transport 风险。
- 可观测数据:
- 在研究样本 (\(S=1\)) 中,我们可以观测到 \((A_i, Y_i, Z_i)\) 的联合分布。
- 在目标总体 (\(S=0 \cup S=1\)) 中,我们知道每个个体的协变量 \(Z\)(例如,可以从疾控中心数据库获取所有 HIV 诊断女性的基本信息),但不知道他们的 \(A\) 和 \(Y\)。
- 想要但观测不到的:目标总体中所有个体的 (\(A, Y\))。因此,我们无法直接计算目标总体中的 PAF。
第二步:最小内核¶
最简特例:假设目标总体和样本的协变量分布完全不同。假设宇宙由两个总体组成: * 目标总体 P:100 个人,50% 是 40 岁以上(\(Z=1\)),50% 是 40 岁及以下(\(Z=0\))。 * 研究样本 S:10 个人,其中 全部 是 40 岁以上(\(Z=1\))。
假设我们想 transport 研究样本中的 PAF(关于暴露 \(A\) 对结局 \(Y\) 的一定效应)到目标总体。研究样本中,我们通过对协变量的调整,已经估计出在 \(Z=1\) 这块,PAF = 0.xx。
识别公式(transportable PAF): 在条件交换性假设下,目标总体的 PAF 可以被写成: \(\text{PAF}^{\text{target}} = 1 - \frac{P(Y^{a=0})}{P(Y)}\) 其中 \(P(Y)\) 是目标总体中结局的边际概率。\(P(Y^{a=0})\) 是目标总体中,如果所有人都未暴露(\(a=0\)),结局的边际概率。识别中,\(P(Y^{a=0})\) 可以写为: \(P(Y^{a=0}) = E_Z[E[Y | A=0, Z, S=1]]\), 也就是把样本中条件于 \(A=0, Z\) 的结局风险,用目标总体中 \(Z\) 的边际分布加权平均。
在这个最小核心里,逻辑是:我们只要知道每个协变量水平 \(z\) 下,样本中未暴露者的结局风险 \(E[Y | A=0, Z=z, S=1]\),再乘以目标总体中该协变量水平出现概率 \(P(Z=z)\),就能得到目标总体的反事实结局风险。公式就是简单的概率加权:把所有风险“运输”过去。
这个例子为什么能说明核心问题: * 问题:样本中只有 \(Z=1\) 的人,不能直接用它计算目标总体的 PAF(因为目标总体有 \(Z=0\) 的人)。 * 关键想法:我们假设在相同协变量水平下,暴露对结局的效应在样本和目标总体中是相同的(条件效应可传输)。这是 transportability 的核心假设。然后,我们不需要样本中 \(Z=0\) 的人群,因为我们知道目标总体中 \(Z=0\) 的人群占 50%,我们只需要用样本中 \(Z=1\) 的未暴露者风险乘以 100%?不,我们乘的是 50%(因为目标总体中只有 50% 的人属于 \(Z=1\),而样本中全是)。这样就补上了那个缺失的“分布”部分。 * 结论:即使样本没有任何 \(Z=0\) 的人,我们仍能通过 \(Z=1\) 下得到的风险,结合目标总体的 \(Z\) 分布,得到 target PAF。这就是 transportability 通过抽样加权所做的。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:当研究样本并非目标总体的随机样本时,如何估计 Population Attributable Fraction (PAF) 并将其运输(transport)到目标总体,并评估运输后的不确定性。
- 核心工具/方法:使用逆概率处理加权 (IPTW) 来估计暴露的因果效应,并利用逆机会抽样加权 (IOSW) 来调整样本与目标总体的协变量分布差异。方差估计则通过非参数 bootstrap 和基于 M-估计的 sandwich variance 实现。
- 主要结论:在 WIHS 数据向美国 HIV 诊断女性的运输中,样本内 PAF 为 0.21(95% CI: 0.13, 0.29),运输至目标总体后降至 0.13(95% CI: 0.065, 0.19),表明经典估计高估了注射吸毒对目标总体的公共卫生负担。
关键设定与假设¶
-
关键设定:
- 可观测数据 (Full data structure):\((S_i, A_i, Y_i, Z_i)\),其中 \(S_i=1\) 表示个体 i 在研究样本中。我们假设在研究样本中能观测到 \((A, Y, Z)\) 的完整联合分布;在目标总体中只观测到 \(Z\) 的边际分布(如通过人口普查、疾病监测系统)。
- 目标 estimand:Transportable population attributable fraction: \(\text{PAF}_t = 1 - \frac{P(Y^{a=0})}{P(Y)}\),其中 \(P(Y)\) 是目标总体中的边际风险,\(P(Y^{a=0})\) 是目标总体中假设所有人都未暴露时的反事实风险。
- 识别条件(作者具体列出 5 条):
- Positivity for sampling:对于目标总体中每个协变量模式 \(z\),其在研究样本中存在的概率严格正。即 \(P(S=1 \mid Z=z) > 0\)。这是 transport 的“杠杆”点。
- Conditional exchangeability:在给定 \(Z\) 后,暴露 \(A\) 与潜在结局 \(Y^a\) 在研究样本中无混杂。即 \(Y^a \perp A \mid Z, S=1\)。这是因果识别的核心。
- Transportability / Conditional exchangeability for sampling:在给定 \(Z\) 后,样本指示变量 \(S\) 与结局 \(Y\) 无关。即 \(Y^a \perp S \mid Z\)。这是 transport 的核心。
- Consistency:对于每个个体,观测结局 \(Y\) 等于在其实施暴露 \(A\) 下的潜在结局 \(Y^a\)。
- Positivity for treatment:在研究样本中,每个协变量模式下,暴露和无暴露的概率都为正。即 \(P(A=a \mid Z=z, S=1) > 0, a \in \{0,1\}\)。
-
相比已有文献(Lesko et al., 2017):文献已提出这些识别条件,本文在此基础上具体实现了 IPTW + IOSW 的估计策略(Lesko 可能只讨论了理论框架),并引入了 M-estimation 进行方差估计,这比 Lesko 可能用的单纯 bootstrap 更形式化。
主要结果¶
- 核心量化结论:
- 样本内 PAF:0.21(95% CI: 0.13, 0.29)。这意味着在对研究样本(WIHS)自身而言,如果所有女性都不曾有注射吸毒史,AIDS 或死亡风险预计会降低 21%。
- 运输后 Target PAF:0.13(95% CI: 0.065, 0.19)。这意味着对美国 2008 年诊断出 HIV 的女性总体而言,该比例降至 13%。
- 差异:运输后 PAF 降低了38%((0.21-0.13)/0.21 ≈ 0.38),且 95% 置信区间不重叠(0.065-0.19 vs 0.13-0.29),表明差异在统计上显著。作者归因于WIHS 中注射吸毒史与更年轻、年龄分布不同有关,所以在总体中注射吸毒的暴露风险较低,从而归因比例也低。
- 方法对比:作者没有与其他运输方法(如 g-computation)进行比较。主要对比了运输前后结果。
- 稳健性:未做正式的稳健性分析(如检查 positivity 的 violation 一定范围的敏感度分析)。M-estimation 和 bootstrap 的结果一致,表明方差估计的稳健性。
证明路线与技术技巧¶
本文是应用型,不是理论型,所以“证明路线”需转化为“推理路线”和“实现细节”。
-
整体路线(1-4 步):
- 定义 Transportable PAF:写出两个版本 PAF 的公式:基于样本的 \(PAF_{obs}\) 和基于目标总体的 \(PAF_t\)。后者是核心。
- 识别风险:将 \(PAF_t\) 中的反事实风险 \(P(Y^{a=0})\) 通过条件期望分解: \(P(Y^{a=0}) = \sum_{z} P(Z=z) \times \mu_{A=0, Z=z}\) 其中 \(\mu_{A=0, Z=z} = E[Y \mid A=0, Z=z, S=1]\)(在研究样本中估计)。这个识别依赖于条件交换性(transportability):\(E[Y^{a=0} \mid Z=z] = E[Y \mid A=0, Z=z, S=1]\)。注意到这里 \(S=1\) 是必须的,因为我们只能用样本去估计条件风险。
- 估计:
- 用Logistic 回归拟合 \(E[Y \mid A, Z, S=1]\) 得到条件风险预测 \(\hat{\mu}_{A=0, Z=z}\)。
- 估计目标总体中 \(Z\) 的边际分布 \(P(Z=z)\)(在本文中通过“inverse odds of sampling weighting (IOSW)”得到,即用 logistic 回归估计 \(P(S=1 \mid Z)\),然后得到权重 \( \frac{P(S=0 \mid Z)}{P(S=1 \mid Z)}\) 对目标总体中的每个观测加权(他们的 \(Z\) 是已知的)。
- 估计方差:
- Nonparametric Bootstrap:从研究样本(\(S=1\))中重抽样,每次重抽样重新估计那个 logistic 回归 + 权重重新计算 PAF_t,重复 500 次取标准差。
- M-estimation (Sandwich Variance):定义所有模型(暴露模型、结局模型、抽样模型)的估计方程,将其联结成一个多方程 M-估计问题。然后利用 sandwich 公式 \( \hat{V} = \frac{1}{n} \hat{A}^{-1} \hat{B} (\hat{A}^{-1})^T \) 估计方差。其中,\(A\) 是 log-likelihood 的二阶导数矩阵(信息矩阵),\(B\) 是 score 向量的外积矩阵。这一方法无需重抽样,只需对最终估计的梯度进行操作。
-
关键跳跃点:
- 从 概率加权到 M-estimation 的跳跃:要将 PAF_t 写成可微的参数函数极其重要。作者把 PAF_t 表示为三个模型(抽样模型、结局模型、暴露模型)的参数 \(\theta = (\alpha, \beta, \gamma)\) 的函数。如果你不能写出 PAF_t 作为这些参数的显示函数,就无法用 sandwich。本文通过逆概率权重,使得 PAF_t 可以表示为 \(1 - \frac{\sum_{i \in S=1} w_i \cdot \hat{\mu}_{A=0, Z_i}}{\sum_{i \in S=1} w_i \cdot Y_i}\),其中 \(w_i\) 来自抽样权重模型,\(\hat{\mu}_{A=0, Z_i}\) 来自结局模型,这使得整个表达式成为一个显式的估计量,从而可以求关于参数的导数。
- 技术技巧点名:
- Logistic regression:用于拟合 \(P(S=1 \mid Z)\), \(P(A=1 \mid Z)\), \(E[Y \mid A, Z, S=1]\)。这是参数化建模,优点是计算简便高效(M-estimation 直接得方差),但缺点是结果对模型设定敏感。
- Inverse odds of sampling weighting (IOSW):用目标总体中抽样概率的逆概率来加权研究样本中的观测,使其代表目标总体的协变量分布。它不是唯一方法,但作者选择它。
- M-estimation / Sandwich variance:是本文对应用的一个潜在贡献,因为它允许只用一次估计(无需重抽样)就得到方差协方差矩阵,尤其当 bootstrap 计算量很大时(这里 n=1164 不算大,但方法论上更优雅)。
真实例子与应用¶
- 数据来源:
- 研究样本:Women’s Interagency HIV Study (WIHS),n=1164。这是一个长期的、多中心的 HIV 研究队列,是非随机选择的(因其招募策略)。
- 目标总体:美国 2008 年确诊 HIV 的女性,n=11,282。这是一个基于国家 HIV 监测系统的“人群”数据。对于这个目标总体,他们只有协变量(年龄、种族、诊断年份)的分布,不知道他们的暴露史(注射吸毒)和结局(AIDS/死亡)。
- 如何应用本文方法:
- 目标总体的协变量分布是从 CDC 的 HIV 监测系统中获得(年龄、种族、诊断年度)。这个分布就是目标总体的 \(P(Z)\) 的近似。
- 在研究样本 WIHS 中,用 logistic 回归拟合:
- 抽样模型:\(P(S=1 \mid Z)\)(但这里 S=1 是 WIHS 中的一个人,需要定义“目标总体”的 S 是增加一个“非 WIHS”的假设窗口——实际操作中,他们用目标总体的协变量作为“非 WIHS”主体来拟合)。得到每个 WIHS 参与者的逆抽样权重 \(w_i = \frac{P(S=0 \mid Z_i)}{P(S=1 \mid Z_i)}\)。
- 结局模型:\(P(Y=1 \mid A, Z, S=1)\)。得到对于不暴露(\(A=0\))的期望结局风险。
- 然后计算: \(\text{PAF}_t = 1 - \frac{\sum_{i=1}^{1164} w_i \cdot \hat{P}(Y=1 \mid A=0, Z_i, S=1)}{\sum_{i=1}^{1164} w_i \cdot Y_i}\)。其中分母是加权后的观测事件数,分子是加权后的反事实事件数。
- 结果与 Insight:
- 研究样本 PAF 为 0.21,运输后降至 0.13。
- Insight:这个例子想说明的是:如果不进行 transport,会对目标总体的公共卫生负担做出错误的估计。WIHS 样本中注射吸毒者的比例、与 AIDS 风险的关联较高,是因为样本的协变量分布与目标总体不同(样本更年轻等)。因此,经典估计高估了注射吸毒对总体 HIV 女性预后的归因风险。
- 本文无额外的模拟实验:虽然是应用型论文,但它没有像方法学论文那样进行模拟来评估不同情况(如样本选择偏倚程度、模型误设)下的估计性能。它进行的是单一的真实数据分析。
🔎 结论是否比证明窄¶
是的。这篇文章的结论是非常具体(特定数据、单一暴露、特定方法)。没有声明本文提出的方法是最优的,只是演示了它可行。它也没有做额外的敏感性分析(例如,如果抽样交换性假设不成立,结果会如何变化)。所以结论非常窄,严格局限于这个例子下获得的具体结果。作者将这种狭窄直接反映在结论段:“Defining the target population and identification conditions allows for a clearer interpretation…” – 它只是澄清了,并未证明其方法的普遍有效性或严谨性。
四、开放问题(点到为止,扎根具体语句)¶
- 双重稳健估计:本文仅使用了单模型的 IPTW+IOSW 加权,对模型设定敏感。一个开放问题是:能否在 transport 到目标总体的 PAF 估计中引入双重稳健(Doubly Robust)估计量(如将结局回归与加权结合),从而在抽样模型或结局模型之一被误设时仍保持一致估计?这扎根于本文并未比较不同模型的稳健性,且作者只使用了单模型参数估计这一事实。
- 时间维度与时间依赖性暴露:HIV 是一种慢性病,注射吸毒可能是时间依赖性的暴露(在随访期间开始/停止)。更现实的模型是考虑时间相依的 PAF(Time-Dependent PAF)。本文仅分析了基线暴露(历史注射吸毒)。这扎根于本文 Method 部分明确指出暴露是二值的基线历史变量,并未作任何随时间变化的处理。
- 敏感性分析:对于关键假设“条件交换性 for sampling”( \(Y^a \perp S \mid Z\) ),本文没有进行任何敏感性分析,来评估如果这个假设被违背(即存在未测量的抽样选择因素)时,PAF 估计的稳健性。开放问题是:针对 transportable PAF 的抽样选择偏倚,如何设计可操作的敏感性分析(如基于 E-value 或其他偏倚公式)。这扎根于论文 Limitations 段没有提及相关分析。
- 计算复杂度:由于采用了 M-estimation,需要对三个 logistic 模型的参数联合求导,其扩展性取决于协变量个数。一个实际的开放问题是:对于大规模目标总体(如全美电子健康档案数据),能否用更高效的、基于最优运输(Optimal Transport)或 Debiased ML 的方法来估计 transportable PAF,并控制其估计的方差?这扎根于本文方法得先拟合几个 logistic 模型,计算梯度,并求维度为 (3*p) 矩阵的逆(p 为协变量个数)。
Maintained by 陈星宇 · Homepage · Source on GitHub