Revisiting the Population Attributable Fraction¶

作者: Mark Klose, Paul N. Zivich, Stephen R. Cole
来源: Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001867

一、领域脉络与小综述¶

这个方向是什么¶

Population Attributable Fraction（PAF）是一个流行病学指标，旨在回答：“如果某个暴露被移除，人群中的结局（如疾病或死亡）会减少多少？”其经典形式是 Levin 在 1953 年提出的公式：\( \text{PAF} = \frac{p_e(RR - 1)}{1 + p_e(RR - 1)} \)，其中 \(p_e\) 是暴露在人群中的患病率，RR 是相对风险。PAF 的核心统计 / 科学问题是：如何从观测数据（可能来自非随机样本）中，识别并估计一个具有因果解释的“可归因比例”，并且将其从研究样本推广（transport）到一个目标总体。这个子方向的成熟度较高——经典方法已在流行病学教科书中占据标准章节，但正式引入因果推断框架下的 identification 条件以及样本-总体不一致时的 transportability 是较近期的进展。本文正处在这个「经典指标接受因果与 transportability 框架的改造」的阶段。

发展脉络¶

奠基工作：
- Levin (1953): 提出 PAF 的经典公式。作者引用时称其为“最初的提议”，但指出它隐含了“研究人群是目标总体的随机样本”这一假设。
- Miettinen (1974): 提出另一个基于暴露优势比（odds ratio）的估计量。作者引用时同样指出其隐含了相同假设（研究人群是随机样本）。
- 这两篇奠定了 PAF 的经典估计方法，但都没有将 PAF 置于因果推断的正式框架下，也没有处理样本与目标总体不一致的问题。
主要进展（因果推断框架下的 PAF）：
- Bruzzi et al. (1985) 和 Greenland & Drescher (1993)：作者认为这些工作将 PAF 纳入了回归框架，使其能够对协变量进行调整。特别是 Greenland & Drescher 提供了一种调整后的 PAF 方法，但在因果识别方面仍然不够正式。
- Hernán (2005)：首次将 PAF 与逆概率权重的因果推断方法联系起来。作者引用：“Hernán 25 随后将 PAF 定义为在研究人群中，在给定协变量和处理条件下，将曝露者的结局风险设定为非曝露者的风险时，结局发病率的比例降低。” 这标志着一个关键进展：PAF 不再仅仅是关联度量，而被正式理解为一种反事实量，其识别需要条件可交换性等因果假设。
- Suzuki et al. (2012) 和 Månsson et al. (2022)：作者提到这些工作进一步将“调整后的 PAF”推广到“标准 PAF”的语境下，并引入了基于 g-公式（cohort data）的标准化方法。
当前 Frontier（Transportability）：
- 本文的核心定位是：将 PAF 的估计从“研究样本”推广到“并非研究样本随机抽样的目标总体”。作者将此称为 transportability。
- Lesko et al. (2017)：作者引用：“[...] 然而，当样本并非目标总体的随机样本时，PAF 的估计值不能代表目标总体的 PAF [...] Lesko 等人 19 讨论了如何将这些识别条件扩展到利用 transportability 的 PAF。” 这是本文的直接前驱，指出了经典方法的局限性，并提出了一个解决方案（transportability 的识别条件）。本文可以被视为 Lesko 等人工作的具体化和实证应用。
本文位置：本文站在 Bruzzi 等人提供的调整方法和 Hernán 提供的因果语言之上，具体解决了 Lesko 等人指出的样本非随机时 PAF 的 transport 问题。它的主要贡献不是新的识别条件，而是将这些条件与两种加权方法（IPTW 和 IOSW）在真实数据上演示出来，并使用了两种方差估计方法（bootstrap 和 M-estimation）。

子线索聚类¶

PAF 的关联估计与标准化：以 Levin (1953), Miettinen (1974), Bruzzi et al. (1985), Greenland & Drescher (1993) 为代表。关注的是在没有严格因果框架下，如何从研究样本得到 PAF 的点/区间估计。
PAF 的因果定义与识别：以 Hernán (2005), Suzuki et al. (2012), Månsson et al. (2022) 为代表。核心是：PAF 首先是一个反事实量，其识别依赖于无混杂、正性、一致性等因果假设。方法上常用 g-formula / standardization 或 IPTW。
PAF 的 Transportability：以 Lesko et al. (2017) 和本文为代表。核心是：当研究人群与目标总体人群分布不一致时，如何将可识别（在研究人群中）的潜在风险 transport 到目标总体。关键假设从“样本是目标总体的随机抽样”变为条件交换性（条件于协变量，抽样权重与结局无关） 和正性（目标总体中的每个协变量模式在研究样本中都有正概率出现）。本文属于此线索。

方向在追问的核心问题¶

因果识别：如何在不满足无混杂假设（例如，存在未测量混杂）的情况下识别 PAF？这是整个因果推断领域的通用挑战，但不涉及本文。
非随机样本下的 Transportability：除了基于抽样权重的逆概率加权，有没有更稳健或更高效的 transport 方法？例如，对于数据适应性更强的 g-computation 或 double robust 方法。
方差估计：在 PAF 需要 transport 的情况下，哪种方差估计方法（bootstrap vs. M-estimation）在有限样本下表现更好？本文给出了两种方法，但未进行模拟比较。这是应用中的实际困难。
多重暴露：当暴露是多重（如多种毒品使用史）或连续（如注射吸毒频率）时，如何定义和估计 PAF？本文只做了最简单的二值暴露。

⚠️ 作者的 Framing（必须明确标注为作者的表述）¶

作者的缺口：作者将缺口 frame 为「Levin 和 Miettinen 的经典估计方法隐含了“研究人群是目标总体的随机样本”这一假设，这在许多实际流行病学研究中不成立」。因此，本文的“显然下一步”是明确定义目标总体和施加 transportability 的识别条件，然后使用加权方法（IPTW, IOSW）进行估计。
淡化/回避的竞争路线：本文完全回避了讨论double robust (DR) 估计或targeted maximum likelihood estimation (TMLE) 在 PAF transport 场景下的可能优势。文中的 IPTW 和 M-estimation 都是单模型并且对模型设定敏感（即控制协变量和抽样权重的模型都是参数回归，形式依赖于正确设定）。这是一个明显的竞争路线或被作者认为不必要复杂化的领域。
什么明显该被引 / 该存在、却不在 Intro 里？：本文没有引用任何关于 inverse probability weighting 的稳健性或概率比权重（odds weighting） vs 逆概率权重的理论比较文献。这在统计学方法论文献中是一个活跃的领域，但本文并未触及。此外，没有引用操作 PAF 的 R 包或现成函数**（如 epitools 或 paf 包），这暗示本文可能是为了填补流行病学应用实践中的 gap，而非方法学创新。

张力¶

未见明显对立引用。所列引文彼此之间不存在矛盾性结论，都是沿着“从关联 → 因果 → transport”这一渐进路径的共识性进展。唯一的张力可能存在于“需不需要调整协变量”上（Bruzzi/Greenland 的“调整” vs. Levin 的“未调整”），但这只是方法发展的自然演进，并非对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：

\(A\): 暴露变量（二值，1=暴露，0=未暴露）。本文中是“注射吸毒史”（Yes/No）。
\(Y\): 结局变量（二值，1=结局发生，0=未发生）。本文中是“AIDS 或死亡”（Yes/No）。
\(S\): 抽样指示变量（二值，1=在研究样本中，0=不在）。本文中，\(S=1\) 代表 WIHS 研究样本；\(S=0\) 代表未被抽到（属于目标总体，符合条件的美国 HIV 诊断女性）。
\(Z\): 协变量集合。用于控制混杂（影响 \(A\) 和 \(Y\)）和/或 transportability（影响 \(S\) 和 \(Y\)）。本文的协变量包括年龄、种族等。
\(P(Y)\): 目标总体中结局的边际风险。
\(P^{S=1}(Y)\): 样本中（\(S=1\)）结局的边际风险。
\(\text{PAF}\): Population Attributable Fraction。
\(\text{PAF}^{\text{target}}\): 目标总体中的 PAF。

模型：

数据生成机制：研究样本 (\(S=1\)) 是取自一个更大目标总体 (所有符合条件的女性 HIV 诊断者) 的非随机子集。目标总体中，\(A\) 由协变量 \(Z\) 决定（混杂）；\(Y\) 由 \(A\) 和 \(Z\) 共同决定。抽样过程 \(S\) 可能与 \(Z\) 和 \(Y\)（或其潜在值）有关（即抽样机制是选择性的）。核心假设是条件交换性（Conditional exchangeability for sampling）：在给定协变量 \(Z\) 后，样本指示变量 \(S\) 与潜在结局无关。即 \(Y^a \perp S \mid Z\)。这使得我们可以通过调整 \(Z\) 来 transport 风险。
可观测数据：
- 在研究样本 (\(S=1\)) 中，我们可以观测到 \((A_i, Y_i, Z_i)\) 的联合分布。
- 在目标总体 (\(S=0 \cup S=1\)) 中，我们知道每个个体的协变量 \(Z\)（例如，可以从疾控中心数据库获取所有 HIV 诊断女性的基本信息），但不知道他们的 \(A\) 和 \(Y\)。
- 想要但观测不到的：目标总体中所有个体的 (\(A, Y\))。因此，我们无法直接计算目标总体中的 PAF。

第二步：最小内核¶

最简特例：假设目标总体和样本的协变量分布完全不同。假设宇宙由两个总体组成： * 目标总体 P：100 个人，50% 是 40 岁以上（\(Z=1\)），50% 是 40 岁及以下（\(Z=0\)）。 * 研究样本 S：10 个人，其中全部是 40 岁以上（\(Z=1\)）。

假设我们想 transport 研究样本中的 PAF（关于暴露 \(A\) 对结局 \(Y\) 的一定效应）到目标总体。研究样本中，我们通过对协变量的调整，已经估计出在 \(Z=1\) 这块，PAF = 0.xx。

识别公式（transportable PAF）：在条件交换性假设下，目标总体的 PAF 可以被写成： \(\text{PAF}^{\text{target}} = 1 - \frac{P(Y^{a=0})}{P(Y)}\) 其中 \(P(Y)\) 是目标总体中结局的边际概率。\(P(Y^{a=0})\) 是目标总体中，如果所有人都未暴露（\(a=0\)），结局的边际概率。识别中，\(P(Y^{a=0})\) 可以写为： \(P(Y^{a=0}) = E_Z[E[Y | A=0, Z, S=1]]\), 也就是把样本中条件于 \(A=0, Z\) 的结局风险，用目标总体中 \(Z\) 的边际分布加权平均。

在这个最小核心里，逻辑是：我们只要知道每个协变量水平 \(z\) 下，样本中未暴露者的结局风险 \(E[Y | A=0, Z=z, S=1]\)，再乘以目标总体中该协变量水平出现概率 \(P(Z=z)\)，就能得到目标总体的反事实结局风险。公式就是简单的概率加权：把所有风险“运输”过去。

这个例子为什么能说明核心问题： * 问题：样本中只有 \(Z=1\) 的人，不能直接用它计算目标总体的 PAF（因为目标总体有 \(Z=0\) 的人）。 * 关键想法：我们假设在相同协变量水平下，暴露对结局的效应在样本和目标总体中是相同的（条件效应可传输）。这是 transportability 的核心假设。然后，我们不需要样本中 \(Z=0\) 的人群，因为我们知道目标总体中 \(Z=0\) 的人群占 50%，我们只需要用样本中 \(Z=1\) 的未暴露者风险乘以 100%？不，我们乘的是 50%（因为目标总体中只有 50% 的人属于 \(Z=1\)，而样本中全是）。这样就补上了那个缺失的“分布”部分。 * 结论：即使样本没有任何 \(Z=0\) 的人，我们仍能通过 \(Z=1\) 下得到的风险，结合目标总体的 \(Z\) 分布，得到 target PAF。这就是 transportability 通过抽样加权所做的。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：当研究样本并非目标总体的随机样本时，如何估计 Population Attributable Fraction (PAF) 并将其运输（transport）到目标总体，并评估运输后的不确定性。
核心工具/方法：使用逆概率处理加权 (IPTW) 来估计暴露的因果效应，并利用逆机会抽样加权 (IOSW) 来调整样本与目标总体的协变量分布差异。方差估计则通过非参数 bootstrap 和基于 M-估计的 sandwich variance 实现。
主要结论：在 WIHS 数据向美国 HIV 诊断女性的运输中，样本内 PAF 为 0.21（95% CI: 0.13, 0.29），运输至目标总体后降至 0.13（95% CI: 0.065, 0.19），表明经典估计高估了注射吸毒对目标总体的公共卫生负担。

关键设定与假设¶

关键设定：
- 可观测数据 (Full data structure)：\((S_i, A_i, Y_i, Z_i)\)，其中 \(S_i=1\) 表示个体 i 在研究样本中。我们假设在研究样本中能观测到 \((A, Y, Z)\) 的完整联合分布；在目标总体中只观测到 \(Z\) 的边际分布（如通过人口普查、疾病监测系统）。
- 目标 estimand：Transportable population attributable fraction: \(\text{PAF}_t = 1 - \frac{P(Y^{a=0})}{P(Y)}\)，其中 \(P(Y)\) 是目标总体中的边际风险，\(P(Y^{a=0})\) 是目标总体中假设所有人都未暴露时的反事实风险。
- 识别条件（作者具体列出 5 条）：
  1. Positivity for sampling：对于目标总体中每个协变量模式 \(z\)，其在研究样本中存在的概率严格正。即 \(P(S=1 \mid Z=z) > 0\)。这是 transport 的“杠杆”点。
  2. Conditional exchangeability：在给定 \(Z\) 后，暴露 \(A\) 与潜在结局 \(Y^a\) 在研究样本中无混杂。即 \(Y^a \perp A \mid Z, S=1\)。这是因果识别的核心。
  3. Transportability / Conditional exchangeability for sampling：在给定 \(Z\) 后，样本指示变量 \(S\) 与结局 \(Y\) 无关。即 \(Y^a \perp S \mid Z\)。这是 transport 的核心。
  4. Consistency：对于每个个体，观测结局 \(Y\) 等于在其实施暴露 \(A\) 下的潜在结局 \(Y^a\)。
  5. Positivity for treatment：在研究样本中，每个协变量模式下，暴露和无暴露的概率都为正。即 \(P(A=a \mid Z=z, S=1) > 0, a \in \{0,1\}\)。
相比已有文献（Lesko et al., 2017）：文献已提出这些识别条件，本文在此基础上具体实现了 IPTW + IOSW 的估计策略（Lesko 可能只讨论了理论框架），并引入了 M-estimation 进行方差估计，这比 Lesko 可能用的单纯 bootstrap 更形式化。

主要结果¶

核心量化结论：
- 样本内 PAF：0.21（95% CI: 0.13, 0.29）。这意味着在对研究样本（WIHS）自身而言，如果所有女性都不曾有注射吸毒史，AIDS 或死亡风险预计会降低 21%。
- 运输后 Target PAF：0.13（95% CI: 0.065, 0.19）。这意味着对美国 2008 年诊断出 HIV 的女性总体而言，该比例降至 13%。
- 差异：运输后 PAF 降低了38%（(0.21-0.13)/0.21 ≈ 0.38），且 95% 置信区间不重叠（0.065-0.19 vs 0.13-0.29），表明差异在统计上显著。作者归因于WIHS 中注射吸毒史与更年轻、年龄分布不同有关，所以在总体中注射吸毒的暴露风险较低，从而归因比例也低。
方法对比：作者没有与其他运输方法（如 g-computation）进行比较。主要对比了运输前后结果。
稳健性：未做正式的稳健性分析（如检查 positivity 的 violation 一定范围的敏感度分析）。M-estimation 和 bootstrap 的结果一致，表明方差估计的稳健性。

证明路线与技术技巧¶

本文是应用型，不是理论型，所以“证明路线”需转化为“推理路线”和“实现细节”。

整体路线（1-4 步）：
1. 定义 Transportable PAF：写出两个版本 PAF 的公式：基于样本的 \(PAF_{obs}\) 和基于目标总体的 \(PAF_t\)。后者是核心。
2. 识别风险：将 \(PAF_t\) 中的反事实风险 \(P(Y^{a=0})\) 通过条件期望分解： \(P(Y^{a=0}) = \sum_{z} P(Z=z) \times \mu_{A=0, Z=z}\) 其中 \(\mu_{A=0, Z=z} = E[Y \mid A=0, Z=z, S=1]\)（在研究样本中估计）。这个识别依赖于条件交换性（transportability）：\(E[Y^{a=0} \mid Z=z] = E[Y \mid A=0, Z=z, S=1]\)。注意到这里 \(S=1\) 是必须的，因为我们只能用样本去估计条件风险。
3. 估计：
  - 用Logistic 回归拟合 \(E[Y \mid A, Z, S=1]\) 得到条件风险预测 \(\hat{\mu}_{A=0, Z=z}\)。
  - 估计目标总体中 \(Z\) 的边际分布 \(P(Z=z)\)（在本文中通过“inverse odds of sampling weighting (IOSW)”得到，即用 logistic 回归估计 \(P(S=1 \mid Z)\)，然后得到权重 \( \frac{P(S=0 \mid Z)}{P(S=1 \mid Z)}\) 对目标总体中的每个观测加权（他们的 \(Z\) 是已知的）。
4. 估计方差：
  - Nonparametric Bootstrap：从研究样本（\(S=1\)）中重抽样，每次重抽样重新估计那个 logistic 回归 + 权重重新计算 PAF_t，重复 500 次取标准差。
  - M-estimation (Sandwich Variance)：定义所有模型（暴露模型、结局模型、抽样模型）的估计方程，将其联结成一个多方程 M-估计问题。然后利用 sandwich 公式 \( \hat{V} = \frac{1}{n} \hat{A}^{-1} \hat{B} (\hat{A}^{-1})^T \) 估计方差。其中，\(A\) 是 log-likelihood 的二阶导数矩阵（信息矩阵），\(B\) 是 score 向量的外积矩阵。这一方法无需重抽样，只需对最终估计的梯度进行操作。
关键跳跃点：
- 从概率加权到 M-estimation 的跳跃：要将 PAF_t 写成可微的参数函数极其重要。作者把 PAF_t 表示为三个模型（抽样模型、结局模型、暴露模型）的参数 \(\theta = (\alpha, \beta, \gamma)\) 的函数。如果你不能写出 PAF_t 作为这些参数的显示函数，就无法用 sandwich。本文通过逆概率权重，使得 PAF_t 可以表示为 \(1 - \frac{\sum_{i \in S=1} w_i \cdot \hat{\mu}_{A=0, Z_i}}{\sum_{i \in S=1} w_i \cdot Y_i}\)，其中 \(w_i\) 来自抽样权重模型，\(\hat{\mu}_{A=0, Z_i}\) 来自结局模型，这使得整个表达式成为一个显式的估计量，从而可以求关于参数的导数。
技术技巧点名：
- Logistic regression：用于拟合 \(P(S=1 \mid Z)\), \(P(A=1 \mid Z)\), \(E[Y \mid A, Z, S=1]\)。这是参数化建模，优点是计算简便高效（M-estimation 直接得方差），但缺点是结果对模型设定敏感。
- Inverse odds of sampling weighting (IOSW)：用目标总体中抽样概率的逆概率来加权研究样本中的观测，使其代表目标总体的协变量分布。它不是唯一方法，但作者选择它。
- M-estimation / Sandwich variance：是本文对应用的一个潜在贡献，因为它允许只用一次估计（无需重抽样）就得到方差协方差矩阵，尤其当 bootstrap 计算量很大时（这里 n=1164 不算大，但方法论上更优雅）。

真实例子与应用¶

数据来源：
- 研究样本：Women’s Interagency HIV Study (WIHS)，n=1164。这是一个长期的、多中心的 HIV 研究队列，是非随机选择的（因其招募策略）。
- 目标总体：美国 2008 年确诊 HIV 的女性，n=11,282。这是一个基于国家 HIV 监测系统的“人群”数据。对于这个目标总体，他们只有协变量（年龄、种族、诊断年份）的分布，不知道他们的暴露史（注射吸毒）和结局（AIDS/死亡）。
如何应用本文方法：
1. 目标总体的协变量分布是从 CDC 的 HIV 监测系统中获得（年龄、种族、诊断年度）。这个分布就是目标总体的 \(P(Z)\) 的近似。
2. 在研究样本 WIHS 中，用 logistic 回归拟合：
  - 抽样模型：\(P(S=1 \mid Z)\)（但这里 S=1 是 WIHS 中的一个人，需要定义“目标总体”的 S 是增加一个“非 WIHS”的假设窗口——实际操作中，他们用目标总体的协变量作为“非 WIHS”主体来拟合）。得到每个 WIHS 参与者的逆抽样权重 \(w_i = \frac{P(S=0 \mid Z_i)}{P(S=1 \mid Z_i)}\)。
  - 结局模型：\(P(Y=1 \mid A, Z, S=1)\)。得到对于不暴露（\(A=0\)）的期望结局风险。
3. 然后计算： \(\text{PAF}_t = 1 - \frac{\sum_{i=1}^{1164} w_i \cdot \hat{P}(Y=1 \mid A=0, Z_i, S=1)}{\sum_{i=1}^{1164} w_i \cdot Y_i}\)。其中分母是加权后的观测事件数，分子是加权后的反事实事件数。
结果与 Insight：
- 研究样本 PAF 为 0.21，运输后降至 0.13。
- Insight：这个例子想说明的是：如果不进行 transport，会对目标总体的公共卫生负担做出错误的估计。WIHS 样本中注射吸毒者的比例、与 AIDS 风险的关联较高，是因为样本的协变量分布与目标总体不同（样本更年轻等）。因此，经典估计高估了注射吸毒对总体 HIV 女性预后的归因风险。
本文无额外的模拟实验：虽然是应用型论文，但它没有像方法学论文那样进行模拟来评估不同情况（如样本选择偏倚程度、模型误设）下的估计性能。它进行的是单一的真实数据分析。

🔎 结论是否比证明窄¶

是的。这篇文章的结论是非常具体（特定数据、单一暴露、特定方法）。没有声明本文提出的方法是最优的，只是演示了它可行。它也没有做额外的敏感性分析（例如，如果抽样交换性假设不成立，结果会如何变化）。所以结论非常窄，严格局限于这个例子下获得的具体结果。作者将这种狭窄直接反映在结论段：“Defining the target population and identification conditions allows for a clearer interpretation…” – 它只是澄清了，并未证明其方法的普遍有效性或严谨性。

四、开放问题（点到为止，扎根具体语句）¶

双重稳健估计：本文仅使用了单模型的 IPTW+IOSW 加权，对模型设定敏感。一个开放问题是：能否在 transport 到目标总体的 PAF 估计中引入双重稳健（Doubly Robust）估计量（如将结局回归与加权结合），从而在抽样模型或结局模型之一被误设时仍保持一致估计？这扎根于本文并未比较不同模型的稳健性，且作者只使用了单模型参数估计这一事实。
时间维度与时间依赖性暴露：HIV 是一种慢性病，注射吸毒可能是时间依赖性的暴露（在随访期间开始/停止）。更现实的模型是考虑时间相依的 PAF（Time-Dependent PAF）。本文仅分析了基线暴露（历史注射吸毒）。这扎根于本文 Method 部分明确指出暴露是二值的基线历史变量，并未作任何随时间变化的处理。
敏感性分析：对于关键假设“条件交换性 for sampling”（ \(Y^a \perp S \mid Z\) ），本文没有进行任何敏感性分析，来评估如果这个假设被违背（即存在未测量的抽样选择因素）时，PAF 估计的稳健性。开放问题是：针对 transportable PAF 的抽样选择偏倚，如何设计可操作的敏感性分析（如基于 E-value 或其他偏倚公式）。这扎根于论文 Limitations 段没有提及相关分析。
计算复杂度：由于采用了 M-estimation，需要对三个 logistic 模型的参数联合求导，其扩展性取决于协变量个数。一个实际的开放问题是：对于大规模目标总体（如全美电子健康档案数据），能否用更高效的、基于最优运输（Optimal Transport）或 Debiased ML 的方法来估计 transportable PAF，并控制其估计的方差？这扎根于本文方法得先拟合几个 logistic 模型，计算梯度，并求维度为 (3*p) 矩阵的逆（p 为协变量个数）。

Maintained by 陈星宇 · Homepage · Source on GitHub