Combined effects of ambient air pollution exposure and biological aging on incident liver diseases: a large prospective cohort study¶

作者: Teng-Rui Cao, Li-Juan Wu, Miao Gong, Yu Zhang, Jie Ding et al.
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1093/aje/kwaf196

一、领域脉络与小综述¶

这个方向是什么¶

本研究处于环境流行病学与因果推断方法的交叉点，核心科学问题是：环境混合暴露如何通过生物衰老机制影响肝脏疾病的发生？ 从统计学视角看，这是一个典型的多暴露-中介-结局问题，涉及高维混合暴露的效应估计、非线性剂量-反应关系以及因果中介分析。该方向在流行病学应用层面已相当成熟，但在统计方法层面仍面临混合暴露识别、中介效应估计的稳健性等挑战。

发展脉络¶

根据 Introduction 的引用线索，该领域的发展可梳理为以下几条主线：

1. 空气污染与肝脏疾病的单一暴露证据（奠基工作） - Gap 1（从单一到混合）：作者指出，既往研究主要关注单一空气污染物与肝脏疾病的关联（引用 1-4），但现实中人群暴露于多种污染物的混合环境。单一暴露模型无法捕捉污染物的联合效应与潜在交互作用。 - 引用句定位：Introduction 第一段提到 "Previous studies have reported that exposure to ambient air pollutants... was associated with increased risk of liver diseases"，随后立即指出 "However, previous studies mainly focused on single-factor associations"。

2. 生物衰老作为潜在机制（中介变量的引入） - Klemera-Doubal method (KDM) 与 PhenoAge：生物衰老的度量已从早期的端粒长度发展到基于临床生物标志物的复合指标。KDM-BA（Klemera and Doubal, 2006）和 PhenoAge（Levine, 2018）是当前主流的两种生物年龄测量方法。 - Gap 2（机制黑箱）：作者引用多项研究指出空气污染与生物衰老加速相关（引用 5-7），生物衰老与肝病风险相关（引用 8-10），但"空气污染 → 生物衰老 → 肝脏疾病"这一因果链条缺乏实证检验。 - 引用句定位："However, whether biological aging acts as a mediator in the association between air pollution exposure and liver diseases remains unclear."

3. 混合暴露统计方法的演进（方法线索） - 从传统方法到 Quantile g-computation：传统的混合暴露分析方法包括： - Bayesian Kernel Machine Regression (BKMR)：可处理非线性和交互作用，但计算成本高，且结果解释复杂。 - Weighted Quantile Sum (WQS) Regression：早期主流方法，但存在方向性约束（只能检测单向效应）。 - Quantile g-computation (Keil et al., 2020)：本文采用的核心方法。相比 WQS，它允许暴露效应方向不一致（有的污染物有害，有的可能无害甚至保护性），且计算效率更高。 - 作者的选择逻辑：作者在 Methods 中明确选择 Quantile g-computation 来估计五种空气污染物的混合效应，这是对传统单一暴露模型的直接升级。

子线索聚类¶

被引文献可归纳为三条子线索： 1. 空气污染致肝病的流行病学证据：确立暴露-结局关联的基础。 2. 生物衰老的度量与效应：确立中介变量的测量方法及其健康效应。 3. 混合暴露统计方法：解决多暴露联合效应估计的技术工具。

这个方向在追问的核心问题¶

联合效应：多种空气污染物的混合暴露对肝病风险的整体效应是多少？哪种污染物贡献最大？
中介机制：生物衰老在多大程度上中介了空气污染对肝病的影响？
易感人群：生物衰老状态是否修饰了空气污染对肝病的影响？

⚠️ 作者的 framing¶

作者构建的 Gap：作者将现有文献描绘为"只看单一暴露、忽略混合效应、缺乏机制（中介）研究"的三重空白，从而确立本文"混合暴露 + 中介分析"的定位。
被淡化的竞争路线：
- 作者未讨论 Negative Control Exposure 或 Negative Control Outcome 等因果推断中常用的稳健性检验方法，仅依赖传统的敏感性分析。
- 对于未测量的混杂，作者仅用 E-value 进行事后敏感性分析，未在识别阶段引入更前沿的工具变量或边际结构模型（如果存在时依混杂）。
缺失的引用：Introduction 未引用关于中介分析识别假设（如 Sequential Ignorability）的经典统计文献（如 Imai et al., 2010; VanderWeele, 2015），而是直接引用流行病学应用文献。这暗示本文更偏向应用验证而非方法创新。

张力¶

未见明显对立引用。现有文献基本一致认为空气污染与肝病正相关，争议点主要在于具体污染物成分的贡献差异（如 NO2 vs PM2.5），本文结果（NO2 贡献最大）与部分交通污染相关研究一致，但与某些强调颗粒物的研究略有侧重不同。

二、最核心、最简单的例子 / 数学问题¶

在展开论文细节前，先建立清晰的统计模型与因果结构。

第一步：符号、模型与可观测数据¶

符号定义： - \(i = 1, \ldots, n\)：样本量 \(n = 418,576\)（UK Biobank 参与者）。 - \(T_i\)：随访时间。 - \(D_i\)：结局指标，\(D_i = 1\) 表示发生肝脏疾病，\(D_i = 0\) 表示未发生。 - \(X_i = (X_{i1}, \ldots, X_{i5})\)：暴露变量，五种空气污染物浓度（PM2.5, PM10, PM2.5-10, NO2, NO）。 - \(M_i\)：中介变量，生物年龄加速。定义为 \(M_i = \text{BioAge}_i - \text{ChronAge}_i\)（生物年龄与实际年龄之差）。 - \(Z_i\)：混杂变量向量（协变量），包括年龄、性别、种族、教育、收入、BMI、吸烟、饮酒、饮食、体力活动等。 - \(\delta_i\)：事件指示符，\(\delta_i = 1\) 表示观察到肝病事件，\(\delta_i = 0\) 表示删失。

可观测数据：研究者观测到独立同分布样本 \(\{(T_i, \delta_i, X_i, M_i, Z_i)\}_{i=1}^n\)。其中 \(X_i\) 取 2010 年年均浓度（作为长期暴露的代理），\(M_i\) 基线测量。

因果模型（有向无环图 DAG）：

      Z (混杂)
     ↙ ↖
    ↓   ↓
X (暴露) → M (中介) → D (结局)
    ↘   ↙
     效应

- 总效应：\(X \to D\)。 - 间接效应：\(X \to M \to D\)。 - 直接效应：\(X \to D\)（不经过 \(M\)）。

核心识别假设： 1. 一致性：潜在结局定义良好。 2. 条件可忽略性：给定协变量 \(Z\)，暴露 \(X\) 与潜在结局独立。 3. 正定性：在 \(Z\) 的各层，\(X\) 都有变异。 4. 中介变量的序贯可忽略性：给定 \(X, Z\)，中介 \(M\) 与潜在结局独立。

第二步：最小内核¶

这篇论文的统计内核可以拆解为两个叠加的估计问题：

问题 1：混合暴露的联合效应估计 - 最简情形：假设暴露 \(X\) 对结局 \(D\) 的效应是线性的，且无交互作用。 - 模型：Cox 比例风险模型，\(h(t|X, Z) = h_0(t) \exp(\beta^T X + \gamma^T Z)\)。 - 困难：当 \(X\) 有 5 个成分且可能相关时，如何量化"整体污染"的效应？ - 本文方案：Quantile g-computation。 - 将每个 \(X_j\) 转换为分位数（如四分位数，\(q_j \in \{0, 1, 2, 3\}\)）。 - 拟合模型 \(h(t|q, Z) = h_0(t) \exp(\psi \sum_{j=1}^5 w_j q_j + \gamma^T Z)\)。 - 约束 \(\sum w_j = 1\)，\(w_j \ge 0\)。 - 核心估计量：\(\psi\) 为混合效应，\(w_j\) 为第 \(j\) 种污染物的权重贡献。

问题 2：中介效应估计 - 最简情形：线性模型，无交互。 - 步骤： 1. 总效应回归：\(D \sim X + Z\)（Cox 模型得到 \(\beta_{total}\)）。 2. 中介模型：\(M \sim X + Z\)（线性模型得到 \(\alpha\)）。 3. 联合模型：\(D \sim X + M + Z\)（Cox 模型得到 \(\beta_{direct}\)）。 - 中介效应估计：间接效应 \(\approx \alpha \times \beta_{direct}\)（在 Cox 模型下需更细致的处理，本文采用 mediation 包的近似方法）。 - 中介比例：\(\text{Proportion Mediated} = \frac{\text{Indirect Effect}}{\text{Total Effect}}\)。

最小内核总结：这篇论文在统计上的核心操作是：用 Quantile g-computation 解决多暴露的"加权平均"问题，用因果中介分析拆解"直接与间接路径"。其数学难点不在于证明定理，而在于如何在生存数据（Cox 模型）框架下正确组合这两种方法，并处理潜在的模型误设风险。

三、这篇论文做了什么¶

三句话总结¶

研究了什么：基于 UK Biobank 队列，评估五种空气污染物混合暴露与生物衰老对肝脏疾病发病风险的联合效应及中介作用。
核心方法：使用 Cox 比例风险模型估计单一暴露效应，Quantile g-computation 估计混合暴露效应，因果中介分析量化生物衰老的中介比例。
主要结论：空气污染混合暴露显著增加肝病风险（NO2 贡献最大，占 42.31%），生物衰老加速中介了 1.9%–7.7% 的效应。

关键设定与假设¶

数据来源： - 队列：UK Biobank，418,576 名参与者，中位随访 13.57 年。 - 暴露：2010 年空气污染物年均浓度（PM2.5, PM10, PM2.5-10, NO2, NO），通过土地利用回归模型链接至居住地。 - 结局：首次诊断的肝脏疾病（ICD-10 编码 K70-K77），包括酒精性肝病、脂肪肝、肝硬化等。 - 中介：生物年龄加速，使用 KDM-BA 和 PhenoAge 两种算法计算。

统计假设： 1. Cox 比例风险假设：风险比在时间上恒定。作者通过 Schoenfeld 残差检验验证了这一假设。 2. Quantile g-computation 的线性假设：假设各污染物分位数对结局的效应是线性的，且无交互作用（这是 g-computation 的简化设定，虽然方法本身可扩展至非线性）。 3. 中介分析的序贯可忽略性：假设在控制暴露和协变量后，中介变量与结局之间无未测量的混杂。这是最关键且最脆弱的假设，因为生物衰老受遗传、生活方式等众多因素影响，难以完全观测。

主要结果¶

1. 单一暴露效应 - 所有五种污染物均与肝病风险正相关（HR 范围 1.06–1.19 per IQR increase）。 - NO2 的效应最强（HR = 1.19, 95% CI: 1.14–1.24）。

2. 混合暴露效应 - 混合效应值：五种污染物每增加一个四分位数，肝病风险增加 28% (HR = 1.28, 95% CI: 1.21–1.35)。 - 权重分配：NO2 贡献了混合效应的 42.31%，远高于其他污染物（PM2.5 约占 20%）。 - 统计含义：这表明在混合暴露中，交通相关的气态污染物（NO2）可能比颗粒物对肝病风险的影响更大。

3. 联合效应 - 交互作用表：作者将暴露与生物衰老分为"高/低"两组，构建 2x2 表。 - 结果：高暴露 + 高生物衰老组的风险最高（HR ≈ 2.0），呈现相加交互效应。

4. 中介效应 - 生物衰老加速中介了空气污染致肝病效应的 1.9%–7.7%。 - 解读：虽然统计显著，但中介比例较小，说明空气污染主要通过其他途径（如直接炎症反应、肠道菌群改变等）导致肝病，生物衰老只是其中一条次要路径。

证明路线与技术技巧（应用型）¶

本文是应用型论文，其"证明"体现在稳健性检验与统计策略上：

1. 核心策略：Quantile g-computation - 为什么不用 BKMR？ BKMR 虽然灵活，但在大样本（40 万+）下计算极慢，且结果解释不如 g-computation 直观。g-computation 通过将连续暴露离散化为分位数，将问题转化为线性模型的参数估计，计算效率极高。 - 技术细节：作者将污染物浓度转换为四分位数（0, 1, 2, 3），这实际上是一种非参数逼近，降低了极端值的影响，同时解决了量纲不一致问题。

2. 敏感性分析路线 - 排除法：排除随访前 2 年发病的病例（减少反向因果）。 - 多模型调整：逐步增加协变量（Model 1: 人口学 → Model 2: 生活方式 → Model 3: 共病），观察效应衰减。 - E-value 计算：量化未测量混杂需要多强才能解释观察到的效应。结果 E-value > 2，表明结果对未测量混杂有一定稳健性。

3. 中介分析的实施 - 使用 R 包 mediation (Tingley et al.)。 - 非参数 Bootstrap：通过 1000 次 Bootstrap 估计间接效应的置信区间。 - 关键假设检验：作者承认中介分析依赖于"无未测量中介-结局混杂"假设，这在观察性研究中无法完全验证。

真实例子与应用¶

数据场景：大规模前瞻性队列，暴露数据来自环境监测模型，结局来自医院住院记录。
应用价值：提供了"交通污染（NO2）是肝病主要环境危险因素"的流行病学证据，支持了"空气污染是全身性致病原"的假说。
对统计研究者的启示：这是一个标准的高维暴露 + 中介分析流程，展示了如何在生存数据框架下组合多种半参数方法。

🔎 结论是否比证明窄¶

中介比例的因果解释：作者在 Discussion 中谨慎地使用了 "may involve" 和 "potential mediating role"，但在 Abstract 中写 "mediated proportion... was 1.9% to 7.7%"。这是一个强因果声明。
局限性：中介分析依赖于"控制暴露和协变量后，中介变量独立于潜在结局"这一假设。然而，生物衰老本身受遗传（如端粒酶基因）影响，这些遗传因素可能同时影响肝病风险（混杂）。作者虽然计算了 E-value，但 E-value 只能评估二暴露混杂，无法评估中介路径上的混杂。结论的因果强度强于证明的严格性。

四、开放问题¶

本文留下了以下值得统计研究者深入的问题：

中介分析中的交互作用：
- 本文假设暴露与中介无交互。若空气污染对肝病的影响在"生物衰老快"与"衰老慢"人群中不同（效应修饰），现有的中介分解公式需修正。
- 扎根点：Methods 部分提到 "We assumed no interaction between exposure and mediator"，这是一个强假设，可检验。
生存数据中介分析的效率理论：
- 本文使用 mediation 包处理 Cox 模型，这通常基于近似算法。对于生存结局，中介效应的半参数有效估计量是什么？是否存在更优的估计方法？
- 扎根点：Results 部分中介效应置信区间较宽，提示估计效率可能不足。
混合暴露的变量选择：
- Quantile g-computation 强制所有权重非负且和为 1。若某种污染物实际无效应甚至有保护效应，该方法可能产生偏倚。能否结合惩罚回归或贝叶斯变量选择来改进？
- 扎根点：Results 中 NO2 权重高达 42%，其他污染物权重较小，暗示可能存在稀疏结构。
未测量混杂的敏感性分析：
- 本文对中介分析使用了 E-value，但 E-value 主要针对总效应。对于中介效应，特别是间接效应，敏感性分析更为复杂（需同时考虑暴露-中介、中介-结局、暴露-结局的混杂）。
- 扎根点：Discussion 提到 "residual confounding cannot be excluded"，但未提供针对中介路径的专门敏感性分析。

Maintained by 陈星宇 · Homepage · Source on GitHub