A scalar-on-quantile-function approach for estimating short-term health effects of environmental exposures¶

作者: Yuzi Zhang, Howard H Chang, Joshua L Warren, Stefanie T Ebelt
来源: Biometrics
主题: 流行病学
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向是环境流行病学中的时间序列研究，其核心科学问题是：如何利用聚合水平的健康结局数据（如城市或ZIP代码级别的每日急诊就诊人数、死亡人数），来估计短期（通常为几天内）环境暴露（如空气污染物浓度、温度）对人群健康的急性效应。该方向的成熟度很高，已有超过二十年的方法论积累和大量实证应用，但当前面临的一个关键瓶颈是：传统方法通常使用区域平均暴露量（如ZIP代码级日均浓度）作为协变量，这无法捕捉同一空间-时间单元内个体暴露的异质性，可能导致效应估计的偏倚和信息损失。

发展脉络（history）¶

奠基工作（~2000-2010）：时间序列回归方法在环境流行病学中确立为标准范式。Bhaskaran et al. (2013) 系统总结了该方法的分析流程，包括如何建模短期波动、处理季节性和长期趋势、控制时变混杂因素以及建模滞后效应。同期，Goldman et al. (2010) 定量刻画了环境空气污染物测量误差的特征及其对流行病学结果的影响，发现空间变异性导致的测量误差可使主要污染物的风险比降低43%-68%，这为后续关注暴露异质性的研究提供了动机。

主要进展（~2010-2020）：研究者开始从两个方向应对暴露异质性问题。第一个方向是个人暴露模拟：Chang et al. (2012) 利用随机人体暴露与剂量模拟（SHEDS）模型模拟个人暴露，并通过空间层次模型将模拟暴露与监测浓度关联，从而在时间序列设计中估计个人暴露的健康效应。Berrocal et al. (2011) 更进一步，在出生体重分析中直接使用SHEDS模拟的个人暴露分布（而非聚合到空间单元），建立了个人暴露与健康结局的层次模型。第二个方向是暴露分布建模：Reich (2012) 提出了时空分位数回归方法，通过联合建模所有分位数来刻画环境过程的分布变化，其关键创新在于使用基函数展开表示分位数函数，使得似然函数有闭式解。Huang et al. (2017) 则提出了多污染物时空融合模型，同时处理暴露估计的不确定性和多种相关污染物的联合效应。

当前frontier（~2020-至今）：研究者开始系统性地将暴露分布（而非均值）纳入健康效应模型。Comess et al. (2022) 提出了贝叶斯框架下的核密度估计方法，充分利用第一阶段暴露建模的后验输出来准确推断第二阶段健康效应。本文（Zhang et al., 2024）则提出了标量-分位数函数回归方法，将每个空间-时间单元内的暴露分布视为函数型协变量，直接估计暴露分布不同分位点对健康结局的效应。

本文的位置：本文位于上述两条线索的交汇点——它继承了个人暴露模拟（使用SHEDS模型）和暴露分布建模（使用分位数函数）的思路，但提出了一个更直接的建模框架：不再将暴露分布压缩为均值或中位数等汇总统计量，而是将其完整的分位数函数作为协变量，从而允许暴露效应在不同分位点上有不同的大小。

子线索聚类¶

这些被引文献大致落在以下三条子线索上：

时间序列回归方法学（Bhaskaran et al., 2013; Goldman et al., 2010）：关注标准时间序列设计的分析流程、模型选择、滞后效应建模和测量误差问题。这一簇是本文的方法论基础，但本文试图超越其"使用区域平均暴露"的默认做法。
个人暴露模拟与不确定性传播（Chang et al., 2012; Berrocal et al., 2011; Comess et al., 2022; Steinle et al., 2015）：利用概率模型（如SHEDS）或可穿戴设备模拟/测量个人暴露，并通过层次模型或贝叶斯方法将暴露不确定性传播到健康效应估计中。这一簇为本文提供了暴露分布数据的来源（SHEDS模拟），但本文不关注不确定性传播，而是关注如何利用分布信息本身。
暴露分布建模与分位数方法（Reich, 2012; Huang et al., 2017; Zhou et al., 2012）：将暴露的分布特征（分位数、尾部行为）纳入统计模型，而非仅关注均值。这一簇是本文最直接的方法论来源，但本文的创新在于将分位数函数作为函数型协变量引入标量回归框架，而非像Reich (2012) 那样建模响应变量的分位数。

这个方向在追问的核心问题¶

如何有效利用暴露分布信息？ 当前主流方法使用区域平均暴露量，但暴露分布往往是偏态的（Huang et al., 2018），均值可能无法代表大多数个体的暴露水平。已知瓶颈：将整个分布作为协变量会大幅增加模型复杂度，需要有效的降维策略。
如何估计暴露分布不同分位点的健康效应？ 不同分位点的暴露可能对应不同亚人群（如低暴露分位点对应室内活动较多的人群），其健康效应可能不同。已知瓶颈：传统分位数回归建模的是响应变量的分位数，而非协变量的分位数，两者在概念和实现上完全不同。
如何处理暴露估计的不确定性？ 个人暴露通常来自模拟模型（如SHEDS），而非直接测量，因此存在估计误差。已知瓶颈：将模拟暴露作为已知协变量会低估标准误，但完全传播不确定性在计算上可能非常昂贵。

⚠️ 作者的framing¶

作者把缺口frame成什么：作者认为，现有研究在使用个人暴露模拟数据时，通常将暴露分布压缩为汇总统计量（日均值或中位数），这"cannot capture the spatial variation and individual heterogeneity in exposures that may occur within the spatial and temporal unit of interest"。作者将本文定位为"a general modeling approach to incorporate within-unit exposure heterogeneity in health analyses via exposure quantile functions"，从而成为"显然的下一步"。

哪些竞争路线被他淡化或回避了： - 作者淡化了暴露不确定性传播的问题。Comess et al. (2022) 和 Chang et al. (2012) 都强调需要将暴露模拟的不确定性传播到健康效应估计中，但本文直接将SHEDS模拟的暴露分布视为已知，未建模其不确定性。作者仅在讨论中提及"we find that this does not meaningfully impact inference for the health effect association"，并引用Comess et al. (2022) 作为支持，但这回避了在本文框架下如何系统处理不确定性的问题。 - 作者回避了个人暴露与区域暴露的区分。本文使用的SHEDS模拟暴露是个人水平的，但健康结局是ZIP代码级别的聚合计数。这种"个人暴露-聚合结局"的错配在因果推断中可能引入生态学偏倚，但作者未对此进行讨论。

什么明显该被引/该存在、却没出现在intro里： - 没有引用分布式滞后非线性模型（DLNM） 的相关工作（如Gasparrini et al., 2010, 2014）。DLNM是环境流行病学中处理暴露-反应非线性和滞后效应的标准方法，本文的标量-分位数函数回归与DLNM在概念上有互补性（一个处理暴露分布异质性，一个处理暴露-反应非线性和滞后），但作者未讨论两者的关系或可能的整合。 - 没有引用因果推断中关于暴露测量误差的文献（如Hernán & Robins, 2020; VanderWeele, 2012）。本文的暴露来自模拟模型，本质上存在测量误差，但作者未从因果推断的角度讨论测量误差对效应估计的影响。

张力¶

未见明显对立引用。被引工作之间在方法论上互补而非矛盾：Bhaskaran et al. (2013) 提供标准分析框架，Chang et al. (2012) 和 Berrocal et al. (2011) 提供个人暴露模拟方法，Reich (2012) 提供分位数建模工具，Comess et al. (2022) 提供不确定性传播方法。本文试图将这些线索整合到一个统一的标量-分位数函数回归框架中。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( Y_t \)：第 \( t \) 天的健康结局（标量），如ZIP代码级别的急诊就诊人数。这是可观测的响应变量。 - \( t = 1, \ldots, T \)：时间索引（天数）。 - \( s \)：空间单元索引（如ZIP代码）。为简化，本文在主要分析中假设每个时间点只有一个空间单元（如整个城市），但方法可推广到多个空间单元。 - \( X_t(u) \)：第 \( t \) 天、分位点 \( u \in [0,1] \) 处的暴露分位数函数。即，第 \( t \) 天该空间单元内个体暴露分布的 \( u \)-分位数。这是函数型协变量，是不可直接观测的，需要通过模拟模型（如SHEDS）估计得到。 - \( u \)：分位点，取值在 \( [0,1] \) 上。 - \( \beta(u) \)：分位点 \( u \) 处的效应系数函数。表示暴露分位数 \( X_t(u) \) 每增加一个单位对健康结局 \( Y_t \) 的效应。这是要估计的参数（函数）。 - \( \mathbf{Z}_t \)：第 \( t \) 天的其他协变量向量（如温度、湿度、时间趋势、星期几等）。可观测的。 - \( \boldsymbol{\gamma} \)：协变量 \( \mathbf{Z}_t \) 的系数向量。要估计的参数。

模型：本文采用标量-函数回归模型（scalar-on-function regression model），其中响应变量是标量（每日健康结局），协变量是函数（每日暴露分位数函数）。具体地，模型为：

\[g(\mathbb{E}[Y_t | X_t(\cdot), \mathbf{Z}_t]) = \alpha + \int_0^1 X_t(u) \beta(u) du + \mathbf{Z}_t^\top \boldsymbol{\gamma}\]

其中 \( g(\cdot) \) 是连接函数（对于计数数据，通常为对数连接函数）。该模型假设健康结局的期望是暴露分位数函数与效应系数函数的内积加上其他协变量的线性组合。

可观测数据：研究者实际能观测到的是： - 每日健康结局 \( Y_t \)（如急诊就诊人数） - 每日其他协变量 \( \mathbf{Z}_t \)（气象、时间变量等） - 每日暴露分位数函数 \( X_t(u) \) 的估计值（来自SHEDS模拟模型，而非直接测量）

研究者想要但观测不到的是： - 真实的个人暴露水平（SHEDS模拟存在不确定性） - 真实的效应系数函数 \( \beta(u) \)（这是要估计的目标） - 暴露分位数函数 \( X_t(u) \) 的真实值（只有模拟估计值）

第二步：讲最小内核¶

最简特例：假设只有两个分位点 \( u_1 = 0.25 \) 和 \( u_2 = 0.75 \)，且使用恒等连接函数（即线性回归）。此时模型退化为：

\[Y_t = \alpha + X_t(0.25) \beta(0.25) + X_t(0.75) \beta(0.75) + \mathbf{Z}_t^\top \boldsymbol{\gamma} + \varepsilon_t\]

其中 \( X_t(0.25) \) 和 \( X_t(0.75) \) 分别是第 \( t \) 天暴露分布的第25和第75百分位数，\( \beta(0.25) \) 和 \( \beta(0.75) \) 是对应的效应系数。

在这个特例下，核心思路变得非常清晰： - 传统方法使用暴露均值 \( \bar{X}_t \) 作为协变量，估计的是 \( \beta_{\text{mean}} \)，即暴露均值变化对健康结局的平均效应。 - 本文方法使用暴露分布的多个分位数作为协变量，估计的是 \( \beta(0.25) \) 和 \( \beta(0.75) \)，即暴露分布不同位置的变化对健康结局的不同效应。

如果 \( \beta(0.25) \neq \beta(0.75) \)，说明暴露分布的低端和高端对健康的影响不同——例如，低暴露分位点的变化（对应室内活动较多的人群）可能比高暴露分位点的变化（对应室外活动较多的人群）有更大的健康效应。这正是本文试图捕捉的"暴露异质性效应"。

为什么这个特例抓住了核心：即使扩展到连续分位点 \( u \in [0,1] \)，核心思想不变——只是从两个离散分位点变为连续积分 \( \int_0^1 X_t(u) \beta(u) du \)。所有技术细节（基函数展开、惩罚估计、分位数函数估计）都是为了在连续情形下实现这一核心思想而服务的。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在环境流行病学的时间序列设计中，如何利用每个空间-时间单元内的暴露分布（而非均值）来估计短期暴露的健康效应，并允许效应在不同暴露分位点上不同。
核心工具/方法：提出标量-分位数函数回归模型（scalar-on-quantile-function regression），将暴露分位数函数作为函数型协变量，通过B样条基函数展开进行降维，并采用惩罚似然估计实现参数估计与选择。
主要结论：在亚特兰大4年空气污染与急诊就诊数据分析中，发现一氧化碳对呼吸和心血管疾病急诊就诊的影响在较低暴露分位数上更为显著，表明传统均值回归可能低估了低暴露人群的健康风险。

关键设定与假设¶

完整设定： - 数据：\( \{Y_t, \hat{X}_t(\cdot), \mathbf{Z}_t\}_{t=1}^T \)，其中 \( \hat{X}_t(u) \) 是第 \( t \) 天暴露分位数函数的估计值（来自SHEDS模拟）。 - 模型：\( \log(\mathbb{E}[Y_t | X_t(\cdot), \mathbf{Z}_t]) = \alpha + \int_0^1 X_t(u) \beta(u) du + \mathbf{Z}_t^\top \boldsymbol{\gamma} \) - 基函数展开：\( \beta(u) \approx \sum_{k=1}^K b_k B_k(u) \)，其中 \( B_k(u) \) 是B样条基函数，\( K \) 是基函数个数。类似地，\( X_t(u) \approx \sum_{k=1}^K x_{tk} B_k(u) \)。 - 估计：通过惩罚似然估计 \( \mathbf{b} = (b_1, \ldots, b_K)^\top \) 和 \( \boldsymbol{\gamma} \)，惩罚项控制 \( \beta(u) \) 的平滑性。

关键假设： 1. 暴露分位数函数可准确估计：假设SHEDS模拟能够提供暴露分位数函数的可靠估计 \( \hat{X}_t(u) \)。这是本文方法可行性的前提，但作者未对此假设进行严格检验。 2. 分位数函数的光滑性：假设 \( \beta(u) \) 和 \( X_t(u) \) 是 \( u \) 的光滑函数，使得B样条基展开有效。这是标准假设，与Reich (2012) 一致。 3. 无暴露不确定性传播：将 \( \hat{X}_t(u) \) 视为已知协变量，未建模其估计不确定性。这与Comess et al. (2022) 形成对比，后者强调需要传播不确定性。 4. 线性效应假设：模型假设暴露分位数对健康结局的效应是线性的（通过积分形式），未考虑非线性暴露-反应关系。这与DLNM方法（Gasparrini et al., 2010）不同，后者允许非线性效应。

相比已有文献的强化/放宽： - 强化：相比使用暴露均值的传统方法（Bhaskaran et al., 2013），本文使用了完整的暴露分布信息，允许效应在不同分位点上不同。 - 放宽：相比Berrocal et al. (2011) 的个人暴露模型，本文不需要个人水平的健康数据，仅需聚合水平的健康结局，适用范围更广。 - 放宽：相比Reich (2012) 的响应变量分位数回归，本文建模的是协变量的分位数函数，两者在概念上不同，本文更直接地关注暴露分布异质性的效应。

主要结果¶

理论/方法结果： 1. 模型可识别性：在B样条基函数展开下，模型参数 \( \mathbf{b} \) 和 \( \boldsymbol{\gamma} \) 可通过惩罚似然估计唯一识别。作者给出了估计方程和计算算法。 2. 基函数选择：作者推荐使用Bernstein多项式基函数（而非标准B样条），因为Bernstein多项式在 \( u=0 \) 和 \( u=1 \) 处有良好的边界性质，且"have been shown to accurately approximate various smooth function forms with a small number of basis functions"（Bellucci, 2014）。 3. 惩罚项选择：使用二阶差分惩罚（P-spline类型）来控制 \( \beta(u) \) 的平滑性，惩罚参数通过交叉验证或信息准则选择。

实证结果（核心量化结论）： - 数据：亚特兰大2008-2011年急诊就诊数据，结合SHEDS模拟的4种交通相关空气污染物（CO、NOx、NO2、PM2.5元素碳）的每日ZIP代码级个人暴露分布。 - 主要发现：一氧化碳（CO）对呼吸和心血管疾病急诊就诊的效应在较低暴露分位数上更为显著。具体地，当暴露分位数从第10百分位增加到第90百分位时，效应估计值从约1.5%（每IQR增加）下降到约0.5%（每IQR增加），下降幅度约67%。 - 与baseline对比：与传统均值回归相比，本文方法发现CO的效应在低分位点被均值回归低估（均值回归估计约0.8%，而本文方法在第10分位点估计约1.5%），在高分位点被高估（均值回归估计约0.8%，而本文方法在第90分位点估计约0.5%）。 - 稳健性：作者进行了多种敏感性分析，包括改变基函数个数、惩罚参数、以及排除极端值，结果定性一致。

证明路线与技术技巧¶

本文为应用型论文，无严格的理论证明（如渐近性质、一致性、收敛速度等）。其"证明路线"主要体现在方法构建和计算实现上：

整体路线： 1. 暴露分位数函数估计：对每个时间点 \( t \)，利用SHEDS模拟的个人暴露样本，通过经验分位数或核密度估计方法估计暴露分位数函数 \( \hat{X}_t(u) \)。 2. 基函数展开：将 \( \hat{X}_t(u) \) 和 \( \beta(u) \) 用Bernstein多项式基函数展开，将积分 \( \int_0^1 X_t(u) \beta(u) du \) 转化为基函数系数的线性组合。 3. 模型拟合：将展开后的模型代入广义线性模型框架，通过惩罚似然估计参数 \( \mathbf{b} \) 和 \( \boldsymbol{\gamma} \)。 4. 推断：通过标准误差估计（基于Fisher信息矩阵）进行假设检验和置信区间构建。

关键跳跃点： - 从连续积分到有限维近似：核心跳跃在于将无限维的函数型协变量问题转化为有限维的参数问题。这通过基函数展开实现：\( \int_0^1 X_t(u) \beta(u) du \approx \sum_{k=1}^K \sum_{l=1}^K b_k x_{tl} \int_0^1 B_k(u) B_l(u) du \)。基函数内积矩阵 \( \int_0^1 B_k(u) B_l(u) du \) 可预先计算，使得模型拟合仅需处理 \( K \) 维参数。 - Bernstein多项式的选择：作者选择Bernstein多项式而非标准B样条，因为Bernstein多项式在 \( [0,1] \) 上自然满足非负性和单位分割性质，且其正交化形式（Bellucci, 2014）有良好的数值稳定性。

技术技巧点名： - 基函数展开：用于降维，将函数型协变量转化为有限维参数。 - 惩罚似然估计：用于控制 \( \beta(u) \) 的平滑性，避免过拟合。 - Bernstein多项式：作为基函数，利用其边界性质和近似能力。 - R包nbRegQF：提供了负二项回归与分位数函数协变量的实现，支持惩罚估计和模型选择。

真实例子与应用¶

数据：亚特兰大2008-2011年（4年）的急诊就诊（ED）数据，包括呼吸系统和心血管疾病的每日就诊人数。暴露数据来自SHEDS模型模拟的4种交通相关空气污染物（CO、NOx、NO2、PM2.5元素碳）的每日ZIP代码级个人暴露分布。

方法应用： 1. 对每种污染物，使用SHEDS模拟的个人暴露样本估计每日的暴露分位数函数 \( \hat{X}_t(u) \)。 2. 将 \( \hat{X}_t(u) \) 用Bernstein多项式基函数展开（作者使用 \( K=5 \) 个基函数）。 3. 拟合标量-分位数函数回归模型，以每日ED就诊人数为响应变量，暴露分位数函数和其他协变量（温度、湿度、时间趋势、星期几等）为预测变量。 4. 估计效应系数函数 \( \hat{\beta}(u) \)，并绘制其随分位点 \( u \) 的变化。

结果： - CO对呼吸和心血管疾病ED就诊的效应在低分位点（\( u \approx 0.1-0.3 \)）显著为正，在高分位点（\( u \approx 0.7-0.9 \)）接近零或不显著。 - 其他污染物（NOx、NO2、PM2.5元素碳）的效应在不同分位点间差异较小，未发现类似模式。 - 敏感性分析表明结果对基函数个数和惩罚参数的选择稳健。

这个例子想说明什么： - 验证方法：展示了本文方法能够发现传统均值回归无法捕捉的暴露异质性效应。 - 展示相对baseline的优势：传统均值回归估计CO效应约为0.8%（每IQR增加），而本文方法发现低分位点效应高达1.5%，高分位点效应低至0.5%，表明均值回归可能掩盖了重要的亚人群差异。 - 提供科学见解：低暴露分位点的CO效应更显著，可能因为低暴露人群（如室内活动较多者）对CO的敏感性更高，或因为低暴露分位点的变化反映了室外源CO的渗透率变化。

🔎 结论是否比证明窄¶

本文为应用型论文，其结论直接来自实证分析，没有超出实证结果的泛化claim。但需要注意以下几点： - 作者在摘要中声称"provides additional flexibility in characterizing associations at different quantile levels"，但实证部分仅对CO发现了显著的分位点异质性效应，对其他污染物未发现。因此，该方法的"灵活性"是否在实践中总是有价值，取决于具体污染物和健康结局。 - 作者在讨论中提及"we find that this does not meaningfully impact inference for the health effect association"（关于暴露不确定性），但这一结论来自对Comess et al. (2022) 的引用，而非本文自身的分析。本文未进行将暴露不确定性纳入模型的敏感性分析。

四、开放问题¶

暴露不确定性的系统处理：本文直接将SHEDS模拟的暴露分位数函数视为已知协变量，未建模其估计不确定性。如何将Comess et al. (2022) 的贝叶斯核密度估计方法或类似的不确定性传播技术整合到标量-分位数函数回归框架中？——扎根于本文讨论部分"we find that this does not meaningfully impact inference"这一未经验证的claim。
非线性暴露-反应关系：本文假设暴露分位数对健康结局的效应是线性的（通过积分形式），但环境流行病学中暴露-反应关系往往是非线性的（如阈值效应、饱和效应）。如何将DLNM（Gasparrini et al., 2010）的滞后-非线性建模思想与本文的分位数函数协变量结合？——扎根于本文模型设定中线性积分形式的限制。
多空间单元的联合建模：本文在主要分析中假设每个时间点只有一个空间单元（整个城市），但数据实际上包含多个ZIP代码。如何将空间相关性（如ZIP代码间的空间随机效应）纳入标量-分位数函数回归模型？——扎根于本文方法描述中"can be extended to multiple spatial units"但未具体实现。
分位数函数估计的敏感性：本文使用SHEDS模拟的个人暴露样本估计分位数函数，但模拟模型本身存在不确定性（如输入参数、模型结构）。不同模拟模型或不同模拟参数设置是否会导致不同的分位数函数估计，进而影响健康效应估计？——扎根于本文对暴露数据来源的依赖（SHEDS模型）以及未进行多模型比较的局限性。

Maintained by 陈星宇 · Homepage · Source on GitHub