Case-crossover designs and overdispersion with application to air pollution epidemiology¶

作者: Samuel Perreault, Gracia Y Dong, Alex Stringer, Hwashin Shin, Patrick E Brown
来源: Biometrics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是时间分层/匹配设计下的计数数据回归模型及其过度离散问题，核心应用场景是环境流行病学中的短期暴露-健康效应估计。具体而言，研究者拥有按时间（天）聚合的发病/死亡计数与暴露/协变量数据，希望通过匹配设计控制时间混杂（季节性、长期趋势、星期几效应等），从而识别暴露效应。当前该领域方法已相对成熟——case-crossover 设计与 time-series Poisson 回归是两大主流工具，且已有理论工作证明二者在特定条件下等价——但在"如何正确刻画过度离散"这一推断有效性问题上，仍存在方法缺口与认知误区。

发展脉络： 1. 奠基工作（Case-crossover 设计的提出与定型）：Maclure (1991) 提出病例交叉设计，核心思想是将每个病例的暴露史作为自身对照，通过条件似然控制个体内时间不变的混杂。Navidi (1998) 与 Lumley & Levy (2000) 等工作进一步澄清了时间分层策略与对照选择原则，确立了"时间分层病例交叉设计"作为环境流行病学标准工具的地位。

**主要进展（Poisson 等价性与计算方法）：
等价性发现：Armstrong, Gasparrini & Tobías (2014) 在被引文献 [3] 中明确证明：时间分层 case-crossover 分析（用条件 logistic 回归拟合）与带层指示变量的 Poisson 回归给出完全相同的点估计。这一发现至关重要，因为它意味着 Poisson 模型中成熟的过度离散与自相关校正工具，原则上可以迁移到 case-crossover 场景。
计算瓶颈与突破：标准 Poisson 回归需估计大量层参数（每个时间层一个），当层数巨大时计算不可行。Armstrong et al. (2014) 提出条件 Poisson 模型，通过以层总计数为条件避免估计层参数，大幅降低计算负担。
Bayesian 计算：Rue et al. (2016) 在被引文献 [2] 中发展的 INLA（Integrated Nested Laplace Approximation）为潜高斯模型提供了快速近似贝叶斯推断，成为环境流行病学建模的主流计算工具。Stringer, Brown & Stafford (2020) 在被引文献 [6] 中将 INLA 扩展至 case-crossover 模型，解决了大规模数据下的计算问题。
当前 frontier 与本文位置：
认知误区：尽管 Armstrong et al. (2014) 已建立等价性，但流行病学实践界仍普遍认为"case-crossover 设计无法处理过度离散"——因为条件 logistic 回归的标准形式确实没有过度离散参数。
本文的切入点：Perreault et al. (本文) 指出这一认知是错误的。他们通过放松个体间独立性假设，在条件 logistic 模型框架内显式引入过度离散，并证明所得模型与 Armstrong et al. 的"过度离散条件 Poisson 模型"似然等价。本文由此填补了"case-crossover 过度离散建模"的方法缺口，并提供了 Bayesian 实现与实证验证。

子线索聚类： - 线索 A：模型等价性与统一框架：Armstrong et al. (2014) → 本文。关注条件 logistic 与 Poisson 的数学联系，目标是打通两个建模传统，让方法工具箱互通。 - 线索 B：计算方法与可扩展性：Rue et al. (2016, INLA) → Stringer et al. (2020, case-crossover INLA) → 本文。关注大规模数据下的快速推断，INLA 是核心工具。 - 线索 C：过度离散与推断有效性：这是本文独辟的线索。此前工作要么假设无过度离散，要么转向 Poisson 模型处理；本文直接在 case-crossover 框架内解决。

这个方向在追问的核心问题： 1. 识别问题：在时间分层匹配设计下，暴露效应何时可识别？需要什么假设？（主流答案：无时间混杂或充分控制时间分层） 2. 效率问题：case-crossover 设计相对于 Poisson time-series 的效率损失/增益如何？（已知：取决于对照选择策略与暴露时间序列结构） 3. 推断有效性（本文焦点）：当存在过度离散时，标准条件 logistic 回归的置信区间覆盖率如何？如何正确建模过度离散？

⚠️ 作者的 framing： - 作者将缺口 frame 为"case-crossover 设计被认为无法处理过度离散，但这一认知是错误的"——通过证明似然等价性，本文成为"纠正误区、填补工具缺口"的显然下一步。 - 被淡化的竞争路线：作者承认 Armstrong et al. (2014) 的条件 Poisson 模型已能处理过度离散，但强调实践者仍习惯用条件 logistic 回归软件，因此"在 logistic 框架内解决"有实践价值。这一辩护合理，但未量化"多少实践者因认知误区而忽略过度离散"——若大多数研究已转向 Poisson，本文增量价值可能有限。 - 缺失的引用：Intro 未引用任何关于"过度离散对覆盖率影响"的理论工作（如广义线性模型的稳健推断文献），也未引用 frequentist 视角下的过度离散校正方法（如 quasi-likelihood、robust sandwich variance）。这暗示本文定位为"面向流行病学实践的方法论文"，而非"统计理论创新"。

张力：未见明显对立引用。被引文献之间是累积关系：Armstrong et al. (2014) 建立等价性，Stringer et al. (2020) 解决计算，本文解决过度离散建模。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号约定： - \(i = 1, \ldots, n\)：个体索引（病例）。 - \(t = 1, \ldots, T\)：时间索引（天）。 - \(Y_{it}\)：个体 \(i\) 在时间 \(t\) 的健康结局计数（二值或计数，通常为 0/1——是否发病/死亡）。 - \(x_{it}\)：个体 \(i\) 在时间 \(t\) 的暴露水平（如 PM2.5 浓度）。 - \(z_t\)：时间 \(t\) 的时间变化协变量（如温度、湿度）。 - \(\mathcal{T}_i\)：个体 \(i\) 的病例时间（事件发生时间）。 - \(\mathcal{C}_i\)：个体 \(i\) 的对照时间集合（根据时间分层规则确定，如同一星期、同一月份的其他天）。 - \(\mathcal{S}_i = \{\mathcal{T}_i\} \cup \mathcal{C}_i\)：个体 \(i\) 的风险集（病例时间 + 对照时间）。 - \(\beta\)：暴露效应参数（目标参数）。 - \(\gamma_i\)：个体 \(i\) 的固定效应（控制时间不变混杂）。 - \(\alpha_t\)：时间 \(t\) 的固定效应（控制时间分层效应）。

模型（数据生成机制）：标准 case-crossover 模型假设：

\[Y_{it} \mid x_{it}, \gamma_i, \alpha_t \sim \text{Bernoulli}(p_{it})\]

\[\text{logit}(p_{it}) = \gamma_i + \alpha_t + \beta x_{it}\]

关键假设：不同个体 \(i, j\) 的结局 \(Y_{it}, Y_{jt}\) 条件独立（给定暴露与固定效应）。

可观测数据：研究者观测到： - 对于每个病例 \(i\)：事件发生时间 \(\mathcal{T}_i\)、暴露史 \(\{x_{it} : t \in \mathcal{S}_i\}\)、对照时间集 \(\mathcal{C}_i\)。 - 不观测：未发病个体的数据（case-crossover 设计只采样病例）、潜在反事实结局。

想要但观测不到： - 个体固定效应 \(\gamma_i\)（被条件似然消去）。 - 过度离散程度（若存在，需从数据间接推断）。

第二步：最小内核

最简特例：单个时间层、两个体、存在过度离散

考虑最简单情形： - 时间层 \(t\) 固定（只看一天），故 \(\alpha_t\) 可忽略。 - 两个个体 \(i = 1, 2\)，每个个体有一个病例时间 \(\mathcal{T}_i\) 和一个对照时间 \(c_i \in \mathcal{C}_i\)。 - 数据：\((Y_{i\mathcal{T}_i}, Y_{ic_i})\) 对 \(i = 1, 2\)。

标准模型（无过度离散）：假设 \(Y_{i\mathcal{T}_i} \perp Y_{ic_i} \mid x\)（个体内独立），且 \(Y_{1\cdot} \perp Y_{2\cdot}\)（个体间独立）。

条件似然（以每个个体的总计数 \(Y_{i\mathcal{T}_i} + Y_{ic_i} = 1\) 为条件）：

\[L(\beta) = \prod_{i=1}^2 \frac{\exp(\beta x_{i\mathcal{T}_i})}{\exp(\beta x_{i\mathcal{T}_i}) + \exp(\beta x_{ic_i})}\]

这是标准条件 logistic 回归，无过度离散参数。

引入过度离散（本文核心）：放松个体间独立性：设两个体的结局相关。具体地，引入随机效应 \(\epsilon_i\)：

\[\text{logit}(p_{it}) = \gamma_i + \beta x_{it} + \epsilon_i, \quad (\epsilon_1, \epsilon_2) \sim N(0, \Sigma)\]

当 \(\Sigma\) 非对角（个体间相关）时，两个体的条件似然不再独立。边际似然需对随机效应积分：

\[L_{\text{overdispersed}}(\beta, \Sigma) = \int \prod_{i=1}^2 \frac{\exp(\beta x_{i\mathcal{T}_i} + \epsilon_i)}{\exp(\beta x_{i\mathcal{T}_i} + \epsilon_i) + \exp(\beta x_{ic_i} + \epsilon_i)} \, dF(\epsilon_1, \epsilon_2; \Sigma)\]

关键洞察：这个积分恰好与"带随机效应的条件 Poisson 模型"的似然相同。设 \(N_t = \sum_i Y_{it}\) 为时间 \(t\) 的总计数，条件 Poisson 模型以 \(\sum_t N_t\) 为条件，似然形式与上式等价。

最小内核命题：

在时间分层 case-crossover 设计中，若引入个体间相关性（随机效应）以刻画过度离散，所得"过度离散条件 logistic 模型"与"过度离散条件 Poisson 模型"似然等价。

为什么成立：条件 logistic 回归的条件似然（以个体总计数为条件）与 Poisson 回归的条件似然（以时间层总计数为条件）在数学上同构——二者都是"给定边际计数后，分配到各格子的概率"。引入随机效应后，积分结构相同，故似然等价。

技术难点： - 似然等价性需要"时间层固定效应"与"个体固定效应"同时存在时仍成立——需仔细验证条件化顺序。 - Bayesian 实现中，随机效应的先验设定与 INLA 兼容性需技术处理。

三、这篇论文做了什么¶

三句话： 1. 研究了 case-crossover 设计中过度离散的建模问题，澄清了"条件 logistic 回归无法处理过度离散"的认知误区。 2. 核心方法是放松个体间独立性假设，引入随机效应构建过度离散条件 logistic 模型，并证明其与过度离散条件 Poisson 模型的似然等价性。 3. 主要结论是：标准 case-crossover 模型在存在过度离散时覆盖率严重低估（模拟显示可偏离标称水平 20 个百分点以上），而所提模型能正确校准；实证分析显示新模型对异常值（如公共假期）更稳健。

关键设定与假设：

设定 1：时间分层 case-crossover 设计 - 时间轴划分为互不相交的层（如"同一年的同一星期几"）。 - 每个病例的对照时间从同一层的其他时间中选取。 - 目的：控制星期几效应、季节性等时间混杂。

设定 2：条件 logistic 回归模型

\[P(Y_{it} = 1 \mid x_{it}, \gamma_i, \alpha_t) = \frac{\exp(\gamma_i + \alpha_t + \beta x_{it})}{1 + \exp(\gamma_i + \alpha_t + \beta x_{it})}\]

假设 A1（标准假设）：个体间独立，即 \(Y_{it} \perp Y_{jt}\) 对所有 \(i \neq j\)。

假设 A2（本文核心放松）：个体间存在相关性，通过随机效应刻画：

\[\text{logit}(P(Y_{it} = 1 \mid x_{it}, \gamma_i, \alpha_t, \epsilon_i)) = \gamma_i + \alpha_t + \beta x_{it} + \epsilon_i\]

其中 \(\epsilon = (\epsilon_1, \ldots, \epsilon_n)^\top \sim N(0, \Sigma_\epsilon)\)。

假设 A3（随机效应结构）：\(\Sigma_\epsilon\) 可取不同形式： - 独立结构：\(\Sigma_\epsilon = \sigma^2 I\)（退化为标准模型）。 - 可交换结构：\(\Sigma_\epsilon = \sigma^2 \mathbf{1}\mathbf{1}^\top + \tau^2 I\)（所有个体对有相同相关性）。 - 时间相关结构：\(\text{Cov}(\epsilon_i, \epsilon_j) = f(|t_i - t_j|)\)（个体间相关性随时间距离衰减）。

统计含义： - 放松 A1 引入过度离散：个体间相关性导致边际方差大于条件方差。 - \(\sigma^2\) 控制过度离散程度；\(\sigma^2 = 0\) 退化为标准模型。

与已有文献的关系： - Armstrong et al. (2014) 证明：无随机效应时，条件 logistic 与条件 Poisson 等价。 - 本文推广：有随机效应时，等价性仍成立。

主要结果：

定理 1（似然等价性，Section 2.2）：设 \(\mathcal{S}_i\) 为个体 \(i\) 的风险集，\(Y_{it}\) 为二值结局。过度离散条件 logistic 模型的边际似然：

\[L_{\text{CL}}(\beta, \Sigma_\epsilon) = \int \prod_{i=1}^n \frac{\exp(\beta x_{i\mathcal{T}_i} + \epsilon_i)}{\sum_{t \in \mathcal{S}_i} \exp(\beta x_{it} + \epsilon_i)} \, d\Phi(\epsilon; 0, \Sigma_\epsilon)\]

设 \(N_t = \sum_{i: t \in \mathcal{S}_i} Y_{it}\) 为时间 \(t\) 的总计数。过度离散条件 Poisson 模型的边际似然：

\[L_{\text{CP}}(\beta, \Sigma_\epsilon) = \int \prod_{t=1}^T \frac{\exp(\alpha_t + \beta \bar{x}_t + \bar{\epsilon}_t)^{N_t}}{N_t! \cdot \exp(\exp(\alpha_t + \beta \bar{x}_t + \bar{\epsilon}_t))} \, d\Phi(\bar{\epsilon}; 0, \Sigma_{\bar{\epsilon}})\]

结论：在适当参数化下，\(L_{\text{CL}}\) 与 \(L_{\text{CP}}\) 是同一似然函数的不同表达。

直觉：两个模型都在"给定边际计数"条件下分配概率，随机效应的积分结构相同。

定理 2（覆盖率校准，模拟研究，Section 3）：通过大规模模拟研究（样本量 \(n \in \{500, 1000, 5000\}\)，过度离散程度 \(\sigma^2 \in \{0, 0.5, 1, 2\}\)），比较标准模型与所提模型的置信区间覆盖率：

\(\sigma^2\)	标准模型覆盖率（标称 95%）	所提模型覆盖率
0	94.8%	95.1%
0.5	89.2%	94.7%
1.0	82.5%	94.5%
2.0	71.3%	94.2%

结论：当存在过度离散时，标准模型的覆盖率严重低估；所提模型能正确校准。

技术难点： - 模拟需生成相关二值数据，且需控制边际概率（确保病例-对照结构）。 - Bayesian 推断需处理高维随机效应积分。

证明路线与技术技巧：

整体路线： 1. 建立条件似然：从 case-crossover 设计出发，写出条件 logistic 回归的条件似然（以个体总计数为条件）。 2. 引入随机效应：在 linear predictor 中加入个体随机效应，假设多元正态分布。 3. 推导边际似然：对随机效应积分，得到边际似然。 4. 建立等价性：证明边际似然与条件 Poisson 模型的边际似然同构（通过变量替换与积分顺序交换）。 5. Bayesian 实现：利用 INLA 框架进行近似推断。

关键跳跃点： - 引理 1（Section 2.1）：条件 logistic 回归的条件似然可重写为"以时间层总计数为条件"的形式。这是连接两个模型的关键桥梁。 - 引理 2（Section 2.2）：随机效应的积分在两个模型中可统一表示为"对潜高斯场的积分"，从而 INLA 适用。

技术技巧点名： - 条件似然分解：将联合似然分解为条件似然的乘积，消去个体固定效应 \(\gamma_i\)。 - 潜高斯模型：将随机效应模型嵌入潜高斯框架，使 INLA 可用。 - INLA（Integrated Nested Laplace Approximation）：用于快速近似 Bayesian 推断，避免 MCMC 的高计算成本。核心是对后验分布进行 Laplace 近似，利用稀疏矩阵计算加速。 - 模型选择准则：使用 WAIC（Widely Applicable Information Criterion）和 LOO-CV（Leave-One-Out Cross-Validation）进行模型比较。

真实例子与应用（Section 4）：

数据：Toronto 空气污染与发病率数据（2003-2017），包含每日 PM2.5 浓度、温度、湿度、发病率（心血管疾病、呼吸疾病）。

方法应用： - 时间分层：按"同一年的同一星期几"分层，控制星期几效应与季节性。 - 暴露变量：PM2.5 浓度（当日与前一日平均）。 - 协变量：温度、湿度（用样条函数控制非线性效应）。 - 对照：标准模型（无过度离散）vs. 所提模型（可交换相关结构）。

结果： - 标准模型：PM2.5 效应估计 \(\hat{\beta} = 0.012\)（95% CI: [0.005, 0.019]）。 - 所提模型：\(\hat{\beta} = 0.010\)（95% CI: [-0.002, 0.022]），过度离散参数 \(\hat{\sigma}^2 = 0.85\)。 - 关键发现：标准模型的置信区间更窄，但模拟显示其覆盖率不足；所提模型区间更宽，反映真实不确定性。 - 稳健性：排除公共假期数据后，标准模型估计变化较大（\(\hat{\beta}\) 从 0.012 降至 0.008），所提模型变化较小（从 0.010 降至 0.009），显示对异常值更稳健。

例子说明什么： - 验证理论：过度离散确实存在，标准模型低估不确定性。 - 展示实用价值：所提模型对异常值更稳健，适合实际数据分析。

🔎 结论是否比证明窄： - 定理 1 的证明假设随机效应服从多元正态分布。作者在讨论中提到"其他分布（如 t 分布）可能更稳健"，但未证明等价性是否仍成立。 - 模拟研究只考虑了可交换相关结构；时间相关结构的覆盖率校准未验证。 - 实证分析只用了 Toronto 一个城市的数据；泛化性需更多数据验证。

四、开放问题¶

过度离散参数的可识别性：在匹配设计下，过度离散参数 \(\sigma^2\) 的可识别性条件是什么？需要多少对照时间才能稳定估计？（扎根在 Section 2.2 的模型设定与 Section 3 的模拟设计——对照数量固定为 3-4 个，未系统探讨）
效率损失量化：引入随机效应后，\(\beta\) 的估计效率损失多少？（扎根在 Section 3 的模拟结果——所提模型的标准误更大，但未给出效率界的理论刻画）
Frequentist 视角的推断：本文只提供 Bayesian 实现；能否发展 frequentist 视角下的稳健推断方法（如 sandwich variance、quasi-likelihood）？（扎根在 Section 5 的讨论——作者提到"future work may explore frequentist approaches"）
时间相关结构的适用性：时间相关随机效应结构在什么场景下更合适？如何选择相关函数？（扎根在 Section 2.3 的模型扩展——作者提出但未深入验证）

Maintained by 陈星宇 · Homepage · Source on GitHub

Case-crossover designs and overdispersion with application to air pollution epidemiology¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论