The Impact of Power Outages on Cardiovascular Hospitalizations Among Medicare Fee-for-service Enrollees in New York State, 2017–2018¶

作者: Vivian Do, Heather Kathleen McBrien, Donald Edmondson, Marianthi-Anna Kioumourtzoglou, Joan Allison Casey
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001853

一、领域脉络与小综述¶

1. 这个方向是什么¶

这个子方向属于环境流行病学中的急性健康效应估计，核心统计问题是：在只有观测数据、存在不可测时变混杂（如极端天气）且暴露（停电）非随机分配的情况下，如何识别并估计短期暴露对健康结局的因果效应。当前该领域方法学已相对成熟，主流采用病例交叉设计配合条件逻辑回归作为标准工具，但在暴露测量误差、统计功效评估以及极端天气这一"不可控混杂"的处理上仍存在显著瓶颈。

2. 发展脉络¶

从 introduction 引用来看，作者勾勒了两条主线：

主线一：停电健康效应的研究积累与空白 - 奠基工作：文献 7-11（Anderson-Bell et al., 2012; Han et al., 2019 等）确立了停电会增加健康风险，但作者指出这些研究多关注全因死亡率或特定疾病，且多在发展中国家或极端灾害（如飓风）背景下进行。 - 主要进展：文献 12-14（如 Vo et al., 2023）开始关注高收入国家，但作者在 intro 中明确指出："few have assessed cardiovascular impacts specifically"（极少专门评估对心血管系统的影响），且缺乏对城市性差异的系统考察。 - 本文位置：填补"发达国家常规停电对老年人心血管住院影响"这一空白，并首次按城市性分层。

主线二：病例交叉设计的方法演进 - 奠基工作：文献 15-17（Maclure, 1991; Mittleman et al., 1995）提出病例交叉设计，核心思想是自身对照——同一病例在不同时间点（病例期 vs 对照期）的比较，自动消除所有时间固定混杂（如年龄、性别、慢性病史）。 - 方法细化：文献 18-20（Bateson & Schwartz, 2001; Lumley & Levy, 2000）讨论了对照期选择策略（时间分层 vs 固定窗口）及其对自相关的影响。 - 当前 frontier：文献 21-23（Janes et al., 2005; Carracedo-Martínez et al., 2010）系统总结了设计变体（时间分层、双向对照等）及统计性质。 - 本文用法：采用时间分层病例交叉设计，按年、月、日匹配对照期，这是当前公认的最佳实践。

3. 子线索聚类¶

被引文献落在三条子线索上： 1. 暴露测量：文献 24-26（NYISO 报告、DOE 数据）涉及如何定义和测量"停电"——这是本文方法部分的关键创新点之一（ZCTA-hour 定义）。 2. 效应修饰：文献 27-30（如 Gronlund et al., 2014; Madrigano et al., 2013）提示年龄、性别、SES 可能修饰温度-健康关系，本文据此预设了分层分析。 3. 因果推断框架：文献 31-33（Hernán & Robins, 2020; Vandenbroucke & Pearce, 2015）提供了将病例交叉设计嵌入因果推断语言的理论基础——作者在 intro 中明确引用 Hernán & Robins 来 justify 因果解释。

4. 这个方向在追问的核心问题¶

识别问题：在存在时变混杂（温度、湿度、极端天气）时，病例交叉设计能否识别因果效应？核心假设是什么？
暴露测量：如何从电网运营数据构建个体层面的暴露指标？测量误差如何影响估计？
功效与样本量：当暴露（停电）是稀有事件时，如何保证足够的统计功效？
异质性：效应是否因城市性、季节、SES 而异？机制是什么（空调普及率、住房质量、医疗可及性）？

5. ⚠️ 作者的 framing（这是作者的说法）¶

作者将缺口 frame 为： - "No studies have assessed the relationship between power outages and CVD hospitalizations among older adults across different levels of urbanicity"（首次按城市性分层）。 - "Limited research in high-income settings"（填补发达国家空白）。

被淡化/回避的竞争路线： - 工具变量法：intro 完全未提及 IV——理论上，电网拓扑结构或维修优先级可作为停电的工具变量，但这需要额外数据。 - 断点回归：未提及 RDD——若存在停电阈值政策，RDD 可提供更干净的识别。 - 负对照结局：未讨论用非相关疾病住院作为负对照来检验混杂。

缺失的引用： - 敏感性分析：intro 未引用任何关于不可测混杂敏感性分析的文献（如 Rosenbaum bounds、E-value），这在因果推断导向的流行病学论文中几乎应作为标准配置。 - 测量误差理论：讨论暴露测量误差时，未引用经典的测量误差校正文献（如 Carroll et al. 的 Measurement Error book）。

6. 张力¶

未见明显对立引用。被引文献之间结论大体一致（停电有害健康），差异主要在效应大小和研究人群上。但存在一个隐性张力：文献 27-30 提示老年人对温度更敏感，而本文主要结果为 null——这可能是真无效应，也可能是功效不足或暴露错配导致。作者在 discussion 中承认了后者。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义： - \(i = 1, \ldots, n\)：索引 Medicare 受益人（样本量 \(n = 245,452\)）。 - \(j = 1, \ldots, J_i\)：索引第 \(i\) 个人的第 \(j\) 次住院（共 390,530 次心血管住院事件）。 - \(t\)：时间（天），\(t = 1, \ldots, T\)。 - \(Y_{ij}(t)\)：二元结局，第 \(i\) 个人在第 \(t\) 天是否发生心血管住院（可观测）。 - \(A_{ij}(t)\)：暴露变量，第 \(i\) 个人在病例期或对照期经历的停电小时数（可观测，从电网数据计算）。 - \(\mathbf{X}_i\)：个体时间固定特征（年龄、性别、种族、慢性病史等）（可观测，但在病例交叉设计中自动控制）。 - \(\mathbf{Z}(t)\)：时变混杂（温度、湿度、极端天气预警、空气质量等）（部分可观测，部分不可观测）。 - \(U_i\)：不可观测的个体异质性（时间固定混杂）。

模型（数据生成机制）： - 潜在结局框架：\(Y_i(t, a)\) 表示若在时间 \(t\) 暴露于停电水平 \(a\) 时的潜在住院状态。 - 因果 estimand：率比 \(RR = \frac{P(Y(t) = 1 | A(t) = a+1)}{P(Y(t) = 1 | A(t) = a)}\)，即停电每增加 1 小时，住院风险的相对变化。 - 观测模型：\(Y_{ij}(t) \sim \text{Bernoulli}(p_{ij}(t))\)，其中 \(\logit(p_{ij}(t)) = \alpha_i + \beta A_{ij}(t) + \boldsymbol{\gamma}^T \mathbf{Z}(t)\)。

可观测数据： - 结局：Medicare 住院索赔数据——确切知道每个受益人每天的住院状态。 - 暴露：NY Department of Public Services 的电网中断数据——知道每个 ZCTA（ZIP Code Tabulation Area）每个小时的停电客户比例，不知道个体层面是否真的停电。 - 时变混杂：温度、湿度等气象数据（可观测），但极端天气的应激反应（如疏散、备用发电机使用）部分不可观测。

关键识别假设： 1. SUTVA：个体 \(i\) 的结局只受自己暴露影响，不受他人停电影响（无干扰）。 2. 时间固定混杂控制：所有混杂都是时间固定的（病例交叉设计自动控制）。 3. 无时变混杂：\(\mathbf{Z}(t)\) 要么可观测并纳入模型，要么与 \(A(t)\) 条件独立（这是最脆弱的假设，因为极端天气同时导致停电和住院）。

第二步：最小内核——病例交叉设计的条件逻辑回归¶

最简特例：假设只有一个个体 \(i\)，有 1 次住院事件（病例期 \(t^*\)）和 3 个对照期（\(t_1, t_2, t_3\)，同一月、同一星期几）。

核心思想：病例交叉设计将问题转化为配对病例-对照：每个病例期的暴露分布与对照期比较。由于是同一人，所有时间固定混杂（基因、基础疾病、居住地）自动抵消。

数学形式：定义 \(D_{it} = 1\) 若 \(t\) 是病例期，\(D_{it} = 0\) 若 \(t\) 是对照期。条件似然为：

\[L(\beta) = \prod_{i=1}^{n} \frac{\exp(\beta A_{it^*})}{\exp(\beta A_{it^*}) + \sum_{k=1}^{K} \exp(\beta A_{it_k})}\]

这正是条件逻辑回归的似然——等价于固定效应 logistic 回归，个体固定效应 \(\alpha_i\) 被条件化消除。

为什么这解决了识别问题： - 时间固定混杂 \(U_i\) 进入模型为 \(\alpha_i + \beta A_i(t)\)，条件化后 \(U_i\) 被消去。 - 只需要假设时变混杂已被控制（通过纳入温度、湿度等协变量）。

核心困难： - 暴露测量误差：\(A_{ij}(t)\) 是 ZCTA 层面的停电比例，不是个体是否停电——这导致非微分测量误差，通常使效应趋向零。 - 时变混杂：极端天气同时导致停电和住院——若未完全控制，会产生正向混杂偏倚。 - 稀有暴露：停电是稀有事件，即使样本量大，"暴露病例"数可能很少——导致功效不足。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：2017-2018 年纽约州 245,452 名 Medicare 受益人中，停电对心血管住院的短期因果效应。
核心方法：时间分层病例交叉设计 + 条件逻辑回归，按城市性（纽约市/非纽约市城市/农村）和季节分层。
主要结论：几乎所有分层均未发现显著关联（率比接近 1，置信区间宽），但暴露病例数有限导致功效不足，无法排除小到中等效应。

关键设定与假设¶

暴露定义（方法学核心）： - 数据源：NY Department of Public Services 的电网中断数据，记录每个 ZCTA 每小时的停电客户数。 - 主要定义：ZCTA-hour 暴露 = 该 ZCTA 该小时 ≥10% 客户停电（敏感性分析用 1%、5%、15% 阈值）。 - 累积暴露：计算病例期/对照期前 1 天、1-2 天、1-3 天的总停电小时数。

病例交叉设计细节： - 时间分层：同一日历年、同一日历月、同一星期几作为对照期候选。 - 对照期选择：病例期前后各选对照期（双向对照），避免时间趋势偏倚。 - 排除标准：病例期或对照期有缺失气象数据者排除。

条件逻辑回归模型：

\[\logit(P(Y_{it} = 1 | A_{it}, \mathbf{Z}_t)) = \alpha_i + \beta A_{it} + \boldsymbol{\gamma}^T \mathbf{Z}_t\]

其中 \(\mathbf{Z}_t\) 包括：日平均温度（自然立方样条，3 个节点）、露点温度、联邦假日指标。

关键假设： 1. 无时变混杂：控制温度、湿度、假日后，停电与住院无其他共同原因（最脆弱——极端天气预警、应激行为未控制）。 2. 暴露无测量误差：ZCTA 层面停电比例代表个体暴露（明显违反——个体是否停电未知）。 3. 无干扰：一人停电不影响他人住院风险（可能违反——停电可能影响医疗系统运行）。

相比已有文献的改进： - 首次按城市性分层（NYC vs 非 NYC 城市 vs 农村），检验效应修饰。 - 使用高分辨率暴露数据（ZCTA-hour 级别），而非县或州层面。 - 系统的敏感性分析（不同暴露阈值、滞后结构、排除极端天气日）。

主要结果¶

主要效应估计： - 纽约市：停电后 1 天，每增加 1 小时停电，CVD 住院率比 RR = 1.05（95% CI: 0.85, 1.30）。 - 非 NYC 城市：RR = 1.02（95% CI: 0.92, 1.14）。 - 农村：RR = 0.98（95% CI: 0.85, 1.13）。 - 全州汇总：RR = 1.02（95% CI: 0.95, 1.10）。

分层分析： - 季节：暖季（5-9 月）vs 冷季（10-4 月）——均无显著差异。 - 年龄：≥75 岁 vs 65-74 岁——均无显著差异。 - 性别：男性 vs 女性——均无显著差异。 - SES：高 vs 低贫困 ZCTA——均无显著差异。

急诊 vs 非急诊住院： - 急诊住院：RR = 1.03（95% CI: 0.95, 1.12）。 - 非急诊住院：RR = 1.00（95% CI: 0.88, 1.14）。

敏感性分析： - 改变暴露阈值（1%、5%、15%）——结果类似。 - 排除极端天气日（飓风、暴风雪）——结果类似。 - 不同滞后结构（0-1 天、2-3 天）——结果类似。

暴露病例数（关键限制）： - 纽约市：仅 3.5% 的 CVD 住院病例（约 7,000 例）在病例期前 1 天经历过停电。 - 农村：仅 2.1% 的病例暴露。 - 这导致置信区间宽，功效不足以检测小到中等效应（RR < 1.2）。

证明路线与技术技巧¶

这不是理论型论文，但方法部分涉及若干统计技巧：

技巧 1：条件逻辑回归的计算 - 使用 survival 包的 clogit 函数，等价于固定效应 logistic 回归。 - 通过分层（strata）实现个体固定效应的条件化。

技巧 2：时间分层的实现 - 按"年-月-星期几"创建分层，确保对照期与病例期在时间上可比。 - 避免了季节性和星期几效应的混杂。

技巧 3：暴露测量的敏感性分析 - 主分析用 10% 阈值定义"停电 ZCTA-hour"，敏感性分析测试 1%、5%、15%。 - 这是处理暴露测量不确定性的标准做法。

技巧 4：极端天气的排除分析 - 排除飓风 Sandy、暴风雪等极端天气日，检验结果是否由极端天气混杂驱动。 - 这是检验时变混杂敏感性的实用策略。

缺失的技巧： - Rosenbaum bounds 或 E-value：未计算不可测混杂敏感性界——这是因果推断导向论文的标准配置。 - 测量误差校正：未对 ZCTA 层面暴露到个体暴露的测量误差进行校正。

真实例子与应用¶

数据： - 结局：2017-2018 年纽约州 Medicare Fee-for-Service 受益人的 CVD 住院记录（ICD-10: I00-I99），共 245,452 人，390,530 次住院。 - 暴露：NY Department of Public Services 的电网中断数据，覆盖 2017-2018 年所有 ZCTA-hour 级别的停电记录。 - 协变量：NOAA 气象数据（温度、露点）、美国社区调查（ACS）的 ZCTA 层面 SES 数据。

应用流程： 1. 数据清洗：将住院记录与 ZCTA 关联，计算每个病例期和对照期的停电小时数。 2. 对照期匹配：按时间分层，为每个病例期选择对照期。 3. 模型拟合：条件逻辑回归，分层按城市性。 4. 结果解释：主要结果为 null，讨论聚焦于功效限制和暴露测量误差。

这个例子想说明什么： - 方法演示：展示病例交叉设计在大规模行政数据中的应用流程。 - 实质性发现：在纽约州，常规停电（非灾害性）与 CVD 住院无显著关联——可能因为纽约电网相对稳定，停电时间短，且老年人有应对机制。 - 限制说明：暴露病例数少导致功效不足，无法排除小效应；暴露测量误差可能使效应趋向零。

🔎 结论是否比证明窄¶

本文结论非常谨慎，明确承认功效限制。但有一点值得注意： - 作者声称："The case–crossover design we used eliminated time-fixed confounding"——这是正确的。 - 但作者淡化了一个关键假设：时变混杂（极端天气）的控制依赖于观测协变量（温度、湿度），而未观测的时变混杂（如极端天气预警引发的应激行为、备用发电机使用）可能导致残余混杂。 - 敏感性分析缺失：未计算 E-value 或 Rosenbaum bounds 来量化不可测混杂需要多强才能解释掉观察到的效应（虽然效应本身是 null，但这是方法学上的缺失）。

四、开放问题¶

不可测时变混杂的敏感性分析：本文未计算 E-value 或 Rosenbaum bounds——若想量化"需要多强的时变混杂才能解释掉观察到的 null 效应"，应如何扩展敏感性分析框架到病例交叉设计？（扎根在 Discussion 第 2 段："there may be residual confounding by time-varying factors"）
暴露测量误差的校正：ZCTA 层面停电比例到个体暴露存在非微分测量误差——能否用验证数据（如个体问卷）或贝叶斯测量误差模型校正？（扎根在 Discussion 第 3 段："exposure misclassification"）
功效计算与设计优化：暴露病例数少导致功效不足——能否在研究设计阶段，基于历史停电分布，优化对照期选择策略（如增加对照期数量、放宽时间分层）以提高功效？（扎根在 Discussion 第 4 段："limited number of exposed cases, limiting statistical power"）
因果推断框架的扩展：病例交叉设计能否嵌入潜在结局框架，明确定义因果 estimand（如 ATT）和识别假设？能否用工具变量（电网拓扑结构）或断点回归（停电阈值政策）提供替代识别策略？（扎根在 Introduction 第 5 段引用 Hernán & Robins，但未深入展开因果框架）

Maintained by 陈星宇 · Homepage · Source on GitHub