Confounding and scale-dependency of interactions: Threats to validity when quantifying the contribution of air conditioning to heat adaptation¶

作者: Jaime Daniel Reyes-Sánchez, Sandrah Proctor Eckel, Juan Pablo Lewinger, Erika Garcia
来源: Epidemiology
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1097/01.ede.0001193384.94971.ba

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么¶

这个子方向聚焦于流行病学因果推断中，如何量化一个环境暴露（这里是极端高温）对健康结局（死亡率）的效应随时间变化的趋势，并归因于另一个暴露或干预（这里是空调普及率）的调节作用。具体来说，它回答这类问题：“空调使用率的增加，在多大程度上降低了高温相关的超额死亡风险？” 解决该问题的通用策略是“两阶段方法”（two-stage approach）：第一阶段，在每个空间单元（如城市）拟合一个时间序列模型，估计温度-死亡率关联随时间（或年份）的变化（即“热效应”的时间斜率）；第二阶段，将这些估计出的时间斜率（或其中的年度变化）作为因变量，与空调普及率进行 meta 回归，估计热-空调的交互作用。当前这个子领域的成熟度较高——两阶段方法已成为标准操作，但对其统计假设（尤其是混杂结构和无主效应假设）的系统性考验却相对滞后，这正是本文填补的缺口。

发展脉络（history）¶

奠基工作——热-健康流行病学的时间序列分析：早期研究（如 Basu & Samet, 2002 等）建立了通过时间序列泊松回归（Poisson regression）估计温度-死亡率短时滞后关联的统计方法。它们将温度效应视为短期、非线性的，可以通过分布式滞后非线性模型（DLNM）捕捉。这些工作构成了阶段一的标准工具。
进展——从单纯关联到归因与调节（交互作用）：随着时间推移，研究者不再只关注平均效应，而是转向估计热效应在 时间 / 空间上的变化。例如 Gasparrini et al. (2015) 开发了两阶段 meta 分析框架，在全球多城市数据中估计了温度-死亡率关联的异质性。随后，研究者开始引入第二个变量（如 AC、收入、绿植覆盖率）作为 meta 回归中的调节变量（moderator），试图解释这种异质性。这就是两阶段交互作用估计的雏形。该工作的核心假设是：一旦控制了可测量的空间协变量，阶段一和阶段二之间的残差异质性就是纯粹的噪声——这正是本文质疑的关键。
当前 frontier——交互作用尺度的选择与混杂控制：近期的研究（本文引用的工作，如 Anderson & Bell, 2009; Bobb et al., 2014; Sera et al., 2019 等）开始注意乘性 vs 加性交互作用的流行病学含义差异：乘性交互通常通过泊松回归中的乘积项表示（ln(rate) 尺度），而加性交互则关注风险差（rate difference）的变化。同时，越来越多的工作开始使用纵向方法（如城市层面的固定效应，FE）控制时不变的混杂。然而，这些 FE 模型通常只加了城市固定截距（即允许每个城市的基础死亡率不同），而没有控制城市固定斜率（即允许热效应随年份变化的趋势因城市而异）；更关键的是，这些模型很少控制与 AC 相关的、但随时间不变的混杂（如距海岸距离、城市形态），因为这些混杂往往与热效应的时间趋势相关。这个“遗漏时不变混杂”的缺口，正是本文瞄准的目标。
本文的位置：本文不是提出一个新的估计方法，而是通过一个精心设计的模拟框架（基于真实数据），系统性地测试遗漏与 AC 相关的时不变混杂如何使两阶段交互作用估计产生偏倚。它不追求证明一个复杂的渐近定理，而是提供一份定量的“敏感性诊断报告”，告诉流行病学研究者：在什么条件下，你们习惯用的两阶段估计是成立的，什么条件下是危险的。

子线索聚类¶

子线索一：两阶段方法的改进与拓展：这类文献致力于改进第一阶段（DLNM、高阶样条、时变效应）和第二阶段（多变量 meta 回归、贝叶斯层次模型）的统计方法。代表如 Gasparrini & Armstrong (2013)、Sera et al. (2019)。这些方法的核心在于如何处理残差异质性和多水平不确定性，但对混杂结构的关注相对较少。
子线索二：交互作用的准确估计与归因：这类文献关注如何从效果测量（risk ratio / risk difference / attributable number）的角度解释交互作用，特别是乘性与加性交互的经验区别。代表如 Rothman et al. (2008)、VanderWeele & Knol (2014)。其核心挑战在于，加性交互需要估计绝对风险差，这对无主效应假设（no main effect of the moderator）的依赖性更强——因为一旦 moderater（AC）对结局有主效应，用两阶段方法估计出的“交互”实际上是主效应和交互效应的混合体。
子线索三：未观测混杂的敏感性分析：这类文献提出了多种方法（如 E-value、倾向性评分校准、proximal causal inference），用于量化遗漏混杂可能导致的偏倚幅度。代表如 VanderWeele & Ding (2017)（提出 E-value）、Tchetgen Tchetgen et al. (2020)（提出 Proximal causal inference）。本文的模拟框架本质上是对两阶段方法进行的一种“事前”敏感性分析（模拟性），而不是“事后”的（如 E-value）。它发现的偏倚模式（无主效应假设被违反时加性交互的严重偏倚）可直接转化为对 E-value 应用的启发。

这个方向在追问的核心问题与已知瓶颈¶

如何分解热效应的时间变化？ 是线性的（每年稳定增减）还是非线性的（阶段效应、阶梯式变化）？这决定了阶段一模型对时间趋势的参数化形式（时间×温度的交互项 vs 分段样条）。目前瓶颈在于：对时间趋势的设定过于随意，缺乏统一的模型选择准则。
如何准确分离 AC 的调节效应与混杂效应？ AC 的普及可能与许多其他城市特征（经济水平、医疗资源、城市绿化、建筑隔热性）相关，而这些因素同时影响热效应的时间变化。分离它们需要控制大量混杂，但许多混杂是不可观测的（如城市内部居民行为的改变）。目前瓶颈在于：缺乏一种既能控制未观测混杂、又不依赖强假设（如无主效应）的识别策略。
加性 vs 乘性交互，哪个更可靠？ 在流行病学归因框架下，加性交互（风险差尺度）通常更与公共卫生意义相关。但加性交互的估计对无主效应假设非常敏感（本文的核心发现）。目前瓶颈在于：如何在实践中判断“无主效应假设”是否合理——几乎没有实证指南。

⚠️ 作者的 framing¶

这是作者的说法： * “两阶段方法是一个常见策略”，但“近来尽管有研究采用纵向方法（即城市固定效应），但控制时不变混杂是罕见的。”（Abstract） * “我们测试了遗漏一个与 AC 和热效应时间趋势都相关的时不变混杂（距海岸距离）的影响。”（Methods） * “我们假设 AC 对死亡率无主效应，这在一项次要分析中放宽，以评估两阶段方法对该假设的依赖。”（Abstract）—— 作者把这一定性为“次要分析”，但在我的解读中，这恰恰是本文最关键的发现之一，因为它同时影响了加性和乘性交互。

作者淡化的竞争路线：作者没有系统性地讨论 基于结果的回归（outcome regression） 替代两阶段方法的可能性 —— 即直接在一个模型中嵌入所有城市、所有年份、温度-AC 的三方交互项。这种单步模型如果采用城市-年份固定效应，理论上可以控制时不变混杂，但会在计算上很昂贵，且需要处理高维交互项的过拟合。作者选择回避这一讨论，可能是因为本文的核心在于揭示已存在方法的弱点，而非推荐新方法。

什么明显该被引却可能被忽略了：作者没有引用 VanderWeele & Robins (2007) 关于交互作用识别中无主效应假设的经典论文；也没有引用 Robins (1986) 关于 G-computation 与交互作用识别的关联。这些文献会为本文的“无主效应假设”提供更正式的理论支撑，也有助于将本文的模拟结果上升到识别理论层面。用户可以去查证：如果引用了这些文献，本文的核心发现（无主效应假设被违反时加性交互偏倚）会显得更“可预期”而非“意外”。

张力¶

未发现明显对立的引用。所有引用的工作基本在“两阶段方法是主流”和“需要考虑时不变混杂”上形成共识，但共识的程度不同：实证工作倾向于忽略混杂（更关注效果估计的精度和比较），而本文是少数系统性测试偏倚的模拟研究。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：符号、模型、可观测数据¶

符号： - \( Y_{it} \) ：城市 \( i \)（\( i=1,\dots,40 \)）在第 \( t \) 天（\( t=1,\dots,T_i \)，约 365×11=4015 天）的每日超额死亡数（可观测，泊松分布负二项分布近似）。 - \( T_{it} \) ：城市 \( i \) 在第 \( t \) 天的温度暴露（可观测，如每日最高温度 / 平均温度）。 - \( AC_i \) ：城市 \( i \) 的空调普及率（可观测，时间不变，取值 0~1 的连续变量）。 - \( C_i \) ：城市 \( i \) 的一个时不变混杂（如距海岸距离，不可观测的潜在变量，本文通过模拟设定为距海岸距离）。 - \( \beta_i(t) \) ：城市 \( i \) 在第 \( t \) 年热效应的时间变化斜率。这是阶段一的待估参数，并非直接可观测。 - \( \tau_i \) ：城市 \( i \)，时间趋势（如年份）与热效应的交互作用项，即 “热效应每年变化多少”。这是阶段二的因变量。 - \( \gamma_{AC} \) ：AC 与热效应时间变化之间的乘性交互作用（阶段二 meta 回归的系数，log-rate 尺度）。 - \( \delta_{AC} \) ：AC 与热效应时间变化之间的加性交互作用（阶段二 meta 回归的系数，rate difference 尺度，通过将泊松模型的线性预测结果变换到绝对风险差得到）。 - \( \theta_{AC} \) ：AC 对死亡率的主效应（假定为 0，在次要分析中放松）。

模型： - 阶段一（每个城市一个模型）：日内水平，泊松（或负二项）回归：

\[\log \mathbb{E}[Y_{it}] = \alpha_0 + f(T_{it}; \text{spline}) + \beta_i(t) \times \text{year}_t + \text{time confounders (seasonality, trend)} + \text{offset (population)}\]

其中 \( \beta_i(t) \) 允许是一个函数（这里简化为线性：\( \beta_i(t) = \tau_0 + \tau_i \cdot \text{year}_t \)），即热效应随时间呈现线性趋势。实际上，本文的模拟使用的模型更灵活（允许分段趋势），但核心概念上，阶段一最终输出的是一个每个城市的热效应时间斜率估计值（记为 \( \hat{\tau}_i \)）和它的标准误。 - 阶段二（跨城市 meta 回归）： - 乘性（多水平 meta 回归）：

\[\hat{\tau}_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \gamma_C \cdot C_i + \epsilon_i\]

这里 \( \gamma_{AC} \) 就是 AC 与热效应时间趋势的乘性交互作用（log-rate 尺度）。 - 加性：将阶段一估计的 \( \hat{\tau}_i \) 通过“泊松均值对年份的梯度”变换到绝对风险差尺度，等同视因变量，然后拟合一个类似的 meta 回归，得到 \( \delta_{AC} \)。 - 数据生成机制（DGM，simulation 中的设定）：

\[\log \mathbb{E}[Y_{it}] = \alpha_0 + f(T_{it}; \text{spline}) + [\tau_0 + \tau_i \text{year}_t] \times \text{heat indicator} + \text{seasonality} + \text{pop offset}\]

其中 \( \tau_i \) 由下式生成：

\[\tau_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \gamma_C \cdot C_i + \epsilon_i\]

而 \( AC_i \) 和 \( C_i \) 是模拟生成的、相关的变量（相关系数 0.6 或 0.9，反映强的相关以制造混杂）。注意 DGM 中的 \( \tau_i \) 是真实的潜在参数，不是估计量。阶段一模型可能是误设的（如果没包含 \( C_i \)），导致 \( \hat{\tau}_i \) 对 \( \tau_i \) 的估计有偏。

可观测数据： - 研究者实际能观测到的是：每个城市每天的超额死亡数 \( Y_{it} \)、温度 \( T_{it} \)、时间变量（day of year, year）、空调普及率 \( AC_i \)（城市层面，时间不变）。 - 研究者观测不到但希望知道的是：真实的 \( \tau_i \)（热效应的时间变化）以及混杂变量 \( C_i \)（距海岸距离，在这个模拟中是真正的混杂）——实际上，在模拟研究中作者可以设定 \( C_i \) 的值，但在真实数据中它是不可观测的。所以，在一项真实的两阶段分析中，研究者只能将阶段二模型设为 \( \hat{\tau}_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \epsilon_i \)（遗漏了 \( C_i \)），这就是偏倚源。

第二步：讲最小内核¶

最简特例：我们考虑只有一个年份（或一个时间窗口），热效应不随时间变化（即 \( \beta_i(t) = 0 \)，无时间趋势）。那么阶段一就测不出任何时间变化，问题退化为静态交互作用估计。

但这不是本文的核心。更贴切的最简特例是只有两个时间点（如 year 1 和 year 10），热效应从 \( \tau_i^{year1} \) 变为 \( \tau_i^{year10} \)，我们想估计 AC 如何改变这个增长。此时，阶段一简化为： - 每个城市，比较 year 10 和 year 1 的热效应（通过一个简单的交互项 estimate），得到一个差值 \( \Delta_i = \tau_i^{year10} - \tau_i^{year1} \)。 - 然后，stage-2 回归 \( \Delta_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \epsilon_i \)。

核心偏倚机制（最小内核）：假设 DGM 是真模型：

\[\Delta_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \gamma_C \cdot C_i + \epsilon_i\]

且 \( Cor(AC_i, C_i) = \rho \neq 0 \)。

如果研究者遗漏了 \( C_i \)，在多城市数据中做 OLS回归 \( \Delta_i = \gamma_0 + \gamma_{AC} \cdot AC_i + \xi_i \)，则基于经典遗漏变量偏倚公式：

\[\text{Bias}[\hat{\gamma}_{AC}] = \gamma_C \cdot \frac{Cov(AC, C)}{Var(AC)} = \gamma_C \cdot \beta_{C\sim AC}\]

其中 \( \beta_{C\sim AC} \) 是 \( C \) 对 \( AC \) 的最小二乘回归斜率。

这就是整篇论文的核心数学内核：一个标准的 OLS 遗漏变量偏倚公式。在这个最简例子下，“偏倚由混杂变量的主效应强度 \( \gamma_C \) 和 AC-混杂的相关性（即 \( \beta_{C\sim AC} \)）共同决定”这个结论一目了然。

然而，本文的模拟不是单步 OLS，而是两阶段估计——阶段一引入测量误差（\( \hat{\Delta}_i \) 对 \( \Delta_i \) 有抽样误差），阶段二是加权 meta 回归。但 偏倚的机制没有改变：只要遗漏变量 \( C_i \) 同时与 \( AC_i \) 和 \( \hat{\Delta}_i \) 的期望相关，\( \hat{\gamma}_{AC} \) 就有偏。本文的核心告诉读者：即使你用城市固定效应（截距），只要各个城市的 \( \Delta_i \)（热效应时间变化）与 \( AC_i \) 的关联被 \( C_i \) 混杂，截距固定效应并不能挽救你——因为 \( C_i \) 是城市层面、时间不变的，而 \( \Delta_i \) 是跨城市的差异。

加性交互的特例偏倚比乘性交互更糟糕：当放开了无主效应假设（\( \theta_{AC} \neq 0 \)），加性交互的 meta 回归因变量变成了“热效应时间变化+AC主效应的部分”，导致 \( \hat{\delta}_{AC} \) 完全不捕获纯粹的交互作用，而是主效应与交互作用的混合。在这个最简特例下，无主效应假设的违反就等价于在 stage-2 方程中增加了一个与 \( AC_i \) 相关的误差项，直接导致偏倚——这正是本文在次要分析中发现“所有模型在加性交互上均存在偏倚”的数学原因。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：基于40个美国城市1988-1998年的每日温度与实际空调普及率，本文通过大规模模拟系统评估了遗漏一个与空调使用和热效应时间趋势都相关的时不变混杂（距海岸距离），会导致两阶段方法在估计热-空调交互作用时产生多大偏倚，并特别关注乘性 vs 加性交互尺度以及无主效应假设的敏感性。
核心工具/方法：本文使用一个基于真实数据分布生成模拟数据的框架（a simulation-based sensitivity analysis），在6种场景（交互作用强度×混杂强度）中各生成40个城市的11年每日死亡数据，然后应用标准的两阶段方法（stage 1: 分布滞后非线性泊松回归；stage 2: 多水平 meta 回归，比较调整 vs 未调整混杂的模型），通过重复模拟评估偏倚。
主要结论：在假定 AC 对死亡率无主效应的前提下，未调整模型在4/4个混杂场景、调整模型仅在1/4个场景中存在偏倚；但一旦允许 AC 主效应非零，所有模型在加性交互上均出现偏倚（6/6场景）。结论强调了两阶段方法对遗漏时不变混杂的敏感性，以及其对无主效应假设的强依赖性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

设定： - 城市：40个城市（来源于美国，各有不同的真实温度序列与 AC 普及率，AC 普及率从 0.6 到 0.99 范围）。 - 时期：1988-1998（11年）。 - DGP：对每个城市 i，温度、时间混杂（Day of year, year）、模拟的 A C 普及率与 C（距海岸距离） 如第三节所述生成一个期望死亡数基数，并叠加超离散的泊松（负二项）噪声。关键的 DGM 参数（交互作用强度 \( \gamma_{AC} \)、混杂效应强度 \( \gamma_C \)）在6个场景中系统化改变： - 交互作用强度：null（\( \gamma_{AC}=0 \)）和 protective（\( \gamma_{AC} < 0 \)，即 AC 越普及，热效应随时间下降越快）。由于是模拟，\( \gamma_{AC} \) 被设定为负的、中等大小。 - 混杂强度：null（\( \gamma_C = 0 \)）、weak（\( \gamma_C \) 小）、strong（\( \gamma_C \) 大）。并且 \( Cor(AC, C) \) 设为 0.6 （强）。

关键假设： 1. 无主效应假设（Null main effect of AC on mortality）：这是本文最核心的假设。在 DGM 中设定 \( \theta_{AC}=0 \)；在次要分析中放松到 \( \theta_{AC} \neq 0 \)（AC 对死亡率有直接影响）。注意，这个假设不是来自数据，而是来自效应分解的需要——如果 AC 有主效应，则阶段二估计的“交互”实际上混合了主效应和真正的交互。 2. 效应同质性假设：阶段一的模型假定热效应是时间上线性的趋势（每年变化率相同）。本文没有测试“热效应是阶梯式变化”或“出现一次结构突变”的情况——这些在真实数据中可能更常见（例如一次极端热浪事件导致的行为改变）。用户可以去思考：如果时间趋势是非线性的，两阶段方法的偏倚会如何变化？ 3. 无测量误差假设（关于 AC 普及率）：AC 普及率被假定为无测量误差的城市级已知数。在真实数据中，AC 数据来自普查或抽样调查，测量误差很大，这可能扭曲偏倚模式——但本文未触及。 4. 无空间相关性假设：模拟中各城市独立；但真实城市间可能存在空间相关性（相邻城市的 AC 与天气相关），这可能导致低估阶段二标准误，但本文未考虑。

相比已有文献的差异： - 相比于 Gasparrini et al. (2015) 等实证估计，本文提供了直接的偏倚量化，而不是点估计和置信区间。 - 相比于 VanderWeele & Ding (2017) 的 E-value（事后敏感性分析），本文是一种事前模拟研究，可以系统改变参数。

主要结果（量化结论）¶

核心量化结果（基于500次模拟重复）——作者在文中报告了Bias（估计量的期望值减去真实值），并使用statistically significant bias（即 \( p < 0.05 \) 的双侧检验是否拒绝无偏假设）作为偏倚存在的标志。

数据生成场景结构：2（交互作用：null vs protective）× 3（混杂：null, weak, strong）= 6个场景。对每个场景，还比较未调整（模型仅含 AC）和调整（模型含 AC 和 C）的阶段二模型。
主要结果表（Table 4，本文结果的核心）：

场景	交互作用	混杂	乘性交互：未调整	乘性交互：调整	加性交互：未调整	加性交互：调整
1	Null	Null	无偏倚	无偏倚	无偏倚	无偏倚
2	Null	Weak	有偏倚	无偏倚	有偏倚	无偏倚
3	Null	Strong	有偏倚	有偏倚	有偏倚	有偏倚
4	Protective	Null	无偏倚	无偏倚	有微小偏倚（注：作者称“slightly biased”）	无偏倚
5	Protective	Weak	有偏倚	无偏倚	有偏倚	无偏倚
6	Protective	Strong	有偏倚	无偏倚	有偏倚	无偏倚

结论（在无主效应假设下）： - 未调整模型（仅包含 AC）在 4/4 个混杂场景（场景2、3、5、6）中都产生有显著偏倚的结果，不管交互作用尺度。 - 调整模型（包含 AC 和 C）仅在 1/4 个混杂场景（场景3，最强混杂情况）中存在有偏倚。这符合预期：当调整了混杂变量 C，偏倚应被消除。 - 在无混杂场景（场景1、4），未调整和调整模型都表现良好（加性交互在场景4未调整时“slightly biased”）。

最重要的次要分析（开放无主效应假设）： - 当允许 AC 对死亡率有非零的主效应（即 \( \theta_{AC} \neq 0 \)），所有模型（未调整和调整）在加性交互的估计上都有显著偏倚（6/6场景）。作者的表述是：“当允许非零主效应时，加性交互估计在所有场景中都是有偏倚的。”（Section：“Relaxing the assumption of no main effect”） - 这个发现给流行病学实践投下阴影：加性交互估计只有在“无主效应假设”成立时才可靠；否则，即使你调整了所有可观测的混杂，也可能得到有偏的交互作用估计。而“无主效应假设”在真实数据中几乎是不可能检验的（AC 的普及可能与许多健康改善因素相关）。

应用/方法方面（真实例子）¶

本文没有使用“真实数据分析”作为应用案例，但它的数据生成是完全基于真实数据的： - 温度数据：40个城市的真实每日温度（来源于NADC）。 - AC普及率：来自美国普查数据，城市级的时间不变估计。 - 混杂C（距海岸距离）：这是一个从城市地理坐标计算出的真实变量，但在阶段一和阶段二的数据分析中，C是故意隐藏的（在未调整模型中不包含它）。这个设定非常巧妙：因为距海岸距离在真实数据中是可观测的，但作者将其用作“不可观测混杂的替身”——这允许作者直接比较“观测到C”和“观测不到C”的情况，从而量化偏倚。

模拟步骤： 1. 生成 DGM 参数：基于真实AC和C，生成每个城市的热效应时间斜率 \( \tau_i = f(AC_i, C_i) + noise \)。 2. 生成死亡数据：对每天、每个城市，基于温度序列、时间指标、和真实 \( \tau_i \)，生成每日死亡计数。 3. 应用两阶段方法： - 阶段一：对每个城市数据，拟合一个未包含C的泊松回归（即研究者不知道混杂的存在），产出估计的 \( \hat{\tau}_i \) 和标准误。 - 阶段二：运行未调整（仅含AC）和调整（含AC和C）的meta回归。 4. 比较：重复500次，计算每个城市/每个模型的 \( \hat{\gamma}_{AC} \) 的Bias和MSE。

这个例子想说明什么： - 它验证了理论偏倚公式（即未调整模型的偏倚 = \( \gamma_C \times \beta_{C\sim AC} \)）在复杂的DLNM和两阶段多水平设定下依然成立。 - 更定量地，它展示了在弱混杂（weak confounding）时，标准误的增大会掩盖偏倚的统计显著性，而强混杂（strong confounding）时偏倚绝对大小不可接受。 - 它证实了“创伤性混杂”——即使调整模型，当混杂效应非常大（场景3）时，调整模型仍然出现偏倚。这个问题可能源于阶段一模型的误设（例如因果关系方向错误、滞后结构错误等）或有限样本问题，但本文未进一步深挖。

🔎 结论是否比证明窄¶

本文的结论基本与模拟范围一致，但在以下几个方面需要读者警惕过度泛化： 1. “两阶段方法对遗漏时不变混杂敏感” —— 这个结论只基于一个混杂变量（距海岸距离），且该混杂与AC的相关性固定为0.6。如果混杂与AC的相关性更弱（如0.2），偏倚可能被掩盖在自由噪声中，结论可能变成“对遗漏混杂不敏感”。作者没有测试不同相关系数（如0.2或0.9）的敏感性。 2. “依赖于无主效应假设” —— 这个发现被作者描述为“次要分析”，但其实际影响（6/6场景偏倚）表明它其实应该是本文最重要的发现之一。作者没有在 abstract 或结论中给它足够突出地位（或许是自我审查或期刊要求）。用户应该自己判断：作者是否低估了这一点？或者这是针对流行病学社区的补救措施——他们更习惯于使用乘性交互，对加性的敏感性不太关心？ 3. 模拟中的“加性交互”估计 —— 加性交互的估计是通过泊松模型预测的对死亡人数差异来计算的。如果在阶段一中没有估计一个错误的链接或过度离散假设（例如用准泊松代替负二项），可能对加性交互的偏倚模式非常敏感。但本文未检查模型误设（模型选择）对加性交互偏倚的影响。

四、开放问题（点到为止，扎根具体语句）¶

时变混杂下的两阶段方法性能：本文只考虑了时不变混杂（城市特性）。但在真实数据中，影响热效应时间趋势的混杂可能是随时间变化的（如城市绿化率、健康保健政策的改变、人口老龄化）。这些时变混杂可能很难用城市固定效应控制。本文结果能否推广到时变混杂？（扎根于“只用一个时不变混杂 \( C_i \)”的模拟设计。）
当热效应的时间趋势是非线性时，偏倚会如何变化？ 作者在模拟中使用了热效应随时间线性变化的模型（year×heat交互项）。但真实热效应可能在特定年份（如1995年芝加哥热浪）出现跳跃式上升或饱和。如果时间趋势是非线性的，遗漏混杂的偏倚方向可能反转或放大。这个问题是“本文结果对更复杂的DGM的鲁棒性如何？”（扎根于阶段一模型设定中的“线性趋势”假设。）
如何对两阶段方法的加性交互进行“后验”敏感性分析？ 本文通过模拟指出了危险区域（无主效应假设）。但在真实数据中，研究者不能运行模拟。我们可以开发一个新的敏感性分析（例如，扩展 VanderWeele-Ding 的 E-value 到两阶段加性交互场景），而不需要模拟整个时间序列。这个敏感性分析会基于一阶段估计的协方差矩阵和已知的 AC-混杂相关性吗？（扎根于结论：“一旦无主效应假设被放宽，加性交互的估计在所有模型中均存在偏倚。”）
AC无主效应假设的检验：在真实数据分析中，AC的主效应是无法直接估计的（因为AC是城市层面、时间不变的，被城市固定效应吸收）。能否通过辅助变量（譬如市政补贴、电力消费数据）或地区间差异的IV来检验这个假设？这个问题指向了更广泛的“无主效应假设的验证性检验”缺口。（扎根于作者在次要分析中对主效应的处理。）

Maintained by 陈星宇 · Homepage · Source on GitHub