Distributed lag models for retrospective cohort data with application to a study of built environment and body weight¶

作者: Jennifer F Bobb, Stephen J Mooney, Maricela Cruz, Anne Vernez Moudon, Adam Drewnowski et al.
来源: Biometrics
主题: 流行病学
相关性: 4/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae166

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计/科学问题是：在回顾性队列研究中，当个体暴露历史的时间长度不一致（常见于电子健康档案等不规则随访数据）时，如何准确估计暴露在不同滞后时间点上的效应，以及整个暴露历史的累积效应，同时避免因截断暴露历史而引入的混杂偏倚。当前该方向的成熟度处于方法初步成型阶段：分布式滞后模型（DLM）在时间序列/环境流行病学中已是标准工具，但在个体层面纵向队列数据上的应用与理论适配刚刚起步，尤其是对缺失/不等长暴露历史的处理尚无共识。

发展脉络： - 奠基工作：DLM在时间序列领域的确立。Zeger et al. (1999) 与 Schwartz (2000) 等将DLM引入环境流行病学的时间序列数据，处理短期（如日均）污染暴露的滞后分布。此时数据结构高度规则（每人都有完整的暴露序列），核心挑战是滞后间的多重共线性。 - 主要进展：从时间序列向纵向/队列数据的迁移。Gasparrini et al. (2010) 提出分布式滞后非线性模型（DLNM），将DLM推广到非线性暴露-滞后-响应曲面，但仍主要面向时间序列或具有完整随访的队列。Warren et al. (2020) 开始在纵向队列中应用DLM，但默认要求个体具有完整的暴露历史。 - 当前 frontier 与缺口：不规则随访与不等长暴露历史。当使用EHR等现实数据时，个体入组时间不同、随访长度不一，导致远端滞后期的暴露数据大量缺失。当前标准做法是定义一个具有最小暴露历史的子队列，但这直接导致样本量折损，且作者在文中明确指出：子队列方法会因远端相关暴露的混杂而产生偏倚。本文即填补此缺口：提出全队列方法，利用多重插补补全暴露历史，在估计最长滞后期效应的同时规避混杂偏倚。

子线索聚类： 1. DLM的参数化与惩罚：聚焦于如何约束滞后间的共线性。典型做法是使用惩罚样条或二次惩罚约束滞后系数平滑变化（如 Almon 滞后、惩罚DLM），本论文沿用了这一路线。 2. 缺失数据与插补机制：聚焦于如何处理暴露历史中的缺失值。本论文将多重插补（MI）与DLM结合，先插补出完整的暴露矩阵，再在完整数据上拟合DLM，并用Rubin法则合并结果。 3. 混杂结构在滞后维度上的表现：聚焦于因果识别。子队列截断暴露历史后，远端滞后期暴露的缺失使得无法将其纳入模型控制，而远端暴露往往与近端暴露高度相关且自身可能是混杂因素，从而产生遗漏变量偏倚。

这个方向在追问的核心问题： 1. 如何在不等长暴露历史下，无偏且高效地估计最长可达滞后期暴露的效应？ 2. 截断暴露历史（子队列法）在何种数据生成机制下会引入混杂偏倚，偏倚方向与大小如何？ 3. 如何将插补的不确定性正确传播到滞后效应与累积效应的估计中？

⚠️ 作者的 framing：作者将缺口 frame 为"子队列法既损失功效又放大选择偏倚/混杂偏倚"，从而让"利用全队列+多重插补"成为显然的下一步。被淡化或回避的竞争路线包括：1) 使用加权方法调整子队列的选择偏倚而非插补；2) 在DLM框架内直接进行部分似然估计而不借助MI；3) 因果推断视角下的g-formula或IPW类纵向方法。明显该被引却未出现的文献：Robins (1986) 的g-formula及其后续在纵向因果推断中的发展（如 VanderWeele 的纵向混杂调整），这些方法同样处理随时间变化的暴露与混杂，且对缺失数据有更严格的因果缺失机制讨论；此外，针对高维纵向暴露的半参数效率理论文献也未出现。

张力：未见明显对立引用。但存在隐性张力：时间序列DLM依赖的"无时间依赖混杂"假设（通过控制时间趋势/天气实现），在回顾性队列中转化为"无个体层面的时变混杂"假设，后者远难满足，而本文的模拟与实证均未正面处理时变混杂的因果识别问题，仅处理了固定/基线混杂。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与指标：
\(i = 1, \dots, N\)：个体索引；\(N\) 为总样本量。
\(t\)：时间索引（如年份），\(t = 1, \dots, T\) 为研究覆盖的总时间跨度。
\(\ell = 0, 1, \dots, L\)：滞后索引，\(\ell=0\) 为同期暴露，\(L\) 为最大滞后期。
\(Y_i\)：个体 \(i\) 的结局变量（如体重，通常为连续或二值）。
\(X_{it}\)：个体 \(i\) 在时间 \(t\) 的暴露量（如居住密度）。
\(C_i\)：个体 \(i\) 的基线/固定混杂向量。
\(T_i\)：个体 \(i\) 的随访长度或暴露历史长度（各人不同，\(T_i \le T\)）。
模型（分布式滞后模型 DLM）：假设结局与暴露历史的关系为线性DLM：
\[Y_i = \alpha + \sum_{\ell=0}^{L} \beta_\ell X_{i, t_0 - \ell} + \gamma^T C_i + \epsilon_i\]
其中 \(t_0\) 为结局测量时间，\(\beta_\ell\) 为滞后 \(\ell\) 的暴露效应，\(\epsilon_i\) 为独立误差。累积效应定义为 \(\sum_{\ell=0}^{L} \beta_\ell\)。为解决滞后间的共线性，对 \(\{\beta_\ell\}\) 施加平滑惩罚（如惩罚样条或二次惩罚）。
可观测数据与缺失结构：研究者实际能观测到的是：对每个个体 \(i\)，有结局 \(Y_i\)、基线混杂 \(C_i\)，以及仅在随访期 \([t_0 - T_i + 1, t_0]\) 内的暴露序列 \(\{X_{it}\}\)。对于 \(t < t_0 - T_i + 1\)（即远端滞后期 \(\ell \ge T_i\)），暴露 \(X_{i, t_0 - \ell}\) 是不可观测/缺失的。想要但观测不到的是完整的暴露历史 \(\{X_{i, t_0 - \ell}\}_{\ell=0}^{L}\)，只能靠插补或截断来处理。

第二步：最小内核——子队列截断为何产生混杂偏倚

剥掉所有惩罚、样条、MI的Rubin法则等外壳，支撑整篇论文的最小内核是一个遗漏变量偏倚问题：

最简特例：设最大滞后 \(L=1\)，结局 \(Y_i\)，混杂 \(C_i\)，暴露在滞后0与滞后1均存在。真实数据生成机制：

\[Y_i = \alpha + \beta_0 X_{i, t_0} + \beta_1 X_{i, t_0-1} + \gamma C_i + \epsilon_i\]

且远端暴露 \(X_{i, t_0-1}\) 与近端暴露 \(X_{i, t_0}\) 存在相关性（如居住密度随时间高度自相关），同时 \(X_{i, t_0-1}\) 与 \(C_i\) 也相关（如基线健康状况影响过去的居住选择）。

现在，部分个体的随访长度 \(T_i=1\)，他们缺失 \(X_{i, t_0-1}\)。子队列法的做法是：仅保留 \(T_i \ge 2\) 的个体，在子队列上拟合不含 \(X_{i, t_0-1}\) 的错误模型：

\[Y_i = \alpha' + \beta_0' X_{i, t_0} + \gamma' C_i + \epsilon_i'\]

由于 \(X_{i, t_0-1}\) 被遗漏，且它与已纳入模型的 \(X_{i, t_0}\) 和 \(C_i\) 均相关，根据经典遗漏变量偏倚公式，\(\beta_0'\) 的偏倚为 \(\beta_1 \cdot \text{Coeff}(X_{i, t_0-1} \mid X_{i, t_0}, C_i)\)。即使子队列的样本量极大，这个偏倚也不会随 \(N \to \infty\) 消失。

全队列方法如何破局：对 \(T_i=1\) 的个体，用多重插补（基于 \(T_i \ge 2\) 个体暴露序列的自相关结构及基线变量）补全 \(X_{i, t_0-1}\)，然后在全样本上拟合包含 \(X_{i, t_0-1}\) 的完整DLM。只要插补模型正确刻画了 \(X_{i, t_0-1} \mid X_{i, t_0}, C_i\) 的分布，遗漏变量偏倚即可消除，且因利用了 \(T_i=1\) 个体提供的 \(Y_i, X_{i, t_0}, C_i\) 信息，估计效率更高。

这个最小内核揭示了：本文的核心数学困难不是DLM的参数估计，而是如何在缺失远端暴露的条件下，恢复对远端混杂的控制。

三、这篇论文做了什么¶

三句话： ① 研究了回顾性队列中不等长暴露历史下分布式滞后模型（DLM）的估计问题； ② 核心方法是全队列分析结合多重插补（MI）补全缺失暴露历史； ③ 主要结论是子队列法因遗漏远端相关暴露导致偏倚，而全队列MI-DLM可消除此偏倚并高效估计滞后与累积效应。

关键设定与假设：在第二节记号基础上补全： - 假设1（DLM线性结构）：暴露-滞后-响应为线性可加，未考虑非线性交互（相比 DLNM 的非线性曲面是简化）。 - 假设2（惩罚平滑）：滞后系数 \(\{\beta_\ell\}\) 随 \(\ell\) 平滑变化，施加惩罚样条约束，以缓解滞后间共线性。 - 假设3（暴露缺失机制）：暴露历史的缺失取决于随访长度 \(T_i\)，而 \(T_i\) 与结局 \(Y_i\) 的关系仅通过基线混杂 \(C_i\) 及已观测暴露中介（即假设为可忽略缺失，Missing At Random given observed data）。相比已有文献，本文显式刻画了 \(T_i\) 导致的缺失模式，并指出若 \(T_i\) 与远端暴露直接相关且不通过已观测变量中介，MI将失效。 - 假设4（无时变混杂）：模型仅控制基线混杂 \(C_i\)，假设不存在随时间变化且影响当期暴露与结局的时变混杂。这在因果推断视角下是强假设，本文未放宽此假设。

主要结果： - 模拟结果1（子队列偏倚）：在暴露具有高自相关且远端暴露为混杂的设定下，子队列法（截断至最小暴露历史）估计的近端滞后效应 \(\beta_0\) 存在不可忽视的偏倚，偏倚方向取决于远端混杂效应 \(\beta_L\) 与自相关方向；全队列MI法偏倚趋近于0。 - 模拟结果2（效率）：全队列MI法在估计累积效应 \(\sum \beta_\ell\) 时的标准误显著低于子队列法，因样本量从子队列的 \(N_{sub}\) 恢复至全队列的 \(N\)。 - 理论性质（隐含）：文中未给出严格的渐近一致性/效率界证明，但基于MI的理论（Rubin's rules），若插补模型与分析模型兼容，MI-DLM的估计在 \(N \to \infty\) 且插补次数 \(M \to \infty\) 下为无偏且渐近正态。

证明路线与技术技巧：本文为方法/应用型，无严格定理证明，但其方法设计有明确的技术路线： - 整体路线： 1. 刻画缺失模式：根据每个个体的随访长度 \(T_i\)，确定其暴露矩阵中哪些滞后期为缺失。 2. 多重插补暴露历史：利用具有完整暴露历史的子集，拟合暴露序列的自回归/纵向模型，对缺失的远端暴露进行 \(M\) 次插补，生成 \(M\) 个完整的暴露数据集。 3. 在每份完整数据上拟合惩罚DLM：使用惩罚样条约束 \(\{\beta_\ell\}\) 的平滑性，估计滞后效应。 4. Rubin法则合并：将 \(M\) 次DLM估计的结果合并，点估计取平均，方差为插补间方差与插补内方差的加权和。 - 关键跳跃点：如何确保插补模型与分析模型（DLM）的兼容性。若插补模型未包含结局 \(Y_i\)，则插补出的暴露分布无法反映暴露与结局在远端滞后期上的真实关联，导致偏倚。本文在插补模型中纳入了结局变量，这是保证MI-DLM无偏的关键。 - 技术技巧点名： - 多重插补：用于处理暴露矩阵的不规则缺失，生成完整数据。 - 惩罚样条：用于约束DLM滞后系数的平滑性，解决滞后暴露间的多重共线性。 - Rubin's combining rules：用于合并多次插补下的DLM估计与方差，正确传播插补不确定性。

真实例子与应用： - 数据/场景：Kaiser Permanente Washington的回顾性队列，约 \(N=4000\) 个体，随访跨度最长12年。暴露为居住密度（walkability代理），结局为体重（BMI/肥胖）。 - 如何用上去：对每个个体，提取其入组前至当前随访期内的居住密度序列，随访不足12年的个体远端居住密度缺失。使用全队列MI-DLM估计滞后0至12年的居住密度对体重的效应。 - 得到什么结果：滞后1-2年的居住密度对体重有即时负效应（密度越高，体重越低）；滞后12年（最远端）也呈现负关联。 - 想说明什么：验证全队列方法能检测到子队列法因样本量/偏倚而可能遗漏的远端效应；同时展示DLM在环境流行病学队列中的实操可行性。

🔎 结论是否比证明窄：本文的核心结论"全队列MI-DLM可避免子队列法的混杂偏倚"仅在模拟设定下验证，未给出严格的数学证明（如给出偏倚的显式表达式或渐近界）。文中对"远端暴露为混杂"的假设是结论成立的关键，但仅在模拟中设定了特定自相关结构，未穷举所有可能的混杂/自相关模式。此外，关于插补模型与分析模型兼容性的讨论，文中仅提及在插补中纳入结局，但未证明这种纳入在DLM的惩罚估计下是否仍保证兼容。

四、开放问题（点到为止，扎根具体语句）¶

时变混杂的因果识别：本文DLM仅控制基线混杂 \(C_i\)，假设无时变混杂。若存在随时间变化的混杂（如中途发病影响后续居住选择与体重），DLM的系数不再具有因果解释。扎根点：文中假设4及讨论部分未提及g-formula/IPW等纵向因果方法的融合。
MI与分析模型的兼容性条件：在惩罚DLM（非线性约束）下，多重插补的兼容性条件是什么？常规MI的兼容性要求在无惩罚的线性模型下成立，但惩罚样条引入了偏倚，是否破坏兼容？扎根点：方法部分对插补模型包含结局的描述，未给出惩罚下的理论保证。
暴露缺失的非可忽略机制：若随访长度 \(T_i\) 与远端暴露直接相关（如因远端暴露水平而搬迁导致随访中断），MI的可忽略假设失效。此时全队列MI-DLM的偏倚方向与大小如何？扎根点：文中假设3及模拟仅考虑了可忽略缺失。
半参数效率界：在全队列不等长暴露历史下，估计累积效应 \(\sum \beta_\ell\) 的半参数效率界是什么？MI-DLM是否达到此界？扎根点：文中效率比较仅基于模拟的相对标准误，未触及理论效率界。

提醒：要确认上述问题是否为真gap，需检索近期5篇左右在纵向环境流行病学与因果推断交叉领域的intro——若均指向时变混杂与缺失机制，则为共识真gap；若互相打架，则为机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Distributed lag models for retrospective cohort data with application to a study of built environment and body weight¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论