跳转至

Time and Age as Longitudinal Timescales: Multiple Useful Models are Illuminating

作者: Michael E. Griswold, M. Maria Glymour
来源: Epidemiology
主题: 流行病学
相关性: 3/10
机构绿灯: Boston University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001869


一、领域脉络与小综述

这个方向是什么

纵向数据分析中,一个核心的方法论问题是:应该使用什么作为时间尺度?通常的候选包括“日历时间(time since baseline)”和“当前年龄(current age)”。这个问题看似简单,但它直接决定了如何分离个体内(within-person)老化效应个体间(between-person)横截面年龄差异,进而影响暴露效应估计的偏差与方差。这个子方向在流行病学、衰老研究与社会行为科学中已有数十年争论,但它远未解决,因为不同时间尺度隐含的模型假设——尤其是对均值与方差结构的约束——很少被显式地检验。当前成熟度:它已经产生了大量实证比较与建议(“两种都试试”),但缺乏一个统一的、基于统计决策理论的指导框架。

发展脉络(history)

根据本文的引言和参考文献,这个方向的发展可大致串成以下脉络:

  1. 奠基工作(1980s-1990s):早期工作(例如 Feinberg & Mason, 1985; Hoberaft 等人,1982)将年龄-时期-队列(Age-Period-Cohort, APC)模型引入研究视野,其核心问题在于线性地无法分离三个时间效应的唯一解。这个框架奠定了区分时间尺度的基础。与此同时,混合效应模型的兴起(Laird & Ware, 1982)为纵向数据的方差分解提供了工具,但注意力主要放在“时间”轴上。

  2. “时间” vs. “年龄”的争论(1990s-2010s):争论焦点逐渐落在“哪种时间尺度更好”。一些工作(例如 Singer & Willett, 2003; Hofer & Sliwinski, 2006)强调“时间”尺度(以研究基线为原点)可以干净地估计个体内变化,因为它避免了基线年龄混杂。另一些工作(例如 McArdle & Anderson, 1990; Bollen & Curran, 2006)则偏好“年龄”尺度(以个体实际年龄为时间轴),认为它更自然地对应生物老化进程,且能利用个体间信息来补充个体内信息,从而提高估计精度。这一阶段的主流建议是:根据研究问题与模型复杂性选择之一,少有系统性比较两者的偏差-方差权衡。

  3. 当前 Frontier(2020s):一个重要的发展是认识到“年龄”尺度实际上隐含了基线年龄系数等于时间系数的强制等式(见本文方程1b)。这个线性逻辑被 Galbraith & Bowden (2018) 等作者在工具变量方法中利用,但被本文的作者推广到通用纵向模型中。Hayes-Larson 等人(本期的论文)通过大规模多队列实证指出,两种模型经常给出相似的暴露效应估计,但“年龄”模型通常更精确。本文的位置正是站在这个前沿,将 Hayes-Larson 的实证发现上升为:通过将“年龄”分解为“age0 + time”,可以显式地检验这两个系数的等同性,从而将时间尺度选择问题归结为单维度的偏差-方差权衡决策,而不是二分法的选择。

子线索聚类

这些被引文献大致落在两条子线索上,但本文试图将它们统一:

  • 子线索 1:均值模型中的时间尺度选择(最主流)—— 这条线索关注的是均值函数 E(Y) 中,不同时间尺度的建模如何影响对暴露效应的点估计。包括 Singer & Willett (2003)、McArdle & Anderson (1990)、Hayes-Larson 等人(本文)。核心工具是线性混合模型或广义估计方程。本文的贡献是提供了一个代数框架(age = age0 + time),让检查强制等式成为可能。
  • 子线索 2:方差结构与随机效应设定 —— 这条线索关注的是,当“年龄”尺度被用于随机效应(如随机斜率)时,它隐含了哪些关于方差来源的假定。相关的很多工作来自多水平模型(multilevel model)文献(例如 Goldstein, 2011; Raudenbush & Bryk, 2002)。本文指出,使用“当前年龄”的随机斜率模型,等同于将个体间基线年龄差异(age0)的方差与个体内时间变化(time)的方差强制相等,这是一个极强且极少被检验的假设。这个点在此前的讨论中常常被忽略。

这个方向在追问的核心问题

  1. 偏差与方差的权衡:在给定研究目的(如估计暴露效应)下,时间尺度的选择如何影响估计的偏差与方差?
  2. 强制等式的可检验性:“年龄”模型隐含的系数强制等式(β_age0 = β_time)是否成立?如果不成立,偏差有多大?
  3. 方差结构的分解:随机效应中时间尺度的选择是否施加了不合理的方差结构假设?这些假设如何影响对暴露效应的推断?

🙅 作者的 framing(必须明确标注成“这是作者的说法”)

作者将缺口 frame 成:时间尺度的争论本质上被错误地构造成了一个“二选一”问题。作者的论点是通过分解“年龄 = age0 + time”,将选择问题转化为一个单维度的偏差-方差权衡:选择一个自由度更低的受约束模型(“年龄”模型,强制 β_age0 = β_time)来获取精度,或是选择一个自由度更高的无约束模型(“age0 + time”模型)来避免潜在的偏差。作者认为“一个好统计学家应该同时检查多种模型并诊断为什么它们不同”。

被淡化的竞争路线 / 回避的张力: - 作者回避了任何关于 “哪个时间尺度本质上更科学” 的讨论(例如,从生物老化理论角度,“年龄”可能才是真正的因果时间尺度,而“日历时间”只是近似)。作者的整套论证纯粹基于统计的偏差-方差考虑,无视了潜在的因果结构假设。对于一个结构因果推断研究者来说,没有讨论测量误差、结果变量(记忆Z分数)的因果解释、以及选择偏倚是否是时变的,是主要的缺口。 - 明显该被引却没出现在 intro 里:虽然作者引用了 Age-Period-Cohort (APC) 文献,但更结构化的关于时间尺度选择在因果推断中的争议(特别是在中介分析或工具变量中)很少被直接引用,例如关于“时间”作为工具变量时的排除限制(exclusion restriction)假设。另一个缺口:讨论混合效应模型中visits (访问间隔随机性) 的计算问题(例如 irregularly spaced data)的文献(如 Diggle et al., 2002)没有被提及。

张力

未见明显对立引用。文章引用的工作(如 Hayes-Larson 的实证、Singer & Willett 的方法)之间没有直接冲突,而是互补地建构了讨论。作者自己的论点(强制等式的可检验性)是对这些工作的统一与深化。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号

    • Y:结果变量。这里是“记忆 z 分数”(Memory z-score),一个标准化的认知测试得分,数值越大表示认知功能越好。它是随机变量。
    • age:当前年龄。对每个人而言,age = age₀ + time,其中:
      • age₀:基线年龄(baseline age),是每个人在第一次评估时的年龄。它是一个个体间(between-person)的固定特征,是随机变量。
      • time:从基线到当前评估的时间(通常以年为单位)。它是个体内(within-person)的变化度量,是随时间变化的随机变量。
    • e4+:暴露变量(二值)。APOE ε4 等位基因携带者(e4+ = 1)与否(e4+ = 0)。
    • β:回归系数,是需要估的参数。βᵃ(age模型)和 βᵗ(age₀+time模型)是不同的。
    • N:总人数(21,913),T:总观测数(80,956)。
    • E(Y):结果变量的均值函数(条件期望)。
  • 模型

    • 核心设定:这是一个混合效应模型(linear mixed model, LMM)或广义估计方程(GEE)框架下的纵向研究。
    • 数据生成机制(隐式):假设结果 Y 在给定 i.i.d. 随机效应后是条件独立的。模型关注于均值结构 E(Y|age, age₀, time, e4+),并允许通过随机斜率来刻画个体间异质性。
    • 已知:age₀, time, e4+。
    • 要估的对象:暴露“APOE ε4”对认知衰老的轨迹差异(暴露组 vs. 非暴露组在斜率上的差)。
  • 可观测数据:研究者能实际观测到的是:

    • Y_{ij}:第 i 个个体在第 j 次访视时的记忆 z 分数。
    • age_{ij}:第 i 个个体在第 j 次访视时的实际年龄。
    • age0_{i}:第 i 个个体的基线年龄(一次观测)。
    • time_{ij}: 第 i 个个体在第 j 次访视距基线的时间。
    • e4+_{i}:个体 i 的遗传暴露(不随时间变)。

    重要的是:age₀ 是一个潜变量(latent variable),但我们直接观测到它的实现。time 是另一个潜变量,但也是直接观测的。“age = age₀ + time”的关系是恒等式,不是假设。问题是,当我们用 age 作为唯一时间轴时,我们错误地强制让 age₀ 和 time 对 Y 的效应相同。

第二步:讲最小内核

最简特例:假设我们有一个简化的线性模型,没有交互项(即,我们只关心APOE4对均值斜率的差异,而非截距项差异),时间是连续的。

  • 模型 A(“age”尺度): E(Y) = β₀ᵃ + β₁ᵃ * age + (β₂ᵃ + β₃ᵃ * age) * e4+ (这里的 β₁ᵃ 是 e4-组年龄的斜率,β₀ᵃ + β₂ᵃ 是 e4+组的截距,β₁ᵃ + β₃ᵃ 是 e4+组的斜率。)

  • 模型 B(“age₀ + time”尺度, 无约束): E(Y) = β₀ᵗ + β₁ᵗ * age₀ + β₂ᵗ * time + (β₃ᵗ + β₄ᵗ * age₀ + β₅ᵗ * time) * e4+

核心矛盾:因为 age = age₀ + time,模型 A 也可以写成: E(Y) = β₀ᵃ + β₁ᵃ * (age₀ + time) + (β₂ᵃ + β₃ᵃ * (age₀ + time)) * e4+ = β₀ᵃ + β₁ᵃ * age₀ + β₁ᵃ * time + (β₂ᵃ + β₃ᵃ * age₀ + β₃ᵃ * time) * e4+

比较模型 A 和模型 B,看出强制等式: - 在 Model A 中,age₀ 的系数(β₁ᵃ)和 time 的系数(也是 β₁ᵃ)必须相等,对 e4- 和 e4+ 组都是如此。 - 而在 Model B 中,这些系数可以自由变化:β₁ᵗ (age₀ 对 e4- 组) 通常不等于 β₂ᵗ (time 对 e4- 组)。

因此,最小内核的问题就是: 我们能否用一个模型(A)强迫 βᵃ(age₀) = βᵃ(time) 并因此牺牲可能的偏差,来获得方差减小?还是用模型(B)允许它们独立变化从而避免偏差,但承担方差增加的风险?

证明怎么走(针对这个最简特例): 1. 定义检验统计量:在模型 B 中估计 β₄ᵗ (e4+组的 age₀-效应) 和 β₅ᵗ (e4+组的 time-效应)。如果是比较暴露效应的差异(β₃ᵃ in Model A vs. β₅ᵗ in Model B),关键是: - Model A 给出的暴露差异效应 = β₃ᵃ。 - Model B 给出的暴露差异效应 = β₅ᵗ。

  1. 偏差分析:作者指出,当 β₁ᵗ ≠ β₂ᵗ 时(即强制等式不成立),β₁ᵃ 估计的是 β₁ᵗ 和 β₂ᵗ 的一个加权平均,通常方差更小但有偏差。具体地,如果对于 e4- 组和 e4+ 组,β₁ᵗ - β₂ᵗ 的差值相同(即在跨越人群时稳定的系统误差),那么在比较轨迹差异时,偏差会抵消(正如作者发现的那样)。

    • 关键公式:如果 β¹ᵗ_{e4-} - β²ᵗ_{e4-} = β¹ᵗ_{e4+} - β²ᵗ_{e4+} = δ 是一个常数,那么 Model A 的组间差异(β³ᵃ)等于 Model B 的组间差异(β⁵ᵗ)。证明是直接代数代入:β₃ᵃ = (β₁ᵃ + β₃ᵃ) - β₁ᵃ = (β₁ᵃ + β₃ᵃ) - β₁ᵃ,并且这两个加权的组合在计算差异时会消去共同的 δ。
  2. 结论:在这个最简线性特例下,模型 A 对暴露差异效应的估计是否一致且更精确,取决于混淆因素(age₀差异与 time差异的不平衡)对暴露组和非暴露组是对称的。如果是,Model A 是更优的选择(更精确)。如果不是,Model B 才是无偏选择。

目标:读者读完这一节,抓住核心:“年龄”模型的风险在于强迫两个效应相等,但好处是如果系统误差对称,差仍出噪音更小。


三、这篇论文做了什么(本次重心)

三句话

  1. 研究了什么问题:作者旨在阐明纵向分析中使用“时间(time)”和“年龄(age)”作为时间尺度的关系,并将其选择争论转化为一个可检验的模型选择问题,而不是一个“二选一”的哲学问题。
  2. 核心工具/方法:通过代数分解(age = age₀ + time),将“时间尺度选择”等价于对两个系数(age₀ 与 time)施加的强制等式 (β_age₀ = β_time) 的检验。作者将此决策系统地置于偏差-方差权衡的框架下,并拓展到均值模型与广义的随机效应设定。
  3. 主要结论:“年龄”时间尺度本质上将个体内(time)和个体间(age₀)的信息强制池在一起(估计相同系数),如果这两个效应相同,它比“时间”模型更精确;但如果存在不对称的混淆(比如不同代际的人老化速率不同),“年龄”模型会带来偏差。即使偏差存在,只要它对暴露组和对照组对称,暴露差异的估计仍可能无偏且更精确。作者强调,实践中的最优策略是同时检查多个模型并诊断为什么它们不同。

关键设定与假设

  • 设定:作者使用了 Hayes-Larson 等人的数据,合并三个队列的约 80,956 条观测记录,以记忆 z 分数 (Y) 为结果,APOE ε4 状态为暴露 (e4+),并调整性别和教育水平。
  • 假设
    • 隐含线性假设(开头一部分):为简化说明,作者大部分时间假设一个线性均值模型。但他们在第五节扩展到非线性(如使用限制性立方样条的非线性均值模型,GAM)。
    • 模型假设的明确性:文章的主要贡献不是提出新方法,而是解析现有模型的隐含假设。具体来说:
      • 均值假设:“当前年龄”模型强制 E(Y) 中 age₀ 与 time 的系数相等。
      • 方差假设:对混合效应模型,使用“当前年龄”的随机斜率项,等效于强制 age₀ 与 time 的随机系数方差相等(且在均值模型中强制两系数相等)。这是一个更强、更隐蔽的假设。
    • 无遗漏变量(隐性):论文没有明确提及因果识别假设。它假设模型中包含的协变量(性别、教育)已充分调整。这是一个很强的、但在该流行病学研究社区中常见的假设。
  • 与已有文献相比放宽/强化:略微强化了“年龄”模型的假设(指出的限制比文献通常承认的更严格)。放宽了对时间尺度优劣的单一判断(允许两个模型都有用)。

主要结果

本文并非提出一个全新的估计量,而是一个概念性与诊断性的框架输出。主要“量化结论”来自实证数据:

  1. 精确度增益:在纯线性模型下,使用“年龄”模型得到的 APOE4 轨迹差异的标准误比“时间”模型缩小了约 21% (SE 0.11 vs. 0.14)。
  2. 偏差-方差平衡的表征:对于线性模型,尽管“时间”模型下的个体内斜率(β₂ᵗ)与“年龄”模型下的基准线年龄效应(β₁ᵃ)不同(如 APOE4 阴性组中分别为 -0.38 vs. -0.62/decade),但由于两个系数在两组间以相同方式变化,轨迹差异的估计在两种模型中是相同的(-0.15 vs -0.09 SD/decade,但标准误从 0.14 降到 0.11)。这表明,虽然“年龄”模型下的个体轨迹估计有偏,但只要偏差在组间对称,组间比较(暴露差异)的估计是无偏且更精确的。
  3. 非线性模型的延伸:在非线性模型(如 GAM,使用限制性立方样条)中,年龄尺度模型也强制 f(age₀) 和 f(time) 的样条系数的特定配对(图3)。例如,若在“年龄”模型中使用了 quadratic(age),它在 age₀-time 二维空间里强制了一个与年龄交互项等价的二次项。
  4. 随机效应的诊断:方差分解显示,“年龄0 + 时间”模型(带两个独立的随机斜率)的拟合优度优于(或等同于)“年龄”模型(带一个随机斜率)。这是通过比较 AIC / BIC 等模型拟合指标实现的(见附录 G)。

证明路线与技术技巧

这是一个概念性/方法论的论文,不是严格意义上的定理证明。所谓的“证明”是代数与逻辑推导,立足于线性模型和混合效应模型的基础知识。

  • 整体路线(逻辑主干)

    1. 第一步:代数分解与偏差诊断。首先建立核心恒等式:age = age₀ + time。然后将常见线性模型(当前的“年龄”模型)的均值方程展开,揭示其强制相等(β₁ᵃ(age₀)= β₂ᵃ(time))的约束。
    2. 第二步:无约束参照模型。提出无约束模型“age₀ + time”,其中 age₀ 和 time 的系数是独立的(β₁ᵗ 和 β₂ᵗ)。
    3. 第三步:检验约束与权衡。指出可以通过检验 H₀: β₁ᵗ = β₂ᵗ 来判断“年龄”模型的约束是否合理。通过代数证明,如果两个模型在两组间的系统误差(来自 age₀ ≠ time 的差额)是对称的,则暴露差异的估计会等价。
    4. 第四步:拓展到非线性与随机效应。将同样的分解逻辑应用于(a)当均值结构中包含 age 的高阶项(二次型、样条)时,它如何转化成对 age₀ 与 time 两轴的复杂约束;(b)当使用随机斜率时,“age”模型强制了年龄的时间方差与基线年龄间的方差相等。
  • 关键跳跃点:最关键的技术洞察是代数恒等式 age = age₀ + time,以及它对方差列向量的连锁效应。也就是认识到:

    • 如果模型的随机斜率项(slope)等同于 β_random * age = β_random * (age₀ + time),那么这等效于对 age₀time完全相关的随机效应,且它们的方差相同。这在随机效应线性混合模型文献中是一个众所周知的、但极少被明确讨论的限制。作者敏锐地抓住这点,将它作为“方差结构中的强制等式”来解释。
  • 技术技巧点名

    • 代数分解与比较:核心工具,无新复杂度,但应用精准。
    • 隐含系数的显式化:通过将模型从 age 参数化改写为 (age₀, time) 参数化(通过已知恒等式),揭示出隐含的约束,是一种技巧。
    • 偏差-方差分解的经验展示:用实际数据的不同信息源(个体内 vs. 个体间)解释方差变化。

真实例子与应用

  • 用的什么数据/场景:合并了三个大型队列的长期随访数据(ARIC、BLSA、Mayo Clinic Study of Aging),总计 21,913 人,80,956 次观测,基线年龄 50-92 岁,最长 44 年随访。
  • 怎么把本文方法用上去:作者用三种不同的时间尺度模型(Age0, Time, Age)拟合单一目标模型,来检查线性斜率差异和标准误。然后,比较非线性(样条)模型图(图 3)。
  • 得到什么结果:如上节所述,图形和数值对比显示,“年龄”模型提供了更窄的置信区间(标准误减少21%),且组间差异估计与“年龄0+时间”模型的差异一致。图 3E-3F 进一步突出了非线性模型的等价性。
  • 这个例子想说明什么:主要想说明强制等式的实际可行性。它通过一个真实场景验证了理论框架—— 证明尽管“年龄”模型做了错误的假设,但由于偏差在组间对称,暴露效应差异的估计是无偏且更精确的。这凸显了作者的主要论点:不能仅仅因为一个模型假设错误就抛弃它,而应该诊断偏差的来源并评估其对推理的影响。

结论是否比证明窄

。 - 具体语句:文章广泛使用线性模型作为核心比喻(“We specify linear relationships here to clarify relations…”),并声称其结论对非线性模型和随机效应成立。但显然,对于非线性模型(如样条),“强制等式”不是一个简单的单系数检验,而是对高维样条基函数系数的复杂配对约束。作者在正文中只是用示意图(图3)展示这些约束的一般形式,并没有提供像线性情况那样简单的代数证明。这意味着结论的严格性(generalizability)在不同的情况下有不同的保障。 - 一个更具体的例子:文章认为,如果对“age”指定一个二次项(quadratic age),它等价于 (age₀ + time)²,从而诱导了 age₀、time 和 age₀time 之间的特定线性-二次关系。但实际拟合这种约束模型(通过像 SEM 那样约束方差矩阵)的方法被轻描淡写。这暗示作者的诊断建议(“检查β差异的大小”)在非线性情况下不是一个可行的简答检查*,而是一个复杂的模型比较过程(如使用 BIC/似然比检验)。因此,结论的有效性在实际工作中可能不如核心线性例子那样直接可用。

四、开放问题(点到为止)

  1. 暴露效应的方差非对称性问题:文中依赖的“抵消”条件——系统误差在暴露组和非暴露组对称——是一个关键的、但未被检验的假设。如何系统地检验 H₀: β¹ᵗ_{e4-} - β²ᵗ_{e4-} = β¹ᵗ_{e4+} - β²ᵗ_{e4+} ?这涉及三方交互检验,需要更复杂的假设检验程序,而不是一个简单的对比。扎根:文末“if the differences are the same for both groups … will cancel out”。

  2. 非线性模型下的约束检验:在“年龄”尺度下使用样条时,作者揭示了其隐含的、复杂的约束图(图3),但并没有给出一个通用的、可操作的约束形式,也没有讨论拟合这种约束模型的计算复杂性。这是自查改用于开放数据之前需要解决的缺口。扎根:第三节第七段“Figure 3 … show induced forms … but the estimated trajectories and differences … were similar …”。

  3. 从因果推断视角出发的模型选择:本文的整个框架是基于统计模型的偏差-方差权衡,完全回避了因果识别。在因果推断中,时间尺度选择可能显著改变安慰剂效应、混淆控制与处理效应的解释(例如,用age₀ 或 time 作为工具变量)。一个结构性的、基于潜在结果框架的模型选择标准(或敏感性分析框架)是什么?扎根:文中小节“an alternative model … (3a)”只讨论了统计形式而非因果假设。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论