Time and Age as Longitudinal Timescales: Multiple Useful Models are Illuminating¶

作者: Michael E. Griswold, M. Maria Glymour
来源: Epidemiology
主题: 流行病学
相关性: 3/10
机构绿灯: Boston University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001869

一、领域脉络与小综述¶

这个方向是什么¶

纵向数据分析中，一个核心的方法论问题是：应该使用什么作为时间尺度？通常的候选包括“日历时间（time since baseline）”和“当前年龄（current age）”。这个问题看似简单，但它直接决定了如何分离个体内（within-person）老化效应与个体间（between-person）横截面年龄差异，进而影响暴露效应估计的偏差与方差。这个子方向在流行病学、衰老研究与社会行为科学中已有数十年争论，但它远未解决，因为不同时间尺度隐含的模型假设——尤其是对均值与方差结构的约束——很少被显式地检验。当前成熟度：它已经产生了大量实证比较与建议（“两种都试试”），但缺乏一个统一的、基于统计决策理论的指导框架。

发展脉络（history）¶

根据本文的引言和参考文献，这个方向的发展可大致串成以下脉络：

奠基工作（1980s-1990s）：早期工作（例如 Feinberg & Mason, 1985; Hoberaft 等人，1982）将年龄-时期-队列（Age-Period-Cohort, APC）模型引入研究视野，其核心问题在于线性地无法分离三个时间效应的唯一解。这个框架奠定了区分时间尺度的基础。与此同时，混合效应模型的兴起（Laird & Ware, 1982）为纵向数据的方差分解提供了工具，但注意力主要放在“时间”轴上。
“时间” vs. “年龄”的争论（1990s-2010s）：争论焦点逐渐落在“哪种时间尺度更好”。一些工作（例如 Singer & Willett, 2003; Hofer & Sliwinski, 2006）强调“时间”尺度（以研究基线为原点）可以干净地估计个体内变化，因为它避免了基线年龄混杂。另一些工作（例如 McArdle & Anderson, 1990; Bollen & Curran, 2006）则偏好“年龄”尺度（以个体实际年龄为时间轴），认为它更自然地对应生物老化进程，且能利用个体间信息来补充个体内信息，从而提高估计精度。这一阶段的主流建议是：根据研究问题与模型复杂性选择之一，少有系统性比较两者的偏差-方差权衡。
当前 Frontier（2020s）：一个重要的发展是认识到“年龄”尺度实际上隐含了基线年龄系数等于时间系数的强制等式（见本文方程1b）。这个线性逻辑被 Galbraith & Bowden (2018) 等作者在工具变量方法中利用，但被本文的作者推广到通用纵向模型中。Hayes-Larson 等人（本期的论文）通过大规模多队列实证指出，两种模型经常给出相似的暴露效应估计，但“年龄”模型通常更精确。本文的位置正是站在这个前沿，将 Hayes-Larson 的实证发现上升为：通过将“年龄”分解为“age0 + time”，可以显式地检验这两个系数的等同性，从而将时间尺度选择问题归结为单维度的偏差-方差权衡决策，而不是二分法的选择。

子线索聚类¶

这些被引文献大致落在两条子线索上，但本文试图将它们统一：

子线索 1：均值模型中的时间尺度选择（最主流）—— 这条线索关注的是均值函数 E(Y) 中，不同时间尺度的建模如何影响对暴露效应的点估计。包括 Singer & Willett (2003)、McArdle & Anderson (1990)、Hayes-Larson 等人（本文）。核心工具是线性混合模型或广义估计方程。本文的贡献是提供了一个代数框架（age = age0 + time），让检查强制等式成为可能。
子线索 2：方差结构与随机效应设定 —— 这条线索关注的是，当“年龄”尺度被用于随机效应（如随机斜率）时，它隐含了哪些关于方差来源的假定。相关的很多工作来自多水平模型（multilevel model）文献（例如 Goldstein, 2011; Raudenbush & Bryk, 2002）。本文指出，使用“当前年龄”的随机斜率模型，等同于将个体间基线年龄差异（age0）的方差与个体内时间变化（time）的方差强制相等，这是一个极强且极少被检验的假设。这个点在此前的讨论中常常被忽略。

这个方向在追问的核心问题¶

偏差与方差的权衡：在给定研究目的（如估计暴露效应）下，时间尺度的选择如何影响估计的偏差与方差？
强制等式的可检验性：“年龄”模型隐含的系数强制等式（β_age0 = β_time）是否成立？如果不成立，偏差有多大？
方差结构的分解：随机效应中时间尺度的选择是否施加了不合理的方差结构假设？这些假设如何影响对暴露效应的推断？

🙅 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者将缺口 frame 成：时间尺度的争论本质上被错误地构造成了一个“二选一”问题。作者的论点是通过分解“年龄 = age0 + time”，将选择问题转化为一个单维度的偏差-方差权衡：选择一个自由度更低的受约束模型（“年龄”模型，强制 β_age0 = β_time）来获取精度，或是选择一个自由度更高的无约束模型（“age0 + time”模型）来避免潜在的偏差。作者认为“一个好统计学家应该同时检查多种模型并诊断为什么它们不同”。

被淡化的竞争路线 / 回避的张力： - 作者回避了任何关于 “哪个时间尺度本质上更科学” 的讨论（例如，从生物老化理论角度，“年龄”可能才是真正的因果时间尺度，而“日历时间”只是近似）。作者的整套论证纯粹基于统计的偏差-方差考虑，无视了潜在的因果结构假设。对于一个结构因果推断研究者来说，没有讨论测量误差、结果变量（记忆Z分数）的因果解释、以及选择偏倚是否是时变的，是主要的缺口。 - 明显该被引却没出现在 intro 里：虽然作者引用了 Age-Period-Cohort (APC) 文献，但更结构化的关于时间尺度选择在因果推断中的争议（特别是在中介分析或工具变量中）很少被直接引用，例如关于“时间”作为工具变量时的排除限制（exclusion restriction）假设。另一个缺口：讨论混合效应模型中visits (访问间隔随机性) 的计算问题（例如 irregularly spaced data）的文献（如 Diggle et al., 2002）没有被提及。

张力¶

未见明显对立引用。文章引用的工作（如 Hayes-Larson 的实证、Singer & Willett 的方法）之间没有直接冲突，而是互补地建构了讨论。作者自己的论点（强制等式的可检验性）是对这些工作的统一与深化。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Y：结果变量。这里是“记忆 z 分数”（Memory z-score），一个标准化的认知测试得分，数值越大表示认知功能越好。它是随机变量。
- age：当前年龄。对每个人而言，age = age₀ + time，其中：
  - age₀：基线年龄（baseline age），是每个人在第一次评估时的年龄。它是一个个体间（between-person）的固定特征，是随机变量。
  - time：从基线到当前评估的时间（通常以年为单位）。它是个体内（within-person）的变化度量，是随时间变化的随机变量。
- e4+：暴露变量（二值）。APOE ε4 等位基因携带者（e4+ = 1）与否（e4+ = 0）。
- β：回归系数，是需要估的参数。βᵃ（age模型）和 βᵗ（age₀+time模型）是不同的。
- N：总人数（21,913），T：总观测数（80,956）。
- E(Y)：结果变量的均值函数（条件期望）。
模型：
- 核心设定：这是一个混合效应模型（linear mixed model, LMM）或广义估计方程（GEE）框架下的纵向研究。
- 数据生成机制（隐式）：假设结果 Y 在给定 i.i.d. 随机效应后是条件独立的。模型关注于均值结构 E(Y|age, age₀, time, e4+)，并允许通过随机斜率来刻画个体间异质性。
- 已知：age₀, time, e4+。
- 要估的对象：暴露“APOE ε4”对认知衰老的轨迹差异（暴露组 vs. 非暴露组在斜率上的差）。
可观测数据：研究者能实际观测到的是：
- Y_{ij}：第 i 个个体在第 j 次访视时的记忆 z 分数。
- age_{ij}：第 i 个个体在第 j 次访视时的实际年龄。
- age0_{i}：第 i 个个体的基线年龄（一次观测）。
- time_{ij}: 第 i 个个体在第 j 次访视距基线的时间。
- e4+_{i}：个体 i 的遗传暴露（不随时间变）。
重要的是：age₀ 是一个潜变量（latent variable），但我们直接观测到它的实现。time 是另一个潜变量，但也是直接观测的。“age = age₀ + time”的关系是恒等式，不是假设。问题是，当我们用 age 作为唯一时间轴时，我们错误地强制让 age₀ 和 time 对 Y 的效应相同。

第二步：讲最小内核¶

最简特例：假设我们有一个简化的线性模型，没有交互项（即，我们只关心APOE4对均值斜率的差异，而非截距项差异），时间是连续的。

模型 A（“age”尺度）： E(Y) = β₀ᵃ + β₁ᵃ * age + (β₂ᵃ + β₃ᵃ * age) * e4+ (这里的 β₁ᵃ 是 e4-组年龄的斜率，β₀ᵃ + β₂ᵃ 是 e4+组的截距，β₁ᵃ + β₃ᵃ 是 e4+组的斜率。)
模型 B（“age₀ + time”尺度，无约束）： E(Y) = β₀ᵗ + β₁ᵗ * age₀ + β₂ᵗ * time + (β₃ᵗ + β₄ᵗ * age₀ + β₅ᵗ * time) * e4+

核心矛盾：因为 age = age₀ + time，模型 A 也可以写成： E(Y) = β₀ᵃ + β₁ᵃ * (age₀ + time) + (β₂ᵃ + β₃ᵃ * (age₀ + time)) * e4+ = β₀ᵃ + β₁ᵃ * age₀ + β₁ᵃ * time + (β₂ᵃ + β₃ᵃ * age₀ + β₃ᵃ * time) * e4+

比较模型 A 和模型 B，看出强制等式： - 在 Model A 中，age₀ 的系数（β₁ᵃ）和 time 的系数（也是 β₁ᵃ）必须相等，对 e4- 和 e4+ 组都是如此。 - 而在 Model B 中，这些系数可以自由变化：β₁ᵗ (age₀ 对 e4- 组) 通常不等于 β₂ᵗ (time 对 e4- 组)。

因此，最小内核的问题就是： 我们能否用一个模型（A）强迫 βᵃ(age₀) = βᵃ(time) 并因此牺牲可能的偏差，来获得方差减小？还是用模型（B）允许它们独立变化从而避免偏差，但承担方差增加的风险？

证明怎么走（针对这个最简特例）： 1. 定义检验统计量：在模型 B 中估计 β₄ᵗ (e4+组的 age₀-效应) 和 β₅ᵗ (e4+组的 time-效应)。如果是比较暴露效应的差异（β₃ᵃ in Model A vs. β₅ᵗ in Model B），关键是： - Model A 给出的暴露差异效应 = β₃ᵃ。 - Model B 给出的暴露差异效应 = β₅ᵗ。

偏差分析：作者指出，当 β₁ᵗ ≠ β₂ᵗ 时（即强制等式不成立），β₁ᵃ 估计的是 β₁ᵗ 和 β₂ᵗ 的一个加权平均，通常方差更小但有偏差。具体地，如果对于 e4- 组和 e4+ 组，β₁ᵗ - β₂ᵗ 的差值相同（即在跨越人群时稳定的系统误差），那么在比较轨迹差异时，偏差会抵消（正如作者发现的那样）。
- 关键公式：如果 β¹ᵗ_{e4-} - β²ᵗ_{e4-} = β¹ᵗ_{e4+} - β²ᵗ_{e4+} = δ 是一个常数，那么 Model A 的组间差异（β³ᵃ）等于 Model B 的组间差异（β⁵ᵗ）。证明是直接代数代入：β₃ᵃ = (β₁ᵃ + β₃ᵃ) - β₁ᵃ = (β₁ᵃ + β₃ᵃ) - β₁ᵃ，并且这两个加权的组合在计算差异时会消去共同的 δ。
结论：在这个最简线性特例下，模型 A 对暴露差异效应的估计是否一致且更精确，取决于混淆因素（age₀差异与 time差异的不平衡）对暴露组和非暴露组是对称的。如果是，Model A 是更优的选择（更精确）。如果不是，Model B 才是无偏选择。

目标：读者读完这一节，抓住核心：“年龄”模型的风险在于强迫两个效应相等，但好处是如果系统误差对称，差仍出噪音更小。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究了什么问题：作者旨在阐明纵向分析中使用“时间（time）”和“年龄（age）”作为时间尺度的关系，并将其选择争论转化为一个可检验的模型选择问题，而不是一个“二选一”的哲学问题。
核心工具/方法：通过代数分解（age = age₀ + time），将“时间尺度选择”等价于对两个系数（age₀ 与 time）施加的强制等式 (β_age₀ = β_time) 的检验。作者将此决策系统地置于偏差-方差权衡的框架下，并拓展到均值模型与广义的随机效应设定。
主要结论：“年龄”时间尺度本质上将个体内（time）和个体间（age₀）的信息强制池在一起（估计相同系数），如果这两个效应相同，它比“时间”模型更精确；但如果存在不对称的混淆（比如不同代际的人老化速率不同），“年龄”模型会带来偏差。即使偏差存在，只要它对暴露组和对照组对称，暴露差异的估计仍可能无偏且更精确。作者强调，实践中的最优策略是同时检查多个模型并诊断为什么它们不同。

关键设定与假设¶

设定：作者使用了 Hayes-Larson 等人的数据，合并三个队列的约 80,956 条观测记录，以记忆 z 分数 (Y) 为结果，APOE ε4 状态为暴露 (e4+)，并调整性别和教育水平。
假设：
- 隐含线性假设（开头一部分）：为简化说明，作者大部分时间假设一个线性均值模型。但他们在第五节扩展到非线性（如使用限制性立方样条的非线性均值模型，GAM）。
- 模型假设的明确性：文章的主要贡献不是提出新方法，而是解析现有模型的隐含假设。具体来说：
  - 均值假设：“当前年龄”模型强制 E(Y) 中 age₀ 与 time 的系数相等。
  - 方差假设：对混合效应模型，使用“当前年龄”的随机斜率项，等效于强制 age₀ 与 time 的随机系数方差相等（且在均值模型中强制两系数相等）。这是一个更强、更隐蔽的假设。
- 无遗漏变量（隐性）：论文没有明确提及因果识别假设。它假设模型中包含的协变量（性别、教育）已充分调整。这是一个很强的、但在该流行病学研究社区中常见的假设。
与已有文献相比放宽/强化：略微强化了“年龄”模型的假设（指出的限制比文献通常承认的更严格）。放宽了对时间尺度优劣的单一判断（允许两个模型都有用）。

主要结果¶

本文并非提出一个全新的估计量，而是一个概念性与诊断性的框架输出。主要“量化结论”来自实证数据：

精确度增益：在纯线性模型下，使用“年龄”模型得到的 APOE4 轨迹差异的标准误比“时间”模型缩小了约 21% (SE 0.11 vs. 0.14)。
偏差-方差平衡的表征：对于线性模型，尽管“时间”模型下的个体内斜率（β₂ᵗ）与“年龄”模型下的基准线年龄效应（β₁ᵃ）不同（如 APOE4 阴性组中分别为 -0.38 vs. -0.62/decade），但由于两个系数在两组间以相同方式变化，轨迹差异的估计在两种模型中是相同的（-0.15 vs -0.09 SD/decade，但标准误从 0.14 降到 0.11）。这表明，虽然“年龄”模型下的个体轨迹估计有偏，但只要偏差在组间对称，组间比较（暴露差异）的估计是无偏且更精确的。
非线性模型的延伸：在非线性模型（如 GAM，使用限制性立方样条）中，年龄尺度模型也强制 f(age₀) 和 f(time) 的样条系数的特定配对（图3）。例如，若在“年龄”模型中使用了 quadratic(age)，它在 age₀-time 二维空间里强制了一个与年龄交互项等价的二次项。
随机效应的诊断：方差分解显示，“年龄0 + 时间”模型（带两个独立的随机斜率）的拟合优度优于（或等同于）“年龄”模型（带一个随机斜率）。这是通过比较 AIC / BIC 等模型拟合指标实现的（见附录 G）。

证明路线与技术技巧¶

这是一个概念性/方法论的论文，不是严格意义上的定理证明。所谓的“证明”是代数与逻辑推导，立足于线性模型和混合效应模型的基础知识。

整体路线（逻辑主干）：
1. 第一步：代数分解与偏差诊断。首先建立核心恒等式：age = age₀ + time。然后将常见线性模型（当前的“年龄”模型）的均值方程展开，揭示其强制相等（β₁ᵃ(age₀)= β₂ᵃ(time)）的约束。
2. 第二步：无约束参照模型。提出无约束模型“age₀ + time”，其中 age₀ 和 time 的系数是独立的（β₁ᵗ 和 β₂ᵗ）。
3. 第三步：检验约束与权衡。指出可以通过检验 H₀: β₁ᵗ = β₂ᵗ 来判断“年龄”模型的约束是否合理。通过代数证明，如果两个模型在两组间的系统误差（来自 age₀ ≠ time 的差额）是对称的，则暴露差异的估计会等价。
4. 第四步：拓展到非线性与随机效应。将同样的分解逻辑应用于（a）当均值结构中包含 age 的高阶项（二次型、样条）时，它如何转化成对 age₀ 与 time 两轴的复杂约束；（b）当使用随机斜率时，“age”模型强制了年龄的时间方差与基线年龄间的方差相等。
关键跳跃点：最关键的技术洞察是代数恒等式 age = age₀ + time，以及它对方差列向量的连锁效应。也就是认识到：
- 如果模型的随机斜率项（slope）等同于 β_random * age = β_random * (age₀ + time)，那么这等效于对 age₀ 和 time 有完全相关的随机效应，且它们的方差相同。这在随机效应线性混合模型文献中是一个众所周知的、但极少被明确讨论的限制。作者敏锐地抓住这点，将它作为“方差结构中的强制等式”来解释。
技术技巧点名：
- 代数分解与比较：核心工具，无新复杂度，但应用精准。
- 隐含系数的显式化：通过将模型从 age 参数化改写为 (age₀, time) 参数化（通过已知恒等式），揭示出隐含的约束，是一种技巧。
- 偏差-方差分解的经验展示：用实际数据的不同信息源（个体内 vs. 个体间）解释方差变化。

真实例子与应用¶

用的什么数据/场景：合并了三个大型队列的长期随访数据（ARIC、BLSA、Mayo Clinic Study of Aging），总计 21,913 人，80,956 次观测，基线年龄 50-92 岁，最长 44 年随访。
怎么把本文方法用上去：作者用三种不同的时间尺度模型（Age0, Time, Age）拟合单一目标模型，来检查线性斜率差异和标准误。然后，比较非线性（样条）模型图（图 3）。
得到什么结果：如上节所述，图形和数值对比显示，“年龄”模型提供了更窄的置信区间（标准误减少21%），且组间差异估计与“年龄0+时间”模型的差异一致。图 3E-3F 进一步突出了非线性模型的等价性。
这个例子想说明什么：主要想说明强制等式的实际可行性。它通过一个真实场景验证了理论框架—— 证明尽管“年龄”模型做了错误的假设，但由于偏差在组间对称，暴露效应差异的估计是无偏且更精确的。这凸显了作者的主要论点：不能仅仅因为一个模型假设错误就抛弃它，而应该诊断偏差的来源并评估其对推理的影响。

结论是否比证明窄¶

是。 - 具体语句：文章广泛使用线性模型作为核心比喻（“We specify linear relationships here to clarify relations…”），并声称其结论对非线性模型和随机效应成立。但显然，对于非线性模型（如样条），“强制等式”不是一个简单的单系数检验，而是对高维样条基函数系数的复杂配对约束。作者在正文中只是用示意图（图3）展示这些约束的一般形式，并没有提供像线性情况那样简单的代数证明。这意味着结论的严格性（generalizability）在不同的情况下有不同的保障。 - 一个更具体的例子：文章认为，如果对“age”指定一个二次项（quadratic age），它等价于 (age₀ + time)²，从而诱导了 age₀、time 和 age₀time 之间的特定线性-二次关系。但实际拟合这种约束模型（通过像 SEM 那样约束方差矩阵）的方法被轻描淡写。这暗示作者的诊断建议（“检查β差异的大小”）在非线性情况下不是一个可行的简答检查*，而是一个复杂的模型比较过程（如使用 BIC/似然比检验）。因此，结论的有效性在实际工作中可能不如核心线性例子那样直接可用。

四、开放问题（点到为止）¶

暴露效应的方差非对称性问题：文中依赖的“抵消”条件——系统误差在暴露组和非暴露组对称——是一个关键的、但未被检验的假设。如何系统地检验 H₀: β¹ᵗ_{e4-} - β²ᵗ_{e4-} = β¹ᵗ_{e4+} - β²ᵗ_{e4+} ？这涉及三方交互检验，需要更复杂的假设检验程序，而不是一个简单的对比。扎根：文末“if the differences are the same for both groups … will cancel out”。
非线性模型下的约束检验：在“年龄”尺度下使用样条时，作者揭示了其隐含的、复杂的约束图（图3），但并没有给出一个通用的、可操作的约束形式，也没有讨论拟合这种约束模型的计算复杂性。这是自查改用于开放数据之前需要解决的缺口。扎根：第三节第七段“Figure 3 … show induced forms … but the estimated trajectories and differences … were similar …”。
从因果推断视角出发的模型选择：本文的整个框架是基于统计模型的偏差-方差权衡，完全回避了因果识别。在因果推断中，时间尺度选择可能显著改变安慰剂效应、混淆控制与处理效应的解释（例如，用age₀ 或 time 作为工具变量）。一个结构性的、基于潜在结果框架的模型选择标准（或敏感性分析框架）是什么？扎根：文中小节“an alternative model … (3a)”只讨论了统计形式而非因果假设。

Maintained by 陈星宇 · Homepage · Source on GitHub