跳转至

Pre-diagnostic body mass index trajectories and associations with lung cancer risk

作者: Wen Zhou, Lorelei A Mucci, Mingyang Song, Hongbing Shen, Christopher I Amos
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: Harvard University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwaf084


一、领域脉络与小综述

声明:用户提供的文本仅包含摘要,未提供论文完整introduction与参考文献列表。以下脉络基于摘要中提及的“孟德尔随机化”以及公开领域背景构建,可能无法精确复现论文作者的framing。

这个方向是什么

本子方向研究体质指数(BMI)的长期轨迹(trajectory)与肺癌发病风险之间的关联,属于流行病学中暴露-结局关联的纵向分析。当前方法上主要依赖两类工具:一是基于单一时点BMI的观察性研究(受混杂与反向因果干扰),二是基于工具变量(孟德尔随机化)的因果推断(可剔除混杂,但只能处理静态暴露)。本论文试图填补“动态BMI变化模式与肺癌风险”的缺口,使用生长混合模型(Growth Mixture Modeling, GMM)从重复测量中识别潜在的异质性轨迹类别,再评估各类别与风险的关联。

发展脉络(基于已有知识串联)

  1. 奠基工作:Carreras-Torres et al. (2016) 通过孟德尔随机化发现遗传预测的BMI与肺癌风险呈负相关(OR ≈ 0.90–0.95 per SD),但该分析仅使用基线BMI,无法反映长期变化。Smits et al. (2013) 使用单一时间点BMI的前瞻性研究显示肥胖对肺癌有保护作用,但受残余混杂(吸烟、疾病导致体重下降)严重限制。这两条线索留下一个共同缺口:动态模式 vs. 静态关联。
  2. 主要进展:基于群组轨迹模型(group-based trajectory model)的方法论发展(Nagin 2005, Group-Based Modeling of Development)使得从纵向数据中自动识别异质性轨迹成为可能。这类模型已广泛应用于血压、血糖等心血管危险因素,但在肺癌病因学中应用较少。已有的肺癌轨迹研究(如Cheng et al. 2019, Cancer Medicine)样本量较小(<10,000),或使用简单的前后变化(ΔBMI)而非潜在类别建模,留下“大规模队列+自然轨迹”的空白。
  3. 当前frontier: 在暴露异质性日益受到重视的背景下,研究者正尝试将轨迹分析与因果方法结合(如边际结构模型处理时变混杂),但尚未成熟。本论文直接采用GMM + Cox回归,属于描述性关联分析。
  4. 本文的位置:Wen Zhou et al. (2024) 使用163,545人(NHS+HPFS)的长期BMI测量,通过GMM识别出4条轨迹,并报告超重-明显上升与超重-肥胖转变两类对肺癌风险有保护作用(aHR 0.53-0.67),且组织学亚型存在差异。这是迄今为止最大规模的BMI轨迹-肺癌研究,但在因果识别上未使用工具变量或时变混杂控制方法。

子线索聚类

  • 线索一:孟德尔随机化与静态BMI(Carreras-Torres 2016, Larsson 2019 等)—— 使用SNP工具变量推断BMI对肺癌的因果效应,结果一致为负相关;但只能处理基线或单次测量。
  • 线索二:单一时间点BMI观察性研究(Smits 2013, Yang 2020等)—— 研究数量巨大,但结果矛盾(流行病学悖论),混杂与反向因果难以排除。
  • 线索三:BMI动态变化与肺癌(Cheng 2019, 本论文)—— 探索轨迹或变化量;方法上多为预定义变化(如ΔBMI≥5%)或GMM;优势是捕捉长期模式,但因果解释力弱于孟德尔随机化。

核心追问的问题

  1. BMI长期轨迹如何影响肺癌风险?轨迹类别是否可以预测发病机理(组织学亚型差异)?
  2. 观察到的“高BMI保护”是真实因果还是混杂(尤其是吸烟状态、亚临床疾病导致的体重下降)?
  3. 如何将轨迹分析与因果推断(如孟德尔随机化或工具变量)结合,以区分偶然关联与效应?
  4. 轨迹类别本身是否具有可重复性及临床意义?

⚠️ 作者的framing(基于摘要推断)

作者将当前缺口frame为“孟德尔随机化可揭示病因关联,但BMI轨迹与肺癌风险的关系仍不确定”,从而将本文定位为首次大规模轨迹-风险分析。竞争路线(单一时间点BMI的观察性或孟德尔随机化研究)被淡化,强调轨迹模型的“长期、自然”特征。但明显缺失的是:作者未讨论时变混杂(如减肥药、吸烟史变化)对轨迹-风险因果解释的影响,也未与孟德尔随机化结果做直接对比。研究者可自行检验:论文introduction是否提到对时变混杂的敏感分析?是否引用任何轨迹因果方法(如g-estimation、边际结构模型)?——这些是值得去查的张力。

张力

未见明显对立引用,各线索方向一致(BMI与肺癌负相关),差异主要在于暴露测量方式与因果强度。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型与可观测数据

  • 符号
  • \( i = 1,\dots,n \):个体编号(n≈163,545)
  • \( t = t_1, t_2, \dots, t_{m_i} \):个体i的BMI测量时间点(年龄或日历时间),每个个体测量次数不同。
  • \( Y_{it} \):可观测的BMI值(连续)。若时间点固定为年龄,则 \( t \) 可为距基线的年数。
  • \( D_i \):个体i是否在随访期间确诊肺癌(0/1),以及确诊时间 \( T_i \)(可考虑删失)。
  • \( C_i \):潜在的轨迹类别变量(不可观测,离散潜变量,K=4类)。
  • \( X_i \):基线协变量向量(年龄、性别、吸烟包年、种族等)。

  • 模型(生长混合模型,GMM):

    \[Y_{it} = \beta_{0}^{(k)} + \beta_{1}^{(k)} f(t) + \beta_{2}^{(k)} g(t) + \cdots + \epsilon_{it}^{(k)}, \quad \text{若 } C_i = k\]
    其中 \( \beta^{(k)} \) 是第k类特有的轨迹参数(通常包括截距、线性项、二次项),\( \epsilon_{it}^{(k)} \sim N(0,\sigma^2_k) \)(误差)。\( C_i \) 服从多项分布 \( \Pr(C_i = k) = \pi_k \),可通过EM或直接ML估计。

  • 第二步:在类别概率或后验分配基础上,用Cox比例风险模型评估风险:

    \[\lambda(t | C_i = k, X_i) = \lambda_0(t) \exp(\alpha_k + \gamma^\top X_i)\]
    其中 \( \alpha_k \) 为类别效应(以某一类为参照),\( \lambda_0(t) \) 为基准风险。

  • 可观测数据:研究者实际能观测到的是:

  • 每个个体的多次BMI测量值 \( \{Y_{it}\} \)(可能不完整)
  • 基线协变量 \( X_i \)
  • 癌症结局(确诊/删失)及时间
  • 不可观测:真实轨迹类别 \( C_i \);只能用估计的后验概率 \( \hat{p}_{ik} \) 或最大后验分类。

第二步:最小内核

最简特例:假设所有个体在两个固定年龄(如基线t=0和右删失前最后一次t=1)都有BMI测量,且轨迹形状只有线性,且只有两类(K=2)。模型退化为: - 类1(正常-稳定):\( Y_{i0} \sim N(22, 2^2) \), \( Y_{i1} \sim N(22+0.5, 2^2) \)(小幅增加) - 类2(超重-上升):\( Y_{i0} \sim N(27, 2^2) \), \( Y_{i1} \sim N(30, 3^2) \)(大幅增加)

每个个体随机来自两类之一(\( \pi_1=0.7, \pi_2=0.3 \))。GMM的任务就是根据 \( (Y_{i0}, Y_{i1}) \) 估计类别参数和成员概率。然后,将后验类别概率(或硬分类)放入Cox模型:

\[\Pr(\text{事件时间} > t | X_i, \hat{p}_{i2}) = S_0(t)^{\exp(\beta \cdot \hat{p}_{i2} + \gamma^\top X_i)}\]
论文的核心思路是:用潜类别结构捕捉个体间BMI变化异质性,再检验这种异质性是否与肺癌风险系统相关。在K=2两时间点的特例下,GMM等价于对BMI水平与变化量的聚类加上回归,而论文的一般情形(K=4、三次测量、二次曲线)只是将维度扩大、类别增多,数学困难主要在于高维混合似然的优化和类别个数选择(BIC/LRT)。

三、这篇论文做了什么

三句话: 1. 研究了163,545名美国健康专业人员预诊BMI的纵向轨迹与肺癌发病风险的关联。 2. 采用生长混合模型自动识别出4种轨迹类别,然后使用Cox比例风险模型估计各类别相对参照类的调整风险比(aHR)。 3. 主要发现:超重-明显上升和超重-肥胖转变类别的肺癌风险显著降低(aHR=0.53和0.67),且效应在不同组织学亚型间存在异质性。

关键设定与假设

  • 数据来源:Nurses’ Health Study (NHS) 117,445名女性,Health Professionals Follow-up Study (HPFS) 46,100名男性。随访26-32年,BMI每2-4年自报一次(平均每人约10次测量)。癌症经医疗记录确认。
  • 轨迹模型设定:GMM假设轨迹形状为线性或二次(作者选择最优阶数依据BIC);误差方差可跨类别不同。
  • Cox模型调整:包括基线年龄、性别、吸烟状态(从不/曾经/当前+包年)、种族、身高、体力活动、酒精摄入、糖尿病史等。未使用时变协变量(如吸烟变化),也未处理时变混杂。
  • 竞争风险:未明确提及;死者作为删失处理(若死于其他原因则删失)。

主要结果

  • 4类轨迹(附图2,未提供):
  • 类1:正常-中度上升(基线BMI~22.5,缓慢增至~24)
  • 类2:超重-明显上升(基线~25.5,增至~29)
  • 类3:超重-肥胖转变(基线~27,后期快速增至~32)
  • 类4:肥胖-持续(基线~32,保持高水平)
  • 风险比(以类1为参照):
  • 类2:aHR=0.53 (0.38-0.75, p=2.3×10⁻⁴)
  • 类3:aHR=0.67 (0.48-0.94, p=0.022)
  • 类4:aHR=0.79 (0.57-1.12, p=0.18,不显著)
  • 组织学亚型:类4对肺腺癌风险aHR=0.59(0.39-0.90),但对鳞癌和小细胞癌没有明显效应。类1中BMI最高五分位数对腺癌风险降低、对鳞癌无效应。显示组织学特异性机制。
  • 亚组:按性别、吸烟状态分层,结果基本一致。

证明路线与技术技巧(应用型,无理论证明,但可拆解分析流程)

  1. 轨迹识别:使用SAS PROC TRAJ(基于Nagins的群组轨迹模型)进行GMM估计。类数通过贝叶斯信息准则(BIC)和平均后验概率(>=0.7)选择。
  2. 分类赋值:每个个体被分配到其最大后验概率的类别(hard assignment)。
  3. 生存分析:用Cox比例风险模型,以类1为参照,调整基线协变量。比例风险假设通过Schoenfeld残差检验。
  4. 敏感性分析:排除吸烟者、排除前2年确诊者、使用多个BMI测量期(如仅用距诊断5年的测量)等,结果一致。
  5. 技术技巧:使用全信息最大似然处理缺失BMI测量(假设MAR);轨迹形状选择采用BIC;协变量调整中未使用时变数据以避免时变混杂(是保守选择)。

真实例子(本文即为实证研究)

  • 数据:NHS + HPFS两大长期队列,BMI每2-4年自报,肺癌确诊经病理确认。
  • 方法应用:将每个个体的BMI历史输入SAS PROC TRAJ,输出4类轨迹。然后合并生存数据,用Cox回归估计每类风险。
  • 结果:如上所述,同时给出了亚型分析。
  • 所说明的问题:验证了高BMI保护作用在长期轨迹下成立,且不同轨迹模式影响可能不同(肥胖-持续类仅对腺癌有保护性),提示肿瘤异质性。

🔎 结论是否比证明窄

  • 窄化点:作者在Abstract结论中写道“Increasing lifetime BMI was associated with a decreased risk of lung cancer”,但Cox估计中未对时间变化的BMI进行时变回归(而是用固定类别),因此“lifetime BMI”的表述可能过度泛化。实际上结论只适用于基线BMI加上后续模式(类别),而非连续动态BMI。具体语句: “Increasing lifetime BMI was associated with a decreased risk of lung cancer, with this association varying by histological subtypes”——但“lifetime BMI”并未在模型中作为时变变量出现,而是类别代表的一种累积模式。
  • 未提及的局限:未做因果敏感分析(如E值),未对抗反事实假设(如吸烟变化作为时变混杂)进行建模。

四、开放问题(扎根具体语句,简短)

  1. 因果识别问题:摘要指出“Mendelian randomization can reveal the etiological association between BMI and lung cancer. However, the associations between the trajectories… remain inconclusive.”—gap正好是:如何将孟德尔随机化(SNP工具变量)扩展到轨迹(多时间点)上?需要开发时变工具变量或边际结构MR方法。
  2. 轨迹类别可移植性:该4类轨迹是在NHS/HPFS人群中估计的,在一般人群中是否能重复?类数选择和参数对样本社保或测量时间敏感——缺乏跨队列复制,扎根于“四种轨迹被识别”这一特定结果。
  3. 时变混杂控制:本研究使用基线协变量调整,未处理吸烟、体力活动等随时间变化的混杂。开放问题:若采用边际结构模型(IPW)或g-estimation同时考虑轨迹类别和时变混杂,结论是否稳健?—扎根于调整协变量仅限基线的设定。
  4. 组织学亚型异质性的统计检验:作者报告了类4对腺癌有显著降低,但对鳞癌无。但未提供类别×亚型交互作用的正式检验(如似然比检验)。是否需要开发一个同时建模多终点与轨迹类别交互的策略?—扎根于分层分析而非交互检验。

(注意:以上开放问题均未替研究者判断可行性,仅列举可能的后续方向。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论