跳转至

Characterization of Additive Gene–environment Interactions For Colorectal Cancer Risk

作者: Claire E. Thomas, Yi Lin, Michelle Kim, Eric S. Kawaguchi, Conghui Qu et al.
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: University of Southern California(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001795


一、领域脉络与小综述

这个方向是什么

本方向研究的是基因-环境交互作用(G×E)的统计学识别与公共卫生解读,具体聚焦于如何在病例-对照研究设计中,通过 logistic 回归这一标准工具,量化基因背景与环境暴露的联合效应是否大于各自效应之和(加法交互),而非传统的乘积项显著性检验(乘法交互)。该方向当前成熟度很高——方法学基础(RERI 的构造与置信区间)已建立数十年,但大规模实际应用(尤其是使用联盟级数据统一评估多个环境因素)仍属稀缺。本文填补的正是这个“方法熟但大规模应用少”的缺口。

发展脉络

  • 奠基工作(1980s–1990s):Rothman(1986)在《Modern Epidemiology》中系统提出在“充分病因(sufficient cause)”框架下,加法交互是公共卫生相关度量——感兴趣的不是风险比的乘积是否为1,而是联合效应减去各独立效应后的超额风险。同时,Hosmer & Lemeshow(1992)给出 logistic 模型中加法交互指标 RERI(Relative Excess Risk due to Interaction)的点估计与标准误差计算(delta method)。这两个工作是本文的基石。

  • 主要进展(2000s–2010s):VanderWeele & Knol(2014)的教科书章节与综述文章(如 VanderWeele, 2009, Epidemiology)进一步澄清了乘法与加法交互的区分:乘法交互(OR scale)回答的是“是否在相对风险上有修饰”,而加法交互回答的是“是否在绝对超额风险上有修饰”。Knol et al.(2011)给出在 logistic 模型中计算 RERI 置信区间的三种方法(delta method、bootstrap、Fieller's method),并推荐在大样本中优先使用 delta method。同时,Lubin & Gatto(2006)讨论了对数线性模型下加法交互的识别条件,指出 logistic 近似下 RERI 可偏倚(当疾病罕见假设不满足时)。

  • 当前 frontier(2010s–2020s):大规模遗传流行病学联盟(如 GECCO、CCACE、CORECT)积累了数十万病例-对照的基因分型数据,使得 G×E 分析从单变异位点转向多基因遗传风险评分(GRS)。已有的联盟级报告(如 Schmit et al., JNCI, 2019; Huyghe et al., Nat Genet, 2019)主要报告乘法交互(P 值、OR 交互项),加法交互的联盟级综合报告几乎不存在。本文的作者们指出:“few have assessed additive interaction, the relevant public health measure”——这是该领域的核心缺口。

  • 本文的位置:本文是首个在最大 CRC 联盟样本(~98k 样本)中对 13 个环境因素与 GRS 同时报告乘法与加法交互的横断面分析。它不是方法学论文(方法标准),而是填补了“大样本加法交互实证报告”的空白

子线索聚类

被引文献按主题可聚类为两条子线索: 1. 方法学线索:围绕如何在 logistic / 对数线性模型下定义并计算加法交互指标(RERI, attributable proportion, synergy index)。核心论文:Hosmer & Lemeshow (1992), Knol et al. (2011), VanderWeele & Knol (2014), Andersson et al. (2005, Statistics in Medicine)。这一线索已十分成熟。 2. 实证应用线索:已有大型 CRC G×E 研究集中在乘法交互,给出 P 值与 OR,但仅少数小样本研究(n<10k)涉及加法交互。代表性工作:Figueiredo et al. (2011, Cancer Research), Campbell et al. (2013, Carcinogenesis)。本文就是这个线上迄今最大的实证补充。

这个方向在追问的核心问题

  1. 加法交互是否普遍存在?——乘法交互不显著是否意味着没有流行病学意义的交互?(本文直接回答:是,本文发现的乘法交互均不显著,但加法交互显著。)
  2. 在罕见疾病假设不一定满足时(中间终点或常见病),对 RERI 的偏倚有多大?——本文未深入,但为此文公开了信息。
  3. 多个环境因素与一个 GRS 的加法交互如何做多重比较校正?——本文采用 Bonferroni 校正(13个环境变量 × 2个性别亚组),但标准不一。

⚠️ 作者的 framing

  • 作者把缺口 frame 成:“之前很少用大样本评估加法交互,而加法交互是公共卫生相关度量,我们填补了这个空白。”——这是合理的叙述,因为联盟级加法交互分析确实是一个实证缺口。
  • 被淡化的竞争路线:作者没有讨论其他加法交互指标(如 attributable proportion, synergy index),也没有讨论更灵活的模型(如 GAM 或 spline 替代 logistic 线性假设),隐含地接受了 logistic 回归线性可加的充分性。
  • 什么明显该被引 / 该存在、却没出现在 intro 里?:没有引用专门讨论 RERI 置信区间有限的模拟比较(如 Zou, 2008, American Journal of Epidemiology 给出的基于 modified Poisson 的 RERI 计算)。也没有引用最近提出的非参数加法交互估计量(如 Sun et al., 2023, Biometrics 基于 AFT 或 Fine-Gray 模型的加法交互)。这可能是由于作者聚焦在标准方法上。

张力

未见明显对立引用。方法学文献高度一致,共识明确:如果有病例-对照数据,logistic 回归 + delta method 是计算 RERI 的标准做法。唯一潜在张力在应用层面:小样本 RERI 的研究(如 n<5k)往往给出不显著或方向不一致的结果——本文的样本量优势使得它可以提供更稳定的估计,但也使得前人的非显著结果更有可能是Ⅱ类错误,而非真正的 null。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

本文的核心建模是病例-对照设计下的 logistic 回归。我们建立最小记号:

符号: - \(Y \in \{0,1\}\):CRC 患病状态。1 = 病例,0 = 对照。 - \(G\):遗传风险评分(GRS),本文定义为基于 141 个 CRC 相关位点的加权和。在分析中被离散化为二值或三分位:高遗传风险(highest tertile)与平均遗传风险(middle + lowest tertile)。在分析中 G 是二值变量。 - \(E\):环境暴露变量。本文检验 13 个环境因素。每个 E 可以是二值(如 ever smoker vs never smoker)或有序分类(如红肉摄入的四个四分位,Q1-Q4),并作为连续或分类变量加入模型。我们这里以二值 E 为例展开。 - \(Z\):协变量向量(如年龄、性别、中心/机构、基因主成分——用于控制人群分层)。 - 样本:可观测到的 i.i.d. 数据 \(\{(Y_i, G_i, E_i, Z_i), i=1,\dots,n\}\),其中 n 很大(总计 97,918 个个体)。

模型(标准 logistic 回归):

\[\log\!\left( \frac{P(Y=1 \mid G, E, Z)}{P(Y=0 \mid G, E, Z)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G \times E) + \gamma^\top Z,\]

其中: - \(\beta_1\)G 的主效应(log OR:相对于 G=0 的基线的遗传效应)。 - \(\beta_2\)E 的主效应(log OR)。 - \(\beta_3\)乘法交互项(log OR scale 上的乘积项——度量的是“相对风险是否被修饰”)。 - \(\gamma\) 是协变量的 log OR。

估计方法:最大似然估计(MLE),标准误差由 Fisher 信息矩阵的逆的相应元素得到。

可观测数据 vs 潜在量: - 可观测:\(Y, G, E, Z\)。 - 不可观测/潜在:没有改变 G 或 E 后的潜在结果(该研究是观察性病例-对照,不能操作 G 或 E)。加法交互 RERI 被解释为“人群层面超额风险”而非“因果层面对反事实的加法交互”,logistic 回归给的是条件 OR,其因果解释需要额外假设(无未测量的混杂、病例-对照设计下的抽样偏倚等),但这些不在本文显式讨论中。 - 本文估计量直接是 MLE 的函数,无需显式引入反事实符号。

第二步:最小内核

本文的数学内核极其简单:在 logistic 回归 MLE 的渐近正态性之下,RERI 是 MLE 的一个非线性函数,然后由 delta method 得到其标准误差与置信区间。全部统计困难实际上已经由标准 logistic 回归软件解决。下面用最简单特例讲清楚。

最简特例: 假设只有单个二值基因风险 \(G \in \{0,1\}\)(高 vs 非高),和单个二值环境暴露 \(E \in \{0,1\}\)(暴露 vs 非暴露),没有其他协变量 Z。此时 logistic 模型退化为:

\[\log\!\left( \frac{p(G,E)}{1-p(G,E)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G \times E),\]

其中 \(p(G,E) = P(Y=1 \mid G,E)\)

乘法交互指的是检验 \(H_0: \beta_3 = 0\);加法交互关注的是 RERI。RERI 的定义为:

\[\text{RERI} = \frac{P(Y=1|G=1,E=1)}{P(Y=1|G=0,E=0)} - \frac{P(Y=1|G=1,E=0)}{P(Y=1|G=0,E=0)} - \frac{P(Y=1|G=0,E=1)}{P(Y=1|G=0,E=0)} + 1.\]

即在 OR scale 上,它是:

\[\text{RERI} = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1.\]

解释:这是指以“G=0, E=0”为基线,同时暴露人群(G=1, E=1)的 CRC 的 OR,减去“仅 G=1”的 OR,再减去“仅 E=1”的 OR,再加回基线 OR(1),得到超额 OR。RERI > 0 意味着联合效应超过了各自效应之和。

怎么估计 RERI: 1. 用标准软件拟合 logistic 回归,得到 \((\hat\beta_0, \hat\beta_1, \hat\beta_2, \hat\beta_3)\) 与它们的方差-协方差矩阵 \(\hat\Sigma\)(MLE 的渐近方差)。 2. 计算:\(\widehat{\text{RERI}} = \exp(\hat\beta_1+\hat\beta_2+\hat\beta_3) - \exp(\hat\beta_1) - \exp(\hat\beta_2) + 1\)。 3. 用 delta method:令 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\),则

\[\widehat{\text{Var}}(\widehat{\text{RERI}}) = \nabla g(\hat\beta)^\top \hat\Sigma \nabla g(\hat\beta),\]
其中 \(\nabla g\) 是 RERI 对 \((\beta_1,\beta_2,\beta_3)\) 的梯度向量。 4. 置信区间:RERI ± \(z_{0.975} \times \sqrt{\widehat{\text{Var}}(\widehat{\text{RERI}})}\)

这个特例展示了论文核心思路的全部:即便论文扩展到 13 个环境因素、141-SNP 的 GRS、有协变量,本质步骤完全相同——不过是对每个环境因素拟合一个包含主效应 + 交互项(GRS × 该环境因素)的 logistic 回归,计算 RERI 及其 CI 的公式完全一样。主要附加工作只是多重比较校正(Bonferroni 校正)与将 GRS 的连续值离散化处理。

为什么这个特例是“最小内核”: - 揭示了整篇论文方法上无新贡献:所有技术细节都已被 1992 年 Hosmer & Lemeshow 的文章覆盖。 - 作者没有尝试任何更复杂的模型(如半参数/非参数回归、倾向得分 RERI、基于 efficient influence function 的稳健推断、sensitivity analysis 等)。 - 论文的 contribution 纯粹是实证规模与系统性的问题,而非方法学突破。


三、这篇论文做了什么(本次重心,务必讲透)

类型判断:本文是应用/方法型,但方法极简(已固化的标准方法),所以重心在实证。以下按此拆。

三句话概括 1. 利用大型 CRC 多联盟汇总数据(45,247 病例 + 52,671 对照),同时检验了遗传风险评分与 13 个环境因素在乘法与加法两个尺度上的交互作用。 2. 核心方法是拟合 logistic 回归并报告乘法交互项(OR 交互项)与加法交互 RERI(由模型参数的 delta method 得到)。 3. 主要发现:所有乘法交互均不显著(P > 0.05 校正后),但多个环境因素在加法尺度上呈现显著效应——重度饮酒、吸烟、高 BMI、高红肉摄入的正 RERI(超额风险增加),以及阿司匹林/NSAIDs、水果、纤维、钙摄入的负 RERI(保护作用更强)。

关键设定与假设

补充完整记号(基于第二节基础): - GRS:基于 141 个已确认的 CRC 风险位点,构建加权遗传风险评分(GRS)。GRS 被分为三分位数(tertile):低、中、高。分析中,G 被编码为二值:高 vs 中+低(注意:GRS 的离散化方式——使用三分位切分意味着“高遗传风险”的截断点来自本样本分布)。 - 环境因素:13 个变量的清单如下(从原文 Methods 中提取):吸烟(从未/曾经)、饮酒(标准杯/周,分为三分位)、BMI(连续+四分位)、体力活动(MET-hours/week)、红肉摄入(g/day)、加工肉摄入(g/day)、蔬菜摄入(g/day)、水果摄入(g/day)、膳食纤维(g/day)、钙摄入(mg/day)、β-胡萝卜素(µg/day)、阿司匹林/NSAIDs 使用(是/否)、激素替代疗法(女性,是/否)。每个环境因素在原文中还有具体的分类切点与异常值处理。分析中,连续变量大多被离散化为 Q1-Q4(四分位)或二值(如现用阿司匹林 vs 否)。 - 协变量 Z:age、sex、study center/geographic region、经前 10 个主成分(控制人群分层)、吸烟与饮酒已在某些模型中做额外调整(原文指出,在检验某个环境因素时,该环境因素作为主要暴露,其余环境与协变量共同控制)。注意:某些环境如 red meat 与 alcohol 间存在混杂,但均以“环境变量 + 其它环境”进入 logistic 回归。 - 模型:对每个环境因素 E 和 GRS(二值)拟合一个 logistic 回归方程:

\[\log\!\left( \frac{P(Y=1)}{1-P(Y=1)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G\times E) + \gamma^\top Z,\]
其中 E 如果是连续,则以线性项加入;如果是分类(如 Q1-Q4),则用哑变量(按环境变量编码自然)。 - 对于连续性环境 BMI 与体力活动,除了分析离散四分位,还做了连续尺度的交互。 - 假设效应: - logistic 模型线性可加假设(在协变量上稍微放松,但不做显式模型检验)。 - 病例-对照设计下,logistic 回归的 OR 近似等于 case-cohort 的 OR(因为 CRC 是较罕见的结直肠癌变总体,但样本本身是已患病 vs 未患病,精确地说,对常见的结肠息肉或缺血性心脏病,logistic 回归会高估 OR,但对结直肠癌,发病率为 ~5% / 年,属于中间情况——本文未讨论)。 - 缺失数据:假设多重插补(MICE)未引入大的偏差。具体为:每个环境变量的缺失值在 ~2%~8% 之间,直接按“missing category”处理或多重归并——原文确认使用 MICE。 - 与已有文献相比的强化:样本量大(~98k),13 个环境因素来自联盟级统一协调,减少异质性;弱化:方法标准,未使用更先进的因果推断框架(如 doubly robust estimation、targeted maximum likelihood 等)。

主要结果

环境因素 乘法交互 P 值 RERI(高 vs 平均遗传风险 95% CI
重度饮酒(high vs light/none) ns(未提供具体值) 0.24 (0.13, 0.36)
吸烟(ever vs never) ns 0.11 (0.05, 0.16)
BMI(女性,高 vs 低) ns 0.09 (0.05, 0.13)
BMI(男性,高 vs 低) ns 0.10 (0.05, 0.14)
红肉摄入(Q4 vs Q1) ns 0.18 (0.09, 0.27)
阿司匹林/NSAIDs(yes vs no) ns –0.16 (–0.20, –0.11)
水果摄入(Q4 vs Q1) ns –0.12 (–0.18, –0.05)
膳食纤维(Q4 vs Q1) ns –0.16 (–0.23, –0.09)
钙摄入(Q4 vs Q1) ns –0.11 (–0.18, –0.05)
  • 所有乘法交互的 P > 0.05 校正后(即交互 OR = 1 未被拒绝),说明在相对风险尺度上无修饰。
  • 加法交互(RERI)显示:对于正 RERI,高遗传风险 + 不良暴露的联合超额风险超过“各自之和”;对于负 RERI,高遗传风险 + 保护因素的联合保护作用大于“各自之和”。
  • 多重比较校正采用 Bonferroni:由于对 13 个环境因素 × 2(性别)进行了校正(即 26 次检验),RERI 显著性仍然保留(原文称所有上述 RERI 的 P 值 <0.0019 — 0.05/26)。

证明路线与技术技巧(理论型论文特有的部分——但本文不是理论型;不过为保持结构完整,仍然写)

本文不包含严格意义上的渐近证明,纯属应用。但我们可以就RERI 的 delta method 推断框架给出路线:

  1. 模型拟合:标准 logistic MLE。
  2. RERI 的 delta 公式
  3. 定义 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\)
  4. 由 MLE 的经典渐近理论:\(\sqrt{n}(\hat\beta - \beta) \xrightarrow{d} N(0, I(\beta)^{-1})\)
  5. 由 delta method:\(\sqrt{n}(g(\hat\beta) - g(\beta)) \xrightarrow{d} N(0, \nabla g(\beta)^\top I(\beta)^{-1} \nabla g(\beta))\)
  6. 当 n 很大时,可将 \(I(\beta)^{-1}\) 替换为经验 Fisher 信息矩阵。
  7. 协方差矩阵的数值计算:由软件(如 SAS NLMIXED / Stata nlcom / R margins)自动完成。
  8. 基线选择:RERI 依赖于“基线”组的定义(谁为 \(G=0, E=0\))。本文使用的基线是平均遗传风险 + 环境最低类别。

技术技巧点名: - delta method:标准一阶泰勒展开,用 MLE 的方差传播到 RERI 上。用标准误差构造 Wald 型置信区间。 - Bonferroni 多重比较校正:非常保守,意味着发现是正确的,但也意味着可能丢失了一些真实的交互(若有)。 - 缺失数据处理:MICE(多重插补)用于估计缺失环境变量——使用 5 个插补。 - :empirical process、higher-order U-statistics、efficient influence function、cross-fitting、bootstrap(虽然 bootstrap 也是可能的,但这里只使用 delta method)。所以此节较少。

真实例子与应用(必须讲)

本文就是纯真实例子。使用的数据如下: - 数据源:来自 GECCO(Genetics and Epidemiology of Colorectal Cancer Consortium)、CCACE(Colorectal Cancer Genetics & Genomics)、CORECT(Colon Cancer Family Registry)等多个联盟的汇总数据,最终纳入 45,247 病例 + 52,671 对照。人口分布于北美、欧洲、澳洲的多个地区的队列和病例-对照研究。 - 如何应用方法:对 13 个环境变量的每一个,都拟合含 GRS(二值:高 vs 平均)× 该环境交互项的 logistic 回归,同时控制该环境变量本身与 GRS 以及协变量。每个环境变量被分别建模(即没有建立一个包含所有环境交互项的大模型,而是 13 个独立模型)。每个模型报告乘法交互 OR 及其 P 值,以及 RERI 与 95% CI。 - 结果:如上表。解释为:对于正 RERI 的环境暴露(heavy drinking, smoking, high BMI, high red meat),高遗传风险人群在这些暴露下 CRC 的超额风险显著更大;对于负 RERI 的暴露(ASA/NSAIDs, fruit, fiber, calcium),高遗传风险人群更受益于这些保护因素。 - 这个例子要说明什么: 1. 验证乘法交互不显著时,加法交互仍可显著——说明乘法交互不是唯一相关。 2. 为公共卫生提供信息:识别出哪些高危遗传人群对环境危险因素更脆弱,又有哪些人群更受益于保护因素,用于个性化预防干预策略。 3. 展示大样本的力量——小样本难以检测出 RERI 的细微信号(如 RERI=0.09 在 n~10k 时不显著)。

🔎 结论是否比证明窄

  • 是的。论文在引言与讨论中使用了“subgroups who may benefit more from intervention”这样的因果/预测语言。然而,严格来说,logistic 回归识别的是条件关联,不是因果(存在未测量的混杂,且病例-对照设计的回顾性质本身意味着不能解释为“干预效果”)。这点在论文的 Limitations 段落被部分承认(“Residual confounding may exist, and the case-control design precludes causal inference”),但 Discussion 开头仍然将结论包装成预防的指导性。

  • 具体被泛化的语句举例:“Those with high genetic susceptibility may benefit more from reducing CRC risk with aspirin/NSAIDs use”(Discussion 第一段)——严格来说,观察到的负 RERI 只是一个条件 OR 尺度的加法交互,在因果上,它只表明“在已有该基因背景的人群中,阿司匹林使用的保护作用OR更大”,不涉及逆概率因果推断,也不等同于“干预使这组人受益更多”。这是所有观察性 G×E 研究的通病。

  • 另,本文只报告了“高 vs 平均遗传风险”这种二值对比,但 GRS 本质是连续(141 个 SNP 的加权和),离散化可能丢失信息。作者也做了连续 GRS 尺度的分析(作为辅助分析),但未作为主要结果。


四、开放问题(点到为止,扎根具体语句)

基于论文本身和当前方向的局限,可罗列最多 4 条开放问题:

  1. RERI 对基线选择的敏感性:当环境因素被切分为四分位时,不同的切分选择会产生不同的 RERI 数值——目前的方法是四分位切分,但更灵活的加权平均 RERI(如 Aalen's additive model 的估计量)是否会给出更稳健的结果?扎根:本文中红肉摄入使用 Q1 为参照,但若改 Q2 vs Q4 则 RERI 可能变化——文中只有 Q4 vs Q1 报告。

  2. 基因-环境联合分布不可低估时的偏倚:logistic 回归假设疾病罕见,CRC 的 5 年发病率约 5%,已不是传统罕见病(<2%)——logistic 产生的 OR 偏高,对 RERI 的偏倚方向与大小如何?扎根:Methods 部分提到"Colorectal cancer is relatively uncommon"但未提供定量评估。可阅读 Lubin & Gatto(2006)关于对数线性 vs logistic 模型中 RERI 偏倚的论文。

  3. 对于多个环境因素,如何做联合加法交互推断?——本文只做了每个环境单独建模。若想回答“对同一组人群,哪个环境交互最强”或“环境中哪些组合共同交互”,需要一个联合模型(如多项 logistic、多变量 RERI)。扎根:本文的分析是 13 个独立模型,没有联合交互项。

  4. 对 RERI 的 sensitivity analysis 与完全稳健推断:除了delta method,是否存在基于 efficient influence function(EIF)的 RERI 估计量,使得对模型误设定更稳健?扎根:本文是纯 logistic 参数推断,无半参数或双重稳健方法。对寻找半参数 RERI 感兴趣的研究者可查看 Tchetgen Tchetgen(2013, Biometrika)的 multiplicative-additive interaction 类的工作。这是一个直接吻合你 primary interest 中的 semiparametric theory 与 efficiency 的开放问题。

提醒:如果希望确认第 4 条是否是真 gap,可搜索近 5 年 EpidemiologyBiometrics 中“RERI + efficient influence function / semiparametric”的论文,看有多少篇(几乎空白,说明可做;若近年已有几篇,则为已有框架,需要新问题)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论