Characterization of Additive Gene–environment Interactions For Colorectal Cancer Risk¶
作者: Claire E. Thomas, Yi Lin, Michelle Kim, Eric S. Kawaguchi, Conghui Qu et al.
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: University of Southern California(US News 前 50,免分进入精读)
链接: https://doi.org/10.1097/ede.0000000000001795
一、领域脉络与小综述¶
这个方向是什么
本方向研究的是基因-环境交互作用(G×E)的统计学识别与公共卫生解读,具体聚焦于如何在病例-对照研究设计中,通过 logistic 回归这一标准工具,量化基因背景与环境暴露的联合效应是否大于各自效应之和(加法交互),而非传统的乘积项显著性检验(乘法交互)。该方向当前成熟度很高——方法学基础(RERI 的构造与置信区间)已建立数十年,但大规模实际应用(尤其是使用联盟级数据统一评估多个环境因素)仍属稀缺。本文填补的正是这个“方法熟但大规模应用少”的缺口。
发展脉络
-
奠基工作(1980s–1990s):Rothman(1986)在《Modern Epidemiology》中系统提出在“充分病因(sufficient cause)”框架下,加法交互是公共卫生相关度量——感兴趣的不是风险比的乘积是否为1,而是联合效应减去各独立效应后的超额风险。同时,Hosmer & Lemeshow(1992)给出 logistic 模型中加法交互指标 RERI(Relative Excess Risk due to Interaction)的点估计与标准误差计算(delta method)。这两个工作是本文的基石。
-
主要进展(2000s–2010s):VanderWeele & Knol(2014)的教科书章节与综述文章(如 VanderWeele, 2009, Epidemiology)进一步澄清了乘法与加法交互的区分:乘法交互(OR scale)回答的是“是否在相对风险上有修饰”,而加法交互回答的是“是否在绝对超额风险上有修饰”。Knol et al.(2011)给出在 logistic 模型中计算 RERI 置信区间的三种方法(delta method、bootstrap、Fieller's method),并推荐在大样本中优先使用 delta method。同时,Lubin & Gatto(2006)讨论了对数线性模型下加法交互的识别条件,指出 logistic 近似下 RERI 可偏倚(当疾病罕见假设不满足时)。
-
当前 frontier(2010s–2020s):大规模遗传流行病学联盟(如 GECCO、CCACE、CORECT)积累了数十万病例-对照的基因分型数据,使得 G×E 分析从单变异位点转向多基因遗传风险评分(GRS)。已有的联盟级报告(如 Schmit et al., JNCI, 2019; Huyghe et al., Nat Genet, 2019)主要报告乘法交互(P 值、OR 交互项),加法交互的联盟级综合报告几乎不存在。本文的作者们指出:“few have assessed additive interaction, the relevant public health measure”——这是该领域的核心缺口。
-
本文的位置:本文是首个在最大 CRC 联盟样本(~98k 样本)中对 13 个环境因素与 GRS 同时报告乘法与加法交互的横断面分析。它不是方法学论文(方法标准),而是填补了“大样本加法交互实证报告”的空白。
子线索聚类
被引文献按主题可聚类为两条子线索: 1. 方法学线索:围绕如何在 logistic / 对数线性模型下定义并计算加法交互指标(RERI, attributable proportion, synergy index)。核心论文:Hosmer & Lemeshow (1992), Knol et al. (2011), VanderWeele & Knol (2014), Andersson et al. (2005, Statistics in Medicine)。这一线索已十分成熟。 2. 实证应用线索:已有大型 CRC G×E 研究集中在乘法交互,给出 P 值与 OR,但仅少数小样本研究(n<10k)涉及加法交互。代表性工作:Figueiredo et al. (2011, Cancer Research), Campbell et al. (2013, Carcinogenesis)。本文就是这个线上迄今最大的实证补充。
这个方向在追问的核心问题
- 加法交互是否普遍存在?——乘法交互不显著是否意味着没有流行病学意义的交互?(本文直接回答:是,本文发现的乘法交互均不显著,但加法交互显著。)
- 在罕见疾病假设不一定满足时(中间终点或常见病),对 RERI 的偏倚有多大?——本文未深入,但为此文公开了信息。
- 多个环境因素与一个 GRS 的加法交互如何做多重比较校正?——本文采用 Bonferroni 校正(13个环境变量 × 2个性别亚组),但标准不一。
⚠️ 作者的 framing
- 作者把缺口 frame 成:“之前很少用大样本评估加法交互,而加法交互是公共卫生相关度量,我们填补了这个空白。”——这是合理的叙述,因为联盟级加法交互分析确实是一个实证缺口。
- 被淡化的竞争路线:作者没有讨论其他加法交互指标(如 attributable proportion, synergy index),也没有讨论更灵活的模型(如 GAM 或 spline 替代 logistic 线性假设),隐含地接受了 logistic 回归线性可加的充分性。
- 什么明显该被引 / 该存在、却没出现在 intro 里?:没有引用专门讨论 RERI 置信区间有限的模拟比较(如 Zou, 2008, American Journal of Epidemiology 给出的基于 modified Poisson 的 RERI 计算)。也没有引用最近提出的非参数加法交互估计量(如 Sun et al., 2023, Biometrics 基于 AFT 或 Fine-Gray 模型的加法交互)。这可能是由于作者聚焦在标准方法上。
张力
未见明显对立引用。方法学文献高度一致,共识明确:如果有病例-对照数据,logistic 回归 + delta method 是计算 RERI 的标准做法。唯一潜在张力在应用层面:小样本 RERI 的研究(如 n<5k)往往给出不显著或方向不一致的结果——本文的样本量优势使得它可以提供更稳定的估计,但也使得前人的非显著结果更有可能是Ⅱ类错误,而非真正的 null。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
本文的核心建模是病例-对照设计下的 logistic 回归。我们建立最小记号:
符号: - \(Y \in \{0,1\}\):CRC 患病状态。1 = 病例,0 = 对照。 - \(G\):遗传风险评分(GRS),本文定义为基于 141 个 CRC 相关位点的加权和。在分析中被离散化为二值或三分位:高遗传风险(highest tertile)与平均遗传风险(middle + lowest tertile)。在分析中 G 是二值变量。 - \(E\):环境暴露变量。本文检验 13 个环境因素。每个 E 可以是二值(如 ever smoker vs never smoker)或有序分类(如红肉摄入的四个四分位,Q1-Q4),并作为连续或分类变量加入模型。我们这里以二值 E 为例展开。 - \(Z\):协变量向量(如年龄、性别、中心/机构、基因主成分——用于控制人群分层)。 - 样本:可观测到的 i.i.d. 数据 \(\{(Y_i, G_i, E_i, Z_i), i=1,\dots,n\}\),其中 n 很大(总计 97,918 个个体)。
模型(标准 logistic 回归):
其中: - \(\beta_1\) 是 G 的主效应(log OR:相对于 G=0 的基线的遗传效应)。 - \(\beta_2\) 是 E 的主效应(log OR)。 - \(\beta_3\) 是 乘法交互项(log OR scale 上的乘积项——度量的是“相对风险是否被修饰”)。 - \(\gamma\) 是协变量的 log OR。
估计方法:最大似然估计(MLE),标准误差由 Fisher 信息矩阵的逆的相应元素得到。
可观测数据 vs 潜在量: - 可观测:\(Y, G, E, Z\)。 - 不可观测/潜在:没有改变 G 或 E 后的潜在结果(该研究是观察性病例-对照,不能操作 G 或 E)。加法交互 RERI 被解释为“人群层面超额风险”而非“因果层面对反事实的加法交互”,logistic 回归给的是条件 OR,其因果解释需要额外假设(无未测量的混杂、病例-对照设计下的抽样偏倚等),但这些不在本文显式讨论中。 - 本文估计量直接是 MLE 的函数,无需显式引入反事实符号。
第二步:最小内核
本文的数学内核极其简单:在 logistic 回归 MLE 的渐近正态性之下,RERI 是 MLE 的一个非线性函数,然后由 delta method 得到其标准误差与置信区间。全部统计困难实际上已经由标准 logistic 回归软件解决。下面用最简单特例讲清楚。
最简特例: 假设只有单个二值基因风险 \(G \in \{0,1\}\)(高 vs 非高),和单个二值环境暴露 \(E \in \{0,1\}\)(暴露 vs 非暴露),没有其他协变量 Z。此时 logistic 模型退化为:
其中 \(p(G,E) = P(Y=1 \mid G,E)\)。
乘法交互指的是检验 \(H_0: \beta_3 = 0\);加法交互关注的是 RERI。RERI 的定义为:
即在 OR scale 上,它是:
解释:这是指以“G=0, E=0”为基线,同时暴露人群(G=1, E=1)的 CRC 的 OR,减去“仅 G=1”的 OR,再减去“仅 E=1”的 OR,再加回基线 OR(1),得到超额 OR。RERI > 0 意味着联合效应超过了各自效应之和。
怎么估计 RERI: 1. 用标准软件拟合 logistic 回归,得到 \((\hat\beta_0, \hat\beta_1, \hat\beta_2, \hat\beta_3)\) 与它们的方差-协方差矩阵 \(\hat\Sigma\)(MLE 的渐近方差)。 2. 计算:\(\widehat{\text{RERI}} = \exp(\hat\beta_1+\hat\beta_2+\hat\beta_3) - \exp(\hat\beta_1) - \exp(\hat\beta_2) + 1\)。 3. 用 delta method:令 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\),则
这个特例展示了论文核心思路的全部:即便论文扩展到 13 个环境因素、141-SNP 的 GRS、有协变量,本质步骤完全相同——不过是对每个环境因素拟合一个包含主效应 + 交互项(GRS × 该环境因素)的 logistic 回归,计算 RERI 及其 CI 的公式完全一样。主要附加工作只是多重比较校正(Bonferroni 校正)与将 GRS 的连续值离散化处理。
为什么这个特例是“最小内核”: - 揭示了整篇论文方法上无新贡献:所有技术细节都已被 1992 年 Hosmer & Lemeshow 的文章覆盖。 - 作者没有尝试任何更复杂的模型(如半参数/非参数回归、倾向得分 RERI、基于 efficient influence function 的稳健推断、sensitivity analysis 等)。 - 论文的 contribution 纯粹是实证规模与系统性的问题,而非方法学突破。
三、这篇论文做了什么(本次重心,务必讲透)¶
类型判断:本文是应用/方法型,但方法极简(已固化的标准方法),所以重心在实证。以下按此拆。
三句话概括 1. 利用大型 CRC 多联盟汇总数据(45,247 病例 + 52,671 对照),同时检验了遗传风险评分与 13 个环境因素在乘法与加法两个尺度上的交互作用。 2. 核心方法是拟合 logistic 回归并报告乘法交互项(OR 交互项)与加法交互 RERI(由模型参数的 delta method 得到)。 3. 主要发现:所有乘法交互均不显著(P > 0.05 校正后),但多个环境因素在加法尺度上呈现显著效应——重度饮酒、吸烟、高 BMI、高红肉摄入的正 RERI(超额风险增加),以及阿司匹林/NSAIDs、水果、纤维、钙摄入的负 RERI(保护作用更强)。
关键设定与假设
补充完整记号(基于第二节基础): - GRS:基于 141 个已确认的 CRC 风险位点,构建加权遗传风险评分(GRS)。GRS 被分为三分位数(tertile):低、中、高。分析中,G 被编码为二值:高 vs 中+低(注意:GRS 的离散化方式——使用三分位切分意味着“高遗传风险”的截断点来自本样本分布)。 - 环境因素:13 个变量的清单如下(从原文 Methods 中提取):吸烟(从未/曾经)、饮酒(标准杯/周,分为三分位)、BMI(连续+四分位)、体力活动(MET-hours/week)、红肉摄入(g/day)、加工肉摄入(g/day)、蔬菜摄入(g/day)、水果摄入(g/day)、膳食纤维(g/day)、钙摄入(mg/day)、β-胡萝卜素(µg/day)、阿司匹林/NSAIDs 使用(是/否)、激素替代疗法(女性,是/否)。每个环境因素在原文中还有具体的分类切点与异常值处理。分析中,连续变量大多被离散化为 Q1-Q4(四分位)或二值(如现用阿司匹林 vs 否)。 - 协变量 Z:age、sex、study center/geographic region、经前 10 个主成分(控制人群分层)、吸烟与饮酒已在某些模型中做额外调整(原文指出,在检验某个环境因素时,该环境因素作为主要暴露,其余环境与协变量共同控制)。注意:某些环境如 red meat 与 alcohol 间存在混杂,但均以“环境变量 + 其它环境”进入 logistic 回归。 - 模型:对每个环境因素 E 和 GRS(二值)拟合一个 logistic 回归方程:
主要结果
| 环境因素 | 乘法交互 P 值 | RERI(高 vs 平均遗传风险 | 95% CI |
|---|---|---|---|
| 重度饮酒(high vs light/none) | ns(未提供具体值) | 0.24 | (0.13, 0.36) |
| 吸烟(ever vs never) | ns | 0.11 | (0.05, 0.16) |
| BMI(女性,高 vs 低) | ns | 0.09 | (0.05, 0.13) |
| BMI(男性,高 vs 低) | ns | 0.10 | (0.05, 0.14) |
| 红肉摄入(Q4 vs Q1) | ns | 0.18 | (0.09, 0.27) |
| 阿司匹林/NSAIDs(yes vs no) | ns | –0.16 | (–0.20, –0.11) |
| 水果摄入(Q4 vs Q1) | ns | –0.12 | (–0.18, –0.05) |
| 膳食纤维(Q4 vs Q1) | ns | –0.16 | (–0.23, –0.09) |
| 钙摄入(Q4 vs Q1) | ns | –0.11 | (–0.18, –0.05) |
- 所有乘法交互的 P > 0.05 校正后(即交互 OR = 1 未被拒绝),说明在相对风险尺度上无修饰。
- 加法交互(RERI)显示:对于正 RERI,高遗传风险 + 不良暴露的联合超额风险超过“各自之和”;对于负 RERI,高遗传风险 + 保护因素的联合保护作用大于“各自之和”。
- 多重比较校正采用 Bonferroni:由于对 13 个环境因素 × 2(性别)进行了校正(即 26 次检验),RERI 显著性仍然保留(原文称所有上述 RERI 的 P 值 <0.0019 — 0.05/26)。
证明路线与技术技巧(理论型论文特有的部分——但本文不是理论型;不过为保持结构完整,仍然写)
本文不包含严格意义上的渐近证明,纯属应用。但我们可以就RERI 的 delta method 推断框架给出路线:
- 模型拟合:标准 logistic MLE。
- RERI 的 delta 公式:
- 定义 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\),
- 由 MLE 的经典渐近理论:\(\sqrt{n}(\hat\beta - \beta) \xrightarrow{d} N(0, I(\beta)^{-1})\)。
- 由 delta method:\(\sqrt{n}(g(\hat\beta) - g(\beta)) \xrightarrow{d} N(0, \nabla g(\beta)^\top I(\beta)^{-1} \nabla g(\beta))\)。
- 当 n 很大时,可将 \(I(\beta)^{-1}\) 替换为经验 Fisher 信息矩阵。
- 协方差矩阵的数值计算:由软件(如 SAS NLMIXED / Stata nlcom / R margins)自动完成。
- 基线选择:RERI 依赖于“基线”组的定义(谁为 \(G=0, E=0\))。本文使用的基线是平均遗传风险 + 环境最低类别。
技术技巧点名: - delta method:标准一阶泰勒展开,用 MLE 的方差传播到 RERI 上。用标准误差构造 Wald 型置信区间。 - Bonferroni 多重比较校正:非常保守,意味着发现是正确的,但也意味着可能丢失了一些真实的交互(若有)。 - 缺失数据处理:MICE(多重插补)用于估计缺失环境变量——使用 5 个插补。 - 无:empirical process、higher-order U-statistics、efficient influence function、cross-fitting、bootstrap(虽然 bootstrap 也是可能的,但这里只使用 delta method)。所以此节较少。
真实例子与应用(必须讲)
本文就是纯真实例子。使用的数据如下: - 数据源:来自 GECCO(Genetics and Epidemiology of Colorectal Cancer Consortium)、CCACE(Colorectal Cancer Genetics & Genomics)、CORECT(Colon Cancer Family Registry)等多个联盟的汇总数据,最终纳入 45,247 病例 + 52,671 对照。人口分布于北美、欧洲、澳洲的多个地区的队列和病例-对照研究。 - 如何应用方法:对 13 个环境变量的每一个,都拟合含 GRS(二值:高 vs 平均)× 该环境交互项的 logistic 回归,同时控制该环境变量本身与 GRS 以及协变量。每个环境变量被分别建模(即没有建立一个包含所有环境交互项的大模型,而是 13 个独立模型)。每个模型报告乘法交互 OR 及其 P 值,以及 RERI 与 95% CI。 - 结果:如上表。解释为:对于正 RERI 的环境暴露(heavy drinking, smoking, high BMI, high red meat),高遗传风险人群在这些暴露下 CRC 的超额风险显著更大;对于负 RERI 的暴露(ASA/NSAIDs, fruit, fiber, calcium),高遗传风险人群更受益于这些保护因素。 - 这个例子要说明什么: 1. 验证乘法交互不显著时,加法交互仍可显著——说明乘法交互不是唯一相关。 2. 为公共卫生提供信息:识别出哪些高危遗传人群对环境危险因素更脆弱,又有哪些人群更受益于保护因素,用于个性化预防干预策略。 3. 展示大样本的力量——小样本难以检测出 RERI 的细微信号(如 RERI=0.09 在 n~10k 时不显著)。
🔎 结论是否比证明窄
-
是的。论文在引言与讨论中使用了“subgroups who may benefit more from intervention”这样的因果/预测语言。然而,严格来说,logistic 回归识别的是条件关联,不是因果(存在未测量的混杂,且病例-对照设计的回顾性质本身意味着不能解释为“干预效果”)。这点在论文的 Limitations 段落被部分承认(“Residual confounding may exist, and the case-control design precludes causal inference”),但 Discussion 开头仍然将结论包装成预防的指导性。
-
具体被泛化的语句举例:“Those with high genetic susceptibility may benefit more from reducing CRC risk with aspirin/NSAIDs use”(Discussion 第一段)——严格来说,观察到的负 RERI 只是一个条件 OR 尺度的加法交互,在因果上,它只表明“在已有该基因背景的人群中,阿司匹林使用的保护作用OR更大”,不涉及逆概率因果推断,也不等同于“干预使这组人受益更多”。这是所有观察性 G×E 研究的通病。
-
另,本文只报告了“高 vs 平均遗传风险”这种二值对比,但 GRS 本质是连续(141 个 SNP 的加权和),离散化可能丢失信息。作者也做了连续 GRS 尺度的分析(作为辅助分析),但未作为主要结果。
四、开放问题(点到为止,扎根具体语句)¶
基于论文本身和当前方向的局限,可罗列最多 4 条开放问题:
-
RERI 对基线选择的敏感性:当环境因素被切分为四分位时,不同的切分选择会产生不同的 RERI 数值——目前的方法是四分位切分,但更灵活的加权平均 RERI(如 Aalen's additive model 的估计量)是否会给出更稳健的结果?扎根:本文中红肉摄入使用 Q1 为参照,但若改 Q2 vs Q4 则 RERI 可能变化——文中只有 Q4 vs Q1 报告。
-
基因-环境联合分布不可低估时的偏倚:logistic 回归假设疾病罕见,CRC 的 5 年发病率约 5%,已不是传统罕见病(<2%)——logistic 产生的 OR 偏高,对 RERI 的偏倚方向与大小如何?扎根:Methods 部分提到"Colorectal cancer is relatively uncommon"但未提供定量评估。可阅读 Lubin & Gatto(2006)关于对数线性 vs logistic 模型中 RERI 偏倚的论文。
-
对于多个环境因素,如何做联合加法交互推断?——本文只做了每个环境单独建模。若想回答“对同一组人群,哪个环境交互最强”或“环境中哪些组合共同交互”,需要一个联合模型(如多项 logistic、多变量 RERI)。扎根:本文的分析是 13 个独立模型,没有联合交互项。
-
对 RERI 的 sensitivity analysis 与完全稳健推断:除了delta method,是否存在基于 efficient influence function(EIF)的 RERI 估计量,使得对模型误设定更稳健?扎根:本文是纯 logistic 参数推断,无半参数或双重稳健方法。对寻找半参数 RERI 感兴趣的研究者可查看 Tchetgen Tchetgen(2013, Biometrika)的 multiplicative-additive interaction 类的工作。这是一个直接吻合你 primary interest 中的 semiparametric theory 与 efficiency 的开放问题。
提醒:如果希望确认第 4 条是否是真 gap,可搜索近 5 年 Epidemiology 或 Biometrics 中“RERI + efficient influence function / semiparametric”的论文,看有多少篇(几乎空白,说明可做;若近年已有几篇,则为已有框架,需要新问题)。
Maintained by 陈星宇 · Homepage · Source on GitHub