Characterization of Additive Gene–environment Interactions For Colorectal Cancer Risk¶

作者: Claire E. Thomas, Yi Lin, Michelle Kim, Eric S. Kawaguchi, Conghui Qu et al.
来源: Epidemiology
主题: 流行病学
相关性: 5/10
机构绿灯: University of Southern California（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001795

一、领域脉络与小综述¶

这个方向是什么

本方向研究的是基因-环境交互作用（G×E）的统计学识别与公共卫生解读，具体聚焦于如何在病例-对照研究设计中，通过 logistic 回归这一标准工具，量化基因背景与环境暴露的联合效应是否大于各自效应之和（加法交互），而非传统的乘积项显著性检验（乘法交互）。该方向当前成熟度很高——方法学基础（RERI 的构造与置信区间）已建立数十年，但大规模实际应用（尤其是使用联盟级数据统一评估多个环境因素）仍属稀缺。本文填补的正是这个“方法熟但大规模应用少”的缺口。

发展脉络

奠基工作（1980s–1990s）：Rothman（1986）在《Modern Epidemiology》中系统提出在“充分病因（sufficient cause）”框架下，加法交互是公共卫生相关度量——感兴趣的不是风险比的乘积是否为1，而是联合效应减去各独立效应后的超额风险。同时，Hosmer & Lemeshow（1992）给出 logistic 模型中加法交互指标 RERI（Relative Excess Risk due to Interaction）的点估计与标准误差计算（delta method）。这两个工作是本文的基石。
主要进展（2000s–2010s）：VanderWeele & Knol（2014）的教科书章节与综述文章（如 VanderWeele, 2009, Epidemiology）进一步澄清了乘法与加法交互的区分：乘法交互（OR scale）回答的是“是否在相对风险上有修饰”，而加法交互回答的是“是否在绝对超额风险上有修饰”。Knol et al.（2011）给出在 logistic 模型中计算 RERI 置信区间的三种方法（delta method、bootstrap、Fieller's method），并推荐在大样本中优先使用 delta method。同时，Lubin & Gatto（2006）讨论了对数线性模型下加法交互的识别条件，指出 logistic 近似下 RERI 可偏倚（当疾病罕见假设不满足时）。
当前 frontier（2010s–2020s）：大规模遗传流行病学联盟（如 GECCO、CCACE、CORECT）积累了数十万病例-对照的基因分型数据，使得 G×E 分析从单变异位点转向多基因遗传风险评分（GRS）。已有的联盟级报告（如 Schmit et al., JNCI, 2019; Huyghe et al., Nat Genet, 2019）主要报告乘法交互（P 值、OR 交互项），加法交互的联盟级综合报告几乎不存在。本文的作者们指出：“few have assessed additive interaction, the relevant public health measure”——这是该领域的核心缺口。
本文的位置：本文是首个在最大 CRC 联盟样本（~98k 样本）中对 13 个环境因素与 GRS 同时报告乘法与加法交互的横断面分析。它不是方法学论文（方法标准），而是填补了“大样本加法交互实证报告”的空白。

子线索聚类

被引文献按主题可聚类为两条子线索： 1. 方法学线索：围绕如何在 logistic / 对数线性模型下定义并计算加法交互指标（RERI, attributable proportion, synergy index）。核心论文：Hosmer & Lemeshow (1992), Knol et al. (2011), VanderWeele & Knol (2014), Andersson et al. (2005, Statistics in Medicine)。这一线索已十分成熟。 2. 实证应用线索：已有大型 CRC G×E 研究集中在乘法交互，给出 P 值与 OR，但仅少数小样本研究（n<10k）涉及加法交互。代表性工作：Figueiredo et al. (2011, Cancer Research), Campbell et al. (2013, Carcinogenesis)。本文就是这个线上迄今最大的实证补充。

这个方向在追问的核心问题

加法交互是否普遍存在？——乘法交互不显著是否意味着没有流行病学意义的交互？（本文直接回答：是，本文发现的乘法交互均不显著，但加法交互显著。）
在罕见疾病假设不一定满足时（中间终点或常见病），对 RERI 的偏倚有多大？——本文未深入，但为此文公开了信息。
多个环境因素与一个 GRS 的加法交互如何做多重比较校正？——本文采用 Bonferroni 校正（13个环境变量 × 2个性别亚组），但标准不一。

⚠️ 作者的 framing

作者把缺口 frame 成：“之前很少用大样本评估加法交互，而加法交互是公共卫生相关度量，我们填补了这个空白。”——这是合理的叙述，因为联盟级加法交互分析确实是一个实证缺口。
被淡化的竞争路线：作者没有讨论其他加法交互指标（如 attributable proportion, synergy index），也没有讨论更灵活的模型（如 GAM 或 spline 替代 logistic 线性假设），隐含地接受了 logistic 回归线性可加的充分性。
什么明显该被引 / 该存在、却没出现在 intro 里？：没有引用专门讨论 RERI 置信区间有限的模拟比较（如 Zou, 2008, American Journal of Epidemiology 给出的基于 modified Poisson 的 RERI 计算）。也没有引用最近提出的非参数加法交互估计量（如 Sun et al., 2023, Biometrics 基于 AFT 或 Fine-Gray 模型的加法交互）。这可能是由于作者聚焦在标准方法上。

张力

未见明显对立引用。方法学文献高度一致，共识明确：如果有病例-对照数据，logistic 回归 + delta method 是计算 RERI 的标准做法。唯一潜在张力在应用层面：小样本 RERI 的研究（如 n<5k）往往给出不显著或方向不一致的结果——本文的样本量优势使得它可以提供更稳定的估计，但也使得前人的非显著结果更有可能是Ⅱ类错误，而非真正的 null。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

本文的核心建模是病例-对照设计下的 logistic 回归。我们建立最小记号：

符号： - \(Y \in \{0,1\}\)：CRC 患病状态。1 = 病例，0 = 对照。 - \(G\)：遗传风险评分（GRS），本文定义为基于 141 个 CRC 相关位点的加权和。在分析中被离散化为二值或三分位：高遗传风险（highest tertile）与平均遗传风险（middle + lowest tertile）。在分析中 G 是二值变量。 - \(E\)：环境暴露变量。本文检验 13 个环境因素。每个 E 可以是二值（如 ever smoker vs never smoker）或有序分类（如红肉摄入的四个四分位，Q1-Q4），并作为连续或分类变量加入模型。我们这里以二值 E 为例展开。 - \(Z\)：协变量向量（如年龄、性别、中心/机构、基因主成分——用于控制人群分层）。 - 样本：可观测到的 i.i.d. 数据 \(\{(Y_i, G_i, E_i, Z_i), i=1,\dots,n\}\)，其中 n 很大（总计 97,918 个个体）。

模型（标准 logistic 回归）：

\[\log\!\left( \frac{P(Y=1 \mid G, E, Z)}{P(Y=0 \mid G, E, Z)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G \times E) + \gamma^\top Z,\]

其中： - \(\beta_1\) 是 G 的主效应（log OR：相对于 G=0 的基线的遗传效应）。 - \(\beta_2\) 是 E 的主效应（log OR）。 - \(\beta_3\) 是 乘法交互项（log OR scale 上的乘积项——度量的是“相对风险是否被修饰”）。 - \(\gamma\) 是协变量的 log OR。

估计方法：最大似然估计（MLE），标准误差由 Fisher 信息矩阵的逆的相应元素得到。

可观测数据 vs 潜在量： - 可观测：\(Y, G, E, Z\)。 - 不可观测/潜在：没有改变 G 或 E 后的潜在结果（该研究是观察性病例-对照，不能操作 G 或 E）。加法交互 RERI 被解释为“人群层面超额风险”而非“因果层面对反事实的加法交互”，logistic 回归给的是条件 OR，其因果解释需要额外假设（无未测量的混杂、病例-对照设计下的抽样偏倚等），但这些不在本文显式讨论中。 - 本文估计量直接是 MLE 的函数，无需显式引入反事实符号。

第二步：最小内核

本文的数学内核极其简单：在 logistic 回归 MLE 的渐近正态性之下，RERI 是 MLE 的一个非线性函数，然后由 delta method 得到其标准误差与置信区间。全部统计困难实际上已经由标准 logistic 回归软件解决。下面用最简单特例讲清楚。

最简特例：假设只有单个二值基因风险 \(G \in \{0,1\}\)（高 vs 非高），和单个二值环境暴露 \(E \in \{0,1\}\)（暴露 vs 非暴露），没有其他协变量 Z。此时 logistic 模型退化为：

\[\log\!\left( \frac{p(G,E)}{1-p(G,E)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G \times E),\]

其中 \(p(G,E) = P(Y=1 \mid G,E)\)。

乘法交互指的是检验 \(H_0: \beta_3 = 0\)；加法交互关注的是 RERI。RERI 的定义为：

\[\text{RERI} = \frac{P(Y=1|G=1,E=1)}{P(Y=1|G=0,E=0)} - \frac{P(Y=1|G=1,E=0)}{P(Y=1|G=0,E=0)} - \frac{P(Y=1|G=0,E=1)}{P(Y=1|G=0,E=0)} + 1.\]

即在 OR scale 上，它是：

\[\text{RERI} = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1.\]

解释：这是指以“G=0, E=0”为基线，同时暴露人群（G=1, E=1）的 CRC 的 OR，减去“仅 G=1”的 OR，再减去“仅 E=1”的 OR，再加回基线 OR（1），得到超额 OR。RERI > 0 意味着联合效应超过了各自效应之和。

怎么估计 RERI： 1. 用标准软件拟合 logistic 回归，得到 \((\hat\beta_0, \hat\beta_1, \hat\beta_2, \hat\beta_3)\) 与它们的方差-协方差矩阵 \(\hat\Sigma\)（MLE 的渐近方差）。 2. 计算：\(\widehat{\text{RERI}} = \exp(\hat\beta_1+\hat\beta_2+\hat\beta_3) - \exp(\hat\beta_1) - \exp(\hat\beta_2) + 1\)。 3. 用 delta method：令 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\)，则

\[\widehat{\text{Var}}(\widehat{\text{RERI}}) = \nabla g(\hat\beta)^\top \hat\Sigma \nabla g(\hat\beta),\]

其中 \(\nabla g\) 是 RERI 对 \((\beta_1,\beta_2,\beta_3)\) 的梯度向量。 4. 置信区间：RERI ± \(z_{0.975} \times \sqrt{\widehat{\text{Var}}(\widehat{\text{RERI}})}\)。

这个特例展示了论文核心思路的全部：即便论文扩展到 13 个环境因素、141-SNP 的 GRS、有协变量，本质步骤完全相同——不过是对每个环境因素拟合一个包含主效应 + 交互项（GRS × 该环境因素）的 logistic 回归，计算 RERI 及其 CI 的公式完全一样。主要附加工作只是多重比较校正（Bonferroni 校正）与将 GRS 的连续值离散化处理。

为什么这个特例是“最小内核”： - 揭示了整篇论文方法上无新贡献：所有技术细节都已被 1992 年 Hosmer & Lemeshow 的文章覆盖。 - 作者没有尝试任何更复杂的模型（如半参数/非参数回归、倾向得分 RERI、基于 efficient influence function 的稳健推断、sensitivity analysis 等）。 - 论文的 contribution 纯粹是实证规模与系统性的问题，而非方法学突破。

三、这篇论文做了什么（本次重心，务必讲透）¶

类型判断：本文是应用/方法型，但方法极简（已固化的标准方法），所以重心在实证。以下按此拆。

三句话概括 1. 利用大型 CRC 多联盟汇总数据（45,247 病例 + 52,671 对照），同时检验了遗传风险评分与 13 个环境因素在乘法与加法两个尺度上的交互作用。 2. 核心方法是拟合 logistic 回归并报告乘法交互项（OR 交互项）与加法交互 RERI（由模型参数的 delta method 得到）。 3. 主要发现：所有乘法交互均不显著（P > 0.05 校正后），但多个环境因素在加法尺度上呈现显著效应——重度饮酒、吸烟、高 BMI、高红肉摄入的正 RERI（超额风险增加），以及阿司匹林/NSAIDs、水果、纤维、钙摄入的负 RERI（保护作用更强）。

关键设定与假设

补充完整记号（基于第二节基础）： - GRS：基于 141 个已确认的 CRC 风险位点，构建加权遗传风险评分（GRS）。GRS 被分为三分位数（tertile）：低、中、高。分析中，G 被编码为二值：高 vs 中+低（注意：GRS 的离散化方式——使用三分位切分意味着“高遗传风险”的截断点来自本样本分布）。 - 环境因素：13 个变量的清单如下（从原文 Methods 中提取）：吸烟（从未/曾经）、饮酒（标准杯/周，分为三分位）、BMI（连续+四分位）、体力活动（MET-hours/week）、红肉摄入（g/day）、加工肉摄入（g/day）、蔬菜摄入（g/day）、水果摄入（g/day）、膳食纤维（g/day）、钙摄入（mg/day）、β-胡萝卜素（µg/day）、阿司匹林/NSAIDs 使用（是/否）、激素替代疗法（女性，是/否）。每个环境因素在原文中还有具体的分类切点与异常值处理。分析中，连续变量大多被离散化为 Q1-Q4（四分位）或二值（如现用阿司匹林 vs 否）。 - 协变量 Z：age、sex、study center/geographic region、经前 10 个主成分（控制人群分层）、吸烟与饮酒已在某些模型中做额外调整（原文指出，在检验某个环境因素时，该环境因素作为主要暴露，其余环境与协变量共同控制）。注意：某些环境如 red meat 与 alcohol 间存在混杂，但均以“环境变量 + 其它环境”进入 logistic 回归。 - 模型：对每个环境因素 E 和 GRS（二值）拟合一个 logistic 回归方程：

\[\log\!\left( \frac{P(Y=1)}{1-P(Y=1)} \right) = \beta_0 + \beta_1 G + \beta_2 E + \beta_3 (G\times E) + \gamma^\top Z,\]

其中 E 如果是连续，则以线性项加入；如果是分类（如 Q1-Q4），则用哑变量（按环境变量编码自然）。 - 对于连续性环境 BMI 与体力活动，除了分析离散四分位，还做了连续尺度的交互。 - 假设效应： - logistic 模型线性可加假设（在协变量上稍微放松，但不做显式模型检验）。 - 病例-对照设计下，logistic 回归的 OR 近似等于 case-cohort 的 OR（因为 CRC 是较罕见的结直肠癌变总体，但样本本身是已患病 vs 未患病，精确地说，对常见的结肠息肉或缺血性心脏病，logistic 回归会高估 OR，但对结直肠癌，发病率为 ~5% / 年，属于中间情况——本文未讨论）。 - 缺失数据：假设多重插补（MICE）未引入大的偏差。具体为：每个环境变量的缺失值在 ~2%~8% 之间，直接按“missing category”处理或多重归并——原文确认使用 MICE。 - 与已有文献相比的强化：样本量大（~98k），13 个环境因素来自联盟级统一协调，减少异质性；弱化：方法标准，未使用更先进的因果推断框架（如 doubly robust estimation、targeted maximum likelihood 等）。

主要结果

环境因素	乘法交互 P 值	RERI（高 vs 平均遗传风险	95% CI
重度饮酒（high vs light/none）	ns（未提供具体值）	0.24	(0.13, 0.36)
吸烟（ever vs never）	ns	0.11	(0.05, 0.16)
BMI（女性，高 vs 低）	ns	0.09	(0.05, 0.13)
BMI（男性，高 vs 低）	ns	0.10	(0.05, 0.14)
红肉摄入（Q4 vs Q1）	ns	0.18	(0.09, 0.27)
阿司匹林/NSAIDs（yes vs no）	ns	–0.16	(–0.20, –0.11)
水果摄入（Q4 vs Q1）	ns	–0.12	(–0.18, –0.05)
膳食纤维（Q4 vs Q1）	ns	–0.16	(–0.23, –0.09)
钙摄入（Q4 vs Q1）	ns	–0.11	(–0.18, –0.05)

所有乘法交互的 P > 0.05 校正后（即交互 OR = 1 未被拒绝），说明在相对风险尺度上无修饰。
加法交互（RERI）显示：对于正 RERI，高遗传风险 + 不良暴露的联合超额风险超过“各自之和”；对于负 RERI，高遗传风险 + 保护因素的联合保护作用大于“各自之和”。
多重比较校正采用 Bonferroni：由于对 13 个环境因素 × 2（性别）进行了校正（即 26 次检验），RERI 显著性仍然保留（原文称所有上述 RERI 的 P 值 <0.0019 — 0.05/26）。

证明路线与技术技巧（理论型论文特有的部分——但本文不是理论型；不过为保持结构完整，仍然写）

本文不包含严格意义上的渐近证明，纯属应用。但我们可以就RERI 的 delta method 推断框架给出路线：

模型拟合：标准 logistic MLE。
RERI 的 delta 公式：
定义 \(g(\beta) = \exp(\beta_1+\beta_2+\beta_3) - \exp(\beta_1) - \exp(\beta_2) + 1\)，
由 MLE 的经典渐近理论：\(\sqrt{n}(\hat\beta - \beta) \xrightarrow{d} N(0, I(\beta)^{-1})\)。
由 delta method：\(\sqrt{n}(g(\hat\beta) - g(\beta)) \xrightarrow{d} N(0, \nabla g(\beta)^\top I(\beta)^{-1} \nabla g(\beta))\)。
当 n 很大时，可将 \(I(\beta)^{-1}\) 替换为经验 Fisher 信息矩阵。
协方差矩阵的数值计算：由软件（如 SAS NLMIXED / Stata nlcom / R margins）自动完成。
基线选择：RERI 依赖于“基线”组的定义（谁为 \(G=0, E=0\)）。本文使用的基线是平均遗传风险 + 环境最低类别。

技术技巧点名： - delta method：标准一阶泰勒展开，用 MLE 的方差传播到 RERI 上。用标准误差构造 Wald 型置信区间。 - Bonferroni 多重比较校正：非常保守，意味着发现是正确的，但也意味着可能丢失了一些真实的交互（若有）。 - 缺失数据处理：MICE（多重插补）用于估计缺失环境变量——使用 5 个插补。 - 无：empirical process、higher-order U-statistics、efficient influence function、cross-fitting、bootstrap（虽然 bootstrap 也是可能的，但这里只使用 delta method）。所以此节较少。

真实例子与应用（必须讲）

本文就是纯真实例子。使用的数据如下： - 数据源：来自 GECCO（Genetics and Epidemiology of Colorectal Cancer Consortium）、CCACE（Colorectal Cancer Genetics & Genomics）、CORECT（Colon Cancer Family Registry）等多个联盟的汇总数据，最终纳入 45,247 病例 + 52,671 对照。人口分布于北美、欧洲、澳洲的多个地区的队列和病例-对照研究。 - 如何应用方法：对 13 个环境变量的每一个，都拟合含 GRS（二值：高 vs 平均）× 该环境交互项的 logistic 回归，同时控制该环境变量本身与 GRS 以及协变量。每个环境变量被分别建模（即没有建立一个包含所有环境交互项的大模型，而是 13 个独立模型）。每个模型报告乘法交互 OR 及其 P 值，以及 RERI 与 95% CI。 - 结果：如上表。解释为：对于正 RERI 的环境暴露（heavy drinking, smoking, high BMI, high red meat），高遗传风险人群在这些暴露下 CRC 的超额风险显著更大；对于负 RERI 的暴露（ASA/NSAIDs, fruit, fiber, calcium），高遗传风险人群更受益于这些保护因素。 - 这个例子要说明什么： 1. 验证乘法交互不显著时，加法交互仍可显著——说明乘法交互不是唯一相关。 2. 为公共卫生提供信息：识别出哪些高危遗传人群对环境危险因素更脆弱，又有哪些人群更受益于保护因素，用于个性化预防干预策略。 3. 展示大样本的力量——小样本难以检测出 RERI 的细微信号（如 RERI=0.09 在 n~10k 时不显著）。

🔎 结论是否比证明窄

是的。论文在引言与讨论中使用了“subgroups who may benefit more from intervention”这样的因果/预测语言。然而，严格来说，logistic 回归识别的是条件关联，不是因果（存在未测量的混杂，且病例-对照设计的回顾性质本身意味着不能解释为“干预效果”）。这点在论文的 Limitations 段落被部分承认（“Residual confounding may exist, and the case-control design precludes causal inference”），但 Discussion 开头仍然将结论包装成预防的指导性。
具体被泛化的语句举例：“Those with high genetic susceptibility may benefit more from reducing CRC risk with aspirin/NSAIDs use”（Discussion 第一段）——严格来说，观察到的负 RERI 只是一个条件 OR 尺度的加法交互，在因果上，它只表明“在已有该基因背景的人群中，阿司匹林使用的保护作用OR更大”，不涉及逆概率因果推断，也不等同于“干预使这组人受益更多”。这是所有观察性 G×E 研究的通病。
另，本文只报告了“高 vs 平均遗传风险”这种二值对比，但 GRS 本质是连续（141 个 SNP 的加权和），离散化可能丢失信息。作者也做了连续 GRS 尺度的分析（作为辅助分析），但未作为主要结果。

四、开放问题（点到为止，扎根具体语句）¶

基于论文本身和当前方向的局限，可罗列最多 4 条开放问题：

RERI 对基线选择的敏感性：当环境因素被切分为四分位时，不同的切分选择会产生不同的 RERI 数值——目前的方法是四分位切分，但更灵活的加权平均 RERI（如 Aalen's additive model 的估计量）是否会给出更稳健的结果？扎根：本文中红肉摄入使用 Q1 为参照，但若改 Q2 vs Q4 则 RERI 可能变化——文中只有 Q4 vs Q1 报告。
基因-环境联合分布不可低估时的偏倚：logistic 回归假设疾病罕见，CRC 的 5 年发病率约 5%，已不是传统罕见病（<2%）——logistic 产生的 OR 偏高，对 RERI 的偏倚方向与大小如何？扎根：Methods 部分提到"Colorectal cancer is relatively uncommon"但未提供定量评估。可阅读 Lubin & Gatto（2006）关于对数线性 vs logistic 模型中 RERI 偏倚的论文。
对于多个环境因素，如何做联合加法交互推断？——本文只做了每个环境单独建模。若想回答“对同一组人群，哪个环境交互最强”或“环境中哪些组合共同交互”，需要一个联合模型（如多项 logistic、多变量 RERI）。扎根：本文的分析是 13 个独立模型，没有联合交互项。
对 RERI 的 sensitivity analysis 与完全稳健推断：除了delta method，是否存在基于 efficient influence function（EIF）的 RERI 估计量，使得对模型误设定更稳健？扎根：本文是纯 logistic 参数推断，无半参数或双重稳健方法。对寻找半参数 RERI 感兴趣的研究者可查看 Tchetgen Tchetgen（2013, Biometrika）的 multiplicative-additive interaction 类的工作。这是一个直接吻合你 primary interest 中的 semiparametric theory 与 efficiency 的开放问题。

提醒：如果希望确认第 4 条是否是真 gap，可搜索近 5 年 Epidemiology 或 Biometrics 中“RERI + efficient influence function / semiparametric”的论文，看有多少篇（几乎空白，说明可做；若近年已有几篇，则为已有框架，需要新问题）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Characterization of Additive Gene–environment Interactions For Colorectal Cancer Risk¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（本次重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论