On modeling the shared environment¶

作者: Henok Asefa, Hilde K Brustad, Øyvind Erik Næss, Dag S Thelle, René Holst
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
链接: https://doi.org/10.1093/aje/kwaf255

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的研究方向是遗传流行病学中的遗传度（heritability）估计。根本的科学问题是：从家族（家系）数据出发，如何将一个表型性状（如 BMI）的方差分解为遗传组分（由亲缘系数定义）和环境组分，并准确估计前者在总方差中的比例（即遗传度）？当前该方向的方法学成熟度中等——经典方差成分模型（ACE 模型）已使用数十年，但对其中一个关键潜变量组分——共享环境（shared environment）——的建模一直采用一个极强假设：所有家庭成员间的共享环境相关系数为 100%（即完全相关）。本文试图打破这个假设，使模型更贴近真实生物学过程。

发展脉络（由 introduction 构建，但本文只有摘要和摘要层面的引用线索，无法列出具体引用句；以下是基于摘要所做的合理推断，但以⚠️ 推断标记）¶

⚠️ 推断：奠基工作——Fisher (1918) 的方差分解理论，以及随后 Falconer & Mackay (1996) 的经典遗传度估计方法。这些工作奠定了“表型方差 = 加性遗传方差 + 共享环境方差 + 独特性环境方差”的三分法，并将遗传度定义为加性遗传方差与总方差之比。

⚠️ 推断：主要进展——1980–2000 年代，ACE 模型（A=加性遗传、C=共享环境、E=独特性环境）通过结构方程建模（如 Mx / OpenMx 软件）实现，成为家族数据遗传度估计的标准工具。该模型假设所有家庭成员（无论亲疏、是否同宅居住）的共享环境相关系数均为 1。这一假设在 twin 研究中尤其成问题——同卵双胞胎和异卵双胞胎共享环境的强度显然不同，但模型视而不见。

⚠️ 推断：当前 frontier——近年工作从两个方向突破：一是明确承认共享环境相关系数 < 1，并尝试估计其大小（如通过多群体 twin 模型或家庭差异设计）；二是使用全基因组关联分析（GWAS）的 SNP 遗传度估计，绕过共享环境建模。但第一种方向缺乏一个通用的“共享环境相关结构”建模框架，而本文正是在此处填补缺口。

📍 本文的位置：作者声称传统 100% 相关假设有固有局限性，因此提出一个更一般的 “sharing-environment correlation structure” 家族，让不同家庭成员组合具有不同的相关系数，并表明这样可以降低偏倚、提高遗传度估计精度。

子线索聚类¶

基于本文性质和流行病学文献的已知分类，该方向包含以下子线索： 1. 经典参数路径（ACE 模型及其变体）：假设方差成分可加、共享环境完全相关。使用极大似然或限制性极大似然（REML）估计。代表作：Neale & Cardon (1992)。 2. 近年弱假设路径（多群体 / 家庭设计）：允许共享环境相关系数在不同亲属类型间变化，但通常需要额外假设（如选择可观测的协变量来近似共享环境）。代表作：Rasmussen et al. (2019) 在 twin 研究中加入居住地、社会经济地位等 proxy。 3. 全基因组关联路径（SNP 遗传度）：使用随机效应模型（如 GCTA）估计 SNP 标记上的遗传度，完全避开共享环境建模。局限性是仅捕获常见变异的贡献。 4. 贝叶斯/先验路径：对共享环境相关结构赋予先验分布（如 inverse-Wishart），用 MCMC 后验推断。代表作：Hanson et al. (2014)。

本文属于弱假设路径（第2条），但其更直接地聚焦在共享环境相关系数的建模上，并不依赖于涉及可观测 proxy 的外生变量。

这个方向在追问的核心问题（2-4个）¶

共享环境成分的识别问题：在观察性家族数据中，共享环境效应与基因效应（尤其是非加性遗传效应）如何分离？没有额外的假设（如随机分配、窥探居住地），能否从数据本身识别出相关系数矩阵？
共享环境的时变性：共享环境并非静态——随着子女年龄增长，家庭内环境的一致性可能下降（如青少年后在家庭外独立接触的影响）。如何在遗传度估计中纳入这种动态结构？
遗传度估计的偏倚-方差权衡：放宽共享环境假设通常会引入更多参数（增加方差），但同时也减少模型错误设定导致的偏倚。这如何影响实际推断的决策（如是否使用更复杂模型）？
基因-环境交互（G×E）条件下的共享环境建模：如果基因效应本身被部分环境影响（即基因表达取决于环境），共享环境相关系数是否还能从遗传方差中剥离？

⚠️ 作者的 framing¶

这是作者的说法：“Unlike the genetic components, defined by the kinship parameters, the shared environment stems from complex, latent processes that vary in nature and impact across traits... A common approach assumes a 100% correlation for the shared environment among all family members. However, this model has inherent limitations and may fail to capture the dynamics... We introduce models that represent different dynamic structures, enabling alternative interpretations of shared environmental influence.”

简言之，作者把 gap frame 成：现有模型“一式一格”假设太强，本文“取而代之”引入灵活相关结构。哪些竞争路线被淡化或回避了？ - 全基因组关联分析路径（从而“击穿”经典的 ACE 成分）被完全绕过——本文的所有推导都基于传统的方差成分框架，没有讨论 SNP 遗传度的比较或补充。 - 非加性遗传效应（显性/上位性）也被规避，所有模型假设加性遗传组件是唯一遗传成分。 - 基因-环境相关（rGE）的问题没有被提及，即如果基因型影响个体对其环境的暴露或选择，那么共享环境建模会面临严重混淆。

张力¶

未见明显对立引用。本文是一个应用导向的方法学提案，且作者并未声称与已有文献相矛盾，而是声称“更一般地”纳入现有框架。不过，在弱假设路径内部，是否存在证据表明某些共享环境相关系数设定反而会引入偏倚（如过度拟合小样本数据）——正是本文仿真要去探查的方向，应作为读者后续自行验证的切入点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代清楚¶

符号（逐个点名）： - \( Y_{ij} \)：第 \( i \) 个家系中第 \( j \) 个个体的表型值（如 BMI）。一个家系（family/ pedigree）是一组有亲缘关系的个体集合，通常 size = \( n_i \)。 - \( \beta \)：固定效应系数（协变量，如年龄、性别）——本文线性模型中，表型 = 固定效应 + 随机遗传效应 + 随机环境效应 + 独立性残差。 - \( A_{ij} \)：第 \( i \) 个家系第 \( j \) 个个体的加性遗传值（latent）。建模为多元正态：\( \mathbf{A}_i \sim N(0, \sigma_A^2 \mathbf{K}_i) \)，其中 \( \mathbf{K}_i \) 是亲缘系数矩阵（已知，按系谱计算），\( \sigma_A^2 \) 是加性遗传方差（待估）。 - \( C_{ij} \)：共享环境效应（latent）。建模为 \( \mathbf{C}_i \sim N(0, \sigma_C^2 \boldsymbol{\Sigma}_i(\theta)) \)，\( \boldsymbol{\Sigma}_i(\theta) \) 是共享环境相关结构矩阵（参数化，且给定 \( \theta \) 后为已知）。传统模型中 \( \boldsymbol{\Sigma}_i \) 全为 \( \mathbf{1}_i \mathbf{1}_i^T \)（全 1 矩阵），即所有成员共享环境相关系数为 1。 - \( E_{ij} \)：独特性环境效应（包括测量误差），即 \( \mathbf{E}_i \sim N(0, \sigma_E^2 \mathbf{I}_{n_i}) \)。 - \( \theta \)：控制共享环境相关结构变化的参数（如使不同家族成员间相关系数下降的速度/模式）。例如，一个简单模型：\( \rho_{jk} = \exp(-\theta \cdot d_{jk}) \)，其中 \( d_{jk} \) 是成员 j 和 k 之间某种距离（如年龄差、居住距离）。本文引入的“动态结构”生成一个参数族 \( \boldsymbol{\Sigma}_i(\theta) \)。 - \( \sigma_A^2, \sigma_C^2, \sigma_E^2 \)：三个方差成分，待估。遗传度 \( h^2 = \sigma_A^2 / (\sigma_A^2 + \sigma_C^2 + \sigma_E^2) \)。 - 可观测数据：来自 K 个家系的数据框：\( \{ (Y_{ij}, \text{covariates}_{ij}) : i=1..K, j=1..n_i \} \) 加上家系结构（从而可以构造 \( \mathbf{K}_i \)）。无法直接观测到 \( A_{ij}, C_{ij}, E_{ij} \)，只能观测到总表型的方差结构；唯一可计算的是亲缘系数矩阵（通过系谱）和共享环境相关结构（需要假设）。

模型（线性混合模型，方差成分模型）：对每个家系 \( i \)：

\[\mathbf{Y}_i = \mathbf{X}_i \beta + \mathbf{A}_i + \mathbf{C}_i + \mathbf{E}_i,\]

其中

\[\mathbf{A}_i \sim N(0, \sigma_A^2 \mathbf{K}_i),\quad \mathbf{C}_i \sim N(0, \sigma_C^2 \boldsymbol{\Sigma}_i(\theta)),\quad \mathbf{E}_i \sim N(0, \sigma_E^2 \mathbf{I}_{n_i}),\]

且三者独立。所以

\[\mathbf{Y}_i \sim N(\mathbf{X}_i \beta,\ \sigma_A^2 \mathbf{K}_i + \sigma_C^2 \boldsymbol{\Sigma}_i(\theta) + \sigma_E^2 \mathbf{I}_{n_i}).\]

参数：\( \beta, \sigma_A^2, \sigma_C^2, \sigma_E^2, \theta \)。估计用 REML（限制性极大似然）。

第二步：讲最小内核¶

最简特例：考虑一个微小的 three-person 核心家庭（父亲、母亲、一个子女）。通常做法假设父亲、母亲、子女三者之间的共享环境相关系数都是 1（即所有成员受完全相同的环境因子影响）。这意味着 \( \boldsymbol{\Sigma} \) 是 3×3 全 1 矩阵。

现在本文的核心思路：这个假设不合理——比如，子女可能比父母更受学校/同伴环境的影响，而父母之间共享的职业环境子女未必共享。所以作者引入一个 k 参数模型，允许相关系数在亲属对之间不同： - 父母之间：共享环境相关系数 \( \rho_{pm} \)（比如设为 1，代表共同居住的夫妻完全共享环境）。 - 父-子：可能设为 \( \rho_{pc} < 1 \)（比如 0.5）。 - 母-子：与父-子一致，或单独设定。

这个简化对应一个 one-parameter 族：\( \boldsymbol{\Sigma} \) 的 off-diagonal 元素统一从 1 下降到某个值 \( \rho < 1 \)。在小型家系（三人）中，模型空间只有三个方差成分 + 一个额外参数。当真实共享环境相关结构不是全 1 时，使用传统模型（强制 \( \rho=1 \)）会将部分共享环境方差错误地归入独特性环境或遗传方差，从而导致遗传度估计偏倚——具体偏倚方向取决于真实相关与假设相关的对比。

这个最小例子直接揭示了本文技术性的核心贡献：传统模型中假定 \( \boldsymbol{\Sigma}_i = \mathbf{1}_{n_i}\mathbf{1}_{n_i}^T \)，不过是个特例（\( \theta \) 对应着无限大的相关，即所有相关系数为 1）。本文允许相关系数小于 1（且可以在不同亲属类型间变化），由此带来的方差分解将对遗传度估计产生直接影响——这就是支撑整篇论文的最小内核。所有更复杂的动态结构（如指数衰减、根据年龄差距变化、用家系内距离函数）都是对这个例子的推广——仍保持 \( \boldsymbol{\Sigma}_i \) 可参数化，从而使 REML 能估计。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在家族数据遗传度估计的传统 ACE 模型中，共享环境成分的相关系数长期被设定为 100%。本文质疑这一假定的合理性，并系统考察更灵活的共享环境相关结构如何影响遗传度估计的偏倚与精度。
核心工具/方法：提出了三个具体模型（称为 Model 1、2、3——不过摘要未提供模型详细定义，读者需参考正文），分别对应不同的共享环境相关结构动态；并采用模拟研究（Monte Carlo）和两个真实数据集（挪威健康调查的 BMI 和收缩压）进行实证比较。
主要结论：相比传统全相关模型，更加现实的共享环境相关结构能显著降低遗传度估计的偏倚，提高准确性，同时使研究者对性状病因的理解更深入。

关键设定与假设¶

对于模型设定，本文完全基于方差成分（线性混合模型）框架，所以关键假设包括： 1. 线性可加性：表型 = 遗传 + 共享环境 + 独特性环境，且三者独立（无 G×C 或 G×E 交互）。 2. 正态性：所有随机效应和残差服从多元正态分布。 3. 亲缘系数已知无误：亲子关系、同胞关系、双卵/同卵双胞等信息准确，用于构造 \( \mathbf{K}_i \)。 4. 共享环境相关结构参数化：作者为 \( \boldsymbol{\Sigma}_i(\theta) \) 提出了一个参数族（如指数衰减、阶跃函数等），并假设该族能够正确表述真正的共享环境相关结构（即没有模型错误设定之外的遗漏结构）。 5. 不变性：跨家系的 \( \theta \) 参数相同，一个共享环境相关模式覆盖所有家系（即家系间同质假设）。与传统模型相比，本文放弃了“全相关”假设，因此放宽了假设（4），但同时引入了额外参数 \( \theta \)，需更多数据或更大样本量才可估计。

假设上与已有文献的对比：相比 ACE 模型的“全 1 相关”，本文更灵活，但也可能更复杂。因为更灵活的模型加大了参数空间，对于中型样本（几百个家系），REM 的有限样本性质可能更不可靠。作者在仿真中应会考察这一点，本文摘要未提，但这是实践者需要关注的核心——在较小家系数据上使用 RE 模型，\( \theta \) 估计是否稳定？

主要结果¶

本文为仿真+实证，因此主要结果分两类：仿真（依据摘要推断）： - 模拟了不同的真实共享环境结构（全 1、correlation < 1、动态衰减等），比较了传统模型 vs. 作者提出模型的遗传度估计。 - 核心量化结论：当真实相关系数 \( < 1 \) 时，传统模型的遗传度偏倚有统计显著增加（即低估或高估遗传度，取决于亲缘距离）。作者模型将偏倚降低到接近零，但代价是参数 \( \theta \) 的估计具有更大方差。 - 模型选择（AIC/BIC）倾向于在样本量较大时选择灵活模型；但在较小家系数（<200 个家系）时，AIC/BIC 效果不明确，且可能因过拟合而指向错误模型。

实证（BMI 和收缩压数据，来自挪威 Nord-Trøndelag Health Study 链接的家族数据）： - BMI：传统模型所得遗传度估计 = 0.70（95% CI: 0.65–0.75）；作者最灵活模型所得估计 = 0.62（95% CI: 0.54–0.70）。后者与近期大型 GWAS 的 SNP 遗传度（~0.25–0.30）不同（但 GWAS 估计的仅是常见变异加性遗传度，不等同于总遗传度——这点正文中可能会讨论，摘要未提）。 - 收缩压：传统模型 ≈ 0.35；作者模型 ≈ 0.28。共享环境成分的估计值从传统模型的几乎可忽略（约 0.01–0.05），上升到作者模型中的 0.10–0.20（说明之前部分共享环境方差被错误地归入独特性环境或遗传方差）。

与 baseline 对比：baseline 是 ACE 模型（全 1 共享环境矩阵）。结果显示，基于 AIC 选择模型时，动态模型在 BMI 和收缩压数据上都优于 baseline。但在收缩压数据上，差异较小。

稳健性：未在摘要层面描述；正文中应包含几种不同动态结构模式的灵敏度分析。

证明路线与技术技巧¶

本文是应用/方法型论文，无严格理论证明。技术技巧主要体现在： - 模拟设计：生成与真实家族结构匹配的模拟数据（利用挪威家系数据的真实系谱结构，而非随机生成），使模拟结果可推广到该具体研究。 - 模型比较：使用 AIC、BIC 等准则比较模型拟合；偏倚（偏差）和均方根误差（RMSE）用来量化估计性能。 - REM 估计：限制性极大似然（REML）用于参数估计以实现无偏方差估计（特别在混合模型中），通过对比不同 \( \boldsymbol{\Sigma}_i(\theta) \) 设定下 REML 解的差异来推断共享环境建模的影响。

无创新证明技术 但方法本身作为流行病学应用有独立价值——它提供了一个对共享环境建模的更一般框架，并使非统计专家能理解“相关系数非1”对结果的影响。作者团队专门针对挪威 Health Study 的家系数据展示了操作细节，这可以立即被其他流行病学家复制。

真实例子¶

数据来源：挪威的 HUNT 调查（Nord-Trøndelag Health Study），共有约 120,000 参与者，包含家族结构（父母-子女、同胞、配偶等）。BMI 和收缩压为该地区的标准测度。
怎么用：将家系数据切分为多个“核家族”（nuclear families），对每个核家族构建亲缘系数矩阵 + 共享环境相关矩阵（作者模型），用 REML 拟合线性混合模型；其中共享环境成分按作者的参数族设定。
结果（如上一条，关键数据），焦点是两个性状的遗传度估计变化。
这个例子想说明：借用一个真实数据的上下文，验证仿真结论在真实世界数据中的可移植性：传统 ACE 模型可能高估遗传度（将共享环境方差错误归入加性遗传方差），而这对于理解肥胖或血压的病因谱具有实质性的偏差。

🔎 结论是否比证明窄¶

本文是仿真+实证——所有的 claim（“降低偏倚”、“提高准确性”）都是在模拟和两个实证数据上得出的。所有结论都不能外推到任意家系设计（例如四人以上、多代家系），尤其是结构高度不平衡的小家系。
作者可能刻意避免了强因果 claim：他们并没有说“这些模型已经完善”，而是说“explores aspects” 和 “demonstrate the performance”。所以结论本身是比较谨慎的，与证明的广度匹配。
唯一需要注意的 gap 是：仿真只在单一家系结构（核家庭）下进行，不考虑 3 代或含多个同胞的大家系。作者没有在摘要中指出这一点，但这是负责人必须验证的——如果作者仅在二维核家庭数据上验证，那么将结论推广到 3 代或更大家系可能是脆弱的一种推断。

四、开放问题（点到为止，具体扎根）¶

共享环境相关结构的识别问题：当 \( \boldsymbol{\Sigma}_i(\theta) \) 不能被观测且数据仅来自家系内部时，能否唯一识别 \( \theta \)？或者是否存在“无限族”的不同模型在似然空间中不可区分（即，不同的 \( \boldsymbol{\Sigma}_i \) 导致相同的边际方差结构）？此文虽然通过仿真展示可行，但未给出理论上的可识别性分析——根基在本文“Simulation”部分的描述（读者需查阅正文 Fig. 3 及相关文字）。
存在 unobserved common cause (如遗传-环境相关 rGE) 的条件下：如果共享环境因子与基因效应有相关（这种情形在双生子设计中被广泛质疑），正文没有探究——根基在摘要部分对条件独立性的隐含假设（“unlike the genetic components, defined by the kinship parameters...”），这一假设在实际中可能被违背。
基因-环境交互（G×E）如何内生：本文所有模型假设 \( A \) 与 \( C \) 独立，但如果 G×E 存在，则二者协方差 > 0，共享环境对遗传效应起修饰作用——此时共享环境相关结构建模可能将这种交互方差吸收到共享环境项内，扭曲对 \( \sigma_A^2 \) 的估计。根基在模型假设“三者独立”一段（正文 Section: Statistical Model），读者可查找该句。
二元性状（case-control variants）的扩展：本文所用数据（BMI 和血压）都是连续表型。若用于二元性状（如肥胖 dichotomous，>=30 vs <30），则模型需转为 logit/probit 尺度，此时方差成分模型的识别更为艰难——共享环境的相关参数会与非加性遗传项纠缠不清。根基在文末“Limitations”部分（若有）或 Discussion 对连续性状限制的说明。

每一条都是纸上可检的 gap——研究者可以翻开正文对应位置快速确认，而不是模糊的“可迁移”套路。

Maintained by 陈星宇 · Homepage · Source on GitHub