Estimating the overall fraction of phenotypic variance attributed to high-dimensional predictors measured with error¶
作者: Soutrik Mandal, Do Hyun Kim, Xing Hua, Shilan Li, Jianxin Shi
来源: Biostatistics
主题: 流行病学
相关性: 8/10
机构绿灯: University of California, Los Angeles(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxad001
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在高维前瞻性基因组研究(如 DNA 甲基化、宏基因组、转录组)中,如何估计大量(成百上千至数万)基因组变量对某一表型方差的总解释比例(Overall Fraction of Phenotypic Variance, OFPV,即类似 GWAS 中的 heritability \(h^2\))。与 GWAS 中基因型测量近乎无误差不同,这些前瞻性组学数据普遍存在由于技术限制与时间波动导致的测量误差。当前该方向的成熟度处于"有成熟的 GWAS 无误差估计框架,但针对高维测量误差的校正框架刚起步"的阶段——已有零星工作指出测量误差会导致 OFPV 估计衰减,但缺乏系统、可操作的校正公式与可识别性论证。
发展脉络: - 奠基工作(GWAS heritability 估计):Yang et al. (2010) 与 Yang et al. (2011) 提出了 GCTA 方法,利用高维 SNP 的混合线性模型估计 \(h^2\),奠定了高维方差成分估计的框架。作者在 intro 中明确指出,这些方法"can be used"但"ignoring measurement error may severely underestimate OFPV",点出了从无误差到有误差的 gap。 - 主要进展(测量误差对 heritability 的影响):Yang et al. (2017) 首次在低维家系设计中指出了测量误差对 heritability 估计的衰减效应;随后 Wu & Sinsheimer (2020) 在高维 SNP 设定下给出了衰减因子的表达式,但他们的框架仍假设 SNP 是无误差的,只是将其作为理论参照。 - 当前 frontier(高维组学数据的方差成分与测量误差):针对宏基因组与甲基化数据,已有大量文献(如 Goodrich et al. 2014; Houseman et al. 2015; Shi et al. 2022)记录了这些数据的测量误差结构(技术变异与时间变异),但它们主要停留在"描述误差存在"或"对单个变量做校正",并未系统解决"如何校正高维全体变量对表型方差的联合衰减"。 - 本文的位置:本文填补了从"GWAS 无误差 GCTA"到"高维有误差组学 OFPV"的校正缺口,证明了在特定同分布假设下,渐进衰减因子等于所有基因组变量的平均组内相关系数(ICC),从而将不可观测的衰减因子转化为可通过 pilot study 重复测量估计的可识别量。
子线索聚类: 1. 高维方差成分估计(无误差设定):以 GCTA 为代表,核心是 REML/MoM 估计高维随机效应的方差成分。这一簇假设设计矩阵无误差,本文直接沿用其 MoM 框架。 2. 测量误差建模与校正(低维 / 单变量设定):经典测量误差文献(Carroll et al. 2006)及宏基因组/甲基化的重复测量文献(如 Shi et al. 2022 的 ICC 估计),核心是利用重复数据校正单变量偏差。本文将这一簇的 ICC 工具提升到了高维联合方差成分的层面。 3. 跨性状效应大小相关性:Yang et al. (2012) 提出了估计两性状遗传相关性(bivariate GCTA)的方法。本文在最后一节将测量误差框架延伸至此,证明测量误差对相关性估计不产生实质性偏差。
这个方向在追问的核心问题: 1. 可识别性:当高维变量均带有测量误差时,OFPV 这个参数是否还能从主研究数据中识别出来?若不能,需要何种外部数据(如 pilot study)与何种假设才能识别? 2. 衰减的量化与校正:测量误差导致 OFPV 估计的偏差具体形式是什么?能否给出一个只依赖可观测量的校正因子? 3. 跨性状相关性:测量误差对两性状效应大小相关性的估计是衰减、放大还是无影响?
当前主流方法(直接套用 GCTA)的已知瓶颈是:忽略测量误差会导致 OFPV 被严重低估(作者在摘要中明确声称"severely underestimate"),且没有提供从主研究数据自身校正的途径。
⚠️ 作者的 framing: - 作者把缺口 frame 成"GWAS 方法可用但忽略误差导致低估,而我们提供了一个只需 pilot study 重复测量与一个同分布假设即可校正的简单框架",这使得本文成为"显然的下一步"。 - 被淡化或回避的竞争路线:作者没有讨论基于结构方程模型(SEM)或潜在变量模型的联合建模校正路线(这类路线试图在主研究内部同时估计测量误差与方差成分,而不依赖外部 pilot study),也没有讨论矩估计之外的其他估计策略(如 REML 在有误差设定下的修正)。intro 中明显该被引但未出现的是:高维测量误差校正的经典文献(如 Carroll et al. 2006 的高维章节)与半参数测量误差框架(如 moment-free 或 SIMEX 方法在方差成分设定下的应用)。这值得研究者去查:是否存在已解决此问题的半参数或联合建模路线,而作者刻意选择了 MoM+ICC 路线以换取简单性?
张力: 未见明显对立引用。现有文献在"测量误差导致低估"这一定性结论上一致,分歧仅在"如何校正"——Wu & Sinsheimer (2020) 给出了衰减因子的理论形式但未提供可操作估计量,本文则用 ICC 替代了其不可观测的衰减因子。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- \(n\):主研究样本量。
- \(p\):基因组变量(如微生物 taxa)的维数。本文设定 \(p \to \infty\) 且 \(p/n \to \infty\)(高维超维设定)。
- \(Y_i\):第 \(i\) 个个体的表型(连续变量),\(i=1,\dots,n\)。
- \(W_i\):第 \(i\) 个个体的 \(p\) 维可观测基因组数据向量(含测量误差)。
- \(X_i\):第 \(i\) 个个体的 \(p\) 维不可观测真实基因组数据向量(潜在/反事实量)。
- \(U_i\):第 \(i\) 个个体的 \(p\) 维测量误差向量,模型假设 \(W_i = X_i + U_i\)。
- \(\beta\):\(p\) 维随机效应向量,表示每个基因组变量对表型的真实效应大小。假设 \(\beta_j\) 独立同分布,均值为 0,方差为 \(\sigma_\beta^2/p\)(随 \(p\) 增长而缩放,保证总方差有限)。
- \(e_i\):第 \(i\) 个个体的残差,独立于 \(X_i, U_i, \beta\),方差为 \(\sigma_e^2\)。
- \(U_{ij}\):第 \(j\) 个变量的测量误差,假设独立于 \(X_{ij}\),均值为 0,方差为 \(\sigma_{uj}^2\)。
- \(\sigma_{xj}^2\):第 \(j\) 个变量真实值的方差。
- \(\text{ICC}_j\):第 \(j\) 个变量的组内相关系数,定义为 \(\text{ICC}_j = \sigma_{xj}^2 / (\sigma_{xj}^2 + \sigma_{uj}^2)\),即真实方差占总方差的比例。
- \(\bar{\text{ICC}}\):所有 \(p\) 个变量的平均 ICC,定义为 \(\bar{\text{ICC}} = \frac{1}{p} \sum_{j=1}^p \text{ICC}_j\)。
- OFPV(\(\tau\)):目标估计量,定义为真实基因组变量解释的表型方差比例:\(\tau = \frac{\sum_{j=1}^p \sigma_{xj}^2 \sigma_\beta^2/p}{\sum_{j=1}^p \sigma_{xj}^2 \sigma_\beta^2/p + \sigma_e^2} = \frac{\sigma_\beta^2 \cdot \bar{\sigma}_x^2}{\sigma_\beta^2 \cdot \bar{\sigma}_x^2 + \sigma_e^2}\),其中 \(\bar{\sigma}_x^2 = \frac{1}{p}\sum \sigma_{xj}^2\)。
模型: 线性混合模型:\(Y_i = X_i^\top \beta + e_i\)。 可观测数据生成机制:\(W_i = X_i + U_i\),因此 \(Y_i = W_i^\top \beta + e_i - U_i^\top \beta\)。 关键假设(同分布假设):\(\sigma_{uj}^2\)(测量误差方差)在因果变量(\(\beta_j \neq 0\))与非因果变量(\(\beta_j = 0\))之间同分布,即测量误差方差与效应大小独立。同理,\(\sigma_{xj}^2\) 也与 \(\beta_j\) 独立。
可观测数据: - 主研究数据:\((Y_i, W_i)\),\(i=1,\dots,n\)。观测不到 \(X_i\) 和 \(U_i\)。 - Pilot study 数据:一小部分个体(\(m\) 个)有重复测量 \(W_i^{(1)}, W_i^{(2)}\),用于估计 \(\bar{\text{ICC}}\)。观测不到 \(X_i\)。
第二步:讲最小内核
支撑整篇论文的最小内核是:在 \(p \to \infty\) 且同分布假设下,用可观测 \(W\) 替代不可观测 \(X\) 做方差成分矩估计时,OFPV 的估计量被一个等于 \(\bar{\text{ICC}}\) 的常数因子衰减,且该因子可由外部 pilot study 识别。
最简特例:假设所有变量的误差方差完全相同(\(\sigma_{uj}^2 = \sigma_u^2\)),所有真实方差也相同(\(\sigma_{xj}^2 = \sigma_x^2\)),此时 \(\text{ICC}_j = \text{ICC} = \sigma_x^2 / (\sigma_x^2 + \sigma_u^2)\) 对所有 \(j\) 恒等。
在这个特例下,若研究者无视测量误差,直接用 GCTA 的矩方法估计 OFPV: 1. 计算可观测表型方差:\(\text{Var}(Y) = \text{Var}(W^\top \beta) + \sigma_e^2 = \text{ICC} \cdot \sigma_\beta^2 \sigma_x^2 + (1-\text{ICC})\sigma_\beta^2 \sigma_x^2 + \sigma_e^2\)。 (因为 \(\text{Var}(W^\top \beta) = \beta^\top \text{Var}(W) \beta / p = \sigma_\beta^2 (\sigma_x^2 + \sigma_u^2) = \sigma_\beta^2 \sigma_x^2 / \text{ICC}\)) 2. GCTA 矩估计量捕捉的是 \(\text{Var}(W^\top \beta)\) 中与 \(W\) 协方差结构对齐的部分,在经典推导下,它估计出的方差成分实为 \(\sigma_\beta^2 \sigma_x^2 \cdot \text{ICC}\)(而非目标 \(\sigma_\beta^2 \sigma_x^2\))。 3. 因此,未校正的 OFPV 估计值为 \(\hat{\tau}_{\text{naive}} = \frac{\text{ICC} \cdot \sigma_\beta^2 \sigma_x^2}{\text{ICC} \cdot \sigma_\beta^2 \sigma_x^2 + \sigma_e^2 + (1-\text{ICC})\sigma_\beta^2 \sigma_x^2}\)。 当 \(\text{ICC} < 1\) 时,\(\hat{\tau}_{\text{naive}} < \tau\),发生衰减。 4. 校正:只需将 \(\hat{\tau}_{\text{naive}}\) 的分子除以 \(\text{ICC}\)(或将分母中的 \(\text{ICC} \cdot \sigma_\beta^2 \sigma_x^2\) 替换为 \(\hat{\sigma}_\beta^2 \hat{\sigma}_x^2 / \text{ICC}\)),即可恢复 \(\tau\)。而 \(\text{ICC}\) 可由 pilot study 中两次重复测量的相关系数直接估计。
这个特例揭示了论文的核心数学事实:衰减因子恰好是平均 ICC。一般情形(\(\sigma_{uj}^2\) 与 \(\sigma_{xj}^2\) 随 \(j\) 变化)的证明只是将恒等的 ICC 替换为平均 ICC \(\bar{\text{ICC}}\),并依赖同分布假设保证因果与非因果变量的 ICC 分布一致,从而在矩期望中 \(\bar{\text{ICC}}\) 能够从不可观测的因果变量子集平均过渡到可观测的全变量集平均。
三、这篇论文做了什么¶
三句话: ①研究了高维前瞻性基因组数据中,存在测量误差时如何估计表型方差总解释比例(OFPV)的问题; ②核心工具是高维矩估计与同分布假设下的期望计算,将衰减因子转化为平均组内相关系数(ICC); ③主要结论是未校正的 OFPV 估计量被 \(\bar{\text{ICC}}\) 衰减,通过 pilot study 估计 \(\bar{\text{ICC}}\) 后可校正恢复真实 OFPV,且测量误差对跨性状效应大小相关性估计无实质偏差。
关键设定与假设: - 设定:线性混合模型 \(Y = W\beta + e - U\beta\),高维超维设定 \(p \to \infty, p/n \to \infty\),随机效应 \(\beta_j \sim (0, \sigma_\beta^2/p)\)。 - 假设 1(测量误差结构):\(W_{ij} = X_{ij} + U_{ij}\),\(U_{ij}\) 独立于 \(X_{ij}\) 与 \(e_i\),均值为 0。这是经典测量误差假设,与 Carroll et al. (2006) 一致。 - 假设 2(同分布假设,核心且最强):测量误差方差 \(\sigma_{uj}^2\) 与真实方差 \(\sigma_{xj}^2\) 在因果变量(\(\beta_j \neq 0\))与非因果变量(\(\beta_j = 0\))之间具有相同的分布。即 \(\mathbb{E}[\sigma_{uj}^2 | \beta_j \neq 0] = \mathbb{E}[\sigma_{uj}^2 | \beta_j = 0]\)。相比已有文献(如 Wu & Sinsheimer 2020 仅给出理论衰减因子但未解决识别),此假设是本文将不可观测的因果变量 ICC 平均转化为可观测的全变量 ICC 平均的唯一桥梁。若此假设不成立(例如因果变量的测量误差方差系统性地大于非因果变量),校正将失效。 - 假设 3(稀疏性/缩放):\(\sigma_\beta^2/p\) 的缩放保证总遗传方差 \(\sigma_\beta^2 \bar{\sigma}_x^2\) 在 \(p \to \infty\) 时有限。这与 GCTA 设定一致。
主要结果: - 定理 1(衰减因子等于平均 ICC):在上述设定与假设下,未校正的 MoM 估计量 \(\hat{\tau}_{\text{naive}}\) 的概率极限为 \(\tau \cdot \bar{\text{ICC}} / [\tau \cdot \bar{\text{ICC}} + (1-\tau)(1-\bar{\text{ICC}}) + \tau(1-\bar{\text{ICC}})]\)(具体形式依赖矩定义,但核心是 \(\hat{\tau}_{\text{naive}}\) 被 \(\bar{\text{ICC}}\) 衰减)。直觉:测量误差稀释了 \(W\) 中承载的信号方差,稀释比例恰好是真实方差占总方差的比例(ICC)。必要条件:同分布假设与 \(p \to \infty\)。解决的技术难点:将高维矩阵矩期望中因果与非因果变量的交叉项消去,依赖同分布假设使得期望可替换。 - 定理 2(校正估计量的识别与一致性):定义校正估计量 \(\hat{\tau}_{\text{corrected}} = \hat{\tau}_{\text{naive}} / \bar{\text{ICC}}\)(或其矩等价形式),其中 \(\bar{\text{ICC}}\) 由 pilot study 的重复测量方差分析估计。在 pilot study 样本量 \(m \to \infty\) 且主研究 \(n \to \infty\) 时,\(\hat{\tau}_{\text{corrected}} \to \tau\)。直觉:衰减因子被精确估计并除掉。必要条件:pilot study 的重复测量需能代表主研究的误差分布(即 pilot 与主研究的 ICC 分布一致)。 - 定理/命题 3(跨性状相关性无偏差):对于两性状 \(Y_1, Y_2\) 共享同一 \(W\) 的模型,效应大小相关性 \(\rho_\beta = \text{Cor}(\beta_1, \beta_2)\) 的 MoM 估计量在存在测量误差时,其概率极限仍为 \(\rho_\beta\)(无偏差)。直觉:测量误差对两性状的稀释是同向的,在计算相关性时分子分母的衰减因子相互抵消。必要条件:两性状的测量误差向量同分布(同一 \(W\) 用于两性状)。
证明路线与技术技巧: - 整体路线: 1. 写出基于可观测 \(W\) 的矩方程(如 \(\mathbb{E}[Y_i Y_j]\) 或 \(\mathbb{E}[Y_i W_{ij} W_{ik}]\) 的变体,具体依赖 MoM 的构造)。 2. 将矩方程中的 \(W\) 替换为 \(X+U\),利用 \(U\) 的独立性展开期望。 3. 将期望拆分为因果变量部分(\(\beta_j \neq 0\))与非因果变量部分(\(\beta_j = 0\)),利用同分布假设将因果部分的 \(\sigma_{uj}^2, \sigma_{xj}^2\) 期望替换为全变量集的平均 \(\bar{\sigma}_u^2, \bar{\sigma}_x^2\)。 4. 在 \(p \to \infty\) 下,非因果部分的交叉项趋于 0(随机效应稀疏缩放),因果部分的主项留下 \(\bar{\text{ICC}}\) 因子。 5. 解矩方程,得到 \(\hat{\tau}_{\text{naive}}\) 的极限包含 \(\bar{\text{ICC}}\),构造除法校正。 - 关键跳跃点:从因果变量子集的 ICC 平均(不可观测,因为不知哪些是因果的)跳到全变量集的 ICC 平均(可观测)。这一步完全依赖同分布假设(Assumption 2),是整篇论文的识别关键。若此步不成立,后续校正均失效。 - 技术技巧: - 高维矩展开:用 \(p \to \infty\) 下的随机效应缩放 \(\sigma_\beta^2/p\) 控制交叉项量级,这是 GCTA 系列的标准技巧。 - 方差成分的 MoM 识别:沿用 Haseman-Elston 回归或其变体,将表型交叉矩与基因组交叉矩对齐。 - ICC 的方差分析估计:在 pilot study 中用经典的 one-way ANOVA 分解重复测量方差,估计 \(\bar{\text{ICC}}\),这是测量误差文献的标准工具。
真实例子与应用: - 数据:American Gut Project (AGP) 数据集,包含肠道微生物 taxa(高维计数数据,经中心化对数比率 CLR 变换后作为 \(W\))与表型(BMI 及多种过敏性状)。 - 如何用上去: 1. 选取有重复测量样本的子集作为 pilot study,估计每个 taxa 的 ICC(由于测序与技术变异,微生物数据的 ICC 通常远低于 1,作者发现平均 ICC 约在 0.1-0.3 之间)。 2. 在全样本上用 MoM 估计未校正的 OFPV(naive \(\hat{\tau}\))。 3. 用 pilot study 的 \(\bar{\text{ICC}}\) 校正,得到 corrected \(\hat{\tau}\)。 - 结果:naive OFPV 估计极低(接近 0),校正后 OFPV 显著提升(例如微生物对 BMI 的方差解释从 <1% 提升至约 5-10%),说明测量误差导致严重低估。跨性状相关性(BMI 与过敏性状的效应大小相关)在校正前后变化极小,验证了定理 3。 - 想说明什么:验证理论预测的衰减严重性(ICC 约 0.2 意味着 naive 估计仅为真实值的约 1/5),并展示校正框架的可操作性(只需少量重复测量)。同时展示跨性状相关性无需校正的实用便利。
🔎 结论是否比证明窄: - 作者在摘要与 intro 中泛泛声称"ignoring measurement error may severely underestimate OFPV",但严格证明的结论仅在同分布假设(Assumption 2)下成立。若因果变量的测量误差方差系统性偏大(例如某些稀疏但高变异的微生物 taxa 既易出信号又难测量),衰减因子可能偏离 \(\bar{\text{ICC}}\),此时"severely underestimate"的定性结论仍可能成立,但用 \(\bar{\text{ICC}}\) 校正的定量结论将失效。作者未在主定理中讨论此假设失效的后果,仅在讨论部分简短提及。
四、开放问题(点到为止)¶
- 同分布假设的放宽或检验:当前识别完全依赖 \(\mathbb{E}[\sigma_{uj}^2 | \beta_j \neq 0] = \mathbb{E}[\sigma_{uj}^2 | \beta_j = 0]\)。能否在因果变量比例 \(\pi_c = p_c/p \to 0\) 但 \(\pi_c\) 已知/可估的设定下,给出只依赖因果变量 ICC 的校正(需识别哪些变量是因果的,或给出 \(\pi_c\) 的估计)?扎根点:Assumption 2 及讨论部分对其必要性的承认。
- OFPV 估计的 minimax 率与效率界:在存在测量误差与 pilot study 设定下,校正 OFPV 估计的渐近方差下界是什么?当前 MoM 校正是否达到半参数效率界?扎根点:本文仅给出一致性,未给出渐近分布或方差界。
- 非线性/半参数模型的衰减因子:若表型模型为 \(Y = f(X^\top \beta) + e\)(如 logistic/probit,适用于二值过敏性状),测量误差导致的衰减因子是否仍为 \(\bar{\text{ICC}}\) 或其函数?扎根点:本文设定为线性混合模型,讨论部分提及对二值表型的局限。要确认此 gap 是否为真,需查近期半参数测量误差与方差成分交叉的文献。
Maintained by 陈星宇 · Homepage · Source on GitHub