Principal Components Decomposition of Fraction of Variance Explained in High Dimensional Linear Models with Strong Correlation¶

作者: Man Luo, Chun Chieh Fan, David Azriel, Armin Schwartzman
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: https://arxiv.org/abs/2606.03880

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究的是在高维线性模型（\(p \gg n\) 或 \(p/n \to \gamma \in (0, \infty)\)）中，当预测变量之间存在强相关性（如脑影像数据中相邻像素/顶点的空间依赖、遗传数据中的连锁不平衡）时，如何无偏、一致地估计方差解释分数（FVE，在遗传学中常称为 heritability \(h^2\)，在脑影像中称为 morphometricity）。核心统计问题是：比例渐近下，协方差矩阵的谱结构（spike + bulk）如何破坏传统高维 FVE 估计器的弱相关假设，以及如何通过谱分解修复这种偏差。当前成熟度处于“有渐近理论、有方法、但强相关设定下的理论刚起步”的阶段。

发展脉络： 1. 奠基工作（低维与随机效应）：Yang et al. (2010, 2011) 提出 GCTA/GREML（LMM-REML），将 SNP 效应视为随机效应，用 GRM 估计 heritability，开启了高维 FVE 估计的时代。但作者明确指出，LMM-REML 假设 relatedness matrix 准确反映了真实关系，偏离此假设（如强非加性效应、群体结构）会导致偏差（引用 Krishna Kumar et al. 2016; UCLEB Consortium et al. 2017）。 2. 主要进展（矩方法与弱相关理论）：Schwartzman et al. (2019) 提出 GWASH 估计器，仅依赖汇总统计量，在 Azriel et al. (2025) 中被证明在弱相关条件 WD0（\(\text{tr}(\tilde{\Sigma}^2)/m^2 \to 0\)）下无偏。作者在 intro 中点明：“GWASH was proved to provide unbiased FVE estimates but requires a weak correlation assumption... We suspect this weak correlation assumption may be necessary for LMM-REML too.”——这直接框定了本文的出发点：WD0 是现有高维估计器的命门。 3. 当前 frontier（强相关下的偏差识别与初步修补）：Couvy-Duchesne et al. (2020) 尝试在脑影像中用 LMM-REML 估计 morphometricity，但作者指出其估计值极低（0.59%），暗示强相关导致了严重低估。Hou et al. (2019) 在遗传中处理局部 LD，但作者批评它们“do not adequately address the types of strong, diffuse correlation structures prominent in neuroimaging”。Azriel and Schwartzman (2015) 研究了强相关下相关正态变量的经验分布，为本文的谱分析打下基础，但留下了一个口子：如何将谱结构转化为 FVE 的估计策略？ 4. 本文的位置：填补“强相关导致 WD0 失效 → 现有估计器偏差 → 需要分解框架”这条线。作者提出先剥离 dominant PCs（恢复 WD0），再对残差用高维方法，低维部分用 adjusted \(R^2\)。

子线索聚类： - 线索 1：高维 FVE 估计方法（GWASH vs LMM-REML）：GWASH（Schwartzman et al. 2019）走矩估计/汇总统计路线；LMM-REML（Yang et al. 2011; Sabuncu et al. 2016）走随机效应/个体级数据路线。本文将两者统一视为“受制于 WD0 的高维估计器”，并在残差部分并行测试两者。 - 线索 2：协方差谱结构与弱相关条件（WD0 与 Spike model）：Azriel and Schwartzman (2015) 定义了 WD0 并指出 exchangeable 结构违反它；Silverstein and Choi (1995); Dobriban (2015) 提供 MP law 与 Spectrode 工具计算 bulk 边缘。本文将“违反 WD0”等同于“存在 \(O(m)\) 阶的 spike eigenvalues”，并用 Spectrode 估计 spike 数量 \(\hat{K}\)。 - 线索 3：参考面板与双重使用数据：Bulik-Sullivan et al. (2015); Taliun et al. (2017) 在遗传中用 reference panel 估计 PCA 结构以避免 double dipping。本文将此思路迁移到脑影像，提出 surrogate eigenvectors。

这个方向在追问的核心问题： 1. WD0 的统计本质与边界：弱相关条件 \(\text{tr}(\tilde{\Sigma}^2)/m^2 \to 0\) 在什么谱结构下成立/失效？能否通过低秩剥离将其修复？（本文回答了：剥离 \(K\) 个 spike 后 WD0 恢复）。 2. 强相关下 FVE 估计器的偏差方向与量级：当 WD0 失效时，GWASH 与 LMM-REML 的偏差是上偏还是下偏？偏差的渐近率是什么？（本文模拟显示下偏，但缺乏渐近偏差的精确表达式）。 3. 双重使用数据与参考面板的 trade-off：用样本自身 PCs 会 double dipping（上偏），用 surrogate PCs 会损失有效样本量（可能引入噪声），最优样本分割比例是什么？（本文承认是 limitation，仅做经验探讨）。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“神经影像数据有强相关 → 现有方法假设弱相关 → 偏差 → 剔除 PCs 是显然的下一步”。同时，作者淡化了两条竞争路线：①直接修改 GWASH/REML 的矩条件以适应强相关（而非剥离）；②在 LMM 中引入更复杂的协方差结构（如 spatial random effects）而非分解。 - 缺失的引用：intro 中明显缺失了高维 PCA / Spike model 理论的核心文献（如 Baik & Silverstein 2006 的 phase transition；Johnstone 2001 的 spiked covariance model；或者近年 Onatski 2009/2010 的边缘检测理论）。作者仅用了 Dobriban 2015 的 Spectrode 软件，但未引用 spike model 检测的统计理论源头。此外，缺失了高维 \(R^2\) / FVE 的 minimax 理论文献（如 Dicker 2014 或 Verzelen 2012 的高维方差解释估计界），这使得本文的“偏差缩减”缺乏相对于 minimax 率的基准。

张力： - 未见明显对立引用。被引文献之间更多是互补而非矛盾：GWASH 与 LMM-REML 在弱相关下一致，在强相关下同向下偏。但存在一个隐性张力：Azriel et al. (2025) 证明 GWASH 在 WD0 下无偏，而本文模拟显示在强相关下 GWASH 下偏——这两者之间缺乏一个渐近偏差的连续性桥接理论（即 WD0 稍微被违反时，偏差如何随 \(\text{tr}(\tilde{\Sigma}^2)/m^2\) 的极限值 \(\rho^2\) 连续增长？）。

二、这篇论文做了什么¶

类型：方法型（理论证明 + 模拟 + 数据实证），核心是框架提出与偏差修复。

三句话： ①研究了高维线性模型中预测变量强相关导致 FVE 估计偏差的问题； ②核心工具是 FVE 的主成分分解（剥离 dominant PCs 恢复弱相关）与 surrogate eigenvectors（避免 double dipping）； ③主要结论是：剥离至少 \(K\) 个 spike PCs 后，残差协方差满足 WD0（Proposition 1），分解后的 FVE 估计在比例渐近下一致，模拟与 ABCD 数据显示偏差显著缩减。

关键设定与假设： - 模型：\(y = X\beta + \epsilon\)，\(\beta\) 固定（fixed-effect FVE \(h^2_\beta\)），\(X\) 行 iid，\(\Sigma = \text{Cov}(x_i)\)。 - Spike 结构假设：强 eigenvalues 数量 \(K < \infty\)，\(\lambda_i = O(m)\) for \(i \le K\)；bulk eigenvalues 一致有界 \(\sup_{m} \max_{i>K} \lambda_i \le C\)（假设 11）。统计含义：协方差矩阵是有限秩 spike + 紧致 bulk，这是经典的 spiked covariance model，但作者未引用该术语。 - 残差方差非零假设：\(\inf_m \min_j (\Sigma_{\cdot k})_{jj} \ge c_k > 0\)（假设 14）。统计含义：剥离 PCs 后没有顶点的方差被压缩到 0，保证 re-standardization 可行。 - WD0 条件：\(\text{tr}(\tilde{\Sigma}^2)/m^2 \to 0\)。放宽/强化：本文不放宽 WD0，而是通过剥离 PCs 强制恢复 WD0（Proposition 1）。

主要结果： 1. Proposition 1（残差 WD0 恢复）：若剥离至少 \(k \ge K\) 个 population PCs，则残差相关矩阵 \(\tilde{\Sigma}_{\cdot k}\) 满足 WD0。直觉：spike 剥离后，剩余谱值有界，\(\text{tr}(\tilde{\Sigma}_{\cdot k}^2) \le m (C/c_k)^2\)，除以 \(m^2\) 后趋于 0。技术难点：处理 re-standardization（对角矩阵 \(D_{\cdot k}\) 的逆）对谱矩的影响，用假设 14 保证 \(D_{\cdot k}^{-1}\) 有界。 2. Proposition 2（FVE 分解）：\(h^2_\beta = h^2_k + (1 - h^2_k) h^2_{\cdot k}\)。直觉：PC 块与残差块不相关（式 10），方差可加性 + 条件方差链式法则。必要条件：\(\beta\) 固定，\(V_k^\top V_{\cdot k} = 0\)。 3. Delta-method 方差估计（式 28）：忽略 \(\hat{h}^2_k\) 与 \(\hat{h}^2_{\cdot k}\) 的协方差，\(\text{Var}(\hat{h}^2_\beta) \approx (1-\hat{h}^2_{\cdot k})^2 \text{Var}(\hat{h}^2_k) + (1-\hat{h}^2_k)^2 \text{Var}(\hat{h}^2_{\cdot k})\)。直觉：一阶 Taylor 展开，交叉项 \(O_p(n^{-1})\) 被忽略。

方法/证明骨架： 1. 定义 spike/bulk 分割与 WD0 失效条件。 2. Population PC 剥离 → 残差谱有界 → WD0 恢复（Prop 1）。 3. 模型重参数化 → FVE 加性分解（Prop 2）。 4. 实践中用 Spectrode 估计 \(\hat{K}\)，用 surrogate data 估计 PCs，避免 double dipping。 5. 低维部分用 adjusted \(R^2\)，高维残差用 GWASH/REML，组合得 \(\hat{h}^2_\beta\)。

🔎 结论是否比证明窄： - 窄结论 1：Proposition 1 仅在 population PCs 下严格证明 WD0 恢复，但实践中必须用 surrogate PCs。作者在模拟中验证了 surrogate PCs 的收敛（Fig 3 右列），但未给出 surrogate PCs 下 WD0 恢复的渐近理论保证（即 surrogate PCs 估计误差 \(\hat{V}_{sur,k} - V_k\) 对 \(\text{tr}(\tilde{\Sigma}_{\cdot \hat{k}}^2)/m^2 \to 0\) 的影响）。这是最干净的问题种子。 - 窄结论 2：式 28 的方差估计忽略了协方差 \(\text{Cov}(\hat{h}^2_k, \hat{h}^2_{\cdot k})\)，作者承认“For simplicity, we propose an estimator of variance where we ignore the covariance”，并在 Appendix A.4 显示 \(R_n = -\Delta_k \Delta_{\cdot k}\) 是 \(O_p(n^{-1})\)。但若 \(\hat{h}^2_k\) 与 \(\hat{h}^2_{\cdot k}\) 的相关性较强（如 surrogate 样本较小时），忽略协方差可能导致方差估计严重偏离（Table 3 中 \(\rho=0.8, h^2=0.8, k=0\) 时 GWASH 的 formula SE 0.047 vs empirical 0.029 已现端倪）。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 反复出现 / 社区真在乎的问题：强相关下 heritability/FVE 的偏差是遗传与神经影像社区的共识痛点（Krishna Kumar 2016; Couvy-Duchesne 2020; Pham et al. 2026 都点名）。WD0 条件的脆弱性也是理论社区的核心关切（Azriel et al. 2025 的定理 1 直接依赖它）。这大概率是真 gap。 - 一家之言：用 surrogate eigenvectors 避免双重使用数据是本文的特色，但遗传社区有 LD Score regression (Bulik-Sullivan 2015) 等不依赖个体级数据的替代路线，本文未与之正面比较理论效率。需自查同子领域近期 5 篇 intro，看是否都指向“surrogate PCs”还是另有路线。

问题种子清单：

(A) 立即可做（用 very_familiar 即可动手）：

问题表述：推导 surrogate PCs 估计误差下残差 WD0 条件的渐近保证（即证明 \(\text{tr}(\tilde{\Sigma}_{\cdot \hat{k}}^2)/m^2 \to 0\) 在 \(\hat{V}_{sur,k}\) 下的收敛率，或给出偏差界）。
扎根在本文哪里：Proposition 1 仅对 population PCs 证明，实践中用 surrogate PCs（Section 3.6），理论缺口在窄结论 1。
攻它需要什么：高维渐近 + 随机矩阵扰动理论（PCA 估计误差的 Davis-Kahan \(\sin\theta\) 界）。数据：模拟即可。算力：普通。
谁已经在附近做：需自查拥挤度。高维 PCA perturbation 理论有大量文献（如 Bao et al. 2018; Cape et al. 2019），但将其接入 WD0 条件恢复的尚未见。
武器库匹配 + 独特角度：very_familiar 的 high-dimensional asymptotics + inverse problems with random noise（surrogate PCs 误差可视为协方差逆问题的扰动）。研究者可从扰动界出发，给出 \(\hat{V}_{sur,k}\) 下 WD0 恢复的 sufficient condition on surrogate sample size \(n_{sur}\)，这是本文缺失的定量规则。
问题表述：推导 WD0 被违反时 GWASH/REML 的渐近偏差表达式（作为 \(\text{tr}(\tilde{\Sigma}^2)/m^2\) 极限 \(\rho^2\) 的函数），而非仅模拟展示下偏。
扎根在本文哪里：Section 4.3 模拟显示偏差，但无理论公式。Intro 说“strong correlations can substantially impact the consistency and bias”，但未量化。
攻它需要什么：高维渐近 + 矩方法展开。数据：模拟验证。算力：普通。
谁已经在附近做：Azriel et al. (2025) 给了 WD0 下无偏证明，但未给违反时的偏差。Pham et al. (2026) 可能涉及（未全文读）。
武器库匹配 + 独特角度：very_familiar 的 minimax bounds for estimation + high-dimensional asymptotics。研究者可从 GWASH 的矩条件出发，计算 \(\text{E}[\hat{h}^2_{GWASH}] - h^2_\beta\) 在 \(\text{tr}(\tilde{\Sigma}^2)/m^2 \to \rho^2 > 0\) 时的渐近展开，得到偏差的 精确率（而非仅方向）。

(B) 中期可做（需补 moderately_familiar 的某一块）：

问题表述：推导分解估计器 \(\hat{h}^2_\beta\) 的半参数效率界，并比较 GWASH 与 REML 在残差部分的效率损失。
扎根在本文哪里：本文用 delta-method 给方差（式 28），但未问“这是最优估计吗？”。
攻它需要什么：需补 semiparametric theory（特别是高维 nuisance 参数下的效率界，如 Robins 1997 的 HOIF 思路）。补 1-2 篇：Robins et al. (1997) HOIF 原始论文 + Dicker (2014) 高维方差估计的 minimax 界。补完后接回：计算 \(h^2_\beta\) 在 \(\Sigma\) 未知、spike 数 \(K\) 未知下的 semiparametric efficiency bound，看 GWASH/REML 是否达到此界。
谁已经在附近做：高维 heritability 的效率界可能无人做（需自查）。
武器库匹配 + 独特角度：moderately_familiar 的 HOIF + semiparametric theory。研究者可从 HOIF 角度看：残差部分的 FVE 估计是否因高维 nuisance（残差协方差）而存在 higher-order bias，本文的 GWASH/REML 是否只是一阶修正？

(C) 暂不建议：

问题表述：在非线性模型（如 logistic，binary outcome）下推广 FVE 分解。
扎根在本文哪里：Discussion 明说“extensions to regression settings beyond linear such as logistic with binary outcomes”是 future work。
核心机器缺什么：缺 GLM 高维渐近理论（特别是 logistic 在 \(p/n \to \gamma\) 下的 MLE/REML 相位转换理论，如 Sur & Candès 2019）+ binary outcome 下 FVE 的半参数识别（需特定函数空间精细分析，如 link function 未知时的效率界）。
为何不易绕过：从武器库内，研究者缺乏 logistic 高维相位转换的渐近工具，且 binary FVE 的识别理论需反事实框架，非当前 arsenal 覆盖。

迁移视角： - 方法 T：Spike 剥离 + surrogate PCs 避免双重使用数据 + WD0 恢复的谱矩检验。 - 目标领域：因果推断中的高维工具变量 (IV) 估计。 - 为什么可行：在弱 IV 设定下（many invalid/weak IVs，如高维遗传 IV），IV 的协方差矩阵同样有强相关（LD 结构），导致 2SLS/JIVE 偏差。研究者的 estimation theory in causal inference (very_familiar) 可将“剥离 dominant PCs 恢复弱相关”迁移到 IV 估计：先从 IV 矩阵剥离强 PCs，对残差 IV 用高维矩估计，低维 PCs 用传统 IV。这命中了研究者强项（因果推断估计理论），且该领域尚未有人用谱分解修复 IV 的弱相关假设。

四、延伸与下一步¶

沿引用链的阅读路线： - 地基（先读）： 1. Azriel and Schwartzman (2015)：理解 WD0 条件的定义与 exchangeable 结构的谱性质（本文理论源头）。 2. Schwartzman et al. (2019)：理解 GWASH 估计器的矩构造与渐近分布（本文高维部分的基础）。 3. Silverstein and Choi (1995) / Dobriban (2015)：理解 MP law 与 Spectrode（本文 \(\hat{K}\) 估计的 RMT 基础）。 - Frontier（再读）： 1. Azriel et al. (2025)：看 WD0 下无偏证明的细节，找偏差展开的起点。 2. Pham et al. (2026)：看最新对 heritability 估计可靠条件的讨论（可能涉及强相关）。 3. Bulik-Sullivan et al. (2015)：看遗传中 reference panel + LD Score 的思路，比较与 surrogate PCs 的异同。 4. Couvy-Duchesne et al. (2020)：看脑影像中 LMM-REML 的实际偏差表现。 5. Baik & Silverstein (2006) 或 Johnstone (2001)：补读 spike model 的相位转换理论（本文缺失的引用）。

假设扰动： - 改动假设 11（Bounded bulk）：假设 bulk eigenvalues 不一致有界，而是有长尾（如 \(\lambda_i \sim i^{-\alpha}\) for \(i > K\), \(\alpha < 1\)）。此时 \(\text{tr}(\Sigma_{\cdot k}^2)\) 可能仍为 \(O(m^{2-\alpha})\)，除以 \(m^2\) 后不趋于 0，WD0 无法通过剥离有限 \(K\) 个 PCs 恢复。 - 结论变化：Proposition 1 失效，残差部分仍为强相关，GWASH/REML 仍偏差。需要剥离更多 PCs（\(K\) 随 \(m\) 增长）或修改 WD0 条件为更弱的谱矩条件。 - 技术需要：长尾谱的 RMT 理论（如 power-law decay 的 MP 变形）+ 高维 FVE 在非 WD0 下的 minimax 界。 - 落入哪档：B 档。需补长尾 RMT 的渐近工具（moderately_familiar 之外，但可从 high-dimensional asymptotics 延伸），补完后可接回 A 档的偏差界推导。

理解检测题： - 题目：假设协方差矩阵 \(\Sigma\) 有 \(K=2\) 个 spike eigenvalues \(\lambda_1 = 3m\), \(\lambda_2 = 2m\)，其余 bulk eigenvalues 为 \(\lambda_i = 1\) for \(i \ge 3\)。设计矩阵 \(X\) 的行 iid \(\sim N(0, \Sigma)\)，\(m=1000\), \(n=500\)。若你用 Spectrode 估计出 \(\hat{K}=2\)，并从独立 surrogate 数据（\(n_{sur}=500\)）估计了 \(\hat{V}_{sur,2}\)。请写出： 1. 剥离 2 个 PCs 后，残差协方差 \(\Sigma_{\cdot 2}\) 的非零 eigenvalues 是什么？ 2. 残差相关矩阵 \(\tilde{\Sigma}_{\cdot 2}\) 的 \(\text{tr}(\tilde{\Sigma}_{\cdot 2}^2)/m^2\) 的理论极限值是多少？WD0 是否恢复？ 3. 若你错误地只剥离了 1 个 PC（\(k=1\)），\(\text{tr}(\tilde{\Sigma}_{\cdot 1}^2)/m^2\) 的极限值是多少？WD0 是否恢复？ - 考察点：应用 Proposition 1 的谱计算逻辑，理解 spike 剥离数量 \(k\) 与 WD0 恢复的定量关系，而非仅记忆“剥离 \(K\) 个即可”。

Maintained by 陈星宇 · Homepage · Source on GitHub

Principal Components Decomposition of Fraction of Variance Explained in High Dimensional Linear Models with Strong Correlation¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论