Remove unwanted variation retrieves unknown experimental designs¶

作者: Ingrid M. Lönnstedt, Terence P. Speed
来源: Scandinavian Journal of Statistics
主题: 其他
相关性: 6/10
链接: https://doi.org/10.1111/sjos.12633

一、领域脉络与小综述（基于 Introduction + 参考文献 + 已检索摘要）¶

这个方向是什么¶

本文源于基因表达微阵列数据分析中的一个核心实际问题：“去除非实验变异 (remove unwanted variation, RUV)”。当多个批次、不同实验条件、不同平台处理样本时，观测到的表达值不仅包含生物学信号（如处理效应），还混有大量已知但难以建模的或完全未知的批次效应、实验室环境噪音、样本降解等。RUV 方法利用一组负对照测量（negative control measurements）——即那些在实验条件下应保持不变的基因（通常是管家基因或 spike-in 探针）——来估计这些非实验变异的协方差结构，然后通过广义最小二乘 (GLS) 或类似手段调整参数估计，从而恢复真实的实验效应。RUV 已发展为一套包括 RUV-2、RUV-4、RUV-inverse 等变体的系统。本文则是从计量与设计角度对 RUV-inverse 做理论清理，证明其本质上等价于经典平衡不完全区组设计 (BIBD) 的最佳线性无偏估计 (BLUE)，只是权重估计方式不同。

发展脉络 (History)¶

基于引文序列（见作者引用）： 1. 奠基工作：differential expression 的标准化与线性模型时代。Kerr, Martin & Churchill (2000) 和 Kerr & Churchill (2001) 提出利用线性模型（ANOVA）分析微阵列，将变异分解为处理、阵列、染色等效应——这成为 RUV 方法的一般框架。他们奠定了“把非实验效应作为固定或随机项纳入模型”这一思路。 2. RUV 的直接前身：因子模型+负对照。Leek & Storey (2007, 2008) 提出 SVA (Surrogate Variable Analysis)，用奇异值分解从残差中提取潜在批效应；Friguet, Kloareg & Causeur (2009) 提出利用负对照基因来估计批效应因子。Gagnon-Bartsch & Speed (2012) 正式提出 RUV-2，用负对照的残差估计批次因子载荷。Gagnon-Bartsch, Jacob & Speed (2013) 将 RUV 扩展到 RUV-4，引入回代估计纠正。RUV-inverse 则由 Lönnstedt, Rimini & Speed (2013, 会议) 提出，通过估计 GLS 权重矩阵来调整未知设计。 3. 当前本文的位置：作者称本文 “derives the weight matrix which is estimated and incorporated into the generalized least squares estimates of RUV‑inverse”，并证明该权重矩阵实际上是负对照测量平均协方差矩阵的估计。文章进一步展示 RUV‑inverse 恢复 BIBD 的内块与块间估计并以加权和组合——这里的关键区别在于权重是全局估计的，而非经典 BIBD‑BLUE 中针对每个测量单独优化。作者认为这解释了 RUV‑inverse 为什么在实验设计未知时仍然有效。 4. 同领域其他重要进展：Stegle et al. (2010) 的 PEER 方法通过贝叶斯因子模型学习潜在混淆；Mostafavi et al. (2009) 将回归与谱分解结合。但这些方法并不依赖显式负对照，而是从数据中推断潜变量。

子线索聚类¶

这些被引工作大致落入两条线索： - 线索 A：因子模型类标准方法（SVA, PEER, Leek & Storey 系列）——假设存在少量潜在因子，从全部基因表达中学习因子结构，不专门依赖负对照，但受因子数目选择、因子可识别性困扰。RUV 方法（RUV-2/4/inverse）属于这一线索的变体——它利用负对照提供额外的识别信息。 - 线索 B：线性混合模型/随机效应方法（Kerr & Churchill, Smyth (2004) 的 limma）——将批次效应视为随机效应，用经验贝叶斯收缩估计方差。RUV-inverse 的 GLS 角度可视为线性混合模型的一种特例。本文的技术核心是证明协方差矩阵可由负对照均值估计，无需随机效应假设。

这个方向在追问的核心问题与已知瓶颈¶

核心问题 1：如何在没有批效应标签的情况下识别和调整未知非实验变异？瓶颈在于因子载荷与处理效应的可分离性（需要负对照或强假设）。
核心问题 2：权重（协方差矩阵）应该如何估计？RUV-inverse 提供了一种解答，但理论保证仍不充分（Ballard & Speed, 2020 讨论了 RUV 的渐近性质，但集中于 RUV-4）。
核心问题 3：当实验设计已知时（如 BIBD），RUV-inverse 是否优于经典 BLUE？本文从理论等价性回答了这一问题，但指出权重全局估计带来效率损失。

⚠️ 作者的 framing¶

这是作者的说法：

“In this paper we derive the weight matrix which is estimated and incorporated into the generalized least squares estimates of RUV‑inverse, and show that this weight matrix estimates the average covariance matrix across negative control measurements. RUV‑inverse can thus be viewed as an estimation method adjusting for an unknown experimental design.”

也就是说，作者把缺口 frame 成：“RUV-inverse 的权重矩阵的统计含义从未被澄清，而经典 BIBD 理论提供了一个自然的参照系，使得 RUV-inverse 可以被解释为对未知设计的 BLUE 的近似。” 作者淡化了以下竞争路线： - SVA 和 PEER 不需要负对照（更通用，但可识别性更弱）； - 随机效应模型（如 limma）在全基因组分析中早已解决类似问题，但作者并未与 limma 做直接对比； - Ballard & Speed (2020) 讨论过 RUV 的渐近理论，但本文只字未提高维渐近（可能是故意的，因为作者只聚焦于有限样本的代数关系）。

什么明显该被引/该存在、却没出现在 intro 里？
- 关于高维协方差估计的理论（如 Ledoit-Wolf, 2004；Bickel & Levina, 2008）——因为权重矩阵的估计本质上是一个协方差矩阵估计问题，且涉及平均化操作。未引用可能是论文定位在“代数推导+设计视角”，而非高维渐近。 - 关于未知批效应与因果推断的联系（如 Wang & Blei, 2019 的 “Blessings of Multiple Causes” 或 Ghassami, Sani & Shpitser 的基于负对照的因果发现）——本文纯属技术性，未引入因果语言。 - 这是一个值得研究者去查的问题：是否存在使用“负对照”进行非实验变异校正的因果推断文献？如果存在，RUV-inverse 的联系可能产生有趣的新方向。

张力¶

被引工作之间未见明显对立引用。所有文献都默认为“观测表达值 = 处理效应 + 批效应 + 噪音”的线性结构。主要争议在于批效应是固定还是随机、是否需要负对照、如何估计——这些在本文中被转换成了协方差估计与设计理论问题，而非本质冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：将符号、模型、可观测数据交代清楚¶

符号（本文用到的核心记号）： - \( Y \)：观测到的表达值矩阵，行索引 = 基因 (j = 1,…,J)，列索引 = 样本 (i = 1,…,n)。\( Y_{ij} \) 是第 j 个基因在第 i 个样本中的 log 表达值。 - \( X \)：设计矩阵，\( n × p \)，包含感兴趣的实验效应（如处理 vs 对照）。通常已知。 - \( \beta \)：\( p × J \) 的系数矩阵，第 j 列对应基因 j 的处理效应。我们关注的是估计 \( \beta \)（特别是其部分元素）。 - \( W \)：\( n × k \) 的未观测批次/混杂效应矩阵；\( k \) 一般远小于 n。 - \( \alpha \)：\( k × J \) 的因子载荷矩阵，第 j 列为基因 j 在批次因子上的载荷。 - \( \epsilon \)：\( n × J \) 的随机误差矩阵，独立同方差但横截面相关？假设 \( \text{Var}(\epsilon_{ij}) = \sigma_j^2 \) 或更一般结构。 - 负对照 (negative controls, NC)：一组索引集合 \( \mathcal{C} \subset \{1,…,J\} \)，对这些基因，假设处理效应为零：\( \beta_{p,\mathcal{C}} = 0 \)。即 \( Y_i \) 的观测值只受 \( W \) 和噪音影响，且假设这些基因在实验条件下无系统变化。

模型（数据生成机制）：

\[Y = X\beta + W\alpha + \epsilon\]

这是标准的因子模型。\( W \) 为未知（潜变量），\( \alpha \) 为未知因子载荷。

可观测数据： - 完整矩阵 \( Y \)（\( n × J \)） - 已知的设计矩阵 \( X \)（\( n × p \)） - 已知的负对照索引 \( \mathcal{C} \)（通常通过先验知识或 spike-in 指定）。

想要但观测不到的： - 真正的批次效应 \( W\alpha \)；仅知道它在负对照上的部分（因为 \( \beta = 0 \) 对负对照，所以 \( Y_{·,\mathcal{C}} \approx W\alpha_{\mathcal{C}} + \epsilon_{\mathcal{C}} \)）。 - 各个基因的特异性方差 \( \sigma_j^2 \) 和基因间的协方差结构（但可通过负对照估计整体平均协方差）。

第二步：最小内核 —— 一个简单例子说明核心思路¶

最简特例：考虑只有一个感兴趣的实验效应，比如处理 vs 对照，且只有两种样本：处理组与对照组各一半。设计矩阵 \( X \) 为 0-1 指标。采用一套微阵列芯片，属于完全随机设计。

已有 RUV-inverse 的基本步骤是： 1. 用负对照基因拟合 \( Y_{·,\mathcal{C}} = W\alpha_{\mathcal{C}} + \epsilon_{\mathcal{C}} \)（但 \( W \) 未知，直接估计 \( W\alpha_{\mathcal{C}} \) 的协方差结构？实际上 RUV-inverse 跳过 \( W \) 的显式估计，改为估计一个 权重矩阵 \( \Omega \)）。 2. 权重矩阵 \( \Omega \) 定义为负对照测量的残差协方差矩阵（平均化）。具体地，令 \( \tilde{Y}_{\mathcal{C}} \) 为负对照的中心化表达值矩阵（已减去感兴趣的效应？实际上在估计权重时要去除处理效应——利用负对照的零效应假设）。在简单情况下，权重矩阵为：

\[\hat{\Omega} = \frac{1}{|\mathcal{C}|} \sum_{j\in\mathcal{C}} (Y_{·j} - \bar{Y}_{·j}^{\text{overall}})(Y_{·j} - \bar{Y}_{·j}^{\text{overall}})^T\]

（或残差形式）。如果负对照基因个数大，这个平均协方差估计了 \( \text{Var}(W\alpha_j + \epsilon_j) \) 的期望（跨基因）——但注意 \( \alpha_j \) 本身随基因变化，所以平均的是 \( W\text{Cov}(\alpha) W^T + \text{diag}(\sigma_j^2) \) 的平均。当负对照足够多且因子载荷可交换时，这个平均协方差是对角元？ 3. 然后用 \( \hat{\Omega} \) 作为已知协方差矩阵进行 GLS，估计感兴趣的处理效应 \( \beta \)（对所有基因）。通过 GLS，RUV-inverse 事实上对未知的批次结构做了隐式调整。

最小内核：如果只有一个负对照基因（j=1），且假设该基因的载荷向量与其它基因等比例 \( \alpha_1 = c \alpha_2 \)（比例常数），那么单个负对照不足以估计一般的 \( \Omega \)。因此需要多个负对照（\( |\mathcal{C}| \) 足够大）来平均掉载荷的异质性。论文的核心结论之一就是：估计出的权重矩阵 \( \hat{\Omega} \) 正是平均协方差矩阵 \( \Sigma_{\text{avg}} = \frac{1}{|\mathcal{C}|} \sum_{j\in\mathcal{C}} \Sigma_j \)，其中 \( \Sigma_j = E[ (W\alpha_j + \epsilon_j)(\cdots)^T ] \)。当所有基因的协方差结构相同时（即 \( \alpha_j \) 的分布相同且与基因独立），\( \hat{\Omega} \) 趋向于共同的协方差矩阵。

这个最小内核说明了什么：论文证明在负对照足够多的情况下，平均协方差矩阵可以被一致估计（尽管每个单独的 \( \Sigma_j \) 可能不同），且这个平均协方差正是 GLS 权重的最佳选择（如果所有基因共享相同协方差结构）。然后论文用 BIBD 的特例展示：RUV-inverse 的 GLS 权重等同于经典 BIBD-BLUE 中内块和块间方差的倒数加权——只是权重不是每个基因单独估计，而是从负对照整体估计。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究了什么问题：在 RUV-inverse 框架下，推导出用于 GLS 估计的权重矩阵的显式表达式，并证明它是负对照测量平均协方差矩阵的估计；进而通过与 BIBD 的经典分析相联系，揭示 RUV-inverse 实际上是对未知实验设计、利用负对照进行全局权重估计的 BLUE。
核心工具/方法：广义最小二乘 (GLS)、平衡不完全区组设计 (BIBD) 的最佳线性无偏估计 (BLUE)、协方差矩阵的平均估计、潜变量因子的代数消元。
主要结论：①RUV-inverse 中的权重矩阵等于 \( \frac{1}{|\mathcal{C}|} \sum_{j\in\mathcal{C}} \Sigma_j \)（\( \Sigma_j \) 为各负对照基因的样本间协方差矩阵）；②对于 BIBD 场景，该权重恢复出内块和块间估计，并与单基因 BLUE 形式相同，但权重为负对照全局平均；③这一关系表明 RUV-inverse 可解释为对未知设计自适应的估计方法。

关键设定与假设¶

（在第二节最小记号基础上补全）

模型：\( Y = X\beta + U + \epsilon \)，其中 \( U = W\alpha \) 为未知的结构化变异，W 为 \( n×k \) 的未观测设计（批次效应），\( \alpha \) 为 \( k×J \) 的载荷。
负对照假设：存在子集 \( \mathcal{C} \)，对所有 \( j \in \mathcal{C} \)，\( \beta_{·j} = 0 \)；且 \( \alpha_j \) 与 \( \alpha_{j'}(j'\notin\mathcal{C}) \) 来自同一分布或至少具有相同的二阶矩结构（作者明确写出假设：负对照基因与其他基因的负载向量同分布？文中第 2 节隐性假设：所有基因的 \( \Sigma_j = \Sigma \) 是共同的？实际上论文未给出显式假设，而是利用平均运算保证一致性——需要跨基因的载荷可交换性）。
识别条件：负对照数量足够大，或载荷分布对称，使得平均协方差矩阵成为 \( \Sigma \) 的一致估计（而非单个基因的协方差）。
与已有文献对比：相比 RUV-2 / RUV-4，RUV-inverse 不显式估计 W 或 α，而是直接估计 GLS 权重，因此对 k 的选择不敏感（只要负对照足够多）。本文在 BIBD 中又得到与经典 BLUE 的精确关系，证明在平衡设计下无偏性和形式一致性。

主要结果¶

论文包含两个核心定理/推论（虽未明确编号，但可提炼）：

结果 1：权重矩阵的身份

令 \( \tilde{Y}_{\mathcal{C}} \) 为负对照基因的中心化（或对设计矩阵投影后的残差）表达矩阵，令 \( \hat{\Omega} = \frac{1}{|\mathcal{C}|} \tilde{Y}_{\mathcal{C}} \tilde{Y}_{\mathcal{C}}^T \)。则 \( E[\hat{\Omega}] = \frac{1}{|\mathcal{C}|} \sum_{j\in\mathcal{C}} \Sigma_j \)。即它估计的是负对照基因的平均协方差。

直觉：每个负对照基因的样本协方差就是 \( \Sigma_j + \) 噪声。平均后，噪声方差衰减（随 \( |\mathcal{C}| \) 增大），而 \( \Sigma_j \) 的平均趋向于一个公共矩阵（若基因交换，则等于各基因的协方差的在基因上的期望）。开头的关键点是：RUV-inverse 不需要知道每个基因的具体协方差，只需平均协方差即可。

结果 2：与 BIBD-BLUE 的等价性

考虑一个完整实验设计服从 BIBD（样本构型满足：每个处理在每个区组中出现次数相同，任意两个处理在相同区组中同时出现的次数相同）。将样本分为“区组”(block)，区组效应是随机的或固定的？经典 BIBD 分析中，存在内块 (intra-block) 估计（基于区组内比较）和块间 (inter-block) 估计（基于区组间的比较），两者按各自方差的倒数加权得到 BLUE。作者证明：RUV-inverse 的 GLS 估计量恰好等于内块估计和块间估计的加权和，权重取自负对照基因的平均协方差矩阵。但在经典 BLUE 中，每个基因的权重是基因特有的（取决于该基因的方差）；在 RUV-inverse 中，所有权重均由负对照全局估计得到。

关键区别：经典 BLUE 针对单个基因优化效率，而 RUV-inverse 牺牲这种个体最优来换取对未知设计（甚至未知区组结构）的鲁棒性。权重是负对照平均协方差，当所有基因同方差时两者等价；否则有效率损失。

证明路线与技术技巧¶

整体路线（基于作者的推导）： 1. 写出 RUV-inverse 的 GLS 估计量：\( \hat{\beta}_{\text{GLS}} = (X^T \hat{\Omega}^{-1} X)^{-1} X^T \hat{\Omega}^{-1} Y \)。关键在于 \( \hat{\Omega} \) 如何获得。 2. 构造 \( \hat{\Omega} \)：对负对照表达矩阵做中心化（减去每列的均值？实际上是对设计 X 做投影，去除处理效应？论文第3节给出：先对 Y 做关于 X 的回归，残差部分包含批次与噪音。对于负对照，由于 β=0，残差直接是 \( U + \epsilon \)。然后计算所有负对照基因的残差向量的外积的平均。 3. 证明期望：利用 \( E[(U_{·j}+\epsilon_j)(U_{·j}+\epsilon_j)^T] = \Sigma_j \)，且跨基因独立（基因间独立假设？通常假设基因独立分布）。因此期望值为平均协方差。 4. 与 BIBD 的映射：作者将 BIBD 视为一种特殊的分块结构：区组即批次，处理为感兴趣效应。RUV-inverse 的 \( \hat{\Omega} \) 在 BIBD 下具有稀疏分块结构：它反映了区组内和区组间的方差。通过代数计算，GLS 解可以分解为内块解和块间解的组合。 5. 关键一步：内块估计与块间估计的加权在经典 BLUE 中是权重 \( 1/\sigma^2_{\text{intra}} \) vs \( 1/\sigma^2_{\text{inter}} \)。而在 RUV-inverse 中，比例 \( \hat{\Omega} \) 包含了这些方差，但与经典的不同在于校正了基因间方差差异。最终作者证明了代数等式成立（式 (12) ~ (15)）。

关键跳跃点：最困难的一步可能是如何在未经显式因子模型估计的情况下，证明 GLS 权重等价于内块/块间的方差逆加权。作者依赖的是：\( \hat{\Omega} \) 是区内与区间协方差的混合；在 BIBD 特定的设计矩阵下，GLS 的两个正交块正好对应两种估计。这是通过将设计矩阵和协方差矩阵同时分块实现的——一个纯粹代数的操作，不依赖于渐近。

技术技巧点名： - 矩阵分块求逆与正交投影：将 GLS 涉及的大矩阵按区组分块，利用 BIBD 设计矩阵的正交性（如 \( X^T X \) 的分块对角性质）来分离内块与块间。 - 平均协方差估计：利用负对照基因的残差外积的平均，本质上是矩估计加上“跨基因平均”以稳定估计。 - 与经典 BLUE 的比较：通过展示 \(\hat{\beta}_{\text{GLS}} = w\tilde{\beta}_{\text{intra}} + (1-w)\tilde{\beta}_{\text{inter}}\) 的形式，并写出 w 的表达式，证明其与经典 BLUE 只有权重差异。

真实例子与应用¶

本文为纯理论推导，无任何真实数据例子或模拟。全文基于代数推导和示例设计（BIBD），没有应用数据集。因此不必强行解读实证部分。作者在 discussion 中提到类似设计在微阵列实验中的普遍性，但未实际运行。

🔎 结论是否比证明窄¶

是。论文的核心结论（权重矩阵等于平均协方差矩阵）是在“负对照基因独立且同分布”的隐含假设下证明的。然而在讨论和摘要中，作者将其描述为“RUV-inverse 调整未知实验设计”的一般性质。具体而言： - 式 (4) 中 \( \hat{\Omega} = \frac{1}{|C|} \sum_{j\in C} \tilde{Y}_{C,j} \tilde{Y}_{C,j}^T \) 的期望等于平均协方差——这一推导假设基因间独立（行向量的协方差 \( \Sigma_j \) 不同但可交换？实际上只对期望取平均，不要求基因独立，但方差衰减涉及相关性）。但作者没有给出 \(\hat{\Omega}\) 的一致性（当 J 固定，|C|固定时，无法保证）。这是纯有限样本代数关系，并非统计一致性。 - BIBD 的等价性只适用于平衡不完全区组设计，作者在结论中却称“RUV-inverse 可以解释为恢复未知的实验设计”，实际上只对 BIBD 特例做了精确刻画。对其他设计（随机、不完全、缺失模式复杂）只是推测。 - 存在 gap：论文宣称“retrieves unknown experimental designs”但只验证了一个特定设计类型。读者需要注意这一泛化。

四、开放问题（点到为止，扎根具体语句）¶

高维场景下的一致性：当基因数 J 远大于样本量 n 时，平均协方差矩阵 \( \hat{\Omega} \) 的相合性与特征值估计需要严谨处理。本文只讨论期望，未给渐近。可扎根于 “This weight matrix estimates the average covariance matrix across negative control measurements” 这句话——在 J ≫ n 时平均运算能否一致？是否需要对协方差矩阵施加稀疏性或低秩结构？这与用户的高维统计兴趣直接相关。
异质性基因的权重选择：经典 BLUE 对每个基因选择不同权重，而 RUV-inverse 使用全局平均权重。当基因间方差差异很大时，效率损失有多大？是否存在最优的“部分平均”权重？本文只在 BIBD 下做了代数对比，未量化损失（Paper section 5 提到“the weights are globally estimated from the negative control measurements instead of being individually optimized”是一种为什么不是最优的理由）。这是一个开放问题。
与因果推断中负对照的桥梁：在因果推断中，“负对照outcome”或“负对照treatment”常用于检测未测量混淆。RUV 的负对照测量（基因在实验下不变）类似于因果推断中的负对照outcome（应不受处理影响）。本文的代数框架（潜变量 + GLS）能否推广到因果效应估计，用负对照来估计混淆结构？目前因果文献中已知的负对照方法（如 Sofer, 2016; Lipsitch et al., 2010）通常利用的是单个可观测负对照，本文多个负对照平均的思想在因果推断中尚不常见。这是一个可以探索的交叉方向。
计算方面：用户的技术武器库中有 eisum / tensor-contraction 经验。本文涉及大规模基因表达矩阵（n × J），权重矩阵（n × n）的估计和求逆可能计算量大。能否利用低秩近似（如假设 Wα 的秩很小）将权重矩阵降低计算复杂度？论文并未讨论计算实现，但 RUV-inverse 现有软件 (RUVseq) 使用 \( \hat{\Omega} = \sum_{j\in C} \tilde{Y}_j \tilde{Y}_j^T / |C| \) 求逆（可能直接取对角近似？）。是否存在更优的数值方法——例如利用块结构分解？这个问题在用户较远射程，但 BIBD 例子正好具有稀疏分块结构，可用于开发算法。

Maintained by 陈星宇 · Homepage · Source on GitHub