Estimating ratios of means of multicategory data observed with sample and category perturbations¶

作者: David S Clausen, Sarah V Teichman, Amy D Willis
来源: Biometrika
主题: 非参数 / 半参数
相关性: 3/10
机构绿灯: University of Washington（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asag009

一、领域脉络与小综述¶

这个方向是什么¶

这篇论文所解决的问题居于“半参数/非参数均值估计”与“部分识别（partial identification）”的交界上，具体场景是：研究者面对一个多类别（multicategory）响应变量（如微生物分类单元的计数或相对丰度），同时观测到该响应在不同协变量组（如患病 vs 健康）之间的差异。关键难点是数据同时受到两种未知扰动：样本特异性扰动（sample-specific perturbation，如测序深度、个体新陈代谢差异）和类别特异性扰动（category-specific perturbation，如微生物单元间的测量偏差或差异扩增效率）。这类扰动使得感兴趣参数——即跨协变量组的均值比率（ratios of means）——仅能部分识别（即被限制在一个区间内，而非一个点）。该子方向当前成熟度中等：有几种标准方法（如DESeq2、edgeR、ANCOM-BC）处理类似场景，但都各自做出了强且不常被检验的分布假设；本文提供了一个更灵活的、基于约束和惩罚M-估计的框架，旨在减少偏差、保证小样本下估计量的存在性并构建有效的推断。

发展脉络¶

论文的“Introduction”梳理了该方向的两条主要线索：

奠基工作：差异丰度分析的常用方法及其局限。引用 Love et al. (2014, DESeq2) 和 Robinson et al. (2010, edgeR)：这些方法对微生物组数据的均值-方差关系做了参数化假设（如负二项分布），并通过经验贝叶斯方法进行稳健化。它们能处理样本特异性扰动（通过库大小标准化），但不能同时处理类别特异性扰动（且对分布假设的偏离很敏感）。
引入类别特异性扰动的工作。引用 Willis (2021) 和 Willis et al. (2022)：这两篇工作在其文章的设定下已开始考虑category perturbation，但作者指出，它们均假设干扰的大小可以由实验设计控制（例如通过阳性对照），而本文探讨的是扰动未知且不可控的情形。
当前frontier与本文位置：本文作者声称，在此之前的工作要么（a）假设扰动大小已知或可通过某参考序列扣除（如“假说1”被检验），要么（b）仅适用于总类别数较小的情形，或（c）强依赖于某特定分布（如负二项或狄利克雷多项分布）。作者将其自身定位为：一个适用于多类别（大类别维度）数据的、非参数的、能同时处理样本和类别特异性未知扰动的估计框架，通过增加可解释的参数约束将部分识别问题转化为完全识别问题，并通过加渐近可忽略的约束不变惩罚解决稀疏观测导致的偏差和估计量不存在问题。

子线索聚类¶

被引文献大致落在以下2-4条子线索上：

线索A：基于负二项分布的差异丰度分析（DESeq2, edgeR, ANCOM-BC）。假设响应服从负二项分布，通过离散度参数和库大小处理样本扰动。局限性：类别特异性扰动未被建模；偏离负二项假设时推断可能无效。
线索B：基于狄利克雷多项分布的方法（DM, spike-in based）。假设总体丰度（类别均值）服从Dirichlet，通过参考序列/internal standards扣除扰动。局限性：强分布假设；扰动大小已知或可扣除（如参考序列已知）。
线索C：部分识别 + 非参数约束方法：目前工作少。Willis (2021) 和 Willis et al. (2022) 前瞻性地处理了category perturbation，但靠参考序列/已知扰动。本文是目前唯一将这一方法扩展到未知扰动 + 大类别数的工作。这条线也是本文定位的核心。

这个方向在追问的核心问题¶

如何克服部分可识别（partial identification）：当感兴趣参数被未建模扰动模糊化时，仅通过数据本身，参数真正的点是否存在？若存在，需要何种可检验/可信的假设来收紧识别区间至一个点？
如何在高类别维数下（K >> n或K与n可比）处理：多类别均值比率估计在高维下会遇到收敛速度、估计量存在性（不断分割导致稀疏观测）和计算问题。
如何在小样本且分布假设有意宽松时，构建有效（size控制良好）的假设检验：在宽泛的分布假设下，常规似然比检验或Wald检验受多重（非正态）偏差的累积影响，在小样本中的表现不可靠。

⚠️ 作者的framing¶

作者将其缺口框架为： - “当前处理样本扰动的标准方法（DESeq2等）不处理类别扰动；而处理类别扰动的方法（Willis 2021）假设扰动已知或可扣除”——因此“显然的下一步”就是处理完全未知的样本与类别扰动，并提供一个能够在大类别数下运算的方法。 - 作者淡化了缺失值建模（zero inflation）在微生物组数据中的作用（这是一个广泛讨论的问题），也未将最近在零膨胀计数模型上的进展纳入竞争路线。该方法不直接建模零膨胀，而是通过“约束+惩罚”间接解决稀疏/零观测带来的问题。

值得研究者去查的问题：作者对该方向文献的梳理是相当完整的（主要引用了DESeq2, edgeR, ANCOM-BC, Willis系列），但明显缺失的可能是： - 含有明显非参数/半参数变异的计数模型（如基于ZIP或ZINB的Bayesian方法，如ZIBSeq, RAIDA）； - 对严重的组间batch effect (batch-to-batch perturbation) 的建模（如基于NN或VAE的deconfound方法），这些方法可能在实验步骤中引入与“category perturbation”相似的扰动结构，但未被对比。这可能是高价值查证点。

张力¶

未见明显对立引用。所有方法都在峰值上近似，但有不同的结构化假设。唯一的张力在于“是否应假设扰动已知（Willis 2021 / Willis et al. 2022）”——是一条假设层面的核心差异。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：

记号	含义	注释
\(K\)	类别数 (number of categories)	如微生物分类单元数
\(N\)	样本量
\(Y_{ik}\)	第i个样本在第k类上的计数或丰度	可观测
\(X_i\)	第i个样本的协变量（通常是二元：case vs control）	可观测
\(\beta_k\)	第k类的“真实均值”（在参考组中的）参数	感兴趣参数，但单独不可识别
\(\alpha_i\)	第i个样本的样本特异性扰动（如测序深度）	潜在不可观测变量
\(\gamma_k\)	第k类的类别特异性扰动（如扩增偏差）	潜在不可观测变量
\(\beta_k^*\)	参考组下的平均响应（即“去扰后”参数）	= \(\beta_k + \gamma_k\)，仍未完全识别
\(\delta_k\)	处理效应或协变量差别的参数：定义在对比组之间的差异	最终要估计的 ratio of means 信息

更精确地说：设我们有 \(G\) 组（如2组：case和control）。在组\(g\)中，样本\(i\)的模型为：

\[\mathbb{E}[Y_{ik} \mid \text{group}=g] = \alpha_i + \beta_k^{(g)} + \gamma_k\]

这里 \(\beta_k^{(g)}\) 是“真正的组均值”（我们关心它在不同组之间的比率或差值），\(\alpha_i\) 是样本扰动，\(\gamma_k\) 是类别扰动。因为都不可观测，仅靠一个组的单独观测无法分离 \(\beta_k^{(g)}\) 和 \(\gamma_k\)。如果我们有多个组，则组间 差异方面的参数可能识别。

不失一般性，假设处理效应定义为 两组均值差：设 \(g=0\) 为对照组，\(g=1\)为处理组。则

\[\theta_k := \beta_k^{(1)} - \beta_k^{(0)} = (\beta_k^{(1)} + \gamma_k) - (\beta_k^{(0)} + \gamma_k)\]

所以差值成功移除了类别扰动 \(\gamma_k\)。剩下要做的是从含\(\alpha_i\)的观测中估计\(\theta_k\)的方向。

常用的“估计均值比率”问题等价的取决于参数化：在本文目标中，研究者希望估计比率 \(\rho_k = (\mathbb{E}[Y\mid X=1, \text{category}=k] / \mathbb{E}[Y\mid X=0, \text{category}=1])\)。在本文参数化下，这等价于估计 \(\beta_k^{(1)} / \beta_1^{(0)}\)，但因为\(\alpha_i\)的干扰，直接求均值之比的估计会有偏差。

简化的实际目标：跨两组估计类别的相对丰度差异。感兴趣的就是 log-fold change 或比例差。

可观测数据： - 对于每个样本\(i\)：观测 \((X_i, Y_{i1}, Y_{i2}, ..., Y_{iK})\)，其中\(X_i\)是协变量，\(Y_{ik}\)是计数或连续值（若count，通常是counts across categories总和恒定——如微生物测序reads的组成特征）。 - 潜在但不可观测的：\( \alpha_i\)（样本扰动），\(\gamma_k\)（类别扰动）。需要通过 加约束/假设 来识别。

第二步：讲最小内核¶

考虑最简单的设定：\(K=2\)（只有2个类别），2组（\(g=0,1\)）。每组2个样本。假设我们通过某种标准化（如除以总reads）已移除了样本扰动（即我们假设\(\alpha_i=0\)，简化理解），但category扰动\(\gamma_1,\gamma_2\)仍然未知。

我们的目标是 估计第一个类别的均值在两组间的比：

\[\rho = \frac{\mu_{1}^{(1)}}{\mu_{1}^{(0)}}.\]

在无扰动的理想情况：\(\mu_k^{(g)} = \beta_k^{(g)}\)，可以直接用各组样本均值。但在有\(\gamma_k\)的情况下，

\[\mu_k^{(g)} = \beta_k^{(g)} + \gamma_k\]

所以 \(\rho\) 的直接差/比估计变成了

\[\tilde{\rho} = \frac{\beta_1^{(1)} + \gamma_1}{\beta_1^{(0)} + \gamma_1} \neq \frac{\beta_1^{(1)}}{\beta_1^{(0)}} \ \text{（除非}\gamma_1=0\text{）}.\]

必须增加一个约束才能恢复识别。本例中我们能加的典型约束可能是：第一类别的扰动为零（\(\gamma_1=0\)），或者 所有类别扰动的和为0（\(\sum_k \gamma_k=0\)）。在这种设定下，未知参数的个数变成k-1个（当\(\sum_k\gamma_k=0\)时），刚好与数据维度匹配，参数从部分识别变成完全识别。

在本文中，这个约束是通过 中心化约束 来施加的：要求 \(\sum_k \gamma_k = 0\) 且 \(\sum_i \alpha_i = 0\)。这足够识别出所有参数（偏差在整体上守恒）。这是最小内核：一个简单约束就解决了部分识别问题，但代价是在参数估计中引入了一个额外估计任务。后续的难题是当K很大和样本稀疏时，约束下的M-估计的表面不稳定（某些参数组合导致估计量趋近于0/1等）。

核心亮点：虽然\(\sum_k\gamma_k=0\)毫无统计区分能力（它是任意选择的归一化），但它让参数在数学上确定了点。作者把这个“任意选择在合理的条件”转化为一个漂亮的套路——加一个加性约束去移除非特征化的模糊性，而并不改变\(\theta_k\)的估计（这在约束下得到关于\(\theta_k\)的不变性质）。

这个方法的核心数学行为：施加约束不影响感兴趣参数（如\(\theta_k\)）的识别，只影响可识别性。

三、这篇论文做了什么¶

三句话¶

研究了多类别数据在未知样本扰动和类别扰动下估计均值比率的问题，其估计量是部分可识别的。
通过引入可解释的参数约束（样本和类别扰动均中心化为零） 实现了完全识别；并引入一组“渐近可忽略且整体-约束不变的”惩罚项来消除稀疏观测引起的偏差和估计量不存在问题。
主要结论：提出的两组估计量（加权最小二乘估计 + 加权得分检验）在大宽泛条件下具有一致性、渐近正态性，且假设检验的状态在小样本和分布偏离下仍保持良好控制。

关键设定与假设¶

模型设定（在记号第一节基础上补全）：
\[\mathbb{E}_M[Y_{ik} \mid X_i = g] = \exp(\alpha_i + \beta_k^{(g)} + \gamma_k)\]
其中，\(\mathbb{E}_M\)是乘法模型下的期望。事实上，为了去除数量级差异，常用log链接。但在该论文中，似乎直接对期望建模是可加形式。
最重要的假设：
Centering constraints: \(\sum_i \alpha_i = 0\), \(\sum_k \gamma_k = 0\)。实现完全识别。
No unmeasured confounder that affects group membership and outcome conjunction: 实际上隐含可忽略性/无混，但未明确说清逻辑链（属隐式）。
观测值之间的独立性（给定X），样本i之间独立。
惩罚项的渐近可忽略性：即当 \(n\rightarrow\infty\)，惩罚项对收敛速率无影响。
相比已有文献的强化/放宽：
消除了对扰动的参数假设（DESeq2 & edgeR假设分布均为参数模型）。
放宽了扰动已知/可测（Willis 2021等需要参考序列或阳性对照来扣除扰动）。

主要结果¶

定理型：给出了估计量的弱一致性和渐进正态性。具体而言：
一致性：在刚刚指定的约束下，估计量\(\hat{\theta}_k\)概率地趋向真参数\(\theta_k\)。
渐近正态性： \(\sqrt{n}(\hat{\theta}_k-\theta_k) \rightarrow N(0, V_k)\)，其中\(V_k\)是对惩罚项不敏感的方差。
得分检验：构建了一种“模型-稳健得分检验”（model-robust score test），能够在小样本内保持规模控制（当\(n\)低至10左右时仍有效）。
必要条件：约束条件满足（中心化）；有某种一致性（不能是无穷多样的分布）。
解决的技术难点：
稀疏观测下的估计量不存在（例如某类别在某组不出现）。通过渐近可忽略惩罚项（如关于\(\beta\)的特低频出现时的岭惩罚）有效消除逻辑上无法估计的参数组合，而不影响大样本渐近。
同时在大K下，代价函数的优化通过坐标下降（coordinate descent）使计算可行且快速。

证明路线与技术技巧¶

整体路线（5步逻辑主干）：

约束-识别：通过在损失函数中强加中心化约束（\(\sum\alpha_i=0\)，\(\sum\gamma_k=0\)），将部分识别转为完全识别。
惩罚-稳定：在损失函数上增加一个满足两个特征的惩罚项：(a) 渐近可忽略（\(\lambda_n \to 0\)，且与n同阶的衰减）和 (b) 约束不变（即添加的惩罚不影响关注参数\(\theta_k\)的代价函数在约束空间内取值）。在稀疏观测时，该惩罚阻止参数走向无穷，保证存在有限值估计量。
带约束的预计：施行两者（约束+惩罚）的M-估计。在有限样本中，就是对带惩罚的残差平方和求最小。
去惩罚后效：在渐近理论上，证明惩罚项的渐近可忽略性：其对得分函数的贡献随\(n\rightarrow\infty\)趋于零，因此检验的渐近分布与无惩罚时相同。
检验：使用 augmented Lagrangian 算法在零假设下（如\(\rho=1\)）优化带约束的损失，推导出得分检验统计量，证明其在足够正则条件下渐近上服从\(\chi^2\)分布。

关键跳跃点：

困难1：同时处理样本和类别扰动导致参数量为O(n+K)，在n或K大时交互作用（两个固定效应）产生共线性，通常在随机截距模型中由正则化处理。本文用约束（零和）+ 惩罚处理这一共线性。跳跃点在于证明这个双重步骤不产生偏移。
困难2：惩罚项必须在集中估计和假设检验中都是“渐近可忽略”的。在检验中需要确保此惩罚项不影响分布的零中心位置，不被吸收到有效方差估计中。作者通过精心设计的“约束不变性”惩罚实现了自动化解耦。

技术技巧点名： - 坐标下降（Coordinate Descent）：用于带约束和惩罚的优化。每个参数被依次更新时，依赖凸性保证收敛。 - Augmented Lagrangian算法：在假设测试部分，用于在零假设约束下的优化，这一算法处理线性等式约束（中心化约束）非常高效。 - 模型-稳健分数检验（Model-Robust Score Test）：在基于M-估计的框架下提供“正确But检验”推论，即使在非正常正态分布下。

真实例子与应用¶

论文提供了一个模拟研究（simulation study）和一个真实数据应用：

真实数据：结直肠癌（CRC）微生物关联meta分析
数据：生物组学研究中工程微生物基因组的测序数据，涉及结直肠癌组与对照组的肠道菌群相对丰度。
应用方法：将本文方法应用于从多个研究（meta-analysis）合并的微生物组计数表，估计每个分类单元（ASV/OTU）在两组间的对数比率。
结果：本文方法识别出与CRC关联的一组分类单元，并得到与原始实验标准分析定性一致但更保守的估计（由于考虑了分类扰动）。
例子想说明什么：展示了在真实多中心多研究数据场景下，方法成功实施；检验（score test）识别出最多的显著分类；同时指出，许多被其他方法标记为显著（但未考虑扰动）的分类被本文排除——这不是“灵敏度低”，而是控制了潜在由扰动导致的假阳性。
模拟：与 DESeq2、edgeR对比。结果表明本文方法在存在类别扰动时成功恢复参数方向，而其他方法产生严重的偏差（因为假设不存在类别扰动）。在无扰动时，本文效能接近对比方法（代价较小）。

🔎 结论是否比证明窄¶

论文的主要定理在“惩罚可忽略”的条件下建立。作者注意到在小样本中惩罚可能非可忽略，因此模拟中展示了小样本场景下的稳健性（很大程度上消解了这一担忧），但没有严格的数学定理延伸到该区域。所以结论的适用性被公式化为：在n足够大足以使惩罚项衰减的条件下，推论有效；否则是经验的——这属于合理精确。

另外，在中心约束（centering constraints）的“任意性”上，未证明选用不同的约束（例如 median zero 而非 sum zero）能否得到相同的识别或产生量级差异。结论严格绑定于 sum-zero 约束。

四、开放问题（点到为止）¶

对扰动的识别性与约束选择更一般的比较：本文仅考察了“sum-zero”约束。其他约束（如 median-zero, 加权和为零）的统计行为尚需评估。扎根处：第2.2节中讨论约束的部分（无证明约束选择的唯一性）。
稀疏条件下的Minimax最优率：论文给出估计量的一致性，但未建立理论下界。检验在零假设下的size控制是充分的，但对幂的minimax率分析是缺失的。扎根处：第3节定理的证明中省略了最优性讨论的部分。
高维类别/稀疏时的惩罚超参数选择：本文中\(\lambda_n\)的选择是通过算法稳定性给出的（未提供数据驱动的交叉验证建议）。一个确切的BIC/AIC型准则或类似的高维信息准则是开放问题。扎根处：惩罚项定义部分（第3.2节对\(\lambda_n\)的渐近设定）。
一般分层误分类（biased sampling）下的推广：当前的扰动假设是加性的且全局的。若采样机制是分层有偏（对某些类别被系统地过高/过低观测），本文中心化约束将不再适用。扎根处：第一段“类别特异性扰动”的提取，仅适用于“所有类别同等受影响”的模型。可扩展至非可交换类别扰动。

Maintained by 陈星宇 · Homepage · Source on GitHub