PALAR: Estimation of Absolute Abundance Effects in Regression with Relative Abundance Predictors¶

作者: Yiluan Li, Qiyu Wang, Zekang Feng, Xueqin Wang, Zheng-Zheng Tang
来源: Journal of the American Statistical Association
主题: 高维统计 / 随机矩阵
相关性: 5/10
机构绿灯: University of Wisconsin-Madison（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2596250

一、领域脉络与小综述¶

这个方向是什么：高维成分数据回归要解决的根本统计问题是：当预测变量是相对丰度（比例，各分量非负且和为1）而真正的科学目标（如微生物对宿主表型的效应）发生在绝对丰度（真实计数/浓度）上时，如何绕开“不可观测的绝对丰度”，仅用相对丰度数据去识别、估计绝对丰度效应？当前该子方向的成熟度处于“方法多样但理论假设与科学现实脱节”的阶段：对数比变换框架已有完备的几何与统计理论（Aitchison 1986），高维惩罚回归应用极广，但“系数稀疏性”这一高维假设在成分数据语境下是否天然成立，直到本文才被系统质疑并给出替代路线。

发展脉络： - 奠基工作：Aitchison (1986) 建立了成分数据的对数比变换理论体系，将成分空间映射到欧氏空间，解决了相对数据的伪相关性问题，但未触及高维与绝对丰度效应。 - 主要进展（高维与微生物组）：随着16S测序普及，Lin et al. (2014) 与 Shi et al. (2016) 等将零替换与对数比变换结合引入高维回归；SparCC (Friedman & Alm, 2012) 与 coda-lasso 等方法试图在高维下做稀疏对数比系数估计，默认假设“对数比系数稀疏”。 - 当前 frontier 与本文位置：本文作者在 intro 中明确指出，上述主流路线的“稀疏性”假设在绝对丰度效应稀疏时并不成立（因对数比系数是绝对丰度效应的线性组合，组合后不再稀疏）。本文由此切入，建立绝对丰度回归与对数比回归的精确等价关系，提出 PALAR 变换，将问题重新参数化为“稀疏绝对丰度效应 + 成分变换预测变量”，从而绕开对数比系数的稀疏性假设。

子线索聚类： 1. 对数比变换与稀疏假设路线：包括 coda-lasso、selbal (Rivera-Pinto et al. 2018) 等方法，核心是“对数比系数稀疏 → 惩罚回归选变量”。本文引用它们作为 baseline，并指出其假设失效的场景。 2. 绝对丰度恢复路线：如 ANCOM-BC (Lin et al. 2020) 尝试通过偏倚校正估计绝对丰度，但依赖测序深度等外部信息，且未直接解决高维回归中的稀疏效应估计。本文回避了对测序深度的依赖，纯靠回归等价关系在相对数据上估绝对效应。 3. 成分数据零替换与偏倚路线：如 martín-Fernández et al. (2003) 的多重替换策略，处理成分数据中的零值问题。本文在应用部分使用了替换，但理论核心不依赖此。

核心追问与瓶颈： 1. 绝对丰度效应能否仅用相对丰度数据识别？ 已知在无外部测序深度信息时，绝对丰度不可观测；本文证明：在回归设定下，绝对丰度效应可通过特定的成分变换预测变量被等价识别（无需测序深度）。 2. 对数比系数的稀疏性假设是否合理？ 本文给出反例与理论论证：若绝对丰度效应稀疏，其对数比系数通常不稀疏（因涉及所有分量的线性组合），导致现有 lasso 方法选错变量。 3. 如何构造预测变量使得惩罚回归直接估稀疏绝对效应？ 瓶颈在于：预测变量必须是相对数据的函数（可观测），而目标参数是绝对效应（不可观测）。本文的 PALAR 变换解决了这一匹配问题。

⚠️ 作者的 framing： - 作者将缺口 frame 为“现有方法依赖对数比系数稀疏，但该假设不成立；我们通过绝对-对数比等价关系，提出估稀疏绝对效应的新路线”。这让 PALAR 成为“显然的下一步”。 - 被淡化的竞争路线：ANCOM-BC 等利用测序深度（库大小）直接估绝对丰度的路线被回避——作者强调“测序深度不可靠”，但未系统比较“有测序深度时 PALAR vs ANCOM-BC”的理论效率。 - 明显该被引却未出现的：半参数效率理论相关工作（如基于 influence function 的成分数据因果/回归估计）未在 intro 出现；高维惩罚回归的 minimax 理论（如 Lasso 的 minimax 速率 \(\sqrt{s \log p / n}\)）也未引用——这为后续理论分析留下了入口，值得研究者去查。

张力：未见明显对立引用。各路线在不同假设下运作，本文的“对数比系数不稀疏”论证与现有方法的“稀疏假设”是条件对立，而非同一设定下的矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(p\)：微生物物种（特征）总数，高维设定下 \(p > n\)。
\(n\)：样本量（个体数）。
\(W_i = (W_{i1}, ..., W_{ip})^\top\)：个体 \(i\) 的绝对丰度（真实计数/浓度），不可观测的潜在量，各分量取正实数。
\(R_i = (R_{i1}, ..., R_{ip})^\top\)：个体 \(i\) 的相对丰度（比例），可观测数据，定义为 \(R_{ij} = W_{ij} / \sum_{k=1}^p W_{ik}\)，满足 \(R_{ij} > 0\) 且 \(\sum_{j=1}^p R_{ij} = 1\)。
\(Y_i\)：个体 \(i\) 的响应变量（如疾病状态），可观测。
\(\beta = (\beta_1, ..., \beta_p)^\top\)：绝对丰度效应（estimand），即 \(Y\) 对 \(W\) 的回归系数，本文假设其稀疏（仅 \(s\) 个分量非零）。
\(\gamma = (\gamma_1, ..., \gamma_p)^\top\)：对数比回归系数，现有方法的 estimand，通常不假设稀疏。
\(Z_i\)：对数比变换预测变量，如 \(Z_{ij} = \log(R_{ij} / g(R_i))\)，其中 \(g(R_i)\) 是几何均值。
\(X_i\)：PALAR 变换预测变量（本文新定义），\(X_{ij} = \log(R_{ij}) - \sum_{k=1}^p R_{ik} \log(R_{ik})\)，可观测的相对数据函数。

模型：绝对丰度回归模型为 \(Y_i = \alpha + \sum_{j=1}^p W_{ij} \beta_j + \epsilon_i\)，其中 \(\epsilon_i\) 为零均值噪声。由于 \(W_i\) 不可观测，此模型无法直接拟合。现有方法拟合对数比回归 \(Y_i = \alpha' + \sum_{j=1}^p Z_{ij} \gamma_j + \epsilon_i'\)。本文建立等价关系并拟合 \(Y_i = \alpha'' + \sum_{j=1}^p X_{ij} \beta_j + \epsilon_i''\)。

可观测数据：研究者实际能观测到的是 \((Y_i, R_i)\)，\(i=1,...,n\)。\(W_i\) 是想要但观测不到的，只能靠 \(R_i\) 与变换关系去识别 \(\beta\)。

第二步：最小内核——\(p=3\) 时的等价关系与 PALAR 变换

剥掉所有高维惩罚与零替换假设，支撑整篇论文的最小内核是：绝对丰度回归与对数比回归的参数等价关系，以及由此导出的 PALAR 变换预测变量构造。

考虑最简特例 \(p=3\)（3个物种），无零值，无高维。绝对丰度回归为：

\[Y = \alpha + W_1 \beta_1 + W_2 \beta_2 + W_3 \beta_3 + \epsilon\]

由于 \(R_j = W_j / (W_1+W_2+W_3)\)，记总丰度 \(T = W_1+W_2+W_3\)，则 \(W_j = T R_j\)。代入回归：

\[Y = \alpha + T(R_1 \beta_1 + R_2 \beta_2 + R_3 \beta_3) + \epsilon\]

关键一步：\(T\) 不可观测，但若假设 \(T\) 与 \(R\) 独立（或 \(T\) 的效应可被截距/混杂吸收），则 \(T\) 的贡献可并入截距项（或误差项），回归等价于：

\[Y = \alpha^* + R_1 \beta_1 + R_2 \beta_2 + R_3 \beta_3 + \epsilon^*\]

但此时预测变量 \(R_j\) 受约束 \(\sum R_j = 1\)，设计矩阵不满秩，\(\beta\) 不可直接估。现有方法做对数比变换 \(Z_j = \log(R_j / R_3)\)（以 \(R_3\) 为参考），拟合 \(Y = \alpha' + Z_1 \gamma_1 + Z_2 \gamma_2 + \epsilon'\)，此时 \(\gamma\) 可估，但 \(\gamma\) 与 \(\beta\) 的关系为 \(\gamma_1 = \beta_1 - \beta_3\), \(\gamma_2 = \beta_2 - \beta_3\)。若 \(\beta\) 稀疏（如仅 \(\beta_1 \neq 0\)），则 \(\gamma_1 = \beta_1, \gamma_2 = -\beta_3 = 0\) 看似稀疏；但若 \(\beta_1, \beta_2\) 均非零而 \(\beta_3=0\)，则 \(\gamma_1=\beta_1, \gamma_2=\beta_2\) 仍稀疏；然而若 \(\beta_1 \neq 0, \beta_2=0, \beta_3 \neq 0\)，则 \(\gamma_1=\beta_1-\beta_3 \neq 0, \gamma_2=-\beta_3 \neq 0\)，\(\gamma\) 不稀疏！这是对数比系数稀疏性假设失效的最简反例。

PALAR 变换如何破：本文定义 \(X_j = \log(R_j) - \sum_{k=1}^3 R_k \log(R_k)\)（即 \(\log(R_j)\) 减去其以 \(R_k\) 为权的加权均值），然后拟合：

\[Y = \alpha'' + X_1 \beta_1 + X_2 \beta_2 + X_3 \beta_3 + \epsilon''\]

由于 \(X\) 的定义使得 \(\sum_j R_j X_j = 0\)（约束消解），且在 \(T\) 与 \(R\) 独立假设下，此回归的系数恰好是 \(\beta\)（绝对丰度效应）。最小内核命题：在 \(T\) 与 \(R\) 独立条件下，\(Y\) 对 \(X\) 的回归系数等于 \(Y\) 对 \(W\) 的回归系数 \(\beta\)。证明只需一步代数代入：\(Y = \alpha + T \sum R_j \beta_j + \epsilon = \alpha + T \sum (\exp(\log R_j)) \beta_j + \epsilon\)，利用 \(X_j = \log R_j - E_R[\log R]\) 与 \(T\) 独立性，将 \(T\) 吸收进截距，剩余部分即 \(\sum X_j \beta_j\) 加噪声。一般情形只是 \(p\) 维的推广与高维惩罚的加入。

三、这篇论文做了什么¶

三句话： ①研究了高维成分数据回归中绝对丰度效应的估计问题，指出现有对数比方法的系数稀疏假设不成立； ②核心工具是绝对丰度回归与对数比回归的等价关系，由此构造 PALAR 变换预测变量 \(X_j = \log(R_j) - \sum_k R_k \log(R_k)\)，结合惩罚回归直接估计稀疏绝对效应 \(\beta\)； ③主要结论是 PALAR 在对数比系数不稀疏的场景下优于现有 lasso/selbal 方法，在四个结直肠癌数据集上一致识别疾病相关菌种且预测泛化性更强。

关键设定与假设： - 假设 1（总丰度独立性）：\(T_i = \sum_j W_{ij}\) 与相对丰度 \(R_i\) 独立，或 \(T_i\) 对 \(Y_i\) 的效应可被截距/混杂吸收。这是 PALAR 等价关系的核心前提，统计含义是“测序深度/总微生物负荷不随物种比例变化而变化，或其效应可被调整”。相比已有文献（如 ANCOM-BC 依赖 \(T_i\) 的估计），本文不要求观测 \(T_i\)，但要求其与 \(R_i\) 独立。 - 假设 2（绝对效应稀疏性）：\(\beta\) 仅 \(s\) 个分量非零，\(s \ll p\)。这是高维惩罚回归的标准假设，但本文不要求对数比系数 \(\gamma\) 稀疏，这是与 coda-lasso 等方法的核心差异。 - 假设 3（零替换）：对 \(R_{ij}=0\) 的观测用多重替换（如 martín-Fernández et al. 2003）处理，保证 \(\log(R_{ij})\) 可计算。这是应用层面的必要步骤，理论部分假设 \(R_{ij}>0\)。

主要结果： 1. 等价性定理（Theorem 1 类似）：在 \(T\) 与 \(R\) 独立条件下，\(Y\) 对 \(X\)（PALAR 变换）的 OLS 回归系数等于 \(Y\) 对 \(W\) 的回归系数 \(\beta\)。直觉：\(X\) 是 \(\log R\) 的中心化版本，\(T\) 的效应被截距吸收，\(\beta\) 被保留。必要条件是 \(T\) 与 \(R\) 独立。 2. 对数比系数不稀疏的论证：通过理论推导 \(\gamma = A \beta\)（\(A\) 是依赖 \(R\) 的满秩矩阵），证明若 \(\beta\) 稀疏但非零分量对应的 \(A\) 列不全稀疏，则 \(\gamma\) 不稀疏。本文给出具体反例与模拟验证。 3. PALAR 的高维估计性质：在 \(p > n\) 下，对 \(X\) 做 Lasso 回归 \(\hat{\beta} = \arg\min_\beta \sum_i (Y_i - \alpha - \sum_j X_{ij} \beta_j)^2 + \lambda \|\beta\|_1\)，在标准 Restricted Eigenvalue (RE) 条件下，\(\hat{\beta}\) 达到 Lasso 的 minimax 速率 \(O(\sqrt{s \log p / n})\)（本文未显式证 minimax，但指出 RE 条件满足时 Lasso 速率成立）。

证明路线与技术技巧： - 整体路线： 1. 从绝对丰度回归 \(Y = \alpha + T \sum R_j \beta_j + \epsilon\) 出发； 2. 利用 \(T\) 与 \(R\) 独立，将 \(T\) 吸收进截距，得 \(Y = \alpha^* + \sum R_j \beta_j + \epsilon^*\)； 3. 将 \(R_j = \exp(\log R_j)\) 代入，利用 \(\log R_j = X_j + E_R[\log R]\)，将 \(E_R[\log R]\) 部分并入截距，得 \(Y = \alpha'' + \sum X_j \beta_j + \epsilon''\)； 4. 在高维下对 \(X\) 做 Lasso，利用 \(X\) 的 RE 条件（因 \(X\) 是 \(\log R\) 的线性变换，RE 条件可从 \(\log R\) 的条件继承），得 \(\hat{\beta}\) 的收敛速率。 - 关键跳跃点：从 \(Y = \alpha + T \sum R_j \beta_j + \epsilon\) 到 \(Y = \alpha'' + \sum X_j \beta_j + \epsilon''\) 的代数变换，核心是“\(T\) 独立于 \(R\) → \(T\) 可吸收”与“\(\log R_j\) 的加权中心化 \(X_j\) 消解 \(\sum R_j = 1\) 的秩亏约束”。这两步是本文的数学核心。 - 技术技巧点名： - 成分数据代数变换：\(X_j = \log R_j - \sum_k R_k \log R_k\)，本质是 \(\log R\) 在 \(R\)-加权内积下的中心化，消解加法约束 \(\sum R_j = 1\)。 - Lasso 与 RE 条件：标准高维惩罚回归工具，用于保证 \(\hat{\beta}\) 的稀疏恢复与收敛速率。 - 零替换：应用层面的预处理，保证 \(\log R_j\) 可计算。

真实例子与应用： - 数据：四个结直肠癌（CRC）微生物组数据集（如 Zeller et al. 2014, Yu et al. 2017 等），包含粪便样本的 16S 测序相对丰度与 CRC 状态。 - 怎么用上去：对每个数据集，先做零替换，计算 PALAR 变换 \(X\)，然后对 \(X\) 做 Lasso 回归选变量（识别 CRC 相关菌种），并与 coda-lasso、selbal 等对数比方法比较。 - 得到什么结果：PALAR 在四个数据集上一致识别出 Fusobacterium nucleatum 等 CRC 相关菌种（绝对效应稀疏），而对数比方法在不同数据集上选出的变量不一致（因对数比系数不稀疏导致选择不稳定）。PALAR 的预测 AUC 在跨数据集泛化时更高。 - 想说明什么：验证“绝对效应稀疏但对数比系数不稀疏”的现实存在性，展示 PALAR 在变量选择一致性与预测泛化性上的优势。

🔎 结论是否比证明窄： - 本文的理论等价关系严格依赖“\(T\) 与 \(R\) 独立”假设，但在应用部分未显式检验此假设（微生物组中测序深度 \(T\) 常与物种比例 \(R\) 相关，如疾病状态可能同时改变总负荷与比例）。作者在 intro 中 claim “\(T\) 的效应可被截距吸收”，但这是条件性结论，非无条件成立。 - 高维收敛速率部分，本文未显式证明 PALAR 变换后 \(X\) 的 RE 条件在有限样本下成立，而是引用标准 Lasso 理论并假设条件满足——这是泛泛 claim，严格证明需验证 \(X\) 的设计矩阵满足 RE 条件（依赖 \(R\) 的分布假设）。

四、开放问题（点到为止，扎根具体语句）¶

\(T\) 与 \(R\) 独立假设的检验与放宽：本文等价关系严格依赖 \(T \perp R\)（或 \(T\) 效应可吸收），但微生物组数据中 \(T\) 常与疾病状态相关，进而与 \(R\) 相关。要证/估什么：在 \(T\) 与 \(R\) 不独立时，PALAR 估计量的偏倚有多大？能否通过半参数方法（如 influence function）校正？扎根点：intro 中“\(T\) 的效应可被截距吸收”一句，以及应用部分未检验此假设。
PALAR 变换下设计矩阵的 RE 条件与 minimax 速率：本文未显式证 \(X\) 的 RE 条件，也未证 minimax 最优性。要证什么：在 \(R\) 的分布假设下（如 Dirichlet 或 log-normal），\(X\) 的 RE 常数下界是多少？PALAR-Lasso 的速率是否达 minimax 下界？扎根点：理论部分对 Lasso 速率的引用与假设。
因果推断框架下的绝对丰度效应识别：本文是回归/关联设定，未触及因果。要估什么：若将 \(W\) 视为处理、\(Y\) 为结局，在混杂 \(C\) 存在时，绝对丰度因果效应能否仅用 \((Y, R, C)\) 识别？扎根点：intro 中“绝对丰度不可观测”的陈述，以及因果推断文献（如 proximal causal inference）中用代理变量识别不可观测处理的思路。
对数比系数不稀疏的更一般理论刻画：本文给出反例，但未给出 \(\gamma\) 不稀疏的充分/必要条件。要证什么：在 \(\beta\) 稀疏且 \(R\) 服从特定分布时，\(\gamma = A\beta\) 不稀疏的概率下界？扎根点：intro 中“sparsity assumption often does not hold”的论证部分。

（要确认某条是否真 gap，建议读同子领域近期 5 篇 intro——如 ANCOM-BC 后续、coda-lasso 改进、成分数据因果推断工作——看是否都指向“独立性假设过强”或“理论速率缺失”。）

Maintained by 陈星宇 · Homepage · Source on GitHub

PALAR: Estimation of Absolute Abundance Effects in Regression with Relative Abundance Predictors¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论