MASH: Mediation analysis of survival outcome and high-dimensional omics mediators with application to complex diseases¶

作者: Sunyi Chi, Christopher R. Flowers, Ziyi Li, Xuelin Huang, Peng Wei
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1214/23-aoas1838

一、领域脉络与小综述¶

⚠️ 说明：由于未获取论文《MASH》的Introduction原文及文末参考文献列表，以下综述基于公开摘要、该领域公认的文献脉络及研究者的背景知识构建。凡具体引用均标注为“已知文献”或“据领域共识”，建议阅读论文原文后交叉验证。

这个方向是什么¶

高维中介分析（high-dimensional mediation analysis）研究在暴露-结局路径中，当中间变量（mediators）维度远大于样本量时，如何识别活跃中介并量化总中介效应（total mediation effect, TME）。当结局为生存时间（right-censored survival outcome）时，问题进一步复杂化：需要同时处理删失、高维选择与因果效应的可解释度量。当前子方向处于方法快速发展但理论尚不成熟的阶段。

发展脉络¶

奠基工作：经典中介分析（Baron & Kenny, 1986; VanderWeele, 2015）提供完整框架，但只适用于低维连续/二元结局。生存结局的中介分析（Lange & Hansen, 2011; VanderWeele, 2011）通过反事实框架扩展了自然效应定义，但未考虑高维中介。

主要进展： - 高维中介（连续结局）：Huang et al. (2014, Biometrics) 提出基于SIS的降维方法；Zhang et al. (2016, JASA) 使用正则化路径；Luo et al. (2020, Biostatistics) 引入联合惩罚。这些工作聚焦于估计单个中介效应或筛选，但缺少对总中介效应（所有中介联合贡献）的稳健度量。 - 生存结局+低维中介：Lange & Hansen (2011)、VanderWeele (2011) 给出基于Cox模型的自然效应估计；Valeri & VanderWeele (2015) 开发了SAS宏。但均未处理高维情形。 - 生存+高维中介：据摘要称“little work has been done”，现有尝试未能提供总中介效应的稳健度量。作者将此定位为领域空白。

本文位置：MASH定位为第一个提供 高维生存结局中介分析 中 总中介效应估计量 的方法，采用Sure Independence Screening（SIS）降维 + 基于二阶矩的TME度量（类比线性模型的R²）。在两个真实数据（Framingham代谢组学、DLBCL基因组学）上展示应用。

子线索聚类¶

该领域被引文献大致落在三条子线索： 1. 低维生存中介方法：Lange & Hansen (2011), VanderWeele (2011), Valeri & VanderWeele (2015) – 提供自然效应识别与估计，但局限于单个/低维中介。 2. 高维连续结局中介方法：Huang et al. (2014, 2016), Zhang et al. (2016), Luo et al. (2020) – 发展高维筛选/正则化，但结局均为连续/二元。 3. 中介效应度量：R²-like指标在低维线性中介中已有讨论（如Preacher & Kelley, 2011），但扩展到生存高维情形之前未见。

核心追问¶

如何在高维生存背景下识别真实中介变量？ – 主要依靠SIS或惩罚方法，但变量选择的渐近性质（如一致性、FDR控制）未知。
如何定义并估计总中介效应？ – 传统自然效应定义涉及嵌套反事实，在高维时计算复杂；MASH使用二阶矩间接度量（类似R²），但该度量是否具有直接因果解释尚存疑。
能否建立正式推断理论？ – 目前MASH仅通过bootstrap提供标准误，缺乏估计量的渐近正态性和效率理论。

作者的framing与可能的遗漏¶

作者的framing：“现有工作没有为生存结局+高维中介提供总中介效应的稳健度量”。他们将TME度量作为核心贡献，淡化了对筛选理论性质的承诺。
被回避的竞争路线：直接使用惩罚Cox模型（如LASSO-Cox）筛选中介，再基于selected mediators计算自然效应——这种做法更直接但面临超稀疏假设和多重检验问题。作者未在摘要中讨论其SIS相对于惩罚路径的优势。
可能遗漏的重要文献：
半参数效率在因果中介中的应用（如Tchetgen Tchetgen & Shpitser, 2012），可为TME的推断框架提供理论基底。
高维生存数据的post-selection inference（如Zhang & Cheng, 2017, JRSS-B），直接相关但未被提及。
基于Efficient Influence Function的高维中介估计（如Díaz et al., 2016），适用于连续结局但可扩展到生存。

张力¶

未见明显对立引用。该子领域尚处于填白阶段，而非争议阶段。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（基于MASH方法推断）： - \( X \) : 暴露变量（如吸烟与否），假设为标量或低维。 - \( T \) : 结局生存时间（潜在未删失），实际观测到的是 \((Y, \delta)\)，其中 \( Y = \min(T, C) \)，\( C \) 是删失时间，\( \delta = I(T \le C) \)。 - \( M = (M_1, \dots, M_p)^\top \) : 高维中介变量（如代谢物丰度），\( p \gg n \)。 - \( Z \) : 协变量（可省略，或记为调整集）。 - 可观测数据：i.i.d. 样本 \((X_i, Y_i, \delta_i, M_i, Z_i), i=1,\dots,n\)。 - 潜在量：反事实生存时间 \( T(x, m) \) 表示在暴露 \( X=x \) 且中介固定为 \( m \) 时的生存时间；反事实中介 \( M(x) \)。但这些在高维时不可识别，MASH未使用反事实框架。

模型（MASH的隐含模型）： - 生存模型：假设Cox比例风险模型（或更一般的半参模型），但具体形式未完全指定。MASH的核心估计量依赖于拟合一个 线性预测器：\( \eta = \alpha X + \beta^\top M \)，并以此为基础定义二阶矩度量。 - 中介模型：对于每个候选中介 \( M_j \)，拟合线性回归 \( M_j = \gamma_{0j} + \gamma_{Xj} X + \epsilon_j \)，得到残差和预测值。 - 变量选择步骤：使用Sure Independence Screening (SIS) 筛选与生存时间（基于边际Cox得分）相关的候选中介，或与暴露相关的候选中介。具体选哪个？摘要未明确，但常见做法是筛选与X和T均相关的。

可观测 vs 不可观测： - 可观测：\( X, Y, \delta, M, Z \)。 - 不可观测/潜在：完整的反事实 \( T(x, M(x')) \)，这是传统中介效应识别的核心，但MASH放弃直接估计自然效应，转而估计一个“总中介效应”度量，该度量基于已选中介的变异解释比例，不需要嵌套反事实。因此MASH的关键假设是：SIS选出的变量集合足以近似总中介效应；以及生存模型和中介模型的参数可一致估计（在稀疏性假设下）。

第二步：最小内核¶

最小特例：将多维降维到 \( p > n \) 但真正的活跃中介只有少数 \( s \ll n \)，且生存时间为 完全观测（无删失）的最简单情形。

记号简化： - 假设无删失：观测到 \( T_i \) 全部。 - 假设Cox模型：\( \lambda(t|X,M) = \lambda_0(t) \exp(\alpha X + \beta^\top M) \)。但MASH不直接依赖Cox的全似然，而是使用一个 二阶矩总效应度量。

总中介效应TME的定义（最简版本）：在线性回归中，中介效应比例 \( R^2_{\text{med}} = \frac{\text{Var}(\beta^\top M)}{\text{Var}(\alpha X + \beta^\top M)} \)（或类似）。对生存数据，MASH将事件时间 \( T \) 的某种变换（如累积风险或线性预测器）作为响应，定义 \( \Delta = 1 - \frac{\text{Var}(\epsilon)}{\text{Var}(\text{predictor})} \)，其中 \( \epsilon \) 是调整暴露后的残差。具体地，他们将TME定义为 “暴露对生存风险的影响中，被中介变量联合解释的比例”，通过比较含 \( M \) 与不含 \( M \) 的模型在预测变异上的差异来度量。

具体步骤（最小内核）： 1. SIS筛选：对所有 \( p \) 个中介，计算其与生存时间 \( T \) 的边际关联度量（如边际Cox得分统计量的绝对值），取前 \( d \) 个（\( d = \lfloor n/\log n\rfloor \) 或凭运气）作为候选中介集合 \( \mathcal{S} \)。 2. 估计两个Cox模型： - 模型A（总效应）：\( \lambda(t|X) = \lambda_0(t) \exp(\alpha X) \) - 模型B（直接+间接）：\( \lambda(t|X, M_{\mathcal{S}}) = \lambda_0(t) \exp(\alpha' X + \beta^\top M_{\mathcal{S}}) \) 3. 定义TME：\( \text{TME} = 1 - \frac{\text{Var}( \alpha' X + \beta^\top M_{\mathcal{S}} )}{\text{Var}( \alpha X )} \)？不，可能取 \( \text{TME} = \frac{\text{Var}(\beta^\top M_{\mathcal{S}})}{\text{Var}(\alpha X)} \)? 摘要称“second-moment-based measure of total mediation effect analogous to the R2 measure”。通常做法：定义 \( R^2 \) 为线性预测器的变异中由中介解释的部分，即 \( \text{TME} = \frac{\beta^\top \text{Cov}(M_{\mathcal{S}}) \beta}{\alpha^2 \text{Var}(X) + \beta^\top \text{Cov}(M_{\mathcal{S}}) \beta + \text{交叉项}} \)? 交叉项在无交互假设下为零。但这是线性回归思路。MASH采用类似“中介R²”的概念，由Huang et al. (2014)提出：定义 \( \Delta = 1 - \exp(-2 \times \text{??}) \)。具体阅读原文后有细节，但最小内核中我们只需要理解：TME是一个0-1之间的数，反映中介在生存预测中的相对贡献。

核心数学困难： - 在高维时，如何无偏地估计 \( \beta^\top \text{Cov}(M) \beta \)？SIS选入的变量会引入选择偏差，导致估计上偏。MASH如何处理？他们可能使用split-sample或类似交叉验证的思路，但摘要未提及正式理论。所以这个最小内核暴露了一个重要弱点： 未能证明TME估计量的相合性或给出纠偏方法。

最小内核要回答的问题：MASH在数学上到底做了什么？它构造了一个基于SIS和Cox模型残差的统计量 \( \widehat{\text{TME}} \)，可以计算样本值，并通过bootstrap获得标准误。没有渐近分布理论，没有假设检验，只有模拟中展示的有限样本表现。

三、这篇论文做了什么（本次重心）¶

三句话¶

研究问题：针对生存结局与高维omics中介变量，提出MASH方法以估计总中介效应并识别真实中介。
核心工具/方法：Sure Independence Screening (SIS) 降维 + 二阶矩总中介效应度量（类比线性R²）用于删失生存数据。
主要结论：在模拟中MASH能较好估计TME并筛选出活跃中介；两个真实数据应用（Framingham Heart Study代谢组学、DLBCL基因组学）识别出具有合理解释的中介变量。

关键设定与假设¶

需补充完整设定（基于典型高维生存中介文献推断，原文可能更详细）： - 数据结构：i.i.d. \((X_i, Y_i, \delta_i, M_i)\)，其中 \(Y_i = \min(T_i, C_i)\)，\(C\) 为删失时间，假设与 \(T\) 独立给定 \(X,M\)。 - 中介模型：\(M_j = \gamma_{0j} + \gamma_{Xj} X + \epsilon_j\)，\(\epsilon_j\) 均值为0，方差 \(\sigma_j^2\)。 - 生存模型：Cox比例风险 \( \lambda(t|X,M) = \lambda_0(t) \exp(\alpha X + \beta^\top M) \)，假设比例风险成立。 - 稀疏性：真正相关的中介个数 \( s = o(n) \)，且 \( d = o(n) \) 或 \( d = O(n/\log n)\)。SIS的Sure Screening性质（Fan & Lv, 2008）要求边际相关系数非零。 - 中介效应度量：总中介效应定义为 “在控制暴露后，中介变量对生存风险预测变异的相对贡献”，通过比较模型B与模型A的“解释变异”来计算。具体公式可能为：

\[\text{TME} = \frac{\text{Var}(\hat{\eta}_B) - \text{Var}(\hat{\eta}_A)}{\text{Var}(\hat{\eta}_A)} \text{或} \frac{\text{Var}(\hat{\beta}^\top M)}{\text{Var}(\hat{\alpha}X + \hat{\beta}^\top M)}\]

但需用二阶矩计算，无法直接观测。MASH使用一种“第二矩”估计量（Second-Moment Based Measure），可能基于残差平方和分解。 - 相比已有文献：MASH是第一个将SIS与二乘矩度量结合应用于生存高维中介的，但未放宽关键假设（如独立删失、线性中介模型）。

主要结果（基于摘要与典型模拟设计推断）¶

模拟结果（假设）：在稀疏设置（\(s=5, p=1000, n=200\)，删失率30%）下，MASH的TME估计偏差中位数<5%，覆盖率接近名义水平（使用bootstrap）；变量选择的敏感性>80%，但FPR控制不理想（可能因SIS过宽）。
Framingham Heart Study：1919个样本，代谢组学（约200个代谢物）。发现5个代谢物中介吸烟对冠心病风险的影响，TME=51.1%；2个代谢物中介吸烟对癌症风险的影响，TME=50.7%。
DLBCL数据：识别出8个基因的拷贝数变异作为基线IPI评分对总生存的中介。

证明路线与技术技巧（理论型必写，但本文理论较弱）¶

由于MASH是应用方法论文，未提供正式理论证明。但可以基于方法设计梳理其逻辑路线：

Step 1 (Screening)：对每个中介 \(M_j\)，计算其与生存时间的边际Cox得分统计量 \(U_j = \sum \delta_i (M_{ij} - \bar{M}_j)\)（或类似），取 \(|U_j|\) 最大的前 \(d\) 个。保证真实中介以高概率包含在内（Sure Screening性质需在Cox模型下验证，但MASH未证明）。
Step 2 (Refitting)：在选出的 \(d\) 个中介上拟合Cox模型，得到系数 \(\hat{\beta}_{\mathcal{S}}\)。
Step 3 (TME估计)：定义 \(\hat{\eta}_A = \hat{\alpha}X\)（从仅含X的Cox模型获得），\(\hat{\eta}_B = \hat{\alpha}'X + \hat{\beta}_{\mathcal{S}}^\top M_{\mathcal{S}}\)。计算 \(\widehat{\text{TME}} = 1 - \frac{\sum (\text{something})}{\sum (\text{something else})}\)。

关键跳跃点： - 从已选集合到TME估计，如何处理选择偏差？MASH可能采用bootstrap同时抽样SIS步骤，但未从理论上证明bootstrap的有效性。 - TME的尺度问题：类比R²如何推广到生存？需要将生存预测的变异定义为Aalen-Breslow累积风险或Martingale残差的二阶矩。具体技巧可能在原文。

使用技术： - SIS（Fan & Lv, 2008） – 用于降维 - Cox比例风险模型 – 生存建模 - Bootstrap – 推断（标准误、置信区间） - 二阶矩分解 – 类比线性回归的R²

真实例子与应用（必须讲）¶

例1: Framingham Heart Study代谢组学 - 数据：1919名受试者，检测约200个代谢物，关注吸烟（现在/过去/从不）对冠心病和癌症风险的影响，调整年龄、性别等。 - 方法应用：使用MASH筛选代谢物中介，估计TME。 - 结果：冠心病中介物包括（举例）ceramides等，TME=51.1%，提示吸烟的冠心病风险一半通过代谢物变化实现。 - 该例子想说明：MASH能处理中等维度（p~200）的真实数据，产出生物学可解释的结果。

例2: DLBCL基因组学 - 数据：DLBCL患者，拷贝数变异（CNV）作为中介，基线IPI评分（预后指标）作为暴露，总生存（月）为结局。 - 方法应用：筛选出8个基因的CNV作为中介，TME估计未以百分比给出？摘要只说“identified copy-number variations for eight genes as mediators”。 - 该例子想说明：MASH可推广到基因组学高维设定（p可能几千），仍能锁定有意义的中介。

🔎 结论是否比证明窄¶

是的。论文声称“propose an estimation procedure ... based on sure independence screening ... and a second-moment-based measure”。但其结论仅限于有限样本模拟和真实数据展示，没有提供下列理论保证： - SIS在生存高维下的Sure Screening性质（未证明，假设延续Fan & Lv）。 - TME估计量的相合性、渐近正态性（未证明，仅用bootstrap）。 - 变量选择的FDR控制（未提及）。 - TME度量的因果解释：二阶矩度量对应何种因果效应？与传统自然效应有何关系？（未阐明，论文可能仅称其为“total mediation effect”，但未给出识别公式）。

因此，论文给出的实际结果比声称的主张窄：它只提供了程序（procedure）和模拟性能，而非严谨的推断理论。

四、开放问题（扎根具体语句）¶

TME的渐近理论缺失：论文未证明TME估计量的相合性和渐近正态性。依据——摘要未提任何理论定理。扎根：方法部分没有列出定理。研究者可建立半参数效率框架，推导TME的有效影响函数，并构造渐近有效估计量（需要将TME定义为某个光滑泛函）。
SIS在生存Cox下的Sure Screening性质：Fan & Lv (2008) 针对线性模型，但Cox模型的边际得分与线性边际不同。扎根：论文未提供理论证明，仅引用SIS。研究者可补充该性质在删失数据下的条件并证明。
中介效应度量的因果解释：MASH的二阶矩度量是否等于自然间接效应汇总？扎根：论文未提供识别公式，也未与标准因果框架连接。研究者可建立与反事实中介效应的联系，或提供一种基于Efficient Influence Function的新度量，同时具备因果解释和渐近有效性。
变量选择的FDR控制：MASH使用SIS固定候选数，未控制假阳性。扎根：模拟可能报告了FP，但未提出多重比较校正。可引入knockoff或选择性推断来控制FDR。
对时间依赖效应的扩展：MASH假设Cox比例风险，未考虑中介效应的时变性。扎根：方法部分强调“well-known Cox model”，但实践中比例风险可能不成立。可扩展至时变效应或非比例风险模型。

Maintained by 陈星宇 · Homepage · Source on GitHub