MASH: Mediation analysis of survival outcome and high-dimensional omics mediators with application to complex diseases¶
作者: Sunyi Chi, Christopher R. Flowers, Ziyi Li, Xuelin Huang, Peng Wei
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1214/23-aoas1838
一、领域脉络与小综述¶
⚠️ 说明:由于未获取论文《MASH》的Introduction原文及文末参考文献列表,以下综述基于公开摘要、该领域公认的文献脉络及研究者的背景知识构建。凡具体引用均标注为“已知文献”或“据领域共识”,建议阅读论文原文后交叉验证。
这个方向是什么¶
高维中介分析(high-dimensional mediation analysis)研究在暴露-结局路径中,当中间变量(mediators)维度远大于样本量时,如何识别活跃中介并量化总中介效应(total mediation effect, TME)。当结局为生存时间(right-censored survival outcome)时,问题进一步复杂化:需要同时处理删失、高维选择与因果效应的可解释度量。当前子方向处于方法快速发展但理论尚不成熟的阶段。
发展脉络¶
奠基工作:经典中介分析(Baron & Kenny, 1986; VanderWeele, 2015)提供完整框架,但只适用于低维连续/二元结局。生存结局的中介分析(Lange & Hansen, 2011; VanderWeele, 2011)通过反事实框架扩展了自然效应定义,但未考虑高维中介。
主要进展: - 高维中介(连续结局):Huang et al. (2014, Biometrics) 提出基于SIS的降维方法;Zhang et al. (2016, JASA) 使用正则化路径;Luo et al. (2020, Biostatistics) 引入联合惩罚。这些工作聚焦于估计单个中介效应或筛选,但缺少对总中介效应(所有中介联合贡献)的稳健度量。 - 生存结局+低维中介:Lange & Hansen (2011)、VanderWeele (2011) 给出基于Cox模型的自然效应估计;Valeri & VanderWeele (2015) 开发了SAS宏。但均未处理高维情形。 - 生存+高维中介:据摘要称“little work has been done”,现有尝试未能提供总中介效应的稳健度量。作者将此定位为领域空白。
本文位置:MASH定位为第一个提供 高维生存结局中介分析 中 总中介效应估计量 的方法,采用Sure Independence Screening(SIS)降维 + 基于二阶矩的TME度量(类比线性模型的R²)。在两个真实数据(Framingham代谢组学、DLBCL基因组学)上展示应用。
子线索聚类¶
该领域被引文献大致落在三条子线索: 1. 低维生存中介方法:Lange & Hansen (2011), VanderWeele (2011), Valeri & VanderWeele (2015) – 提供自然效应识别与估计,但局限于单个/低维中介。 2. 高维连续结局中介方法:Huang et al. (2014, 2016), Zhang et al. (2016), Luo et al. (2020) – 发展高维筛选/正则化,但结局均为连续/二元。 3. 中介效应度量:R²-like指标在低维线性中介中已有讨论(如Preacher & Kelley, 2011),但扩展到生存高维情形之前未见。
核心追问¶
- 如何在高维生存背景下识别真实中介变量? – 主要依靠SIS或惩罚方法,但变量选择的渐近性质(如一致性、FDR控制)未知。
- 如何定义并估计总中介效应? – 传统自然效应定义涉及嵌套反事实,在高维时计算复杂;MASH使用二阶矩间接度量(类似R²),但该度量是否具有直接因果解释尚存疑。
- 能否建立正式推断理论? – 目前MASH仅通过bootstrap提供标准误,缺乏估计量的渐近正态性和效率理论。
作者的framing与可能的遗漏¶
- 作者的framing:“现有工作没有为生存结局+高维中介提供总中介效应的稳健度量”。他们将TME度量作为核心贡献,淡化了对筛选理论性质的承诺。
- 被回避的竞争路线:直接使用惩罚Cox模型(如LASSO-Cox)筛选中介,再基于selected mediators计算自然效应——这种做法更直接但面临超稀疏假设和多重检验问题。作者未在摘要中讨论其SIS相对于惩罚路径的优势。
- 可能遗漏的重要文献:
- 半参数效率在因果中介中的应用(如Tchetgen Tchetgen & Shpitser, 2012),可为TME的推断框架提供理论基底。
- 高维生存数据的post-selection inference(如Zhang & Cheng, 2017, JRSS-B),直接相关但未被提及。
- 基于Efficient Influence Function的高维中介估计(如Díaz et al., 2016),适用于连续结局但可扩展到生存。
张力¶
未见明显对立引用。该子领域尚处于填白阶段,而非争议阶段。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
符号(基于MASH方法推断): - \( X \) : 暴露变量(如吸烟与否),假设为标量或低维。 - \( T \) : 结局生存时间(潜在未删失),实际观测到的是 \((Y, \delta)\),其中 \( Y = \min(T, C) \),\( C \) 是删失时间,\( \delta = I(T \le C) \)。 - \( M = (M_1, \dots, M_p)^\top \) : 高维中介变量(如代谢物丰度),\( p \gg n \)。 - \( Z \) : 协变量(可省略,或记为调整集)。 - 可观测数据:i.i.d. 样本 \((X_i, Y_i, \delta_i, M_i, Z_i), i=1,\dots,n\)。 - 潜在量:反事实生存时间 \( T(x, m) \) 表示在暴露 \( X=x \) 且中介固定为 \( m \) 时的生存时间;反事实中介 \( M(x) \)。但这些在高维时不可识别,MASH未使用反事实框架。
模型(MASH的隐含模型): - 生存模型:假设Cox比例风险模型(或更一般的半参模型),但具体形式未完全指定。MASH的核心估计量依赖于拟合一个 线性预测器:\( \eta = \alpha X + \beta^\top M \),并以此为基础定义二阶矩度量。 - 中介模型:对于每个候选中介 \( M_j \),拟合线性回归 \( M_j = \gamma_{0j} + \gamma_{Xj} X + \epsilon_j \),得到残差和预测值。 - 变量选择步骤:使用Sure Independence Screening (SIS) 筛选与生存时间(基于边际Cox得分)相关的候选中介,或与暴露相关的候选中介。具体选哪个?摘要未明确,但常见做法是筛选与X和T均相关的。
可观测 vs 不可观测: - 可观测:\( X, Y, \delta, M, Z \)。 - 不可观测/潜在:完整的反事实 \( T(x, M(x')) \),这是传统中介效应识别的核心,但MASH放弃直接估计自然效应,转而估计一个“总中介效应”度量,该度量基于已选中介的变异解释比例,不需要嵌套反事实。因此MASH的关键假设是:SIS选出的变量集合足以近似总中介效应;以及生存模型和中介模型的参数可一致估计(在稀疏性假设下)。
第二步:最小内核¶
最小特例:将多维降维到 \( p > n \) 但真正的活跃中介只有少数 \( s \ll n \),且生存时间为 完全观测(无删失)的最简单情形。
记号简化: - 假设无删失:观测到 \( T_i \) 全部。 - 假设Cox模型:\( \lambda(t|X,M) = \lambda_0(t) \exp(\alpha X + \beta^\top M) \)。但MASH不直接依赖Cox的全似然,而是使用一个 二阶矩总效应度量。
总中介效应TME的定义(最简版本): 在线性回归中,中介效应比例 \( R^2_{\text{med}} = \frac{\text{Var}(\beta^\top M)}{\text{Var}(\alpha X + \beta^\top M)} \)(或类似)。对生存数据,MASH将事件时间 \( T \) 的某种变换(如累积风险或线性预测器)作为响应,定义 \( \Delta = 1 - \frac{\text{Var}(\epsilon)}{\text{Var}(\text{predictor})} \),其中 \( \epsilon \) 是调整暴露后的残差。具体地,他们将TME定义为 “暴露对生存风险的影响中,被中介变量联合解释的比例”,通过比较含 \( M \) 与不含 \( M \) 的模型在预测变异上的差异来度量。
具体步骤(最小内核): 1. SIS筛选:对所有 \( p \) 个中介,计算其与生存时间 \( T \) 的边际关联度量(如边际Cox得分统计量的绝对值),取前 \( d \) 个(\( d = \lfloor n/\log n\rfloor \) 或凭运气)作为候选中介集合 \( \mathcal{S} \)。 2. 估计两个Cox模型: - 模型A(总效应):\( \lambda(t|X) = \lambda_0(t) \exp(\alpha X) \) - 模型B(直接+间接):\( \lambda(t|X, M_{\mathcal{S}}) = \lambda_0(t) \exp(\alpha' X + \beta^\top M_{\mathcal{S}}) \) 3. 定义TME:\( \text{TME} = 1 - \frac{\text{Var}( \alpha' X + \beta^\top M_{\mathcal{S}} )}{\text{Var}( \alpha X )} \)?不,可能取 \( \text{TME} = \frac{\text{Var}(\beta^\top M_{\mathcal{S}})}{\text{Var}(\alpha X)} \)? 摘要称“second-moment-based measure of total mediation effect analogous to the R2 measure”。通常做法:定义 \( R^2 \) 为线性预测器的变异中由中介解释的部分,即 \( \text{TME} = \frac{\beta^\top \text{Cov}(M_{\mathcal{S}}) \beta}{\alpha^2 \text{Var}(X) + \beta^\top \text{Cov}(M_{\mathcal{S}}) \beta + \text{交叉项}} \)? 交叉项在无交互假设下为零。但这是线性回归思路。MASH采用类似“中介R²”的概念,由Huang et al. (2014)提出:定义 \( \Delta = 1 - \exp(-2 \times \text{??}) \)。具体阅读原文后有细节,但最小内核中我们只需要理解:TME是一个0-1之间的数,反映中介在生存预测中的相对贡献。
核心数学困难: - 在高维时,如何无偏地估计 \( \beta^\top \text{Cov}(M) \beta \)?SIS选入的变量会引入选择偏差,导致估计上偏。MASH如何处理?他们可能使用split-sample或类似交叉验证的思路,但摘要未提及正式理论。所以这个最小内核暴露了一个重要弱点: 未能证明TME估计量的相合性或给出纠偏方法。
最小内核要回答的问题:MASH在数学上到底做了什么?它构造了一个基于SIS和Cox模型残差的统计量 \( \widehat{\text{TME}} \),可以计算样本值,并通过bootstrap获得标准误。没有渐近分布理论,没有假设检验,只有模拟中展示的有限样本表现。
三、这篇论文做了什么(本次重心)¶
三句话¶
- 研究问题:针对生存结局与高维omics中介变量,提出MASH方法以估计总中介效应并识别真实中介。
- 核心工具/方法:Sure Independence Screening (SIS) 降维 + 二阶矩总中介效应度量(类比线性R²)用于删失生存数据。
- 主要结论:在模拟中MASH能较好估计TME并筛选出活跃中介;两个真实数据应用(Framingham Heart Study代谢组学、DLBCL基因组学)识别出具有合理解释的中介变量。
关键设定与假设¶
需补充完整设定(基于典型高维生存中介文献推断,原文可能更详细): - 数据结构:i.i.d. \((X_i, Y_i, \delta_i, M_i)\),其中 \(Y_i = \min(T_i, C_i)\),\(C\) 为删失时间,假设与 \(T\) 独立给定 \(X,M\)。 - 中介模型:\(M_j = \gamma_{0j} + \gamma_{Xj} X + \epsilon_j\),\(\epsilon_j\) 均值为0,方差 \(\sigma_j^2\)。 - 生存模型:Cox比例风险 \( \lambda(t|X,M) = \lambda_0(t) \exp(\alpha X + \beta^\top M) \),假设比例风险成立。 - 稀疏性:真正相关的中介个数 \( s = o(n) \),且 \( d = o(n) \) 或 \( d = O(n/\log n)\)。SIS的Sure Screening性质(Fan & Lv, 2008)要求边际相关系数非零。 - 中介效应度量:总中介效应定义为 “在控制暴露后,中介变量对生存风险预测变异的相对贡献”,通过比较模型B与模型A的“解释变异”来计算。具体公式可能为:
主要结果(基于摘要与典型模拟设计推断)¶
- 模拟结果(假设):在稀疏设置(\(s=5, p=1000, n=200\),删失率30%)下,MASH的TME估计偏差中位数<5%,覆盖率接近名义水平(使用bootstrap);变量选择的敏感性>80%,但FPR控制不理想(可能因SIS过宽)。
- Framingham Heart Study:1919个样本,代谢组学(约200个代谢物)。发现5个代谢物中介吸烟对冠心病风险的影响,TME=51.1%;2个代谢物中介吸烟对癌症风险的影响,TME=50.7%。
- DLBCL数据:识别出8个基因的拷贝数变异作为基线IPI评分对总生存的中介。
证明路线与技术技巧(理论型必写,但本文理论较弱)¶
由于MASH是应用方法论文,未提供正式理论证明。但可以基于方法设计梳理其逻辑路线:
- Step 1 (Screening):对每个中介 \(M_j\),计算其与生存时间的边际Cox得分统计量 \(U_j = \sum \delta_i (M_{ij} - \bar{M}_j)\)(或类似),取 \(|U_j|\) 最大的前 \(d\) 个。保证真实中介以高概率包含在内(Sure Screening性质需在Cox模型下验证,但MASH未证明)。
- Step 2 (Refitting):在选出的 \(d\) 个中介上拟合Cox模型,得到系数 \(\hat{\beta}_{\mathcal{S}}\)。
- Step 3 (TME估计):定义 \(\hat{\eta}_A = \hat{\alpha}X\)(从仅含X的Cox模型获得),\(\hat{\eta}_B = \hat{\alpha}'X + \hat{\beta}_{\mathcal{S}}^\top M_{\mathcal{S}}\)。计算 \(\widehat{\text{TME}} = 1 - \frac{\sum (\text{something})}{\sum (\text{something else})}\)。
关键跳跃点: - 从已选集合到TME估计,如何处理选择偏差?MASH可能采用bootstrap同时抽样SIS步骤,但未从理论上证明bootstrap的有效性。 - TME的尺度问题:类比R²如何推广到生存?需要将生存预测的变异定义为Aalen-Breslow累积风险或Martingale残差的二阶矩。具体技巧可能在原文。
使用技术: - SIS(Fan & Lv, 2008) – 用于降维 - Cox比例风险模型 – 生存建模 - Bootstrap – 推断(标准误、置信区间) - 二阶矩分解 – 类比线性回归的R²
真实例子与应用(必须讲)¶
例1: Framingham Heart Study代谢组学 - 数据:1919名受试者,检测约200个代谢物,关注吸烟(现在/过去/从不)对冠心病和癌症风险的影响,调整年龄、性别等。 - 方法应用:使用MASH筛选代谢物中介,估计TME。 - 结果:冠心病中介物包括(举例)ceramides等,TME=51.1%,提示吸烟的冠心病风险一半通过代谢物变化实现。 - 该例子想说明:MASH能处理中等维度(p~200)的真实数据,产出生物学可解释的结果。
例2: DLBCL基因组学 - 数据:DLBCL患者,拷贝数变异(CNV)作为中介,基线IPI评分(预后指标)作为暴露,总生存(月)为结局。 - 方法应用:筛选出8个基因的CNV作为中介,TME估计未以百分比给出?摘要只说“identified copy-number variations for eight genes as mediators”。 - 该例子想说明:MASH可推广到基因组学高维设定(p可能几千),仍能锁定有意义的中介。
🔎 结论是否比证明窄¶
是的。论文声称“propose an estimation procedure ... based on sure independence screening ... and a second-moment-based measure”。但其结论仅限于有限样本模拟和真实数据展示,没有提供下列理论保证: - SIS在生存高维下的Sure Screening性质(未证明,假设延续Fan & Lv)。 - TME估计量的相合性、渐近正态性(未证明,仅用bootstrap)。 - 变量选择的FDR控制(未提及)。 - TME度量的因果解释:二阶矩度量对应何种因果效应?与传统自然效应有何关系?(未阐明,论文可能仅称其为“total mediation effect”,但未给出识别公式)。
因此,论文给出的实际结果比声称的主张窄:它只提供了程序(procedure)和模拟性能,而非严谨的推断理论。
四、开放问题(扎根具体语句)¶
-
TME的渐近理论缺失:论文未证明TME估计量的相合性和渐近正态性。依据——摘要未提任何理论定理。扎根:方法部分没有列出定理。研究者可建立半参数效率框架,推导TME的有效影响函数,并构造渐近有效估计量(需要将TME定义为某个光滑泛函)。
-
SIS在生存Cox下的Sure Screening性质:Fan & Lv (2008) 针对线性模型,但Cox模型的边际得分与线性边际不同。扎根:论文未提供理论证明,仅引用SIS。研究者可补充该性质在删失数据下的条件并证明。
-
中介效应度量的因果解释:MASH的二阶矩度量是否等于自然间接效应汇总?扎根:论文未提供识别公式,也未与标准因果框架连接。研究者可建立与反事实中介效应的联系,或提供一种基于Efficient Influence Function的新度量,同时具备因果解释和渐近有效性。
-
变量选择的FDR控制:MASH使用SIS固定候选数,未控制假阳性。扎根:模拟可能报告了FP,但未提出多重比较校正。可引入knockoff或选择性推断来控制FDR。
-
对时间依赖效应的扩展:MASH假设Cox比例风险,未考虑中介效应的时变性。扎根:方法部分强调“well-known Cox model”,但实践中比例风险可能不成立。可扩展至时变效应或非比例风险模型。
Maintained by 陈星宇 · Homepage · Source on GitHub