Post‐selection inference for high‐dimensional mediation analysis with survival outcomes¶
作者: Tzu‐Jung Huang, Zhonghua Liu, Ian W. McKeague
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在暴露(如吸烟)通过大量潜在中介变量(如数十万个 DNA 甲基化位点)影响生存结局(如肺癌生存时间)的因果路径中,如何从高维候选中介里筛选出真正起中介作用的变量,并在筛选(selection)步骤已经发生的条件下,对筛选出的中介效应大小进行有效的统计推断(如构造置信区间、进行假设检验),而不因“挑选赢家”导致确认偏倚或 Type-I error 失控。当前该方向处于方法初步成型但理论尚不完备的阶段:高维中介筛选的 FDR 控制已有若干方案,但筛选后对效应量的有效 post-selection 推断仍是瓶颈。
发展脉络: - 奠基工作(因果中介识别与半参数理论):Imai et al. (2010) 在 sequential ignorability 下非参数识别了平均因果中介效应(ACME),奠定了反事实中介分析的基础;VanderWeele (2011) 将中介分析推广到生存数据(hazard / AFT 尺度),指出比例风险模型下乘积系数法仅在结局罕见时成立。Tchetgen Tchetgen & Shpitser (2012) 引入半参数理论,给出了边际自然直接/间接效应的效率界与多重稳健估计,但未触及高维中介与 post-selection 问题。 - 主要进展(高维中介筛选与生存结局):Liu et al. (2020) 针对基因组复合零假设提出 DACT 检验,解决了 Sobel 与联合检验在有限样本下的势不足问题;Luo et al. (2020) 与 Zhang et al. (2021) 分别用 SIS+MCP 与 SIS+debiased Lasso 处理高维 Cox 中介筛选,但推断仍依赖 FDR 校正或多重检验,未对筛选后效应量做有效置信区间构造。Tian et al. (2022) 提出 CoxMKF(knockoff filter),在有限样本下控制 FDR,但仍属于筛选/检验范畴,未解决效应量的 post-selection 估计与推断。 - 当前 frontier(生存结局的 post-selection 推断):McKeague & Qian (2015) 在线性回归下提出 adaptive resampling test(ART)做边际筛选的 post-selection 检验;Huang et al. (2019) 将 ART 推广到右删失生存数据的边际 AFT 筛选;Huang et al. (2023) 进一步引入半参数效率界与 stabilized one-step estimator,对“多个预测变量与生存结局的最大关联”做 post-selection 置信区间。这些工作处理的是暴露→结局的直接效应筛选,而非暴露→中介→结局的间接效应筛选。 - 本文的位置:本文将 Huang et al. (2023) 的“最大直接效应 post-selection 推断”框架,迁移到“最大自然间接效应(maximal NIE)”上,首次在高维中介+生存结局设定下,用半参数 efficient influence function 构造 stabilized one-step estimator,并证明其筛选后渐近正态性,从而给出无需 Bonferroni 或重抽样的 post-selection 置信区间。
子线索聚类: 1. 半参数效率与稳健估计(低维设定):Tchetgen Tchetgen & Shpitser (2012) 给出 NIE 的效率界与多重稳健估计;本文在此基础上构造高维筛选后的 one-step estimator。 2. 高维中介筛选与 FDR 控制(无 post-selection 效应推断):Liu et al. (2020, DACT)、Luo et al. (2020, SIS+MCP)、Zhang et al. (2021, SIS+debiased Lasso)、Tian et al. (2022, CoxMKF)——这一簇解决“哪些中介非零”的筛选/检验问题,但对筛选后效应量的置信区间未做理论保证。 3. 生存数据的 post-selection 推断(直接效应,非中介):McKeague & Qian (2015, ART)、Huang et al. (2019, 边际 AFT 筛选)、Huang et al. (2023, 最大关联的 stabilized one-step)——这一簇是本文方法论的直接前身,本文将其从直接效应推广到间接效应。
这个方向在追问的核心问题: 1. 高维中介筛选后,如何对效应量做有效推断? 筛选步骤(如选最大 NIE)引入了 selection 事件,传统渐近理论失效;需要构造在 selection 条件下仍有效的估计量与置信区间。 2. 生存结局(右删失)下,中介效应的半参数效率界与稳健估计是什么? 删失使可观测信息受限,需在 influence function 中纳入生存/删失机制。 3. 如何避免 Bonferroni / 重抽样的保守性与计算负担? 高维下 Bonferroni 极保守,重抽样计算昂贵;需要一条基于渐近正态性的直接推断路线。
⚠️ 作者的 framing: - 作者把缺口 frame 为:“高维中介+生存结局下,缺乏对筛选后边际中介效应的 valid post-selection 推断方法”,并将自己的工作定位为 Huang et al. (2023)(最大直接效应 post-selection 推断)向中介设定的“显然推广”。 - 被淡化/回避的竞争路线:(i) knockoff filter(Tian et al., 2022)——作者只提它做 FDR 控制,未讨论 knockoff 是否也能做效应量的 post-selection 置信区间(近期 selective inference 文献有此尝试);(ii) debiased Lasso 路线(Zhang et al., 2021)——作者未比较 stabilized one-step 与 debiased Lasso 在 post-selection 下的理论差异;(iii) Bayesian / empirical Bayes 中介推断路线完全未引。 - 明显该被引却未出现的:半参数 post-selection inference 的另一主流路线——Lee et al. (2016) 的 selective inference framework(基于 selection 事件的条件分布)未被引;高维 mediation 的 minimax / sparse 估计理论(如 Bing et al. 近期工作)也未引。这是值得研究者去查的缺口。
张力: 未见明显对立引用。各工作在不同设定(FDR 控制 vs 置信区间、直接效应 vs 间接效应、低维 vs 高维)下互补,未在同一设定下给出相反结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(A\):暴露变量(如吸烟状态,二值或连续)。
- \(M_k\):第 \(k\) 个中介变量(如第 \(k\) 个 CpG 位点的甲基化水平),\(k = 1, \ldots, K\),\(K\) 为中介维数(可远大于样本量 \(n\))。
- \(T\):潜在生存时间(连续,非负)。
- \(C\):潜在删失时间(连续,非负)。
- \(Y = \min(T, C)\):可观测生存/删失时间。
- \(\Delta = I(T \leq C)\):可观测删失指示变量(1=未删失,0=删失)。
- \(X\):基线协变量向量(如年龄、性别),维度固定。
- \(M_k(a)\):潜在中介值(若暴露设为 \(a\))。
- \(T(a, m)\):潜在生存时间(若暴露设为 \(a\)、中介设为 \(m\))。
- \(n\):样本量;\(K\):中介维数。
- \(\psi_k(P)\):第 \(k\) 个中介的自然间接效应(NIE),定义为 \(\psi_k(P) = E[T(a, M_k(a')) - T(a, M_k(a'))]\)(对二值暴露 \(a=1, a'=0\);本文实际采用 AFT 尺度下的边际斜率参数作为 NIE 的代理,见下文)。
- \(\Psi(P) = \max_{k=1,\ldots,K} \psi_k(P)\):最大自然间接效应——本文的目标参数。
- \(\hat{k}\):筛选步骤选出的中介索引,\(\hat{k} = \arg\max_{k} \hat{\psi}_k\)(基于初始估计)。
- \(P\):数据生成分布;\(\mathbb{P}_n\):经验分布。
模型: 数据生成机制为 \((X, A, M_1, \ldots, M_K, T, C)\) 联合分布 \(P\)。本文采用“assumption-lean”的边际 AFT 工作模型:对每个 \(k\),假设 \(E[\log T \mid A, M_k, X]\) 的边际斜率参数 \(\beta_k\) 可解释为 \(M_k\) 对 \(\log T\) 的直接效应(控制 \(A, X\)后),而 NIE 通过 \(A \to M_k \to T\) 的路径参数化。具体地,本文将 \(\psi_k(P)\) 定义为 \(A\) 对 \(M_k\) 的效应(\(\alpha_k\))与 \(M_k\) 对 \(T\) 的效应(\(\beta_k\))的乘积(在 AFT 尺度下),即 \(\psi_k(P) = \alpha_k \beta_k\)。关键假设包括: 1. Sequential ignorability:\(A \perp\!\!\!\perp (M_k(a), T(a,m)) \mid X\);\(M_k \perp\!\!\!\perp T(a,m) \mid (A, X)\)(无未测混杂)。 2. 独立删失:\(C \perp\!\!\!\perp T \mid (A, M_k, X)\)。 3. 边际 AFT 工作模型:\(\log T = \alpha_k A + \beta_k M_k + \gamma_k^T X + \epsilon_k\),\(\epsilon_k\) 独立于 \((A, M_k, X)\)(这是工作模型,非严格真实模型;半参数方法允许模型误设,只要 nuisance 函数可估)。
可观测数据: 研究者实际观测到的是 \(n\) 个独立同分布样本 \((X_i, A_i, M_{1i}, \ldots, M_{Ki}, Y_i, \Delta_i)\),\(i=1,\ldots,n\)。潜在生存时间 \(T_i\) 在 \(\Delta_i=0\) 时不可观测;潜在中介值 \(M_k(a)\) 与潜在生存时间 \(T(a,m)\) 均不可观测,只能靠 sequential ignorability 识别。
第二步:最小内核——\(K=1\)(单中介)、无删失(\(\Delta=1\))、线性 AFT 下的 maximal NIE post-selection 推断
剥掉高维、删失、半参数一般性后,最小内核是:只有一个中介(\(K=1\)),无删失,真实模型恰为线性 AFT,此时要证什么、为什么成立?
- 此时 \(\psi_1(P) = \alpha_1 \beta_1\)(\(A\) 对 \(M\) 的系数乘 \(M\) 对 \(\log T\) 的系数)。\(\Psi(P) = \psi_1(P)\)(最大 NIE 就是唯一的 NIE)。
- 篮选步骤 \(\hat{k} = 1\)(无选择余地),问题退化成对 \(\psi_1(P)\) 的有效估计与推断。
- 半参数 efficient influence function(EIF)在此特例下可显式写出:若用 OLS 估 \(\alpha_1, \beta_1\),则 \(\hat{\psi}_1 = \hat{\alpha}_1 \hat{\beta}_1\) 的渐近方差可通过 Delta method 得到。但本文的 one-step estimator 是 \(\hat{\psi}_1^+ = \hat{\psi}_1 + \mathbb{P}_n \phi_{\hat{\psi}_1, \hat{\eta}}\),其中 \(\phi\) 是 EIF,\(\hat{\eta}\) 是 nuisance 估计。在线性无删失特例下,one-step 修正项恰好抵消了 nuisance 估计的偏倚,使 \(\hat{\psi}_1^+\) 达到半参数效率界。
- 核心数学困难在 \(K>1\) 时才出现:当 \(K\) 很大,\(\hat{k} = \arg\max_k \hat{\psi}_k\) 是一个 selection 步骤,\(\hat{\psi}_{\hat{k}}\) 的分布不再是标准渐近正态——因为 \(\max\) 操作引入了多变量渐近极值分布的依赖结构。本文的关键想法是:stabilization(类似 bagging 的平滑化)——用 \(q_n\) 个子样本的 \(\hat{\psi}_k\) 平均值代替单次 \(\hat{\psi}_k\),使 \(\max_k\) 操作下的渐近分布可被正态校准。最小内核在 \(K=1\) 时看不到这个困难,但一旦 \(K \geq 2\),stabilization 就是绕过“max 的非标准渐近分布”的关键跳跃。
一句话总结最小内核:在单中介、无删失、线性 AFT 特例下,本文方法退化为对乘积参数 \(\alpha\beta\) 的标准 one-step 估计;真正吃劲的数学困难在 \(K>1\) 时的 max-selection 下出现,本文用 stabilization(子样本平均)将非标准极值分布校准为正态,从而构造 post-selection 置信区间。
三、这篇论文做了什么¶
三句话: 1. 研究了高维中介设定下,对暴露→中介→生存结局因果路径中筛选后最大自然间接效应(maximal NIE)的 post-selection 推断问题。 2. 核心方法是利用半参数 efficient influence function 构造 stabilized one-step estimator,通过子样本平均(stabilization)平滑 max-selection 的非标准分布,并证明其在筛选条件下的渐近正态性。 3. 主要结论是:在 sequential ignorability 与独立删失下,该 stabilized one-step estimator 的 post-selection 置信区间无需 Bonferroni 或重抽样,渐近覆盖概率达到名义水平;模拟与肺癌基因组数据实证验证了方法的有效性。
关键设定与假设: - Sequential ignorability(Imai et al., 2010; VanderWeele, 2015):\(A \perp\!\!\!\perp (M_k(a), T(a,m)) \mid X\);\(M_k \perp\!\!\!\perp T(a,m) \mid (A, X)\)。统计含义:无未测混杂,是 NIE 识别的必要条件;本文未放宽此假设。 - 独立删失:\(C \perp\!\!\!\perp T \mid (A, M_k, X)\)。统计含义:删失机制不依赖潜在生存时间(给定暴露、中介、协变量);这是生存推断的标准假设,本文未放宽。 - 边际 AFT 工作模型:\(\log T = \alpha_k A + \beta_k M_k + \gamma_k^T X + \epsilon_k\),\(\epsilon_k\) 独立于 \((A, M_k, X)\)。统计含义:将 NIE 参数化为 \(\psi_k = \alpha_k \beta_k\);这是“assumption-lean”的工作模型,半参数方法允许模型误设(只要 nuisance 函数可被机器学习灵活估),但 \(\psi_k\) 的因果解释仍依赖工作模型的正确性。 - Nuisance 估计条件:nuisance 函数(如 \(E[M_k \mid A, X]\)、\(E[\log T \mid A, M_k, X]\) 的边际斜率等)的估计需满足 \(L_2\) 收敛速率 \(o(n^{-1/4})\)(典型条件,允许机器学习估计量)。 - Stabilization 参数 \(q_n\):子样本个数,需 \(q_n \to \infty\) 且 \(q_n = o(n)\)(如 \(q_n = n^{0.5}\)),用于平滑 max-selection 的分布。
主要结果: - Theorem 1(Stabilized one-step estimator 的渐近正态性):在上述假设下,\(\sqrt{n}(\hat{\Psi}^+ - \Psi(P)) \to_d N(0, \sigma^2)\),其中 \(\hat{\Psi}^+ = \max_k \hat{\psi}_k^+\)(stabilized one-step),\(\sigma^2\) 是 EIF 在最大 NIE 处的方差。直觉:stabilization 将 \(\max_k\) 操作下的多变量极值依赖结构“平均掉”,使估计量退化为单变量渐近正态;必要条件是 \(q_n\) 足够大以平滑极值分布、但足够小以保留样本信息。解决的技术难点:post-selection 下标准渐近理论失效(\(\max\) 的非标准分布),stabilization 是绕过此难点的关键。 - Corollary / 置信区间构造:基于 Theorem 1 的渐近正态性,构造 \(\Psi(P)\) 的 \(1-\alpha\) 置信区间为 \(\hat{\Psi}^+ \pm z_{1-\alpha/2} \hat{\sigma} / \sqrt{n}\),其中 \(\hat{\sigma}\) 是 EIF 方差的一致估计。无需 Bonferroni 或重抽样校准。
证明路线与技术技巧: 1. 整体路线: - Step 1:对每个 \(k\),写出 \(\psi_k(P)\) 的半参数 efficient influence function \(\phi_k(O; \psi_k, \eta_k)\)(\(O=(X,A,M_k,Y,\Delta)\)),其中 \(\eta_k\) 包含所有 nuisance 函数(中介条件期望、生存条件期望等)。 - Step 2:构造 one-step estimator \(\hat{\psi}_k^+ = \hat{\psi}_k + \mathbb{P}_n \phi_k(O; \hat{\psi}_k, \hat{\eta}_k)\),其中 \(\hat{\psi}_k\) 是初始估计(如乘积系数估计),\(\hat{\eta}_k\) 是 nuisance 的机器学习估计(如随机森林、Lasso)。 - Step 3:引入 stabilization:将样本分成 \(q_n\) 个子样本,在每个子样本上计算 \(\hat{\psi}_k^{+(j)}\),取平均 \(\bar{\psi}_k^+ = \frac{1}{q_n} \sum_{j=1}^{q_n} \hat{\psi}_k^{+(j)}\)。 - Step 4:取最大值 \(\hat{\Psi}^+ = \max_k \bar{\psi}_k^+\),证明 \(\sqrt{n}(\hat{\Psi}^+ - \Psi(P))\) 的渐近正态性——关键在于证明 stabilization 后,\(\max_k\) 操作的渐近分布可被正态逼近。 - Step 5:构造置信区间,证明覆盖概率达到名义水平。 2. 关键跳跃点: - Lemma:Stabilization 后 \(\max_k\) 的渐近分布正态化。难点在于:未 stabilization 时,\(\max_k \hat{\psi}_k\) 的渐近分布是多变量正态的极值分布(非标准,依赖所有 \(k\) 的协方差结构);stabilization(子样本平均)相当于对每个 \(\hat{\psi}_k\) 做了“平滑”,使 \(\bar{\psi}_k^+\) 的方差缩小、且不同 \(k\) 间的依赖结构被削弱,从而 \(\max_k \bar{\psi}_k^+\) 的渐近分布逼近单变量正态的 \(\max\)(即正态本身,因为最大 NIE 对应的 \(k\) 是固定的 \(\psi_k\) 最大者,stabilization 后估计量集中在该 \(k\) 附近)。这是本文最吃功夫的引理,作者用 empirical process 技术控制了 \(q_n\) 个子样本平均后的极值分布偏差。 3. 技术技巧点名: - Efficient influence function (EIF):用于构造 one-step estimator,抵消 nuisance 估计偏倚,达到半参数效率界。用在每个 \(\psi_k\) 的估计中。 - Stabilization(类似 bagging 的子样本平均):用于平滑 max-selection 的非标准分布,使渐近正态校准可行。这是本文区别于标准 one-step 估计的关键技巧。 - Empirical process / maximal inequality:用于控制高维中介下 \(\max_k\) 操作的偏差,证明 stabilization 后极值分布的正态逼近误差可被 \(o(1)\) 控制。 - Koul–Susarla–Van Ryzin (KSV) 估计量:用于在右删失下估计边际 AFT 模型的斜率参数(nuisance 估计的一部分),这是生存数据半参数推断的标准工具。
真实例子与应用: - 数据:TCGA 肺癌数据集,\(n=754\),\(K=365,306\) 个 CpG 甲基化位点,暴露为吸烟状态,结局为总生存时间(右删失)。 - 如何用上去:对每个 CpG 位点 \(k\),估计 \(\psi_k\)(吸烟→CpG→生存的 NIE),取 maximal NIE,构造 stabilized one-step estimator 与 post-selection 置信区间。 - 结果:识别出多个可能中介吸烟对肺癌生存效应的 CpG 位点(如 cg04889061,位于基因 JPH3,已知与肺癌及吸烟相关;Bruse et al., 2014)。置信区间显著排除零。 - 想说明什么:验证方法在高维基因组数据下的可行性,展示相对 FDR 控制(如 CoxMKF)的补充价值——本文不仅筛选中介,还给出效应量的置信区间。
🔎 结论是否比证明窄: - Theorem 1 的渐近正态性在 \(q_n \to \infty, q_n = o(n)\) 及 nuisance 速率 \(o(n^{-1/4})\) 下严格证明,但置信区间的覆盖概率声明(Corollary)依赖 \(\hat{\sigma}\) 的一致性,文中未单独证 \(\hat{\sigma}\) 的一致性条件(隐含在 nuisance 估计条件中,但未显式陈述)——这是一个泛泛 claim 比证明略宽的地方。 - 文中 claim 方法“assumption-lean”(允许 AFT 工作模型误设),但 NIE 的因果解释 \(\psi_k = \alpha_k \beta_k\) 仍依赖工作模型的参数化含义——若真实模型非 AFT,\(\alpha_k \beta_k\) 不一定等于反事实 NIE。作者在 intro 中淡化了这一限制。
四、开放问题(点到为止,扎根具体语句)¶
- Nuisance 速率 \(o(n^{-1/4})\) 在 \(K \gg n\) 下是否可达? 本文假设每个 \(k\) 的 nuisance 估计满足 \(L_2\) 速率 \(o(n^{-1/4})\),但 \(K=365,306\) 时,对每个 \(k\) 单独估 nuisance(如 \(E[M_k \mid A, X]\))是否仍能达此速率?若用共享 nuisance(如单一模型估所有 \(M_k\) 的条件期望),速率如何变化?扎根在 Theorem 1 的 nuisance 条件陈述处。
- Stabilization 的计算负担:\(q_n\) 个子样本各需估一次 nuisance 与 one-step,\(K\) 大时计算量 \(O(q_n \times K)\)——是否可用 cross-fitting 或并行化减轻?扎根在 Section 3 的 stabilization 定义处(\(q_n\) 的选择)。
- AFT 工作模型误设下 \(\psi_k\) 的因果解释:若真实生存模型非 AFT,\(\alpha_k \beta_k\) 是否仍可解释为 NIE?是否需要更 assumption-lean 的 NIE 定义(如基于反事实的纯非参数 NIE,Tchetgen Tchetgen & Shpitser, 2012 的定义)?扎根在 Section 2 的 NIE 定义处(\(\psi_k = \alpha_k \beta_k\))。
- 与 selective inference(Lee et al., 2016)路线的比较:本文用 stabilization 校准 max-selection 的分布,另一主流路线是基于 selection 事件的条件分布——两者在覆盖概率、区间长度、计算成本上的差异未讨论。扎根在 intro 的“缺乏 post-selection 推断方法”陈述处(该处未引 selective inference 文献)。
要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub