Post‐selection inference for high‐dimensional mediation analysis with survival outcomes¶

作者: Tzu‐Jung Huang, Zhonghua Liu, Ian W. McKeague
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在暴露（如吸烟）通过大量潜在中介变量（如数十万个 DNA 甲基化位点）影响生存结局（如肺癌生存时间）的因果路径中，如何从高维候选中介里筛选出真正起中介作用的变量，并在筛选（selection）步骤已经发生的条件下，对筛选出的中介效应大小进行有效的统计推断（如构造置信区间、进行假设检验），而不因“挑选赢家”导致确认偏倚或 Type-I error 失控。当前该方向处于方法初步成型但理论尚不完备的阶段：高维中介筛选的 FDR 控制已有若干方案，但筛选后对效应量的有效 post-selection 推断仍是瓶颈。

发展脉络： - 奠基工作（因果中介识别与半参数理论）：Imai et al. (2010) 在 sequential ignorability 下非参数识别了平均因果中介效应（ACME），奠定了反事实中介分析的基础；VanderWeele (2011) 将中介分析推广到生存数据（hazard / AFT 尺度），指出比例风险模型下乘积系数法仅在结局罕见时成立。Tchetgen Tchetgen & Shpitser (2012) 引入半参数理论，给出了边际自然直接/间接效应的效率界与多重稳健估计，但未触及高维中介与 post-selection 问题。 - 主要进展（高维中介筛选与生存结局）：Liu et al. (2020) 针对基因组复合零假设提出 DACT 检验，解决了 Sobel 与联合检验在有限样本下的势不足问题；Luo et al. (2020) 与 Zhang et al. (2021) 分别用 SIS+MCP 与 SIS+debiased Lasso 处理高维 Cox 中介筛选，但推断仍依赖 FDR 校正或多重检验，未对筛选后效应量做有效置信区间构造。Tian et al. (2022) 提出 CoxMKF（knockoff filter），在有限样本下控制 FDR，但仍属于筛选/检验范畴，未解决效应量的 post-selection 估计与推断。 - 当前 frontier（生存结局的 post-selection 推断）：McKeague & Qian (2015) 在线性回归下提出 adaptive resampling test（ART）做边际筛选的 post-selection 检验；Huang et al. (2019) 将 ART 推广到右删失生存数据的边际 AFT 筛选；Huang et al. (2023) 进一步引入半参数效率界与 stabilized one-step estimator，对“多个预测变量与生存结局的最大关联”做 post-selection 置信区间。这些工作处理的是暴露→结局的直接效应筛选，而非暴露→中介→结局的间接效应筛选。 - 本文的位置：本文将 Huang et al. (2023) 的“最大直接效应 post-selection 推断”框架，迁移到“最大自然间接效应（maximal NIE）”上，首次在高维中介+生存结局设定下，用半参数 efficient influence function 构造 stabilized one-step estimator，并证明其筛选后渐近正态性，从而给出无需 Bonferroni 或重抽样的 post-selection 置信区间。

子线索聚类： 1. 半参数效率与稳健估计（低维设定）：Tchetgen Tchetgen & Shpitser (2012) 给出 NIE 的效率界与多重稳健估计；本文在此基础上构造高维筛选后的 one-step estimator。 2. 高维中介筛选与 FDR 控制（无 post-selection 效应推断）：Liu et al. (2020, DACT)、Luo et al. (2020, SIS+MCP)、Zhang et al. (2021, SIS+debiased Lasso)、Tian et al. (2022, CoxMKF)——这一簇解决“哪些中介非零”的筛选/检验问题，但对筛选后效应量的置信区间未做理论保证。 3. 生存数据的 post-selection 推断（直接效应，非中介）：McKeague & Qian (2015, ART)、Huang et al. (2019, 边际 AFT 筛选)、Huang et al. (2023, 最大关联的 stabilized one-step)——这一簇是本文方法论的直接前身，本文将其从直接效应推广到间接效应。

这个方向在追问的核心问题： 1. 高维中介筛选后，如何对效应量做有效推断？ 筛选步骤（如选最大 NIE）引入了 selection 事件，传统渐近理论失效；需要构造在 selection 条件下仍有效的估计量与置信区间。 2. 生存结局（右删失）下，中介效应的半参数效率界与稳健估计是什么？ 删失使可观测信息受限，需在 influence function 中纳入生存/删失机制。 3. 如何避免 Bonferroni / 重抽样的保守性与计算负担？ 高维下 Bonferroni 极保守，重抽样计算昂贵；需要一条基于渐近正态性的直接推断路线。

⚠️ 作者的 framing： - 作者把缺口 frame 为：“高维中介+生存结局下，缺乏对筛选后边际中介效应的 valid post-selection 推断方法”，并将自己的工作定位为 Huang et al. (2023)（最大直接效应 post-selection 推断）向中介设定的“显然推广”。 - 被淡化/回避的竞争路线：(i) knockoff filter（Tian et al., 2022）——作者只提它做 FDR 控制，未讨论 knockoff 是否也能做效应量的 post-selection 置信区间（近期 selective inference 文献有此尝试）；(ii) debiased Lasso 路线（Zhang et al., 2021）——作者未比较 stabilized one-step 与 debiased Lasso 在 post-selection 下的理论差异；(iii) Bayesian / empirical Bayes 中介推断路线完全未引。 - 明显该被引却未出现的：半参数 post-selection inference 的另一主流路线——Lee et al. (2016) 的 selective inference framework（基于 selection 事件的条件分布）未被引；高维 mediation 的 minimax / sparse 估计理论（如 Bing et al. 近期工作）也未引。这是值得研究者去查的缺口。

张力：未见明显对立引用。各工作在不同设定（FDR 控制 vs 置信区间、直接效应 vs 间接效应、低维 vs 高维）下互补，未在同一设定下给出相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：暴露变量（如吸烟状态，二值或连续）。
\(M_k\)：第 \(k\) 个中介变量（如第 \(k\) 个 CpG 位点的甲基化水平），\(k = 1, \ldots, K\)，\(K\) 为中介维数（可远大于样本量 \(n\)）。
\(T\)：潜在生存时间（连续，非负）。
\(C\)：潜在删失时间（连续，非负）。
\(Y = \min(T, C)\)：可观测生存/删失时间。
\(\Delta = I(T \leq C)\)：可观测删失指示变量（1=未删失，0=删失）。
\(X\)：基线协变量向量（如年龄、性别），维度固定。
\(M_k(a)\)：潜在中介值（若暴露设为 \(a\)）。
\(T(a, m)\)：潜在生存时间（若暴露设为 \(a\)、中介设为 \(m\)）。
\(n\)：样本量；\(K\)：中介维数。
\(\psi_k(P)\)：第 \(k\) 个中介的自然间接效应（NIE），定义为 \(\psi_k(P) = E[T(a, M_k(a')) - T(a, M_k(a'))]\)（对二值暴露 \(a=1, a'=0\)；本文实际采用 AFT 尺度下的边际斜率参数作为 NIE 的代理，见下文）。
\(\Psi(P) = \max_{k=1,\ldots,K} \psi_k(P)\)：最大自然间接效应——本文的目标参数。
\(\hat{k}\)：筛选步骤选出的中介索引，\(\hat{k} = \arg\max_{k} \hat{\psi}_k\)（基于初始估计）。
\(P\)：数据生成分布；\(\mathbb{P}_n\)：经验分布。

模型：数据生成机制为 \((X, A, M_1, \ldots, M_K, T, C)\) 联合分布 \(P\)。本文采用“assumption-lean”的边际 AFT 工作模型：对每个 \(k\)，假设 \(E[\log T \mid A, M_k, X]\) 的边际斜率参数 \(\beta_k\) 可解释为 \(M_k\) 对 \(\log T\) 的直接效应（控制 \(A, X\)后），而 NIE 通过 \(A \to M_k \to T\) 的路径参数化。具体地，本文将 \(\psi_k(P)\) 定义为 \(A\) 对 \(M_k\) 的效应（\(\alpha_k\)）与 \(M_k\) 对 \(T\) 的效应（\(\beta_k\)）的乘积（在 AFT 尺度下），即 \(\psi_k(P) = \alpha_k \beta_k\)。关键假设包括： 1. Sequential ignorability：\(A \perp\!\!\!\perp (M_k(a), T(a,m)) \mid X\)；\(M_k \perp\!\!\!\perp T(a,m) \mid (A, X)\)（无未测混杂）。 2. 独立删失：\(C \perp\!\!\!\perp T \mid (A, M_k, X)\)。 3. 边际 AFT 工作模型：\(\log T = \alpha_k A + \beta_k M_k + \gamma_k^T X + \epsilon_k\)，\(\epsilon_k\) 独立于 \((A, M_k, X)\)（这是工作模型，非严格真实模型；半参数方法允许模型误设，只要 nuisance 函数可估）。

可观测数据：研究者实际观测到的是 \(n\) 个独立同分布样本 \((X_i, A_i, M_{1i}, \ldots, M_{Ki}, Y_i, \Delta_i)\)，\(i=1,\ldots,n\)。潜在生存时间 \(T_i\) 在 \(\Delta_i=0\) 时不可观测；潜在中介值 \(M_k(a)\) 与潜在生存时间 \(T(a,m)\) 均不可观测，只能靠 sequential ignorability 识别。

第二步：最小内核——\(K=1\)（单中介）、无删失（\(\Delta=1\)）、线性 AFT 下的 maximal NIE post-selection 推断

剥掉高维、删失、半参数一般性后，最小内核是：只有一个中介（\(K=1\)），无删失，真实模型恰为线性 AFT，此时要证什么、为什么成立？

此时 \(\psi_1(P) = \alpha_1 \beta_1\)（\(A\) 对 \(M\) 的系数乘 \(M\) 对 \(\log T\) 的系数）。\(\Psi(P) = \psi_1(P)\)（最大 NIE 就是唯一的 NIE）。
篮选步骤 \(\hat{k} = 1\)（无选择余地），问题退化成对 \(\psi_1(P)\) 的有效估计与推断。
半参数 efficient influence function（EIF）在此特例下可显式写出：若用 OLS 估 \(\alpha_1, \beta_1\)，则 \(\hat{\psi}_1 = \hat{\alpha}_1 \hat{\beta}_1\) 的渐近方差可通过 Delta method 得到。但本文的 one-step estimator 是 \(\hat{\psi}_1^+ = \hat{\psi}_1 + \mathbb{P}_n \phi_{\hat{\psi}_1, \hat{\eta}}\)，其中 \(\phi\) 是 EIF，\(\hat{\eta}\) 是 nuisance 估计。在线性无删失特例下，one-step 修正项恰好抵消了 nuisance 估计的偏倚，使 \(\hat{\psi}_1^+\) 达到半参数效率界。
核心数学困难在 \(K>1\) 时才出现：当 \(K\) 很大，\(\hat{k} = \arg\max_k \hat{\psi}_k\) 是一个 selection 步骤，\(\hat{\psi}_{\hat{k}}\) 的分布不再是标准渐近正态——因为 \(\max\) 操作引入了多变量渐近极值分布的依赖结构。本文的关键想法是：stabilization（类似 bagging 的平滑化）——用 \(q_n\) 个子样本的 \(\hat{\psi}_k\) 平均值代替单次 \(\hat{\psi}_k\)，使 \(\max_k\) 操作下的渐近分布可被正态校准。最小内核在 \(K=1\) 时看不到这个困难，但一旦 \(K \geq 2\)，stabilization 就是绕过“max 的非标准渐近分布”的关键跳跃。

一句话总结最小内核：在单中介、无删失、线性 AFT 特例下，本文方法退化为对乘积参数 \(\alpha\beta\) 的标准 one-step 估计；真正吃劲的数学困难在 \(K>1\) 时的 max-selection 下出现，本文用 stabilization（子样本平均）将非标准极值分布校准为正态，从而构造 post-selection 置信区间。

三、这篇论文做了什么¶

三句话： 1. 研究了高维中介设定下，对暴露→中介→生存结局因果路径中筛选后最大自然间接效应（maximal NIE）的 post-selection 推断问题。 2. 核心方法是利用半参数 efficient influence function 构造 stabilized one-step estimator，通过子样本平均（stabilization）平滑 max-selection 的非标准分布，并证明其在筛选条件下的渐近正态性。 3. 主要结论是：在 sequential ignorability 与独立删失下，该 stabilized one-step estimator 的 post-selection 置信区间无需 Bonferroni 或重抽样，渐近覆盖概率达到名义水平；模拟与肺癌基因组数据实证验证了方法的有效性。

关键设定与假设： - Sequential ignorability（Imai et al., 2010; VanderWeele, 2015）：\(A \perp\!\!\!\perp (M_k(a), T(a,m)) \mid X\)；\(M_k \perp\!\!\!\perp T(a,m) \mid (A, X)\)。统计含义：无未测混杂，是 NIE 识别的必要条件；本文未放宽此假设。 - 独立删失：\(C \perp\!\!\!\perp T \mid (A, M_k, X)\)。统计含义：删失机制不依赖潜在生存时间（给定暴露、中介、协变量）；这是生存推断的标准假设，本文未放宽。 - 边际 AFT 工作模型：\(\log T = \alpha_k A + \beta_k M_k + \gamma_k^T X + \epsilon_k\)，\(\epsilon_k\) 独立于 \((A, M_k, X)\)。统计含义：将 NIE 参数化为 \(\psi_k = \alpha_k \beta_k\)；这是“assumption-lean”的工作模型，半参数方法允许模型误设（只要 nuisance 函数可被机器学习灵活估），但 \(\psi_k\) 的因果解释仍依赖工作模型的正确性。 - Nuisance 估计条件：nuisance 函数（如 \(E[M_k \mid A, X]\)、\(E[\log T \mid A, M_k, X]\) 的边际斜率等）的估计需满足 \(L_2\) 收敛速率 \(o(n^{-1/4})\)（典型条件，允许机器学习估计量）。 - Stabilization 参数 \(q_n\)：子样本个数，需 \(q_n \to \infty\) 且 \(q_n = o(n)\)（如 \(q_n = n^{0.5}\)），用于平滑 max-selection 的分布。

主要结果： - Theorem 1（Stabilized one-step estimator 的渐近正态性）：在上述假设下，\(\sqrt{n}(\hat{\Psi}^+ - \Psi(P)) \to_d N(0, \sigma^2)\)，其中 \(\hat{\Psi}^+ = \max_k \hat{\psi}_k^+\)（stabilized one-step），\(\sigma^2\) 是 EIF 在最大 NIE 处的方差。直觉：stabilization 将 \(\max_k\) 操作下的多变量极值依赖结构“平均掉”，使估计量退化为单变量渐近正态；必要条件是 \(q_n\) 足够大以平滑极值分布、但足够小以保留样本信息。解决的技术难点：post-selection 下标准渐近理论失效（\(\max\) 的非标准分布），stabilization 是绕过此难点的关键。 - Corollary / 置信区间构造：基于 Theorem 1 的渐近正态性，构造 \(\Psi(P)\) 的 \(1-\alpha\) 置信区间为 \(\hat{\Psi}^+ \pm z_{1-\alpha/2} \hat{\sigma} / \sqrt{n}\)，其中 \(\hat{\sigma}\) 是 EIF 方差的一致估计。无需 Bonferroni 或重抽样校准。

证明路线与技术技巧： 1. 整体路线： - Step 1：对每个 \(k\)，写出 \(\psi_k(P)\) 的半参数 efficient influence function \(\phi_k(O; \psi_k, \eta_k)\)（\(O=(X,A,M_k,Y,\Delta)\)），其中 \(\eta_k\) 包含所有 nuisance 函数（中介条件期望、生存条件期望等）。 - Step 2：构造 one-step estimator \(\hat{\psi}_k^+ = \hat{\psi}_k + \mathbb{P}_n \phi_k(O; \hat{\psi}_k, \hat{\eta}_k)\)，其中 \(\hat{\psi}_k\) 是初始估计（如乘积系数估计），\(\hat{\eta}_k\) 是 nuisance 的机器学习估计（如随机森林、Lasso）。 - Step 3：引入 stabilization：将样本分成 \(q_n\) 个子样本，在每个子样本上计算 \(\hat{\psi}_k^{+(j)}\)，取平均 \(\bar{\psi}_k^+ = \frac{1}{q_n} \sum_{j=1}^{q_n} \hat{\psi}_k^{+(j)}\)。 - Step 4：取最大值 \(\hat{\Psi}^+ = \max_k \bar{\psi}_k^+\)，证明 \(\sqrt{n}(\hat{\Psi}^+ - \Psi(P))\) 的渐近正态性——关键在于证明 stabilization 后，\(\max_k\) 操作的渐近分布可被正态逼近。 - Step 5：构造置信区间，证明覆盖概率达到名义水平。 2. 关键跳跃点： - Lemma：Stabilization 后 \(\max_k\) 的渐近分布正态化。难点在于：未 stabilization 时，\(\max_k \hat{\psi}_k\) 的渐近分布是多变量正态的极值分布（非标准，依赖所有 \(k\) 的协方差结构）；stabilization（子样本平均）相当于对每个 \(\hat{\psi}_k\) 做了“平滑”，使 \(\bar{\psi}_k^+\) 的方差缩小、且不同 \(k\) 间的依赖结构被削弱，从而 \(\max_k \bar{\psi}_k^+\) 的渐近分布逼近单变量正态的 \(\max\)（即正态本身，因为最大 NIE 对应的 \(k\) 是固定的 \(\psi_k\) 最大者，stabilization 后估计量集中在该 \(k\) 附近）。这是本文最吃功夫的引理，作者用 empirical process 技术控制了 \(q_n\) 个子样本平均后的极值分布偏差。 3. 技术技巧点名： - Efficient influence function (EIF)：用于构造 one-step estimator，抵消 nuisance 估计偏倚，达到半参数效率界。用在每个 \(\psi_k\) 的估计中。 - Stabilization（类似 bagging 的子样本平均）：用于平滑 max-selection 的非标准分布，使渐近正态校准可行。这是本文区别于标准 one-step 估计的关键技巧。 - Empirical process / maximal inequality：用于控制高维中介下 \(\max_k\) 操作的偏差，证明 stabilization 后极值分布的正态逼近误差可被 \(o(1)\) 控制。 - Koul–Susarla–Van Ryzin (KSV) 估计量：用于在右删失下估计边际 AFT 模型的斜率参数（nuisance 估计的一部分），这是生存数据半参数推断的标准工具。

真实例子与应用： - 数据：TCGA 肺癌数据集，\(n=754\)，\(K=365,306\) 个 CpG 甲基化位点，暴露为吸烟状态，结局为总生存时间（右删失）。 - 如何用上去：对每个 CpG 位点 \(k\)，估计 \(\psi_k\)（吸烟→CpG→生存的 NIE），取 maximal NIE，构造 stabilized one-step estimator 与 post-selection 置信区间。 - 结果：识别出多个可能中介吸烟对肺癌生存效应的 CpG 位点（如 cg04889061，位于基因 JPH3，已知与肺癌及吸烟相关；Bruse et al., 2014）。置信区间显著排除零。 - 想说明什么：验证方法在高维基因组数据下的可行性，展示相对 FDR 控制（如 CoxMKF）的补充价值——本文不仅筛选中介，还给出效应量的置信区间。

🔎 结论是否比证明窄： - Theorem 1 的渐近正态性在 \(q_n \to \infty, q_n = o(n)\) 及 nuisance 速率 \(o(n^{-1/4})\) 下严格证明，但置信区间的覆盖概率声明（Corollary）依赖 \(\hat{\sigma}\) 的一致性，文中未单独证 \(\hat{\sigma}\) 的一致性条件（隐含在 nuisance 估计条件中，但未显式陈述）——这是一个泛泛 claim 比证明略宽的地方。 - 文中 claim 方法“assumption-lean”（允许 AFT 工作模型误设），但 NIE 的因果解释 \(\psi_k = \alpha_k \beta_k\) 仍依赖工作模型的参数化含义——若真实模型非 AFT，\(\alpha_k \beta_k\) 不一定等于反事实 NIE。作者在 intro 中淡化了这一限制。

四、开放问题（点到为止，扎根具体语句）¶

Nuisance 速率 \(o(n^{-1/4})\) 在 \(K \gg n\) 下是否可达？ 本文假设每个 \(k\) 的 nuisance 估计满足 \(L_2\) 速率 \(o(n^{-1/4})\)，但 \(K=365,306\) 时，对每个 \(k\) 单独估 nuisance（如 \(E[M_k \mid A, X]\)）是否仍能达此速率？若用共享 nuisance（如单一模型估所有 \(M_k\) 的条件期望），速率如何变化？扎根在 Theorem 1 的 nuisance 条件陈述处。
Stabilization 的计算负担：\(q_n\) 个子样本各需估一次 nuisance 与 one-step，\(K\) 大时计算量 \(O(q_n \times K)\)——是否可用 cross-fitting 或并行化减轻？扎根在 Section 3 的 stabilization 定义处（\(q_n\) 的选择）。
AFT 工作模型误设下 \(\psi_k\) 的因果解释：若真实生存模型非 AFT，\(\alpha_k \beta_k\) 是否仍可解释为 NIE？是否需要更 assumption-lean 的 NIE 定义（如基于反事实的纯非参数 NIE，Tchetgen Tchetgen & Shpitser, 2012 的定义）？扎根在 Section 2 的 NIE 定义处（\(\psi_k = \alpha_k \beta_k\)）。
与 selective inference（Lee et al., 2016）路线的比较：本文用 stabilization 校准 max-selection 的分布，另一主流路线是基于 selection 事件的条件分布——两者在覆盖概率、区间长度、计算成本上的差异未讨论。扎根在 intro 的“缺乏 post-selection 推断方法”陈述处（该处未引 selective inference 文献）。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Post‐selection inference for high‐dimensional mediation analysis with survival outcomes¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论