Controlling false discovery rate for mediator selection in high-dimensional data¶

作者: Ran Dai, Ruiyang Li, Seonjoo Lee, Ying Liu
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae064

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在高维候选中介变量集合中，如何进行统计检验与选择，使得假发现率可控。传统的中介分析多针对单个或少数几个预指定中介，但随着神经影像、基因组学等高维数据的普及，研究者面临"从成百上千个候选中介中筛选出真正起作用者"的任务。此时，若直接套用传统中介检验（如 Sobel test 或乘积法）并对 p 值做 Bonferroni 或 BH 校正，往往因检验统计量之间的复杂相关性而导致 FDR 失控或功效极低。该方向目前处于方法构建与理论完善期：核心工具已从传统的 p值校正转向基于 Knockoff 的变量选择框架，但如何将其与因果中介识别所需的反事实框架、交叉世界独立性假设相融合，仍是当前 frontier。

发展脉络¶

根据 Introduction 的引用梳理，该领域的发展线索如下：

奠基工作（因果中介分析的参数化框架）：
- Baron & Kenny (1986)：提出了最经典的中介效应分析框架与逐步检验法，奠定了社会科学中中介分析的基础，但仅限于低维、线性、连续情形。
- Pearl (2001) / Imai et al. (2010)：引入了基于反事实的因果中介定义（自然直接/间接效应），解决了参数模型识别问题，为非参数/半参数中介分析提供了理论基石。这些工作定义了"什么是中介效应"，但未涉及高维选择问题。
高维中介筛选的早期尝试（降维 + 传统检验）：
- Huang & Pan (2016), Zhang et al. (2016)：提出了在高维设定下筛选中介的方法，通常结合降维技术（如 Lasso 或降维回归）与传统的假设检验。
- 遗留的口子：作者在 Introduction 中明确指出，这些方法"do not control for family-wise error rate (FWER) or false discovery rate (FDR)"。它们侧重于预测或筛选的准确性，而非统计推断中的 Type I error 控制。
高维中介的 FDR 控制（竞争路线）：
- Huang (2019)：提出了针对高维中介分析的 FDR 控制方法。
- 作者定位：作者引用此工作作为主要对比对象，暗示其方法在某些方面（如对中介路径的特定建模或功效）存在局限，或者本文提出的 Knockoff 路径能提供更好的有限样本性质。
变量选择中的 FDR 控制（方法论源头）：
- Barber & Candès (2015)：提出了 Knockoff 滤波器，在回归模型中实现了在有限样本下对 FDR 的无偏控制，且不依赖于未知噪声水平 \(\sigma\) 的估计。这是本文核心工具的来源。
- Candès et al. (2018)：发展了 Model-X Knockoff，将其推广到更一般的模型设定，只要协变量的分布已知即可构造 Knockoff 变量。本文正是将这一思路"移植"到中介分析场景。

子线索聚类¶

被引文献大致落在三条子线索上： 1. 因果中介识别理论：Pearl, Imai, VanderWeele 等。这一簇定义了估计目标，确立了识别所需的假设（如 Sequential Ignorability）。 2. 高维变量选择与降维：Huang & Pan, Zhang et al.。这一簇提供了处理高维数据的计算工具，但缺乏严格的推断保证。 3. 多重假设检验与 FDR 控制：Benjamini & Hochberg (BH procedure), Barber & Candès (Knockoff)。这一簇提供了本文核心的统计推断框架。

这个方向在追问的核心问题¶

如何定义高维中介检验的原假设？ 是检验"总中介效应"还是"通过特定路径的效应"？
检验统计量之间的相关性如何处理？ 传统的 BH 方法在统计量正相关时会过于保守，Knockoff 通过构造对称的"影子变量"来打破这一困境。
有限样本下的 FDR 控制是否可行？ 很多高维方法依赖大样本渐近理论，而 Knockoff 承诺有限样本控制，这对神经影像等样本量有限的数据至关重要。

⚠️ 作者的 framing¶

作者的说法：作者将缺口 frame 为"现有高维中介筛选方法缺乏严格的 FDR 控制"，并将 Knockoff 包装为"显然的解决方案"——既然 Knockoff 在回归中能做有限样本 FDR 控制，那么将其扩展到中介分析（本质上是两个回归方程的组合）就是自然的下一步。
被淡化的竞争路线：作者主要对比了 Huang (2019)，但未深入讨论基于 Resampling 或 Permutation 的多重检验校正方法（这类方法在依赖结构复杂时也很常用）。此外，作者假设了"中介变量之间相互独立"或"给定暴露与混杂后条件独立"（隐含在构造 Knockoff 的过程中），这在神经影像数据（脑区连接高度相关）中是一个强假设，作者虽提及但可能低估了其处理难度。
缺失的引用：Introduction 中未提及Debiased Lasso或Double Machine Learning (DML) 在中介分析中的应用。这些方法同样可以处理高维推断问题，且能提供置信区间，与 Knockoff 的 FDR 控制路线形成互补甚至竞争。研究者可以去查证：为什么作者选了 Knockoff 而非 DML？是因为 DML 更难做"选择"（selection）而更偏向"推断"（inference），还是因为 DML 对 nuisance parameter 估计更敏感？

张力¶

未见明显对立引用。文献主要呈现为"接力"关系：因果推断定义目标 → 高维统计提供筛选工具 → Knockoff 提供新的推断工具。潜在张力在于：因果中介分析需要很强的"无混淆假设"，而 Knockoff 方法在 Model-X 设定下需要知道协变量的分布，这两层假设叠加，对数据的要求极高。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

在展开论文细节前，先立清楚记号：

样本与维数：观测样本量 \(n\)，候选中介变量维数 \(p\)（\(p\) 可远大于 \(n\)）。
变量定义：
- \(A\)：暴露变量，通常为单变量。
- \(Y\)：结局变量。
- \(M = (M_1, \dots, M_p)^\top\)：\(p\) 维候选中介变量向量。
- \(X\)：混杂变量向量。
可观测数据：独立同分布样本 \(\{A_i, M_i, Y_i, X_i\}_{i=1}^n\)。
潜在结果：
- \(M(a)\)：在暴露水平 \(A=a\) 下潜在的中介变量值。
- \(Y(a, m)\)：在暴露 \(A=a\) 和中介 \(M=m\) 下的潜在结局。
- 核心目标：识别哪些 \(M_j\) 是真正的中介，即 \(A\) 通过 \(M_j\) 影响 \(Y\)。
因果定义：
- 自然直接效应 (NDE): \(E[Y(1, M(0)) - Y(0, M(0))]\)。
- 自然间接效应 (NDE/中介效应): \(E[Y(1, M(1)) - Y(1, M(0))]\)。
- 本文关注的是个体中介效应是否为零：\(H_{0j}: \beta_j \times \gamma_j = 0\)（在线性模型下）。

第二步：最小内核¶

剥去高维和复杂的算法细节，支撑整篇论文的最小内核是：如何构造一个关于中介效应的"对称"检验统计量，使其满足 Knockoff 所需的交换性。

最简特例（线性模型、单中介、无混杂 \(X\)）：假设 \(p=1\)，模型为： 1. 中介模型：\(M = \gamma A + \epsilon_1\) 2. 结局模型：\(Y = \beta M + \delta A + \epsilon_2\)

中介效应为 \(\gamma \beta\)。传统检验是 Sobel test：\(Z = \frac{\hat{\gamma}\hat{\beta}}{\sqrt{\widehat{Var}}}\)。现在扩展到高维 \(p\) 个中介，我们要控制 FDR。

Knockoff 的核心思路（最小内核）： 1. 构造影子变量：对于每个候选中介 \(M_j\)，构造一个"影子"变量 \(\tilde{M}_j\)。\(\tilde{M}_j\) 必须满足： * \(\tilde{M}\) 与 \(Y\) 独立（给定 \(A\) 和 \(M\)）。 * \((M, \tilde{M})\) 的联合分布具有对称性：交换 \(M_j\) 和 \(\tilde{M}_j\) 不改变分布。 2. 定义特征重要性统计量： * 在中介分析中，作者定义了一个结合了 \(\gamma\)（\(A \to M\) 路径）和 \(\beta\)（\(M \to Y\) 路径）的统计量。例如，可以用 Lasso 回归 \(A\) 对 \(M\) 得到 \(\hat{\gamma}\)，回归 \(Y\) 对 \(M, A\) 得到 \(\hat{\beta}\)。 * 构造统计量 \(W_j = |\hat{\beta}_j \hat{\gamma}_j| - |\hat{\beta}_j^{(knockoff)} \hat{\gamma}_j^{(knockoff)}|\)。 3. 核心数学性质： * 如果 \(M_j\) 不是中介（零假设成立），则 \(M_j\) 和 \(\tilde{M}_j\) 在统计模型中地位完全对等。因此，\(W_j\) 取正值和负值的概率对称。 * 如果 \(M_j\) 是中介，则 \(M_j\) 的系数应显著大于 \(\tilde{M}_j\) 的系数，\(W_j\) 倾向于取正值。 4. FDR 控制： * 选取阈值 \(t > 0\)，拒绝所有 \(W_j \ge t\) 的假设。 * FDP (False Discovery Proportion) 的估计量为 \(\frac{1 + \#\{j: W_j \le -t\}}{\#\{j: W_j \ge t\}}\)。 * 最小内核命题：在上述对称性假设下，\(E[FDP] \le q\)（目标 FDR 水平）。

论文的推广：从上述简单线性情形推广到高维 \(p \gg n\)，且引入混杂 \(X\)，并处理 \(M\) 之间的相关性（构造 Knockoff 时需考虑协方差结构）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：高维候选中介变量的筛选问题，目标是在有限样本下控制假发现率（FDR）。
核心方法：将 Knockoff 滤波器引入因果中介分析框架，构造了针对中介路径的检验统计量，并证明了其在有限样本下的 FDR 控制性质。
主要结论：证明了该方法在特征变量分布已知的情况下能严格控制 FDR，模拟实验显示其功效优于现有的 BH 校正及中介 Lasso 方法，并在 ABCD 神经影像数据中发现了显著的中介连接。

关键设定与假设¶

在最小内核基础上，补全完整设定：

模型设定：
- 作者采用了乘积法的思想来定义中介效应。对于第 \(j\) 个中介，效应定义为 \(\alpha_j = \gamma_j \beta_j\)。
- \(\gamma_j\)：\(A \to M_j\) 的效应系数（通常来自模型 \(M_j = \gamma_j A + X^\top \eta_j + \epsilon_j\)）。
- \(\beta_j\)：\(M_j \to Y\) 的效应系数（通常来自模型 \(Y = \beta_j M_j + \delta A + X^\top \zeta + \epsilon\)）。
- 原假设 \(H_{0j}: \alpha_j = 0\)。
核心假设：
- Sequential Ignorability (序列可忽略性)：给定混杂 \(X\)，\(A\) 的分配独立于潜在中介和潜在结局；给定 \(A\) 和 \(X\)，\(M\) 的取值独立于潜在结局。这是因果中介识别的标准假设。
- Model-X 假设：这是 Knockoff 方法的核心要求。作者假设 \((M, \tilde{M})\) 的联合分布已知（或可精确估计），且 \(\tilde{M}\) 与 \(Y\) 条件独立。作者在文中提到，对于神经影像数据，假设 \(M\) 服从多元正态分布，从而利用等协方差结构构造 Knockoff。
- 线性假设：虽然 Knockoff 可推广至非线性，但本文的理论和模拟主要基于线性模型假设，以便清晰地定义 \(\gamma\) 和 \(\beta\)。

主要结果¶

理论结果： * Theorem 1 (FDR Control)：在 Model-X 假设下（即 \(M\) 的分布已知），对于任意有限样本量 \(n\) 和目标 FDR 水平 \(q\)，提出的 Mediator Knockoff 算法选出的中介集合 \(\hat{S}\) 满足 \(FDR = E[|\hat{S} \cap S_0| / (|\hat{S}| \vee 1)] \le q\)。其中 \(S_0\) 是真实非中介集合。 * 直觉：这完全继承了 Barber & Candès (2015) 的性质，关键在于构造的 \(W_j\) 统计量在零假设下的符号对称性。 * Power Analysis：在一定信噪比（SNR）条件下，随着样本量 \(n\) 增加，该方法能以概率 1 识别出真实中介。

实证结果： * 模拟实验：对比了 BH 方法和 Mediation Lasso。 * 在 \(p > n\) 设定下，BH 方法因相关性导致 FDR 失控或功效极低。 * 本文方法在 FDR 上严格控制在预设水平（如 0.1），且功效随信号增强显著提升。 * 对于 \(M\) 之间的相关性结构，模拟显示该方法对中等程度的相关性稳健。 * ABCD 数据应用： * 数据：\(n \approx 6000+\) 青少年，\(p=64\) 个脑区连接指标（静息态 fMRI）。 * 暴露 \(A\)：童年不良事件。 * 结局 \(Y\)：认知评分。 * 结果：筛选出若干脑区连接作为中介。相比 BH 方法筛选出更多（或更可信）的连接，且结果符合神经科学的先验知识（如涉及情绪调节和执行功能的脑区）。

证明路线与技术技巧¶

整体路线： 1. 构造 Knockoff 变量：利用 \(M\) 的多元正态假设，构造满足 \((M, \tilde{M}) \overset{d}{=} (M, \tilde{M})_{swap(j)}\) 的影子变量。技术上是基于协方差矩阵 \(\Sigma\) 的分解。 2. 构建统计量： * 第一步回归：\(M\) 对 \(A, X\) 回归，得系数 \(\hat{\Gamma}\)。 * 第二步回归：\(Y\) 对 \(M, \tilde{M}, A, X\) 回归，得系数 \(\hat{B}\)。 * 定义中介重要性统计量：\(W_j = |\hat{\beta}_j \hat{\gamma}_j| - |\hat{\beta}_{j+p} \hat{\gamma}_{j+p}|\)（注意这里下标处理，\(\tilde{M}\) 对应的系数）。 * 技巧：作者没有直接用 Lasso 系数，而是可能采用了某种稳定的筛选或降维方法（如 Lasso fitted on merged data），确保零假设下系数的对称性。 3. 验证交换性：证明在 \(H_0\) 下，\(M_j\) 和 \(\tilde{M}_j\) 互换不改变 \((M, \tilde{M}, Y)\) 的联合分布，从而 \(W_j\) 的分布关于 0 对称。 4. 应用 Knockoff+ 滤波：选择阈值 \(T = \min\{t > 0: \frac{1 + \#\{W_j \le -t\}}{\#\{W_j \ge t\}} \le q\}\)。

关键跳跃点： * 中介效应的统计量构造：标准的 Knockoff 用于回归系数 \(\beta\)，但中介效应是乘积 \(\gamma \beta\)。如何保证乘积项的对称性？作者巧妙地将 \(\gamma\) 的估计和 \(\beta\) 的估计结合，利用了 \(M\) 和 \(\tilde{M}\) 在两个回归方程中的对称地位。这是本文最大的技术贡献——将单方程的 Knockoff 扩展到了方程组/路径分析。 * 混杂 \(X\) 的处理：作者采用了"残差化"或"条件构造"的方法，即在给定 \(X\) 的条件下构造 Knockoff，或者在回归中放入 \(X\) 消除其影响。

真实例子与应用¶

数据：ABCD 研究（Adolescent Brain Cognitive Development），美国最大的青少年大脑发育纵向研究。
应用方式：
1. 计算 64 个脑区之间的功能连接（FC）作为候选中介 \(M\)。
2. 暴露为童年不良事件评分。
3. 结局为晶体认知评分。
4. 控制变量 \(X\) 包括年龄、性别、种族等。
5. 使用本文提出的 Mediator Knockoff 算法，设定 FDR=0.1。
结果：识别出特定的 FC（如额叶与顶叶之间的连接）中介了不良事件对认知的影响。这验证了方法在高维神经影像数据中的可用性。

🔎 结论是否比证明窄¶

Model-X 假设的局限：理论证明严格依赖于"已知 \(M\) 的分布"这一假设。在 ABCD 数据应用中，作者假设 \(M\) 服从多元正态分布。然而，实际数据往往偏离正态。虽然 Model-X Knockoff 文献指出该方法对分布误设有一定的稳健性，但本文并未在理论上证明当 \(M\) 的分布估计错误时 FDR 仍能保持。这是一个潜在的 Gap——理论保证比实际应用窄。

四、开放问题¶

分布误设下的 FDR 性质：本文理论依赖于 Model-X 假设（\(M\) 的分布已知）。在 ABCD 数据中，作者假设了正态性。问题：当 \(M\) 的真实分布非正态或未知需估计时，FDR 是否仍能保持控制？这扎根于 Model-X Knockoff 的经典难题，也是本文应用部分的潜在弱点。
非线性中介路径：本文主要在线性模型框架下定义中介效应 \(\gamma \beta\)。问题：如果 \(A \to M\) 或 \(M \to Y\) 存在非线性（如交互作用、阈值效应），如何定义并构造对应的 Knockoff 统计量？这需要拓展 \(W_j\) 的构造方式。
中介变量间的网络结构：作者假设了 Sequential Ignorability，即中介之间可能存在因果链，但在构造 Knockoff 时主要处理的是相关性。问题：如果中介变量之间存在因果网络（\(M_j \to M_k\)），简单的乘积法 \(\gamma \beta\) 可能无法捕捉总的中介效应，如何在高维网络中介结构下做 FDR 控制？
与 DML 的比较：问题：Double Machine Learning (DML) 是目前高维因果推断的主流工具，能提供置信区间。Knockoff 提供的是选择集合。扎根点：本文未对比 DML 方法。一个有价值的研究点是对比两者在高维中介设定下的功效与计算效率，或探索两者的结合（如用 DML 估计 nuisance parameter，用 Knockoff 做选择）。

Maintained by 陈星宇 · Homepage · Source on GitHub