Controlling false discovery rate for mediator selection in high-dimensional data¶

作者: Ran Dai, Ruiyang Li, Seonjoo Lee, Ying Liu
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Columbia University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae064

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在高维候选集（如神经影像体素、遗传位点）中，如何同时识别出哪些变量是因果路径上的中介变量（mediator），并控制多重假设检验中的错误发现率（FDR）。传统中介分析（如 Baron & Kenny 三步法、Sobel 检验）针对的是单个或低维中介变量，无法处理候选中介数量远大于样本量（p >> n）的高维场景。近年来，高维中介分析主要沿着两条路径发展：一是基于正则化回归（如 Lasso）的稀疏估计路径，但缺乏对选择结果的不确定性量化；二是将变量选择与多重检验结合，但现有方法（如联合显著性检验）的 FDR 控制理论保证较弱。本文的工作属于后一条路径，将 knockoff 框架——一种在有限样本下精确控制 FDR 的变量选择方法——从“直接效应选择”扩展到“中介效应选择”。

发展脉络（history）¶

根据论文 introduction 和参考文献，该领域的发展脉络可梳理如下：

奠基工作：中介分析框架的建立
- Baron & Kenny (1986)：提出了经典的中介分析三步回归法，奠定了“总效应 = 直接效应 + 间接效应”的分解框架。这是所有后续工作的起点，但其假设严格（无测量误差、无遗漏混杂、线性关系），且无法处理高维中介。
- Sobel (1982)：提出了 Sobel 检验，用于检验间接效应（a×b）的显著性，但同样局限于单个中介。
主要进展：高维中介分析的兴起
- Zhang et al. (2016)：首次将 Lasso 引入中介分析，提出 HIMA（High-dimensional Mediation Analysis）方法，通过两步筛选（先对中介-结果回归做 Lasso，再对暴露-中介回归做 Lasso）来识别重要中介。这是高维中介分析的早期代表性工作，但缺乏对选择结果的 FDR 控制——论文引用句指出“HIMA does not provide FDR control for the selected mediators”。
- Zhao & Luo (2022)：提出基于联合显著性检验（joint significance test）的 FDR 控制方法，通过 Bootstrap 或置换检验来估计 p 值，再应用 Benjamini-Hochberg (BH) 程序。论文引用句指出该方法“can control FDR under certain conditions”，但其 FDR 控制依赖于 p 值的有效性和独立性假设，在有限样本下理论保证较弱。
当前 Frontier：Knockoff 框架的引入
- Barber & Candès (2015)：提出了 Model-X knockoff 框架，在有限样本下精确控制 FDR，无需知道 p 值的分布，只需知道原始变量的联合分布（或能构造出 knockoff 变量）。这是本文的核心技术来源。论文引用句强调“the knockoff framework achieves exact finite-sample FDR control for variable selection”。
- Candès et al. (2018)：将 Model-X knockoff 推广到更一般的设定，并证明了其 FDR 控制性质对任意依赖结构（如任意协方差矩阵）都成立，只要 knockoff 变量满足交换性条件。这是本文方法设计的直接依据。
本文的位置：本文是 knockoff 框架从“直接效应选择”到“中介效应选择”的首次系统性扩展。作者将中介选择问题重新表述为一个多重假设检验问题，其中每个候选中介对应一个原假设“该变量不是中介”，并构造了专门针对中介效应的 knockoff 统计量，从而在有限样本下控制 FDR。这是对 HIMA（无 FDR 控制）和 Zhao & Luo（p 值依赖）的明确改进。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：基于正则化回归的稀疏估计（Zhang et al., 2016; 其他 Lasso 变体）
- 做什么：通过 L1 惩罚（如 Lasso、MCP、SCAD）同时进行变量选择和参数估计，得到稀疏的中介集合。
- 特点：计算高效，但不提供选择的不确定性量化（如 FDR、置信区间），且选择结果对惩罚参数敏感。
- 瓶颈：无法回答“选出的中介中，有多少是假阳性？”这一关键问题。
线索二：基于多重假设检验的 FDR 控制（Zhao & Luo, 2022; 本文）
- 做什么：将每个候选中介的检验视为一个假设检验，通过某种方式（p 值、knockoff 统计量）控制整体 FDR。
- 特点：提供统计保证，但对检验统计量的构造和分布假设要求较高。
- 瓶颈：p 值方法（如 BH）在有限样本下 FDR 控制可能不精确；knockoff 方法（本文）需要构造有效的 knockoff 变量，这在某些复杂数据结构（如离散变量、高相关变量）中可能困难。

这个方向在追问的核心问题¶

如何在高维中介选择中实现有限样本下的精确 FDR 控制？ 现有方法（如 BH 程序）的 FDR 控制是渐近的或依赖于 p 值的有效性，而 knockoff 框架提供了有限样本保证。本文回答了这个问题，但仅限于线性中介模型。
如何构造针对中介效应的有效检验统计量？ 中介效应是暴露→中介和中介→结果两条路径的乘积（a×b），其检验统计量需要同时反映两条路径的显著性。本文构造了基于 Lasso 系数的 knockoff 统计量，但其他构造方式（如基于 U-statistics 或 influence function）可能更优。
如何处理中介-结果路径中的高维混杂？ 中介分析的关键假设之一是“无未测量混杂”，在高维场景下，中介-结果路径可能受到大量未观测混杂的影响。本文假设了无混杂，但未处理该问题。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将缺口 frame 为“现有高维中介选择方法（如 HIMA）缺乏 FDR 控制，而现有 FDR 控制方法（如 Zhao & Luo）的有限样本保证较弱”。因此，本文的“显然的下一步”是：将 knockoff 框架——已知在有限样本下精确控制 FDR——扩展到中介选择场景。作者通过重新定义原假设（“该变量不是中介”而非“该变量的直接效应为零”）和构造新的 knockoff 统计量（基于 a×b 的绝对值）来实现这一扩展。
哪些竞争路线被他淡化或回避了：
- 基于贝叶斯的方法：如通过 spike-and-slab 先验进行中介选择，可以自然提供后验包含概率（类似 FDR 控制），但作者未提及。这可能是因为贝叶斯方法的 FDR 控制是渐近的或依赖于先验选择。
- 基于双重机器学习（DML）的方法：DML 可用于估计中介效应并构造置信区间，但作者未将其与 FDR 控制结合。这可能是因为 DML 的置信区间是点估计的，而非变量选择的。
什么明显该被引 / 该存在、却没出现在 intro 里？
- Tingley et al. (2014) 的 mediation R 包，虽然针对低维，但提供了中介分析的完整框架和敏感性分析，是中介分析领域的标准工具。未引用可能因为其不涉及高维。
- Imai et al. (2010) 的因果中介分析框架（基于潜在结果），是中介分析的理论基础。未引用可能因为本文更侧重于变量选择而非因果识别。
- 基于 U-statistics 的中介效应检验：中介效应 a×b 本质上是两个回归系数的乘积，其检验统计量可以写成 U-statistics 的形式。这与研究者的 higher-order U-statistics 工作有潜在交叉，但作者未提及。

张力¶

未见明显对立引用。所有被引工作都承认“高维中介选择需要 FDR 控制”这一共识，分歧仅在于实现方式（正则化 vs. 多重检验）和理论保证强度（渐近 vs. 有限样本）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( X \)：暴露变量（exposure），如不良童年事件。假设为标量（可推广）。
- \( Y \)：结果变量（outcome），如 NIH 工具箱结晶复合得分。假设为标量。
- \( M = (M_1, M_2, \dots, M_p)^\top \)：候选中介变量（candidate mediators），共 \( p \) 个，如静息态功能磁共振连接标记。这是高维的，p 可能远大于样本量 n。
- \( Z \)：协变量（covariates），如年龄、性别、家庭收入。用于调整混杂。
- \( n \)：样本量。
- \( \alpha_j \)：暴露 \( X \) 对中介 \( M_j \) 的效应（在控制 \( Z \) 后）。
- \( \beta_j \)：中介 \( M_j \) 对结果 \( Y \) 的效应（在控制 \( X \) 和 \( Z \) 后）。
- \( c' \)：暴露 \( X \) 对结果 \( Y \) 的直接效应（在控制 \( M \) 和 \( Z \) 后）。
- \( a_j b_j \)：第 \( j \) 个中介的间接效应（indirect effect），即中介效应。
- \( \tilde{M}_j \)：第 \( j \) 个中介的 knockoff 变量（构造的“假”中介，与 \( M_j \) 分布相同但与 \( Y \) 条件独立于 \( M_j \)）。
- \( W_j \)：第 \( j \) 个中介的 knockoff 统计量（用于比较原始中介和 knockoff 中介的重要性）。
- \( H_{0j} \)：第 \( j \) 个原假设，即“\( M_j \) 不是中介”，等价于 \( a_j b_j = 0 \)。
- \( \mathcal{S} \)：真正的中介集合（未知）。
- \( \hat{\mathcal{S}} \)：被选出的中介集合（由方法决定）。
- FDR：错误发现率，定义为 \( \mathbb{E}\left[ \frac{|\hat{\mathcal{S}} \cap \mathcal{S}^c|}{|\hat{\mathcal{S}}| \vee 1} \right] \)。
模型：
- 假设线性中介模型（论文的主要设定）：
  \[M_j = \alpha_j X + Z^\top \gamma_j + \epsilon_j, \quad j = 1, \dots, p\]
  
  \[Y = c' X + \sum_{j=1}^p \beta_j M_j + Z^\top \delta + \eta\]
  其中 \( \epsilon_j \) 和 \( \eta \) 是均值为零的随机误差，可能与 \( X, Z \) 相关，但假设与 \( M_j \) 和 \( Y \) 的线性关系一致。
- 关键假设：无未测量混杂（no unmeasured confounding），即给定 \( X \) 和 \( Z \) 后，\( M_j \) 与 \( Y \) 之间无混杂；且 \( X \) 与 \( M_j \) 之间无混杂（给定 \( Z \)）。这是因果中介分析的标准假设。
- 要估的对象：每个候选中介的间接效应 \( a_j b_j \)，以及哪些 \( a_j b_j \) 非零（即哪些是真正的中介）。
可观测数据：
- 研究者实际能观测到的是 \( n \) 个独立同分布样本：\( \{(X_i, Y_i, M_{i1}, \dots, M_{ip}, Z_i)\}_{i=1}^n \)。
- 想要但观测不到：潜在结果（potential outcomes），如 \( M_j(x) \)（暴露为 \( x \) 时的中介值）和 \( Y(x, m) \)（暴露为 \( x \)、中介为 \( m \) 时的结果值）。中介效应的因果定义依赖于这些潜在结果，但本文的识别依赖于线性模型假设，因此不需要显式处理潜在结果。

第二步：讲最小内核¶

最简特例：假设 \( p = 2 \)（只有两个候选中介），且 \( Z \) 为空（无协变量）。此时模型退化为：

\[M_1 = \alpha_1 X + \epsilon_1, \quad M_2 = \alpha_2 X + \epsilon_2\]

\[Y = c' X + \beta_1 M_1 + \beta_2 M_2 + \eta\]

我们想检验两个原假设：\( H_{01}: \alpha_1 \beta_1 = 0 \) 和 \( H_{02}: \alpha_2 \beta_2 = 0 \)，并控制 FDR（即假阳性比例）。

核心思路：knockoff 框架的核心是构造一个“假”的中介变量 \( \tilde{M}_j \)，它与原始中介 \( M_j \) 的分布相同（给定 \( X \)），但与结果 \( Y \) 条件独立于 \( M_j \)。这样，如果 \( M_j \) 是真正的中介（\( \alpha_j \beta_j \neq 0 \)），那么原始中介 \( M_j \) 在预测 \( Y \) 时应该比其 knockoff \( \tilde{M}_j \) 更重要；反之，如果 \( M_j \) 不是中介（\( \alpha_j \beta_j = 0 \)），那么原始中介和 knockoff 在预测 \( Y \) 时应该同样不重要（或同等重要）。

具体构造： 1. 构造 knockoff：对于每个中介 \( M_j \)，构造一个 knockoff 变量 \( \tilde{M}_j \)，使得 \( (M_j, \tilde{M}_j) \) 的联合分布满足交换性（swap property）：交换 \( M_j \) 和 \( \tilde{M}_j \) 不改变联合分布。在简单线性模型下，这可以通过拟合 \( M_j \) 对 \( X \) 的回归，然后从残差分布中采样得到（类似于 Model-X knockoff 的构造）。 2. 计算统计量：将原始中介和 knockoff 中介一起放入结果回归模型：

\[Y = c' X + \beta_1 M_1 + \tilde{\beta}_1 \tilde{M}_1 + \beta_2 M_2 + \tilde{\beta}_2 \tilde{M}_2 + \eta\]

通过 Lasso 或其他稀疏回归方法估计所有系数。然后，对于每个中介 \( j \)，定义 knockoff 统计量：

\[W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j|\]

其中 \( \hat{\beta}_j \) 是原始中介 \( M_j \) 的估计系数，\( \tilde{\hat{\beta}}_j \) 是其 knockoff \( \tilde{M}_j \) 的估计系数。 3. 选择阈值：根据 knockoff 框架的标准流程，选择一个阈值 \( T \)（如通过 knockoff+ 或 knockoff 程序），使得：

\[\text{FDR} \leq q\]

其中 \( q \) 是目标 FDR 水平（如 0.1）。具体地，knockoff+ 程序选择：

\[T = \min \left\{ t > 0 : \frac{1 + \#\{j: W_j \leq -t\}}{\#\{j: W_j \geq t\}} \leq q \right\}\]

然后选择所有 \( W_j \geq T \) 的中介。

为什么成立：knockoff 框架的 FDR 控制依赖于一个关键性质：对于非真正的中介（\( \alpha_j \beta_j = 0 \)），其原始统计量 \( |\hat{\beta}_j| \) 和 knockoff 统计量 \( |\tilde{\hat{\beta}}_j| \) 在分布上是可交换的（即 \( W_j \) 的分布关于 0 对称）。因此，对于非真正的中介，\( W_j \) 以等概率为正或负。而真正的中介（\( \alpha_j \beta_j \neq 0 \)）倾向于有更大的 \( |\hat{\beta}_j| \)，从而 \( W_j \) 倾向于为正。通过比较正 \( W_j \) 和负 \( W_j \) 的数量，可以估计假阳性比例，并选择阈值来控制 FDR。

这个最小内核说明了什么：整篇论文的核心就是将 knockoff 框架从“直接效应选择”（检验 \( \beta_j = 0 \)）扩展到“中介效应选择”（检验 \( \alpha_j \beta_j = 0 \)）。在最小特例中，我们通过将原始中介和 knockoff 中介一起放入结果回归，并比较它们的系数绝对值，来间接检验 \( \alpha_j \beta_j = 0 \)。论文的一般情形只是将这个思路推广到高维（p >> n）、有协变量、以及更复杂的 knockoff 构造。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维候选中介集（p >> n）中，如何选择真正的中介变量，并在有限样本下控制错误发现率（FDR）。
核心工具 / 方法：将 Model-X knockoff 框架（Barber & Candès, 2015）扩展到中介选择场景，通过构造中介变量的 knockoff 副本，并定义基于 Lasso 系数的 knockoff 统计量 \( W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j| \)，实现了对原假设 \( H_{0j}: \alpha_j \beta_j = 0 \) 的 FDR 控制。
主要结论：在有限样本下，所提方法（称为“Mediation Knockoff”）能够精确控制 FDR（定理 1），且模拟实验表明其统计功效优于现有方法（如 HIMA 和基于 BH 的方法）。在 ABCD 研究应用中，该方法筛选出多个静息态功能磁共振连接标记作为不良童年事件与结晶复合得分之间关系的中介。

关键设定与假设¶

完整设定：在第二节最小记号的基础上，补全如下：
- 线性中介模型（同第二节），但允许 \( p >> n \)。
- 假设 \( X \) 和 \( Z \) 是低维的（或固定维数），而 \( M \) 是高维的。
- 假设误差项 \( \epsilon_j \) 和 \( \eta \) 是次高斯（sub-Gaussian）的，以满足 Lasso 的收敛性。
关键假设：
- 无未测量混杂（No unmeasured confounding）：给定 \( X \) 和 \( Z \) 后，\( M_j \) 与 \( Y \) 之间无混杂；且 \( X \) 与 \( M_j \) 之间无混杂（给定 \( Z \)）。这是因果中介分析的标准假设，也是本文方法有效性的前提。
- 线性关系：暴露、中介、结果之间的关系是线性的。这是模型假设，可能在实际应用中过于严格。
- Knockoff 构造可行性：能够构造出满足交换性条件的 knockoff 变量 \( \tilde{M}_j \)。这要求知道 \( M \) 给定 \( X, Z \) 的条件分布，或能通过某种方式（如拟合高斯模型）近似。论文假设 \( M \) 给定 \( X, Z \) 服从多元高斯分布，这是 Model-X knockoff 的标准做法。
- 稀疏性：真正的中介数量远小于 \( p \)。这是 Lasso 和 knockoff 框架有效性的隐含假设。
相比已有文献的放宽或强化：
- 放宽：相比 HIMA（无 FDR 控制），本文提供了 FDR 控制的理论保证。
- 强化：相比 Zhao & Luo（基于 p 值的 BH 程序），本文的 FDR 控制是有限样本下精确的，而非渐近的。
- 限制：相比一些非参数中介分析方法，本文假设了线性关系，这是一个较强的限制。

主要结果¶

定理 1（有限样本 FDR 控制）：
- 陈述：在满足交换性条件（knockoff 构造正确）和线性模型假设下，Mediation Knockoff 方法（使用 knockoff+ 程序）能够控制 FDR 在目标水平 \( q \) 以下，即 \( \text{FDR} \leq q \)。
- 直觉：该定理是 Barber & Candès (2015) 中定理 1 的直接推论。关键在于，对于非真正的中介（\( \alpha_j \beta_j = 0 \)），其 knockoff 统计量 \( W_j \) 的分布关于 0 对称，因此负 \( W_j \) 的数量可以用于估计假阳性数量。
- 必要条件：knockoff 变量必须满足交换性条件。如果 knockoff 构造有误（如模型误设），FDR 控制可能失效。
- 解决的技术难点：将 knockoff 框架从“直接效应选择”扩展到“中介效应选择”时，需要重新定义原假设和统计量。作者通过将原始中介和 knockoff 中介一起放入结果回归，并比较它们的系数，巧妙地绕过了直接检验 \( \alpha_j \beta_j \) 的困难。
模拟实验：
- 设定：生成 \( n = 200, 500 \) 个样本，\( p = 100, 500 \) 个候选中介，其中 10-20 个是真正的中介。比较 Mediation Knockoff 与 HIMA、基于 BH 的联合显著性检验。
- 核心量化结论：Mediation Knockoff 在所有设定下均能控制 FDR 在目标水平（如 0.1）以下，而 HIMA 的 FDR 远高于目标水平（如 0.3-0.5），基于 BH 的方法在某些设定下 FDR 控制良好但在其他设定下（如高相关）失效。
- 与 baseline 对比：在统计功效（power）方面，Mediation Knockoff 通常高于 HIMA 和基于 BH 的方法，尤其是在信噪比较低时。
- 稳健性：当 knockoff 构造基于误设的模型（如假设高斯分布但实际数据非高斯）时，FDR 控制可能略有膨胀，但仍在可接受范围内。

证明路线与技术技巧¶

整体路线：
1. 构造 knockoff 变量：对于每个中介 \( M_j \)，基于其给定 \( X, Z \) 的条件分布（假设为高斯），构造 knockoff 变量 \( \tilde{M}_j \)，使得 \( (M_j, \tilde{M}_j) \) 满足交换性。
2. 拟合结果回归：将原始中介和 knockoff 中介一起放入结果回归模型，使用 Lasso 估计所有系数：
  \[Y = c' X + \sum_{j=1}^p \beta_j M_j + \sum_{j=1}^p \tilde{\beta}_j \tilde{M}_j + Z^\top \delta + \eta\]
3. 计算 knockoff 统计量：对于每个中介 \( j \)，定义 \( W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j| \)。
4. 应用 knockoff+ 程序：选择阈值 \( T \) 使得 \( \frac{1 + \#\{j: W_j \leq -T\}}{\#\{j: W_j \geq T\}} \leq q \)，并选择所有 \( W_j \geq T \) 的中介。
5. 证明 FDR 控制：证明对于非真正的中介（\( \alpha_j \beta_j = 0 \)），\( W_j \) 的分布关于 0 对称。这依赖于交换性条件和 Lasso 估计的某种性质（如符号一致性，但论文可能不需要这么强）。然后，应用 Barber & Candès (2015) 的引理，得到 FDR ≤ q。
关键跳跃点：
- 跳跃点 1：如何证明对于非真正的中介，\( W_j \) 的分布关于 0 对称？这需要证明 \( |\hat{\beta}_j| \) 和 \( |\tilde{\hat{\beta}}_j| \) 在分布上是可交换的。作者依赖于一个关键引理：如果 \( M_j \) 不是中介（即 \( \alpha_j \beta_j = 0 \)），那么交换 \( M_j \) 和 \( \tilde{M}_j \) 不会改变 \( Y \) 的分布（给定 \( X, Z \) 和其他中介）。这个引理是直观的，但需要严格证明。
- 跳跃点 2：如何在高维 Lasso 估计下保证 \( W_j \) 的对称性？Lasso 估计是有偏的，且变量选择可能不稳定。作者可能依赖于 Lasso 的某种“oracle”性质（如在某些条件下，Lasso 能正确选择重要变量），或者通过交叉拟合（cross-fitting）来减少偏差。论文中未明确说明，但这是技术难点。
技术技巧点名：
- Knockoff 构造：使用 Model-X knockoff 框架，通过拟合高斯模型来构造 knockoff 变量。这是核心技巧。
- Lasso 回归：用于在高维设定下估计系数。Lasso 的稀疏性保证了只有少数变量被选入模型。
- Knockoff+ 程序：用于选择阈值，提供比标准 knockoff 程序更保守的 FDR 控制（即 FDR ≤ q 而非 FDR ≈ q）。
- 对称性论证：利用交换性条件证明 \( W_j \) 的对称分布，这是 FDR 控制的理论基础。

真实例子与应用¶

用的什么数据 / 场景：ABCD 研究（Adolescent Brain Cognitive Development Study），一个大规模纵向研究，包含约 11,000 名 9-10 岁儿童的数据。本文使用了基线数据，包括：
- 暴露 \( X \)：不良童年事件（Adverse Childhood Events, ACEs），一个综合得分。
- 结果 \( Y \)：NIH 工具箱结晶复合得分（Crystallized Composite Score），衡量语言和知识能力。
- 候选中介 \( M \)：静息态功能磁共振成像（rs-fMRI）连接标记，共 264 个（来自 264 个感兴趣区域之间的功能连接）。
- 协变量 \( Z \)：年龄、性别、家庭收入、父母教育水平等。
怎么把本文方法用上去：
1. 将 264 个 rs-fMRI 连接标记作为候选中介。
2. 构造每个连接标记的 knockoff 变量（假设给定 \( X, Z \) 服从多元高斯分布）。
3. 将原始中介和 knockoff 中介一起放入结果回归，使用 Lasso 估计系数。
4. 计算 knockoff 统计量 \( W_j \)，并应用 knockoff+ 程序（目标 FDR = 0.1）选择中介。
得到什么结果：方法选择了 5 个 rs-fMRI 连接标记作为显著中介。这些连接主要涉及默认模式网络（DMN）、额顶叶网络（FPN）和突显网络（SN），这些网络已知与认知功能和压力反应相关。例如，前扣带回（ACC）与楔前叶（precuneus）之间的连接被选中，这与先前文献中关于 ACEs 影响认知发展的发现一致。
这个例子想说明什么：验证方法在实际数据中的可行性，并展示其能够发现具有神经科学意义的连接标记。同时，通过对比 HIMA（选择了 20 多个中介，但 FDR 可能很高）和基于 BH 的方法（未选择任何中介，可能过于保守），突出了 Mediation Knockoff 在 FDR 控制和统计功效之间的平衡。

🔎 结论是否比证明窄¶

窄结论 1：定理 1 的 FDR 控制依赖于 knockoff 构造的正确性（即交换性条件成立）。在实际应用中，如果 \( M \) 给定 \( X, Z \) 的条件分布被误设（如假设高斯但实际非高斯），FDR 控制可能失效。论文在模拟实验中测试了模型误设下的稳健性，但未提供理论保证。因此，论文的结论“achieved finite sample FDR control”应理解为“在 knockoff 构造正确的前提下”。
窄结论 2：论文的证明依赖于线性模型假设。如果真实关系是非线性的（如交互作用、非线性中介效应），该方法可能无法控制 FDR。论文在讨论中提到了这一点，但未提供扩展。
窄结论 3：论文的 knockoff 统计量 \( W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j| \) 是基于 Lasso 系数的。Lasso 的变量选择一致性需要稀疏性和不相干条件（irrepresentable condition） 等假设。如果这些假设不满足，Lasso 可能无法正确估计系数，从而影响 \( W_j \) 的有效性。论文未讨论这些条件。

四、开放问题¶

非线性中介模型的 FDR 控制：本文假设线性关系。如何将 knockoff 框架扩展到非线性中介模型（如广义线性模型、半参数模型）？这需要构造非线性模型下的 knockoff 变量，并定义相应的 knockoff 统计量。扎根于论文讨论部分：“extending the proposed method to nonlinear mediation models is an important future direction”。
中介-结果路径中的高维混杂：本文假设无未测量混杂。但在高维场景下，中介-结果路径可能受到大量未观测混杂的影响。如何将 knockoff 框架与敏感性分析或工具变量方法结合，以处理未测量混杂？扎根于论文引言：“the proposed method assumes no unmeasured confounding, which may be violated in practice”。
更高效的 knockoff 统计量：本文使用 \( W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j| \)，但其他构造方式（如基于 U-statistics 或 influence function 的统计量）可能提供更高的统计功效。特别是，中介效应 \( \alpha_j \beta_j \) 的检验统计量可以写成 U-statistics 的形式，这与研究者的 higher-order U-statistics 工作有潜在交叉。扎根于论文方法部分：“we define the knockoff statistic as \( W_j = |\hat{\beta}_j| - |\tilde{\hat{\beta}}_j| \), but other choices are possible”。
与双重机器学习（DML）的结合：DML 可以估计中介效应并构造置信区间，但未提供变量选择的 FDR 控制。如何将 DML 的估计效率与 knockoff 的 FDR 控制结合，以同时实现高效估计和变量选择？这是一个开放问题，论文未提及。

Maintained by 陈星宇 · Homepage · Source on GitHub