Adaptive bootstrap tests for composite null hypotheses in the mediation pathway analysis¶

作者: Yinqiu He, Peter X K Song, Gongjun Xu
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：中介分析旨在评估暴露变量如何通过中间变量（中介物）影响结局变量。其统计推断的根本困难在于：零假设（无中介效应）是一个复合零假设——只要“暴露对中介无影响”或“中介对结局无影响”二者之一成立，中介效应（通常参数化为两者的乘积）即为零。这导致参数空间在零假设下存在“边界”（singular point），使得标准渐近理论失效，传统检验严重保守、功效低下。当前该方向的成熟度表现为：识别理论与估计理论已相对完备（反事实框架、半参数理论），但针对复合零假设的检验理论仍存在明显缺口，尤其在高维/全基因组扫描场景下，保守性导致的大量假阴性已成为实证研究的核心瓶颈。

发展脉络： - 奠基工作（识别与参数框架）：Imai, Keele & Yamamoto (2010) 证明了在序列可忽略性假设下平均因果中介效应（ACME）的非参数识别，并提出敏感性分析；VanderWeele & Vansteelandt (2013, 2014) 将反事实框架拓展至非线性、暴露-中介交互及多中介设定。作者在 intro 中引用这些工作以确立：中介效应的因果定义与识别已解决，推断的焦点应转向检验。 - 主要进展（复合零假设的困难被显式指出）：Barfield et al. (2017) 与 Huang (2019) 在全基因组中介分析中明确指出：在“暴露-中介无关联且中介-结局无关联”的奇点零假设下，Sobel 检验的零分布非标准正态，联合显著性检验的零分布非均匀，两者均过于保守。作者原话判断：“Most existing mediation tests are overly conservative and thus underpowered... the underlying null hypothesis is composite”。 - 当前 frontier（高维多重检验与补救尝试）：Dai et al. (2020) 与 Sampson et al. (2018) 试图通过估计混合零分布中的成分比例来校正 FWER/FDR；Liu et al. (2020) 提出 DACT 利用全基因组数据估计复合零的成分比例以构造更功效的检验；Djordjilović et al. (2019) 提出基于交集-并集原理的全局检验。作者对这些路线的判断隐含在方法选择中：这些方法依赖对零假设成分比例的估计或仅适用于高维多重校正，未在单假设/低维层面根本解决复合零假设下渐近分布的非标准性。 - 本文的位置：引入 McKeague & Qian (2015) 的自适应重抽样（ART）思想——该文在边际筛选中处理了参数在边界上的非标准渐近问题——将其改造为中介路径分析中复合零假设的自适应 bootstrap 框架，直接在单假设层面校正第一类错误，无需估计零成分比例。

子线索聚类： 1. 因果识别与多中介设定：Imai et al. (2010), VanderWeele & Vansteelandt (2014), Daniel et al. (2014), Loh et al. (2019)。这一簇在定义因果中介效应（自然间接效应 vs 干预间接效应）、处理多中介间的因果依赖与暴露诱导的中介-结局混杂。 2. 复合零假设的分布理论：Drton & Xiao (2013) 从一般 Wald 检验角度证明奇点假设下检验统计量收敛到正态随机向量的有理函数，解释了保守性；Barfield et al. (2017), Huang (2019) 将此现象具体化到中介的 Sobel 与联合显著性检验。 3. 高维多重检验补救：Dai et al. (2020), Liu et al. (2020), Djordjilović et al. (2019), Sampson et al. (2018)。这一簇不改变单假设检验的保守性，而是通过混合 p 值分布估计或全局检验在多重检验层面提升功效。

核心追问与瓶颈： 1. 如何在复合零假设下构造渐近第一类错误精确控制的检验？（当前瓶颈：奇点导致渐近分布非标准，传统 bootstrap 失效。） 2. 如何在不依赖高维数据结构（即单假设/低维场景）下提升检验功效？（当前瓶颈：现有补救多依赖全基因组数据的比例估计，低维下不可用。） 3. 乘积系数检验与联合显著性检验的保守性是否可以被统一框架同时解决？（当前瓶颈：两者零分布不同，补救方案往往针对其一。）

⚠️ 作者的 framing： - 作者将缺口 frame 为：“现有检验在复合零假设下过于保守，缺乏在单假设层面自适应控制第一类错误的框架”，从而让引入 ART 思想成为“显然的下一步”。 - 被淡化或回避的竞争路线：基于似然比或 score 检验的奇点理论（如 Drton & Xiao 2013 的 Wald 奇点理论虽被引，但作者未尝试构造 LR/score 检验的 bootstrap 校正，而是直接走 ART 路线）；基于 debiased/double robust 估计的半参数检验（intro 中未出现 Robins, Tsiatis, van der Laan 等半参数效率路线的引用，可能因为本文聚焦线性结构方程模型设定）。 - 明显该被引却未出现的：针对乘积参数的确切分布工作（如乘积正态的 Meijer-Gk 分布，或 Aroian 的近似），以及基于 higher-order influence functions 的中介效应 debiased 估计与检验（如 Benkeser et al. 2022 近期在半参数中介推断的工作）。这值得研究者去查：是这些路线与本文设定不兼容，还是作者有意选择参数模型设定而回避半参数路线？

张力：未见明显对立引用。各被引工作在“复合零假设导致保守”这一事实判断上一致，分歧仅在补救路线（估计成分比例 vs 全局检验 vs 自适应重抽样）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\alpha\)：暴露 \(X\) 对中介 \(M\) 的效应系数（\(X \to M\) 路径）。
\(\beta\)：中介 \(M\) 对结局 \(Y\) 的效应系数（\(M \to Y\) 路径，控制 \(X\) 后）。
\(\theta = \alpha \beta\)：中介效应，即要检验的目标参数。
零假设：
\(H_0: \theta = 0\)，这是一个复合零假设，参数空间为 \(\{(\alpha, \beta) : \alpha \beta = 0\} = \{\alpha = 0\} \cup \{\beta = 0\}\)。边界点 \((\alpha, \beta) = (0, 0)\) 是奇点。
随机变量 / 样本：
\((X_i, M_i, Y_i)\)，\(i = 1, \ldots, n\)，为 i.i.d. 可观测样本。
维数 / 样本量等指标：
\(n\)：样本量；暴露、中介、结局各为 1 维（最简设定）。
模型（线性结构方程模型 LSEM）：
\(M_i = \alpha X_i + \epsilon_{M,i}\)，\(\epsilon_{M} \sim N(0, \sigma_M^2)\)。
\(Y_i = \beta M_i + \gamma X_i + \epsilon_{Y,i}\)，\(\epsilon_{Y} \sim N(0, \sigma_Y^2)\)，\((\epsilon_M, \epsilon_Y)\) 独立或仅要求均值为零、方差有限（本文实际允许更一般的误差分布，但最简内核在高斯独立下最清晰）。
\(\gamma\)：暴露对结局的直接效应（控制中介后）。
可观测数据：
研究者实际观测到的是 \((X_i, M_i, Y_i)\) 的 \(n\) 个独立三元组。\(\alpha, \beta, \gamma, \sigma_M^2, \sigma_Y^2\) 均不可直接观测，需从样本估计。潜在反事实（如 \(M_i(0), Y_i(0, M_i(0))\)）不可观测，靠线性模型+无混杂假设识别。

第二步：最小内核——为什么传统检验保守，自适应 bootstrap 如何破

最简特例：\(d=1\)（单暴露、单中介、单结局），高斯误差，无协变量。要检验 \(H_0: \alpha \beta = 0\)。

传统检验的保守性根源：
乘积系数检验：统计量 \(T_{prod} = \hat{\alpha} \hat{\beta} / \sqrt{\hat{\alpha}^2 \hat{\sigma}_\beta^2 + \hat{\beta}^2 \hat{\sigma}_\alpha^2}\)（Sobel 检验）。在奇点 \((\alpha, \beta) = (0, 0)\) 处，分母中 \(\hat{\alpha}^2 \hat{\sigma}_\beta^2 + \hat{\beta}^2 \hat{\sigma}_\alpha^2\) 的渐近行为退化（两个估计量均向零收缩），导致 \(T_{prod}\) 的渐近分布不再是标准正态，而是正态随机向量有理函数的混合分布（Drton & Xiao 2013），其尾部比标准正态薄，用标准正态临界值导致第一类错误低于名义水平（保守）。
联合显著性检验：拒绝域为 \(\{|\hat{\alpha}/\hat{\sigma}_\alpha| > z_{\alpha/2}\} \cap \{|\hat{\beta}/\hat{\sigma}_\beta| > z_{\alpha/2}\}\)。在 \(\alpha = 0, \beta \neq 0\)（或反之）的子零假设下，\(|\hat{\alpha}/\hat{\sigma}_\alpha|\) 的分布为标准正态，拒绝概率为 \(\alpha\)；但在奇点 \((0, 0)\) 处，拒绝域是两个独立标准正态同时超过临界值的交集，拒绝概率为 \(\alpha^2\)，远低于名义水平 \(\alpha\)。整体第一类错误受限于最保守的子零假设，严重保守。
自适应 bootstrap 的核心思路（最小内核）：
困难卡在哪：在奇点 \((\alpha, \beta) = (0, 0)\) 处，检验统计量的渐近分布发生突变（非标准），传统 percentile bootstrap 无法捕捉这种突变，因为 bootstrap 样本的经验分布无法复现参数在边界上的非标准渐近。
怎么破：自适应阈值。不再用固定的名义临界值 \(z_{\alpha/2}\)，而是根据数据判断当前零假设是否靠近奇点。具体地：
1. 构造一个筛选条件（screening condition），例如判断 \(\hat{\alpha}\) 和 \(\hat{\beta}\) 是否都足够小（靠近奇点）。
2. 如果筛选条件不满足（远离奇点，如 \(\alpha = 0, \beta \neq 0\)），则参数在边界的一侧，渐近分布恢复标准形态，此时使用中心化 percentile bootstrap（传统 bootstrap 有效）。
3. 如果筛选条件满足（靠近奇点 \((0,0)\)），则渐近分布非标准，此时自适应地调整拒绝域的阈值，使得在非标准渐近下仍能精确控制第一类错误为 \(\alpha\)（而非 \(\alpha^2\)）。
一句话内核：用数据驱动的筛选条件识别参数是否在奇点，在奇点处自适应放宽拒绝阈值，在非奇点处保持传统阈值，从而在复合零假设的整个参数空间上统一实现第一类错误精确控制。

三、这篇论文做了什么¶

三句话： ①研究了中介路径分析中复合零假设 \(H_0: \alpha \beta = 0\) 的检验问题，指出传统乘积系数检验与联合显著性检验因奇点导致严重保守。 ②核心工具是自适应 bootstrap 框架，借鉴 McKeague & Qian (2015) 的 ART 思想，通过数据驱动的筛选条件识别奇点，自适应调整拒绝阈值。 ③主要结论：所提自适应乘积系数检验与自适应联合显著性检验在复合零假设下实现了渐近第一类错误精确控制，且功效显著高于传统检验，数值实验与 ELEMENT 队列数据验证了优势。

关键设定与假设：在第二节最小记号基础上补全： - 设定拓展：允许暴露 \(X\)、中介 \(M\)、结局 \(Y\) 为连续或离散；允许有协变量 \(C\)（控制混杂）；允许多个中介（\(M\) 为向量），此时中介效应为 \(\alpha^\top \beta\)（路径系数向量乘积）。模型仍为线性结构方程（LSEM），但误差分布不要求高斯，仅要求有限方差与适当矩条件。 - 假设 A1（线性与可忽略性）：\(M = \alpha X + f_1(C) + \epsilon_M\)，\(Y = \beta^\top M + \gamma X + f_2(C) + \epsilon_Y\)，\((\epsilon_M, \epsilon_Y)\) 与 \((X, C)\) 独立（或条件独立）。这对应因果可忽略性（无暴露-中介混杂、无中介-结局混杂，控制 \(C\) 后）。 - 假设 A2（参数正则性）：\(\alpha, \beta\) 的最小二乘估计 \(\hat{\alpha}, \hat{\beta}\) 渐近正态，联合渐近正态分布的协方差矩阵 \(\Sigma\) 已知或可一致估计。相比已有文献（如 Barfield et al. 2017 要求高斯误差），本文放宽了误差分布的具体形式，仅依赖渐近正态性。 - 假设 A3（筛选阈值的收敛率）：筛选条件中的阈值 \(\delta_n\) 需满足 \(n^{1/2} \delta_n \to \infty\) 且 \(\delta_n \to 0\)（例如 \(\delta_n = n^{-1/4}\)）。这保证筛选条件在奇点处渐近地包含奇点（\(n^{1/2} \delta_n \to \infty\) 使得非零参数最终被筛出），而在非奇点处渐近地排除非零参数（\(\delta_n \to 0\)）。

主要结果： - 定理 1（自适应乘积系数检验的渐近第一类错误控制）： - 陈述：在复合零假设 \(H_0: \alpha^\top \beta = 0\) 下，自适应乘积系数检验的拒绝概率渐近收敛到名义水平 \(\alpha\)。 - 直觉：在奇点 \((\alpha, \beta) = (0, 0)\) 处，筛选条件触发自适应阈值调整，补偿了非标准渐近分布的尾部变薄；在非奇点处（如 \(\alpha = 0, \beta \neq 0\)），筛选条件不触发，使用中心化 percentile bootstrap，渐近分布标准，第一类错误自然为 \(\alpha\)。两段拼接，整体精确控制。 - 必要条件：A1-A3，特别是 \(\delta_n\) 的收敛率条件。 - 解决的技术难点：奇点处渐近分布的非标准性（正态随机向量有理函数分布）被筛选条件与自适应阈值绕过，无需显式推导该非标准分布。 - 定理 2（自适应联合显著性检验的渐近第一类错误控制）： - 陈述：类似定理 1，自适应联合显著性检验在复合零假设下渐近第一类错误为 \(\alpha\)。 - 直觉：在奇点处，传统联合显著性检验的拒绝域交集导致第一类错误为 \(\alpha^2\)；自适应版本在筛选条件触发时，将两个边际检验的阈值从 \(z_{\alpha/2}\) 放宽至 \(z_{\tilde{\alpha}/2}\)（其中 \(\tilde{\alpha}\) 由 bootstrap 数据自适应确定，使得 \(\Pr(|\hat{\alpha}^*|/\hat{\sigma}_\alpha > z_{\tilde{\alpha}/2} \text{ 且 } |\hat{\beta}^*|/\hat{\sigma}_\beta > z_{\tilde{\alpha}/2}) \approx \alpha\)），从而在奇点处也达到 \(\alpha\) 的第一类错误。 - 定理 3（局部功效优势）： - 陈述：在局部替代假设 \(H_1: \alpha \beta = h / \sqrt{n}\)（\(h \neq 0\)）下，自适应检验的功效渐近高于传统检验。 - 直觉：传统检验在奇点附近因保守而阈值过严，自适应检验在奇点附近放宽阈值，对微弱信号更敏感。

证明路线与技术技巧： - 整体路线（以定理 1 为例，3-5 步）： 1. 参数空间分割：将复合零假设参数空间 \(\{(\alpha, \beta) : \alpha^\top \beta = 0\}\) 分为奇点区域 \(\{|\alpha| \leq \delta_n, |\beta| \leq \delta_n\}\) 与非奇点区域（其余部分）。 2. 非奇点区域：证明在此区域上，筛选条件渐近不触发（\(\Pr(\text{screening condition holds}) \to 0\)），检验退化为传统 percentile bootstrap，利用标准渐近正态性证明第一类错误 \(\to \alpha\)。 3. 奇点区域：证明在此区域上，筛选条件渐近触发，检验使用自适应阈值。关键在于证明自适应 bootstrap 拒绝概率在奇点处收敛到 \(\alpha\)——这需要分析 bootstrap 统计量在参数靠近零时的渐近行为。 4. 拼接：利用筛选条件的收敛率（\(n^{1/2} \delta_n \to \infty\)），证明奇点与非奇点区域的拼接不产生第一类错误的溢出（总体第一类错误 \(\to \alpha\)）。 5. 功效：在局部替代下，证明自适应阈值在奇点附近放宽，使得拒绝概率高于传统检验的保守阈值。 - 关键跳跃点： - 引理（奇点处 bootstrap 拒绝概率的自适应控制）：在 \((\alpha, \beta) = (0, 0)\) 处，bootstrap 统计量 \((\hat{\alpha}^*, \hat{\beta}^*)\) 的联合分布是零均值正态，自适应阈值 \(\tilde{\alpha}\) 的选取需使得 \(\Pr(|\hat{\alpha}^*|/\hat{\sigma}_\alpha > c_{\tilde{\alpha}} \text{ 且 } |\hat{\beta}^*|/\hat{\sigma}_\beta > c_{\tilde{\alpha}}) = \alpha\)。难点在于 \(\tilde{\alpha}\) 是数据驱动的（依赖 \(\hat{\alpha}, \hat{\beta}\)），需证明其渐近稳定性（不因样本波动而过度震荡）。作者通过 bootstrap 分位数的一致性估计绕过此难点。 - 技术技巧点名： - Adaptive resampling / ART (McKeague & Qian 2015)：用数据驱动的筛选条件识别参数是否在边界/奇点，自适应选择 bootstrap 方案。用于定理 1-3 的整体框架。 - Centered percentile bootstrap：在非奇点区域，对估计量中心化后取 bootstrap 分位数，构造置信区间/拒绝域。用于非奇点区域的第一类错误控制。 - Intersection-union principle (Casella & Berger)：联合显著性检验的零假设是两个边际零假设的交集（\(H_0: \alpha = 0 \cup \beta = 0\)），拒绝域是两个边际拒绝域的交集。本文在自适应框架下调整了边际拒绝域的阈值，但仍保持交集-并集结构。用于定理 2 的构造。 - Local asymptotic analysis (Pitman drift)：在 \(H_1: \alpha \beta = h / \sqrt{n}\) 下分析功效，比较自适应与传统检验的局部功效函数。用于定理 3。

真实例子与应用： - 数据 / 场景：ELEMENT 队列（Early Life Exposure in Mexico to ENvironmental Toxicants，Perng et al. 2019），\(n=1643\) 母婴对。研究问题：母亲产前铅暴露（\(X\)）是否通过儿童 DNA 甲基化（\(M\)，多个位点）影响儿童神经发育（\(Y\)）。 - 怎么用上去：对每个甲基化位点，分别拟合线性中介模型（\(X \to M \to Y\)），计算 \(\hat{\alpha}, \hat{\beta}\)，应用自适应乘积系数检验与自适应联合显著性检验，与传统 Sobel 检验、传统联合显著性检验比较 p 值与拒绝率。 - 得到什么结果：自适应检验在多个位点检测到显著中介效应（p 值更小），而传统检验因保守性未能检测到这些信号。具体位点名称与效应大小在论文表/图中给出。 - 想说明什么：验证自适应检验在真实数据上相比传统检验的功效优势，展示其在环境流行病学中介分析中的实用价值。

🔎 结论是否比证明窄： - 定理 1-3 的严格证明在线性结构方程模型（LSEM）设定下完成，假设了 \(\hat{\alpha}, \hat{\beta}\) 的联合渐近正态性与筛选阈值的特定收敛率。 - 作者在 abstract 与 intro 中泛泛 claim "can accommodate different types of composite null hypotheses in the mediation pathway analysis"，但证明仅覆盖乘积系数与联合显著性两类检验，且依赖 LSEM 的渐近正态性。半参数/非参数中介模型（如基于 influence function 的 debiased 估计）下的自适应 bootstrap 是否成立，未被证明，也未被 conjecture——这是一个潜在的窄结论与宽 claim 之间的缝隙。

四、开放问题（点到为止）¶

半参数/非参数中介模型下的自适应 bootstrap：本文证明依赖 LSEM 的渐近正态性。若中介效应估计基于 higher-order influence functions 或 double robust 估计（半参数效率界框架），其渐近分布可能在奇点处有更复杂的非标准行为（如高阶 U-统计量的退化）。自适应 bootstrap 是否仍能控制第一类错误？扎根点：abstract 宽 claim "different types of composite null hypotheses" vs 定理 1-3 仅覆盖 LSEM。
高维中介（\(p > n\)）下的自适应筛选：当中介维度极高（如全基因组甲基化），\(\alpha, \beta\) 为高维向量，筛选条件 \(\|\hat{\alpha}\| \leq \delta_n, \|\hat{\beta}\| \leq \delta_n\) 的构造与收敛率需重新设计（可能依赖稀疏假设或 penalty）。扎根点：本文设定为固定维数，intro 引用了高维中介文献（Dai et al. 2020, Liu et al. 2020）但未处理高维设定。
筛选阈值 \(\delta_n\) 的最优选择：本文要求 \(n^{1/2} \delta_n \to \infty\) 且 \(\delta_n \to 0\)，具体取 \(\delta_n = n^{-1/4}\)，但未讨论最优收敛率（平衡奇点与非奇点区域的第一类错误与功效）。扎根点：假设 A3 与定理证明中的 \(\delta_n\) 条件。
与 DACT / 混合零分布估计的联合：在高维多重检验场景，自适应 bootstrap（单假设层面）与 DACT（估计零成分比例，多重检验层面）是否可以叠加，进一步提升全基因组扫描的功效？扎根点：intro 对高维补救路线的引用与本文定位的对比。

（要确认某条是否真 gap，建议读近期 5 篇高维中介检验的 intro：若都指向“半参数下的复合零检验未解决”或“高维自适应筛选未设计”，则为共识真 gap；若互相打架（有人认为 DACT 已够用），则为机会。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Adaptive bootstrap tests for composite null hypotheses in the mediation pathway analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论