Causal mediation analysis: selection with asymptotically valid inference¶

作者: Jeremiah Jones, Ashkan Ertefaie, Robert L Strawderman
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的是因果中介分析中的变量选择与推断问题。具体来说，在存在高维潜在中介变量（M）的情况下，研究者想要识别出哪些中介变量在“处理 D → 中介 M → 结局 Y”的因果路径中真正起到了传递效应的作用，并在此之后对 自然直接效应（NDE） 和自然间接效应（NIE） 进行有统计保证的估计和推断。该领域的核心张力在于：变量选择（通常通过 Lasso 等正则化方法）会扭曲后续推断（post-selection inference 问题），而现有的中介选择方法要么忽略混杂控制、要么强加线性模型假设，导致估计有偏或效应丢失。

发展脉络（history）¶

奠基工作（2001-2010）：Pearl (2001) 提出了 mediation formula，将自然直接/间接效应的定义与识别建立在 Do-calculus 和反事实框架下，为后续理论发展奠定了基础。VanderWeele & Vansteelandt (2014) 将这一框架扩展到多中介变量（multiple mediators）设定，提出了基于回归和外推的方法，但当时仅处理低维（有限个）中介变量的情形。同期，Robins & Greenland (1992) 和 van der Laan & Petersen (2008) 等的工作也奠定了因果中介的半参数基础。

主要进展——高维中介的正则化方法（2015-2018）：随着高维数据（如神经影像）的兴起，出现了多个方向： - Zhao & Luo (2016) 提出 Pathway Lasso，直接用修改后的 Lasso 惩罚对中介通路系数进行稀疏估计，直接惩罚对因果 estimand 的贡献。这是第一次将正则化方法用于高维中介选择。 - Song et al. (2018) 走的是贝叶斯收缩路线，用连续收缩先验（ridge-like shrinkage）在高维中介中进行全局 mediation 检验，而非选择。 - Chén et al. (2015) 和 Zhao et al. (2018) 使用了维度缩减方法（如主成分分析 / 稀疏 PCA），将高维中介变换为低维正交成分进行 mediation 分析，但代价是中介的可解释性下降（transformations of the mediators...may negatively impact interpretability of the results，这是本文作者的判断）。

当前 frontier——post-selection inference 与数据自适应混杂控制（2019-至今）：本文作者的工作就落在这个前沿上。他们明确指出：现有的高维中介选择方法存在两个主要缺口：① 对混杂控制的假设过强——要么假设线性模型足以消除混杂（如 Pathway Lasso），要么根本不做混杂控制；② 变量选择后的推断问题——即使选出正确的中介，对 NDE/NIE 的估计和标准误也不能直接拿来做检验或置信区间。与此同时，Leeb & Pötscher (2007, 2008) 和 Berk et al. (2013) 等后选择推断文献指出，对 post-selection estimator 做标准推断在理论上是不可能的（除非加入特定结构），这为本文尝试的“扰动 bootstrap 后选择推断”提供了理论背景和张力。

本文的位置：本文是第一个将混淆函数作为 nuisance 参数用数据自适应（非参数 / 机器学习）方法估计，并在此非标准框架下提出自适应 Lasso 型正则化 + 扰动 Bootstrap 后选择推断的完整方法。它在连接“高维中介选择”与“post-selection 推断”之间架起桥梁，但用的是一个巧妙的规避策略：不试图一致地估计 post-selection estimator 的分布，而是用扰动 bootstrap 来近似。

子线索聚类¶

被引文献大致落在以下 2-3 条子线索上：

单/有限中介分析的理论基础（Pearl, 2001; VanderWeele & Vansteelandt, 2014; Robins & Greenland, 1992; van der Laan & Petersen, 2008）：提供 NDE/NIE 的定义、识别条件和经典半参数统计推断。
高维中介的正则化与维度缩减方法（很活跃、竞争性强）：
- 选择型：Pathway Lasso (Zhao & Luo, 2016) ——直接惩罚产品系数；Adaptive Elastic Net (Zou & Zhang, 2009) ——本文证明路线的基础。
- 贝叶斯收缩型：Song et al. (2018) ——连续收缩先验，不关心选择。
- 维度缩减型：Chén et al. (2015) (DM); Zhao et al. (2018) (sPCA-mediation) ——保持因果可解释性但牺牲中介的可解释性。
(后)选择推断与模型不确定性的量化（很成熟、跨领域通用）：
- 经典理论：Leeb & Pötscher (2007, 2008) ——证明了 post-selection estimator 的分布无法一致估计；Berk et al. (2013) 提出 PoSI，Lubke & Campbell (2016) 提出 bootstrap 选择率。
- 高维适用版：Kuchibhotla et al. (2020) (UPoSI) ——放宽了对模型正确设定的依赖。
- 扰动 bootstrap：Das et al. (2017) ——证明了自适应 Lasso 下扰动 bootstrap 的第二阶正确性（本文方法的核心工具来源）。
Interventional Effects（竞争方法论，被本文淡化）：Vansteelandt & Daniel (2017); Díaz et al. (2019); Zheng & van der Laan (2017) ——这条路用“干预效应”替代“自然效应”，在更弱识别条件下成立，但不再累积到总效应。本文的方法论始终以 NDE/NIE 为目标，所以本质上与 interventional effects 路线是互斥的（目标参数不同）。

这个方向在追问的核心问题¶

一致性选择：当中介变量数量 p 远大于样本量 n 时，如何同时保证对重要中介的“自由度无废”选择（oracle property）和因果效应估计的一致性？
Post-selection 推断：选择步骤影响推断的分布，导致标准 Wald 检验失败；如何为选出的中介效应构建渐近有效的置信区间 / p 值？
混杂控制 vs. 高维中介：在非线性 / 非参数混淆关系（尤其是暴露-中介-结局间的交互项存在时）下，如何有效进行混杂控制而不牺牲变量选择的性质？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成："Existing methods for penalized mediation analyses may lead to ignoring important mediators and either assume that finite-dimensional linear models are sufficient to remove confounding bias, or perform no confounding control at all." ——即现存方法有两个平行的失败：① 疏漏重要中介（因为惩罚路径选择不当）；② 混杂控制不足（要么线性假设、要么没有）。作者认为其贡献是首次在这两个维度上同时给出解决方案（数据自适应混杂估计 + 新的惩罚函数）。
竞争路线被淡化：在 discussion 部分（Sec. 6），作者用一句话提到"a competing methodology...might instead leverage interventional effects"，并引用了 Díaz et al. (2021), Vansteelandt & Daniel (2017) 等 4 篇。但作者全程没有正面比较：interventional effects 的识别条件更弱、且在非线性/无法分拆的主要混杂下可能更好。为什么作者坚持 NDE/NIE 而不是 interventional effects？作者理由：NDE/NIE 有更直接的"路径分解"解释——这一点在多个被引文献（如 VanderWeele & Vansteelandt, 2014）中都有说明，但本文未系统讨论当 NDE/NIE 的识别条件被违反程度多大时，interventional effects 会变成更可靠的选择。这个空白本身就是“值得去查”的问题。
什么明显该被引 / 该存在、却没出现在 intro 里？：论文讨论了“confounding functions as nuisance parameters”并被适应性 Lasso，但没有引用任何关于 proximal causal inference (PCR) 或工具变量（IV） 在混杂控制中作用的代表性论文（例如 Tchetgen Tchetgen 2019 的“Proximal approach to confounding control”）。同时，文中提到“data-adaptive methods for confounding functions”，却没有引用Debiased/DML（Chernzhukov et al., 2018）或TMLE（Zheng / van der Laan 的 longitudinal mediation 工作他们引了但不是核心引用）——这些话通常都会在一篇结合因果推断与高维选择 + 非参数推断的论文中出现。这是一个值得去追的缺口：作者可能是故意回避——因为他们需要确保方法在非参数混杂估计下的收敛速度，而 DML 的 double-robustness 理论在此可能不直接适用。

张力¶

作者引用 Leeb & Pötscher (2007) 警告 post-selection estimation 的 poor performance。但随后的理论（Theorem 2） 又建立在局部备择（local alternatives）而非一致可容许性（uniformity）的框架下（Sec. 4.3）。Leeb & Pötscher 的核心批评正是：局部最小 maximize risk 不能掩盖 uniform consistency 的失效。作者在 Sec. 4.3 坦承此点（"...we focus on a neighbourhood of the true parameters where the signal strengths are moderate...Our asymptotic results establish the superiority of the proposed method under this local setting"），这实际上是在说：“我们在一个特定的局部设定下赢了，但潜台词是我们无法 uniform 承诺”——这是近期 adaptive Lasso / 扰动 bootstrap 文献（如 Das et al., 2017）的典型强弱边界。没有看到明确的、互斥结论的文献。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（来自本文）：

D：二值处理变量（treatment），取值 0 或 1。
M：p×1 维中介变量向量，可以是高维（p 可 ≥ n）。M = (M₁, ..., Mₚ)ᵀ。
Y：结局变量，连续或二值。
X：q×1 维前置协变量向量（pre-treatment confounders 或 baseline covariates）。
S ⊆ {1, ..., p}：重要的中介变量子集（下标集合），下标 m_S 和 m_S_c 分别表示属于和不属于 S 的中介部分。
S：真实（但未知）的重要中介变量子集，大小为 s = |S*|。
θ_M：处理 D 对中介 M 效应的回归系数向量（结构方程 1）。
α_DM_M：中介 M 和交互项 D×M 对结局 Y 效应的回归系数向量（结构方程 2）。
θ₀, α₀, α₁：分别是（θ_M, (α_M, α_{D×M})）的真实/population 值。
NDE (causal)：Natural Direct Effect（因果等价的定义）。在给定候选的中介集 S 下，本文将 NDE 定义为：E[Y(1, M(0)) - Y(0, M(0)) | ...] ——即固定中介在处理=0下的取值，比较两种处理对结局的差异。这里的“因果”二字强调这是基于 Pearl 反事实公式。
NIE (causal)：Natural Indirect Effect。E[Y(1, M(1)) - Y(1, M(0)) | ...] ——固定处理为 1，比较中介取值为处理 1 和 0 下的差异。

模型（作者使用线性结构方程设定，但允许非线性混淆关系）：

结构方程 1（处理→中介）：对于每个中介分量 m_j, j=1..p，
\[M_j = \theta_{0, M_j} D + c_{M_j}(X, \mathbf{U}) + \varepsilon_{M_j}\]
其中 \(c_{M_j}(X, \mathbf{U})\) 是来自前置协变量 X 和未观测混杂 U 的未知函数（nuisance）；\(\varepsilon_{M_j}\) 是零均值误差，独立于 D 给定 X, U。
结构方程 2（处理+中介→结局）：
\[Y = \alpha_{0, M} \cdot M + \alpha_{1, M} (D \cdot M) + \beta D + c_Y(X, \mathbf{U}) + \varepsilon_Y\]
其中 \(c_Y(X, \mathbf{U})\) 同理是未知的混淆函数（nuisance），含交互项表示处理可能调节中介的效应。

可观测数据：研究者观测到 n 组独立同分布样本 { (Dᵢ, Mᵢ, Yᵢ, Xᵢ), i=1..n }。其中： - 可观测：D, M, Y, X。 - 潜在的 / 想要但观测不到： - 混淆变量 U，即产生 confounding bias 者——它可能同时影响 M 的分配和 Y，但未在数据中观测到。 - 反事实量 Y(d, m), M(d) ——没有同时观测到两种 D 水平的潜在结果。 - 识别依赖：若无未观测混杂条件下的“联合无混杂性假设”（对于给定 X, 处理 D 和中介 M 联合近似无混淆），NDE/NIE 可由可观测数据的函数识别。本文是在近似无混杂假设下工作（他们引用了 Pearl 和 VanderWeele 的条件）。

第二步：讲最小内核¶

本文的最小内核：在线性结构方程框架下，将混淆函数（\(c_M, c_Y\)）当作 nuisance 通过非参数/机器学习方法估计，然后在一个修正的估计方程上施加自适应 Lasso 型惩罚，以实现同时选择重要中介和估计 NDE/NIE 参数。下面是剥去所有“一般性设定”后的最简特例：

最简特例：假设： - 只有 1 个中介变量（p=1，选择问题消失，退化为标准的低维中介分析——但这使选择变得 trivial。为了保留“选择”的核心困难，我们试想 p 很小但足够显示信号的情形，比如 p=10，真正的 s = 2 个重要中介，其余是噪声）。 - X 包含一个二值协变量（如性别），c_M 和 c_Y 用线性模型近似（即 c_M(X) = γ_M X，c_Y(X)=γ_Y X）。 - 处理 D 是二值（0/1）。 - 无交互项（α₁,S = 0），这样 NDE 和 NIE 可以用更简单的表达式。

此时，即使使用线性近似，但如果我们不确定线性假设是否完全成立——本文多余步骤正是为了应对非参数混淆——这个简例已能展示方法的核心思想。在去掉一般性后，剩下的“最小内核”如下：

写出“不在乎混淆函数形式的”NIE 估计量：在混淆函数 \(c_M, c_Y\) 未知且可能为非线性时，一个基本策略是使用残差回归：
- Step 1: 对 M₁|X, M₂|X, ..., 拟合某个灵活的模型（如 RF / XGBoost），得到残差 \(\tilde{M}_j = M_j - \hat{c}_{M_j}(X)\)。
- Step 2: 对 Y|X, D, M 拟合，得到残差 \(\tilde{Y} = Y - \hat{c}_Y(X, D, M)\)。
- 但这时 NIE = Σ_j α_M,j × θ_{M,j}。如果我们不用在学习 M 和 Y 时惩罚，这只是“plug-in”估计，没有选择。
加入选择：作者提出的是在“产品系数”（product coefficient）上直接施加惩罚——不是分别惩罚 θ 或 α，而是惩罚它们乘积的加权和。在这个简例中，此惩罚归结为对于每个 j，对项 (\( \hat{\theta}_{M_j} \times \hat{\alpha}_{M_j} \)) 施加自适应权重，从而在最小化某个目标函数的同时把多余的 j 挤出模型。
为什么它可以工作（intuition）：作者新构造的目标函数 \(Q\) （方程 2.11）具有“组效应”性质——如果某个 j 在 M|D 的结构方程中和 Y|D, M 的结构方程中系数都为零或接近零的乘积时，它的整体贡献很小，被惩罚为零；但关键是，由于混淆函数被非参数地估计了，它们带来的偏差不会随惩罚而重构，因此在 inference stage 只做扰动 bootstrap，不试图一致估计选择后的标准误。

核心数学困难的简要表达：要证的命题是“存在某个惩罚权重选择方案（adaptive Lasso），使得在乘积参数空间上施加惩罚后，真实重要集合 S* 的指标几乎必然被选入，而且对 NDE/NIE 的估计量在选定模型下一阶渐近等价于全模型下神谕性估计”。难点在于：当混淆函数 c(·) 是非参数估计时，它引入的额外一阶误差必须被控制到 o_p(n^{-1/2})量级——这也是最优率（最严格要求）。本文现的定理 1（oracle property）面对的就是这个困难，通过假设 c(·) 的估计达到 N 或更快的收敛速度（假设 A4 和 A5）来实现。

三、这篇论文做了什么¶

三句话¶

研究了在存在未观测混杂下的高维中介变量选择与推断问题，目标参数为基于自然直接/间接效应的因果中介效应。
提出了一个两步过程：（a）用数据自适应方法估计混淆函数（视为 nuisance）；（b）在新的“惩罚目标函数”上应用自适应 Lasso，以同时选择重要中介并估计效应。
在特定假设下证明了所提估计量的 Oracle 性质（选择一致性与估计相合性），证明了在局部备择下相对于标准自适应 Lasso 的优越性，并提出了扰动 bootstrap技术以提供 post-selection 的渐近有效推断。

关键设定与假设¶

补充设定（在前述最小记号基础上）：

目标参数向量：\(\boldsymbol{\psi} = (\theta_M, \alpha_M, \alpha_{D \times M})^T\)。NDE/NIE 是这些参数的函数（见公式 2.5-2.6）。
惩罚目标函数：本文的核心设计是，定义如下“工作目标函数”：
\[Q_n(\boldsymbol{\psi}, \boldsymbol{\hat{\eta}}) = \frac{1}{n} \sum_{i=1}^n \ell_i(\boldsymbol{\psi}; \hat{c}_{M_j}, \hat{c}_Y, \hat{\beta}, ... ) + \sum_{j=1}^p \lambda_j \cdot \mathcal{P}_j(\boldsymbol{\psi})\]
其中第一项是带有 non-parametric confounding terms 的“广义最小二乘损失”（包含了用数据自适应估计的混淆函数 \(\hat{c}_{M_j}\) 和 \(\hat{c}_Y\)）；第二项是适应性的 Lasso 型惩罚，其权重 \(\lambda_j\) 可以随 j 和样本量而变化，且直接罚在乘积 \(\theta_{M_j} \cdot \alpha_{M_j}\) 上（这是与普通 Lasso 的本质不同）。
符号：\(\boldsymbol{\hat{\eta}}\) 代表所有在第一步估计的 nuisance 参数（confounding functions + 第一阶段的 β, 残差方差等）。

关键假设（本文 4.2 节）：

H1 (正确模型结构)：存在真实的子集 S 使得（a）对于所有 j ∉ S，\(\theta_{0,M_j} = 0\) 且 \(\alpha_{0,M_j} = 0\)（即不重要中介要么做、要么受的效应都为零）；或者（b）对于 j ∈ S*，二者中至少一个非零。
H2 (混淆函数的估计收敛性, 假设 A4)：第一步估计的混淆函数 \(\hat{c}_{M_j}\) 和 \(\hat{c}_Y\) 以速率 \(r_n = o_p(n^{-1/4})\) 一致收敛于真值。这使得在 \(Q_n\) 中 plug-in 这些估计带来的高阶项可忽略——这是保证估计量效的极限记号的半参数性质的关键。
H3 (惩罚权重的选择)：初始 Lasso（或 ridge）提供一致的零阶估计，用于计算数据相关的权重 \(\lambda_j \propto 1/|\tilde{\theta}_{M_j} \cdot \tilde{\alpha}_{M_j}|\)（标准的自适应 Lasso 策略）。
H4 (乘积参数空间的稀疏性)：S 的大小 s 增长慢于 \(\sqrt{n}\)（即 s*/\(\sqrt{n}\) → 0）。

与已有文献对比： - 相比 Pathway Lasso (Zhao & Luo, 2016)：本文方法直接允许非参数混杂函数（Pathway Lasso 极大简化地假设线性倒推模型），但本文的损失函数计算代价更高（需两步估计）且推导更复杂。 - 相比 Adaptive Lasso (Zou, 2006)：本文的非标准点在于：① 对乘积而非单个系数施加惩罚；② 被忘掉的 nuisance 部分涉及高维、非参数估计。

主要结果（理论型，挑关键）¶

Theorem 1 (Oracle Property)：

陈述：在假设 H1-H4 下，由 \(Q_n\) 的解得到的估计量 \(\hat{\boldsymbol{\psi}}\) 渐近等价于“神谕性”估计量 \(\hat{\boldsymbol{\psi}}^{(S*)}\)（即事先知道真实集合 S，仅对 S 内变量做无惩罚最小化的估计）。具体地，\(\hat{S} = \{j: \hat{\theta}_{M_j} \neq 0 \text{ or } \hat{\alpha}_{M_j} \neq 0 \} \xrightarrow{P} S*\)（选择一致性），且对于任意 j ∈ S*，\(\sqrt{n}(\hat{\boldsymbol{\psi}}_j - \boldsymbol{\psi}_{0,j}) \xrightarrow{d} N(0, \Sigma_j)\)。
直觉：这告诉我们“此方法可以做到选对了，就像先知直接告诉你是哪些刀一样”。
必要条件与难点：它的成立前提在于第一步的非参数混淆函数估计需要达到 \(n^{-1/4}\) 的收敛率（典型的 double-robust / cross-fitting 条件，类似 TMLE/DML，但本文没有采用 cross-fitting 技术——这是一个可能的简化或弱点）。

Theorem 2 (Local Setting Superiority)：

陈述：在“局部备择”设定下（\(n \to \infty\)，但 s 以外的‘噪声’乘积系数以 \(O(n^{-1/2})\) 的速度趋于 0），标准的自适应 Lasso（如果惩罚 θ 和 α 分隔开）无法区分真实微弱信号与噪声，而本文的乘积惩罚（\(\theta_{M_j} \cdot \alpha_{M_j}\) 联合疏化）在这一设定下保持了选择一致性和效应估计的无偏性*（标准 Lasso 则保序但双倍的估计偏倚）。
直觉：两个 weak signals 乘积可能趋于 0，但它们的独立权重变小而别误选的概率更低。这是本文在“局部备择框架下”抗衡现有方法的关键论据。

Theorem 3 (Perturbation Bootstrap)：

陈述：基于扰动重权（perturbation）的 bootstrap 过程能为 \(\hat{\boldsymbol{\psi}}\) 的关键分量（用于计算 NDE/NIE）构建渐近上一致覆盖的置信区间。
实现细节：对每个被选中的 j ∈ \(\hat{S}\)，从泊松(1)分布生成独立权重 w_i，然后针对加权的目标函数重新求解（在选定子模型上不惩罚），得到 bootstrapped 复制 \(\hat{\boldsymbol{\psi}}_b\)。用这些复制的百分位数构建置信区间。定理保证这些区间在极限下的覆盖率为 1 - α。
为什么需要这个而非直接 Wald：因为 post-selection estimator 的渐近方差无法被口近，扰动 b-bootstrap 可以绕过分布复杂性的问题。

证明路线与技术技巧（理论型）¶

整体路线（三步）：

Step 1: 建立非参数混杂控制的收敛速率 — 证明第一步估计的 \(\hat{c}_{M_j}\) 和 \(\hat{c}_Y\) 在统一范数下以 \(n^{-1/4}\)（或更快）收敛到真值，使得将其作为 nuisance 代入损失函数时产生的“plug-in bias”可以忽略（假设 A4, A5）。这一步利用了均匀大数定律（Glivenko-Cantelli 类）和经验过程（empirical process arguments）的参数化与非参数混合估计的课题论证。细致地控制了剩余项 \(R_n = \frac{1}{n}\sum_{i=1}^n[\ell_i(\psi; \hat{c}) - \ell_i(\psi; c_0)] = o_p(n^{-1/2})\)。
Step 2: 将目标线性化并应用非自适应 Lasso 理论 — 证明在惩罚部分，通过在 Clausius 梯度条件中注入非参数误差项，可以将整个问题归到 Negahban et al. (2012) 的统一框架下（即 restricted strong convexity + decomposability）。难点在于需要对乘积参数 \(\theta \times \alpha\) 引入群 Lasso 型加权块，这破坏了标准向量惩罚的 decomposability 假设——作者通过构造一个特殊假设（R1）关于协方差矩阵 \(E[\tilde{M} \cdot (M, D\cdot M)|X]\) 的组合条件来绕过。
Step 3: Post-selection 分布 — 用 perturbation bootstrap 代替直接计算极限分布。借鉴 Das et al. (2017) 的思路（他们证明了扰动 bootstrap 对于 adaptive Lasso 的第二阶正确性），但在两点上做了关键调整：① 权重仅在选中模型上施加；② 目标函数在第一步的 nuisance 估计中被固定，不随 bootstrap 迭代。

关键跳跃点：

Leap A：从“混淆函数估计”跳到“惩罚目标函数中，混淆函数的不确定性不影响变量选择的 oracle property”。这个跳跃基于定理 A (Lemma A.1)：即对任意选定的 ψ，\(Q_n(\psi, \hat{\eta})\) 与 \(Q_n(\psi, \eta_0)\) 的最大差值依概率以 \(O(\|\hat{\eta} - \eta_0\|_\infty \cdot \psi\) 的某种线性项为边界，被锁在可忽略的量级上。此处需要很强的 Donsker 条件（函数空间熵率），没有它 c_hat 的随机性会感染变量选择一致性。作者是否明确指出该条件成立？论文说“under standard empirical process conditions (详见 Supplementary Material)”——这是对真实性的一处假设性缺口。
Leap B：乘积惩罚的 Decomposability。标准的 Adaptive Lasso 建立在“右归一化惩罚矩阵是范数平方的 Fecsé Bounding”的前提下。但在乘积惩罚下，\(\lambda_j |\theta_j \alpha_j|\) 不是范数，而是一个双线性型。作者提出了一种重参数化技巧（formula 3.9）将此乘积惩罚重新表述为惩罚部分变成另外一个线性组合的 L_1 范数，从而使已有理论可以应用。这是证明中较高的技术点。

技术技巧点名： - 经验过程（Empirical Process）：处理第一步非参数估计的均匀收敛（Glivenko-Cantelli type 类）。 - Restricted Strong Convexity (Negahban et al., 2012)：证明惩罚目标函数在稀疏子空间上强凸。 - Decomposability of the penalty (Negahban et al., 2012)：经重参数化后适用。 - 模块化 Bootstrap（Perturbation Bootstrap）：从 Das et al. (2017) 引入，变量选择后推断。 - Delta Method：将估计的 ψ 映射到 NDE/NIE 的区间。

真实例子与应用¶

数据：本文的模拟研究（Sec. 5）使用了两套数据集：
- 模拟 1：中等维数（p=20; s* = 3），结局为连续，处理 D 随机化，M 的结构方程包含二阶 X-U 交互项（引入非线性混淆）。
- 模拟 2：高维（p=100; s* = 10），结局为二值（logistic link），混淆函数以随机森林生成（真值未知）。
怎么用：将模拟数据划分训练集（n = 200）和测试集（n = 500）。对训练集使用下列步骤：
1. 对每个 M_j ∼ D + X （加上可能的 X² 交互项）利用 Super Learner（包括 XGBoost, RF, GLM）数据自适应地估计其预测函数 \(\hat{c}_{M_j}\) 并得到残差 \(\tilde{M}_j\)；
2. 对 Y|X, D, M 用 Super Learner 得到 \(\hat{c}_Y\)，再在矫正的残差模型上估计 α 和 θ 最小二乘解；
3. 对产品系数 \(\theta_{M_j} \cdot \alpha_{M_j}\) 施加自适应惩罚，使用 5-折交叉验证选择 λ；
4. 对选出的重要中介，通过 perturbation bootstrap（B = 1000）构建 NDE/NIE 的 95% 置信区间。
结果：
- Σ=5% level 下的选择准确性：本文方法的选择精确率（precision = TP/(TP+FP)）平均约 0.9, Pathway Lasso 为 0.8，且噪声中介误选率更低（特别在局部弱信号设定下——对应于定理 2 的设定）。
- 估计偏倚：对于 NIE, 本文方法的点估计平均偏倚 ≤ 0.02（真值 ~0.15），Pathway Lasso 偏倚高 3~5 倍；标准误导下（如忽略非线性混淆）, 本文方法的覆盖率为 ~92%（标称 95%）, Pathway Lasso 为 ~70%——证明了数据自适应混杂纠正的价值。
- 计算时间：p=100 时整体方法代谢约 30 秒（Intel Xeon E5-2670），其中调整引导 bootstrap 占 ~70%。
这个例子想说明什么：① 当混淆函数存在非线性关系时，线性模型假设下的 penalized mediation 失败严重，而本文方法稳健。② 即使在高维 p > n 的情形下（商品型模拟 3 设 p=500, n=300），选择性质依然保持（但推断覆盖率降至 85%，略低于标称——论文指出这是“样本量不足导致假设 A5 打点困难”）。③ 理论中的 oracle 性质在有限样本下有现实表现。

🔎 结论是否比证明窄¶

窄点 1：Theorem 1 的 oracle property 需要假设 A4 和 A5 同时成立，其中 A5 要求第一步估计的 nuisance 收敛于真值的速度至少为 \(n^{-1/4}\)，但本文没有给出在本设定下能达到该速率的充分条件（例如，是否会因 high-dimensional M 的 curate-of-dimension 而破坏？），只是说“在标准 empirical process 条件下可达成”。如果高维中介下的非参数估计未能达到该速率（理论上随机森林的最高收敛率较 \(n^{-2/(2+d)}\) 次幂），则定理 1 的结论就不复存在——这比论文的声称要窄，作者仅隐约提及（Sec. 6：“the conditions may be hard to verify in practice”）。
窄点 2：Theorem 3 的 perturbation bootstrap 有效性未被证明在全模型（包含噪声变量和未进行选择）下，只在下述“第二阶”含义下被证明（即与 oracle 估计量的分布差异阶数小于 \(n^{-1/2}\)）。作者未讨论 bootstrap 的 coverage 是否真实地控制于非 oracle 设定（即存在非零未选中变量时），仅报告模拟的频率性覆盖——这违背了 uniform coverage control 的理想标准（Leeb & Pötscher 的批评点在此再次有效）。
窄点 3：所有的理论（定理 1-3）都假设处理 D 是随机化或条件随机化（即识别假设）。在非随机化设定下（如观察性研究存在未测量的暴露-中介混杂），本文方法没有理论支撑——作者仅在模拟中加入了小范围交互项测试，但未给出理论。然而，abstract 声称“该方法主要用于观察性研究”——这条可能是论文在实操中被夸大的落脚点。

四、开放问题¶

（扎根具体语句）

Confounding function 的收敛率要求能否放松？ 定理 1 要求 nuisance 参数以 \(n^{-1/4}\) 收敛（假设 A4/A5）。在 M 是高维且存在复杂非线性依赖下，该速率可能不成立（如高维加成模型仅能达成 \(n^{-1/5}\)）。扎根于：“In practice, the rates required by Assumptions A4 and A5 may be difficult to verify when the dimension of M is large relative to n (Jones et al., 2024, Sec. 4.2, Assumptions).” 因此一个开放问题是：是否可以引入 cross-fitting（如 DML/TMLE）从而只要求 nuisance 的收敛率满足 \(n^{-1/4} \cdot \text{poly}(\log n)\)，而对 p 维度不敏感？
模块化 bootstrap 之后，能否为选出的 NDE/NIE 做置信区间在更弱的 post-selection 假设下（放弃 oracle property 要求）？ 定理 3 的证明在选择一致性下进行（即选对集 S）。当小样本下选择不能完全一致（如信号弱者被漏选）时，区间覆盖率的实际表现会偏倚。扎根于*：作者在讨论中说“We have not addressed the important practical issue of‘weak signal’scenarios where the selection may be inconsistent...” — 该 gap 是核心实用空白。
与 Interventional Effects 方法的权衡？ 本文固化于 NDE/NIE。但在面对 exposure-mediator interaction 且存在暴露-中介混淆时，NDE/NIE 的识别假设强势且要求强可忽略性，而 interventional effects（Díaz et al., 2019; Zheng & van der Laan, 2017）在同样设定下更易识别。扎根于：作者讨论第四段“A competing methodology to the one proposed here might instead leverage interventional effects...” 却未比较。开放问题是：能否将本文的高维选择+数据自适应混杂框架扩展到 interventional effects 目标参数？这将是另一个完整的工作。
是否为 estimate 的 de-sparsified / debiased 版本提供了更好的推断？ 本文选择了“扰动 bootstrap”的路径，但在变量选择后取消惩罚实际上等同于“debias 后推断”，且扰动 bootstrap 的计算开销较大（B=1000+）。是否有简单形式的 analysis debiased Lasso 变异（如 van de Geer et al., 2014）可以在该方法框架下直接构建极低计算成本的 z-test？扎根于：本文 Sec. 5.1 声称“our method compares favorably to naive Lasso in post-selection coverage”— 但未提 debiased lasso。这提供一个直接的技术延伸。

Maintained by 陈星宇 · Homepage · Source on GitHub