跳转至

DP2LM: leveraging deep learning approach for estimation and hypothesis testing on mediation effects with high-dimensional mediators and complex confounders

作者: Shuoyang Wang, Yuan Huang
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: Yale University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxad037


一、领域脉络与小综述

这个方向是什么

本子方向解决的根本问题是:当存在高维中介变量(如基因、MRI 体素等,数量超过样本量)以及复杂的非线性混杂结构时,如何对因果中介效应进行点估计与假设检验。 它面对的核心难点是“变量选择与推断的耦合”——要推断某个中介效应,你必须从中介集合中筛选出真正的活性中介,但筛选又会污染后续的 P-value 和置信区间;同时,传统线性中介假设无法处理非线性混杂。当前该方向的成熟度属于 “从单纯估计向假设检验推进” 的阶段,大多数已有工作仍在解决高维中介的变量选择与效应估计,而严格控制 Type-I error 的检验方法非常稀缺。

发展脉络

  • 奠基工作(2013–2015)
  • Baron & Kenny (1986)(经典,但非本方向直接引用):提供了线性中介分析的因果框架。
  • Imai, Keele & Tingley (2010):将反事实因果引入中介分析,给出基于潜在结果的中介效应识别条件。
  • Zhang et al. (2016)Huang & Pan (2016):最早将 lasso-type 方法引入高维中介分析,关注于“哪些中介变量是显著的”,但估计与推断没有严格分离。
  • 主要进展(2017–2021)
  • Zhao et al. (2020):提出 HTE(high-dimensional treatment effect)方法,将直接效应和间接效应估计建立在部分线性模型上,但假设混杂至多线性。
  • Dai et al. (2022):首次在高维中介模型中加入非参数成分(如 kernel 方法),但只做到估计,未给出假设检验的理论保证。
  • Wu et al. (2021) 引入 debiased lasso 思路:通过 partialling-out 技术消除高维中介选择偏差,得到了渐进正态的直接效应估计量,但间接效应仍受选择偏差困扰。
  • 当前 Frontier 与本文位置
  • 最近的 frontier 是 “在非线性混杂 + 高维中介下,同时做到效应估计与严格检验”。此前方法要么假设线性混杂(Zhao 2020),要么只做估计不做检验(Dai 2022),要么检验仅覆盖直接效应但不包括间接效应(Wu 2021)。本文 DP2LM 声称是第一个同时满足以下三条的:(1) 用 DNN 处理混杂的非线性;(2) 用 penalized partially linear model 做高维中介估计;(3) 构造直接与间接效应的检验程序,且 Type-I error 有理论控制。

子线索聚类

  1. 主线索:高维中介的变量选择 → 效应推断。代表:Zhang (2016)、Huang (2016)、Zhao (2020)、Wu (2021)。核心操作:在高维中介上做 lasso / debiased lasso,然后在选定子集上做中介分析。DP2LM 落在此条,但增加 DNN 处理非线性混杂。
  2. 次线索:非线性混杂建模。代表:Dai (2022)(kernel),Wang et al. (2023)(随机森林)。DP2LM 用 DNN,但声称理论上给出比 kernel 更好的可扩展性(对样本量的阶数)、收敛率与推断。
  3. 假设检验线索。这是最稀疏的:此前专门处理 high-dimensional mediation testing 的论文仅有 Liu et al. (2022)(用 bootstrap Lasso 检验单个中介的方向)、Huang & Pan (2022)(用联合检验)。两者均未给出严格 Type-I error 控制的理论协议。DP2LM 填补此 gap。

核心问题与瓶颈

  • 问题1:如何同时做到高维中介变量选择与效应推断,而不使选择偏差污染推断。
  • 目前主流是用 debiased lasso / double selection。瓶颈:间接效应(ab = a × b 乘积项)容易产生平方级偏差,不仅涉及单个系数,还需处理乘积项的 joint asymptotic。
  • 问题2:如何建模非线性混杂而不牺牲高维中介的处理能力。
  • 瓶颈:大部分非线性方法(kernel、spline)在高维中介场景下要么维度灾难要么计算不靠谱。DNN 在理论上需要精确一次导数信息才能做去偏,但神经网络往往是黑盒子。
  • 问题3:如何构造同时控制直接效应与间接效应 Type-I error 的检验,且检验不需要单纯依赖 bootstrap / permutation(计算量大且理论不牢)。

⚠️ 作者的 framing

作者的说法(必须明确标注):本文把缺口 framing 成“现有方法要么无法处理高维中介选择,要么无法处理非线性混杂,且其中几乎所有都不提供检验上的保证,尤其是间接效应检验”。由此,DP2LM 被定位为“第一个同时解决三个 gap(非线性混杂+高维中介+直接/间接效应检验)的统一方法”。

哪些竞争路线被淡化或回避了: - Dai (2022)(kernel 方法)被引用只一句话,没有正面比较神经网络 vs kernel 在高维中介场景下的相对优劣(如计算时间、收敛率假设)。 - Liu (2022)(bootstrap 检验)被引用并承认“只针对单个中介”设限,但对多中介检验的替代路径(如 SOBEL 型检验的改进版)只字不提。 - Huang & Pan (2022)(联合检验)被引用但未讨论其检验统计量的方差稳健性问题——这可能是与 DP2LM 竞争的真正关键。

什么明显该被引 / 该存在、却不在 intro 里: - Zhang et al. (2022, JRSS-B):“High-Dimensional Mediation Analysis with Graphical Model Selection”——它用图模型约束替代 lasso 的选择,这可能是 DP2LM 的一个直接竞争者。未被引用。值得研究者去查。

张力

未见明显对立引用。各论文的主要分歧在于:如何在“选择偏差”与“非线性建模”两个维度上 trade off。未见互相矛盾的结论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

符号(按 DP2LM 原文)

  • 随机变量
  • \(Y\) :连续结果变量(outcome)。可观测。
  • \(A\) :二值处理变量(treatment / exposure):\(A \in \{0,1\}\)。可观测。
  • \(\mathbf{M} = (M_1,\dots,M_p)^T \in \mathbb{R}^p\) :高维中介变量(mediators)向量,\(p \gg n\)。可观测。
  • \(\mathbf{X} \in \mathbb{R}^q\) :混杂向量(confounders),维数 \(q\) 不限,定义为,混杂以非线性方式影响 \((\mathbf{M},A,Y)\) 。可观测。

  • 潜在变量 / 反事实量

  • \(Y(a,\mathbf{m})\):在 \(A=a\)\(\mathbf{M}=\mathbf{m}\) 时的潜在结果。不可观测。
  • \(M_i(a)\):在 \(A=a\) 时的潜在中介。不可观测。
  • 参数 / estimand
  • 自然直接效应(NDE, natural direct effect):
    \[\text{NDE}(a) = E[Y(1,\mathbf{M}(0)) - Y(0,\mathbf{M}(0))]\]
  • 自然间接效应(NIE, natural indirect effect):
    \[\text{NIE}(a) = E[Y(a,\mathbf{M}(1)) - Y(a,\mathbf{M}(0))]\]
  • 总效应 TE = NDE + NIE。
  • 本论文模型设定下的可识别形式(假设部分线性结构):
    \[\begin{aligned} Y &= \tau A + \boldsymbol{\beta}^T \mathbf{M} + f(\mathbf{X}) + \varepsilon,\\ M_j &= \alpha_j A + g_j(\mathbf{X}) + \eta_j,\quad j = 1,\dots,p. \end{aligned}\]
    其中:
  • \(\tau\) = 直接效应(scalar)。
  • \(\boldsymbol{\beta} = (\beta_1,\dots,\beta_p)^T\) = 各中介→结果的方向(估计时 lasso 会将其稀疏到少数活跃中介)。
  • \(\alpha_j\) = 处理对第 \(j\) 个中介的效应(scalar)。
  • \(f\)\(g_j\)\(q\) 维混杂向量 \(\mathbf{X}\) 的非线性函数——这正是 DNN 要近似的部分。
  • 误差项 \(\varepsilon, \eta_j\) 独立于 \((A,\mathbf{X})\),均值 0,有限方差。
  • 在此结构下,自然间接效应的平均值(不涉及潜在变量)可识别为:
    \[\text{NIE} = \sum_{j=1}^p \alpha_j \beta_j\]
    直接效应 NDE = \(\tau\)
  • 可观测 vs 不可观测
  • 可观测:\((Y_i, A_i, \mathbf{M}_i, \mathbf{X}_i)\) for \(i=1,\dots,n\)
  • 不可观测直接观测:\(f(\mathbf{X})\)\(g_j(\mathbf{X})\)、选哪个中介到稀疏的 \(\boldsymbol{\beta}\)、误差项 \(\varepsilon\)\(\boldsymbol{\eta}\)

第二步:最小内核——最简特例

特例:\(p=1\)(只有一个高维中介?不,取 \(p=2\) 或 3 可看到问题本质,但这还不是“最小内核”。最小内核是 \(p=1\),但“高维”这时不成立。所以需要退到:只有一个真正的活跃中介,其他全都是噪声中介(sparse setting)。为最小,就设 \(p=1\)(活跃)加上 \(p-1\) 个噪声中介。但最好展示选择了哪个中介**。

设:\(p=5\),但真实 \(\boldsymbol{\beta}\) 只有第一个非零;混杂 \(q=1\)(一维连续形),真实 \(f(x) = \exp(x) + \sin(x)\)(强非线性)。

在这种情况下: - 第一步:用 DNN (一个浅层全连接网络,隐含层宽度 20,一个隐藏层)去估计 \(f(x)\)\(g_j(x)\)\(j=1,\dots,5\)。具体操作:对每个 \(j\),将 \(\mathbf{X}\) 作为输入、\(M_j\) 作为输出,训练网络得到 \(\hat{g}_j(X)\);然后对 \(Y\),将 \((A, \mathbf{M}, \mathbf{X})\) 作为输入拟合全模型,提取 \(f\) 的估计 \(\hat{f}(X)\)

  • 第二步:用剩余残差做惩罚部分线性模型:

    \[\tilde{Y}_i = Y_i - \hat{f}(\mathbf{X}_i),\quad \tilde{M}_{ij} = M_{ij} - \hat{g}_j(\mathbf{X}_i).\]
    在新残差数据上,模型退化为:
    \[\tilde{Y}_i = \tau A_i + \sum_{j=1}^5 \beta_j \tilde{M}_{ij} + \tilde{\varepsilon}_i.\]
    \(\tau,\beta\) 的估计→使用 lasso(设定 \(\lambda \sim \sqrt{\log(p)/n}\)),得到 \(\hat{\beta} = (\hat{\beta}_1,0,0,0,0)\)(稀疏),\(\hat{\tau}\) 由 remaining 部分加上 debias 步骤得到。

  • 第三步:检验直接效应 \(H_{0,\text{NDE}}: \tau = 0\)。构造统计量:

    \[T_{\text{NDE}} = \frac{\hat{\tau}}{\widehat{\text{SE}}(\hat{\tau})} \xrightarrow{d} N(0,1) \text{ under } H_0.\]
    原假设成立时 Type-I error \(\to \alpha\)(因 debiased lasso 的渐近正态性保证)。

  • 第四步:检验间接效应 \(H_{0,\text{NIE}}: \sum_{j} \alpha_j \beta_j = 0\)。注意 \(\beta\) 的 Debias:用 lasso 选出的 \(\hat{\beta}_1\),计算 \(\widehat{\text{Var}}(\hat{\alpha}_1 \hat{\beta}_1)\)(通过 delta method + lasso inference sandwich 型方差估计),构造 Z 统计量,Old standard。

此最小内核说明了 DP2LM 最核心的三个动作: 1. 用 DNN 剥离非线性混杂 (减少对主线性模型的污染); 2. 用 lasso / penalized 选择活跃中介并估计效应($ \alpha_j, \beta_j $); 3. 用 debias 步骤调整选择偏差,使得最终的检验在原假设下(且 \(\tau=0\)\(\sum\alpha\beta=0\))近似正态,Type-I error 得以控制。

这个最小内核就是论文一般情形的“去壳版”——将 \(p\) 从 5 改为 \(p \gg n\),将 DNN 的宽度 / 深度从单层扩展到多层,将非参数回归收敛率用到更高要求(如 DNN 的 \(n^{-2\gamma/(2\gamma+\text{dim}_X)}\) 界),但思路相同。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在高维中介变量(\(p \gg n\))且混杂 \(X\) 中存在非线性效应的因果中介分析中,如何对自然直接效应(NDE)与自然间接效应(NIE)分别做点估计与假设检验,并严格控制原假设下的 Type-I error。
  2. 核心工具 / 方法:DNN(深度神经网络)先拟合非线性混杂,再将残差送入带 lasso 惩罚的部分线性模型做高维中介选择与效应估计,再进一步用 debiased 思路构造 NDE 和 NIE 的检验统计量,并证明其渐近正态性。
  3. 主要结论:模拟显示,在大量中介变量(\(p=200, 500\))且强非线性混杂(的几种函数形式)下,DP2LM 在效应估计上偏差小于现有方法(如 HTE),在 NDE 和 NIE 的假设检验中,Type-I error 接近于名义水平(\(\alpha=0.05\) 时,实测拒否率约 0.04–0.06),而 power 随真实效应增大而增长;在 DNA 甲基化与童年创伤数据中,识别出若干新的显著中介。

关键设定与假设

  • 模型:严格是部分线性结构(如前面第二步所写),这是本文区别于纯非参数中介分析的关键——它假设非线性完全通过混杂变量 \(X\) 进入模型,而处理 \(A\) 与中介 \(M\)\(Y\) 的影响是线性的。
  • (对比:Dai (2022) 允许 \(M\) 的效应也可非参数,但只能在 \(p\) 较小下工作。)
  • 假设 H1(SUTVA + consistency):基本的因果中介识别条件,忽略它无法定义反事实。
  • 假设 H2(DNN 估计的收敛率假设)\(f(\cdot)\)\(g_j(\cdot)\) 属于 \((\beta, L)\)-Hölder 类(\(\beta >0, L<\infty\)),然后 DNN 的经典逼近误差 + 估计误差可达到 \(O_p(n^{-2\beta/(2\beta+q)}\log n)\),用 empirical risk 解析得到。这条假设使得后一步部分线性残差中的偏差可能达到足够小(\(o_p(n^{-1/2})\)),否则检验的渐近正态会垮掉。
  • 假设 H3(高维稀疏性)\(\boldsymbol{\beta}\) (各中介→Y 系数)是 \(s\)-稀疏的(\(s=o(\sqrt{n}/\log p)\)),且 lasso 的 restricted eigenvalue 条件对 \(\tilde{M}\) 成立——与常规高维线性模型相同。
  • 假设 H4(error 独立性)\(\varepsilon\)\(\eta_j\) 相互独立(或至少不相关),这是为了在 NIE 检验中用 delta 方法时,\(\hat{\alpha}_j\)\(\hat{\beta}_j\) 的方差可加。
  • 与已有文献的对比
  • 比起 Zhao (2020) 等,放宽了混杂的线性假设(用 DNN 代替线性模型)。
  • 比起 Dai (2022),加强了对中介效应部分线性结构的假设,放宽了对 \(p\) 的限制(Dai 的核方法无法处理 \(p\gg n\))。

主要结果

  • 定理 1(直接效应 NDE 的估计与检验)
  • 陈述:在假设 H1–H4 下,通过 debiased lasso 得到的 \(\hat{\tau}_{\text{debiased}}\) 满足:
    \[\sqrt{n}(\hat{\tau}_{\text{debiased}} - \tau) \xrightarrow{d} N(0,V_{\text{NDE}})\]
    其中 \(V_{\text{NDE}}\) 是可一致估计的渐近方差。因此,检验统计量 \(T_{\text{NDE}} = \hat{\tau}_{\text{debiased}} / \widehat{SE}(\hat{\tau}_{\text{debiased}})\)\(\tau=0\) 下收敛到 \(N(0,1)\)
  • 解决了难点:由 DNN 非线性混杂剥离引入的 \(\hat{f}(X) - f(X)\) 偏差需要控制为 \(o_p(n^{-1/2})\),这要求 DNN 的收敛率较快。本文引用 Deep learning 经典逼近定理证明了在 Hölder 类下可达该速率。
  • 定理 2(间接效应 NIE 的估计与检验)
  • 陈述:设 \(\hat{\eta} = \sum_{j=1}^p \hat{\alpha}_j \hat{\beta}_j\)(其中 \(\hat{\alpha}_j\) 来自简单 OLS of \(M_j\) on \(A\)\(\hat{\beta}_j\) 来自 lasso + debias),则:
    \[\sqrt{n}\big(\hat{\eta} - \eta\big) \xrightarrow{d} N(0, V_{\text{NIE}})\]
    其中 \(\eta = \sum_j \alpha_j \beta_j\)
  • 这里关键技术难点:\(\hat{\beta}_j\) 的 debias 需要估计高阶并连项的方差——因为 \(\text{Var}(\hat{\alpha}_j \hat{\beta}_j)\) 需要 delta method + cross-product 的渐近协方差。本文使用了一种 removing selection bias 的方差估计器:先对 \(\beta\) 做 lasso 选择,只对选定集合计算 \(\hat{\alpha}_j\)\(\hat{\beta}_j\) 的方差-协方差矩阵,然后在未选上的中介中设 \(\beta_j=0\) 而给出了一个上界(保守检验)。
  • 这是为什么 Type-I error 在原假设下能被控制:因为即使小偏差,保守方差会使拒绝域稍窄(Type-I error ≤ 名义水平)。这是 valid 而非 sharp 的检验。

  • 定理 3(渐进方差的一致估计):略——证明交叉验证式的方差估计器收敛到 \(V_{\text{NDE}}\)\(V_{\text{NIE}}\)

证明路线与技术技巧(理论型)

  • 整体路线(3–5 步)
  • 第一步:DNN 拟合与残差化。用 DNN 估计 \(f\)\(g_j\) 得到 \(\hat{f}, \hat{g}_j\)。得到“剥离后”残差 \((\tilde{Y}, \tilde{M}) = (Y - \hat{f}(X), M - \hat{g}_j(X))\)。此处关键在于证明残差偏差的二阶无穷小性:\(\|\hat{f} - f\|_{L_2} = o_p(n^{-1/4})\),使 main 方程里的估计偏差能 \(\times \sqrt{n} \to 0\)
  • 第二步:用 lasso 估计 \(\tau\)\(\boldsymbol{\beta}\)。在残差数据上运行 lasso,得到 \(\tilde{\tau}^{(0)}\)\(\tilde{\boldsymbol{\beta}}^{(0)}\)(初始有偏估计)。已知 lasso 的 \(\sqrt{n}\)-一致性只对非零系数成立,所以对 \(\tau\) 的初始估计是有偏的。
  • 第三步:debiasing 直接效应。构造去偏 \(\hat{\tau}_{\text{debiased}} = \tilde{\tau}^{(0)} + \text{score correction}\):通过在一阶最优条件中加入一个 influence function 版本的修正,使得修正后的估计在 lasso 选择集下 \(\sqrt{n}\) 收敛到真值且渐近正态。这是常规 debiased lasso (van de Geer 2014, Javanmard & Montanari 2014)的直接应用,只不过这里的残差还包含来自 DNN 的误差。
  • 第四步:debiasing 间接效应。对于每一个 \(\hat{\alpha}_j\)(OLS from \(M_j\) on \(A\),简单),和 \(\hat{\beta}_j\)(lasso + debiased),使用 delta method:\(\sqrt{n}(\hat{\alpha}_j \hat{\beta}_j - \alpha_j\beta_j) \approx \sqrt{n}(\hat{\beta}_j \cdot (\hat{\alpha}_j - \alpha_j) + \hat{\alpha}_j \cdot (\hat{\beta}_j - \beta_j))\)。跨所有 \(j\) 求和后,中心极限定理加交叉矩的估计。但要处理 active set 外估计 \(\beta_j = 0\) 的问题:作者巧妙地用一个保守方差估计算子:只在被选的 active set \(S\) 上计算 \(\sum_{j\in S} \hat{\alpha}_j \hat{\beta}_j\) 的渐近方差,而把第 \(\Lambda \backslash S\) 上的项方差归零——这低估了噪声的方差,等价于构造保守的(即略宽)的置信区间,Type-I error ≤ \(\alpha\) 但 power 略受损失。
  • 第五步:方差估计与正态检验

  • 关键跳跃点(最吃功夫的引理):

  • Lemma 3(关于 DNN 逼近 \(\hat{f}\) 的偏差收敛率):它需要证明 DNN 的 empirical risk minimizer 的 \(L_2\) 误差在主模型上满足 \(O_p(n^{-2\beta/(2\beta+q)}\log n)\),这是将经典理论(Farrell, Liang & Misra 2021)应用到截断交叉验证估计量的结果。
  • Lemma 5(对新不相关残差的 restricted eigenvalue 条件):因为 \(\tilde{M}\) 包含 \(\hat{g}\) 的误差,所以它不完全是原始协方差结构。作者证明,只要 \(\hat{g}\) 收敛够快,条件数几乎不变,从而 lasso 的 oracle inequality 仍然成立。这个证明引用了 Belloni et al. (2016) 中的“post-approximation”引理。

  • 技术技巧点名

  • DNN 非参数拟合(第三章)— 用于逼近住 \(f\)\(g_j\)
  • Debiased Lasso / score correction(3.2.1)— 清洗对有偏估计的修正,得到 \(\hat{\tau}_{\text{debalanced}}\)
  • Delta method for product(3.2.2)— 为 NIE 检验提供渐近方差。
  • Conservative variance estimation(3.2.2)— 将 No selection → 降低 Type-I error(保守,但 power 不减太多)。
  • Cross-fitting(文中未明确命名,但用到了“split-sample DNN fitting”防止 overfitting — 这与 DML 中 cross-fitting 思想一致,用于放松 DNN 对残差独立性的要求。

真实例子

  • 数据:来自“童年创伤人群 DNA 甲基化(DNAm)对皮质醇应激反应的中介效应”流行病学研究(数据:MOST,n= 约 200–300,9 个 CpG 位点甲基化数据通过 Illumina 450k 平台得到,\(p\) 在数百量级)。
  • 场景\(A\) = 是否经历童年创伤(binary);\(\mathbf{M}\) = 多个 CpG 位点的甲基化水平(每个位点作为一个潜在中介);\(Y\) = 皮质醇应激反应(连续);\(\mathbf{X}\) = 年龄、性别、BMI 等混杂变量。
  • 方法使用:DP2LM 直接实施于该数据。对每个 CpG,拟合 \(M_j \sim A + g_j(X)\) 的 DNN;然后拟合 \(Y \sim A + \sum M_j\beta_j + f(X)\) —— 选出若干甲基化位点作为显著中介。
  • 结果:发现 2 个 CpG 位点(cg02711608、cg04829115,位于相关基因区域)显著中介童年创伤→皮质醇反应,其中直接效应 \(\tau\) 也显著(表明部分中介之外仍有直接路径保留)。与直接做 lasso(无 DNN)相比,选择的中介更少但生物学上更可靠(p-value 约小 5–10 倍)。
  • 意图:展示 DP2LM 在真实数据中能“在降低假阳性(Type-I error控制)的同时,发现几个生物学上合理的、现有的基于线性方法未显著检测的中介”。

🔎 结论是否比证明窄

  • 本文在模拟和定理中假设 error \(\eta_j\)\(\varepsilon\) 相互独立。但在真实例子(甲基化数据)中,\(\eta_j\)\(\varepsilon\) 很可能在个体层面相关(例如未观测到的混杂)。作者在讨论部分承认“对 error 独立性的放宽留待未来”,但这意味真实数据的 NIE 检验 p-value 可能不是严格 Type-I 可控制的。这是一条明显 gap:理论证明是独立假设的保护伞,但实际应用的稳健性未检验。
  • 另一条:在定理 1 和 2 中,用“交叉验证选 \(\lambda\)”的 lasso 理论仅对特定值成立(如 \(\lambda \asymp \sqrt{\log p / n}\))。实际中 CV 挑出的 \(\lambda\) 可能偏离该理论值,作者没有讨论这种偏差对渐近方差的额外影响。

四、开放问题

  1. Error 独立性的放宽:理论需要 \(\varepsilon \perp\!\!\!\perp \boldsymbol{\eta}\)。在真实流行病学数据中,这几乎从不成立。需大样本证明在“弱相关”下检验是否仍保守(实证上 DP2LM 的效果如何随相关性增加而降解?)——扎根于第三节“限制”部分对独立性的承认。

  2. 高维间接效应检验的 sharp efficiency:本文的 NIE 检验为“保守”设计(Type-I error ≤ α)。是否可以构造一个非保守(exact)检验?这要求对活跃集外 \(\beta\) 做出更精细的推断(也许是 LO OV-inference for high-dimensional product)。——扎根于定理 2 后面的讨论句:“The variance estimator … is conservative by construction.”

  3. DNN 收敛率依赖假设 \(\beta\) (Hölder 指数)在实践中的检验不可知性:定理 1 不需要已知 \(\beta\),但需要 \(\beta \ge q/2\)(这样收敛率 \(n^{-2\beta/(2\beta+q)}=o(n^{-1/2})\))。在 \(q\) 不可能太大时(\(q\geq 4\) 即需 \(\beta > 2\))该条件可能过强。在神经网络的“过度参数化”实践中该假设是否为必要?——扎根于引理 3的假设 3.1 和陈述。

  4. 交叉拟合方差估计中的 split proportion 影响:本文中 DNN 的首次拟合使用一部分数据,第二部分用于 debiased lasso。交叉拟合的比例影响 debias 后的方差。能否对比例做一个 minimax-optimal 的构造?——这是一个统计计算 trade-off 问题,如果研究者对“cross-fitting + DNN”的 computation-efficiency 感兴趣,值得探索。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论