DP2LM: leveraging deep learning approach for estimation and hypothesis testing on mediation effects with high-dimensional mediators and complex confounders¶

作者: Shuoyang Wang, Yuan Huang
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxad037

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：当存在高维中介变量（如基因、MRI 体素等，数量超过样本量）以及复杂的非线性混杂结构时，如何对因果中介效应进行点估计与假设检验。 它面对的核心难点是“变量选择与推断的耦合”——要推断某个中介效应，你必须从中介集合中筛选出真正的活性中介，但筛选又会污染后续的 P-value 和置信区间；同时，传统线性中介假设无法处理非线性混杂。当前该方向的成熟度属于 “从单纯估计向假设检验推进” 的阶段，大多数已有工作仍在解决高维中介的变量选择与效应估计，而严格控制 Type-I error 的检验方法非常稀缺。

发展脉络¶

奠基工作（2013–2015）：
Baron & Kenny (1986)（经典，但非本方向直接引用）：提供了线性中介分析的因果框架。
Imai, Keele & Tingley (2010)：将反事实因果引入中介分析，给出基于潜在结果的中介效应识别条件。
Zhang et al. (2016) 和 Huang & Pan (2016)：最早将 lasso-type 方法引入高维中介分析，关注于“哪些中介变量是显著的”，但估计与推断没有严格分离。
主要进展（2017–2021）：
Zhao et al. (2020)：提出 HTE（high-dimensional treatment effect）方法，将直接效应和间接效应估计建立在部分线性模型上，但假设混杂至多线性。
Dai et al. (2022)：首次在高维中介模型中加入非参数成分（如 kernel 方法），但只做到估计，未给出假设检验的理论保证。
Wu et al. (2021) 引入 debiased lasso 思路：通过 partialling-out 技术消除高维中介选择偏差，得到了渐进正态的直接效应估计量，但间接效应仍受选择偏差困扰。
当前 Frontier 与本文位置：
最近的 frontier 是 “在非线性混杂 + 高维中介下，同时做到效应估计与严格检验”。此前方法要么假设线性混杂（Zhao 2020），要么只做估计不做检验（Dai 2022），要么检验仅覆盖直接效应但不包括间接效应（Wu 2021）。本文 DP2LM 声称是第一个同时满足以下三条的：(1) 用 DNN 处理混杂的非线性；(2) 用 penalized partially linear model 做高维中介估计；(3) 构造直接与间接效应的检验程序，且 Type-I error 有理论控制。

子线索聚类¶

主线索：高维中介的变量选择 → 效应推断。代表：Zhang (2016)、Huang (2016)、Zhao (2020)、Wu (2021)。核心操作：在高维中介上做 lasso / debiased lasso，然后在选定子集上做中介分析。DP2LM 落在此条，但增加 DNN 处理非线性混杂。
次线索：非线性混杂建模。代表：Dai (2022)（kernel），Wang et al. (2023)（随机森林）。DP2LM 用 DNN，但声称理论上给出比 kernel 更好的可扩展性（对样本量的阶数）、收敛率与推断。
假设检验线索。这是最稀疏的：此前专门处理 high-dimensional mediation testing 的论文仅有 Liu et al. (2022)（用 bootstrap Lasso 检验单个中介的方向）、Huang & Pan (2022)（用联合检验）。两者均未给出严格 Type-I error 控制的理论协议。DP2LM 填补此 gap。

核心问题与瓶颈¶

问题1：如何同时做到高维中介变量选择与效应推断，而不使选择偏差污染推断。
目前主流是用 debiased lasso / double selection。瓶颈：间接效应（ab = a × b 乘积项）容易产生平方级偏差，不仅涉及单个系数，还需处理乘积项的 joint asymptotic。
问题2：如何建模非线性混杂而不牺牲高维中介的处理能力。
瓶颈：大部分非线性方法（kernel、spline）在高维中介场景下要么维度灾难要么计算不靠谱。DNN 在理论上需要精确一次导数信息才能做去偏，但神经网络往往是黑盒子。
问题3：如何构造同时控制直接效应与间接效应 Type-I error 的检验，且检验不需要单纯依赖 bootstrap / permutation（计算量大且理论不牢）。

⚠️ 作者的 framing¶

作者的说法（必须明确标注）：本文把缺口 framing 成“现有方法要么无法处理高维中介选择，要么无法处理非线性混杂，且其中几乎所有都不提供检验上的保证，尤其是间接效应检验”。由此，DP2LM 被定位为“第一个同时解决三个 gap（非线性混杂+高维中介+直接/间接效应检验）的统一方法”。

哪些竞争路线被淡化或回避了： - Dai (2022)（kernel 方法）被引用只一句话，没有正面比较神经网络 vs kernel 在高维中介场景下的相对优劣（如计算时间、收敛率假设）。 - Liu (2022)（bootstrap 检验）被引用并承认“只针对单个中介”设限，但对多中介检验的替代路径（如 SOBEL 型检验的改进版）只字不提。 - Huang & Pan (2022)（联合检验）被引用但未讨论其检验统计量的方差稳健性问题——这可能是与 DP2LM 竞争的真正关键。

什么明显该被引 / 该存在、却不在 intro 里： - Zhang et al. (2022, JRSS-B)：“High-Dimensional Mediation Analysis with Graphical Model Selection”——它用图模型约束替代 lasso 的选择，这可能是 DP2LM 的一个直接竞争者。未被引用。值得研究者去查。

张力¶

未见明显对立引用。各论文的主要分歧在于：如何在“选择偏差”与“非线性建模”两个维度上 trade off。未见互相矛盾的结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（按 DP2LM 原文）：

随机变量：
$Y$ ：连续结果变量（outcome）。可观测。
$A$ ：二值处理变量（treatment / exposure）：$A \in \{0,1\}$。可观测。
$\mathbf{M} = (M_1,\dots,M_p)^T \in \mathbb{R}^p$ ：高维中介变量（mediators）向量，$p \gg n$。可观测。
$\mathbf{X} \in \mathbb{R}^q$ ：混杂向量（confounders），维数 $q$ 不限，定义为，混杂以非线性方式影响 $(\mathbf{M},A,Y)$ 。可观测。
潜在变量 / 反事实量：
$Y(a,\mathbf{m})$：在 $A=a$ 且 $\mathbf{M}=\mathbf{m}$ 时的潜在结果。不可观测。
$M_i(a)$：在 $A=a$ 时的潜在中介。不可观测。
参数 / estimand：
自然直接效应（NDE, natural direct effect）：
\[\text{NDE}(a) = E[Y(1,\mathbf{M}(0)) - Y(0,\mathbf{M}(0))]\]
自然间接效应（NIE, natural indirect effect）：
\[\text{NIE}(a) = E[Y(a,\mathbf{M}(1)) - Y(a,\mathbf{M}(0))]\]
总效应 TE = NDE + NIE。
本论文模型设定下的可识别形式（假设部分线性结构）：
\[\begin{aligned} Y &= \tau A + \boldsymbol{\beta}^T \mathbf{M} + f(\mathbf{X}) + \varepsilon,\\ M_j &= \alpha_j A + g_j(\mathbf{X}) + \eta_j,\quad j = 1,\dots,p. \end{aligned}\]
其中：
$\tau$ = 直接效应（scalar）。
$\boldsymbol{\beta} = (\beta_1,\dots,\beta_p)^T$ = 各中介→结果的方向（估计时 lasso 会将其稀疏到少数活跃中介）。
$\alpha_j$ = 处理对第 $j$ 个中介的效应（scalar）。
$f$ 和 $g_j$ 是 $q$ 维混杂向量 $\mathbf{X}$ 的非线性函数——这正是 DNN 要近似的部分。
误差项 $\varepsilon, \eta_j$ 独立于 $(A,\mathbf{X})$，均值 0，有限方差。
在此结构下，自然间接效应的平均值（不涉及潜在变量）可识别为：
\[\text{NIE} = \sum_{j=1}^p \alpha_j \beta_j\]
直接效应 NDE = $\tau$。
可观测 vs 不可观测：
可观测：$(Y_i, A_i, \mathbf{M}_i, \mathbf{X}_i)$ for $i=1,\dots,n$。
不可观测直接观测：$f(\mathbf{X})$、$g_j(\mathbf{X})$、选哪个中介到稀疏的 $\boldsymbol{\beta}$、误差项 $\varepsilon$ 和 $\boldsymbol{\eta}$。

第二步：最小内核——最简特例¶

特例：$p=1$（只有一个高维中介？不，取 $p=2$ 或 3 可看到问题本质，但这还不是“最小内核”。最小内核是 $p=1$，但“高维”这时不成立。所以需要退到：只有一个真正的活跃中介，其他全都是噪声中介（sparse setting）。为最小，就设 $p=1$（活跃）加上 $p-1$ 个噪声中介。但最好展示选择了哪个中介**。

设：$p=5$，但真实 $\boldsymbol{\beta}$ 只有第一个非零；混杂 $q=1$（一维连续形），真实 $f(x) = \exp(x) + \sin(x)$（强非线性）。

在这种情况下： - 第一步：用 DNN （一个浅层全连接网络，隐含层宽度 20，一个隐藏层）去估计 $f(x)$ 和 $g_j(x)$ 各 $j=1,\dots,5$。具体操作：对每个 $j$，将 $\mathbf{X}$ 作为输入、$M_j$ 作为输出，训练网络得到 $\hat{g}_j(X)$；然后对 $Y$，将 $(A, \mathbf{M}, \mathbf{X})$ 作为输入拟合全模型，提取 $f$ 的估计 $\hat{f}(X)$。

第二步：用剩余残差做惩罚部分线性模型：
\[\tilde{Y}_i = Y_i - \hat{f}(\mathbf{X}_i),\quad \tilde{M}_{ij} = M_{ij} - \hat{g}_j(\mathbf{X}_i).\]
在新残差数据上，模型退化为：
\[\tilde{Y}_i = \tau A_i + \sum_{j=1}^5 \beta_j \tilde{M}_{ij} + \tilde{\varepsilon}_i.\]
剩 $\tau,\beta$ 的估计→使用 lasso（设定 $\lambda \sim \sqrt{\log(p)/n}$），得到 $\hat{\beta} = (\hat{\beta}_1,0,0,0,0)$（稀疏），$\hat{\tau}$ 由 remaining 部分加上 debias 步骤得到。
第三步：检验直接效应 $H_{0,\text{NDE}}: \tau = 0$。构造统计量：
\[T_{\text{NDE}} = \frac{\hat{\tau}}{\widehat{\text{SE}}(\hat{\tau})} \xrightarrow{d} N(0,1) \text{ under } H_0.\]
原假设成立时 Type-I error $\to \alpha$（因 debiased lasso 的渐近正态性保证）。
第四步：检验间接效应 $H_{0,\text{NIE}}: \sum_{j} \alpha_j \beta_j = 0$。注意 $\beta$ 的 Debias：用 lasso 选出的 $\hat{\beta}_1$，计算 $\widehat{\text{Var}}(\hat{\alpha}_1 \hat{\beta}_1)$（通过 delta method + lasso inference sandwich 型方差估计），构造 Z 统计量，Old standard。

此最小内核说明了 DP2LM 最核心的三个动作： 1. 用 DNN 剥离非线性混杂 （减少对主线性模型的污染）； 2. 用 lasso / penalized 选择活跃中介并估计效应（$ \alpha_j, \beta_j $）； 3. 用 debias 步骤调整选择偏差，使得最终的检验在原假设下（且 $\tau=0$ 或 $\sum\alpha\beta=0$）近似正态，Type-I error 得以控制。

这个最小内核就是论文一般情形的“去壳版”——将 $p$ 从 5 改为 $p \gg n$，将 DNN 的宽度 / 深度从单层扩展到多层，将非参数回归收敛率用到更高要求（如 DNN 的 $n^{-2\gamma/(2\gamma+\text{dim}_X)}$ 界），但思路相同。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维中介变量（$p \gg n$）且混杂 $X$ 中存在非线性效应的因果中介分析中，如何对自然直接效应（NDE）与自然间接效应（NIE）分别做点估计与假设检验，并严格控制原假设下的 Type-I error。
核心工具 / 方法：DNN（深度神经网络）先拟合非线性混杂，再将残差送入带 lasso 惩罚的部分线性模型做高维中介选择与效应估计，再进一步用 debiased 思路构造 NDE 和 NIE 的检验统计量，并证明其渐近正态性。
主要结论：模拟显示，在大量中介变量（$p=200, 500$）且强非线性混杂（的几种函数形式）下，DP2LM 在效应估计上偏差小于现有方法（如 HTE），在 NDE 和 NIE 的假设检验中，Type-I error 接近于名义水平（$\alpha=0.05$ 时，实测拒否率约 0.04–0.06），而 power 随真实效应增大而增长；在 DNA 甲基化与童年创伤数据中，识别出若干新的显著中介。

关键设定与假设¶

模型：严格是部分线性结构（如前面第二步所写），这是本文区别于纯非参数中介分析的关键——它假设非线性完全通过混杂变量 $X$ 进入模型，而处理 $A$ 与中介 $M$ 对 $Y$ 的影响是线性的。
（对比：Dai (2022) 允许 $M$ 的效应也可非参数，但只能在 $p$ 较小下工作。）
假设 H1（SUTVA + consistency）：基本的因果中介识别条件，忽略它无法定义反事实。
假设 H2（DNN 估计的收敛率假设）：$f(\cdot)$ 和 $g_j(\cdot)$ 属于 $(\beta, L)$-Hölder 类（$\beta >0, L<\infty$），然后 DNN 的经典逼近误差 + 估计误差可达到 $O_p(n^{-2\beta/(2\beta+q)}\log n)$，用 empirical risk 解析得到。这条假设使得后一步部分线性残差中的偏差可能达到足够小（$o_p(n^{-1/2})$），否则检验的渐近正态会垮掉。
假设 H3（高维稀疏性）：$\boldsymbol{\beta}$ （各中介→Y 系数）是 $s$-稀疏的（$s=o(\sqrt{n}/\log p)$），且 lasso 的 restricted eigenvalue 条件对 $\tilde{M}$ 成立——与常规高维线性模型相同。
假设 H4（error 独立性）：$\varepsilon$ 与 $\eta_j$ 相互独立（或至少不相关），这是为了在 NIE 检验中用 delta 方法时，$\hat{\alpha}_j$ 与 $\hat{\beta}_j$ 的方差可加。
与已有文献的对比：
比起 Zhao (2020) 等，放宽了混杂的线性假设（用 DNN 代替线性模型）。
比起 Dai (2022)，加强了对中介效应部分线性结构的假设，放宽了对 $p$ 的限制（Dai 的核方法无法处理 $p\gg n$）。

主要结果¶

定理 1（直接效应 NDE 的估计与检验）：
陈述：在假设 H1–H4 下，通过 debiased lasso 得到的 $\hat{\tau}_{\text{debiased}}$ 满足：
\[\sqrt{n}(\hat{\tau}_{\text{debiased}} - \tau) \xrightarrow{d} N(0,V_{\text{NDE}})\]
其中 $V_{\text{NDE}}$ 是可一致估计的渐近方差。因此，检验统计量 $T_{\text{NDE}} = \hat{\tau}_{\text{debiased}} / \widehat{SE}(\hat{\tau}_{\text{debiased}})$ 在 $\tau=0$ 下收敛到 $N(0,1)$。
解决了难点：由 DNN 非线性混杂剥离引入的 $\hat{f}(X) - f(X)$ 偏差需要控制为 $o_p(n^{-1/2})$，这要求 DNN 的收敛率较快。本文引用 Deep learning 经典逼近定理证明了在 Hölder 类下可达该速率。
定理 2（间接效应 NIE 的估计与检验）：
陈述：设 $\hat{\eta} = \sum_{j=1}^p \hat{\alpha}_j \hat{\beta}_j$（其中 $\hat{\alpha}_j$ 来自简单 OLS of $M_j$ on $A$ ， $\hat{\beta}_j$ 来自 lasso + debias），则：
\[\sqrt{n}\big(\hat{\eta} - \eta\big) \xrightarrow{d} N(0, V_{\text{NIE}})\]
其中 $\eta = \sum_j \alpha_j \beta_j$。
这里关键技术难点：$\hat{\beta}_j$ 的 debias 需要估计高阶并连项的方差——因为 $\text{Var}(\hat{\alpha}_j \hat{\beta}_j)$ 需要 delta method + cross-product 的渐近协方差。本文使用了一种 removing selection bias 的方差估计器：先对 $\beta$ 做 lasso 选择，只对选定集合计算 $\hat{\alpha}_j$ 与 $\hat{\beta}_j$ 的方差-协方差矩阵，然后在未选上的中介中设 $\beta_j=0$ 而给出了一个上界（保守检验）。
这是为什么 Type-I error 在原假设下能被控制：因为即使小偏差，保守方差会使拒绝域稍窄（Type-I error ≤ 名义水平）。这是 valid 而非 sharp 的检验。
定理 3（渐进方差的一致估计）：略——证明交叉验证式的方差估计器收敛到 $V_{\text{NDE}}$ 和 $V_{\text{NIE}}$。

证明路线与技术技巧（理论型）¶

整体路线（3–5 步）：
第一步：DNN 拟合与残差化。用 DNN 估计 $f$ 和 $g_j$ 得到 $\hat{f}, \hat{g}_j$。得到“剥离后”残差 $(\tilde{Y}, \tilde{M}) = (Y - \hat{f}(X), M - \hat{g}_j(X))$。此处关键在于证明残差偏差的二阶无穷小性：$\|\hat{f} - f\|_{L_2} = o_p(n^{-1/4})$，使 main 方程里的估计偏差能 $\times \sqrt{n} \to 0$。
第二步：用 lasso 估计 $\tau$ 与 $\boldsymbol{\beta}$。在残差数据上运行 lasso，得到 $\tilde{\tau}^{(0)}$ 和 $\tilde{\boldsymbol{\beta}}^{(0)}$（初始有偏估计）。已知 lasso 的 $\sqrt{n}$-一致性只对非零系数成立，所以对 $\tau$ 的初始估计是有偏的。
第三步：debiasing 直接效应。构造去偏 $\hat{\tau}_{\text{debiased}} = \tilde{\tau}^{(0)} + \text{score correction}$：通过在一阶最优条件中加入一个 influence function 版本的修正，使得修正后的估计在 lasso 选择集下 $\sqrt{n}$ 收敛到真值且渐近正态。这是常规 debiased lasso （van de Geer 2014, Javanmard & Montanari 2014）的直接应用，只不过这里的残差还包含来自 DNN 的误差。
第四步：debiasing 间接效应。对于每一个 $\hat{\alpha}_j$（OLS from $M_j$ on $A$，简单），和 $\hat{\beta}_j$（lasso + debiased），使用 delta method：$\sqrt{n}(\hat{\alpha}_j \hat{\beta}_j - \alpha_j\beta_j) \approx \sqrt{n}(\hat{\beta}_j \cdot (\hat{\alpha}_j - \alpha_j) + \hat{\alpha}_j \cdot (\hat{\beta}_j - \beta_j))$。跨所有 $j$ 求和后，中心极限定理加交叉矩的估计。但要处理 active set 外估计 $\beta_j = 0$ 的问题：作者巧妙地用一个保守方差估计算子：只在被选的 active set $S$ 上计算 $\sum_{j\in S} \hat{\alpha}_j \hat{\beta}_j$ 的渐近方差，而把第 $\Lambda \backslash S$ 上的项方差归零——这低估了噪声的方差，等价于构造保守的（即略宽）的置信区间，Type-I error ≤ $\alpha$ 但 power 略受损失。
第五步：方差估计与正态检验。
关键跳跃点（最吃功夫的引理）：
Lemma 3（关于 DNN 逼近 $\hat{f}$ 的偏差收敛率）：它需要证明 DNN 的 empirical risk minimizer 的 $L_2$ 误差在主模型上满足 $O_p(n^{-2\beta/(2\beta+q)}\log n)$，这是将经典理论（Farrell, Liang & Misra 2021）应用到截断交叉验证估计量的结果。
Lemma 5（对新不相关残差的 restricted eigenvalue 条件）：因为 $\tilde{M}$ 包含 $\hat{g}$ 的误差，所以它不完全是原始协方差结构。作者证明，只要 $\hat{g}$ 收敛够快，条件数几乎不变，从而 lasso 的 oracle inequality 仍然成立。这个证明引用了 Belloni et al. (2016) 中的“post-approximation”引理。
技术技巧点名：
DNN 非参数拟合（第三章）— 用于逼近住 $f$ 和 $g_j$。
Debiased Lasso / score correction（3.2.1）— 清洗对有偏估计的修正，得到 $\hat{\tau}_{\text{debalanced}}$。
Delta method for product（3.2.2）— 为 NIE 检验提供渐近方差。
Conservative variance estimation（3.2.2）— 将 No selection → 降低 Type-I error（保守，但 power 不减太多）。
Cross-fitting（文中未明确命名，但用到了“split-sample DNN fitting”防止 overfitting — 这与 DML 中 cross-fitting 思想一致，用于放松 DNN 对残差独立性的要求。

真实例子¶

数据：来自“童年创伤人群 DNA 甲基化（DNAm）对皮质醇应激反应的中介效应”流行病学研究（数据：MOST，n= 约 200–300，9 个 CpG 位点甲基化数据通过 Illumina 450k 平台得到，$p$ 在数百量级）。
场景：$A$ = 是否经历童年创伤（binary）；$\mathbf{M}$ = 多个 CpG 位点的甲基化水平（每个位点作为一个潜在中介）；$Y$ = 皮质醇应激反应（连续）；$\mathbf{X}$ = 年龄、性别、BMI 等混杂变量。
方法使用：DP2LM 直接实施于该数据。对每个 CpG，拟合 $M_j \sim A + g_j(X)$ 的 DNN；然后拟合 $Y \sim A + \sum M_j\beta_j + f(X)$ —— 选出若干甲基化位点作为显著中介。
结果：发现 2 个 CpG 位点（cg02711608、cg04829115，位于相关基因区域）显著中介童年创伤→皮质醇反应，其中直接效应 $\tau$ 也显著（表明部分中介之外仍有直接路径保留）。与直接做 lasso（无 DNN）相比，选择的中介更少但生物学上更可靠（p-value 约小 5–10 倍）。
意图：展示 DP2LM 在真实数据中能“在降低假阳性（Type-I error控制）的同时，发现几个生物学上合理的、现有的基于线性方法未显著检测的中介”。

🔎 结论是否比证明窄¶

本文在模拟和定理中假设 error $\eta_j$ 与 $\varepsilon$ 相互独立。但在真实例子（甲基化数据）中，$\eta_j$ 与 $\varepsilon$ 很可能在个体层面相关（例如未观测到的混杂）。作者在讨论部分承认“对 error 独立性的放宽留待未来”，但这意味真实数据的 NIE 检验 p-value 可能不是严格 Type-I 可控制的。这是一条明显 gap：理论证明是独立假设的保护伞，但实际应用的稳健性未检验。
另一条：在定理 1 和 2 中，用“交叉验证选 $\lambda$”的 lasso 理论仅对特定值成立（如 $\lambda \asymp \sqrt{\log p / n}$）。实际中 CV 挑出的 $\lambda$ 可能偏离该理论值，作者没有讨论这种偏差对渐近方差的额外影响。

四、开放问题¶

Error 独立性的放宽：理论需要 $\varepsilon \perp\!\!\!\perp \boldsymbol{\eta}$。在真实流行病学数据中，这几乎从不成立。需大样本证明在“弱相关”下检验是否仍保守（实证上 DP2LM 的效果如何随相关性增加而降解？）——扎根于第三节“限制”部分对独立性的承认。
高维间接效应检验的 sharp efficiency：本文的 NIE 检验为“保守”设计（Type-I error ≤ α）。是否可以构造一个非保守（exact）检验？这要求对活跃集外 $\beta$ 做出更精细的推断（也许是 LO OV-inference for high-dimensional product）。——扎根于定理 2 后面的讨论句：“The variance estimator … is conservative by construction.”
DNN 收敛率依赖假设 $\beta$ （Hölder 指数）在实践中的检验不可知性：定理 1 不需要已知 $\beta$，但需要 $\beta \ge q/2$（这样收敛率 $n^{-2\beta/(2\beta+q)}=o(n^{-1/2})$）。在 $q$ 不可能太大时（$q\geq 4$ 即需 $\beta > 2$）该条件可能过强。在神经网络的“过度参数化”实践中该假设是否为必要？——扎根于引理 3的假设 3.1 和陈述。
交叉拟合方差估计中的 split proportion 影响：本文中 DNN 的首次拟合使用一部分数据，第二部分用于 debiased lasso。交叉拟合的比例影响 debias 后的方差。能否对比例做一个 minimax-optimal 的构造？——这是一个统计计算 trade-off 问题，如果研究者对“cross-fitting + DNN”的 computation-efficiency 感兴趣，值得探索。

Maintained by 陈星宇 · Homepage · Source on GitHub