A deep neural network two-part model and feature importance test for semicontinuous data¶

作者: Baiming Zou, Xinlei Mi, Shiyu Wan, Di Wu, James G. Xenakis et al.
来源: Annals of Applied Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/25-aoas2013

一、领域脉络与小综述¶

这个方向是什么：半连续数据建模与推断要解决的根本统计问题是：当响应变量以不可忽略的概率取零值、而在取正值时连续分布且往往右偏时，如何同时刻画“是否发生”（零与非零的二值过程）与“发生时强度如何”（正值的连续过程），并对这两个潜在过程的协变量效应做出估计与推断。当前该方向在应用侧已高度成熟（参数与半参数 two-part 模型是临床与经济实证的标配），但在非参数/机器学习嵌入后的特征推断侧仍处于起步期——缺乏既保留 DNN 拟合复杂交互的灵活性、又提供逐特征 \(p\)-value 的可行方案。

发展脉络： - 奠基工作：Duan et al. (1983) 提出对数正态 two-part 模型，将半连续响应拆为二值与连续两部分分别建模，成为后续所有 two-part 框架的原型；Mullahy (1998) 引入广义线性模型（GLM）设定，允许两部分各自用指数族分布建模，放宽了正态假设。 - 主要进展：半参数化阶段。Olsen & Schafer (2001) 与 Tooze et al. (2002) 将两部分用混合效应联合建模，处理纵向半连续数据；Liu et al. (2018) 与 Zou et al. (2021) 在 cross-sectional 设定下引入半参数 two-part 模型，用样条或单索引放宽线性可加假设，但仍依赖特定的低维结构假设。 - 当前 frontier：机器学习/深度学习嵌入阶段。Faraggi & Leung (1998) 与 Schmidt & Heidenreich (2020) 探索了 DNN 在生存与回归中的逼近能力；Zou et al. (2023) 提出基于 DNN 的 two-part 模型（sDNN），用 bootstrap 稳定化解决 DNN 估计方差爆炸问题，但未提供特征推断程序。 - 本文的位置：在 sDNN 的基础上，进一步推导特征重要性检验程序（fsDNN），声称在保留 DNN 非参数逼近能力的同时，为每个协变量提供逐特征的 \(p\)-value，并用筛选出的特征反哺预测。

子线索聚类： 1. 参数/半参数 two-part 联合建模（Olsen & Schafer 2001, Tooze et al. 2002, Liu et al. 2018, Zou et al. 2021）：聚焦于两部分之间的相关性（如共享随机效应）与半参数扩展（样条/单索引），核心瓶颈是仍受限于低维可加或单索引结构，无法捕捉高阶交互。 2. DNN 非参数逼近与稳定化（Faraggi & Leung 1998, Schmidt & Heidenreich 2020, Zou et al. 2023）：利用 DNN 的万能逼近性质拟合复杂函数，核心瓶颈是 DNN 估计的高方差导致逐特征推断不可行（单次训练的系数/梯度极不稳定）。 3. 机器学习特征筛选与推断（Lundberg & Lee 2017 SHAP, Lei et al. 2020 knockoffs）：提供全局或局部特征重要性度量，但多为启发式或缺乏逐特征 \(p\)-value 的严格统计推断。

这个方向在追问的核心问题： 1. 如何在半连续数据的两部分结构中嵌入非参数/机器学习逼近，同时不破坏两部分联合似然的合理性？ 2. DNN 估计的高方差如何被有效控制，以使基于 DNN 的特征推断（如梯度/权重检验）不至于因训练随机性而失效？ 3. 在非参数设定下，如何为单个协变量构造特征重要性检验，使其 \(p\)-value 在零假设下有正确的覆盖率，且能检测非线性与交互效应？

当前主流方法与已知瓶颈：主流仍为参数/半参数 GLM 与样条 two-part 模型，瓶颈在于线性/可加假设过强；DNN 方法虽能拟合复杂函数，但瓶颈在于缺乏特征推断程序（无 \(p\)-value、无置信区间）。

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有 two-part 模型依赖线性可加假设，无法捕捉非线性交互；而现有 DNN 方法虽灵活但缺乏特征推断程序。因此，本文的 sDNN+fsDNN 被呈现为“显然的下一步”——既保留 DNN 灵活性，又提供逐特征 \(p\)-value。 - 被淡化的竞争路线：半参数 debiased ML / HOIF 路线（如 Chernozhukov et al. 2018 的 double ML，或更高阶 influence function 路线）在一般半参数模型中已提供逐特征推断，但 intro 未提及；knockoffs 路线（Lei et al. 2020）提供 FDR 控制的特征筛选，但 intro 仅提 SHAP 而未提 knockoffs；因果推断中的 proximal / IV 路线亦未提及，尽管半连续数据在临床中常伴随未观测混杂。 - 明显该被引却未出现的：任何涉及 DNN 推断的 debiased ML 或 Neyman orthogonality 文献（如 Chernozhukov et al. 2018, 2022）；高维特征筛选的 knockoffs 或 SPI 文献；半参数 two-part 模型的效率界文献（这些缺失使得本文的推断方案缺乏与半参数效率理论的对照，研究者可去查证这是否是刻意回避还是领域隔阂）。

张力：未见明显对立引用。参数/半参数路线与 DNN 路线在 intro 中被呈现为互补而非矛盾，但一个隐含张力是：DNN 的万能逼近性质是否与 two-part 模型两部分联合似然的识别条件冲突（如两部分 DNN 是否可能逼近到使联合概率不唯一或边界不稳定）——intro 未讨论此点。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(Y\)：响应变量（半连续，取值在 \(\{0\} \cup \mathbb{R}^+\)）。
\(X = (X_1, \ldots, X_p) \in \mathbb{R}^p\)：\(p\) 维协变量向量。
\(I = \mathbf{1}(Y > 0)\)：二值指示变量，标记响应是否为正。
\(Y^* = Y \cdot I\)：当 \(Y > 0\) 时的正值部分（即 \(Y^* = Y\) 若 \(Y>0\)，否则未定义/不观测）。
\(\theta_1(x), \theta_2(x)\)：两部分的真实回归函数——\(\theta_1(x) = P(I=1 \mid X=x)\)（概率部分），\(\theta_2(x) = E[\log Y^* \mid X=x, I=1]\)（正值部分的对数均值，假设取 log 使分布近似正态）。
\(\hat{\theta}_1, \hat{\theta}_2\)：DNN 对 \(\theta_1, \theta_2\) 的估计。
\(B\)：bootstrap 重抽样次数。
\(T_j\)：针对第 \(j\) 个协变量 \(X_j\) 的特征重要性检验统计量。
\(n\)：样本量；\(p\)：协变量维数。
模型（数据生成机制）：半连续数据的 two-part 生成机制：
给定 \(X=x\)，先由二值过程生成 \(I \sim \text{Bernoulli}(\theta_1(x))\)。
若 \(I=1\)，再由连续过程生成 \(Y^* \mid (X=x, I=1) \sim \exp(\theta_2(x) + \epsilon)\)，其中 \(\epsilon\) 为零均值噪声（如正态），即 \(\log Y^*\) 的条件均值为 \(\theta_2(x)\)。
最终观测 \(Y = I \cdot Y^*\)。两部分假设在给定 \(X\) 后独立（这是经典 two-part 模型的核心假设，本文沿用）。 \(\theta_1(x)\) 与 \(\theta_2(x)\) 是未知的非参数函数，本文用 DNN 逼近它们。
可观测数据：研究者实际观测到的是 \(\{(X_i, Y_i)\}_{i=1}^n\)，其中 \(Y_i\) 为半连续（大量零与正值连续分布）。\(I_i\) 与 \(Y_i^*\) 可由 \(Y_i\) 直接计算（\(I_i = \mathbf{1}(Y_i>0)\)，\(Y_i^* = Y_i\) 若 \(Y_i>0\)），因此两部分的数据集可构造为：二值部分用 \(\{(X_i, I_i)\}_{i=1}^n\)，连续部分用 \(\{(X_i, \log Y_i^*)\}_{i: Y_i>0}\)（子样本，样本量 \(n_1 = \sum I_i\)）。不可观测/需假设识别的：\(\theta_1(x)\) 与 \(\theta_2(x)\) 的非参数结构（DNN 逼近需假设网络架构足够大以逼近真实函数，且训练算法能收敛到近优解）；两部分在给定 \(X\) 后的独立性假设（不可检验，需靠领域知识认定）。

第二步：最小内核——支撑整篇论文的最简特例

最简特例：\(p=1\)（单协变量），两部分均为单变量非参数回归，DNN 为单隐藏层浅网络。

在这个特例下： - 二值部分：\(I \sim \text{Bernoulli}(\theta_1(X))\)，用浅 DNN 逼近 \(\theta_1(x)\)，输出经 sigmoid 保证在 \([0,1]\)。 - 连续部分：\(\log Y^* \mid X=x, I=1 \sim \mathcal{N}(\theta_2(x), \sigma^2)\)，用浅 DNN 逼近 \(\theta_2(x)\)，输出无约束。 - 特征重要性检验退化为：对单协变量 \(X_1\)，检验 \(H_0: \theta_1(x)\) 不依赖 \(x\)（或 \(\theta_2(x)\) 不依赖 \(x\)）——即检验该协变量在对应部分中是否有任何效应（线性、非线性或交互，在 \(p=1\) 时交互不存在）。

核心思路在这个特例下如何走： 1. sDNN 稳定化：对二值部分数据 \(\{(X_i, I_i)\}\) 做 \(B\) 次 bootstrap 重抽样，每次训练一个浅 DNN 得 \(\hat{\theta}_1^{(b)}(x)\)，最终取 \(B\) 次的平均作为稳定化估计 \(\tilde{\theta}_1(x) = \frac{1}{B}\sum_{b=1}^B \hat{\theta}_1^{(b)}(x)\)。连续部分同理。这相当于用 bootstrap 降低 DNN 训练随机性导致的方差。 2. fsDNN 特征检验：在 \(p=1\) 特例下，检验统计量 \(T_1\) 构造为：基于 \(B\) 次 bootstrap 估计的梯度/变化度（如 \(\frac{1}{B}\sum_{b=1}^B \|\nabla_x \hat{\theta}_1^{(b)}(x)\|^2\) 的样本平均，或预测值在扰动后的差异），在 \(H_0\) 下 \(\theta_1(x)\) 为常数，梯度应为零，因此 \(T_1\) 应趋于零；在 \(H_1\) 下 \(T_1\) 为正。通过 bootstrap 分布构造 \(p\)-value。 3. 为什么成立：bootstrap 平均降低了 DNN 估计的方差，使得梯度/变化度估计在 \(H_0\) 下集中在零附近，而在 \(H_1\) 下能检测非零梯度；浅 DNN 的万能逼近性质保证在 \(H_1\) 下能捕捉非参数效应。

一般情形只是这个特例的"加壳"：\(p>1\) 时梯度变为对每个 \(X_j\) 的偏导数，检验变为逐特征 \(H_0: \theta_1(x)\) 对 \(x_j\) 无依赖（偏导数为零）；DNN 变为深网络；bootstrap 与过滤算法（剔除不稳定的 bootstrap 样本）被加入以应对高维与深网络的训练不稳定性。核心数学困难仍然是：DNN 估计的梯度/偏导数在单次训练下方差极大，bootstrap 稳定化如何保证检验统计量在 \(H_0\) 下的分布可被 bootstrap 分布良好近似，以及过滤算法何时不会引入选择偏差。

三、这篇论文做了什么¶

三句话： ① 研究了半连续数据的非参数 two-part 建模与逐特征推断问题，针对传统参数/半参数方法无法捕捉非线性交互、而 DNN 方法缺乏特征推断程序的缺口。 ② 核心方法是 sDNN（bootstrap 稳定化 DNN 两部分估计）与 fsDNN（基于稳定化 DNN 的特征重要性检验，用 bootstrap 梯度/变化度构造检验统计量与 \(p\)-value）。 ③ 主要结论：fsDNN 在零假设下能提供正确覆盖率的 \(p\)-value，在非零假设下能检测非线性与交互效应，且用筛选出的特征重新拟合 sDNN 可提升预测性能；模拟与真实数据中优于参数/半参数 two-part 模型与常用 ML 方法。

关键设定与假设： - Two-part 独立性假设：给定 \(X\) 后，\(I\) 与 \(Y^*\) 独立（沿用经典 two-part 模型假设，未放宽）。 - DNN 逼近假设：\(\theta_1(x)\) 与 \(\theta_2(x)\) 属于 DNN 可逼近的函数类（具体为：存在有限宽/深网络使逼近误差可控，依赖万能逼近定理与网络架构选择）。 - Bootstrap 稳定化假设：\(B\) 次 bootstrap 重抽样后平均的 DNN 估计 \(\tilde{\theta}\) 的方差较单次 DNN 估计 \(\hat{\theta}\) 显著降低，且 bootstrap 分布能近似 \(\tilde{\theta}\) 的真实分布（这是检验推断成立的关键，论文未给出严格的渐近理论证明，依赖模拟验证）。 - 过滤算法假设：剔除训练损失异常高的 bootstrap 样本不会引入系统性选择偏差（论文用模拟展示过滤后估计更稳定，但未给出选择偏差的理论保证）。 - 相比已有文献：放宽了线性/可加假设（Liu et al. 2018, Zou et al. 2021 的样条/单索引仍受限），但未放宽两部分独立性假设；在推断侧，相比 Zou et al. (2023) 的 sDNN 新增了特征检验程序，但相比半参数 debiased ML 路线（Chernozhukov et al. 2018）缺乏 Neyman orthogonality 与效率界的保证。

主要结果：

sDNN 估计的稳定性（模拟验证为主）：
陈述：bootstrap 平均 + 过滤算法（剔除高损失 bootstrap 样本）使 DNN 两部分估计的 MSE 与方差较单次 DNN 显著降低，在样本量 \(n=500, 1000, 2000\) 与维数 \(p=5, 10, 20\) 下模拟显示 sDNN 的 MSE 低于单次 DNN 与随机森林/XGBoost。
直觉：bootstrap 平均降低训练随机性导致的方差，过滤算法剔除"跑飞"的 bootstrap 样本进一步降低方差，代价是轻微增加偏差（偏差-方差权衡偏向方差降低）。
理论保证：论文未给出 sDNN 估计的渐近一致性或收敛率的严格定理，依赖万能逼近定理的定性陈述与模拟验证。
fsDNN 特征重要性检验（核心贡献）：
陈述：对每个协变量 \(X_j\)，构造检验统计量 \(T_j\)（基于 \(B\) 次 bootstrap 估计的偏导数/预测差异的聚合，如 \(\frac{1}{B}\sum_{b=1}^B \frac{1}{n}\sum_{i=1}^n |\partial_{x_j} \hat{\theta}^{(b)}(X_i)|^2\) 或扰动前后的预测差），在 \(H_0: X_j\) 对对应部分无效应下，通过 bootstrap 分布计算 \(p\)-value；模拟显示在 \(H_0\) 下 Type I error 接近名义水平（如 0.05），在 \(H_1\) 下（含非线性与交互效应）power 高于参数/半参数检验。
直觉：DNN 的偏导数/预测差异在 \(H_0\) 下应为零，但单次 DNN 估计的偏导数方差极大；bootstrap 平均稳定化后，偏导数估计在 \(H_0\) 下集中在零，在 \(H_1\) 下能捕捉非零效应；用 bootstrap 分布近似检验统计量的分布以计算 \(p\)-value。
必要条件：bootstrap 次数 \(B\) 足够大（论文用 \(B=100\)）；DNN 架构与训练超参数选择合理（论文用交叉验证）；过滤算法不引入选择偏差（未严格证明）。
解决的技术难点：DNN 估计的偏导数/梯度在单次训练下方差极大（不同随机初始化/数据扰动导致梯度变化剧烈），使得基于单次 DNN 的特征检验不可行；bootstrap 稳定化 + 过滤算法将方差降到可做推断的水平。
特征筛选反哺预测（实证观察）：
陈述：用 fsDNN 筛选出重要特征子集后，仅用该子集重新拟合 sDNN，预测性能（MSE/AUC）优于用全部特征拟合的 sDNN。
直觉：特征筛选去除了噪声协变量，降低 DNN 的过拟合风险，类似传统特征筛选的益处。
理论保证：无严格定理，依赖模拟与真实数据的实证观察。

证明路线与技术技巧：

本文为方法型论文，核心推断程序（fsDNN 的 Type I error 与 power）缺乏严格的渐近理论证明（如定理陈述"在 \(H_0\) 下 \(T_j\) 的分布收敛至某某"），主要依赖模拟验证。因此"证明路线"更多是算法设计路线：

整体路线（算法设计）：
数据拆分：将两部分数据分别拆为训练集与测试集（或用交叉验证），用于 DNN 训练与超参数选择。
sDNN 估计：对训练集做 \(B\) 次 bootstrap 重抽样，每次训练一个 DNN（两部分各自训练），计算 \(B\) 次估计的平均作为稳定化估计 \(\tilde{\theta}_1, \tilde{\theta}_2\)；过滤算法剔除训练损失高于阈值（如均值+2倍标准差）的 bootstrap 样本，剩余的取平均。
fsDNN 检验统计量构造：对每个 \(X_j\)，用 \(B\) 次 bootstrap 估计计算偏导数/预测差异的聚合度量（如 \(\frac{1}{B}\sum_{b=1}^B \frac{1}{n_{\text{test}}}\sum_{i \in \text{test}} |\partial_{x_j} \hat{\theta}^{(b)}(X_i)|^2\)），作为 \(T_j\)。
Bootstrap \(p\)-value 计算：对 \(T_j\) 的分布用 bootstrap 重抽样近似（如计算 \(T_j\) 在 \(B\) 次 bootstrap 下的经验分布，或进一步对 \(T_j\) 本身做 bootstrap），得到 \(p\)-value。
特征筛选与重拟合：剔除 \(p\)-value > 阈值的协变量，用剩余协变量重新拟合 sDNN。
关键跳跃点：
从"单次 DNN 偏导数方差极大"到"bootstrap 平均后偏导数方差可控"——这是整篇方法成立的核心跳跃，依赖的假设是 bootstrap 平均能降低方差且不引入不可控偏差，论文未给出此跳跃的严格理论保证（如 bootstrap 平均估计的渐近正态性或方差缩减率的界）。
从"偏导数聚合度量 \(T_j\)"到"\(H_0\) 下 \(T_j\) 的分布可被 bootstrap 近似"——这是检验推断成立的关键跳跃，论文未给出 bootstrap 分布近似的一致性定理（如 \(P(T_j > c_{\alpha}) \to \alpha\) under \(H_0\)）。
技术技巧点名：
Bootstrap 稳定化：用 \(B\) 次 bootstrap 重抽样平均降低 DNN 估计方差，类似 bagging（Breiman 1996），但本文额外加入过滤算法剔除异常 bootstrap 样本。
DNN 偏导数/梯度作为特征重要性度量：用 DNN 对 \(X_j\) 的偏导数（或预测扰动差异）度量特征重要性，类似梯度归因方法（Baehrens et al. 2010），但本文用 bootstrap 平均稳定化偏导数。
Two-part 模型拆分拟合：两部分各自独立拟合 DNN（二值部分用交叉熵损失，连续部分用 MSE 损失），沿用经典 two-part 的独立性假设，未做联合训练。
过滤算法：剔除训练损失异常的 bootstrap 样本（阈值设为均值+2倍标准差），类似异常值剔除，但未讨论选择偏差。

真实例子与应用：

数据/场景：术后急性疼痛（POP）研究数据，响应变量为 POP 评分（0-10 分，大量零值表示无痛，正值连续分布表示有痛），协变量包括患者 demographics、手术类型、麻醉方式等（\(p\) 约 10-20 维）。
怎么用上去：将 POP 评分作为半连续响应 \(Y\)，用 sDNN 两部分模型分别拟合"是否疼痛"（\(I>0\)）与"疼痛程度"（\(\log Y^*\)），用 fsDNN 检验每个协变量对两部分的重要性，筛选出重要特征后重拟合 sDNN。
得到什么结果：fsDNN 识别出若干对疼痛发生与疼痛强度有非线性/交互效应的协变量（如年龄与麻醉方式的交互），这些效应在参数/半参数 two-part 模型中未被检测到；用筛选特征重拟合的 sDNN 在预测 AUC 与 MSE 上优于全特征 sDNN 与参数/半参数 two-part 模型。
想说明什么：展示 fsDNN 能检测参数方法遗漏的非线性/交互效应，且特征筛选能提升预测性能；验证 sDNN/fsDNN 在真实临床数据中的实用性。

🔎 结论是否比证明窄： - 论文在模拟中展示 fsDNN 的 Type I error 接近名义水平、power 优于参数方法，但未给出任何渐近理论定理保证 Type I error 的覆盖率或 power 的收敛率。Abstract 与 Intro 中声称"fsDNN offers a statistical inference procedure for each feature under complex association"，但严格来说这只是模拟观察，而非定理保证——在 \(H_0\) 下 \(T_j\) 的分布是否精确收敛至名义水平、在何种条件下成立，论文未证。 - 论文声称"using the identified features can further improve the predictive performance of sDNN"，但这是实证观察，无理论保证（特征筛选后重拟合的预测误差是否严格低于全特征拟合，需假设噪声协变量的数量与效应大小，论文未讨论）。 - 过滤算法是否引入选择偏差，论文未证，仅在模拟中展示"过滤后更稳定"——这是一个被泛泛 claim 但未严格证明的点。

四、开放问题（点到为止，扎根具体语句）¶

fsDNN 检验的渐近理论：在 \(H_0\) 下 \(T_j\) 的分布是否收敛至名义水平？需要证明 bootstrap 平均 DNN 偏导数的渐近正态性或分布一致性，以及过滤算法不引入选择偏差的条件。扎根点：Abstract 声称"offers a statistical inference procedure"但正文无定理保证 Type I error 覆盖率。
sDNN 估计的收敛率与 minimax 界：sDNN（bootstrap 平均 DNN）的 MSE 收敛率是多少？是否达到非参数回归的 minimax 界？扎根点：Intro 提到 DNN 的"flexibility to accurately approximate complex functions universally"但未讨论收敛率与效率界。
两部分独立性假设的放宽：当前 two-part 模型假设给定 \(X\) 后 \(I\) 与 \(Y^*\) 独立，若存在未观测混杂使两部分相关（如遗传因素同时影响是否疼痛与疼痛强度），sDNN/fsDNN 的推断是否失效？扎根点：Intro 未讨论此假设的敏感性，亦未引用任何因果推断/敏感性分析文献。
与半参数效率理论的对照：fsDNN 的特征检验是否达到半参数效率界？若用 debiased ML / HOIF 路线构造 two-part 模型的 efficient influence function，是否能得到更优的检验？扎根点：Intro 完全未提及 debiased ML / HOIF / efficiency bound 文献，这是一个研究者可去查证的缺口——去读同子领域近期 5 篇 intro，看是否有人在做 two-part 模型的效率界或 debiased 推断。

Maintained by 陈星宇 · Homepage · Source on GitHub

A deep neural network two-part model and feature importance test for semicontinuous data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论