跳转至

A deep neural network two-part model and feature importance test for semicontinuous data

作者: Baiming Zou, Xinlei Mi, Shiyu Wan, Di Wu, James G. Xenakis et al.
来源: Annals of Applied Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: University of North Carolina at Chapel Hill(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aoas2013


一、领域脉络与小综述

这个方向是什么: 半连续数据建模与推断要解决的根本统计问题是:当响应变量以不可忽略的概率取零值、而在取正值时连续分布且往往右偏时,如何同时刻画“是否发生”(零与非零的二值过程)与“发生时强度如何”(正值的连续过程),并对这两个潜在过程的协变量效应做出估计与推断。当前该方向在应用侧已高度成熟(参数与半参数 two-part 模型是临床与经济实证的标配),但在非参数/机器学习嵌入后的特征推断侧仍处于起步期——缺乏既保留 DNN 拟合复杂交互的灵活性、又提供逐特征 \(p\)-value 的可行方案。

发展脉络: - 奠基工作:Duan et al. (1983) 提出对数正态 two-part 模型,将半连续响应拆为二值与连续两部分分别建模,成为后续所有 two-part 框架的原型;Mullahy (1998) 引入广义线性模型(GLM)设定,允许两部分各自用指数族分布建模,放宽了正态假设。 - 主要进展:半参数化阶段。Olsen & Schafer (2001) 与 Tooze et al. (2002) 将两部分用混合效应联合建模,处理纵向半连续数据;Liu et al. (2018) 与 Zou et al. (2021) 在 cross-sectional 设定下引入半参数 two-part 模型,用样条或单索引放宽线性可加假设,但仍依赖特定的低维结构假设。 - 当前 frontier:机器学习/深度学习嵌入阶段。Faraggi & Leung (1998) 与 Schmidt & Heidenreich (2020) 探索了 DNN 在生存与回归中的逼近能力;Zou et al. (2023) 提出基于 DNN 的 two-part 模型(sDNN),用 bootstrap 稳定化解决 DNN 估计方差爆炸问题,但未提供特征推断程序。 - 本文的位置:在 sDNN 的基础上,进一步推导特征重要性检验程序(fsDNN),声称在保留 DNN 非参数逼近能力的同时,为每个协变量提供逐特征的 \(p\)-value,并用筛选出的特征反哺预测。

子线索聚类: 1. 参数/半参数 two-part 联合建模(Olsen & Schafer 2001, Tooze et al. 2002, Liu et al. 2018, Zou et al. 2021):聚焦于两部分之间的相关性(如共享随机效应)与半参数扩展(样条/单索引),核心瓶颈是仍受限于低维可加或单索引结构,无法捕捉高阶交互。 2. DNN 非参数逼近与稳定化(Faraggi & Leung 1998, Schmidt & Heidenreich 2020, Zou et al. 2023):利用 DNN 的万能逼近性质拟合复杂函数,核心瓶颈是 DNN 估计的高方差导致逐特征推断不可行(单次训练的系数/梯度极不稳定)。 3. 机器学习特征筛选与推断(Lundberg & Lee 2017 SHAP, Lei et al. 2020 knockoffs):提供全局或局部特征重要性度量,但多为启发式或缺乏逐特征 \(p\)-value 的严格统计推断。

这个方向在追问的核心问题: 1. 如何在半连续数据的两部分结构中嵌入非参数/机器学习逼近,同时不破坏两部分联合似然的合理性? 2. DNN 估计的高方差如何被有效控制,以使基于 DNN 的特征推断(如梯度/权重检验)不至于因训练随机性而失效? 3. 在非参数设定下,如何为单个协变量构造特征重要性检验,使其 \(p\)-value 在零假设下有正确的覆盖率,且能检测非线性与交互效应?

当前主流方法与已知瓶颈:主流仍为参数/半参数 GLM 与样条 two-part 模型,瓶颈在于线性/可加假设过强;DNN 方法虽能拟合复杂函数,但瓶颈在于缺乏特征推断程序(无 \(p\)-value、无置信区间)。

⚠️ 作者的 framing: - 作者将缺口 frame 为:现有 two-part 模型依赖线性可加假设,无法捕捉非线性交互;而现有 DNN 方法虽灵活但缺乏特征推断程序。因此,本文的 sDNN+fsDNN 被呈现为“显然的下一步”——既保留 DNN 灵活性,又提供逐特征 \(p\)-value。 - 被淡化的竞争路线:半参数 debiased ML / HOIF 路线(如 Chernozhukov et al. 2018 的 double ML,或更高阶 influence function 路线)在一般半参数模型中已提供逐特征推断,但 intro 未提及;knockoffs 路线(Lei et al. 2020)提供 FDR 控制的特征筛选,但 intro 仅提 SHAP 而未提 knockoffs;因果推断中的 proximal / IV 路线亦未提及,尽管半连续数据在临床中常伴随未观测混杂。 - 明显该被引却未出现的:任何涉及 DNN 推断的 debiased ML 或 Neyman orthogonality 文献(如 Chernozhukov et al. 2018, 2022);高维特征筛选的 knockoffs 或 SPI 文献;半参数 two-part 模型的效率界文献(这些缺失使得本文的推断方案缺乏与半参数效率理论的对照,研究者可去查证这是否是刻意回避还是领域隔阂)。

张力: 未见明显对立引用。参数/半参数路线与 DNN 路线在 intro 中被呈现为互补而非矛盾,但一个隐含张力是:DNN 的万能逼近性质是否与 two-part 模型两部分联合似然的识别条件冲突(如两部分 DNN 是否可能逼近到使联合概率不唯一或边界不稳定)——intro 未讨论此点。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号
  • \(Y\):响应变量(半连续,取值在 \(\{0\} \cup \mathbb{R}^+\))。
  • \(X = (X_1, \ldots, X_p) \in \mathbb{R}^p\)\(p\) 维协变量向量。
  • \(I = \mathbf{1}(Y > 0)\):二值指示变量,标记响应是否为正。
  • \(Y^* = Y \cdot I\):当 \(Y > 0\) 时的正值部分(即 \(Y^* = Y\)\(Y>0\),否则未定义/不观测)。
  • \(\theta_1(x), \theta_2(x)\):两部分的真实回归函数——\(\theta_1(x) = P(I=1 \mid X=x)\)(概率部分),\(\theta_2(x) = E[\log Y^* \mid X=x, I=1]\)(正值部分的对数均值,假设取 log 使分布近似正态)。
  • \(\hat{\theta}_1, \hat{\theta}_2\):DNN 对 \(\theta_1, \theta_2\) 的估计。
  • \(B\):bootstrap 重抽样次数。
  • \(T_j\):针对第 \(j\) 个协变量 \(X_j\) 的特征重要性检验统计量。
  • \(n\):样本量;\(p\):协变量维数。

  • 模型(数据生成机制): 半连续数据的 two-part 生成机制:

  • 给定 \(X=x\),先由二值过程生成 \(I \sim \text{Bernoulli}(\theta_1(x))\)
  • \(I=1\),再由连续过程生成 \(Y^* \mid (X=x, I=1) \sim \exp(\theta_2(x) + \epsilon)\),其中 \(\epsilon\) 为零均值噪声(如正态),即 \(\log Y^*\) 的条件均值为 \(\theta_2(x)\)
  • 最终观测 \(Y = I \cdot Y^*\)。 两部分假设在给定 \(X\) 后独立(这是经典 two-part 模型的核心假设,本文沿用)。 \(\theta_1(x)\)\(\theta_2(x)\) 是未知的非参数函数,本文用 DNN 逼近它们。

  • 可观测数据: 研究者实际观测到的是 \(\{(X_i, Y_i)\}_{i=1}^n\),其中 \(Y_i\) 为半连续(大量零与正值连续分布)。\(I_i\)\(Y_i^*\) 可由 \(Y_i\) 直接计算(\(I_i = \mathbf{1}(Y_i>0)\)\(Y_i^* = Y_i\)\(Y_i>0\)),因此两部分的数据集可构造为:二值部分用 \(\{(X_i, I_i)\}_{i=1}^n\),连续部分用 \(\{(X_i, \log Y_i^*)\}_{i: Y_i>0}\)(子样本,样本量 \(n_1 = \sum I_i\))。 不可观测/需假设识别的:\(\theta_1(x)\)\(\theta_2(x)\) 的非参数结构(DNN 逼近需假设网络架构足够大以逼近真实函数,且训练算法能收敛到近优解);两部分在给定 \(X\) 后的独立性假设(不可检验,需靠领域知识认定)。

第二步:最小内核——支撑整篇论文的最简特例

最简特例:\(p=1\)(单协变量),两部分均为单变量非参数回归,DNN 为单隐藏层浅网络

在这个特例下: - 二值部分:\(I \sim \text{Bernoulli}(\theta_1(X))\),用浅 DNN 逼近 \(\theta_1(x)\),输出经 sigmoid 保证在 \([0,1]\)。 - 连续部分:\(\log Y^* \mid X=x, I=1 \sim \mathcal{N}(\theta_2(x), \sigma^2)\),用浅 DNN 逼近 \(\theta_2(x)\),输出无约束。 - 特征重要性检验退化为:对单协变量 \(X_1\),检验 \(H_0: \theta_1(x)\) 不依赖 \(x\)(或 \(\theta_2(x)\) 不依赖 \(x\))——即检验该协变量在对应部分中是否有任何效应(线性、非线性或交互,在 \(p=1\) 时交互不存在)。

核心思路在这个特例下如何走: 1. sDNN 稳定化:对二值部分数据 \(\{(X_i, I_i)\}\)\(B\) 次 bootstrap 重抽样,每次训练一个浅 DNN 得 \(\hat{\theta}_1^{(b)}(x)\),最终取 \(B\) 次的平均作为稳定化估计 \(\tilde{\theta}_1(x) = \frac{1}{B}\sum_{b=1}^B \hat{\theta}_1^{(b)}(x)\)。连续部分同理。这相当于用 bootstrap 降低 DNN 训练随机性导致的方差。 2. fsDNN 特征检验:在 \(p=1\) 特例下,检验统计量 \(T_1\) 构造为:基于 \(B\) 次 bootstrap 估计的梯度/变化度(如 \(\frac{1}{B}\sum_{b=1}^B \|\nabla_x \hat{\theta}_1^{(b)}(x)\|^2\) 的样本平均,或预测值在扰动后的差异),在 \(H_0\)\(\theta_1(x)\) 为常数,梯度应为零,因此 \(T_1\) 应趋于零;在 \(H_1\)\(T_1\) 为正。通过 bootstrap 分布构造 \(p\)-value。 3. 为什么成立:bootstrap 平均降低了 DNN 估计的方差,使得梯度/变化度估计在 \(H_0\) 下集中在零附近,而在 \(H_1\) 下能检测非零梯度;浅 DNN 的万能逼近性质保证在 \(H_1\) 下能捕捉非参数效应。

一般情形只是这个特例的"加壳"\(p>1\) 时梯度变为对每个 \(X_j\) 的偏导数,检验变为逐特征 \(H_0: \theta_1(x)\)\(x_j\) 无依赖(偏导数为零);DNN 变为深网络;bootstrap 与过滤算法(剔除不稳定的 bootstrap 样本)被加入以应对高维与深网络的训练不稳定性。核心数学困难仍然是:DNN 估计的梯度/偏导数在单次训练下方差极大,bootstrap 稳定化如何保证检验统计量在 \(H_0\) 下的分布可被 bootstrap 分布良好近似,以及过滤算法何时不会引入选择偏差。


三、这篇论文做了什么

三句话: ① 研究了半连续数据的非参数 two-part 建模与逐特征推断问题,针对传统参数/半参数方法无法捕捉非线性交互、而 DNN 方法缺乏特征推断程序的缺口。 ② 核心方法是 sDNN(bootstrap 稳定化 DNN 两部分估计)与 fsDNN(基于稳定化 DNN 的特征重要性检验,用 bootstrap 梯度/变化度构造检验统计量与 \(p\)-value)。 ③ 主要结论:fsDNN 在零假设下能提供正确覆盖率的 \(p\)-value,在非零假设下能检测非线性与交互效应,且用筛选出的特征重新拟合 sDNN 可提升预测性能;模拟与真实数据中优于参数/半参数 two-part 模型与常用 ML 方法。

关键设定与假设: - Two-part 独立性假设:给定 \(X\) 后,\(I\)\(Y^*\) 独立(沿用经典 two-part 模型假设,未放宽)。 - DNN 逼近假设\(\theta_1(x)\)\(\theta_2(x)\) 属于 DNN 可逼近的函数类(具体为:存在有限宽/深网络使逼近误差可控,依赖万能逼近定理与网络架构选择)。 - Bootstrap 稳定化假设\(B\) 次 bootstrap 重抽样后平均的 DNN 估计 \(\tilde{\theta}\) 的方差较单次 DNN 估计 \(\hat{\theta}\) 显著降低,且 bootstrap 分布能近似 \(\tilde{\theta}\) 的真实分布(这是检验推断成立的关键,论文未给出严格的渐近理论证明,依赖模拟验证)。 - 过滤算法假设:剔除训练损失异常高的 bootstrap 样本不会引入系统性选择偏差(论文用模拟展示过滤后估计更稳定,但未给出选择偏差的理论保证)。 - 相比已有文献:放宽了线性/可加假设(Liu et al. 2018, Zou et al. 2021 的样条/单索引仍受限),但未放宽两部分独立性假设;在推断侧,相比 Zou et al. (2023) 的 sDNN 新增了特征检验程序,但相比半参数 debiased ML 路线(Chernozhukov et al. 2018)缺乏 Neyman orthogonality 与效率界的保证。

主要结果

  1. sDNN 估计的稳定性(模拟验证为主)
  2. 陈述:bootstrap 平均 + 过滤算法(剔除高损失 bootstrap 样本)使 DNN 两部分估计的 MSE 与方差较单次 DNN 显著降低,在样本量 \(n=500, 1000, 2000\) 与维数 \(p=5, 10, 20\) 下模拟显示 sDNN 的 MSE 低于单次 DNN 与随机森林/XGBoost。
  3. 直觉:bootstrap 平均降低训练随机性导致的方差,过滤算法剔除"跑飞"的 bootstrap 样本进一步降低方差,代价是轻微增加偏差(偏差-方差权衡偏向方差降低)。
  4. 理论保证:论文未给出 sDNN 估计的渐近一致性或收敛率的严格定理,依赖万能逼近定理的定性陈述与模拟验证。

  5. fsDNN 特征重要性检验(核心贡献)

  6. 陈述:对每个协变量 \(X_j\),构造检验统计量 \(T_j\)(基于 \(B\) 次 bootstrap 估计的偏导数/预测差异的聚合,如 \(\frac{1}{B}\sum_{b=1}^B \frac{1}{n}\sum_{i=1}^n |\partial_{x_j} \hat{\theta}^{(b)}(X_i)|^2\) 或扰动前后的预测差),在 \(H_0: X_j\) 对对应部分无效应下,通过 bootstrap 分布计算 \(p\)-value;模拟显示在 \(H_0\) 下 Type I error 接近名义水平(如 0.05),在 \(H_1\) 下(含非线性与交互效应)power 高于参数/半参数检验。
  7. 直觉:DNN 的偏导数/预测差异在 \(H_0\) 下应为零,但单次 DNN 估计的偏导数方差极大;bootstrap 平均稳定化后,偏导数估计在 \(H_0\) 下集中在零,在 \(H_1\) 下能捕捉非零效应;用 bootstrap 分布近似检验统计量的分布以计算 \(p\)-value。
  8. 必要条件:bootstrap 次数 \(B\) 足够大(论文用 \(B=100\));DNN 架构与训练超参数选择合理(论文用交叉验证);过滤算法不引入选择偏差(未严格证明)。
  9. 解决的技术难点:DNN 估计的偏导数/梯度在单次训练下方差极大(不同随机初始化/数据扰动导致梯度变化剧烈),使得基于单次 DNN 的特征检验不可行;bootstrap 稳定化 + 过滤算法将方差降到可做推断的水平。

  10. 特征筛选反哺预测(实证观察)

  11. 陈述:用 fsDNN 筛选出重要特征子集后,仅用该子集重新拟合 sDNN,预测性能(MSE/AUC)优于用全部特征拟合的 sDNN。
  12. 直觉:特征筛选去除了噪声协变量,降低 DNN 的过拟合风险,类似传统特征筛选的益处。
  13. 理论保证:无严格定理,依赖模拟与真实数据的实证观察。

证明路线与技术技巧

本文为方法型论文,核心推断程序(fsDNN 的 Type I error 与 power)缺乏严格的渐近理论证明(如定理陈述"在 \(H_0\)\(T_j\) 的分布收敛至某某"),主要依赖模拟验证。因此"证明路线"更多是算法设计路线:

  • 整体路线(算法设计)
  • 数据拆分:将两部分数据分别拆为训练集与测试集(或用交叉验证),用于 DNN 训练与超参数选择。
  • sDNN 估计:对训练集做 \(B\) 次 bootstrap 重抽样,每次训练一个 DNN(两部分各自训练),计算 \(B\) 次估计的平均作为稳定化估计 \(\tilde{\theta}_1, \tilde{\theta}_2\);过滤算法剔除训练损失高于阈值(如均值+2倍标准差)的 bootstrap 样本,剩余的取平均。
  • fsDNN 检验统计量构造:对每个 \(X_j\),用 \(B\) 次 bootstrap 估计计算偏导数/预测差异的聚合度量(如 \(\frac{1}{B}\sum_{b=1}^B \frac{1}{n_{\text{test}}}\sum_{i \in \text{test}} |\partial_{x_j} \hat{\theta}^{(b)}(X_i)|^2\)),作为 \(T_j\)
  • Bootstrap \(p\)-value 计算:对 \(T_j\) 的分布用 bootstrap 重抽样近似(如计算 \(T_j\)\(B\) 次 bootstrap 下的经验分布,或进一步对 \(T_j\) 本身做 bootstrap),得到 \(p\)-value。
  • 特征筛选与重拟合:剔除 \(p\)-value > 阈值的协变量,用剩余协变量重新拟合 sDNN。

  • 关键跳跃点

  • 从"单次 DNN 偏导数方差极大"到"bootstrap 平均后偏导数方差可控"——这是整篇方法成立的核心跳跃,依赖的假设是 bootstrap 平均能降低方差且不引入不可控偏差,论文未给出此跳跃的严格理论保证(如 bootstrap 平均估计的渐近正态性或方差缩减率的界)。
  • 从"偏导数聚合度量 \(T_j\)"到"\(H_0\)\(T_j\) 的分布可被 bootstrap 近似"——这是检验推断成立的关键跳跃,论文未给出 bootstrap 分布近似的一致性定理(如 \(P(T_j > c_{\alpha}) \to \alpha\) under \(H_0\))。

  • 技术技巧点名

  • Bootstrap 稳定化:用 \(B\) 次 bootstrap 重抽样平均降低 DNN 估计方差,类似 bagging(Breiman 1996),但本文额外加入过滤算法剔除异常 bootstrap 样本。
  • DNN 偏导数/梯度作为特征重要性度量:用 DNN 对 \(X_j\) 的偏导数(或预测扰动差异)度量特征重要性,类似梯度归因方法(Baehrens et al. 2010),但本文用 bootstrap 平均稳定化偏导数。
  • Two-part 模型拆分拟合:两部分各自独立拟合 DNN(二值部分用交叉熵损失,连续部分用 MSE 损失),沿用经典 two-part 的独立性假设,未做联合训练。
  • 过滤算法:剔除训练损失异常的 bootstrap 样本(阈值设为均值+2倍标准差),类似异常值剔除,但未讨论选择偏差。

真实例子与应用

  • 数据/场景:术后急性疼痛(POP)研究数据,响应变量为 POP 评分(0-10 分,大量零值表示无痛,正值连续分布表示有痛),协变量包括患者 demographics、手术类型、麻醉方式等(\(p\) 约 10-20 维)。
  • 怎么用上去:将 POP 评分作为半连续响应 \(Y\),用 sDNN 两部分模型分别拟合"是否疼痛"(\(I>0\))与"疼痛程度"(\(\log Y^*\)),用 fsDNN 检验每个协变量对两部分的重要性,筛选出重要特征后重拟合 sDNN。
  • 得到什么结果:fsDNN 识别出若干对疼痛发生与疼痛强度有非线性/交互效应的协变量(如年龄与麻醉方式的交互),这些效应在参数/半参数 two-part 模型中未被检测到;用筛选特征重拟合的 sDNN 在预测 AUC 与 MSE 上优于全特征 sDNN 与参数/半参数 two-part 模型。
  • 想说明什么:展示 fsDNN 能检测参数方法遗漏的非线性/交互效应,且特征筛选能提升预测性能;验证 sDNN/fsDNN 在真实临床数据中的实用性。

🔎 结论是否比证明窄: - 论文在模拟中展示 fsDNN 的 Type I error 接近名义水平、power 优于参数方法,但未给出任何渐近理论定理保证 Type I error 的覆盖率或 power 的收敛率。Abstract 与 Intro 中声称"fsDNN offers a statistical inference procedure for each feature under complex association",但严格来说这只是模拟观察,而非定理保证——在 \(H_0\)\(T_j\) 的分布是否精确收敛至名义水平、在何种条件下成立,论文未证。 - 论文声称"using the identified features can further improve the predictive performance of sDNN",但这是实证观察,无理论保证(特征筛选后重拟合的预测误差是否严格低于全特征拟合,需假设噪声协变量的数量与效应大小,论文未讨论)。 - 过滤算法是否引入选择偏差,论文未证,仅在模拟中展示"过滤后更稳定"——这是一个被泛泛 claim 但未严格证明的点。


四、开放问题(点到为止,扎根具体语句)

  1. fsDNN 检验的渐近理论:在 \(H_0\)\(T_j\) 的分布是否收敛至名义水平?需要证明 bootstrap 平均 DNN 偏导数的渐近正态性或分布一致性,以及过滤算法不引入选择偏差的条件。扎根点:Abstract 声称"offers a statistical inference procedure"但正文无定理保证 Type I error 覆盖率。
  2. sDNN 估计的收敛率与 minimax 界:sDNN(bootstrap 平均 DNN)的 MSE 收敛率是多少?是否达到非参数回归的 minimax 界?扎根点:Intro 提到 DNN 的"flexibility to accurately approximate complex functions universally"但未讨论收敛率与效率界。
  3. 两部分独立性假设的放宽:当前 two-part 模型假设给定 \(X\)\(I\)\(Y^*\) 独立,若存在未观测混杂使两部分相关(如遗传因素同时影响是否疼痛与疼痛强度),sDNN/fsDNN 的推断是否失效?扎根点:Intro 未讨论此假设的敏感性,亦未引用任何因果推断/敏感性分析文献。
  4. 与半参数效率理论的对照:fsDNN 的特征检验是否达到半参数效率界?若用 debiased ML / HOIF 路线构造 two-part 模型的 efficient influence function,是否能得到更优的检验?扎根点:Intro 完全未提及 debiased ML / HOIF / efficiency bound 文献,这是一个研究者可去查证的缺口——去读同子领域近期 5 篇 intro,看是否有人在做 two-part 模型的效率界或 debiased 推断。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论