Deep partially linear transformation model for right-censored survival data¶

作者: Junkai Yin, Yue Zhang, Zhangsheng Yu
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

该子方向关注在右删失生存数据下，如何同时处理可解释的低维线性协变量和潜在高维、非线性协变量，并以半参数变换模型（semiparametric transformation model）为框架，在保留部分参数可解释性的同时，通过深度神经网络（DNN）逼近非参数成分，规避维度灾难。当前成熟度处于方法扩展与理论验证并进阶段：已有大量针对Cox比例风险模型及其部分线性变体的深度学习方法，但向更一般变换模型的推广尚不充分，且理论性质（尤其是参数部分的半参效率）在DNN设定下仍有缺口。

发展脉络（history）¶

下面串起introduction引用的主要工作，按时间顺序梳理，每个工作点出它做了什么、留下什么口子。

奠基：变换模型的统一框架与估计
Cheng et al. (1995)、Chen et al. (2002) 建立了右删失数据下线性变换模型的估计方程方法，证明参数部分可被n^{1/2}-一致估计。但因模型为纯线性，无法处理非线性协变量。
Zeng et al. (2016) 将变换模型推广至区间删失数据，用EM算法实现非参数最大似然估计，并证明了参数估计的一致性与渐近效率——但非参数部分仍用传统的样条或分段常数逼近，无法灵活处理高维协变量。
部分线性化尝试：参数+低维非参数
Ma and Kosorok (2005) 首次提出部分线性变换模型（partly linear transformation model），针对当前状态数据，用惩罚似然同时估计线性参数和光滑非参数分量；证明参数部分可达n^{1/2}一致与效率，非参数部分仅n^{1/3}收敛。该工作留下一个口子：非参数估计率受限于当前状态数据的结构，且依赖核/样条方法，难以扩展至高维。
Lu and Zhang (2010) 将部分线性变换模型推广到右删失数据，提出基于鞅的估计方程方法（全局+局部加权），并证明了线性参数估计的渐近正态性。但非参数部分仍用核方法，对维数敏感，且未触及效率问题。
深度神经网络的引入：从Cox到部分线性Cox
Katzman et al. (2016) 的DeepSurv以及Lee et al. (2018) 的DeepHit等纯黑箱深度生存模型，虽预测性能强，但缺乏可解释性，且无理论保证（未见收敛率或效率）。
Zhong et al. (2022) 关键性一步：在部分线性Cox模型中引入DNN逼近非线性成分，证明了非参数DNN估计的minimax最优收敛率（至多对数因子），以及参数部分的n^{1/2}-相合、渐近正态与半参效率。这是首个为“DNN sieve + 部分线性Cox”建立完整理论的工作。
Wu et al. (2024) 将类似框架扩展到当前状态数据下的部分线性Cox模型；Zhou et al. (2023) 则扩展到区间删失数据。这些工作均局限于Cox模型（即变换模型中的比例风险特例）。
当前frontier：从Cox到一般变换模型
本文（Yin, Zhang, Yu, Biometrics 2024）将DNN部分线性框架从Cox模型推广到整个半参数变换模型族（包括比例优势、比例几率等）。
同期相关工作：Xie and Yu (2021) 将DNN引入治愈率模型（promotion time cure model）；Norman et al. (2024) 提出深度加速失效时间模型（deepAFT）。但这些均未覆盖变换模型的统一理论。
本文的位置：填补了“DNN sieve + 部分线性变换模型（非Cox特例）”这一空白，并给出与Zhong et al. (2022)平行的完整理论——收敛率、minimax下界、参数部分的半参效率。

子线索聚类¶

被引文献大致落在4条子线索上：

线索	代表工作	做了什么	留下的口子
A. 纯线性/半参数变换模型（无深度）	Cheng et al. (1995), Chen et al. (2002), Zeng et al. (2016), Ma & Kosorok (2005), Lu & Zhang (2010)	建立估计理论，但非参数成分限于传统方法（核、样条），无法应对高维协变量	缺乏对高维、非结构化数据的适应能力
B. 深度生存黑箱模型	DeepSurv (Katzman et al., 2016), DeepHit (Lee et al., 2018), deepAFT (Norman et al., 2024)	预测精度高，但缺乏可解释性与理论保证	无法分离线性可解释部分，无收敛率或效率结果
C. DNN + 部分线性Cox模型（特例）	Zhong et al. (2022), Wu et al. (2024), Zhou et al. (2023)	在Cox模型内提供了完整的DNN sieve理论与效率证明	仅覆盖比例风险，未推广到更一般的变换模型
D. DNN 逼近理论	Yarotsky (2017), Schmidt-Hieber (2020), Ohn & Kim (2020)	提供ReLU DNN对Sobolev/Hölder类函数的逼近误差界及minimax收敛率	为本文的非参数下界提供工具性支撑

本文属于线索C的广义化——将Cox模型替换为整个变换模型族，并结合线索D的逼近理论。

这个方向在追问的核心问题（2-4个）¶

参数部分的可解释性与效率：在有DNN非参数干扰下，线性参数β能否达到n^{1/2}-相合与半参效率？
非参数部分的收敛率：DNN逼近的估计率是否最优（minimax rate）？最优率依赖于函数类光滑性和DNN架构如何？
模型识别的充分条件：变换模型族中的未知递增变换H能否与线性/非线性部分同时识别？需要哪些额外假设（如H单调性、分布族已知或半参数？）
计算可行性：DNN训练与profile似然优化能否稳定收敛？现有优化器（如Adam）是否可靠？

当前主流方法以“Cox模型 + 核/样条”或“Cox模型 + DNN”为主，瓶颈在于：(a) 当PH假设不成立时，Cox模型可能误设；(b) 向更一般变换模型的推广缺乏统一的理论框架，尤其是半参效率的证明需要处理变换函数H带来的额外非参数复杂性。

⚠️ 作者的framing（必须明确标注）¶

这是作者的说法：“Although the Cox proportional hazards model is well established… the PH assumption may not always hold… The class of semiparametric transformation models extends the Cox model and also includes many other survival models as special cases.” 作者把缺口frame成“已有DNN部分线性Cox模型（Zhong et al., 2022），但未推广到更一般变换模型”，因此本文是“显然的下一步”。

被淡化/回避的竞争路线：
全非参数生存模型（如DeepHit、随机生存森林）被完全回避——作者只在与Cox比较时提到它们“缺乏可解释性”，但未正面比较预测性能或理论性质。
基于样条的半参数变换模型（如Zeng et al., 2016）被提及但未与DNN版本做成功率对比——作者仅强调DNN能处理高维数据，但未讨论样条在低维下的计算与效率优势。
什么明显该被引/该存在、却没出现在intro里？
经验过程与鞅理论中的最新进展：如Biometrika上关于sieve MLE渐近正态性的一般理论（Shen & Wong, 1994等）未被引用，虽然其框架可直接用于本文证明。
迁移学习与多任务生存模型：如Lee et al. (2019) 的 Dynamic-DeepHit，以及Li et al. (2020) 的深度竞争风险模型——这些虽不直接相关，但作为与“深度+生存”竞争的通用方法，未被讨论。
部分线性单指标/可加模型的DNN变体：如Feng & Simon (2017) 的DNN加法模型——未被引用，但技术路线有重叠。
（以上三条是值得研究者去查的问题——确认是否存在明显空白或竞争工作。）

张力¶

被引文献之间未见明显对立结论。主要延续性工作是Zhong et al. (2022) → 本文，以及Ma & Kosorok (2005) → Lu & Zhang (2010) → 本文。未见不同条件下相反结论的引文。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（本文核心记号，逐个点名）：

记号	含义
\(T\)	真实的生存时间（潜在变量，部分被删失）
\(C\)	删失时间（假设独立于T给定协变量）
\(\Delta = I(T \le C)\)	删失指示（1=观察到事件，0=删失）
\(U = \min(T, C)\)	观测到的随访时间（右删失下的可观测值）
\(X \in \mathbb{R}^p\)	低维协变量，进入线性参数部分——p固定且远小于样本量n
\(Z\)	高维/非结构化协变量（如图像、基因序列、文本嵌入），进入非参数部分——Z可以是向量、图像、甚至张量，但其维数d_Z可能远大于n或非欧组织
\(\beta \in \mathbb{R}^p\)	线性回归系数，是要估计的参数（finite-dimensional）
\(H: \mathbb{R}^+ \to \mathbb{R}\)	严格递增的未知变换函数（nonparametric）
\(f: \mathcal{Z} \to \mathbb{R}\)	非参数函数，由DNN逼近（nonparametric）
\(\epsilon\)	误差项，服从已知分布，其累积分布函数 \(\Psi\) 已知（如标准极值分布对应Cox）
\(\Psi(\cdot) = 1 - \exp(-\exp(\cdot))\)	比例Cox模型对应的链接函数（Gumbel分布）
\(\theta = (\beta, H, f)\)	全部未知量
\(\eta = (H, f)\)	无穷维nuisance参数

模型（数据生成机制）：
半参数变换模型假设

\[H(T) = - \beta^T X - f(Z) + \epsilon,\]

其中\(\epsilon\)独立于\((X,Z)\)，其分布函数\(\Psi\)已知且绝对连续。等价地，条件生存函数为

\[S(t \mid X, Z) = \Psi\big(H(t) + \beta^T X + f(Z)\big),\]

其中\(\Psi(u) = \Pr(\epsilon > u)\)（即1-CDF）。特别地，当\(\Psi(u) = \exp(-e^u)\)时退化为Cox比例风险模型。变换函数\(H\)和\(f\)均为未知光滑函数，无具体参数形式。

可观测数据：
研究者观察到独立同分布样本 \((U_i, \Delta_i, X_i, Z_i), i=1,\dots,n\)，其中： - \(U_i\)可观测（持续事件时间或删失时间的最小值） - \(\Delta_i\)可观测（是否发生事件） - \(X_i\) (p维, 固定) 和 \(Z_i\) (高维, 固定) 完全观测。

观测不到的量：
- 真实的生存时间\(T_i\)当\(\Delta_i=0\)时未知（右删失） - 误差项\(\epsilon_i\)未直接观测 - 变换函数\(H\)和\(f\)需要从数据中推断 - 潜在的反事实生存时间（如果更换\(X\)或\(Z\)）不可观测——但本文不强调因果解释，仅关注关联预测。

第二步：最小内核——最简特例¶

为了看穿本文核心思路，考虑一个极端简化的特例：

降维设定：假设\(X\)是一维标量（\(p=1\)），\(Z\)也是一维连续变量（\(d_Z=1\)），且两者的真实效应已知为线性\(\beta=1\)和非线性\(f(z)=\sin(2\pi z)\)。
已知变换：假设\(H\)已知为恒等映射\(H(t)=t\)（即log时间模型），且\(\epsilon\)服从标准极值分布（对应Cox）。
无删失：进一步假设\(\Delta_i=1\)对所有i成立（完全观测）。

这时模型退化为：

\[\log T_i = - X_i - \sin(2\pi Z_i) + \epsilon_i, \quad \epsilon_i \sim \text{Gumbel}(0,1).\]

这是一个标准的非线性回归问题（误差分布已知）。但是研究者并不知道\(\beta\)和\(f\)的具体形式——需要从\((T_i, X_i, Z_i)\)中估计。

本文的核心想法（在这个特例下变得一目了然）：
1. DNN近似：用一个深度ReLU网络\(\hat{f}_n\)去逼近未知的\(f\)（例如设置网络深度\(L\sim \log n\)、宽度\(W\sim n^{1/(2\alpha+1)}\)，假设\(f\)属于Hölder类\(\mathcal{H}^\alpha\)）。
2. Profile似然：先固定一个候选\(\beta\)，对每一个\(\beta\)计算“profile”对数似然\(\ell_n(\beta) = \max_{f} \ell_n(\beta, \hat{f}_{\beta})\)，其中内层最大化通过DNN训练完成。
3. 参数估计：最大化profile似然得到\(\hat{\beta}\)，再代入得到\(\hat{f} = \hat{f}_{\hat{\beta}}\)。
4. 理论：在适当光滑性假设下，\(\hat{f}\)达到minimax最优收敛率\(n^{-2\alpha/(2\alpha+1)}\)（至多\(\log n\)因子），而\(\hat{\beta}\)达到\(\sqrt{n}\)-相合且渐近正态、有效。

为什么难（即使在这个特例下）：
- DNN是高度非凸的优化，但理论分析只要求存在一个足够好的网络（不保证全局最优），通过sieve MLE的技巧绕过优化困难。
- 变换函数\(H\)未知时，需要同时估计\(H\)（无穷维），带来额外识别问题和收敛率耦合。特例假设\(H\)已知正好剥离这一层困难，暴露核心。

更复杂的特例（更接近全文）：保留删失，让\(H\)未知但光滑（如\(H\)为r次可微），\(f\)为Hölder\(\alpha\)类。此时模型变为真正的部分线性变换模型。本文的一般结果在这个特例下断言：\(H\)的估计率受限于删失机制（通常\(n^{-1/3}\)量级），\(f\)的估计率约\(n^{-2\alpha/(2\alpha+1)}\)（仍可能最优），而\(\beta\)仍能\(\sqrt{n}\)-有效——只要\(f\)和\(H\)的维数/光滑性满足某些平衡条件（见第三节假设）。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在右删失生存数据下，提出深度部分线性变换模型（Deep Partially Linear Transformation Model, DPLTM），其中线性参数部分\(\beta\)与DNN非参数部分\(f\)及变换函数\(H\)联合估计，旨在规避维度灾难并保留可解释性。
核心工具/方法：基于profile最大似然估计（profile MLE），用DNN（ReLU激活）作为sieve逼近非参数成分\(f\)，用单调样条或递增函数形式逼近\(H\)，然后通过两层嵌套优化（内层DNN训练，外层参数搜索）实现估计。
主要结论：
非参数部分\(f\)的DNN估计达到minimax最优收敛率（至多对数因子），并给出了相应的minimax下界。
参数部分\(\hat{\beta}\)是\(\sqrt{n}\)-相合、渐近正态，并达到半参效率（即渐近方差达到信息下界）。
在仿真和真实数据（SEER数据库肺癌数据）中，DPLTM的预测精度与参数估计质量显著优于线性Cox、部分线性Cox（无DNN）和纯DNN黑箱模型。

关键设定与假设（在第二节符号基础上补充）¶

本文完整的假设结构（参考Zhong et al., 2022的框架，但扩展到变换模型）：

A1（删失独立性）：\(T \perp C \mid (X, Z)\)（条件独立删失）。
A2（可逆链接函数）：\(\Psi\)严格单调递增且二阶可导，\(\lim_{u\to -\infty}\Psi(u)=0,\; \lim_{u\to +\infty}\Psi(u)=1\)。常见例子：\(\Psi(u)=\exp(-e^{-u})\)（Cox），\(\Psi(u)=e^u/(1+e^u)\)（比例优势）。
A3（光滑性）：
\(H \in \mathcal{H}^{r}\)：\(r\)次可微，且\(\inf_{t} H'(t) > 0\)。
\(f \in \mathcal{H}^{\alpha}\)：\(\alpha\)-Hölder类，其中\(\alpha\)可能\(< \infty\)。
本文允许\(r\)与\(\alpha\)不同，这简化了证明但不影响核心结果。
A4（DNN架构条件）：网络深度\(L = L_n\)、宽度\(W = W_n\)、非零参数数量\(S = S_n\)满足某种增长速率，使得逼近误差和控制过拟合平衡（具体条件如Schmidt-Hieber, 2020的框架）。
A5（可识别性）：为防止平移不变性，加约束：\(f(z_0)=0\)对某个固定\(z_0\)，或\(\int f(z) dP_Z(z)=0\)（类似样条中的中心化）。
A6（参数空间紧致）：\(\beta\)属于\(\mathbb{R}^p\)的紧集。

相比于Zhong et al. (2022)的Cox模型，本文放宽了变换函数的特指（Cox是\(\Psi(u)=\exp(-e^{-u})\)），允许任意已知\(\Psi\)，主要技术困难在于处理\(H\)和\(\Psi\)的复合结构，以及profile似然的一阶条件（score function）中涉及\(\Psi\)的导数。

主要结果（理论型，挑2-3个最关键定理）¶

定理1（非参数DNN估计的收敛率）
假设A1-A6，并设\(p_{\text{DNN}}\)为DNN的参数个数。在适当的网络规模下（\(\log p_{\text{DNN}} \asymp \log n\)，且网络足够深以灵活逼近Hölder类），则整体MLE \((\hat{\beta}, \hat{H}, \hat{f})\)满足：

\[d^2(\hat{\theta}, \theta_0) = O_p\big( n^{-2\alpha/(2\alpha+1)} \log^c n \big),\]

其中\(d(\cdot,\cdot)\)是某种度量（如Hellinger距离的平方积分），\(c\)是某个对数因子常数。这意味着非参数部分\(\hat{f}\)的估计率（主导项）与minimax最优率一致。对\(H\)的估计率由\(n^{-2r/(2r+1)}\)主导（可能更慢，但对\(\beta\)的渐近性质无碍）。

定理2（\(\hat{\beta}\)的\(\sqrt{n}\)-相合与渐近正态性）
在相同假设下，令\(\beta_0\)为真值，则

\[\sqrt{n}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma),\]

其中协方差阵\(\Sigma\)等于半参信息界的逆（即达到半参效率）。证明需要建立profile似然的一阶展开式，并验证DNN nuisance估计的收敛速度足够快以至于不影响\(\beta\)的渐近分布（即“二阶小”条件）。

定理3（minimax下界）
对于任何估计器\(\tilde{f}\)（甚至允许知道\(\beta\)真实值），有

\[\inf_{\tilde{f}} \sup_{f \in \mathcal{H}^\alpha} \mathbb{E} \| \tilde{f} - f \|_2^2 \gtrsim n^{-2\alpha/(2\alpha+1)}.\]

该下界通过构造参数子族并使用Fano引理或Assouad引理得到。与定理1的上界匹配，证明DNN估计的收敛率是最优的（至多对数因子）。

必要的技术难点：
- 传统的变换模型理论（Zeng et al., 2016）中，非参数部分用分段常数或样条逼近，其逼近误差易控制；而DNN的逼近误差界依赖网络深度宽度，且需要处理ReLU的分段线性结构（用Yarotsky (2017) 的逼近定理）。
- profile似然中，需要计算关于\(\beta\)的“有效得分函数”并证明其渐近正态，这涉及对nuisance参数\((\hat{H}, \hat{f})\)的收敛率要求——通常要求估出的nuisance以\(o_p(n^{-1/4})\)收敛到真值（在某种范数下）。本文通过DNN的minimax率保证这一条件（只要\(\alpha > (1+?)\)避免边界情况）。
- 删失数据下的似然是部分观测的，需要用鞅工具（如counting process）处理，但本文似乎绕过了鞅框架而直接用经验过程理论（与Zhong et al., 2022类似）。

证明路线与技术技巧（理论型）¶

整体路线（3-5步逻辑主干）：

Step 1: Sieve空间与逼近误差
定义DNN函数类\(\mathcal{F}_n\)（特定的深度-宽度-稀疏结构）。利用Yarotsky (2017) / Schmidt-Hieber (2020) 的结果，证明存在一个DNN函数\(f_n^* \in \mathcal{F}_n\)使得\(\|f_n^* - f_0\|_\infty \lesssim n^{-\alpha/(2\alpha+1)}\)。类似地构造对\(H\)的光滑逼近（可使用单调样条sieve）。将真实\(\theta_0\)投影到sieve空间得到\(\theta_n^*\)。
Step 2: MLE在sieve上的收敛率
定义观测数据的似然函数\(L_n(\theta)\)。通过经验过程理论（如van der Vaart & Wellner, 1996中的定理3.4.1），证明估计量\(\hat{\theta}_n\)满足熵条件，并推导出Hellinger距离的收敛率。主要技巧是用DNN函数类的小球覆盖数（bracketing entropy）控制，利用ReLU网络的维数相关界（约\(O(S \log (L W))\)）。关键引理：\(\log N_{\text{brack}}(\epsilon, \mathcal{F}_n, L_2) \lesssim S \log (L W / \epsilon)\)。
Step 3: 参数部分的一阶展开
将profile似然对\(\beta\)微分，得到得分函数：

\[S_n(\beta) = \frac{\partial}{\partial \beta} \ell_n(\beta, \hat{H}_\beta, \hat{f}_\beta).\]

证明该得分函数是渐近线性（asymptotically linear）的，即\(S_n(\beta_0) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \psi_i(\theta_0) + o_p(1)\)，其中\(\psi_i\)是有效影响函数（efficient influence function）。这一步需要对nuisance估计的插值误差进行泰勒展开并验证剩余项为\(o_p(1/\sqrt{n})\)。关键工具：高阶经验过程与Donsker性条件。

Step 4: 验证二阶小条件
证明\(\|\hat{H} - H_0\| + \|\hat{f} - f_0\| = o_p(n^{-1/4})\)（在适当的范数下）。由于Step 2得到的整体收敛率已包含\(f\)的部分（\(n^{-\alpha/(2\alpha+1)}\)），这要求\(\alpha > 1\)（或是维数低到足以使该率快于\(n^{-1/4}\)）。如果\(\alpha\)太小，则本文的论证仅能保证\(\beta\)的\(\sqrt{n}\)-相合但无法达效率；此时需要额外假设（如部分线性结构的投影性质）来加速。
Step 5: 半参效率
计算变换模型下的半参信息下界。由于变换函数\(H\)与f正交（无重叠），且\(\epsilon\)分布已知，有效得分函数可显式计算（类似Cox模型下的Cox partial likelihood score）。证明\(\hat{\beta}\)的渐近方差等于该下界的逆。

关键跳跃点：
- 最吃功夫的引理：证明“在DNN sieve上求解的MLE尊照标准收敛率理论”是核心。由于DNN参数空间非凸且非参数部分维数高，需要利用经验过程理论中的“局部最小化”方法（local minimality）而非全局最小化。本文可能借用了Schmidt-Hieber (2020) 中关于DNN M估计的通用引理。
- 从整体收敛率到参数部分渐近正态：这要求nuisance估计的偏差以足够快的速度消失。难点在于，DNN是“黑箱”逼近，其偏差的精确形式难以分解，因此作者可能采用“plug-in”式的渐近线性展开，依赖于DNN估计的收敛率（而不关心其结构）。

技术技巧点名：
- 经验过程理论（empirical process）：用于控制MLE在可增长维数sieve上的收敛率（bracketing entropy + Donsker条件）。
- Yarotsky / Schmidt-Hieber ReLU逼近定理：用于bound DNN近似Hölder类函数所需的网络规模。
- 鞅中心极限定理（可能用到）：虽然本文侧重经验过程，但删失数据的得分函数也可能涉及计数过程鞅，但未被明确指定。
- Fano / Assouad引理：用于minimax下界。
- profile似然的二阶展开：类似于Bickel et al. (1993) 的“least favorable”子模型技术，但需适应DNN的非参数性。

真实例子与应用¶

本文使用了一个真实数据集（来自SEER数据库的肺癌患者数据，引用Anggondowati et al., 2020；Wang et al., 2022；Zhang & Zhang, 2023等）。具体：
- 数据：非小细胞肺癌患者队列，记录生存时间、删失指示，以及年龄、性别、肿瘤分期等低维协变量（作为\(X\)），此外还有淋巴结转移相关的高维特征（如log odds of positive lymph nodes等）作为\(Z\)。
- 方法应用：将高维特征用DNN处理，低维线性部分保留可解释性。模型拟合采用Adam优化器（Kingma & Ba, 2014），PyTorch实现。通过profile似然估计\(\beta\)。
- 结果：报告了\(\beta\)的估计值和置信区间，并用C-index和校准曲线（基于Austin et al., 2020的ICI指标）比较预测性能。
- 例子想说明：
- 相比线性Cox模型和纯DNN模型（如DeepSurv），DPLTM在预测精度上相当或更优，同时提供了线性部分的清晰解释。
- 相比于部分线性Cox模型（Zhong et al., 2022），因为更灵活（允许PH假设不成立），拟合效果更好（log-likelihood提升）。
- 展示了在真实生存数据中变换模型假设（如比例机会）比PH更合适的实例。

该例子验证了理论结果的实用性，但并未测试极端高维（如图像）或超高维\(Z\)（d_Z > 1000）。

🔎 结论是否比证明窄¶

窄的地方：
结论声称“参数估计达到半参效率”，但证明中施加了\(f\)的光滑性\(\alpha > 1\)（从而使DNN估计率快于\(n^{-1/4}\)）。如果实际数据中\(f\)很不光滑（例如只有Hölder 0.5），则证明的渐近正态性可能不成立，但结论中未明确标注此条件（而是隐藏在假设A3内）。
另外，仿真使用的\(Z\)维数很低（~2~5），但方法声称“高维”，实际例子的维数并不高——这可能导致对高维真正能力的claim宽于验证。
conjecture：
作者可能推测结果可扩展到更复杂的网络架构（如Transformer），但在introduction中只是提及作为未来工作，没有理论支持。结论部分未包含这种推测。

四、开放问题（点到为止，扎根具体语句）¶

高维参数部分（p大）的变量选择：本文假设线性部分p固定且小。当p随n增长时（比如p > n），是否需要引入惩罚（如SCAD或Lasso）？Sun et al. (2023) 已对部分线性Cox模型做了此扩展，但本文的变换模型下尚未处理。（扎根：简介提及“with the dimension of parametric components exceeds the sample size, the task…”，但本文仅处理p固定情形。）
动态/时变协变量与纵向数据：本文仅处理基线协变量。若Z是随时间更新的（如重复测量图像），模型如何扩展？已有tdCoxSNN (Zeng et al., 2023) 处理时变协变量，但未覆盖变换模型。（扎根：introduction未讨论时变协变量，未来工作一节可能缺失。）
非参数部分的minimax下界是否紧于通用下界：定理3的minimax下界是在知道\(\beta\)、但不知道\(H\)的设定下证明的。如果同时考虑\(H\)非参数和删失机制，下界是否应更慢？本文未澄清下界对\(H\)的依赖。（扎根：定理3陈述中只提及\(f \in \mathcal{H}^\alpha\)，未包含\(H\)的复杂性。）
计算复杂度：profile MLE需要为每个\(\beta\)候选值训练一次DNN，计算代价高昂。能否设计一步法（one-step）或交叉拟合（cross-fitting）来降低计算？（扎根：仿真中使用了Adam优化，但未讨论计算时间；本文未提供计算复杂度分析。）
条件独立性删失假设的敏感性：当删失存在依赖协变量的选择性时，模型可能误设。能否引入逆概率删失加权（IPCW）来放松假设？（扎根：A1假设T⊥C|X,Z，未讨论违反时的鲁棒性。）

（注：上列问题均扎根于本文具体语句/局限性，严禁空谈“方法可迁移”。研究者可自行验证各条是否构成真gap，通过同期约5篇类似论文的introduction对比。）

Maintained by 陈星宇 · Homepage · Source on GitHub