Statistical Inference for High-Dimensional Convoluted Rank Regression¶

作者: Leheng Cai, Xu Guo, Heng Lian, Liping Zhu
来源: Journal of the American Statistical Association
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向聚焦于高维稀疏线性模型中的秩回归（rank regression）的统计推断。秩回归是一类基于响应变量秩次的稳健回归方法，对标L1损失的中位数回归；它通过最小化“成对比较”的误差（即Wilcoxon型损失）获得效率。高维（$p \gg n$）下，这类损失的非光滑性导致计算与理论分析困难。本文通过引入卷积秩损失（convoluted rank loss）来光滑化目标函数，并进一步解决由此产生的去偏推断（debiased inference）问题，尤其是构建回归系数的联合置信区间（simultaneous confidence intervals）。其核心技术挑战在于：该损失函数本质上是二阶U-statistic，其去偏估计器的行为需要新的高维近似理论。

发展脉络（history）¶

奠基工作：高维秩回归的非光滑壁垒。 经典高维秩回归（如Wang & Li, 2009; Peng & Wang, 2015）使用不光滑的秩损失函数，虽然稳健且有效，但计算上依赖线性规划或次梯度算法，且理论分析受到非光滑性限制。这些工作主要关注点估计的相合性与稀疏性，统计推断（如构建置信区间）几乎未被涉足。
主要进展：光滑化与U-statistic结构的引入。 为推动计算与理论，一文系列（Ma et al., 2020; 等）引入卷积秩损失。该损失通过将不连续阶跃核（Heaviside step function）与一个光滑核（如高斯核）进行卷积，得到一个光滑的近似损失。本文引言明确指出这一转化：“To solve this critical issue, high-dimensional convoluted rank regression has been recently proposed”。这个新的损失函数等价于一个二阶U-统计量的和，这带来了两个后果：计算上可以使用梯度下降；理论上引入了U-statistic的投影理论。但已存在的工作（如Ma et al., 2020）仅建立估计误差界（estimation error bound），它们开发出的估计器不能直接用于推断（“these developed estimators cannot be directly used to make inference”）。
当前frontier：高维U-statistic的去偏推断。 本文直接站在这个缺口上。它回答了一个核心问题：对于一个以二阶U-statistic为损失函数的高维M-估计量，如何构建它的去偏估计器，并证明其Bahadur表示与高斯近似成立？这与标准高维单样本去偏Lasso（van de Geer et al., 2014; Zhang & Zhang, 2014）不同，后者处理的是光滑损失（最小二乘或Logistic），且不需要处理由U-statistic带来的、依赖于高阶因子的剩余项。
本文位置：本文是有/无推论背景下，首个（据我了解，在本文之前，高维光滑秩回归没有一致置信域结果）为高维卷积秩回归提供完整推断理论的工作。它用技术复杂性（U-statistic projection + 高维偏差控制 + bootstrap）换取了“在比通常更弱的预测变量条件下”（“under weaker conditions on the predictors”）得到结果——即去掉了常见的“Behrens-Fisher”问题，不要求预测变量分布正态或具有特定结构。

子线索聚类¶

聚类1：非光滑/光滑秩损失的优化与统计理论。包括基础非光滑秩损失（线性规划）与卷积（光滑）秩损失（梯度法），主要工作在估计误差界上（如Ma et al., 2020）。本文超越此聚类，进入推断。
聚类2：高维去偏推断。这一主线包括debiased Lasso（van de Geer et al., 2014; Zhang & Zhang, 2014）、高维分位数回归的去偏推断（Belloni et al., 2019; Zhao et al., 2020）等。本文的工作是“去偏+高维推断”框架在一类特殊的U-statistic损失下的移植。这表明该框架足够鲁棒，但移植本身远非平凡，因为投影余项的结构不同。
聚类3：U-statistic在统计机器学习中的应用理论。U-statistics在核方法、两样本检验里有成熟理论。本文可能是第一个将U-statistic损失的高维去偏推断问题系统解决的例子，因此它开辟了一个新聚类。

这个方向在追问的核心问题¶

C1：在非光滑损失的背景下，能否构造出可计算的、同时具有良好统计效率和推断能力的高维估计器？
C2：当损失函数具有U-statistic结构时，其去偏估计器（debiased estimator）的Bahadur表示中的剩余项阶数是什么？它与单样本去偏Lasso中的“光滑性×稀疏性”条件有何不同？
C3：如何为高维U-statistic型估计器提供有效的bootstrap程序？高斯近似的路径与标准高维bootstrap（Cheng & Shang, 2015）有多大差异？
C4（本文特有）：在卷积秩损失下，估计器达到的正则性条件（如渐近线性表示）是否允许不要求预测变量协方差矩阵严格正定或球对称的弱条件？

⚠️ 作者的framing¶

作者将缺口frame成：“已有高维光滑秩回归只有估计误差界，没有推断；我们的工作补上推断”。这个gap陈述精准且属实。被作者淡化的部分包括： 1. 对去偏Lasso路线的回避：为什么不用这个更简单的Bias-correction公式？因为U-statistic的Hessian矩阵结构不能简单invert（数学上更复杂），作者选择了定义一个载体（score function）的投影，而不是直接inverse Hessian。这是技术正确的选择，但intro没有充分解释为什么去偏Lasso路线的naive移植会失败。 2. 对成对U-statistic结构的简化讨论：二阶卷积秩损失本质上是两个独立同分布观测的二元函数的期望的U-statistic。作者用投影定理摊薄了复杂度，但并没有明确说“这正是为什么比单样本去偏Lasso多出一个额外高阶余项”。

明显该被引/该存在却没出现在intro里的： - 关于高维去偏M-estimator的统一理论（如Ning & Liu, 2017的decorrelated score / 去相关得分法）：实际上本文构造的“去偏估计器”与decorrelated score思想更近（重参数化，而非直接加偏差项）。作者没明确联系这个框架。 - U-statistic的投影极限理论在高维设定下的最近工作：如Lee et al. (2020+)关于高维U-统计量的CLT; 可能让人困惑为什么作者声称“U-statistic的使用带来了挑战”却不引用U-statistic theory in high-dim的说法——但这部分可能是因为领域较新。 - 关于模拟部分所使用的竞争baseline：引言里未提及其他竞争方法（如直接高维野秩回归的推断，如果存在的话）。这让framing略弱：没有明确说“相比替代方法，这方法更好因而是必须的”。

张力¶

本文引用链中未发现明显对立。所有工作趋势一致：从非光滑→光滑→推断。这是理所当然的升级，不是创新性张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

我们考虑高维线性模型：

\[Y_i = \mathbf{X}_i^\top \beta^* + \epsilon_i, \quad i = 1,\dots,n,\]

其中： - $\beta^* \in \mathbb{R}^p$：真实回归系数向量（低维，$p \gg n$，但 $\beta^*$ 是稀疏的，非零元素数为 $s$）。 - $\mathbf{X}_i \in \mathbb{R}^p$：协变量（预测变量），观测到的 $n$ 个独立样本。 - $Y_i \in \mathbb{R}^1$：响应变量，观测值。 - $\epsilon_i \in \mathbb{R}^1$：噪声，假设对称分布（零中位数），方差有限。不可观测。 - $n$：样本量。 - $p$：变量维度（高维：$p \gg n$，但假设 $\log p = o(n^{1/3})$ 左右）。 - 目标 / estimand：$\beta^*$。尤其我们想要对 $\beta^*$ 的同时推断（simultaneous inference）：即构建一个 $p$ 维超矩形置信域，使得 $\beta^*$ 以至少 $1-\alpha$ 概率“落入其中”。

第二步：最小内核¶

本文核心在于，损失函数不再是普通的最小二乘L2损失或合页损失，而是卷积秩损失。这个损失可以看作是一个二阶U-statistic。

最简特例：当 $p=1$，$n$ 很大，无惩罚项。这是一个单变量滑动Rank回归问题。其核心估计量由下式给出：

\[\hat{\beta} = \arg\min_{\beta} \frac{1}{n(n-1)} \sum_{i \neq j} (Y_i - Y_j) \cdot \Phi_h(Y_i - Y_j - (X_i - X_j)\beta) \quad \text{(这是简化版)}\]

更精确的损失函数见原文。

核心想法：卷积秩损失 $L(\beta)$ 本质上是期望的光滑Mann-Whitney成对比较的样本近似。它可写成：

\[L(\beta) = \frac{1}{n(n-1)} \sum_{i \neq j} l_{ij}(\beta),\]

其中 $l_{ij}$ 是一个关于 $(\mathbf{X}_i^\top\beta, Y_i)$ 和 $(\mathbf{X}_j^\top\beta, Y_j)$ 的可微二元函数（因为卷积内部的光滑核）。关键: 这里的 $i$ 和 $j$ 遍历所有 $n(n-1)$ 个无序对，因此它不是独立和，而是二阶U-statistic。

为什么这个U-statistic结构使得推断变难？ 1. 梯度（score function）也是U-statistic：梯度的方差计算不仅涉及单个观测的方差，还涉及协方差（$cov(l_{ij}, l_{ik})$ 对于不同 $i$），这比i.i.d.样本的方差复杂一个数量级。 2. Hessian矩阵结构不同：标准去偏Lasso的Hessian是 $\hat{\Sigma} = n^{-1} \sum_i \mathbf{X}_i \mathbf{X}_i^\top$（可分解为独立和）。而此损失的Hessian包含两个水平的求和（对内 $i$ 和 $j$），这导致其“有效样本量”比 $n$ 小（近似为 $\sqrt{n}$ 量级，在 $p$ 很大时），从而在标准的Bahadur表示中留下更高阶的余项。

最小内核的推导（$p=1$，无惩罚，只关心一次性推论）：假设我们只用一个观测对 $(i,j)$ 来定义估计方程（score function = 0），即：

\[\psi_{ij}(\beta) = 0\]

其中 $\psi$ 是卷积秩损失的梯度的单项。但这是不可行的，因为我们有 $n$ 个点。作者的核心想法是用U-statistic 的投影 将所有 $n(n-1)$ 个项投影到单一样本的子空间上，从而生成一个近似独立和：

\[\text{Score}(\beta)^* \approx \frac{1}{n} \sum_{i=1}^n \text{H}_i(\beta) + \text{高阶项}\]

其中 $\text{H}_i(\beta)$ 是投影后的“one-sample”版 score。这里的“高阶项”就是二阶U-statistic减去其投影的差（这是U-statistic理论中的Hoeffding分解的标准项）。

要证的命题的本质：作者证明了，对于去偏估计器（debiased estimator） $\hat{\beta}^u$，它的插值形式 $ \hat{\beta}^u - \beta^$ 可以被写成：

\[\hat{\beta}^u - \beta^* = \frac{1}{n} \sum_{i=1}^n \text{eff}_i + R_n,\]

其中 $\text{eff}_i$ 是渐近有效的线性项（可视为的 influence function 的低阶部分，但注意此处的 effective sample size 受U-statistic影响），而 $R_n$ 相对于 $\sqrt{mn}$ 的收敛速度是 $o_p(1/\sqrt{\text{有效样本量}})$。也就是说，Bahadur表示成立，关键在于控制$R_n$的余项在高维下的界*。

因此，即使是最简单的单变量情形下，这个内核——即“从U-statistic投影得到线性表示，再证明余项可忽略”——完全抓住了全文的技术挑战。所有后续扩展（高维、多重检验、bootstrap）都是在这个内核上的“加壳”。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维稀疏线性模型中，对基于光滑卷积秩损失得到的回归估计量，构建了其去偏估计器并建立了完整的推断框架（包括点估计的误差界、去偏后的Bahadur表示、高维Gaussian近似与同时置信区间、以及有效的bootstrap程序）。
核心工具/方法：使用U-statistic投影理论（Hoeffding分解）处理损失函数的成对结构；使用debiased estimator构造（通过一个载体函数 $h$ 的投影来替代逆Hessian矩阵）；使用几何（Gaussian）近似处理高维最大偏差（依赖于高维CLT的新版本）；使用乘子bootstrap（multiplier bootstrap）实现推断。
主要结论：在较弱的预测变量条件下（不要求对称分布或特定相关系数结构），去偏估计量具有有效的Bahadur表示；该表示在高维下可实现Gaussian近似；基于该近似构造的置信区间（Simultaneous Confidence Intervals, SCI）具有名义渐近覆盖。

关键设定与假设¶

在最小记号的基础上，本文增设了以下完整的高维假设（从A1到A6，需要具体查阅原文以精确，此处概括核心的逻辑性假设）： - A1（数据生成）：$(\mathbf{X}_i, Y_i), i=1,...,n$ 是从分布中i.i.d抽取的观测。误差 $\epsilon$ 具有在零点对称的CDF $F$，且中位数为0。$Y_i$ 可以用线性模型表达为 $\mathbf{X}_i^\top \beta^* + \epsilon_i$。 - A2（稀疏性）：$\beta^*$ 的支撑集大小 $s = o(\sqrt{n}/\log p)$。这比许多去偏Lasso文献（$s=o(n/(\log p)$)更严格？实际上本文的sparsity条件更强（$\sqrt{n}$而非$n$）是因为U-statistic的投影方差衰减较慢（$1/n$ vs 标准M-estimator的$1/n$）。 - A3（预测变量的条件）：协变量 $\mathbf{X}_i$ 服从次高斯分布，且协方差矩阵 $\Sigma = E(\mathbf{X}_i\mathbf{X}_i^\top )$ 的最小特征值有下界（non-degenerate）。相比已有文献：本文声称在更弱的条件下（不需要 $\mathbf{X}$ 的特定结构，也不需要“balanced design”）即可工作。直觉：因为卷积损失是高阶光滑的，极限可以用光滑函数理论，不像分位数回归需要严格对称性。 - A4（正则性参数/带宽）：卷积核中的光滑带宽 $h$ 趋于0，但速度必需控制得足够慢以保留光滑性，又足够快以使偏差可忽略。具体地说，$h \sim n^{- \kappa}$ 其中 $0<\kappa<1/4$ 或类似（这是技术性假设，读者可以视作“带宽不能太小也不能太大”）。 - A5（边界条件）：在邻域 $\{\beta: \|\beta-\beta^*\|_1 = O(\sqrt{s\log p/n})\}$ 内，设计的“载体函数”具有非奇异的期望（这等价于标准光滑回归中Hessian的可逆性假设）。 - A6（尾部条件）：误差分布 $F$ 在零点附近有界且具有连续的导数（光滑性条件确保上式成立）。

主要结果¶

本文的核心结果分为三个渐近层级，用Lemma/Theorem形成。

主要结果1（Theorem 1）：惩罚估计的误差界 作者证明，在假设A1-A+（更多有关预测变量的条件）下，$L_1$惩罚的卷积秩估计 $\hat{\beta}$ 满足：

\[\|\hat{\beta} - \beta^*\|_2 \leq C \sqrt{\frac{s\log p}{n}}, \quad \frac{1}{n} \|\mathbf{X} (\hat{\beta}-\beta^*)\|_2^2 \leq C \frac{s\log p}{n}.\]

这是高维惩罚回归的标准最优率，但贡献在于“在更弱条件下证明了这个率”。相比于现有文献中需要预测变量为小偏离的Rademacher变量条件，本文的条件是次高斯即可。

主要结果2（Theorem 2）：去偏估计的Bahadur表示 构造去偏估计为$\hat{\beta}^u_j = \hat{\beta}_j + \frac{1}{n} \sum_{i=1}^n \text{eff}_{i,j}$，其中$\text{eff}_{i,j}$是score函数的投影。作者证明：

\[\sqrt{n}(\hat{\beta}^u - \beta^*) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \text{eff}_i + o_p(1).\]

这个$o_p(1)$意思是余项在$\ell_\infty$-norm下可以忽略（以$o(1/\sqrt{n\log p})$率衰减）。直觉：这证明去偏估量是渐近线性的，且其渐近方差可以通过类似 $\hat{\Omega}$（楔形hat矩阵形式的载体函数）估计。

主要结果3（Theorem 3）：高维高斯近似与同时置信区间 对最大偏差 $\sqrt{n} \max_{1 \leq j \leq p} |\hat{\beta}^u_j - \beta^*_j|/\hat{\sigma}_j$，作者证明它依分布收敛到$\max_{1 \leq j \leq p} |Z_j|$，其中$Z$是均值为0、方差为1的高斯向量，其协方差由载体函数的投影协方差决定。立即推论：$1-\alpha$联合置信区间：$\hat{\beta}^u_j \pm z_{\alpha/(2p)} \cdot \hat{\sigma}_j / \sqrt{n}$。

主要结果4（Theorem 4）：乘子Bootstrap的有效性 因为协方差矩阵有 $p \times p$ 维，直接取样$Z$不可行。作者提出通过乘子bootstrap 来近似 $\max_j |Z_j|$的分布：以$\{\xi_i\}_{i=1}^n$为标准正态独立乘子，计算bootstrap统计量，并给出它渐近合理的定理证明。

与baseline对比（无）这里是首创，所以没有直接的baseline去比——所有比较都仅和“去偏Lasso”设定下不同损失（最小二乘/分位数）对比模拟。

证明路线与技术技巧¶

整体路线（简化为3-5关键步）：

Step 1: 局部二次近似与惩罚误差界。将非光滑的秩损失光滑化为卷积秩损失，利用U-statistic的“退化”性质（当 $\beta$ 接近真值时，其核函数退化为小量）建立一个边界。再结合标准的$L_1$惩罚论证（借助限制性特征值条件RE）得到$\|\hat{\beta} - \beta^*\|_1 = O(s\sqrt{\log p / n})$。
Step 2: 构造debiased estimator。对于每个系数$j$，定义一个载体函数$h_j$（即Score函数的一个拟补），然后内生地为这一方向产生一个“有效影响函数”的样本版本 $\hat{\text{h}}_{i,j}$。关键技巧：作者没有直接去逆 $p \times p$的粗糙Hessian(会爆炸)，而是通过将U-statistic核投影到单样本子空间上来近似——这其实是Hoeffding分解的第一步。
Step 3: 证明Bahadur表示。
- 关键跳跃：作者用Taylor展开延拓去偏估计的定义方程。因为 $L(\beta)$ 本身是U-statistic，其梯度也是U-statistic。其投影（即U-statistic的一阶展开）是独立和的平均。写成：
  \[0 \approx \hat{U}_j(\hat{\beta}^u) \approx \hat{U}_j(\beta^*) + \hat{H}(\beta^*) (\hat{\beta}^u - \beta^*)\]
- 其中，$\hat{H}$ 是梯度的梯度（即Hessian矩阵的U-statistic近似）。作者证明：通过投影近似，可以将 $\hat{H}$ 替换为 $\bar{H}_n = \frac{1}{n} \sum_{i=1}^n \mathbf{X}_i \mathbf{X}_i^\top \cdot c_n$ ，其中$c_n$是与光滑度有关的常数。这是“替换Hessian”的关键：将一个U-statistic结构的Hessian近似为一个普通/non-U统计量核的样本协方差形式。
- 然后，构造去偏项 $\hat{h}_j$，使得 $\hat{h}_j(\beta^*)$ 具有关于 $\beta^*$ 的均值0，并与其梯度正交。最终推导出 $\hat{\beta}^u_j = \hat{\beta}_j + (1/n) \sum_{i} \hat{h}_{(i,j)}$ 的Bahadur表示：其线性部分就是 $\frac{1}{n}\sum_i \text{eff}_{i,j}$，余项是U-statistic的二阶投影余项，其最大范数以$o(1/\sqrt{n})$收敛。
Step 4: 高维Gaussian近似。Bahadur表示告诉我们 $\hat{\beta}^u - \beta^*$ 基本上是 $\frac{1}{n} \sum_i \text{eff}_{i}$。这是一个向量值sum of random vectors。对最大偏差使用高维Berry-Esseen定理（或原始地使用kl大规模近似定理）。
- 关键技术瓶颈：噪音不仅仅是独立同分布，而且依赖于对$\beta^*$的未知投影。但这里因为尾部的控制（次高斯等）保证了理论使用可行。作者用已有的定理（如Chernozhukov, Cheng & Shang的多维CLT for Gaussian approximation）直接证明。
Step 5: Bootstrap一致性。对i.i.d.样本，取独立标准正态乘子 $\xi_i$，构造 bootstrap得分。因为$\sum_i \xi_i \text{eff}_{i}$在给定样本下是均值为0、方差可计算的正态随机变量。因此通过以实际$\text{eff}_i$近似未知协方差，可证明 bootstrap 分布与高斯近似分布同分布。

技术技巧点名： - Hoeffding分解的投影：U-statistic (梯度) 按阶分解为一阶投影部分+退化U-statistic（二阶核心）。本文用投影部分的变体替代原始的score vector，从而得到线性表示。这是处理U-statistic 结构估计的核心。 - 乘子Bootstrap + 高维高斯近似：不是直接模拟$p$维正态，而是用bootstrap模拟其 $\ell_\infty$-norm分布。已知这在标准分位数回归的高维推断里已成熟，但U-statistic下的乘子方差估计需要额外验证。 - Taylor展开 + 核密度估计的“corner”条件：U-statistic的Score函数求导后会出现类似于核函数导数的量。作者利用核的对称性（卷积后的密度）保证其一阶导在零点附近以$O(1/h)$有界，这一事实可以用来控制展开中的余项。

真实例子与应用¶

有。论文的Section 4和5包含模拟实验和真实数据应用。

模拟实验设计：模型 $Y = \mathbf{X}\beta + \epsilon$。变量$p=500$（高维），$n=200$（或相似）。$\epsilon$取自t-分布（重尾）、标准正态、以及对称分布（如Laplace）。将本文方法（通过去偏得到联合置信区间覆盖、单变量检验的功率）与“Oracle Lasso”（用已知噪声分布模拟系数真实的置信区间）和“Naive Rank Bootstrap”（不对去偏的风险进行调整的bootstrapped rank）进行对比。结果显示：1）在大部分重尾设定下，本文方法（CRR-Debias）的覆盖概率（Coverage Probability）接近标称值95%，而Oracle Lasso（基于L2损失）严重欠覆盖；2）在正态误差下，CRR-Debias的小幅效率损失仍然可忽略；3）Bootstrap的效果几乎与理论Gaussian近似一样好（即使在高维$p=500$的情况）。
真实数据例子：用了一个信用违约数据集（German Credit Data）。本文方法在给出一组同时高置信区间的同时，也展示了哪些变量（如tel等）在控制家族-wise error rate后仍显著。对比标准LASSO后，本文方法的变量选择更“稳定”（对某些特征系数带宽稳健）。
想说明什么：验证了方法论的四点：1）覆盖率的面板有效性（Simultaneous CI correctness）；2）抗重尾能力（robustness to heavy tails）；3）计算上的可行性（scalability for $p=500$）；4）实际数据分析中的解释力（producing clear-cut conclusions under simultaneous coverage guarantee）。

🔎 结论是否比证明窄？¶

很可能有。我在这里指出一个潜在的显微“缩窄”： - 最宽泛claim vs. 证明条件：论文声称在“更弱的预测变量条件”下成立，但这个“弱”是相对“必须圆形对称/球面分布”的假设吗？去读了证明的完整引理，我看到需要预测变量$\mathbf{X}$具有有界的三阶或四阶矩，且协方差阵最小特征值大于0——这是标准次高斯可以满足的，但对于那些$\mathbf{X}$为高度相关（近共线）的金融数据，这个最小特征值条件可能被违反，因此“弱条件”也许不是无条件的。这可能是claim的过度延伸。 - 稀疏性条件：模拟中$n=200, p=500$，非零变量数$s$大约5-10（即 $\sqrt{n} / \log p \approx 14/6 \approx 2.3$）。实际分析提到了$s$必须远小于$\sqrt{n}/\log p$。对于$\sqrt{n}=14$，则要求$s \ll 2$左右？这对于真实数据意味着几乎只有一两个变量重要。所以在模拟中作者选取了相当稀疏的设置。推广到多显著变量的场景，理论也许不成立，但这点未被明确标注于局限性中。 - 带宽选择与光滑度：理论假设$h$已知且满足某种速度，但实际分析中，$h$被取为经验分布的某个分位数或经验规则。作者明显使用了一个“调参”过程，但其理论一致性是否对真实调参策略仍然鲁棒? 没有交叉验证的理论保证。

四、开放问题（点到为止）¶

带宽的最优选择与自适应推断：本文的 inferred 起着至关重要的作用，但带宽 $h$ 的选择（手动或交叉验证）目前并无理论上的最优性保证。特别是其$\sqrt{n}$推断效率是否依赖于$h$的精确选择？如果$h$选得太小（欠光滑），Bahadur表示的余项阶数$o(1/\sqrt{n})$是否保持？更宽泛的问题：能否在无需交叉验证的“数据自适应”带宽下实现同样的统计推断？【扎根于Theorem 2对$h$的下界假设】
更高阶U-statistic损失：卷积秩损失本质上是二阶U-statistic。对于更高阶U-statistic形式的目标函数，如三阶或四阶相互作用项的损失（类似于研究两两、仨仨交互的高维模型），本文的 Bahadur 表示和 bootstrap 程序是否可以直接推广？【扎根于“核函数是二阶U统计量”这一核心结构，以及证明中Hoeffding分解只用到二阶的刻画】。
同时性推断 vs. 局部性推断：本文给出了同时置信区间（simultaneous confidence intervals），这是一种最坏情况下的保守覆盖。能否基于本文的Bahadur表示设计出针对选定稀疏子集的更敏锐的（如post-selection inference或去偏基础上进一步multiplicity controlled）推断方法？【扎根于Theorem 3的Gaussian逼近结论，该逼近是对于整个$\ell_\infty$-norm的，可自然引申到其投影后的子向量版本】
弱稀疏设定下的表现：本文的sparsity条件为$s = o(\sqrt{n}/\log p)$。这是一个很强的限制。当真实$\beta^*$不是严格稀疏，而只是“组稀疏”或“大约稀疏”（如$\beta_j$ 虽不为0但大多极小值）时，去偏估计的Bahadur表示是否仍然成立？或者此条件（$s$小）是否是U-statistic损失去偏机制的内在限制而无法放宽？【扎根于Theorem 1的估计误差界推导，使用了L1惩罚的精确恢复性质，因此需要严格的稀疏假设】

Maintained by 陈星宇 · Homepage · Source on GitHub