Dimension-free uniform concentration bound for logistic regression¶
作者: Shogo Nakakita
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在广义线性模型(特别是 logistic 回归)中,当参数空间的维数 \(p\) 可能极大、甚至与样本量 \(n\) 同阶或更高时,经验风险函数(或负对数似然)能否在参数空间上均匀地逼近真实风险函数?这即所谓 uniform law of large numbers (ULLN) 问题。它是 M-estimation 一致性、高维推断(如 debiased ML 中 nuisance 估计的收敛率论证)的地基。当前该方向的成熟度呈现两极:经典低维设定下理论已完备;但在 \(p \ge n\) 或非稀疏高维设定下,ULLN 的充分条件长期依赖显式的维度因子(如 \(p/n\)),使得理论仅在 \(p \ll n\) 时成立,dimension-free 的 ULLN 理论直到近两年才出现突破口。
发展脉络: 1. 奠基工作(经典 M-estimation 与高维稀疏):van de Geer (2008) 为高维广义线性模型(含 logistic)的 Lasso 给出了基于经验过程的 oracle 不等式,其 ULLN 充分条件包含显式的 \(\sqrt{p/n}\) 因子,实质上要求 \(p \ll n\);James and Radchenko (2009); Levy and Abramovich (2023) 则沿稀疏设定推进,分别研究 GLM 的 Dantzig selector 与多分类稀疏 logistic 的 minimax 界。 2. 比例高维与精确渐近(Proportional regime \(p/n \to \kappa \in (0,\infty)\)):Sur and Candès (2019); Zhao et al. (2022) 开创了 logistic MLE 的精确渐近分布理论,揭示 MLE 在 \(p/n \to \kappa\) 时的偏误与方差异于经典理论;Salehi et al. (2019); Emami et al. (2020); Aubin et al. (2020) 分别用 Convex Gaussian Min-Max Theorem 与近似消息传递算法刻画了正则化 logistic / GLM 的泛化误差。作者在 intro 中明确指出,这些工作"focus on proportionally high-dimensional \(\theta\), i.e., \(p/n \to \kappa \in (0,\infty)\)",留下了非比例、非稀疏、甚至无限维设定下 ULLN 的口子。 3. Dimension-free 分析的萌芽:Catoni and Giulini (2017) 在线性回归与均值估计中给出了 dimension-free 的 PAC-Bayes 界;Zhivotovskiy (2021) 用变分原理为随机矩阵与张量和给出了依赖有效秩而非维度的界;Cheng and Montanari (2022) 证明了岭回归的 dimension-free 风险界;Wu et al. (2023) 给出了高维 ReLU 回归的 dimension-free 风险界。作者引用这些工作以说明:线性问题已有 dimension-free 界,但非线性(如 logistic)尚缺。 4. 本文的位置:填补 logistic 回归(非线性损失)的 dimension-free uniform concentration 界,用 PAC-Bayes + 二阶展开绕开传统 Rademacher/McDiarmid 路线的维度依赖。
子线索聚类: - 线索 A:经典经验过程 / Rademacher 路线(van de Geer 2008; Levy and Abramovich 2023):用 Rademacher 复杂度 / Bousquet 界控制经验过程极大值,界中显式含 \(p\) 或 \(\log p\),导致 ULLN 条件为 \(p \ll n\)。 - 线索 B:比例高维精确渐近路线(Sur and Candès 2019; Salehi et al. 2019; Zhao et al. 2022; Emami et al. 2020; Aubin et al. 2020):用 CGMT / AMP / replica 方法,在 \(p/n \to \kappa\) 下给出 MLE / 正则化估计的精确偏误-方差公式,但不提供非渐近 dimension-free 界。 - 线索 C:PAC-Bayes dimension-free 路线(Catoni and Giulini 2017; Zhivotovskiy 2021; Giulini 2018):在线性 / 二次损失下,用 PAC-Bayes + 变分原理得到依赖有效秩而非维度的界,但未触及非线性损失。 - 线索 D:小样本 / 低噪声有限样本分析(Hsu and Mazumdar 2024; Kuchelmeister and van de Geer 2024):在约束 logistic 中给出依赖逆温度(inverse temperature)的样本复杂度,但假设高斯设计且界中仍含 \(p\)。
这个方向在追问的核心问题: 1. 高维 / 无限维 logistic 回归的 ULLN 充分条件能否摆脱 \(p\)? 即:是否存在只依赖设计分布的谱性质(如有效秩 \(r_\Sigma\))与参数空间半径 \(R\) 的条件,使得 \(r_\Sigma / n \to 0\) 即保证 ULLN,而无需 \(p/n \to 0\)? 2. 非线性损失下,PAC-Bayes 路线能否给出比 Rademacher 路线更紧的 uniform 界? 传统路线对 logistic 损失的 Lipschitz 常数敏感(导数最大为 1/4),导致界偏松;PAC-Bayes + 局部展开能否利用损失在好参数附近的局部曲率改善界? 3. 约束参数空间(\(\|\theta\| \le R\))在 dimension-free 分析中扮演什么角色? 无约束时 logistic MLE 可能不存在;约束不仅是保证存在性的技术手段,是否也是控制损失函数局部 Lipschitz 常数的关键?
当前主流方法与已知瓶颈:主流是 Rademacher 复杂度 + McDiarmid,瓶颈是界中显式含 \(p\) 且对 logistic 损失的全局 Lipschitz 常数(1/4)敏感,导致 ULLN 条件过强(\(p \ll n\))。PAC-Bayes 在线性问题已突破,但在非线性问题因损失非凸且与参数非线性耦合,局部展开的残差控制是瓶颈。
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 为:"线性问题已有 dimension-free PAC-Bayes 界,但 logistic(非线性)尚缺;传统 Rademacher/McDiarmid 路线给出的 ULLN 条件 \(p \log(p)/n \to 0\) 过强,本文给出更温和的条件 \(r_\Sigma / n \to 0\)"。 - 被淡化的竞争路线:比例高维精确渐近路线(Sur and Candès 等)被作者归为"不同设定(\(p/n \to \kappa\))",未直接比较;小样本有限样本路线(Hsu and Mazumdar; Kuchelmeister and van de Geer)被提及但被指出其界含 \(p\) 且假设高斯设计。 - 明显该被引 / 该存在却未出现的:高维 M-estimation 的局部渐近理论(如 Spokoiny 2012 的局部 quasi-likelihood 理论,也在约束参数空间上用局部 Laplace 近似给 ULLN,且不依赖 \(p\));半参数效率理论中 nuisance 估计的 dimension-free 收敛条件(如 Chernozhukov et al. 2018 的 cross-fitting 条件只要求 nuisance rate \(o(n^{-1/4})\),未显式要求 \(p \ll n\),但其理论地基是否真能 dimension-free 值得查)。值得研究者去查的问题:本文的 dimension-free ULLN 条件是否与半参数 debiased ML 中 nuisance 估计的一致性条件实质等价?如果是,本文是否为 debiased ML 在高维非稀疏设定提供了更严格的地基?
张力: 未见明显对立引用。各路线在不同设定下给出不同形式的界,尚无文献在相同设定下得出矛盾结论。但存在隐含张力:比例高维路线(Sur and Candès)揭示 MLE 在 \(p/n \to \kappa\) 时有常数偏误,而本文的 ULLN 界在 \(r_\Sigma / n \to 0\) 时声称经验风险均匀逼近真实风险——这两者是否在 \(p/n \to \kappa\) 且 \(r_\Sigma\) 有限时冲突?(注:\(r_\Sigma\) 可远小于 \(p\),故 \(p/n \to \kappa\) 与 \(r_\Sigma/n \to 0\) 可同时成立,需仔细核对条件是否真的兼容)。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(\theta\):真实参数(estimand),属于 \(\mathbb{R}^p\) 或可分希尔伯特空间,是我们要估的对象。
- \(\Theta\):参数空间,约束为 \(\|\theta\| \le R\) 的球 \(B[R]\)(\(R\) 为已知半径)。
- \(X\):协变量 / 设计向量,随机变量,取值于 \(\mathbb{R}^p\) 或可分希尔伯特空间,分布 \(\mathcal{P}_X\) 未知但满足矩条件。
- \(Y\):响应变量,二值,取值于 \(\{0, 1\}\)。
- \((X_i, Y_i)_{i=1}^n\):可观测的 i.i.d. 样本,样本量 \(n\)。
- \(\Sigma\):\(X\) 的协方差算子(若 \(X \in \mathbb{R}^p\) 则为 \(p \times p\) 矩阵),\(\Sigma = \mathbb{E}[X X^\top]\)(假设 \(X\) 已中心化或模型含截距被分离处理)。
- \(r_\Sigma\):有效秩,定义为 \(r_\Sigma = \mathrm{tr}(\Sigma) / \|\Sigma\|_{\mathrm{op}}\),是本文界中替代维数 \(p\) 的关键指标。注意 \(r_\Sigma \le p\),且可远小于 \(p\)(当 \(\Sigma\) 有少数大特征值时)。
- \(\ell_\theta(X, Y)\):logistic 损失函数(负对数似然),\(\ell_\theta(X, Y) = -Y \theta^\top X + \log(1 + e^{\theta^\top X})\)。
- \(R_n(\theta)\):经验风险,\(R_n(\theta) = \frac{1}{n} \sum_{i=1}^n \ell_\theta(X_i, Y_i)\)。
- \(R(\theta)\):真实风险,\(R(\theta) = \mathbb{E}[\ell_\theta(X, Y)]\)。
- \(\hat{\theta}_n\):约束 M-估计量,\(\hat{\theta}_n = \arg\min_{\theta \in B[R]} R_n(\theta)\)。
- 可观测数据:\((X_i, Y_i)_{i=1}^n\);\(\theta, \Sigma, \mathcal{P}_X\) 不可观测,只能靠假设与估计推断。
模型:数据生成机制为 \(Y \mid X \sim \mathrm{Bernoulli}(\sigma(\theta^\top X))\),其中 \(\sigma(t) = e^t / (1 + e^t)\) 为 logistic 函数。设计分布 \(\mathcal{P}_X\) 满足:\(X\) 有有限四阶矩(或更弱:满足 concentration property),且 \(\Sigma\) 的有效秩 \(r_\Sigma\) 有限。参数空间约束为 \(\|\theta\| \le R\)。
第二步:最小内核——支撑整篇论文的最简特例
最简特例:\(X\) 为各向同性高斯(\(\Sigma = I_p\)),且只关心 ULLN 的充分条件。
在此特例下: - \(r_\Sigma = \mathrm{tr}(I_p) / \|I_p\|_{\mathrm{op}} = p / 1 = p\),故 dimension-free 条件 \(r_\Sigma / n \to 0\) 退化为 \(p / n \to 0\)——看似与经典条件相同,但关键区别在于:当 \(\Sigma\) 有谱衰减时(如少数大特征值),\(r_\Sigma \ll p\),此时本文条件 \(r_\Sigma / n \to 0\) 远弱于 \(p / n \to 0\)。 - 核心数学问题:证明 \(\sup_{\theta \in B[R]} |R_n(\theta) - R(\theta)|\) 以高概率被 \(C \sqrt{r_\Sigma / n} + \text{小量}\) 控制,其中 \(C\) 只依赖 \(R\) 与 \(\Sigma\) 的谱范数,不依赖 \(p\)。 - 传统路线为什么失败:Rademacher 复杂度路线对 \(\sup_{\theta \in B[R]} R_n(\theta) - R(\theta)\) 给出界 \(O(R \sqrt{p/n})\)(因 \(\|\theta\| \le R\) 且 \(X\) 的范数期望为 \(\sqrt{p}\)),显式含 \(p\);McDiarmid 不等式路线要求损失函数有 bounded differences,但 logistic 损失对 \(X\) 的敏感度依赖 \(\|\theta\|\) 与 \(\|X\|\),界中也引入 \(p\)。 - 本文的关键想法怎么破: 1. PAC-Bayes + 二阶展开:对任意先验 \(\pi\) 与后验 \(\rho\),PAC-Bayes 界给出 \(\mathbb{E}_\rho[R_n(\theta)] - \mathbb{E}_\rho[R(\theta)] \le \text{KL}(\rho \| \pi) / n + \text{残差}\)。关键在于:对 \(\rho\) 选为 \(\pi\) 的局部扰动(如 \(\pi\) 为 \(\theta_0\) 上的点质量,\(\rho\) 为 \(\theta_0 + \epsilon\) 上的高斯),则 \(\mathbb{E}_\rho[\ell_\theta]\) 可在 \(\theta_0\) 处做二阶 Taylor 展开,主项(一阶 + 二阶)是线性的 / 二次的,可用 dimension-free 界控制(如 Catoni and Giulini 2017 的界);残差是三阶及以上,依赖 \(\|\theta - \theta_0\|^3\) 与 \(\|X\|^3\) 等。 2. 残差用 Rademacher 界控制:残差虽是高阶项,但其结构是局部的(只在 \(\|\theta - \theta_0\| \le \epsilon\) 时小),且可被 Rademacher 复杂度界控制。关键洞察:残差的 Rademacher 界不引入全局维度因子,因为残差本身已被局部化(\(\epsilon\) 小),且 Rademacher 复杂度对局部函数类的依赖可通过收缩引理与 \(\Sigma\) 的谱性质转化为 \(r_\Sigma\) 而非 \(p\)。 3. 组合先验-后验对覆盖参数空间:对每个 \(\theta_0 \in B[R]\) 构造局部 PAC-Bayes 界,再取 sup 覆盖整个 \(B[R]\),得到 uniform 界。这一步要求 \(\epsilon\) 的选择与 \(R, r_\Sigma, n\) 的平衡,是证明中最吃功夫的技术跳跃点。
在这个最简特例下,要证的命题退化为:对各向同性高斯设计,\(\sup_{\|\theta\| \le R} |R_n(\theta) - R(\theta)| \le C(R) \sqrt{p/n} + o(\sqrt{p/n})\) 以高概率成立——这本身不新,但证明路线(PAC-Bayes + 局部展开 + Rademacher 残差)在谱衰减设计下自然给出 \(\sqrt{r_\Sigma/n}\) 界,这是传统路线无法直接达到的。
三、这篇论文做了什么¶
三句话: ①研究了约束 logistic 回归经验风险函数的 dimension-free uniform concentration 界; ②核心方法是 PAC-Bayes 界结合二阶展开,残差项用 Rademacher 复杂度界控制; ③主要结论是给出了只依赖有效秩 \(r_\Sigma\) 与半径 \(R\) 而不依赖维数 \(p\) 的 uniform 界,且 ULLN 的充分条件为 \(r_\Sigma / n \to 0\),比传统 Rademacher/McDiarmid 路线的 \(p/n \to 0\) 更温和。
关键设定与假设: - 设定:约束 logistic 回归,参数空间 \(B[R] = \{\theta \in \mathbb{R}^p : \|\theta\| \le R\}\)(\(R\) 已知),设计变量 \(X \in \mathbb{R}^p\)(或可分希尔伯特空间),响应 \(Y \in \{0, 1\}\) 服从 \(\mathrm{Bernoulli}(\sigma(\theta^\top X))\)。 - 假设 1(约束参数空间):\(\theta \in B[R]\)。统计含义:保证 MLE 存在且损失函数在参数空间上有界局部 Lipschitz 常数(logistic 损失的导数 \(\sigma'(t) \le 1/4\),但 \(\theta^\top X\) 的范围被 \(\|\theta\| \|\X\|\) 控制,约束 \(\|\theta\| \le R\) 限制了此范围)。相比已有文献:Hsu and Mazumdar (2024); Kuchelmeister and van de Geer (2024) 也用约束,但他们的界含 \(p\);本文利用约束做局部展开,是技术关键。 - 假设 2(设计分布的矩 / concentration 性质):\(X\) 满足 concentration property(定义引自 Adamczak 2015:对任意 Lipschitz 函数 \(f\),\(f(X)\) 有亚高斯尾部,常数 \(K\)),或更弱地,有有限四阶矩且 \(\mathbb{E}[\|X\|^4] / \|\Sigma\|^2\) 有限。统计含义:保证 \(\|X\|^2\) 与二次型 \(\theta^\top X\) 的尾部可控,使得 Rademacher 界与 PAC-Bayes 残差界不爆炸。相比已有文献:Catoni and Giulini (2017) 对线性问题用类似 concentration 假设;本文是首次在 logistic 损失下用此假设。 - 假设 3(有效秩条件):\(r_\Sigma = \mathrm{tr}(\Sigma) / \|\Sigma\|_{\mathrm{op}}\) 有限。统计含义:\(\Sigma\) 的谱衰减使得"有效维度"远小于 \(p\),这是 dimension-free 界的核心。相比已有文献:Koltchinskii and Lounici (2017); Zhivotovskiy (2021) 在协方差估计中用 \(r_\Sigma\);本文将其引入 logistic ULLN。 - 假设 4(样本量条件):\(n\) 足够大使得 \(r_\Sigma / n \to 0\)(或更精确地,\(n \ge C r_\Sigma\))。统计含义:ULLN 的充分条件,比 \(p/n \to 0\) 温和。
主要结果: - 定理(主定理,编号未知,据摘要与 intro 推断为 Theorem 1 或类似):在假设 1-4 下,存在显式常数 \(C > 0\)(只依赖 \(R\) 与 concentration 常数 \(K\)),使得对任意 \(\delta \in (0, 1)\),以概率至少 \(1 - \delta\),
证明路线与技术技巧: - 整体路线(5 步逻辑主干): 1. PAC-Bayes 基本界:对任意先验 \(\pi\) 与后验 \(\rho\)(在 \(B[R]\) 上的分布),应用 PAC-Bayes 不等式(Catoni 2007; Alquier 2024),得到 \(\mathbb{E}_\rho[R_n(\theta)] - \mathbb{E}_\rho[R(\theta)] \le \sqrt{2 \mathrm{KL}(\rho \| \pi) / n} + \text{残差}\) 的形式。 2. 局部后验构造与二阶展开:对每个中心点 \(\theta_0 \in B[R]\),取先验 \(\pi\) 为 \(\theta_0\) 上的 Dirac 测度,后验 \(\rho\) 为 \(\theta_0 + \epsilon Z\) 上的高斯测度(\(Z \sim N(0, \Sigma^{-1})\) 或类似,\(\epsilon\) 小)。对 \(\mathbb{E}_\rho[\ell_\theta(X, Y)]\) 在 \(\theta_0\) 处做二阶 Taylor 展开:
- 关键跳跃点:
- 跳跃点 1:局部后验的构造与 KL 计算。先验为 Dirac、后验为局部高斯时,KL 散度为 \(\frac{1}{2} \epsilon^2 \mathrm{tr}(\Sigma^{-1} \Sigma) + \log \det(\cdot)\) 的形式,如何让 KL 只依赖 \(r_\Sigma\) 而非 \(p\)?作者利用 \(\Sigma^{-1}\) 的谱性质与 \(\epsilon\) 的缩放,将 KL 控制为 \(O(\epsilon^2 r_\Sigma)\)(而非 \(\epsilon^2 p\))。这是 PAC-Bayes 路线 dimension-free 的第一步。
-
跳跃点 2:残差的 Rademacher 界 dimension-free 化。传统 Rademacher 界对全局函数类给出 \(O(\sqrt{p/n})\);作者需要的是对局部高阶函数类给出 \(O(\epsilon^3 \sqrt{r_\Sigma/n})\)。这要求将 Rademacher 复杂度与 \(\Sigma\) 的有效秩直接挂钩,可能用到 Ledoux-Talagrand 型收缩引理 + Adamczak (2014) 的 concentration property 假设下二次型 / 范数的 dimension-free 界。
-
技术技巧点名:
- PAC-Bayes 不等式(Catoni 2007; Alquier 2024):用在整个证明的框架,将经验风险与真实风险的差控制为 KL 散度 + 残差。
- 二阶 Taylor 展开:用在局部后验的期望展开,将非线性损失分解为二次主项 + 高阶残差。
- Rademacher 复杂度 + 收缩引理(van de Geer 2008; Ledoux-Talagrand):用在残差项的控制,关键是将残差函数类的复杂度与 \(\epsilon\) 的缩放挂钩,实现局部化。
- Concentration property(Adamczak 2015; Ledoux 2001):用在控制 \(\|X\|\) 与二次型的尾部,保证矩界与 Rademacher 界 dimension-free。
- 有效秩 \(r_\Sigma\) 替代 \(p\)(Koltchinskii and Lounici 2017; Zhivotovskiy 2021):用在 KL 项、二次型主项、Rademacher 界的量化,是全文 dimension-free 的核心指标。
- 局部先验-后验对构造(类似 Tsuzuku et al. 2020; Wang et al. 2018 的 PAC-Bayes 二阶展开,但本文用在约束参数空间的 uniform 界而非泛化界):用在从局部界到 uniform 界的桥梁。
真实例子与应用: 本文为纯理论 / 无实证例子。摘要与 intro 只提及理论结果,未含模拟或真实数据验证。作者在 intro 中提及"constrained logistic regression"作为目标应用,但未给出具体数据集或数值实验。
🔎 结论是否比证明窄: - 作者在 intro 中 claim:"Our bound yields a milder sufficient condition \(r_\Sigma / n \to 0\) for a uniform law of large numbers than conditions derived by the Rademacher complexity argument and McDiarmid's inequality."——这个 claim 在定理的严格条件下(约束 \(B[R]\)、concentration property、\(n\) 足够大)是证明了的,但泛泛 claim "milder" 时未明确指出:在 \(\Sigma = I_p\)(各向同性)时,\(r_\Sigma = p\),本文条件 \(p/n \to 0\) 与经典条件实质相同,并无改善。作者淡化了这一特例,只强调 \(r_\Sigma \ll p\) 时的改善。 - 另一个潜在窄结论:定理的显式常数 \(C\) 依赖 \(R\) 与 concentration 常数 \(K\),但未给出 \(C\) 的具体数值或上界,只说"some explicit \(C > 0\) independent of \(\Sigma, n, p\)"。在实际应用中,\(C\) 可能很大,使得界在数值上不如传统界紧——这是证明能保证 rate dimension-free 但常数可能不优的典型情况,作者未明确讨论。
四、开放问题(点到为止,扎根具体语句)¶
-
各向同性设计下界的紧致性:当 \(\Sigma = I_p\) 时,\(r_\Sigma = p\),本文界退化为 \(O(\sqrt{p/n})\),与经典 Rademacher 界同 rate。是否存在更紧的 dimension-free 界(如依赖 \(\|\theta\|\) 的局部 Lipschitz 常数而非全局 \(R\)),使得在各向同性下也能改善常数或去掉 \(\log p\)?扎根点:intro 中"this bound gives a milder and more natural sufficient condition \(r_\Sigma / n \to 0\)"——在各向同性下此 claim 不成立,是否暗示需要更精细的条件?
-
无约束 / 稀疏设定下的 dimension-free ULLN:本文假设 \(\theta \in B[R]\)(约束球),但高维实践中常假设稀疏(\(\|\theta\|_1 \le s\))或无约束(MLE 可能不存在)。能否在稀疏约束或无约束(加正则化)下给出 dimension-free 界?扎根点:intro 中"Note that constraints on balls or spheres are not only mild but also typical in previous studies (Kuchelmeister and van de Geer, 2024; Hsu and Mazumdar, 2024)"——作者把约束当成"mild",但稀疏设定(van de Geer 2008; Levy and Abramovich 2023)被归为另一簇,未尝试统一。
-
半参数推断中 nuisance 估计的 dimension-free 收敛率:本文的 ULLN 界能否直接用于证明 debiased ML / semiparametric efficiency 中 nuisance 估计(如高维 logistic 回归系数)的 dimension-free 收敛率,从而放宽 \(p \ll n\) 的要求?扎根点:intro 未提及半参数推断,但 dimension-free ULLN 是 nuisance 一致性的地基——这是本文最自然的延伸,也是研究者(陈星宇)的 primary interest 直接交汇点。
-
残差项的 Rademacher 界是否可进一步改善:残差项 \(O(\epsilon^3 \sqrt{r_\Sigma/n})\) 在最优 \(\epsilon\) 选择下贡献 \((r_\Sigma/n)^{3/2}\),被主项 \(\sqrt{r_\Sigma/n}\) 吸收。但若残差界可改善为 \(O(\epsilon^3 r_\Sigma/n)\)(去掉 \(\sqrt{}\)),则可能允许更小的 \(\epsilon\) 或更紧的界。扎根点:证明中残差界用 Rademacher 复杂度 + 收缩引理,是否可用 PAC-Bayes 直接控制残差(而非转回 Rademacher),从而避免 \(\sqrt{}\) 因子?这需核对残差函数类的结构是否允许更紧的 PAC-Bayes 界。
提醒:要确认第 3 条是不是真 gap,去读半参数效率理论近期约 5 篇的 intro(如 Chernozhukov et al. 2018+ 的后续工作)——如果它们都要求 \(p \ll n\) 或显式维度条件,则本文的 dimension-free ULLN 是实质性改善(真 gap);如果它们已有 dimension-free nuisance 条件(只要求 rate \(o(n^{-1/4})\) 不显式含 \(p\)),则本文是提供更严格地基而非开新方向。
Maintained by 陈星宇 · Homepage · Source on GitHub