跳转至

Least squares estimation of a quasiconvex regression function

作者: Somabha Mukherjee, Rohit K Patra, Andrew L Johnson, Hiroshi Morita
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of Florida(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 形状约束非参数估计旨在利用先验的几何/经济结构(如单调、凸、拟凸)来约束回归函数的函数空间,从而在不引入强参数假设的前提下降低非参数估计的复杂度。当前该子方向在 \(d=1\) 的理论已相当成熟(minimax rate、sharp oracle inequality、自适应速率均已闭合),但在 \(d \ge 2\) 的多变量情形下,不同形状约束(凸 vs 拟凸 vs 单调)的 rate 演化、边界效应、计算可行性仍存在大量未闭合的缺口,尤其是“拟凸”这一经济学核心假设长期缺乏与凸约束对等的统计与计算理论。

发展脉络: - 奠基工作(\(d=1\) 的闭合):Chatterjee et al. (2013) 为单变量保序回归建立了局部 minimax 下界与 LSE 的自适应风险界,揭示了 LSE 从常数信号的 \(\log n/n\) 到均匀递增信号的 \(n^{-2/3}\) 的连续速率谱;Bellec (2015) 进一步将单变量保序与凸回归的 sharp oracle inequality 写成精确形式,指出凸回归在某些设计点下速率可退化至 \(n^{-2/3}\)。 - 多变量凸回归的推进:Seijo & Sen (2011) 与 Kuosmanen (2008) 证明了多变量凸 LSE 的存在性并将其刻画为 QP 问题;Han & Wellner (2016) 揭示了多变量凸回归的 minimax rate 严重依赖支撑集形状(光滑体上为 \(n^{-2/(d+1)}\),多面体上为 \(n^{-4/(d+4)}\)),并指出 BLSE 在高维下速率不优;Kur et al. (2019) 与 Carpenter et al. (2018) 通过对数凹密度估计的降维,证明了 \(d \ge 4\) 时凸回归 MLE/LSE 的 near-optimal sample complexity。 - 多变量保序回归的突破:Han et al. (2019) 证明了 \(d\) 维保序 LSE 在格点与随机设计下达到 minimax rate \(n^{-\min\{2/(d+2), 1/d\}}\)(至多 poly-log 因子),且对分片常数信号有自适应速率 \((k/n)^{\min(1, 2/d)}\);Deng & Zhang (2020) 进一步在一般图/空间上给出了保序 LSE 的 minimax 与自适应界。 - 重尾与异方差设定:Han & Wellner (2017) 给出了熵条件 \(\alpha\) 下重尾误差的 LSE 速率 \(\mathcal{O}_P(n^{-1/(2+\alpha)} \vee n^{-1/2+1/(2p)})\);Kuchibhotla & Patra (2021) 证明了异方差且仅有限矩条件下 LSE 的有限样本界,指出局部结构驱动速率。 - 本文的位置:填补“多变量拟凸约束”这一经济学自然假设在 LSE 存在性、计算刻画、有限样本风险界上的系统性空白。

子线索聚类: 1. 多变量凸/保序 LSE 的 rate 与自适应理论(Han et al. 2019; Han & Wellner 2016; Deng & Zhang 2020; Bellec 2015):追求 minimax rate 的精确阶、边界效应、分片常数/分片线性自适应速率。 2. 重尾/异方差下的 LSE 理论(Han & Wellner 2017; Kuchibhotla & Patra 2021; Mendelson 2014; Lecué & Mendelson 2012):放宽 sub-Gaussian 假设至有限矩,建立 sharp oracle inequality 与 empirical process 界。 3. 形状约束的计算刻画(Kuosmanen 2008; Seijo & Sen 2011; Dedieu et al. 2020):将无限维约束转化为 QP/MIP,解决 LSE 的可计算性。 4. 经济学驱动的形状约束应用(Johnson & Jiang 2018; Layer et al. 2020; Chen et al. 2018):生产/成本函数的拟凸与单调约束,SDDF 方向选择,shape-enforcing operators。

这个方向在追问的核心问题: 1. 多变量形状约束 LSE 的 minimax rate 是否紧?自适应速率的结构(分片常数/分片线性)如何? 2. 支撑集边界与形状约束类型的交互如何决定 rate(凸 vs 拟凸 vs 保序)? 3. 仅有限矩且异方差误差下,LSE 的 sharp oracle inequality 是否仍成立?局部结构如何补偿重尾? 4. 无限维形状约束函数类上的 LSE 是否存在?能否被有限维优化(QP/MIP)精确或近似刻画?

⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“多变量拟凸(及单调)约束的 LSE 缺乏存在性证明、计算刻画与有限样本风险界”,并强调拟凸约束比凸约束更弱、更符合生产/成本函数经济学公理,从而让本文成为凸回归理论的自然推广与经济学应用的显然下一步。 - 被淡化/回避的竞争路线:Chen et al. (2018) 的 shape-enforcing operators(事后投影法)被仅在 Section 6 简短对比,作者未在 intro 系统讨论其与 LSE 的理论速率差异;Balabdaoui et al. (2016, 2019) 的单调/凸单指数模型(半参数降维)被提及但不与拟凸 LSE 直接比较 rate;Kuchibhotla et al. (2021) 的单指数拟凸模型被引但未深入讨论其与多变量拟凸 LSE 的 rate 对比。 - 明显该被引却未出现的:多变量拟凸/拟凹函数的逼近论与熵界文献(如 Horowitz & Lee 2017 的拟凹非参数估计、Matzkin 1991 的拟凹识别理论)未在 intro 出现;半参数有效界与拟凸约束的交互(Bickel et al. 1993 的一般框架)未被引。值得研究者去查:这些文献是否已给出拟凸类的熵界或 minimax 下界?若有,本文的 oracle inequality 是否紧贴它们?

张力: 未见明显对立引用。但存在隐含张力:Han et al. (2019) 证明保序 LSE 在 \(d \ge 3\) 时速率为 \(n^{-1/d}\),而本文 Theorem 5.1 声称拟凸+保序 LSE 速率为 \(n^{-2/(d+1)}\)——拟凸约束是否真的比纯保序约束带来更快的 rate?这依赖支撑集光滑性假设(本文假设 \(P_X\) 支撑在光滑体上),而 Han & Wellner (2016) 已证明凸回归在多面体支撑上 rate 退化至 \(n^{-4/(d+4)}\)。本文未讨论拟凸 LSE 在多面体支撑上的 rate 是否也退化。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

  • \(n\):样本量(整数)。
  • \(d\):协变量维数(整数,\(d \ge 2\))。
  • \(X_i \in \mathbb{R}^d\):可观测协变量(随机变量),\(i=1,\dots,n\),共同分布 \(P_X\),支撑集 \(\mathcal{X} \subset \mathbb{R}^d\)
  • \(Y_i \in \mathbb{R}\):可观测响应(随机变量),\(i=1,\dots,n\)
  • \(\varepsilon_i \in \mathbb{R}\):不可观测误差(潜在量),满足 \(Y_i = f_0(X_i) + \varepsilon_i\)
  • \(f_0: \mathcal{X} \to \mathbb{R}\):目标回归函数(estimand),不可观测,属于函数类 \(\mathcal{F}\)
  • \(\mathcal{F}\):拟凸(及单调)函数类,即 \(\forall t \in \mathbb{R}\),下水平集 \(\{x: f(x) \le t\}\) 为凸集(且 \(f\) 对每个分量单调增)。
  • \(\hat{f}_n\):拟凸约束 LSE(estimator),定义为 \(\hat{f}_n \in \arg\min_{f \in \mathcal{F}} \sum_{i=1}^n (Y_i - f(X_i))^2\)
  • \(\sigma^2(x)\):误差条件方差 \(\text{Var}(\varepsilon_i | X_i=x)\),可依赖协变量,仅假设有限。
  • \(\mathcal{X}_n = \{X_1,\dots,X_n\}\):可观测样本点集。
  • \(L_2(P_X)\) 距离\(\|f-g\|_{n,2}^2 = \frac{1}{n}\sum_{i=1}^n (f(X_i)-g(X_i))^2\)(经验测度),\(\|f-g\|_{P_X,2}^2 = \int (f-g)^2 dP_X\)(总体测度)。

模型: 数据生成机制为 \(Y_i = f_0(X_i) + \varepsilon_i\)\(X_i \sim P_X\)(支撑在光滑凸体 \(\mathcal{X}\) 上),\(\varepsilon_i\) 满足 \(\mathbb{E}[\varepsilon_i | X_i]=0\)\(\text{Var}(\varepsilon_i | X_i=x) = \sigma^2(x) \le \bar{\sigma}^2 < \infty\),且 \(\mathbb{E}[\varepsilon_i^2 | X_i]\) 有限(仅需二阶矩)。\(f_0 \in \mathcal{F}\)(拟凸+单调)。目标:估计 \(f_0\),度量风险 \(\mathbb{E}[\|\hat{f}_n - f_0\|_{P_X,2}^2]\)

可观测数据:研究者观测到 \(\{(X_i, Y_i)\}_{i=1}^n\)\(X_i\)\(d\) 维连续向量,\(Y_i\) 为实数响应。不可观测量为 \(\varepsilon_i\)\(f_0\);拟凸约束来自经济学公理(先验),不可直接从数据验证。

第二步:最小内核——\(d=2\)、格点设计、拟凸+保序特例

剥掉一般支撑集、随机设计、重尾异方差等一般性假设,最小内核是:\(d=2\)\(X_i\)\([0,1]^2\)\(m \times m\) 格点上(\(n=m^2\)),\(\varepsilon_i\) 为 i.i.d. \(N(0,1)\)\(f_0\) 为拟凸且对两个分量保序的函数

在这个特例下,要证的核心命题退化为:

\[\mathbb{E}\left[\|\hat{f}_n - f_0\|_{n,2}^2\right] \le C \cdot n^{-2/3} \cdot \log n,\]
其中 \(C\) 仅依赖 \(\bar{\sigma}^2\)\(f_0\) 的界。

证明怎么走、为什么成立: 1. 拟凸函数的局部逼近结构:在 \(d=2\) 格点上,拟凸+保序函数在每个格点邻域可被“分片线性凸函数”逼近,且下水平集的凸性保证了局部变差受控——这是拟凸约束比纯保序约束更强的几何结构,使得局部熵增长速率从保序的 \(n^{-1/2}\) 降至拟凸的 \(n^{-2/3}\) 量级。 2. Empirical process 界:在格点设计+Gaussian 误差下,关键跳跃是控制 \(\sup_{f \in \mathcal{F}: \|f-f_0\|_{n,2} \ge \delta} \frac{\sum \varepsilon_i (f(X_i)-f_0(X_i))}{\|f-f_0\|_{n,2}^2}\)。拟凸类的局部熵(local metric entropy)在 \(d=2\) 下为 \(\log N(\delta, \mathcal{F}, L_2) \lesssim \delta^{-1}\)(类比凸函数的熵界),从而 empirical process 的增量被 \(\delta \cdot \sqrt{\log N(\delta)} \lesssim \delta^{1/2}\) 控制,满足“sub-exponential tail”条件。 3. Sharp oracle inequality 的核心不等式:通过局部熵控制与 basic inequality(\(\|\hat{f}_n-f_0\|_{n,2}^2 \le \frac{2}{n}\sum \varepsilon_i(\hat{f}_n-f_0)\)),结合 peeling 设备,得到风险界的主项为 \(\inf_{f \in \mathcal{F}} \{\|f-f_0\|_{P_X,2}^2 + \text{complexity term}\}\),在 \(f_0 \in \mathcal{F}\) 时退化至纯 complexity term \(n^{-2/3} \log n\)

为什么这个特例是整篇的“壳”: 一般情形的证明只是将格点设计替换为随机设计(需控制 \(\|\cdot\|_{n,2}\)\(\|\cdot\|_{P_X,2}\) 的偏差,用 Giné & Nickl 2015 的 Corollary 3.2.2),将 Gaussian 误差替换为仅二阶矩误差(需用 Mendelson 2014 的 multiplier empirical process 界与 Kuchibhotla & Patra 2021 的局部矩控制),将 \(d=2\) 推广至 \(d \ge 2\)(熵界从 \(\delta^{-1}\) 变为 \(\delta^{-d/2}\),速率从 \(n^{-2/3}\) 变为 \(n^{-2/(d+1)}\))。核心几何与 empirical process 逻辑不变。


三、这篇论文做了什么

三句话: ①研究了多变量拟凸(及单调)回归函数的最小二乘估计问题; ②核心工具是拟凸函数类的局部熵界、multiplier empirical process 理论与混合整数二次规划(MIQP)刻画; ③主要结论是拟凸+保序 LSE 的存在性、MIQP 可计算性、以及仅需误差二阶矩且允许异方差时的 sharp oracle inequality(速率 \(n^{-2/(d+1)}\))。

关键设定与假设: - 定义 2.1(拟凸+保序函数类 \(\mathcal{F}\)\(f: \mathcal{X} \to \mathbb{R}\),对每个分量单调增,且 \(\forall t\),下水平集 \(\{x: f(x) \le t\}\) 为凸集。统计含义:生产/成本函数的经济学公理(投入越多产出越多,且存在最优投入比例使得下水平集凸)。 - 假设 A1(误差矩条件)\(\mathbb{E}[\varepsilon_i | X_i]=0\)\(\text{Var}(\varepsilon_i | X_i=x) \le \bar{\sigma}^2 < \infty\),且 \(\mathbb{E}[\varepsilon_i^2 | X_i]\) 有限(仅需二阶矩)。相比 Han & Wellner (2017) 的 \(p\)-th moment 条件与 Kuchibhotla & Patra (2021) 的局部矩条件,本文仅要求全局二阶矩上界,但允许 \(\sigma^2(x)\) 依赖 \(x\)(异方差)。 - 假设 A2(支撑集光滑性)\(P_X\) 支撑在 \(\mathbb{R}^d\) 的光滑凸体 \(\mathcal{X}\) 上(边界满足一定曲率条件)。统计含义:避免 Han & Wellner (2016) 指出的多面体支撑上边界效应导致的速率退化;本文未处理多面体支撑情形。 - 假设 A3(信号有界)\(|f_0(x)| \le M < \infty\)。统计含义:控制拟凸函数类的包络,使 empirical process 界可行;与 Han et al. (2019) 的 bounded signal 假设一致。 - 假设 A4(设计测度密度下界)\(P_X\)\(\mathcal{X}\) 内部有密度 \(p(x) \ge c > 0\)。统计含义:保证 \(\|\cdot\|_{n,2}\)\(\|\cdot\|_{P_X,2}\) 的等价性,避免稀疏设计导致的速率退化。

主要结果: - Theorem 3.1(LSE 存在性与 MIQP 刻画):证明了 \(\hat{f}_n = \arg\min_{f \in \mathcal{F}} \sum (Y_i-f(X_i))^2\) 存在,且 \(\mathcal{F}\) 在样本点上的限制可被 MIQP 精确刻画。直觉:拟凸约束的下水平集凸性可被“每个样本点属于某个凸组合”的整数约束表达,从而将无限维优化转化为有限维 MIQP。必要条件:样本点集 \(\mathcal{X}_n\) 的凸包结构;技术难点:拟凸约束的非线性(下水平集随 \(t\) 变化)如何被线性+整数约束捕捉——作者通过引入辅助整数变量 \(z_{ij} \in \{0,1\}\) 表示“点 \(X_i\) 是否在 \(f(X_j)\) 的下水平集中”,将拟凸条件转化为 \(z_{ij}\) 的线性约束与 \(f(X_i)\) 的二次目标。 - Theorem 5.1(Sharp oracle inequality):在假设 A1-A4 下,\(\forall f_0 \in \mathcal{F}\)

\[\mathbb{E}\left[\|\hat{f}_n - f_0\|_{P_X,2}^2\right] \le C_1 \inf_{f \in \mathcal{F}} \|f-f_0\|_{P_X,2}^2 + C_2 n^{-2/(d+1)} \log n,\]
其中 \(C_1\) 接近 1(“sharp”),\(C_2\) 依赖 \(\bar{\sigma}^2, M, d\)。直觉:拟凸类的局部熵在光滑支撑上为 \(\delta^{-d/2}\)(类比凸函数),驱动速率 \(n^{-2/(d+1)}\);sharpness 来自 empirical process 的 sub-exponential tail 控制。必要条件:误差二阶矩有限、支撑光滑、信号有界。解决的技术难点:异方差+重尾下 multiplier empirical process 的增量控制(用 Mendelson 2014 的 product process 界替代 sub-Gaussian tail)。 - Corollary 5.1(拟凸+保序 vs 纯保序的速率对比):当 \(f_0\) 同时拟凸+保序时,拟凸+保序 LSE 速率为 \(n^{-2/(d+1)}\),而纯保序 LSE(Han et al. 2019)速率为 \(n^{-1/d}\)\(d \ge 3\) 时更慢)。作者据此声称拟凸约束带来速率提升。但此对比依赖支撑光滑性假设;若支撑为多面体,纯保序速率是否仍为 \(n^{-1/d}\) 未讨论。

证明路线与技术技巧: - 整体路线: 1. Basic inequality\(\|\hat{f}_n-f_0\|_{n,2}^2 \le \frac{2}{n}\sum \varepsilon_i(\hat{f}_n-f_0)\)。 2. 局部化:设 \(\delta > 0\),将 \(\mathcal{F}\)\(\|f-f_0\|_{n,2}\) 的尺度分层,用 peeling 设备将 supremum 限制在 \(\|f-f_0\|_{n,2} \ge \delta\) 的层上。 3. Empirical process 界:控制 \(\sup_{f \in \mathcal{F}: \|f-f_0\|_{n,2} \ge \delta} \frac{\sum \varepsilon_i(f-f_0)}{\|f-f_0\|_{n,2}^2}\),用 Mendelson (2014) 的 multiplier process 界结合拟凸类的局部熵 \(\log N(\delta, \mathcal{F}, L_2) \lesssim (M/\delta)^{d/2}\)。 4. \(\|\cdot\|_{n,2}\)\(\|\cdot\|_{P_X,2}\):用 Giné & Nickl (2015, Corollary 3.2.2) 将经验测度偏差转化为总体测度风险,依赖 A4 的密度下界。 5. Sharp oracle inequality 整合:将上述界代入 basic inequality,取 \(\delta\) 为临界尺度(由局部熵与样本量平衡得到 \(\delta \asymp n^{-2/(d+1)} \log n\)),得到主定理。 - 关键跳跃点: - 拟凸类的局部熵界:如何从拟凸约束的下水平集凸性推导 \(\log N(\delta, \mathcal{F}, L_2) \lesssim \delta^{-d/2}\)?作者引用了 Han (2021) 与 Kur et al. (2019) 的凸函数熵界,但拟凸函数的逼近结构(下水平集凸 vs 函数本身凸)有本质差异——作者通过“拟凸函数可被分片线性凸函数逼近至 \(\delta\) 精度”的引理(Lemma 4.2)绕过此难点,但该引理的证明依赖支撑光滑性(A2),未处理多面体支撑。 - 异方差重尾下的 empirical process:如何控制 \(\sum \varepsilon_i(f-f_0)\)\(\sigma^2(x)\) 依赖 \(x\) 且仅二阶矩时的 tail?作者用 Kuchibhotla & Patra (2021) 的局部矩控制(\(\mathbb{E}[\varepsilon_i^2 | X_i=x] \le \bar{\sigma}^2\))结合 Mendelson (2014) 的 multiplier process 界,将 tail 从 sub-Gaussian 降至 sub-exponential,代价是常数 \(C_2\) 依赖 \(\bar{\sigma}^2\)。 - 技术技巧点名: - Multiplier empirical process / product process(Mendelson 2014):用于控制 \(\sum \varepsilon_i f(X_i)\) 在重尾异方差下的增量,起作用在步骤 3。 - Local metric entropy / entropy integral(Han 2021, Kur et al. 2019):用于量化拟凸类的复杂度,驱动速率 \(n^{-2/(d+1)}\),起作用在步骤 3 的 peeling 尺度选择。 - Peeling device(Bellec 2018, Lecué & Mendelson 2012):用于将 supremum 分层控制,起作用在步骤 2。 - MIQP 刻画(Dedieu et al. 2020):用于将拟凸约束转化为整数+二次约束,起作用在 Theorem 3.1 的计算可行性。 - Giné & Nickl (2015) 的经验测度偏差界:用于从 \(\|\cdot\|_{n,2}\) 风险过渡到 \(\|\cdot\|_{P_X,2}\) 风险,起作用在步骤 4。

真实例子与应用: - 日本胶合板生产函数:数据为 2007 年日本胶合板企业的投入(资本、劳动、原材料)与产出(胶合板产量),\(d=3\) 协变量。将拟凸+保序 LSE 应用于估计生产函数 \(f_0(K, L, M)\),与 Cobb-Douglas 参数估计、Nadaraya-Watson 非参数估计对比。结果显示拟凸 LSE 在边界区域(低投入/高投入)的拟合比 NW 更符合经济学公理(不出现递减产出),且比 Cobb-Douglas 更灵活(允许非恒定替代弹性)。此例旨在展示拟凸约束的经济学合理性与 LSE 的拟合优势。 - 美国医院成本函数:数据为美国医院的投入(劳动力、资本)与产出(治疗人数、病例类型指数),\(d=2\) 协变量。将拟凸+保序 LSE 应用于估计成本函数 \(f_0(L, K)\),与 Chen et al. (2018) 的 shape-enforcing operator 对比。结果显示拟凸 LSE 在内部区域的拟合平滑度优于 shape-enforcing 方法,但在边界区域两者差异不大。此例旨在对比 LSE 与事后投影法的实证表现,呼应 Section 6 的理论讨论(“存在设定下 LSE 更优,也存在设定下 shape-enforcing 更优”)。

🔎 结论是否比证明窄: - Corollary 5.1 的速率对比声明:作者声称“拟凸+保序 LSE 速率 \(n^{-2/(d+1)}\) 显著快于纯保序 LSE 速率 \(n^{-1/d}\)”,但此结论仅在支撑光滑(A2)与密度下界(A4)下严格证明。若支撑为多面体(如 \([0,1]^d\) 的格点),Han & Wellner (2016) 已证明凸回归速率退化至 \(n^{-4/(d+4)}\),拟凸回归是否也退化未被证明,却被泛泛 claim 为“拟凸约束带来速率提升”——研究者应核验 Corollary 5.1 的陈述是否在多面体支撑下仍成立。 - Theorem 3.1 的 MIQP 可解性:作者证明 LSE 可被 MIQP 精确刻画,但未证明 MIQP 在 \(n\) 很大时可在合理时间内求解;Dedieu et al. (2020) 的近似算法被引但未整合进本文计算框架——MIQP 的实际可计算性被 claim 为“可行”,但严格证明仅覆盖存在性,未覆盖计算复杂度。


四、开放问题(点到为止,扎根具体语句)

  1. 拟凸 LSE 在多面体支撑上的 minimax rate:本文 Theorem 5.1 仅在光滑支撑(A2)下证明速率 \(n^{-2/(d+1)}\);Han & Wellner (2016) 证明凸回归在多面体支撑上速率退化至 \(n^{-4/(d+4)}\)。拟凸 LSE 在多面体支撑(如 \([0,1]^d\))上的速率是否也退化至 \(n^{-4/(d+4)}\) 或更慢?扎根点:Theorem 5.1 的假设 A2 与 Han & Wellner (2016) 的 Theorem 3.1 对比。
  2. 拟凸类的 minimax 下界:本文仅给出 LSE 的上界(oracle inequality),未给出拟凸类的 minimax 下界。拟凸类在光滑支撑上的 minimax rate 是否确为 \(n^{-2/(d+1)}\)(与凸类相同),还是更慢?扎根点:Theorem 5.1 的速率声明与 Han & Wellner (2016) 的 minimax 下界对比——若拟凸 minimax 下界低于 \(n^{-2/(d+1)}\),则 LSE 速率不优。
  3. MIQP 的计算复杂度与近似算法:Theorem 3.1 证明 MIQP 精确刻画 LSE,但 \(n\) 个样本点下 MIQP 的整数变量数为 \(O(n^2)\)\(z_{ij}\)),求解时间是否随 \(n\) 指数增长?Dedieu et al. (2020) 的近似 MIP 算法能否适配拟凸约束?扎根点:Section 3 的 MIQP 构造与 Dedieu et al. (2020) 的可计算规模对比。
  4. 拟凸约束与半参数降维的交互:Balabdaoui et al. (2016) 与 Kuchibhotla et al. (2021) 的单指数拟凸模型将 \(d\) 维协变量降至 1 维投影,速率不依赖 \(d\);本文的多变量拟凸 LSE 速率依赖 \(d\)。是否存在“拟凸单指数 LSE”达到 \(d\)-无关速率?扎根点:intro 对单指数模型的提及与 Theorem 5.1 的 \(d\)-依赖速率。

提醒:要确认第 1 条(多面体支撑速率退化)是否真 gap,去读 Han & Wellner (2016)、Deng & Zhang (2020)、Kur et al. (2019) 近期约 5 篇的 intro——若都指出多面体支撑是未闭合难点,则为共识真 gap;若互相打架(有人给出多面体上的快速率),则为机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论