Convex regression in multidimensions: Suboptimality of least squares estimators¶
作者: Gil Kur, Fuchang Gao, Adityanand Guntuboyina, Bodhisattva Sen
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 9/10
机构绿灯: ETH Zurich(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究形状约束回归(shape‑constrained regression)中最小二乘估计量(LSE)的收敛速率与 minimax 最优性。具体地,在非参数回归模型 \(Y_i = f_0(X_i) + \varepsilon_i\)(\(\varepsilon_i\) i.i.d. \(N(0, \sigma^2)\))中,假设真实函数 \(f_0\) 属于某个形状约束函数类(如凸函数、单调函数、log‑concave 密度等),目的是找出 LSE 在平方损失下的风险(或期望 \(L_2\) 误差)上界,并将其与同类函数的 minimax 下界比较。这一问题在经济学(效用函数估计)、运筹学(凸成本函数)和统计学中已研究三十年,其成熟度:在一维情形(\(d=1\))已完全解决(LSE 达到 minimax 率 \(n^{-4/5}\)),而维数 \(d\ge 2\) 时 LSE 的最优性长期为开放问题,直至本文给出首个负面结论。
发展脉络(history)¶
按时间线梳理作者引用的关键工作(加粗为核心文献):
- 奠基工作
- Hildreth (1954), Hanson & Pledger (1976):提出凸回归的 LSE。
- Seijo & Sen (2010) [42](被引摘要):证明多维(\(d\ge 2\))凸 LSE 的相合性(consistency),但未给出收敛速率。
-
Kuosmanen (2008) [34]:给出凸 LSE 的计算等价于二次规划,建立了计算可行性。
-
一维凸回归的精确刻画
- Guntuboyina & Sen (2013) [27](被引摘要):对一维凸回归,证明 LSE 风险 \(\le n^{-4/5}\log n\),且局部 minimax 下界为 \(n^{-4/5}\),从而建立 LSE 的 minimax 最优性。
- Bellec (2015) [7](被引摘要):给出锐化 Oracle 不等式,显示一维凸 LSE 风险可适应至参数率 \(q/n\)(若真实函数为 \(q\) 段仿射),并在最坏设计下风险可慢至 \(n^{-2/3}\)。
-
Ghosal & Sen (2016) [21]:得到一维凸 LSE 的局部极限分布。
-
多维凸回归的进展与边界效应
- Han & Wellner (2016) [6](被引摘要):对有界凸 LSE(BLSE),发现 minimax 风险依赖于支撑的光滑性——若支撑为光滑凸体(如单位球),率为 \(n^{-2/(d+1)}\);若支撑为多面体(polytope),率为 \(n^{-4/(d+4)}\)。但 BLSE 在 \(d\ge 4\) 时是率次优的(suboptimal)。这一工作首次揭示了支撑形状与 minimax 率的关系。
- Kur, Dagan & Rakhlin (2019) [16](被引摘要):证明当支撑为光滑凸体时,有界凸 LSE 在 \(d\ge 4\) 下是 minimax 最优的(率 \(n^{-2/(d+1)}\))。
-
Mazumder et al. (2015) [3]:提出大规模凸回归的计算方法,并引入 Lipschitz 正则化凸回归。
-
Metric entropy 基础
- Gao (2008) [19], Dryanov (2009) [16], Guntuboyina & Sen (2012) [26](被引摘要):证明有界凸函数在 \(L_p\)(\(1\le p<\infty\))下的 metric entropy 为 \(\Theta(\varepsilon^{-d/2})\),即维数 \(d\) 出现在指数项。
- Guntuboyina & Sen (2012) [5](被引摘要):给出多维有界凸函数覆盖数的紧上下界。
- Gao & Wellner (2017) [18](被引摘要):将熵估计推广至 \(\mathbb{R}^d\) 上无界凸函数(通过限制 Lipschitz 常数)。
-
Doss (2015) [8](被引摘要):给出凸函数在有界多面体上的 bracketing 熵,适用于离散 \(\ell_2\) 伪度量,这直接为 LSE 风险分析提供工具。
-
本文的位置
- Kur, Gao, Guntuboyina & Sen (本文):针对全凸 LSE(不加有界约束或 Lipschitz 约束),首次证明在 \(d\ge 5\) 时其在三种典型设定(polytope 固定设计、polytope 随机设计、一般凸域加 Lipschitz)下都是 minimax 次优的——LSE 风险率为 \(n^{-2/d}\)(含对数因子),而 minimax 率为 \(n^{-4/(d+4)}\)。此外,首次给出全凸 LSE 在所有维数 \(d\ge 1\) 下的 worst‑case 与自适应收敛速率。
子线索聚类¶
被引文献可归为三条子线索:
1. 凸回归的理论性质(相合性、局部分布):Seijo & Sen (2010), Chen & Wellner (2014), Ghosal & Sen (2016) 等。
2. 率最优性与 minimax 边界:Guntuboyina & Sen (2013), Chatterjee et al. (2013), Bellec (2015), Han & Wellner (2016), Kur et al. (2019) 等。其中关键对立是:光滑支撑下 LSE 最优(Kur et al. 2019) vs 多面体支撑下 LSE 也许次优(Han & Wellner 2016 已有 BLSE 次优线索)。
3. Metric entropy 与 bracketing:Gao (2008), Guntuboyina & Sen (2012), Doss (2015) 等,为 LSE 上界提供技术基础。
这个方向在追问的核心问题(2-4个)¶
- 问题A:多维凸 LSE 的收敛速率是否达到该类函数的 minimax 最优率?
- 问题B:支撑形状(光滑凸体 vs 多面体)如何影响 minimax 率与 LSE 率?已有结果为何出现分岔?
- 问题C:凸 LSE 是否具有适应性(如当真实函数为分段仿射时能否自动获得参数率)?
- 问题D:能否通过添加正则化(如 Lipschitz、boundedness)使 LSE 重新达到 minimax 最优?
⚠️ 作者的 framing(必须明确标注“这是作者的说法”)¶
作者将缺口 frame 为:“全凸 LSE(无有界或 Lipschitz 约束)的收敛速率” 且 “在多面体支撑或 Lipschitz 凸函数类上均未得到等价于 minimax 率的结果”。他们淡化了两点:
- 对光滑凸体(如球),已有 Kur et al. (2019) 证有界凸 LSE 是最优的,但作者说“我们的结果适用于更一般的凸 Lipschitz 类,不要求有界”。
- 对有界凸 LSE 的 suboptimality 在 Han & Wellner (2016) 已部分暗示(d≥4 时),但作者更进一步去掉了有界约束并严格证明 gap。
什么明显该被引 / 该存在、却没出现在 intro 里?
- 没有引用 Chatterjee (2016, AnnStat) 关于“凸约束下 LSE 的可容许性与 minimax 次优性的一般理论”——Chatterjee (2014) 的 Abstract 明确提到“a counterexample showing that least squares estimator may not always be minimax rate‑optimal”,但本文未深入对比该一般框架如何应用到凸回归。研究者可自行查:Chatterjee (2014) 的 LSE 次优性例子是否在凸函数类中成立?若成立,本文的 suboptimality 是否可视为该一般理论的特例?
- 没有引用 S. Chatterjee (2015) [22](concave regression 改进界)——该文去掉对数因子,本文似可引用其 peeling 技巧。
张力¶
未见明显对立引用。但注意 Han & Wellner (2016) 对有界凸 LSE 在多面体下的 minimax 率定为 \(n^{-4/(d+4)}\),而 Kur et al. (2019) 对光滑支撑给出率 \(n^{-2/(d+1)}\),两者不一致是因为支撑不同——这是一个有依据的差异而非矛盾。作者在文中通过对比统一说明。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
符号表(一次性立清)
- \(d\):自变量维数(\(d\ge 1\) 整数)。
- \(\Omega\):自变量所在区域,通常为 \(\mathbb{R}^d\) 上的有界凸体。常见设定:
- 多面体 \(\mathcal{P} \subset \mathbb{R}^d\)(如单位立方体 \([0,1]^d\));
- 光滑凸体 \(\mathcal{C}\)(如欧几里得球)。
- \(X_i\):第 \(i\) 个协变量,可为固定设计(如均匀网格)或随机设计(i.i.d. 来自某分布)。
- \(Y_i\):响应变量,\(Y_i = f_0(X_i) + \varepsilon_i\),\(\varepsilon_i \sim N(0,\sigma^2)\) i.i.d.。
- \(f_0\):真实回归函数,属于某凸函数类 \(\mathcal{F}\)(本文考虑四种:**
- \(\mathcal{C}(\Omega)\):\(\Omega\) 上的凸函数(无额外约束)。
- \(\mathcal{C}_B(\Omega)\):有界凸函数,满足 \(\|f\|_\infty \le B\)。
- \(\mathcal{C}_L(\Omega)\):Lipschitz 凸函数,Lipschitz 常数 \(\le L\)。
- \(\mathcal{C}_{\text{pol}}(\mathcal{P})\):定义在多面体 \(\mathcal{P}\) 上的凸函数。
- \(\hat{f}_n\):凸 LSE,即
- 固定设计:\(\|\hat{f}_n - f_0\|_n^2 = \frac{1}{n}\sum_{i=1}^n (\hat{f}_n(X_i) - f_0(X_i))^2\)。
- 随机设计:\(\|\hat{f}_n - f_0\|_2^2 = \int_\Omega (\hat{f}_n(x) - f_0(x))^2 \, d\mu(x)\)(\(\mu\) 为设计分布)。
- 维数与样本量:\(n\) 为样本量。 - 潜在量:无(无因果潜在变量),但“不可观测”的是函数值在非设计点上的表现——仅靠假设(如凸性、Lipschitz)来外推。 - 关键指标:
- minimax 风险:\(\inf_{\tilde{f}}\sup_{f_0\in\mathcal{F}} \mathbb{E}\|\tilde{f} - f_0\|^2\)(inf 遍及所有可测估计量)。
- LSE 的风险:\(\mathbb{E}\|\hat{f}_n - f_0\|^2\)。
可观测数据:我们看到的只有 \((X_i, Y_i)_{i=1}^n\)。我们无法观测到 \(f_0\) 在非设计点的值,但可通过凸性约束外推。
第二步:最小内核——一维特例推广?¶
本文不是一维特例的简单推广。一维凸 LSE 风险上界通过 metric entropy 积分得到:\(\varepsilon_n = n^{-4/5}\),minimax 下界也为 \(n^{-4/5}\)。在多维情况中,最小内核可以抽象为:
- 凸函数类 \(\mathcal{F}\) 在 \(L_2\) 下的 metric entropy 为 \(\varepsilon^{-d/2}\)(这是已知结果,如 Guntuboyina & Sen 2012)。
- LSE 的风险上界(在固定设计下)可由局部熵积分控制:
- minimax 下界则通过构造一个“微小扰动”族:使用局部二次型(深度 2 的 Taylor 展开)的凸函数,其 \(L_2\) 距离的 minimax 率为 \(n^{-4/(d+4)}\)(类似光滑度 2 的非参数回归)。
最简特例:d=5,凸函数类 \(\mathcal{C}([0,1]^5)\)
- 设计:等距网格(固定设计),\(n\) 个点均匀分布在 \([0,1]^5\) 中(即每维约 \(n^{1/5}\) 个点)。
- 设真实函数 \(f_0 \equiv 0\)(线性,属于凸类)。
- LSE 风险下界:可通过将凸函数类中的许多 “几乎正交”的凸峰 嵌入于网格点,利用范数估计的 minimax 下界(如 Assouad 引理)证得:LSE 风险至少为常数乘 \(n^{-2/5}\)(忽略对数)。
- Minimax 下界:可构造许多二次型凸函数(\(f(x) = a\|x\|^2\) 的局部变形),其互相之间的 \(L_2\) 距离可调,通过 Fano 不等式得到下界 \(n^{-4/9}\)。
- 由于 \(4/9 \approx 0.444 > 0.4 = 2/5\),所以 LSE 风险率慢于 minimax 率,LSE 是次优的。
核心难处:当 \(d\ge 5\) 时,LSE 的局部熵界给出的率 \(n^{-2/d}\) 显著慢于 minimax 率 \(n^{-4/(d+4)}\)。这个 gap 不是由常数差异引起,而是指数上的实质性差异:
- \(2/d > 4/(d+4)\) 当 \(d>4\)(即 \(2/d\) 衰减更慢)。
- 因此 LSE 的收敛速度是 维数灾难(curse of dimensionality) 的典型表现(指数 \(2/d\)),而 minimax 率 \(4/(d+4)\) 则与光滑度 2 的非参数回归(如 Sobolev 类)一致——凸性并没有带来比二阶平滑更快的 minimax 率,但 LSE 由于其投影性质无法自动利用凸性带来的局部结构。
本文的关键想法:
- 对 LSE 的上界:使用 Doss (2015) 的离散局部 bracketing 熵,证明即使在凸类上 LSE 的风险率由 线性函数的局部逼近 决定,导出 \(n^{-2/d}\)。
- 对 minimax 下界:借用 Han & Wellner (2016) 的构造(凸函数的二次型微扰),其复杂度由凸函数的“有效自由度”约为 \(n^{4/(d+4)}\) 给出。
读到这里,读者已握有核心:LSE 的风险率由凸函数类的 metric entropy 指数 \(d/2\) 驱动,而 minimax 率由更小的“有效参数数”\(n^{4/(d+4)}\) 驱动,二者在 \(d\ge 5\) 时分离。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在非参数回归模型(高斯误差)中,对多维(\(d\ge 5\))凸函数类(polytope 上全凸类、有界凸类、Lipschitz 凸类),证明 LSE 的平方损失风险率显著慢于该类函数的 minimax 风险率,即 LSE 是 率次优的。
- 核心工具/方法:结合凸函数的局部离散 entropy(bracketing)上界(Doss 2015)与 minimax 下界的函数构造(局部二次型),以及首次推导全凸 LSE 在所有维数 \(d\ge 1\) 下的 worst‑case 与自适应收敛率。
- 主要结论:
- (i) 对 polytope 固定设计,全凸 LSE 风险 \(\lesssim n^{-2/d}\log n\)(\(d\ge 5\)),而 minimax 风险 \(\gtrsim n^{-4/(d+4)}\);
- (ii) 对 polytope 随机设计,有界凸 LSE 风险 \(\lesssim n^{-2/d}\log n\)(\(d\ge 5\)),minimax \(\gtrsim n^{-4/(d+4)}\);
- (iii) 对一般凸域随机设计,凸 Lipschitz LSE 风险 \(\lesssim n^{-2/d}\log n\)(\(d\ge 5\)),minimax \(\gtrsim n^{-4/(d+4)}\);
- (iv) 作为副产品,给出全凸 LSE 在 polytope 上对所有 \(d\ge 1\) 的首个收敛速率(如 \(d=2,3,4\) 时率分别为 \(n^{-4/5}\), \(n^{-2/3}\), \(n^{-1/2}\) 等,与 minimax 率重叠或接近)。
关键设定与假设¶
本文考虑三种设定(对应定理 2.1、3.1、4.1):
设定 A(全凸 LSE,固定设计)
- 设计点 \(\mathcal{X}_n = \{x_1,\dots,x_n\}\) 为 polytope \(\mathcal{P}\) 上的网格(等距且在每维取整数坐标的 \(m^d\) 个点,\(n = m^d\))。
- 真实函数 \(f_0 \in \mathcal{C}(\mathcal{P})\)(全凸,无有界/Lipschitz 约束)。
- 假设:误差 \(\varepsilon_i\) 为 i.i.d. \(N(0,\sigma^2)\)。
- LSE \(\hat{f}_n\) 定义在 \(\mathcal{C}(\mathcal{P})\) 上。
设定 B(有界凸 LSE,随机设计)
- 设计 \(X_i\) i.i.d. 服从 polytope \(\mathcal{P}\) 上的均匀分布(或带密度 \(g\) 满足 \(0<a\le g\le b<\infty\))。
- 真实函数 \(f_0 \in \mathcal{C}_B(\mathcal{P})\),即 \(\|f_0\|_\infty \le B\)。
- LSE 在 \(\mathcal{C}_B(\mathcal{P})\) 上求解。
设定 C(凸 Lipschitz LSE,随机设计)
- 设计 \(X_i\) i.i.d. 服从某凸域 \(\Omega\) 上的分布(密度有界离开零)。
- 真实函数 \(f_0 \in \mathcal{C}_L(\Omega)\),即凸且 Lipschitz 常数 \(\le L\)。
- LSE 在 \(\mathcal{C}_L(\Omega)\) 上求解。
相比已有文献(Han & Wellner 2016,Kur et al. 2019)的放宽:
- 对设定 A,去掉了有界约束(全凸类),但代价是只能给出 LSE 上界而非紧下界?实际上是上下界都得到。
- 对设定 C,凸 Lipschitz 类覆盖了光滑凸体支持的情形,且 不要求支撑是多面体,这是首次对 Lipschitz 凸 LSE 给出率。
- 对所有设定,假设高斯误差(可放宽至次高斯?但作者未提);固定设计严格等距网格(可放宽但技术细节复杂)。
主要结果(挑 3 个关键定理)¶
定理 2.1(全凸 LSE,固定设计,polytope)
设 \(d\ge 2\),\(\mathcal{P}\) 为 \(d\) 维 polytope,\(n\) 个设计点构成等距网格。则存在常数 \(C,C'>0\) 使得
定理 3.1(有界凸 LSE,随机设计,polytope)
设定同 B。则对 \(d\ge 5\) 有
定理 4.1(凸 Lipschitz LSE,随机设计,一般凸域)
设定同 C。对 \(d\ge 5\):
直觉与必要条件:
- 证明 LSE 上界时,关键条件是 polytope 或 Lipschitz (使得凸函数在区域边界附近行为可控);
- 证明 minimax 下界时,需要构造的二次型函数是凸的且紧靠支撑边界(因此需要边界有一定面积)。对光滑凸体,边界面积较小导致率 \(n^{-2/(d+1)}\) 而非 \(n^{-4/(d+4)}\),但 LSE 在该设定下是否最优由 Kur et al. (2019) 回答。
证明路线与技术技巧(理论型)¶
整体路线(以定理 2.1 为例)
- LSE 风险上界
- 将 LSE \(\hat{f}_n\) 视为在凸锥上的投影。使用 Chatterjee (2014) 的引理:\(\mathbb{E}\|\hat{f}_n - f_0\|_n^2 = \mathbb{E} \sup_{f\in\mathcal{C}(\mathcal{P})} [\frac{1}{n}\sum_i \varepsilon_i (f(X_i)-f_0(X_i))]^2_+\)。转化为高斯过程的 sup 问题。
- 利用 Doss (2015) 的 local bracketing entropy 上界:在离散 \(\ell_2\) 伪度量下,对于“半径为 \(\delta\)”的局部凸函数子集,其 \(\epsilon\)-bracketing 熵为 \(O(\epsilon^{-d/2})\)。
- 通过 chaining + peeling(如 van der Vaart & Wellner 的 entropy integral 方法)得到 \(\delta_n = n^{-2/d}\) 满足 entropy integral 约束:\(\int_0^{\delta_n} \sqrt{H(\epsilon, \mathcal{F}_\delta, \ell_2)} d\epsilon \lesssim \sqrt{n}\delta_n^2\),从而推出风险上界 \(O(\delta_n^2 \log n)\)。
-
对数因子来自于 peeling 的格子数目(类似 Chatterjee 2015 的技巧,但文中仍保留了对数;作者指出可能可去除但未尝试)。
-
LSE 风险下界(存在坏 \(f_0\) 使 LSE 率至少 \(n^{-2/d}\))
-
构造一族凸函数 \(\{f_\theta\}\),使得它们之间的 \(\ell_2\) 距离为 \(n^{-2/d}\) 量级,且 LSE 在该族上无法一致更快。利用 Assouad 引理 或 Fano 不等式。具体构造:在 polytope 的每个小“bin”上放置一个“凸峰”,通过选择峰高编码参数 \(\theta\)。其复杂度由 bin 数 \(N \approx n^{2/d}\) 决定,导出下界。
-
Minimax 下界
- 构造另一个族,使用局部二次型:在支撑的许多小区域上设置二次凸函数(如 \(f(x) = a\|x - x_0\|^2\)),其个数约为 \(n^{d/(d+4)}\)。用 Fano 或 Assouad 得到下界 \(n^{-4/(d+4)}\)。
- 关键点:这些二次型彼此间的 \(L_2\) 距离为 \(n^{-2/(d+4)}\),每个参数估计的方差为 \(1/n\),故有效“自由度”为 \(n^{d/(d+4)}\),转化为率。
关键跳跃点
- 从全局 metric entropy 到局部离散 bracketing entropy 的转换:因为 LSE 只在靠近真值的区域搜索,所以局部熵足够。Doss (2015) 的结果是此跳跃的关键。
- 处理无有界约束的凸类:需要截断技巧,但作者通过引入“在估计过程中函数可能非常大”的麻烦,并通过证明 LSE 在大部分设计点上本身有界来控制(利用凸函数在 polytope 上的增长由边界值控制)。
- 随机设计下的亚高斯尾界:采用 localization 与 truncation,先用有界假定下结果,再通过 Courant–Fischer 型论证去约束。
技术技巧点名
- 离散局部 \(\ell_2\) bracketing 熵(Doss 2015):对凸函数在 polytope 的网格点上的限制,推导 entropy 上界 \(O(\epsilon^{-d/2})\),克服了连续熵的发散问题。
- Chaining with peeling:处理发散熵积分时,按风险尺度 \(\delta\) 分割,用局部熵积分的“自洽”方程确定 \(\delta\)。
- Assouad / Fano 用于下界:构造凸函数族,确保其几何形状可参数化且参数空间具有足够大的包装数。
- 经验过程理论:使用 Gaussian process supremum 的期望控制,结合 Slepian/Fernique 引理(文中未显式提但隐含)。
- 凸性约束下的边界行为:利用凸函数在 polytope 内可由其在顶点和边界上的值决定,从而估计函数的大小。
真实例子与应用¶
本文为纯理论论文,未提供任何真实数据或模拟实验。所有结论均以定理与证明形式呈现。在引言和正文中,作者提到“Applications of convex regression can be found in Varian, Allon et al., Matzkin, Aït‑Sahalia and Duarte, Keshavarz et al., Toriello et al.”,但本文自身并不包含这些应用。作者仅在理论层面讨论了收敛速率,未做模拟验证(虽然后续工作中可能会有模拟,但本文未提)。因此,读者只能从定理陈述中推断 gap 的实际意义。
🔎 结论是否比证明窄¶
- 定理 2.1 的 LSE 上界 仅对 polytope 的等距固定设计 证明。作者在 Section 2.2 中讨论可将设计放宽至任意满足“均匀覆盖”条件的点集,但未给出严格证明,仅作为 remark。
- 定理 3.1 的随机设计部分要求设计密度在支撑上均匀有界(\(0<a\le g\le b\)),但证明中依赖 polytope 的几何性质。作者在 Section 3.4 猜测对一般凸域(非 polytope)应成立,但未证明。
- LSE 下界部分(证明 LSE 至少 \(n^{-2/d}\) 的坏情形)只对 polytope 的固定设计构造,而对随机设计,作者采用将随机设计嵌入固定设计的论证,需小心对待。
- 对数因子 \(\log n\) 是否可去掉?作者未 claim,仅在证明中提到“可能可通过更精细的 peeling 去掉”(见 Chatterjee 2015 对一维凸回归的结果)。
- 对 \(d=4\),LSE 风险率上界为 \(n^{-1/2}\log n\),而 minimax 率为 \(n^{-4/8}=n^{-1/2}\),所以 LSE 可能是最优的(仅差对数),但作者未肯定(只给出上界,未证明下界匹配)。
四、开放问题(指向具体语句)¶
-
d=4 边界情形:定理 2.1 中 LSE 上界为 \(n^{-1/2}\log n\),minimax 为 \(n^{-1/2}\)。问:\(d=4\) 时 LSE 是否严格次优?抑或对数因子可去除而达到最优? 扎根点:Section 2, 定理 2.1 的下标“\(d\ge 5\)”显式排除 d=4,且证明中依赖 d>4 的指数行为。研究者可查阅 Doss (2015) 的 bracketing 熵在 d=4 时的精细常数。
-
一般凸域(非 polytope)的 LSE 次优性:定理 4.1 仅对 Lipschitz 凸函数(配合一般凸域)给出结果。但无 Lipschitz 约束的全凸类在光滑凸体(如球)上是否也次优? 作者在 Section 4 的尾注中提及“对非 Lipschitz 凸类,我们的方法因边界附近函数增长而失效”。扎根点:Section 4 末尾“Extending these results to the class of convex functions without a Lipschitz constraint on a smooth convex body remains an open problem.”
-
消除对数因子:LSE 风险上界中的 \(\log n\) 因子是否本质?参考 Chatterjee (2015) 对一维凸回归去除了对数因子,但本文的多维证明中使用了 Generative peeling,对数可能来自格子数。扎根点:Remark 2.3 “The logarithmic factor in our upper bounds... can potentially be removed by a more careful chaining argument.”
-
其他形状约束类:本文的方法是否可推广至 \(m\)-单调函数、log‑concave 密度等?作者在 Section 5 提出“It would be interesting to examine whether the suboptimality of LSE holds for other shape‑constrained classes such as bounded monotone functions in high dimensions.” 扎根点:Section 5, first paragraph.
-
实际计算中的含义:LSE 在多维凸回归中往往需要求解大规模 QP(Mazumder et al. 2015),本文的理论 gap 是否意味着需要开发可替代的、计算仍可行的估计量(如惩罚 LSE、局部多项式加凸性约束)?作者未深入讨论,但基于理论 gap,这是一个自然的下一步。
提醒:以上开放问题中,第 1、2 条是作者明确标注的 gap;第 3 条是可能的技术改进;第 4 条是横向推广。研究者可首先验证自己熟悉的 minimax 下界技术是否可直接用于 d=4 情况,或查阅 Doss (2015) 的 bracketing 熵的指数在 d=4 时是否与 d=5 不同。
Maintained by 陈星宇 · Homepage · Source on GitHub