Convex regression in multidimensions: Suboptimality of least squares estimators¶

作者: Gil Kur, Fuchang Gao, Adityanand Guntuboyina, Bodhisattva Sen
来源: Annals of Statistics
主题: 非参数 / 半参数
相关性: 9/10
机构绿灯: ETH Zurich（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究形状约束回归（shape‑constrained regression）中最小二乘估计量（LSE）的收敛速率与 minimax 最优性。具体地，在非参数回归模型 \(Y_i = f_0(X_i) + \varepsilon_i\)（\(\varepsilon_i\) i.i.d. \(N(0, \sigma^2)\)）中，假设真实函数 \(f_0\) 属于某个形状约束函数类（如凸函数、单调函数、log‑concave 密度等），目的是找出 LSE 在平方损失下的风险（或期望 \(L_2\) 误差）上界，并将其与同类函数的 minimax 下界比较。这一问题在经济学（效用函数估计）、运筹学（凸成本函数）和统计学中已研究三十年，其成熟度：在一维情形（\(d=1\)）已完全解决（LSE 达到 minimax 率 \(n^{-4/5}\)），而维数 \(d\ge 2\) 时 LSE 的最优性长期为开放问题，直至本文给出首个负面结论。

发展脉络（history）¶

按时间线梳理作者引用的关键工作（加粗为核心文献）：

奠基工作
Hildreth (1954), Hanson & Pledger (1976)：提出凸回归的 LSE。
Seijo & Sen (2010) [42]（被引摘要）：证明多维（\(d\ge 2\)）凸 LSE 的相合性（consistency），但未给出收敛速率。
Kuosmanen (2008) [34]：给出凸 LSE 的计算等价于二次规划，建立了计算可行性。
一维凸回归的精确刻画
Guntuboyina & Sen (2013) [27]（被引摘要）：对一维凸回归，证明 LSE 风险 \(\le n^{-4/5}\log n\)，且局部 minimax 下界为 \(n^{-4/5}\)，从而建立 LSE 的 minimax 最优性。
Bellec (2015) [7]（被引摘要）：给出锐化 Oracle 不等式，显示一维凸 LSE 风险可适应至参数率 \(q/n\)（若真实函数为 \(q\) 段仿射），并在最坏设计下风险可慢至 \(n^{-2/3}\)。
Ghosal & Sen (2016) [21]：得到一维凸 LSE 的局部极限分布。
多维凸回归的进展与边界效应
Han & Wellner (2016) [6]（被引摘要）：对有界凸 LSE（BLSE），发现 minimax 风险依赖于支撑的光滑性——若支撑为光滑凸体（如单位球），率为 \(n^{-2/(d+1)}\)；若支撑为多面体（polytope），率为 \(n^{-4/(d+4)}\)。但 BLSE 在 \(d\ge 4\) 时是率次优的（suboptimal）。这一工作首次揭示了支撑形状与 minimax 率的关系。
Kur, Dagan & Rakhlin (2019) [16]（被引摘要）：证明当支撑为光滑凸体时，有界凸 LSE 在 \(d\ge 4\) 下是 minimax 最优的（率 \(n^{-2/(d+1)}\)）。
Mazumder et al. (2015) [3]：提出大规模凸回归的计算方法，并引入 Lipschitz 正则化凸回归。
Metric entropy 基础
Gao (2008) [19], Dryanov (2009) [16], Guntuboyina & Sen (2012) [26]（被引摘要）：证明有界凸函数在 \(L_p\)（\(1\le p<\infty\)）下的 metric entropy 为 \(\Theta(\varepsilon^{-d/2})\)，即维数 \(d\) 出现在指数项。
Guntuboyina & Sen (2012) [5]（被引摘要）：给出多维有界凸函数覆盖数的紧上下界。
Gao & Wellner (2017) [18]（被引摘要）：将熵估计推广至 \(\mathbb{R}^d\) 上无界凸函数（通过限制 Lipschitz 常数）。
Doss (2015) [8]（被引摘要）：给出凸函数在有界多面体上的 bracketing 熵，适用于离散 \(\ell_2\) 伪度量，这直接为 LSE 风险分析提供工具。
本文的位置
Kur, Gao, Guntuboyina & Sen (本文)：针对全凸 LSE（不加有界约束或 Lipschitz 约束），首次证明在 \(d\ge 5\) 时其在三种典型设定（polytope 固定设计、polytope 随机设计、一般凸域加 Lipschitz）下都是 minimax 次优的——LSE 风险率为 \(n^{-2/d}\)（含对数因子），而 minimax 率为 \(n^{-4/(d+4)}\)。此外，首次给出全凸 LSE 在所有维数 \(d\ge 1\) 下的 worst‑case 与自适应收敛速率。

子线索聚类¶

被引文献可归为三条子线索：
1. 凸回归的理论性质（相合性、局部分布）：Seijo & Sen (2010), Chen & Wellner (2014), Ghosal & Sen (2016) 等。
2. 率最优性与 minimax 边界：Guntuboyina & Sen (2013), Chatterjee et al. (2013), Bellec (2015), Han & Wellner (2016), Kur et al. (2019) 等。其中关键对立是：光滑支撑下 LSE 最优（Kur et al. 2019） vs 多面体支撑下 LSE 也许次优（Han & Wellner 2016 已有 BLSE 次优线索）。
3. Metric entropy 与 bracketing：Gao (2008), Guntuboyina & Sen (2012), Doss (2015) 等，为 LSE 上界提供技术基础。

这个方向在追问的核心问题（2-4个）¶

问题A：多维凸 LSE 的收敛速率是否达到该类函数的 minimax 最优率？
问题B：支撑形状（光滑凸体 vs 多面体）如何影响 minimax 率与 LSE 率？已有结果为何出现分岔？
问题C：凸 LSE 是否具有适应性（如当真实函数为分段仿射时能否自动获得参数率）？
问题D：能否通过添加正则化（如 Lipschitz、boundedness）使 LSE 重新达到 minimax 最优？

⚠️ 作者的 framing（必须明确标注“这是作者的说法”）¶

作者将缺口 frame 为：“全凸 LSE（无有界或 Lipschitz 约束）的收敛速率” 且 “在多面体支撑或 Lipschitz 凸函数类上均未得到等价于 minimax 率的结果”。他们淡化了两点：
- 对光滑凸体（如球），已有 Kur et al. (2019) 证有界凸 LSE 是最优的，但作者说“我们的结果适用于更一般的凸 Lipschitz 类，不要求有界”。
- 对有界凸 LSE 的 suboptimality 在 Han & Wellner (2016) 已部分暗示（d≥4 时），但作者更进一步去掉了有界约束并严格证明 gap。

什么明显该被引 / 该存在、却没出现在 intro 里？
- 没有引用 Chatterjee (2016, AnnStat) 关于“凸约束下 LSE 的可容许性与 minimax 次优性的一般理论”——Chatterjee (2014) 的 Abstract 明确提到“a counterexample showing that least squares estimator may not always be minimax rate‑optimal”，但本文未深入对比该一般框架如何应用到凸回归。研究者可自行查：Chatterjee (2014) 的 LSE 次优性例子是否在凸函数类中成立？若成立，本文的 suboptimality 是否可视为该一般理论的特例？
- 没有引用 S. Chatterjee (2015) [22]（concave regression 改进界）——该文去掉对数因子，本文似可引用其 peeling 技巧。

张力¶

未见明显对立引用。但注意 Han & Wellner (2016) 对有界凸 LSE 在多面体下的 minimax 率定为 \(n^{-4/(d+4)}\)，而 Kur et al. (2019) 对光滑支撑给出率 \(n^{-2/(d+1)}\)，两者不一致是因为支撑不同——这是一个有依据的差异而非矛盾。作者在文中通过对比统一说明。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号表（一次性立清） - \(d\)：自变量维数（\(d\ge 1\) 整数）。 - \(\Omega\)：自变量所在区域，通常为 \(\mathbb{R}^d\) 上的有界凸体。常见设定：
- 多面体 \(\mathcal{P} \subset \mathbb{R}^d\)（如单位立方体 \([0,1]^d\)）；
- 光滑凸体 \(\mathcal{C}\)（如欧几里得球）。 - \(X_i\)：第 \(i\) 个协变量，可为固定设计（如均匀网格）或随机设计（i.i.d. 来自某分布）。 - \(Y_i\)：响应变量，\(Y_i = f_0(X_i) + \varepsilon_i\)，\(\varepsilon_i \sim N(0,\sigma^2)\) i.i.d.。 - \(f_0\)：真实回归函数，属于某凸函数类 \(\mathcal{F}\)（本文考虑四种：** - \(\mathcal{C}(\Omega)\)：\(\Omega\) 上的凸函数（无额外约束）。 - \(\mathcal{C}_B(\Omega)\)：有界凸函数，满足 \(\|f\|_\infty \le B\)。 - \(\mathcal{C}_L(\Omega)\)：Lipschitz 凸函数，Lipschitz 常数 \(\le L\)。 - \(\mathcal{C}_{\text{pol}}(\mathcal{P})\)：定义在多面体 \(\mathcal{P}\) 上的凸函数。 - \(\hat{f}_n\)：凸 LSE，即

\[\hat{f}_n = \arg\min_{f\in\mathcal{F}} \frac{1}{n}\sum_{i=1}^n (Y_i - f(X_i))^2,\]

其中 \(\mathcal{F}\) 是选定的凸函数类（不加有界 / Lipschitz 约束时为全凸类，加约束时用对应类）。 - 损失（风险）：平方损失
- 固定设计：\(\|\hat{f}_n - f_0\|_n^2 = \frac{1}{n}\sum_{i=1}^n (\hat{f}_n(X_i) - f_0(X_i))^2\)。
- 随机设计：\(\|\hat{f}_n - f_0\|_2^2 = \int_\Omega (\hat{f}_n(x) - f_0(x))^2 \, d\mu(x)\)（\(\mu\) 为设计分布）。
- 维数与样本量：\(n\) 为样本量。 - 潜在量：无（无因果潜在变量），但“不可观测”的是函数值在非设计点上的表现——仅靠假设（如凸性、Lipschitz）来外推。 - 关键指标：
- minimax 风险：\(\inf_{\tilde{f}}\sup_{f_0\in\mathcal{F}} \mathbb{E}\|\tilde{f} - f_0\|^2\)（inf 遍及所有可测估计量）。
- LSE 的风险：\(\mathbb{E}\|\hat{f}_n - f_0\|^2\)。

可观测数据：我们看到的只有 \((X_i, Y_i)_{i=1}^n\)。我们无法观测到 \(f_0\) 在非设计点的值，但可通过凸性约束外推。

第二步：最小内核——一维特例推广？¶

本文不是一维特例的简单推广。一维凸 LSE 风险上界通过 metric entropy 积分得到：\(\varepsilon_n = n^{-4/5}\)，minimax 下界也为 \(n^{-4/5}\)。在多维情况中，最小内核可以抽象为：
- 凸函数类 \(\mathcal{F}\) 在 \(L_2\) 下的 metric entropy 为 \(\varepsilon^{-d/2}\)（这是已知结果，如 Guntuboyina & Sen 2012）。
- LSE 的风险上界（在固定设计下）可由局部熵积分控制：

\[\mathbb{E}\|\hat{f}_n - f_0\|_n^2 \lesssim \psi_n^{-2},\quad \psi_n \text{ 是 } \varepsilon\text{-entropy integral 方程的解}。\]

对于凸类，entropy integral 发散（当 \(d\ge 2\) 时，\(\int_0^1 \varepsilon^{-d/2} d\varepsilon\) 发散），因此需要更精细的局部熵分析。本文证明：LSE 的风险率上界为 \(n^{-2/d}\)（含对数因子），原因是凸函数的几何复杂性由“局部”熵而非全局熵驱动。
- minimax 下界则通过构造一个“微小扰动”族：使用局部二次型（深度 2 的 Taylor 展开）的凸函数，其 \(L_2\) 距离的 minimax 率为 \(n^{-4/(d+4)}\)（类似光滑度 2 的非参数回归）。

最简特例：d=5，凸函数类 \(\mathcal{C}([0,1]^5)\)
- 设计：等距网格（固定设计），\(n\) 个点均匀分布在 \([0,1]^5\) 中（即每维约 \(n^{1/5}\) 个点）。
- 设真实函数 \(f_0 \equiv 0\)（线性，属于凸类）。
- LSE 风险下界：可通过将凸函数类中的许多 “几乎正交”的凸峰 嵌入于网格点，利用范数估计的 minimax 下界（如 Assouad 引理）证得：LSE 风险至少为常数乘 \(n^{-2/5}\)（忽略对数）。
- Minimax 下界：可构造许多二次型凸函数（\(f(x) = a\|x\|^2\) 的局部变形），其互相之间的 \(L_2\) 距离可调，通过 Fano 不等式得到下界 \(n^{-4/9}\)。
- 由于 \(4/9 \approx 0.444 > 0.4 = 2/5\)，所以 LSE 风险率慢于 minimax 率，LSE 是次优的。

核心难处：当 \(d\ge 5\) 时，LSE 的局部熵界给出的率 \(n^{-2/d}\) 显著慢于 minimax 率 \(n^{-4/(d+4)}\)。这个 gap 不是由常数差异引起，而是指数上的实质性差异：
- \(2/d > 4/(d+4)\) 当 \(d>4\)（即 \(2/d\) 衰减更慢）。
- 因此 LSE 的收敛速度是 维数灾难（curse of dimensionality） 的典型表现（指数 \(2/d\)），而 minimax 率 \(4/(d+4)\) 则与光滑度 2 的非参数回归（如 Sobolev 类）一致——凸性并没有带来比二阶平滑更快的 minimax 率，但 LSE 由于其投影性质无法自动利用凸性带来的局部结构。

本文的关键想法：
- 对 LSE 的上界：使用 Doss (2015) 的离散局部 bracketing 熵，证明即使在凸类上 LSE 的风险率由 线性函数的局部逼近 决定，导出 \(n^{-2/d}\)。
- 对 minimax 下界：借用 Han & Wellner (2016) 的构造（凸函数的二次型微扰），其复杂度由凸函数的“有效自由度”约为 \(n^{4/(d+4)}\) 给出。

读到这里，读者已握有核心：LSE 的风险率由凸函数类的 metric entropy 指数 \(d/2\) 驱动，而 minimax 率由更小的“有效参数数”\(n^{4/(d+4)}\) 驱动，二者在 \(d\ge 5\) 时分离。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在非参数回归模型（高斯误差）中，对多维（\(d\ge 5\)）凸函数类（polytope 上全凸类、有界凸类、Lipschitz 凸类），证明 LSE 的平方损失风险率显著慢于该类函数的 minimax 风险率，即 LSE 是 率次优的。
核心工具/方法：结合凸函数的局部离散 entropy（bracketing）上界（Doss 2015）与 minimax 下界的函数构造（局部二次型），以及首次推导全凸 LSE 在所有维数 \(d\ge 1\) 下的 worst‑case 与自适应收敛率。
主要结论：
(i) 对 polytope 固定设计，全凸 LSE 风险 \(\lesssim n^{-2/d}\log n\)（\(d\ge 5\)），而 minimax 风险 \(\gtrsim n^{-4/(d+4)}\)；
(ii) 对 polytope 随机设计，有界凸 LSE 风险 \(\lesssim n^{-2/d}\log n\)（\(d\ge 5\)），minimax \(\gtrsim n^{-4/(d+4)}\)；
(iii) 对一般凸域随机设计，凸 Lipschitz LSE 风险 \(\lesssim n^{-2/d}\log n\)（\(d\ge 5\)），minimax \(\gtrsim n^{-4/(d+4)}\)；
(iv) 作为副产品，给出全凸 LSE 在 polytope 上对所有 \(d\ge 1\) 的首个收敛速率（如 \(d=2,3,4\) 时率分别为 \(n^{-4/5}\), \(n^{-2/3}\), \(n^{-1/2}\) 等，与 minimax 率重叠或接近）。

关键设定与假设¶

本文考虑三种设定（对应定理 2.1、3.1、4.1）：

设定 A（全凸 LSE，固定设计）
- 设计点 \(\mathcal{X}_n = \{x_1,\dots,x_n\}\) 为 polytope \(\mathcal{P}\) 上的网格（等距且在每维取整数坐标的 \(m^d\) 个点，\(n = m^d\)）。
- 真实函数 \(f_0 \in \mathcal{C}(\mathcal{P})\)（全凸，无有界/Lipschitz 约束）。
- 假设：误差 \(\varepsilon_i\) 为 i.i.d. \(N(0,\sigma^2)\)。
- LSE \(\hat{f}_n\) 定义在 \(\mathcal{C}(\mathcal{P})\) 上。

设定 B（有界凸 LSE，随机设计）
- 设计 \(X_i\) i.i.d. 服从 polytope \(\mathcal{P}\) 上的均匀分布（或带密度 \(g\) 满足 \(0<a\le g\le b<\infty\)）。
- 真实函数 \(f_0 \in \mathcal{C}_B(\mathcal{P})\)，即 \(\|f_0\|_\infty \le B\)。
- LSE 在 \(\mathcal{C}_B(\mathcal{P})\) 上求解。

设定 C（凸 Lipschitz LSE，随机设计）
- 设计 \(X_i\) i.i.d. 服从某凸域 \(\Omega\) 上的分布（密度有界离开零）。
- 真实函数 \(f_0 \in \mathcal{C}_L(\Omega)\)，即凸且 Lipschitz 常数 \(\le L\)。
- LSE 在 \(\mathcal{C}_L(\Omega)\) 上求解。

相比已有文献（Han & Wellner 2016，Kur et al. 2019）的放宽：
- 对设定 A，去掉了有界约束（全凸类），但代价是只能给出 LSE 上界而非紧下界？实际上是上下界都得到。
- 对设定 C，凸 Lipschitz 类覆盖了光滑凸体支持的情形，且 不要求支撑是多面体，这是首次对 Lipschitz 凸 LSE 给出率。
- 对所有设定，假设高斯误差（可放宽至次高斯？但作者未提）；固定设计严格等距网格（可放宽但技术细节复杂）。

主要结果（挑 3 个关键定理）¶

定理 2.1（全凸 LSE，固定设计，polytope）
设 \(d\ge 2\)，\(\mathcal{P}\) 为 \(d\) 维 polytope，\(n\) 个设计点构成等距网格。则存在常数 \(C,C'>0\) 使得

\[C' n^{-4/(d+4)} \le \inf_{\tilde{f}} \sup_{f_0\in\mathcal{C}(\mathcal{P})} \mathbb{E}\|\tilde{f}-f_0\|_n^2 \le C n^{-4/(d+4)},\quad d\le 4,\]

但

\[\sup_{f_0\in\mathcal{C}(\mathcal{P})} \mathbb{E}\|\hat{f}_n - f_0\|_n^2 \lesssim n^{-2/d} \log n,\quad d\ge 5.\]

且存在 \(f_0\in\mathcal{C}(\mathcal{P})\) 使得 \(\mathbb{E}\|\hat{f}_n - f_0\|_n^2 \gtrsim n^{-2/d}\)。因此对 \(d\ge 5\)，LSE 风险率比 minimax 率慢（指数 \(2/d > 4/(d+4)\)）。

定理 3.1（有界凸 LSE，随机设计，polytope）
设定同 B。则对 \(d\ge 5\) 有

\[\sup_{f_0\in\mathcal{C}_B(\mathcal{P})} \mathbb{E}\|\hat{f}_n - f_0\|_2^2 \lesssim n^{-2/d} \log n,\]

minimax 下界为 \(n^{-4/(d+4)}\)。对 \(d\le 4\)，LSE 风险达到 minimax 率（\(n^{-4/(d+4)}\)）。

定理 4.1（凸 Lipschitz LSE，随机设计，一般凸域）
设定同 C。对 \(d\ge 5\)：

\[\sup_{f_0\in\mathcal{C}_L(\Omega)} \mathbb{E}\|\hat{f}_n - f_0\|_2^2 \lesssim n^{-2/d} \log n,\]

而 minimax 下界（由二次型凸函数构造）为 \(n^{-4/(d+4)}\)。此外，对 \(d\le 4\) 的率也给出（例如 \(d=1,2,3,4\) 时 LSE 率分别为 \(n^{-4/5}, n^{-2/3}, n^{-1/2}, n^{-1/2}\log n\) 等）。

直觉与必要条件：
- 证明 LSE 上界时，关键条件是 polytope 或 Lipschitz （使得凸函数在区域边界附近行为可控）；
- 证明 minimax 下界时，需要构造的二次型函数是凸的且紧靠支撑边界（因此需要边界有一定面积）。对光滑凸体，边界面积较小导致率 \(n^{-2/(d+1)}\) 而非 \(n^{-4/(d+4)}\)，但 LSE 在该设定下是否最优由 Kur et al. (2019) 回答。

证明路线与技术技巧（理论型）¶

整体路线（以定理 2.1 为例）

LSE 风险上界
将 LSE \(\hat{f}_n\) 视为在凸锥上的投影。使用 Chatterjee (2014) 的引理：\(\mathbb{E}\|\hat{f}_n - f_0\|_n^2 = \mathbb{E} \sup_{f\in\mathcal{C}(\mathcal{P})} [\frac{1}{n}\sum_i \varepsilon_i (f(X_i)-f_0(X_i))]^2_+\)。转化为高斯过程的 sup 问题。
利用 Doss (2015) 的 local bracketing entropy 上界：在离散 \(\ell_2\) 伪度量下，对于“半径为 \(\delta\)”的局部凸函数子集，其 \(\epsilon\)-bracketing 熵为 \(O(\epsilon^{-d/2})\)。
通过 chaining + peeling（如 van der Vaart & Wellner 的 entropy integral 方法）得到 \(\delta_n = n^{-2/d}\) 满足 entropy integral 约束：\(\int_0^{\delta_n} \sqrt{H(\epsilon, \mathcal{F}_\delta, \ell_2)} d\epsilon \lesssim \sqrt{n}\delta_n^2\)，从而推出风险上界 \(O(\delta_n^2 \log n)\)。
对数因子来自于 peeling 的格子数目（类似 Chatterjee 2015 的技巧，但文中仍保留了对数；作者指出可能可去除但未尝试）。
LSE 风险下界（存在坏 \(f_0\) 使 LSE 率至少 \(n^{-2/d}\)）
构造一族凸函数 \(\{f_\theta\}\)，使得它们之间的 \(\ell_2\) 距离为 \(n^{-2/d}\) 量级，且 LSE 在该族上无法一致更快。利用 Assouad 引理 或 Fano 不等式。具体构造：在 polytope 的每个小“bin”上放置一个“凸峰”，通过选择峰高编码参数 \(\theta\)。其复杂度由 bin 数 \(N \approx n^{2/d}\) 决定，导出下界。
Minimax 下界
构造另一个族，使用局部二次型：在支撑的许多小区域上设置二次凸函数（如 \(f(x) = a\|x - x_0\|^2\)），其个数约为 \(n^{d/(d+4)}\)。用 Fano 或 Assouad 得到下界 \(n^{-4/(d+4)}\)。
关键点：这些二次型彼此间的 \(L_2\) 距离为 \(n^{-2/(d+4)}\)，每个参数估计的方差为 \(1/n\)，故有效“自由度”为 \(n^{d/(d+4)}\)，转化为率。

关键跳跃点
- 从全局 metric entropy 到局部离散 bracketing entropy 的转换：因为 LSE 只在靠近真值的区域搜索，所以局部熵足够。Doss (2015) 的结果是此跳跃的关键。
- 处理无有界约束的凸类：需要截断技巧，但作者通过引入“在估计过程中函数可能非常大”的麻烦，并通过证明 LSE 在大部分设计点上本身有界来控制（利用凸函数在 polytope 上的增长由边界值控制）。
- 随机设计下的亚高斯尾界：采用 localization 与 truncation，先用有界假定下结果，再通过 Courant–Fischer 型论证去约束。

技术技巧点名
- 离散局部 \(\ell_2\) bracketing 熵（Doss 2015）：对凸函数在 polytope 的网格点上的限制，推导 entropy 上界 \(O(\epsilon^{-d/2})\)，克服了连续熵的发散问题。
- Chaining with peeling：处理发散熵积分时，按风险尺度 \(\delta\) 分割，用局部熵积分的“自洽”方程确定 \(\delta\)。
- Assouad / Fano 用于下界：构造凸函数族，确保其几何形状可参数化且参数空间具有足够大的包装数。
- 经验过程理论：使用 Gaussian process supremum 的期望控制，结合 Slepian/Fernique 引理（文中未显式提但隐含）。
- 凸性约束下的边界行为：利用凸函数在 polytope 内可由其在顶点和边界上的值决定，从而估计函数的大小。

真实例子与应用¶

本文为纯理论论文，未提供任何真实数据或模拟实验。所有结论均以定理与证明形式呈现。在引言和正文中，作者提到“Applications of convex regression can be found in Varian, Allon et al., Matzkin, Aït‑Sahalia and Duarte, Keshavarz et al., Toriello et al.”，但本文自身并不包含这些应用。作者仅在理论层面讨论了收敛速率，未做模拟验证（虽然后续工作中可能会有模拟，但本文未提）。因此，读者只能从定理陈述中推断 gap 的实际意义。

🔎 结论是否比证明窄¶

定理 2.1 的 LSE 上界 仅对 polytope 的等距固定设计 证明。作者在 Section 2.2 中讨论可将设计放宽至任意满足“均匀覆盖”条件的点集，但未给出严格证明，仅作为 remark。
定理 3.1 的随机设计部分要求设计密度在支撑上均匀有界（\(0<a\le g\le b\)），但证明中依赖 polytope 的几何性质。作者在 Section 3.4 猜测对一般凸域（非 polytope）应成立，但未证明。
LSE 下界部分（证明 LSE 至少 \(n^{-2/d}\) 的坏情形）只对 polytope 的固定设计构造，而对随机设计，作者采用将随机设计嵌入固定设计的论证，需小心对待。
对数因子 \(\log n\) 是否可去掉？作者未 claim，仅在证明中提到“可能可通过更精细的 peeling 去掉”（见 Chatterjee 2015 对一维凸回归的结果）。
对 \(d=4\)，LSE 风险率上界为 \(n^{-1/2}\log n\)，而 minimax 率为 \(n^{-4/8}=n^{-1/2}\)，所以 LSE 可能是最优的（仅差对数），但作者未肯定（只给出上界，未证明下界匹配）。

四、开放问题（指向具体语句）¶

d=4 边界情形：定理 2.1 中 LSE 上界为 \(n^{-1/2}\log n\)，minimax 为 \(n^{-1/2}\)。问：\(d=4\) 时 LSE 是否严格次优？抑或对数因子可去除而达到最优？ 扎根点：Section 2, 定理 2.1 的下标“\(d\ge 5\)”显式排除 d=4，且证明中依赖 d>4 的指数行为。研究者可查阅 Doss (2015) 的 bracketing 熵在 d=4 时的精细常数。
一般凸域（非 polytope）的 LSE 次优性：定理 4.1 仅对 Lipschitz 凸函数（配合一般凸域）给出结果。但无 Lipschitz 约束的全凸类在光滑凸体（如球）上是否也次优？ 作者在 Section 4 的尾注中提及“对非 Lipschitz 凸类，我们的方法因边界附近函数增长而失效”。扎根点：Section 4 末尾“Extending these results to the class of convex functions without a Lipschitz constraint on a smooth convex body remains an open problem.”
消除对数因子：LSE 风险上界中的 \(\log n\) 因子是否本质？参考 Chatterjee (2015) 对一维凸回归去除了对数因子，但本文的多维证明中使用了 Generative peeling，对数可能来自格子数。扎根点：Remark 2.3 “The logarithmic factor in our upper bounds... can potentially be removed by a more careful chaining argument.”
其他形状约束类：本文的方法是否可推广至 \(m\)-单调函数、log‑concave 密度等？作者在 Section 5 提出“It would be interesting to examine whether the suboptimality of LSE holds for other shape‑constrained classes such as bounded monotone functions in high dimensions.” 扎根点：Section 5, first paragraph.
实际计算中的含义：LSE 在多维凸回归中往往需要求解大规模 QP（Mazumder et al. 2015），本文的理论 gap 是否意味着需要开发可替代的、计算仍可行的估计量（如惩罚 LSE、局部多项式加凸性约束）？作者未深入讨论，但基于理论 gap，这是一个自然的下一步。

提醒：以上开放问题中，第 1、2 条是作者明确标注的 gap；第 3 条是可能的技术改进；第 4 条是横向推广。研究者可首先验证自己熟悉的 minimax 下界技术是否可直接用于 d=4 情况，或查阅 Doss (2015) 的 bracketing 熵的指数在 d=4 时是否与 d=5 不同。

Maintained by 陈星宇 · Homepage · Source on GitHub