Least squares estimation of a quasiconvex regression function¶

作者: Somabha Mukherjee, Rohit K Patra, Andrew L Johnson, Hiroshi Morita
来源: Journal of the Royal Statistical Society Series B
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：形状约束非参数估计旨在利用先验的几何/经济结构（如单调、凸、拟凸）来约束回归函数的函数空间，从而在不引入强参数假设的前提下降低非参数估计的复杂度。当前该子方向在 \(d=1\) 的理论已相当成熟（minimax rate、sharp oracle inequality、自适应速率均已闭合），但在 \(d \ge 2\) 的多变量情形下，不同形状约束（凸 vs 拟凸 vs 单调）的 rate 演化、边界效应、计算可行性仍存在大量未闭合的缺口，尤其是“拟凸”这一经济学核心假设长期缺乏与凸约束对等的统计与计算理论。

发展脉络： - 奠基工作（\(d=1\) 的闭合）：Chatterjee et al. (2013) 为单变量保序回归建立了局部 minimax 下界与 LSE 的自适应风险界，揭示了 LSE 从常数信号的 \(\log n/n\) 到均匀递增信号的 \(n^{-2/3}\) 的连续速率谱；Bellec (2015) 进一步将单变量保序与凸回归的 sharp oracle inequality 写成精确形式，指出凸回归在某些设计点下速率可退化至 \(n^{-2/3}\)。 - 多变量凸回归的推进：Seijo & Sen (2011) 与 Kuosmanen (2008) 证明了多变量凸 LSE 的存在性并将其刻画为 QP 问题；Han & Wellner (2016) 揭示了多变量凸回归的 minimax rate 严重依赖支撑集形状（光滑体上为 \(n^{-2/(d+1)}\)，多面体上为 \(n^{-4/(d+4)}\)），并指出 BLSE 在高维下速率不优；Kur et al. (2019) 与 Carpenter et al. (2018) 通过对数凹密度估计的降维，证明了 \(d \ge 4\) 时凸回归 MLE/LSE 的 near-optimal sample complexity。 - 多变量保序回归的突破：Han et al. (2019) 证明了 \(d\) 维保序 LSE 在格点与随机设计下达到 minimax rate \(n^{-\min\{2/(d+2), 1/d\}}\)（至多 poly-log 因子），且对分片常数信号有自适应速率 \((k/n)^{\min(1, 2/d)}\)；Deng & Zhang (2020) 进一步在一般图/空间上给出了保序 LSE 的 minimax 与自适应界。 - 重尾与异方差设定：Han & Wellner (2017) 给出了熵条件 \(\alpha\) 下重尾误差的 LSE 速率 \(\mathcal{O}_P(n^{-1/(2+\alpha)} \vee n^{-1/2+1/(2p)})\)；Kuchibhotla & Patra (2021) 证明了异方差且仅有限矩条件下 LSE 的有限样本界，指出局部结构驱动速率。 - 本文的位置：填补“多变量拟凸约束”这一经济学自然假设在 LSE 存在性、计算刻画、有限样本风险界上的系统性空白。

子线索聚类： 1. 多变量凸/保序 LSE 的 rate 与自适应理论（Han et al. 2019; Han & Wellner 2016; Deng & Zhang 2020; Bellec 2015）：追求 minimax rate 的精确阶、边界效应、分片常数/分片线性自适应速率。 2. 重尾/异方差下的 LSE 理论（Han & Wellner 2017; Kuchibhotla & Patra 2021; Mendelson 2014; Lecué & Mendelson 2012）：放宽 sub-Gaussian 假设至有限矩，建立 sharp oracle inequality 与 empirical process 界。 3. 形状约束的计算刻画（Kuosmanen 2008; Seijo & Sen 2011; Dedieu et al. 2020）：将无限维约束转化为 QP/MIP，解决 LSE 的可计算性。 4. 经济学驱动的形状约束应用（Johnson & Jiang 2018; Layer et al. 2020; Chen et al. 2018）：生产/成本函数的拟凸与单调约束，SDDF 方向选择，shape-enforcing operators。

这个方向在追问的核心问题： 1. 多变量形状约束 LSE 的 minimax rate 是否紧？自适应速率的结构（分片常数/分片线性）如何？ 2. 支撑集边界与形状约束类型的交互如何决定 rate（凸 vs 拟凸 vs 保序）？ 3. 仅有限矩且异方差误差下，LSE 的 sharp oracle inequality 是否仍成立？局部结构如何补偿重尾？ 4. 无限维形状约束函数类上的 LSE 是否存在？能否被有限维优化（QP/MIP）精确或近似刻画？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“多变量拟凸（及单调）约束的 LSE 缺乏存在性证明、计算刻画与有限样本风险界”，并强调拟凸约束比凸约束更弱、更符合生产/成本函数经济学公理，从而让本文成为凸回归理论的自然推广与经济学应用的显然下一步。 - 被淡化/回避的竞争路线：Chen et al. (2018) 的 shape-enforcing operators（事后投影法）被仅在 Section 6 简短对比，作者未在 intro 系统讨论其与 LSE 的理论速率差异；Balabdaoui et al. (2016, 2019) 的单调/凸单指数模型（半参数降维）被提及但不与拟凸 LSE 直接比较 rate；Kuchibhotla et al. (2021) 的单指数拟凸模型被引但未深入讨论其与多变量拟凸 LSE 的 rate 对比。 - 明显该被引却未出现的：多变量拟凸/拟凹函数的逼近论与熵界文献（如 Horowitz & Lee 2017 的拟凹非参数估计、Matzkin 1991 的拟凹识别理论）未在 intro 出现；半参数有效界与拟凸约束的交互（Bickel et al. 1993 的一般框架）未被引。值得研究者去查：这些文献是否已给出拟凸类的熵界或 minimax 下界？若有，本文的 oracle inequality 是否紧贴它们？

张力：未见明显对立引用。但存在隐含张力：Han et al. (2019) 证明保序 LSE 在 \(d \ge 3\) 时速率为 \(n^{-1/d}\)，而本文 Theorem 5.1 声称拟凸+保序 LSE 速率为 \(n^{-2/(d+1)}\)——拟凸约束是否真的比纯保序约束带来更快的 rate？这依赖支撑集光滑性假设（本文假设 \(P_X\) 支撑在光滑体上），而 Han & Wellner (2016) 已证明凸回归在多面体支撑上 rate 退化至 \(n^{-4/(d+4)}\)。本文未讨论拟凸 LSE 在多面体支撑上的 rate 是否也退化。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(n\)：样本量（整数）。
\(d\)：协变量维数（整数，\(d \ge 2\)）。
\(X_i \in \mathbb{R}^d\)：可观测协变量（随机变量），\(i=1,\dots,n\)，共同分布 \(P_X\)，支撑集 \(\mathcal{X} \subset \mathbb{R}^d\)。
\(Y_i \in \mathbb{R}\)：可观测响应（随机变量），\(i=1,\dots,n\)。
\(\varepsilon_i \in \mathbb{R}\)：不可观测误差（潜在量），满足 \(Y_i = f_0(X_i) + \varepsilon_i\)。
\(f_0: \mathcal{X} \to \mathbb{R}\)：目标回归函数（estimand），不可观测，属于函数类 \(\mathcal{F}\)。
\(\mathcal{F}\)：拟凸（及单调）函数类，即 \(\forall t \in \mathbb{R}\)，下水平集 \(\{x: f(x) \le t\}\) 为凸集（且 \(f\) 对每个分量单调增）。
\(\hat{f}_n\)：拟凸约束 LSE（estimator），定义为 \(\hat{f}_n \in \arg\min_{f \in \mathcal{F}} \sum_{i=1}^n (Y_i - f(X_i))^2\)。
\(\sigma^2(x)\)：误差条件方差 \(\text{Var}(\varepsilon_i | X_i=x)\)，可依赖协变量，仅假设有限。
\(\mathcal{X}_n = \{X_1,\dots,X_n\}\)：可观测样本点集。
\(L_2(P_X)\) 距离：\(\|f-g\|_{n,2}^2 = \frac{1}{n}\sum_{i=1}^n (f(X_i)-g(X_i))^2\)（经验测度），\(\|f-g\|_{P_X,2}^2 = \int (f-g)^2 dP_X\)（总体测度）。

模型：数据生成机制为 \(Y_i = f_0(X_i) + \varepsilon_i\)，\(X_i \sim P_X\)（支撑在光滑凸体 \(\mathcal{X}\) 上），\(\varepsilon_i\) 满足 \(\mathbb{E}[\varepsilon_i | X_i]=0\)，\(\text{Var}(\varepsilon_i | X_i=x) = \sigma^2(x) \le \bar{\sigma}^2 < \infty\)，且 \(\mathbb{E}[\varepsilon_i^2 | X_i]\) 有限（仅需二阶矩）。\(f_0 \in \mathcal{F}\)（拟凸+单调）。目标：估计 \(f_0\)，度量风险 \(\mathbb{E}[\|\hat{f}_n - f_0\|_{P_X,2}^2]\)。

可观测数据：研究者观测到 \(\{(X_i, Y_i)\}_{i=1}^n\)，\(X_i\) 为 \(d\) 维连续向量，\(Y_i\) 为实数响应。不可观测量为 \(\varepsilon_i\) 与 \(f_0\)；拟凸约束来自经济学公理（先验），不可直接从数据验证。

第二步：最小内核——\(d=2\)、格点设计、拟凸+保序特例

剥掉一般支撑集、随机设计、重尾异方差等一般性假设，最小内核是：\(d=2\)，\(X_i\) 在 \([0,1]^2\) 的 \(m \times m\) 格点上（\(n=m^2\)），\(\varepsilon_i\) 为 i.i.d. \(N(0,1)\)，\(f_0\) 为拟凸且对两个分量保序的函数。

在这个特例下，要证的核心命题退化为：

\[\mathbb{E}\left[\|\hat{f}_n - f_0\|_{n,2}^2\right] \le C \cdot n^{-2/3} \cdot \log n,\]

其中 \(C\) 仅依赖 \(\bar{\sigma}^2\) 与 \(f_0\) 的界。

证明怎么走、为什么成立： 1. 拟凸函数的局部逼近结构：在 \(d=2\) 格点上，拟凸+保序函数在每个格点邻域可被“分片线性凸函数”逼近，且下水平集的凸性保证了局部变差受控——这是拟凸约束比纯保序约束更强的几何结构，使得局部熵增长速率从保序的 \(n^{-1/2}\) 降至拟凸的 \(n^{-2/3}\) 量级。 2. Empirical process 界：在格点设计+Gaussian 误差下，关键跳跃是控制 \(\sup_{f \in \mathcal{F}: \|f-f_0\|_{n,2} \ge \delta} \frac{\sum \varepsilon_i (f(X_i)-f_0(X_i))}{\|f-f_0\|_{n,2}^2}\)。拟凸类的局部熵（local metric entropy）在 \(d=2\) 下为 \(\log N(\delta, \mathcal{F}, L_2) \lesssim \delta^{-1}\)（类比凸函数的熵界），从而 empirical process 的增量被 \(\delta \cdot \sqrt{\log N(\delta)} \lesssim \delta^{1/2}\) 控制，满足“sub-exponential tail”条件。 3. Sharp oracle inequality 的核心不等式：通过局部熵控制与 basic inequality（\(\|\hat{f}_n-f_0\|_{n,2}^2 \le \frac{2}{n}\sum \varepsilon_i(\hat{f}_n-f_0)\)），结合 peeling 设备，得到风险界的主项为 \(\inf_{f \in \mathcal{F}} \{\|f-f_0\|_{P_X,2}^2 + \text{complexity term}\}\)，在 \(f_0 \in \mathcal{F}\) 时退化至纯 complexity term \(n^{-2/3} \log n\)。

为什么这个特例是整篇的“壳”：一般情形的证明只是将格点设计替换为随机设计（需控制 \(\|\cdot\|_{n,2}\) 与 \(\|\cdot\|_{P_X,2}\) 的偏差，用 Giné & Nickl 2015 的 Corollary 3.2.2），将 Gaussian 误差替换为仅二阶矩误差（需用 Mendelson 2014 的 multiplier empirical process 界与 Kuchibhotla & Patra 2021 的局部矩控制），将 \(d=2\) 推广至 \(d \ge 2\)（熵界从 \(\delta^{-1}\) 变为 \(\delta^{-d/2}\)，速率从 \(n^{-2/3}\) 变为 \(n^{-2/(d+1)}\)）。核心几何与 empirical process 逻辑不变。

三、这篇论文做了什么¶

三句话： ①研究了多变量拟凸（及单调）回归函数的最小二乘估计问题； ②核心工具是拟凸函数类的局部熵界、multiplier empirical process 理论与混合整数二次规划（MIQP）刻画； ③主要结论是拟凸+保序 LSE 的存在性、MIQP 可计算性、以及仅需误差二阶矩且允许异方差时的 sharp oracle inequality（速率 \(n^{-2/(d+1)}\)）。

关键设定与假设： - 定义 2.1（拟凸+保序函数类 \(\mathcal{F}\)）：\(f: \mathcal{X} \to \mathbb{R}\)，对每个分量单调增，且 \(\forall t\)，下水平集 \(\{x: f(x) \le t\}\) 为凸集。统计含义：生产/成本函数的经济学公理（投入越多产出越多，且存在最优投入比例使得下水平集凸）。 - 假设 A1（误差矩条件）：\(\mathbb{E}[\varepsilon_i | X_i]=0\)，\(\text{Var}(\varepsilon_i | X_i=x) \le \bar{\sigma}^2 < \infty\)，且 \(\mathbb{E}[\varepsilon_i^2 | X_i]\) 有限（仅需二阶矩）。相比 Han & Wellner (2017) 的 \(p\)-th moment 条件与 Kuchibhotla & Patra (2021) 的局部矩条件，本文仅要求全局二阶矩上界，但允许 \(\sigma^2(x)\) 依赖 \(x\)（异方差）。 - 假设 A2（支撑集光滑性）：\(P_X\) 支撑在 \(\mathbb{R}^d\) 的光滑凸体 \(\mathcal{X}\) 上（边界满足一定曲率条件）。统计含义：避免 Han & Wellner (2016) 指出的多面体支撑上边界效应导致的速率退化；本文未处理多面体支撑情形。 - 假设 A3（信号有界）：\(|f_0(x)| \le M < \infty\)。统计含义：控制拟凸函数类的包络，使 empirical process 界可行；与 Han et al. (2019) 的 bounded signal 假设一致。 - 假设 A4（设计测度密度下界）：\(P_X\) 在 \(\mathcal{X}\) 内部有密度 \(p(x) \ge c > 0\)。统计含义：保证 \(\|\cdot\|_{n,2}\) 与 \(\|\cdot\|_{P_X,2}\) 的等价性，避免稀疏设计导致的速率退化。

主要结果： - Theorem 3.1（LSE 存在性与 MIQP 刻画）：证明了 \(\hat{f}_n = \arg\min_{f \in \mathcal{F}} \sum (Y_i-f(X_i))^2\) 存在，且 \(\mathcal{F}\) 在样本点上的限制可被 MIQP 精确刻画。直觉：拟凸约束的下水平集凸性可被“每个样本点属于某个凸组合”的整数约束表达，从而将无限维优化转化为有限维 MIQP。必要条件：样本点集 \(\mathcal{X}_n\) 的凸包结构；技术难点：拟凸约束的非线性（下水平集随 \(t\) 变化）如何被线性+整数约束捕捉——作者通过引入辅助整数变量 \(z_{ij} \in \{0,1\}\) 表示“点 \(X_i\) 是否在 \(f(X_j)\) 的下水平集中”，将拟凸条件转化为 \(z_{ij}\) 的线性约束与 \(f(X_i)\) 的二次目标。 - Theorem 5.1（Sharp oracle inequality）：在假设 A1-A4 下，\(\forall f_0 \in \mathcal{F}\)，

\[\mathbb{E}\left[\|\hat{f}_n - f_0\|_{P_X,2}^2\right] \le C_1 \inf_{f \in \mathcal{F}} \|f-f_0\|_{P_X,2}^2 + C_2 n^{-2/(d+1)} \log n,\]

其中 \(C_1\) 接近 1（“sharp”），\(C_2\) 依赖 \(\bar{\sigma}^2, M, d\)。直觉：拟凸类的局部熵在光滑支撑上为 \(\delta^{-d/2}\)（类比凸函数），驱动速率 \(n^{-2/(d+1)}\)；sharpness 来自 empirical process 的 sub-exponential tail 控制。必要条件：误差二阶矩有限、支撑光滑、信号有界。解决的技术难点：异方差+重尾下 multiplier empirical process 的增量控制（用 Mendelson 2014 的 product process 界替代 sub-Gaussian tail）。 - Corollary 5.1（拟凸+保序 vs 纯保序的速率对比）：当 \(f_0\) 同时拟凸+保序时，拟凸+保序 LSE 速率为 \(n^{-2/(d+1)}\)，而纯保序 LSE（Han et al. 2019）速率为 \(n^{-1/d}\)（\(d \ge 3\) 时更慢）。作者据此声称拟凸约束带来速率提升。但此对比依赖支撑光滑性假设；若支撑为多面体，纯保序速率是否仍为 \(n^{-1/d}\) 未讨论。

证明路线与技术技巧： - 整体路线： 1. Basic inequality：\(\|\hat{f}_n-f_0\|_{n,2}^2 \le \frac{2}{n}\sum \varepsilon_i(\hat{f}_n-f_0)\)。 2. 局部化：设 \(\delta > 0\)，将 \(\mathcal{F}\) 按 \(\|f-f_0\|_{n,2}\) 的尺度分层，用 peeling 设备将 supremum 限制在 \(\|f-f_0\|_{n,2} \ge \delta\) 的层上。 3. Empirical process 界：控制 \(\sup_{f \in \mathcal{F}: \|f-f_0\|_{n,2} \ge \delta} \frac{\sum \varepsilon_i(f-f_0)}{\|f-f_0\|_{n,2}^2}\)，用 Mendelson (2014) 的 multiplier process 界结合拟凸类的局部熵 \(\log N(\delta, \mathcal{F}, L_2) \lesssim (M/\delta)^{d/2}\)。 4. 从 \(\|\cdot\|_{n,2}\) 到 \(\|\cdot\|_{P_X,2}\)：用 Giné & Nickl (2015, Corollary 3.2.2) 将经验测度偏差转化为总体测度风险，依赖 A4 的密度下界。 5. Sharp oracle inequality 整合：将上述界代入 basic inequality，取 \(\delta\) 为临界尺度（由局部熵与样本量平衡得到 \(\delta \asymp n^{-2/(d+1)} \log n\)），得到主定理。 - 关键跳跃点： - 拟凸类的局部熵界：如何从拟凸约束的下水平集凸性推导 \(\log N(\delta, \mathcal{F}, L_2) \lesssim \delta^{-d/2}\)？作者引用了 Han (2021) 与 Kur et al. (2019) 的凸函数熵界，但拟凸函数的逼近结构（下水平集凸 vs 函数本身凸）有本质差异——作者通过“拟凸函数可被分片线性凸函数逼近至 \(\delta\) 精度”的引理（Lemma 4.2）绕过此难点，但该引理的证明依赖支撑光滑性（A2），未处理多面体支撑。 - 异方差重尾下的 empirical process：如何控制 \(\sum \varepsilon_i(f-f_0)\) 在 \(\sigma^2(x)\) 依赖 \(x\) 且仅二阶矩时的 tail？作者用 Kuchibhotla & Patra (2021) 的局部矩控制（\(\mathbb{E}[\varepsilon_i^2 | X_i=x] \le \bar{\sigma}^2\)）结合 Mendelson (2014) 的 multiplier process 界，将 tail 从 sub-Gaussian 降至 sub-exponential，代价是常数 \(C_2\) 依赖 \(\bar{\sigma}^2\)。 - 技术技巧点名： - Multiplier empirical process / product process（Mendelson 2014）：用于控制 \(\sum \varepsilon_i f(X_i)\) 在重尾异方差下的增量，起作用在步骤 3。 - Local metric entropy / entropy integral（Han 2021, Kur et al. 2019）：用于量化拟凸类的复杂度，驱动速率 \(n^{-2/(d+1)}\)，起作用在步骤 3 的 peeling 尺度选择。 - Peeling device（Bellec 2018, Lecué & Mendelson 2012）：用于将 supremum 分层控制，起作用在步骤 2。 - MIQP 刻画（Dedieu et al. 2020）：用于将拟凸约束转化为整数+二次约束，起作用在 Theorem 3.1 的计算可行性。 - Giné & Nickl (2015) 的经验测度偏差界：用于从 \(\|\cdot\|_{n,2}\) 风险过渡到 \(\|\cdot\|_{P_X,2}\) 风险，起作用在步骤 4。

真实例子与应用： - 日本胶合板生产函数：数据为 2007 年日本胶合板企业的投入（资本、劳动、原材料）与产出（胶合板产量），\(d=3\) 协变量。将拟凸+保序 LSE 应用于估计生产函数 \(f_0(K, L, M)\)，与 Cobb-Douglas 参数估计、Nadaraya-Watson 非参数估计对比。结果显示拟凸 LSE 在边界区域（低投入/高投入）的拟合比 NW 更符合经济学公理（不出现递减产出），且比 Cobb-Douglas 更灵活（允许非恒定替代弹性）。此例旨在展示拟凸约束的经济学合理性与 LSE 的拟合优势。 - 美国医院成本函数：数据为美国医院的投入（劳动力、资本）与产出（治疗人数、病例类型指数），\(d=2\) 协变量。将拟凸+保序 LSE 应用于估计成本函数 \(f_0(L, K)\)，与 Chen et al. (2018) 的 shape-enforcing operator 对比。结果显示拟凸 LSE 在内部区域的拟合平滑度优于 shape-enforcing 方法，但在边界区域两者差异不大。此例旨在对比 LSE 与事后投影法的实证表现，呼应 Section 6 的理论讨论（“存在设定下 LSE 更优，也存在设定下 shape-enforcing 更优”）。

🔎 结论是否比证明窄： - Corollary 5.1 的速率对比声明：作者声称“拟凸+保序 LSE 速率 \(n^{-2/(d+1)}\) 显著快于纯保序 LSE 速率 \(n^{-1/d}\)”，但此结论仅在支撑光滑（A2）与密度下界（A4）下严格证明。若支撑为多面体（如 \([0,1]^d\) 的格点），Han & Wellner (2016) 已证明凸回归速率退化至 \(n^{-4/(d+4)}\)，拟凸回归是否也退化未被证明，却被泛泛 claim 为“拟凸约束带来速率提升”——研究者应核验 Corollary 5.1 的陈述是否在多面体支撑下仍成立。 - Theorem 3.1 的 MIQP 可解性：作者证明 LSE 可被 MIQP 精确刻画，但未证明 MIQP 在 \(n\) 很大时可在合理时间内求解；Dedieu et al. (2020) 的近似算法被引但未整合进本文计算框架——MIQP 的实际可计算性被 claim 为“可行”，但严格证明仅覆盖存在性，未覆盖计算复杂度。

四、开放问题（点到为止，扎根具体语句）¶

拟凸 LSE 在多面体支撑上的 minimax rate：本文 Theorem 5.1 仅在光滑支撑（A2）下证明速率 \(n^{-2/(d+1)}\)；Han & Wellner (2016) 证明凸回归在多面体支撑上速率退化至 \(n^{-4/(d+4)}\)。拟凸 LSE 在多面体支撑（如 \([0,1]^d\)）上的速率是否也退化至 \(n^{-4/(d+4)}\) 或更慢？扎根点：Theorem 5.1 的假设 A2 与 Han & Wellner (2016) 的 Theorem 3.1 对比。
拟凸类的 minimax 下界：本文仅给出 LSE 的上界（oracle inequality），未给出拟凸类的 minimax 下界。拟凸类在光滑支撑上的 minimax rate 是否确为 \(n^{-2/(d+1)}\)（与凸类相同），还是更慢？扎根点：Theorem 5.1 的速率声明与 Han & Wellner (2016) 的 minimax 下界对比——若拟凸 minimax 下界低于 \(n^{-2/(d+1)}\)，则 LSE 速率不优。
MIQP 的计算复杂度与近似算法：Theorem 3.1 证明 MIQP 精确刻画 LSE，但 \(n\) 个样本点下 MIQP 的整数变量数为 \(O(n^2)\)（\(z_{ij}\)），求解时间是否随 \(n\) 指数增长？Dedieu et al. (2020) 的近似 MIP 算法能否适配拟凸约束？扎根点：Section 3 的 MIQP 构造与 Dedieu et al. (2020) 的可计算规模对比。
拟凸约束与半参数降维的交互：Balabdaoui et al. (2016) 与 Kuchibhotla et al. (2021) 的单指数拟凸模型将 \(d\) 维协变量降至 1 维投影，速率不依赖 \(d\)；本文的多变量拟凸 LSE 速率依赖 \(d\)。是否存在“拟凸单指数 LSE”达到 \(d\)-无关速率？扎根点：intro 对单指数模型的提及与 Theorem 5.1 的 \(d\)-依赖速率。

提醒：要确认第 1 条（多面体支撑速率退化）是否真 gap，去读 Han & Wellner (2016)、Deng & Zhang (2020)、Kur et al. (2019) 近期约 5 篇的 intro——若都指出多面体支撑是未闭合难点，则为共识真 gap；若互相打架（有人给出多面体上的快速率），则为机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Least squares estimation of a quasiconvex regression function¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论