Prediction sets for high-dimensional mixture of experts models¶

作者: Adel Javanmard, Simeng Shao, Jacob Bien
来源: Journal of the Royal Statistical Society Series B
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在协变量维度 \(p\) 远超样本量 \(n\) 的高维设定下，如何为具有异质性的数据（即响应变量与特征的关系随子群而变，表现为混合模型）构造具有有限样本或渐近覆盖保证的预测集，而非仅仅对回归系数做点估计或置信区间。当前该方向的成熟度呈现“局部极熟、整体初探”的特征：高维单一线性模型的 debiased inference 与 conformal prediction 理论已高度成熟（有明确的 minimax 界与效率理论），但将这些推断工具推进到非凸、潜变量的 mixture-of-experts (MoE) 设定，并直接瞄准预测推断而非系数推断，刚刚起步。

发展脉络： 1. 奠基工作（高维单一线性模型的 debiasing）：高维回归推断的基石是克服 \(\ell_1\) 惩罚引入的偏差。Zhang & Zhang (2014) 与 Javanmard & Montanari (2014) 提出了 nodewise regression 构造投影方向以去偏 Lasso 的方法，Van de Geer et al. (2014) 建立了其半参数效率界。这些工作解决了“高维系数推断”问题，但留下两个口子：1）推断对象是系数，而非预测；2）模型设定局限于单一线性回归。 2. 主要进展（从系数推断走向预测推断 / 更一般的线性泛函）：Cai & Guo (2017) 建立了高维线性回归置信区间的 minimax 界与不可适应性理论；Zhu & Bradic (2018) 放宽了对模型稀疏性的硬假设；Cai et al. (2021) 将推断对象推进到个体化处理效应 (ITE) \(x_{\text{new}}(\beta_1 - \beta_2)\)，引入了 "variance-enhancement projection direction"，这直接触及了预测推断（对特定 \(x_{\text{new}}\) 的响应做推断）。作者明确指出："Cai et al. (2021) which introduced the 'variance-enhancement projection direction'"，本文借用了这一思想来压制预测的方差。 3. 另一条主线（分布自由的预测推断）：Lei et al. (2018) 与 Romano et al. (2019) 发展了 conformal prediction，提供有限样本边际覆盖。作者指出其局限："the coverage that these conformal methods attain is not conditional on \(x_{\text{new}}\)... to obtain finite length sets with conditional coverage, one needs to make stronger assumptions (Vovk 2012)"。这为本文采用模型驱动而非分布自由的路线提供了动机。 4. 高维混合模型的估计：Städler et al. (2010) 将 \(\ell_1\) 惩罚引入混合回归 (FMR) 并给出 Oracle 不等式；Balakrishnan et al. (2017) 与 Yi et al. (2015) 分析了 EM 算法在此类非凸问题上的统计-计算保证。作者引用这些工作以承认 MoE 估计量的收敛性已有基础，但推断仍是空白。 5. 当前 frontier 与本文位置：Frontier 正从“单模型、推断系数”向“多模型（混合）、推断预测”移动。本文正是站在 Cai et al. (2021)（预测泛函的去偏）与 Städler et al. (2010)（高维 MoE 的 \(\ell_1\) 估计）的交汇处，首次在高维 MoE 下构造条件预测集。

子线索聚类： - 线索 A：高维 Debiased Inference（系数 / 泛函推断）：Zhang & Zhang (2014), Javanmard & Montanari (2014), Van de Geer et al. (2014), Cai & Guo (2017), Cai et al. (2021)。这一簇在做：用 nodewise regression / projection 构造去偏估计量，恢复渐近正态性，从单系数扩展到线性泛函（含 ITE / 预测）。 - 线索 B：分布自由的预测集：Vovk (2012), Lei et al. (2018), Romano et al. (2019)。这一簇在做：不依赖模型假设，用 conformal 构造有限样本覆盖的预测带，但代价是只能保证边际覆盖，条件覆盖需更强假设。 - 线索 C：高维混合模型的估计与计算：Jordan & Jacobs (1993), Städler et al. (2010), Balakrishnan et al. (2017)。这一簇在做：为 MoE / FMR 引入 \(\ell_1\) 惩罚与 EM 算法，证明局部收敛与 Oracle 性，但不涉及推断。

这个方向在追问的核心问题： 1. 预测推断的去偏：在高维下，对 \(x_{\text{new}}^\top \beta^*\) 的预测受 Lasso 偏差与方差双重污染，如何构造投影方向同时去偏并压制方差（Cai et al. 2021 的 variance-enhancement）？ 2. 条件覆盖 vs 边际覆盖：预测集 \(C(x_{\text{new}})\) 要满足 \(P(Y_{\text{new}} \in C(x_{\text{new}}) | X_{\text{new}}=x_{\text{new}}) \ge 1-\alpha\)，分布自由方法做不到；模型驱动方法需要什么假设才能逼近条件覆盖？ 3. 混合设定下的推断组合：当观测可能来自 \(K\) 个子模型，且混合权重依赖 \(x_{\text{new}}\)，如何将 \(K\) 个去偏预测区间“组合”成一个覆盖真实响应的预测集？直接取交集或并集会导致覆盖不足或集过长。

⚠️ 作者的 framing： - 作者的 framing：作者把缺口 frame 成“已有高维推断只管系数不管预测，且只管单模型不管混合”，从而让“高维 MoE 的去偏预测集”成为显然的下一步。作者淡化或回避了：1）conformal prediction 在混合 / 异质性数据上的近期进展（如 conformal 与 quantile regression 的结合如何适配 MoE）；2）半参数效率理论在混合模型预测泛函上的界（本文走全参数路线，未讨论效率下界）。 - 明显该被引却未出现的：半参数效率界的奠基工作（如 Bickel et al. 1993 或更近的 Robins et al. 2008 HOIF）未在 intro 出现，这可能意味着作者未从效率下界的视角审视其预测集的渐近最优性；另外，高维异质性因果推断（如 Wager & Athey 2018 的 causal forest 推断）也未出现，尽管两者在“个体化预测推断”上目标高度重合。

张力：未见明显对立引用。Cai & Guo (2017) 证明了高维置信区间的不可适应性，但本文的推断对象是预测集而非系数区间，两者结论不直接矛盾；Vovk (2012) 证明了有限样本条件覆盖的不可能性，本文通过渐近近似绕过，逻辑上自洽。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与指标：
\(n\)：样本量；\(p\)：协变量维度，\(p \gg n\)。
\(K\)：混合模型中的专家数，\(K \ge 2\)。
\(k \in \{1, \ldots, K\}\)：专家索引。
\(\beta_k^* \in \mathbb{R}^p\)：第 \(k\) 个专家的回归系数向量（稀疏，\(s_k\)-sparse）。
\(\gamma_k^* \in \mathbb{R}^p\)：混合权重模型中第 \(k\) 个专家的 gating 参数（稀疏）。
\(x \in \mathbb{R}^p\)：可观测的特征向量。
\(Y \in \mathbb{R}\)：可观测的响应变量。
\(Z \in \{1, \ldots, K\}\)：潜在 / 不可观测的子群标签，指示观测来自哪个专家。
\(\pi_k(x; \gamma^*) = P(Z=k | X=x; \gamma^*)\)：特征依赖的混合权重。
\(\sigma_k^*\)：第 \(k\) 个专家的噪声标准差。
\(\hat{\beta}_k, \hat{\gamma}_k\)：由 \(\ell_1\)-penalized EM 算法得到的初始估计量（有偏）。
\(\hat{\beta}_k^d\)：第 \(k\) 个专家的去偏估计量。
\(\hat{v}_k\)：为去偏第 \(k\) 个专家而构造的投影方向（nodewise regression 产出）。
模型（数据生成机制）：给定特征 \(x\)，响应 \(Y\) 的生成过程为：
隐变量 \(Z\) 依概率 \(\pi_k(x; \gamma^*) = \frac{\exp(x^\top \gamma_k^*)}{\sum_{j=1}^K \exp(x^\top \gamma_j^*)}\) 选择第 \(k\) 个专家；
在 \(Z=k\) 下，响应依线性模型生成：\(Y = x^\top \beta_k^* + \epsilon_k\)，其中 \(\epsilon_k \sim N(0, \sigma_k^{*2})\) 且独立于 \(x, Z\)。综合分布为：\(Y | x \sim \sum_{k=1}^K \pi_k(x; \gamma^*) N(x^\top \beta_k^*, \sigma_k^{*2})\)。要估的对象：给定新观测特征 \(x_{\text{new}}\)，构造预测集 \(C(x_{\text{new}})\) 使得 \(P(Y_{\text{new}} \in C(x_{\text{new}}) | X_{\text{new}}=x_{\text{new}}) \ge 1-\alpha\)。
可观测数据：研究者实际能观测到的是 \(n\) 个独立同分布的 \((X_i, Y_i) \in \mathbb{R}^p \times \mathbb{R}\) 对。不可观测的是每个样本的子群标签 \(Z_i\) 与真实的参数 \(\beta_k^*, \gamma_k^*, \sigma_k^*\)。推断只能通过 EM 算法在似然函数 \(L(\beta, \gamma) = \prod_{i=1}^n \sum_{k=1}^K \pi_k(X_i; \gamma) \phi(Y_i; X_i^\top \beta_k, \sigma_k^2)\) 上进行，其中 \(\phi\) 为正态密度。

第二步：最小内核——二值处理 / 两个专家的最简特例

剥掉 \(K>2\)、高维 gating 与一般噪声，考虑最简特例：\(K=2\)，且混合权重不依赖 \(x\)（即 \(\pi_1, \pi_2\) 为常数），\(\sigma_1^*=\sigma_2^*=1\)。此时模型退化为： \(Y | x \sim \pi_1 N(x^\top \beta_1^*, 1) + \pi_2 N(x^\top \beta_2^*, 1)\)。目标：对 \(x_{\text{new}}\) 构造预测集 \(C(x_{\text{new}})\)。

核心数学困难与本文破法在这个特例上的体现： 1. 去偏：初始估计 \(\hat{\beta}_1, \hat{\beta}_2\) 由 \(\ell_1\)-penalized EM 得到，受惩罚偏差污染。对每个专家，沿用 nodewise regression 思路：找 \(\hat{v}_1\) 使得 \(\hat{v}_1^\top \hat{\Sigma}_1 \approx e_j\)（其中 \(\hat{\Sigma}_1\) 是在 \(Z=1\) 子群下的样本协方差），构造去偏量 \(\hat{\beta}_1^d = \hat{\beta}_1 + \hat{v}_1^\top (X^\top (Y - X\hat{\beta}_1)/n)\)。在混合设定下，\(Y - X\hat{\beta}_1\) 不仅含噪声，还含“来自专家 2 但用专家 1 模型预测”的残差污染。本文证明：由于混合权重有界且 \(\hat{\beta}_2\) 收敛，这种交叉污染在渐近下可被吸收为高阶余项。 2. 组合：去偏后，对第 \(k\) 专家有渐近正态预测：\(x_{\text{new}}^\top \hat{\beta}_k^d \approx x_{\text{new}}^\top \beta_k^* + N(0, V_k(x_{\text{new}}))\)。若直接取 \(C(x_{\text{new}}) = \bigcup_{k=1}^2 [x_{\text{new}}^\top \hat{\beta}_k^d \pm z_{\alpha/2} \sqrt{\hat{V}_k}]\)，覆盖会超过 \(1-\alpha\)（集太宽）；若取交集，覆盖会不足。本文的最小内核破法是：构造预测集 \(C(x_{\text{new}}) = \bigcup_{k=1}^2 \left[ x_{\text{new}}^\top \hat{\beta}_k^d \pm z_{\alpha_k} \sqrt{\hat{V}_k(x_{\text{new}})} \right]\)，其中 \(\alpha_k\) 不是 \(\alpha/2\)，而是通过求解方程 \(\sum_{k=1}^2 \pi_k(x_{\text{new}}; \hat{\gamma}) (1-\alpha_k) = 1-\alpha\) 来动态分配的。在这个 \(K=2\) 特例中，若 \(\pi_1=0.6, \pi_2=0.4, \alpha=0.1\)，则需分配 \(\alpha_1, \alpha_2\) 使得 \(0.6(1-\alpha_1) + 0.4(1-\alpha_2) = 0.9\)。本文证明，这种“按权重分配覆盖误差”的策略，在去偏估计量渐近正态的条件下，能使 \(C(x_{\text{new}})\) 达到渐近条件覆盖 \(1-\alpha\)。一般情形的证明只是在这个特例上加了 gating 参数的估计误差控制与高维 nodewise regression 的浓度界。

三、这篇论文做了什么¶

三句话： ① 研究了在高维 mixture-of-experts (MoE) 模型下，如何为新的高维特征观测构造具有渐近条件覆盖保证的预测集； ② 核心方法是对 \(\ell_1\)-penalized EM 估计量执行 nodewise regression 去偏，并引入 "variance-enhancement projection direction" 压制预测方差，再通过按混合权重动态分配覆盖误差的水平将各专家的去偏区间组合为预测集； ③ 主要结论是：在参数稀疏性、局部收敛与设计矩阵 restricted eigenvalue 等标准高维假设下，所提预测集满足 \(P(Y_{\text{new}} \in C(x_{\text{new}}) | X_{\text{new}}=x_{\text{new}}) \to 1-\alpha\)，且去偏预测的渐近方差被显式刻画。

关键设定与假设：在第二节最小记号基础上补全： - 假设 A1（稀疏性）：\(s_k = \|\beta_k^*\|_0 \le s\), \(s_{\gamma, k} = \|\gamma_k^*\|_0 \le s_\gamma\)，且 \(s, s_\gamma = o(n / \log p)\)。这是高维估计收敛的必要条件，与 Städler et al. (2010) 一致。 - 假设 A2（设计矩阵）：各专家条件下的协方差矩阵 \(\Sigma_k\) 满足 restricted eigenvalue (RE) 条件，且最小特征值有下界。这是 nodewise regression 可行的前提，继承自 Javanmard & Montanari (2014)。 - 假设 A3（局部收敛 / 初始化）：EM 算法的初始值需在真参数的局部邻域内（\(\|\theta^{(0)} - \theta^*\| \le \delta\)）。这是非凸推断的通病，与 Balakrishnan et al. (2017) 一致，意味着本文不保证全局收敛。 - 假设 A4（混合权重有界）：\(\pi_k(x; \gamma^*) \in [\pi_{\min}, \pi_{\max}]\)，\(\pi_{\min} > 0\)。确保每个专家在样本中有足够代表性，类似因果推断中的 overlap 假设。 - 统计含义：A1-A2 保证高维估计与去偏可行；A3 暗示推断是“局部有效的”，若初始化落在坏盆地，推断无效但无法被数据检测；A4 保证预测集的组合不因某专家权重趋于 0 而退化。

主要结果： - 定理 1（去偏估计量的渐近正态性）：陈述：在 A1-A4 下，对第 \(k\) 个专家的去偏估计量 \(\hat{\beta}_k^d\)，对新观测 \(x_{\text{new}}\)，有 \(\frac{x_{\text{new}}^\top (\hat{\beta}_k^d - \beta_k^*)}{\sqrt{\hat{V}_k(x_{\text{new}})}} \xrightarrow{d} N(0, 1)\)，其中 \(\hat{V}_k(x_{\text{new}}) = \hat{\sigma}_k^2 x_{\text{new}}^\top \hat{\Theta}_k x_{\text{new}} / n + \text{variance-enhancement term}\)。直觉：nodewise regression 产出 \(\hat{\Theta}_k \approx \Sigma_k^{-1}\) 消除偏差，而 variance-enhancement term（源自 Cai et al. 2021）通过优化投影方向 \(\hat{v}_k\) 的 \(\ell_1\) 约束，压制了 \(x_{\text{new}}^\top \hat{\Theta}_k x_{\text{new}}\) 中因高维协方差逆估计不准带来的方差膨胀。必要条件：\(s = o(\sqrt{n} / \log p)\)，这比单纯估计的 \(s = o(n / \log p)\) 更严，是高维去偏的已知瓶颈（Javanmard & Montanari 2015 亦指出此）。解决的技术难点：混合设定下，残差 \(Y_i - X_i^\top \hat{\beta}_k\) 包含来自其他专家的污染项。证明需将此污染项的 \(\ell_1\) 误差与混合权重 \(\pi_j\) 绑定，证明其贡献为 \(O_P(\|\hat{\beta}_j - \beta_j^*\|_1 \cdot \|x_{\text{new}}^\top \hat{v}_k\|_1)\)，在稀疏性与 RE 条件下可被吸收。

定理 2（预测集的渐近条件覆盖）：陈述：构造 \(C(x_{\text{new}}) = \bigcup_{k=1}^K \left[ x_{\text{new}}^\top \hat{\beta}_k^d \pm z_{\alpha_k} \sqrt{\hat{V}_k(x_{\text{new}})} \right]\)，其中 \(\alpha_k\) 由 \(\sum_{k=1}^K \hat{\pi}_k(x_{\text{new}}; \hat{\gamma}) (1-\alpha_k) = 1-\alpha\) 解出，则 \(P(Y_{\text{new}} \in C(x_{\text{new}}) | X_{\text{new}}=x_{\text{new}}) \to 1-\alpha\)。直觉：真实响应落入第 \(k\) 专家区间的概率为 \(\pi_k^*(1-\alpha_k)\)，加总恰为 \(1-\alpha\)；用 \(\hat{\pi}_k\) 替 \(\pi_k^*\) 引入的误差由 gating 参数的 \(\ell_1\) 收敛率控制，渐近可忽略。解决的技术难点：\(\alpha_k\) 的解依赖于 \(\hat{\pi}_k\)，而 \(\hat{\pi}_k\) 本身是高维 softmax 的输出，其渐近分布难以直接刻画。本文绕过分布刻画，直接用 \(\ell_1\) 误差界证明 \(\hat{\pi}_k - \pi_k^* = o_P(1)\)，从而 \(\hat{\alpha}_k - \alpha_k^* = o_P(1)\)。

证明路线与技术技巧： - 整体路线： 1. 初始估计收敛：引用 Balakrishnan et al. (2017) 与 Städler et al. (2010)，在 A1, A3 下保证 \(\|\hat{\beta}_k - \beta_k^*\|_1, \|\hat{\gamma}_k - \gamma_k^*\|_1 = O_P(s \sqrt{\log p / n})\)。 2. Nodewise regression 构造精度矩阵：在各专家的加权样本上做 \(\ell_1\)-penalized nodewise regression，得到 \(\hat{\Theta}_k\)，在 A2 下保证 \(\|\hat{\Theta}_k - \Sigma_k^{-1}\|_1 = O_P(\sqrt{\log p / n})\)。 3. 去偏与污染控制：构造 \(\hat{\beta}_k^d = \hat{\beta}_k + \hat{\Theta}_k X^\top W_k (Y - X\hat{\beta}_k) / n\)（\(W_k\) 为权重矩阵），展开残差，将交叉专家污染项隔离并用初始估计的 \(\ell_1\) 界吸收。 4. Variance-enhancement：将投影方向 \(\hat{v}_k\) 的构造从单纯满足 \(\hat{v}_k^\top \hat{\Sigma}_k \approx e_j\) 扩展为带 \(\ell_1\) 约束的优化问题，最小化 \(\|x_{\text{new}}^\top \hat{v}_k\|_1\) 以压制预测方差。 5. 覆盖组合：用 \(\hat{\pi}_k\) 的连续性与误差界，证明动态分配的 \(\hat{\alpha}_k\) 收敛于真 \(\alpha_k^*\)，从而覆盖概率收敛。

关键跳跃点：引理 3（交叉污染控制）：\(\|x_{\text{new}}^\top \hat{\Theta}_k X^\top W_k (X(\beta_j^* - \hat{\beta}_j))\|_\infty\) 的界。这是混合设定独有的难点，单模型不存在。作者通过将 \(W_k\) 的行范数与 \(\pi_k\) 绑定，结合 RE 条件与 \(\ell_1\) 收敛率，证明此项为 \(O_P(\sqrt{\log p / n})\)，与主项同阶但可被 variance-enhancement 吸收。
技术技巧点名：
Nodewise regression：用在高维加权样本上，构造 \(\hat{\Theta}_k\) 以近似 \(\Sigma_k^{-1}\)，用于去偏。
Variance-enhancement projection direction：源自 Cai et al. (2021)，在构造 \(\hat{v}_k\) 时加入对 \(\|x_{\text{new}}^\top \hat{v}_k\|_1\) 的最小化，压制预测方差。
EM 局部收敛分析：继承 Balakrishnan et al. (2017)，将统计误差与优化误差解耦，保证初始估计进入去偏所需的局部邻域。
Softmax 误差界：对 \(\hat{\pi}_k(x; \hat{\gamma}) - \pi_k(x; \gamma^*)\) 用 \(\ell_1\) 界与 Lipschitz 性质，绕过对其渐近分布的需求。

真实例子与应用： - 超导材料临界温度预测： - 数据：Hamidieh (2018) 提供的超导材料数据集，特征为从化学公式提取的 81 维原子属性，响应为临界温度 \(T_c\)。 - 怎么用上去：将本文的高维 MoE 模型与去偏预测集方法应用于该数据，取 \(K=2\)（假设存在低温与高温超导两个子群），用 \(\ell_1\)-penalized EM 训练，再构造 \(C(x_{\text{new}})\)。 - 结果：在测试集上，本文预测集的覆盖率达到 \(90.3\%\)（目标 \(90\%\)），而单一线性模型的去偏区间覆盖仅为 \(82.1\%\)（因异质性未捕获），预测集平均长度比 conformal 方法短 \(15\%\)。 - 说明什么：验证了在真实异质性数据上，混合模型去偏预测集能逼近条件覆盖，且比单模型与 conformal 更紧、更准。

仿真实验：
设定：\(p=500, n=200, K=2\)，\(\beta_1^*, \beta_2^*\) 各 10-sparse，\(\gamma^*\) 5-sparse，\(\sigma_1^*=\sigma_2^*=1\)。
结果：覆盖概率随 \(n\) 增长收敛至 \(1-\alpha\)，且 variance-enhancement 版本的预测集长度比无 enhancement 版本短 \(20\%\)，验证了 Cai et al. (2021) 思想在混合设定下的有效性。

🔎 结论是否比证明窄： - 定理 1 的渐近正态性在 \(s = o(\sqrt{n} / \log p)\) 下严格证明，但作者在讨论部分泛泛 claim "our method can be extended to generalized linear models"，此延伸无证明支撑，且 GLM 的去偏在单模型下已需更严条件（Van de Geer et al. 2014），混合 GLM 的污染控制更复杂，此 claim 目前是空泛的。 - 定理 2 的覆盖保证严格依赖 A3（局部收敛），但作者在实证中用随机初始化，若落入坏盆地则覆盖无保证，而论文未提供检测是否在好盆地的诊断方法。

四、开放问题（点到为止，扎根具体语句）¶

全局推断的可行性：定理 1-2 严格依赖 A3（局部收敛），若 EM 初始化不在真参数邻域，推断无效。要证/估：是否存在数据驱动的诊断方法，判断当前 \(\hat{\beta}\) 是否在好盆地？（扎根：Section 3.2 对 A3 的陈述 "we require local convergence" 与 Balakrishnan et al. 2017 的局限）。
混合 GLM 的去偏预测集：作者 claim 可延伸至 GLM，但无证明。要证：在 MoE with GLM experts（如 logistic 回归专家）下，去偏预测集的渐近正态性与覆盖保证需要什么额外条件？交叉污染项在非线性下如何界？（扎根：Discussion 末句 "our method can be extended to generalized linear models"）。
效率下界与最优性：本文未讨论预测集长度的 minimax 界或半参数效率界。要估：在高维 MoE 下，条件预测集长度的 minimax 率是什么？本文的 variance-enhancement 投影方向是否达到此界？（扎根：Cai & Guo 2017 引以定位系数推断的 minimax 界，但本文预测集的界未被讨论，Intro 亦未引半参数效率文献）。
动态 \(\alpha_k\) 分配的稳健性：定理 2 的 \(\alpha_k\) 解依赖 \(\hat{\pi}_k\) 的连续性，若 \(\hat{\pi}_k\) 极小（某专家近乎消失），\(\alpha_k\) 会趋于 0 或 1，导致区间退化。要估：在 \(\pi_{\min} \to 0\) 的边界设定下，覆盖保证是否仍成立？需什么修正？（扎根：A4 要求 \(\pi_{\min} > 0\)，但实际数据可能存在稀疏子群）。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Prediction sets for high-dimensional mixture of experts models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论