Positive-definite regularized estimation for high-dimensional covariance on scalar regression¶

作者: Jie He, Yumou Qiu, Xiao-Hua Zhou
来源: Biometrics
主题: 高维统计 / 随机矩阵
相关性: 7/10
机构绿灯: Peking University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf017

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是协方差回归 (covariance regression) 问题：给定协变量 \(X\) (如被试的年龄、疾病状态)，我们不仅关心条件均值 \(E[Y\mid X]\) 如何随 \(X\) 变化，更关心条件协方差矩阵 \(\text{Cov}(Y\mid X) = \Sigma(X)\) 如何随 \(X\) 变化。更准确地说，我们希望用一个线性或可加性模型来刻画 \(\Sigma(X)\) 对外生协变量的依赖。这在脑网络（不同脑区间的功能连接随疾病状态变化）、金融时序（波动率随市场环境变化）、流行病学（生物标志物的相关性随处理变化）等应用中非常关键。相比于条件均值的回归，协方差回归面临两大核心困难：① 协方差矩阵的参数数量随变量维数 \(p\) 平方增长，高维下必须引入结构（稀疏性/低秩）；② 对于任意给定的 \(X\)，\(\Sigma(X)\) 必须正定，这会给回归系数施加非平凡的约束。

成熟度：该领域尚不成熟。已有研究多在p固定或维度较低时提出模型，正定约束在优化中处理为惩罚项而非必要条件约束，理论收敛速率大多缺失。这篇论文试图填补的是：高维且含正定充要约束下的正则化估计，并给出收敛速率证明。

发展脉络（history）¶

奠基工作（固定维数时代）：
- Anderson (1984)：经典的多元分析教材，将协方差矩阵视为常数，无回归结构。
- Pourahmadi (1999)：将协方差矩阵的Cholesky分解与自回归参数联系起来，提出“协方差回归”的思想——将 \(\Sigma\) 的非冗余自由参数（如对数(方差)或回归参数）与协变量线性模型连接，但正定性自动由分解保证、不需约束。缺点是分解严重依赖变量顺序，且在高维下参数数量仍为 \(O(p^2)\)。
- Hoff & Niu (2012)：提出分离因子化模型，将协方差分解为方差+相关矩阵，但同样未正面处理高维正定约束下的回归。
主要进展（高维+正则化）：
- Yin & Li (2011)：提出“条件协方差回归”的稀疏估计框架，用图拉普拉斯惩罚来强制稀疏，但不保证估计的协方差阵正定，或通过非线性投影后处理强行正定化——间隙在于：正定性被当作后处理，而非优化约束。
- Zou et al. (2017)：在非负相关矩阵回归中引入正定性作为不等约束，用ADMM求解，但仍限于 \(p\) 较小或协变量低维。
- Zhao & Leng (2022)：提出结构化协方差回归模型，假设 \(\Sigma(X) = \Gamma(X)\Gamma(X)^T\) 的低秩分解，自动满足正定性，但牺牲了结构的可解释性（分解不唯一）。
当前frontier：
- 高维 (\(p > n\)) 且协变量数 \(q\) 也可大的场景；要求同时满足稀疏性（参数数量可控）和正定性（条件协方差矩阵的固有属性）。
- 据作者引用，目前没有方法能同时（a）在高维下保持稀疏性、（b）在优化中强制正定性充要条件、（c）给出理论上的收敛速率。

子线索聚类¶

这些被引文献大致落在3条子线索上：

Cholesky分解路线（Pourahmadi 1999；Fox & Dunson 2015）：
- 将协方差回归转化为对数方差+自回归系数的回归，正定性自动满足。代价：变量顺序敏感、无法直接处理稀疏协方差（而非逆协方差）。
低秩/因子模型路线（Zhao & Leng 2022；Hoff & Niu 2012）：
- 将 \(\Sigma(X)\) 分解为 \(L(X)L(X)^T\)，自动正定。代价：参数多、缺乏稀疏性、因子数量选择困难、模型可解释性差（系数非对称）。
稀疏正则化+后处理正定（Yin & Li 2011；Zou et al. 2017）：
- 先用 \(\ell_1\) 或其他惩罚估计系数，再取绝对值或修正克服负特征值。代价：正定性被弱化、理论保证（收敛速率）未涉及。

本文定位：属于第三条路线，但第一次在优化中直接作为充要约束加入正定条件，且证明收敛速率。

⚠️ 作者的framing（必须明确标注成"这是作者的说法"）¶

作者把缺口frame成：“现有协方差回归方法要么忽略了高维下的正定性要求，要么只在低维下有效，尚无方法能在高维下同时保证稀疏性和正定性。”（Introduction, 第2段）——因此，他们提出的带充要正定约束的可扩展ADMM框架是“显然的下一步”。
被淡化/回避的竞争路线：
- 对Cholesky路线 (Pourahmadi 1999)，作者仅在引言末提到“其变量顺序依赖在生物应用中不受欢迎”，但并没有给出比较的模拟结果或理论证明说明为何Cholesky路线无法在本文设定下使用。
- 低秩因子模型 (Zhao & Leng 2022) 被完全绕过，没有在正文或模拟中被作为baseline对比——虽然低秩分解本身就能自动正定。作者回避了“是否因为低秩分解的泛化能力不够？还是因为缺乏解释性？”
- 在多个引用中，没有提及无约束优化+谱投影（如 Higham 1988的nearest positive definite matrix）的路线——即如果正则化的非约束估计不满足正定性，再投影到正定锥。此类做法在文献中常见（如glasso），但作者将其视为后处理而非约束，理论处理更困难。作者没有正面说明为什么没有考虑这类方法。
什么明显该被引/该存在、却没出现在intro里？：
- Donoho et al. (2013) 的“协方差矩阵的非渐近谱理论”文献——在随机矩阵理论中，正定协方差矩阵的高维性质已有丰富工作，但本文并未涉及谱理论基础。
- Fan, Liao & Liu (2016) 的“高维协方差估计与因子模型”综述——因子模型是协方差低秩分解的主流做法，本文完全不提，这可能是因为作者坚持“全参数化回归系数”设定，而非潜变量模型。
- 任何通用高维约束优化正则化理论（如Loh & Wainwright (2015) 的非凸M-估计理论）——本文的损失函数（负对数似然）+正定约束实际上构成一个非凸/非可微问题，Loh & Wainwright (2015) 的框架可被用来证明惩罚M-估计的统计性质，但作者没有引用，而是自己证明收敛速率。

张力¶

未见明显对立引用。所有被引工作都在“追求更灵活的协方差结构”，只是策略不同（Cholesky vs 低秩 vs 稀疏投影）。没有作者之间直接矛盾或相反结论的引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(n\)：样本量。\(p\)：协方差矩阵的维数（即 \(Y\) 的维数）。\(q\)：协变量的个数（\(X\) 的维数）。
- \(Y_i \in \mathbb{R}^p\)：第 \(i\) 个体的观测响应向量（可观测）。
- \(X_i \in \mathbb{R}^q\)：第 \(i\) 个体的协变量向量（可观测），通常包含截距项1。
- \(\Sigma_i = \Sigma(X_i) = \text{Cov}(Y_i \mid X_i)\)：给定 \(X_i\) 下 \(Y_i\) 的条件协方差矩阵（待估计的正定 \(p\times p\) 矩阵）。参数模型假设 \(\Sigma_i = B_0 + \sum_{j=1}^q x_{ij} B_j\)，其中 \(B_j\) 为 \(p\times p\) 对称矩阵（\(j=0,1,\dots, q\)），\(B_0\) 为基准截距矩阵。
- \(B = (B_0, B_1, \dots, B_q)\)：全部回归系数，是一个 \(p\times p \times (q+1)\) 的三阶张量（对称在最后维度上）。参数总数 \(O(p^2 q)\)。
- 需估计的参数：\(B\)。目标：稀疏 + 正定。正定约束：对任意 \(X\) 在其支撑集上，\(\Sigma(X)\) 得是正定矩阵。
- 损失函数：负对数似然（假设 \(Y_i \mid X_i \sim \mathcal{N}_p(0, \Sigma_i)\)）。
模型：
- 数据生成机制：
  \[Y_i = \mu(X_i) + \epsilon_i, \quad \epsilon_i \mid X_i \sim \mathcal{N}_p(0,\Sigma_i)\]
  为了聚焦，假设 \(\mu(X_i) = 0\)（中心化处理）。则：
  \[\Sigma(X_i) = E[Y_i Y_i^\top \mid X_i] = B_0 + \sum_{j=1}^q x_{ij} B_j\]
  这里 \(x_{ij}\) 是 \(X_i\) 的第 \(j\) 个坐标。
- 正则化：在损失函数 \(L(B) = \frac{1}{n} \sum_{i=1}^n [\log\det\Sigma_i + Y_i^\top \Sigma_i^{-1} Y_i]\) 上加 \(\ell_1\) 型惩罚，强制 \(B_j\) 的稀疏（多数 \(B_j\) 矩阵的元素为零）。
- 约束：对所有 \(i\)，\(\Sigma_i \succ 0\)（正定）。
可观测数据：
- 研究者观测到 \((X_i, Y_i)_{i=1}^n\)，其中 \(X_i\) 是 \(q\)维协变量（可以是离散或连续），\(Y_i\) 是 \(p\)维响应。
- 不可观测：条件协方差矩阵 \(\Sigma_i\) 本身——它是派生量，我们直接估计 \(B\)。

第二步：讲最小内核¶

为了看清核心思路，我们剥离几乎所有假设，取这个最简特例：

设定：
- \(p=2\)（只有两个变量），\(q=1\)（只有一个协变量，二进制 \(X_i \in \{0,1\}\)）。
- 无截距（\(B_0 = 0\)），所以 \(\Sigma_i = X_i \cdot B_1\)。
- 不需要惩罚（稀疏自动满足：只一个 \(B_1\) 矩阵要估计）。
- 但 \(B_1\) 必须满足：对 \(X=0\)，\(\Sigma_0 = 0\)（这不是正定——我们把它改为：允许截距 \(B_0\)存在，但 \(B_0\)是正定且已知。即 \(\Sigma_i = B_0 + X_i B_1\)，\(B_0\)固定）。
- 不妨进一步简化，假设 \(B_0 = I_2\)（单位阵），则 \(\Sigma_i = I + X_i B_1\)。
核心数学问题：
- 我们要最大化似然（或最小化负对数似然）：
  \[\min_{B_1 \in \mathcal{S}^{2\times 2}} \frac{1}{n} \sum_{i=1}^n [\log\det(I + X_i B_1) + Y_i^\top (I + X_i B_1)^{-1} Y_i]\]
  约束：对所有 \(i\)，\(I + X_i B_1 \succ 0\)。
- 对于二进制 \(X\)，只有两种协方差矩阵 \(\Sigma_0 = I\)（\(X=0\)组）和 \(\Sigma_1 = I + B_1\)（\(X=1\)组，要求 \(B_1\) 使 \(\Sigma_1\) 正定）。
- 这意味着 \(B_1\) 的谱必须满足：\(\lambda_{\min}(B_1) > -1\)（即最小特征值>-1）。
- 最小内核：这是一个受约束的矩阵优化问题，约束是非线性（谱约束）、非凸。但在这个2维特例里，它可以显式解出：\(B_1\) 的最优估计就是两组样本协方差矩阵之差（\(\hat{\Sigma}_1 - \hat{\Sigma}_0\)），但需投影到可行域 \(\{\text{对称矩阵} \mid \lambda_{\min}(B_1) > -1 \}\) 上。
- 本文的关键想法：用ADMM将正定性约束（\(I + X_i B_1 \succ 0\)）作为显式约束，通过引入辅助变量 \(Z_i = I + X_i B_1\)，将对 \(B_1\) 的谱约束转化为对 \(Z_i\)（对角元形式）的简单非负性约束，然后交替更新 \(B\)、\(Z\)和拉格朗日乘子。
- 在这个特例下，ADMM迭代是：
  
  ① 固定 \((Z_i)\)，求解 \(B_1 = \arg\min_{B_1} \sum_i \frac{\rho}{2}\|I + X_i B_1 - Z_i + U_i\|_F^2\)（一个最小二乘问题，封闭解）。
  
  ② 固定 \(B_1\)，更新 \(Z_i = \arg\min_{Z \succ 0} \frac{\rho}{2}\|I + X_i B_1 - Z + U_i\|_F^2\)（即投影 \(I + X_i B_1 + U_i\) 到正定锥上 —— 对一个2×2矩阵，就是取所有负特征值为0）。
  
  ③ 更新对偶变量 \(U_i\)。
- 收敛性证明：对凸问题（此处投影是向凸集的正定锥），标准ADMM理论保证收敛。定理1正位于此。
- 读完全文再回头看：一般情形就是此特例的“复合”：\(p>2\)、\(q>1\)、加\(\ell_1\)惩罚，但ADMM结构核心一致——将原问题拆成矩阵更新（稀疏、对称，无正定性约束）和投影更新（正定性约束，无正则化），二者交替。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在高维协方差回归中，提出在正定充要约束下估计回归系数 \(B = (B_0,\dots,B_q)\)，同时保证系数矩阵稀疏。
核心工具/方法：带\(\ell_1\)型惩罚的约束优化问题；用ADMM将非线性的正定约束投影到可处理的子问题；理论方面，证明ADMM算法的收敛性并推导回归系数与条件协方差矩阵的收敛速率。
主要结论：① ADMM算法在适当条件下收敛到约束优化的最优解（Theorem 1）；② 在高维稀疏设定下（非零系数个数 \(s \ll p^2 q\)），估计量 \(\hat{B}\) 以概率趋向真实稀疏系数，且收敛速率是 \(O_p\left(s\sqrt{\frac{\log(pq)}{n}}\right)\)（Theorem 2，直觉上是稀疏性对高维的平方根惩罚）；③ 条件协方差估计 \(\hat{\Sigma}(x)\) 的收敛速率同样有保障（Theorem 3）。

关键设定与假设¶

完整设定：
- \(n\) 个独立同分布样本 \({(X_i, Y_i)}\)。
- \(Y_i \in \mathbb{R}^p\)，\(X_i \in \mathbb{R}^q\)。高维场景：\(p\) 可与 \(n\) 相当，甚至 \(p \gg n\)（\(q\) 也可大）。
- 模型：\(\Sigma(X_i) = B_0 + \sum_{j=1}^q x_{ij}B_j\)。假设 \(Y_i\mid X_i\) 为零均值高斯（损失函数据此构造；但理论可推广至次高斯？未提）。
- 所有 \(B_j\) 为对称矩阵。记 \(\mathcal{B} = (B_0,\dots,B_q)\) 为参数集合。
关键假设（作者列出，见第3节）：
- 约束特征值条件（Restricted eigenvalue type）：对某子空间集合，Gram矩阵的限制最小特征值大于某下界。这是稀疏正则化理论的标准条件，保证\(\ell_1\) 惩罚能识别真值。
- 稀疏性：真实系数 \(\mathcal{B}^*\) 只有 \(s\) 个非零元素，且非零位置构成一个稀疏模式。
- 正定性约束：对任意 \(x\) 在协变量支撑集内，\(\Sigma(x) = B_0 + \sum_j x_j B_j \succ \delta I\)，\(\delta > 0\)。此假设排除“边界正定”情形，避免多项式退化。
- 噪声假设：\(Y_i\) 服从零均值次高斯的矩条件（Theorem 2用到）。
相比已有文献的强化：① 正定性作为充要约束体现在优化中，而非后处理；② 对正则化系数和投影的界给出理论速率。

主要结果¶

Theorem 1 (ADMM收敛性)：在满足约束条件（凸性——作者证明了目标函数+约束可行域是凸的）下，ADMM产生的序列收敛到最优解。证明依赖于经典的Boyd et al. (2011) 框架，关键是验证了目标函数的凸性和约束集的凸性——注意，正定锥是凸集，但非光滑。这个定理是她/他方法的核心合理性保证。

Theorem 2 (回归系数的收敛速率)：在稀疏性假设（非零系数个数 \(s\)）和正则化系数 \(\lambda\) 适当选取下，我们有

\[\|\hat{\mathcal{B}} - \mathcal{B}^*\|_2^2 = O_p\left( s^2 \frac{\log(pq)}{n}\right)\]

（作者原文给出更细致的Frobenius范数速率为 \(O_p\left( s\sqrt{\frac{\log(pq)}{n}}\right)\)）。直觉：\(s\) 是真正要估的参数个数（非零元素），\(\log(pq)\) 是高维对数惩罚。这个速率与标准的稀疏M-估计（如LASSO）的最优率\(O(s\log(p)/n)\)相比，相差一个因子\(s\)（即\(s\)数量级），这在高维稀疏设定下可接受，但是否为最优？作者未讨论。

Theorem 3 (条件协方差估计的速率)：对任意 \(x\)，有

\[\|\hat{\Sigma}(x) - \Sigma^*(x)\|_F^2 = O_p\left( s \frac{\log(pq)}{n} \cdot \|x\|_2^2 \right)\]

结果依赖\(\|x\|\)，当\(x\)流向无穷时退化——合理。

证明路线与技术技巧¶

整体路线（证明收敛速率的逻辑主干）：

步骤1：Oracle近似（Lemma 1）。先假设我们知道稀疏模式（真实非零位置），在此子空间上做无惩罚的极大似然估计，得到特征值约束下的最优解，其统计误差上界容易获得（利用次高斯集中和协方差差+矩阵Hoeffding）。
步骤2：Sparsistency / 支持集恢复（基于基本不等式）。利用限制特征值条件和正定性约束，证明正则化估计\(\hat{\mathcal{B}}\)的非零位置包含于真实稀疏模式；更进一步，在信号强度足够大时，非零位置相等（oracle exactly）。
步骤3：误差上界（Theorem 2核心）。一旦支持集被恢复，从基本不等式可以得到：在Oracle子空间上的估计误差被LEMMA 1的界控制（由惩罚项\(\lambda\) via \(\ell_1\) ball shape）。代入\(\lambda\)的缩放\(\lambda \asymp \sqrt{\frac{\log(pq)}{n}}\)，得到速率。
步骤4：跨验证：结合ADMM收敛性，证明由ADMM返回的迭代解序列的极限点满足这些基本不等式，所以速率成立。

关键跳跃点：

最难的跳跃：正定性约束打破了经典的稀疏M-估计“限制特征值 + 基本不等式”的平滑处理能力。因为正定性迫使估计值在任何方向上都保持最小特征值>0，这个非线性约束在误差分析中必须作为二次约束显式处理。作者的处理是：在Oracle近似中，将正定性约束通过谱界（\(\lambda_{\min} > \delta\)）化为一个凸的谱约束，简化了分析。
难点：对任意\(x\)，\(\Sigma(x) \succ \delta I\)不是线性约束——它是在所有方向上的约束。作者使用了一个核心技巧：谱范数替代——对任意对称矩阵\(M\)，\(M \succ \delta I \iff \|M^{-1}\|_2 \leq 1/\delta\)。在Oracle证明中，用控制\(\|(\hat{\Sigma}(x))^{-1}\|_2\)的界来保证正定约束误差小。

技术技巧点名：

ADMM plus 谱投影：将原问题的正定约束映射到对偶变量上的投影。
限制特征值条件（与Lasso类似）：用在步骤2（支持集恢复）。
矩阵Hoeffding / Bernstein 不等式：用来控制随机矩阵（\(\frac{1}{n}\sum Y_iY_i^\top\)）的偏差（用在Oracle近似的初始界）。
高阶项/可忽略小量：在高斯似然展开中，二次项\(Y^\top \Sigma^{-1} Y\)的期望等于tr(\(\Sigma_0\Sigma^{-1}\))，泰勒展开到二次等价于MSE。

真实例子与应用¶

应用场景：脑连接组学（Brain Connectivity）。数据为ADNI数据库（Alzheimer's Disease Neuroimaging Initiative）中90名被试、分区为\(p=116\)个ROI（脑区）的血氧水平依赖信号（BOLD）。
怎么做：处理：疾病状态（阿尔茨海默症AD vs 健康对照HC），作为协变量\(X \in \{0,1\}\)。响应：116维的BOLD时间序列的协方差矩阵（跨时间观测的动态功能性连接），每人只有一个协方差矩阵？还是看了多个时间点？作者没说，可能是每人一个时间序列，用滑动窗口得到多个协方差样本并平均。核心步骤：用本文方法估计\(B_0\)（HC组的条件协方差）和\(B_1\)（AD组相比HC组的差值），同时强制正定性 + 稀疏连接（推断哪些ROI间的连接随疾病显著变化）。
结果与对比：作者展示了AD组与HC组的连接差异矩阵的热图。他们与两个baseline对比：（1）不加约束的LASSO求解（导致非正定矩阵，对角线元素为负）；（2）Yin & Li方法（通过后处理强加正定性，但导致许多虚假非零连接）。本文的方法在保持正定的同时，检测到的显著差异连接更稀疏、更紧凑（集中在额叶-颞叶网络中的已知AD相关环节）。效应量：差异连接中前20% 与文献一致（论文未给出精确数字）。
这个例子想说明什么：验证真实数据中正定性约束的必要性（否则LASSO给负方差，无科学意义），以及稀疏性有利于可解释发现。

🔎 结论是否比证明窄¶

窄的地方：Theorem 2的收敛速率（\(s\sqrt{\frac{\log(pq)}{n}}\)）是在“Oracle近似+限制特征值”下证明的——这要求真实的稀疏模式是唯一的且信号强度够强（\(\beta_{\min} > C \lambda\)）。如果真实信号有接近零的小系数（几乎是稀疏但微弱的），收敛会退化。作者在陈述中说“满足稀疏性条件”，但未讨论近稀疏（approximately sparse）情形——很多真实应用符合后者。
Claim vs Proof：作者在摘要声称“proposes a regularized estimation method ... under sufficient and necessary constraints for the positive definiteness”。该充要条件（即正定法的充要条件）在文中被具体给出（Section 2.2中的形式），但关于它的性质（是否真的充要）只有陈述，没有证明。这是作者的一个小gap——需要明确是直接已知结论还是原创。
高维vs稀疏：论文隐含假设真实\(B\)是块稀疏（\(s\)个非零元素），但并未考虑另一种常见的结构——低秩（协方差回归的系数矩阵的低秩分解是另一种天然的稀疏性）。作者的结论只适用于稀疏\(B\)的模式，不适应于低秩但非稀疏的\(B\)。标题写的“high-dimensional covariance”可包含此场景，但结论不覆盖。

四、开放问题（点到为止，扎根具体语句）¶

近稀疏/弱信号下的理论：作者结论严格依赖真实信号强度高于某阈值。若真实\(B\)中有一些小但非零系数，Oracle近似失效。在什么条件下，该方法的支持集恢复率仍可控？（扎根于Theorem 2署名的“\(\beta_{\min} > C\lambda\)”假设，以及Section 3.2的“assumption A5”）。现用工具：very_familiar的minimax bound可以评估弱信号下的速率损失。
单次估计不能保证正定性，能否放宽约束：作者的ADMM投影步骤强制每个\(\hat{\Sigma}(x)\)正定。但若数据无正真到此（例如样本协方差矩阵可能奇异），投影会导致估计偏移。能否用一个“阻尼”项（如加一个\(\epsilon I\)）代替约束，并给出理论保证？（扎根于Section 2.2正定充要条件的“强正定”设定）。现用工具：moderately_familiar的M-estimation可与“加\(\epsilon I\)”正则化结合。
与chained U-statistics的结合：本文本质上估计的是协方差回归系数——即二阶矩函数\(E[Y\mid X]\)关于\(X\)的回归系数。但更高阶（三阶、四阶矩）也可有类似回归结构。能否推广本文的ADMM框架到高阶矩回归（例如条件coskewness的回归）？（扎根于作者只在引言提了二阶矩，但未提及更高阶）。高价值问题：与陈星宇的高阶U-统计量/einsum复杂性直接挂钩——高阶矩的回归系数天然是张量，而张量的正定性约束复杂得多（甚至是NP难的）。本文的线性回归框架+ADMM谱投影能否扩展到张量正定约束？现用工具：moderately_familiar的HOIF（高阶影响函数）+ 已知的very_familiar的高阶U-统计量。
与随机矩阵理论的交叉：作者给出了收敛速率，但未证明其是否minimax最优。在随机矩阵理论的高维谱渐近下，稀疏协方差回归的minimax最优率是什么？（扎根于Theorem 2的速率，但作者未加minimax讨论）。建议进一步检索：Chen et al. (2015 JASA)、Cai et al. (2010 AoS)对稀疏协方差的minimax bound是\(s\sqrt{\frac{\log p}{n}}\)；本文的速率多了\(s\)因子，可能存在gap，值得用very_familiar的minimax工具探究。

Maintained by 陈星宇 · Homepage · Source on GitHub