Universality of estimators for high-dimensional linear models with block dependency¶

作者: Toshiki Tsuda, Masaaki Imaizumi
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

高维线性模型（\(Y = X\beta + \varepsilon\)，\(n,p\to\infty\)，\(p/n\to\gamma\)）中，估计量（ridge、lasso、M-估计等）的分布或风险往往在“协变量为高斯”时才具有简洁的解析形式（如 AMP 的 state evolution、随机矩阵的确定性等价）。Universality 是指：当协变量 \(X\) 的真实分布为非高斯、但与其高斯版本共享相同低阶矩（通常一二阶矩）时，估计量的渐近分布/风险与高斯情形一致。换言之，估计量的统计行为对协变量的高斯性是鲁棒的。这一性质是连接“可分析的高斯模型”与“真实数据非高斯分布”的桥梁，也是高维统计理论中一个活跃的子方向。

成熟度：自 Bayati–Montanari (2012) 严格证明 Lasso 风险对高斯矩阵的 universality 以来，该方向已产生大量结果（覆盖 ridge、logistic 回归、M-估计、ERM 等）。当前 frontier 正试图放松经典结果中的核心假设——协变量元素独立。本文即位于这一前沿：将元素独立放松为块间独立。

发展脉络（history）¶

奠基工作：

经典 Lindeberg 原理（Lindeberg 1922；后由 Chatterjee 2006 等推广）是证明 universality 的通用工具——通过逐坐标替换分布并控制替换误差，证明和函数分布对坐标分布的不敏感性。
高维 CLT（Chernozhukov–Chetverikov–Kato 2013, 2017；CJK 系列）为高维统计量的高斯近似提供了非渐近界，其技术（Stein 方法、multiplier bootstrap）也为后来的 universality 证明提供了基础。

主要进展——从 AMP 到精确风险：

Bayati–Montanari (2012)〔被引7〕：首次严格证明 Lasso 在高斯设计矩阵下的渐近风险可由一个确定性公式（state evolution）给出。证明依赖于 AMP 算法，而 AMP 的推导本身假定了 i.i.d. 高斯设计。
El Karoui (2013, 2018)〔被引12,16〕：研究稳健 M-估计在高维下的风险，发现“额外高斯噪声”现象，并使用 AMP 与 state evolution 刻画，但同样依赖高斯假设。
Hastie–Montanari–Rosset–Tibshirani (2019)〔被引3〕：给出 ridgeless 插值的双下降曲线精确公式，其推导假设 \(X = \Sigma^{1/2} Z\)，\(Z\) 为 i.i.d. 高斯。这一设定（协方差可任意，但 \(Z\) 元素独立）成为后续 universality 研究的典型起点。
Hu–Lu (2020)〔被引14〕：证明随机特征模型的 Gaussian equivalence，使用经典 Lindeberg 原理并假设特征向量元素独立（或被卷积结构去相关）。

当前 frontier——放松元素独立性：

Montanari–Saeed (2022)〔被引22〕：证明经验风险最小化（ERM）的 universality，其中协变量 \(X\) 的第 \(i\) 行可以为任意分布（不必独立），但行与行之间 i.i.d.。这一结果只覆盖了训练/测试误差，而未覆盖估计量分布本身。
Fan (2020)〔被引25〕：将 AMP 推广到旋转不变矩阵（即 \(X\) 的奇异向量分布均匀），但其 state evolution 需要自由累积量，且非高斯 universality 未直接证明。
本文 (Tsuda–Imaizumi, Bernoulli)：针对高维线性模型估计量的分布（而非仅风险），在协变量具有块依赖结构（块内可任意相关、块间独立）下证明 universality。

子线索聚类¶

这些被引文献大致落在三条子线索上：

AMP / State Evolution 路线（Donoho–Maleki–Montanari 2009〔1〕, Rangan 2010〔2〕, Javanmard–Montanari 2012〔11〕, Feng–Venkataramanan–Rush–Samworth 2021〔19〕）：通过消息传递算法实现估计量，并利用 state evolution 精确刻画其均方误差；核心假设往往要求设计矩阵为 i.i.d. 高斯（或至少具有独立元素）。
随机矩阵 / 精确风险公式路线（Bayati–Montanari 2010〔7〕, Hastie 等 2019〔3〕, Dobriban–Wager 2015〔6〕, Karoui 2018〔16〕, Thrampoulidis–Abbasi–Hassibi 2016〔13〕, Stojnic 2013〔17〕, Sur–Candès 2019〔9〕, Salehi–Abbasi–Hassibi 2019〔20〕）：用随机矩阵理论或凸几何方法（Gordon 定理、convex Gaussian min-max theorem, CGMT）推导估计量的渐近风险/分布；其中 CGMT 本身也假设协变量为高斯，但其 universality 延伸常需独立元素。
Gaussian equivalence / Universality 路线（Hu–Lu 2020〔14〕, Goldt–Loureiro–Reeves–Krzakala 等 2020〔18〕, Loureiro–Gerbelot–Cui–Goldt 2021〔15〕, Montanari–Saeed 2022〔22〕, 以及本文）：直接用 Lindeberg 原理或 Stein 方法证明非高斯协变量下的估计量分布/风险与同矩高斯版本一致；此前要求协变量满足元素独立或行内具有特定独立结构，本文首次处理块内相关、块间独立。

该方向在追问的核心问题¶

分布 vs 风险：已有 universality 结果大多针对风险（训练误差、测试误差）或均方误差，但较少针对估计量的全分布（如系数的联合分布）。本文处理的是分布近似。
依赖结构：从元素独立 → 块间独立 → 更一般的弱相关（如时间序列、因子模型）。当前瓶颈在于：一旦依赖结构不允许“分块独立”，Lindeberg 替换的误差累积将失控。
非 Lipschitz 测试函数：分布近似往往针对 Lipschitz 或有界连续函数；能否扩展到指示函数（即分布函数的 Kolmogorov 距离）是更强的结果，目前仅在高维 CLT 中有类似界（CJK 系列），但在估计量 universality 中尚未实现。
高维广义线性模型：逻辑回归、泊松回归等 GLM 的 universality 已被 Sur–Candès 等部分解决，但依旧要求独立高斯设计；能否推广到块依赖？本文仅覆盖线性模型。

⚠️ 作者的 framing（必须明确标注为“作者的说法”）¶

作者把缺口 frame 成：“现有 universality 结果（如 Montanari–Saeed 2022, Hu–Lu 2020）均要求协变量元素独立（或行内元素经由独立随机变量线性变换得到），但实际数据（如时空数据、影像数据）常具有块内相关。因此需要将块依赖结构纳入 universality 框架。” 这一 framing 使得本文成为“显然的下一步”——在元素独立与一般依赖之间找到一个中间地带（块间独立），从而能用 Lindeberg 原理处理。

竞争路线被淡化或回避： - 被引22（Montanari–Saeed 2022）实际上已允许任意行内依赖，但只针对风险（而不是估计量分布）。作者将其定位为“训练/测试误差”而非“分布”，从而突出本文的分布近似贡献。 - CGMT 路线（Thrampoulidis 等 2016）对多种估计量给出了精确分布刻画，但 CGMT 本身是高斯化的技术（即假设协变量为高斯并推导确定性等价），其 universality 延伸（如利用 Lindeberg 独立替换）仍需要独立元素。作者未详细讨论 CGMT 路线在非独立情形下的失效。

什么明显该被引/该存在、却没出现在 intro 里：
关于 因子模型协变量（如 \(X = F \Lambda^\top + E\)，其中 \(F\) 为潜因子，各元素独立）的 universality 结果——这类模型也引入块依赖（因子载荷导致块内相关），但结论可能被本文部分覆盖。另：时间序列设计矩阵（如 AR 结构）下的 universality 也未被提及。这两条是值得研究者去查的“隐缺口”。

张力¶

未见明显对立引用。被引文献中，AMP 路线与 CGMT 路线在高斯设计下相互印证（Bayati–Montanari 与 Thrampoulidis 等给出相容的 Lasso 风险公式）。在 universality 的推广方向上，各家（Hu–Lu, Montanari–Saeed, 本文）一致支持“低阶矩匹配 + 某种独立性”的充分条件，没有相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

记号

记号	意义	类型
\(n\)	样本量	整数，随分析趋于无穷
\(p\)	协变量维数	整数，\(p/n \to \gamma \in (0,\infty)\)
\(Y\in\mathbb{R}^n\)	响应向量	可观测
\(X\in\mathbb{R}^{n\times p}\)	设计矩阵，各行 \(x_i^\top\) i.i.d. 服从某分布	可观测
\(\beta^*\in\mathbb{R}^p\)	真系数向量	潜在参数，估计目标
\(\varepsilon\in\mathbb{R}^n\)	噪声，独立同分布，均值 \(0\)，方差 \(\sigma^2\)	潜在，分布已知或未知
\(\hat\beta\)	估计量（ridge、lasso 等）	由 \((Y,X)\) 计算所得
\(\Sigma = \mathbb{E}[x_i x_i^\top]\)	协变量协方差矩阵	已知或可估计，通常假设存在
\(m\)	块大小	固定整数，\(p\) 可整除 \(m\)
\(B_1,\dots,B_K\)	\(K = p/m\) 个块	块索引集合；块间独立，块内可任意相关

模型（数据生成机制）

线性模型：

\[Y = X\beta^* + \varepsilon.\]

协变量结构：设第 \(i\) 行 \(x_i \in \mathbb{R}^p\) 的分布满足： - 存在块划分 \(\{B_k\}_{k=1}^K\)，每块大小 \(m\)（假设 \(m\mid p\)）； - 块间独立：对任意 \(k\neq l\)，\(x_{i,B_k}\) 与 \(x_{i,B_l}\) 独立； - 块内允许任意相关：\(x_{i,B_k}\) 内部各元素可以有任意协方差结构。非高斯协变量的矩假设：对于每个块 \(B_k\)，\(x_{i,B_k}\) 与某个高斯向量 \(g_{i,B_k}\sim N(0,\Sigma_{B_k})\) 具有相同的一、二阶矩（可能更高阶矩，取决于证明）。

可观测数据：研究者观测到 \((Y, X)\)，且知道块划分 \(\{B_k\}\) 及块内协方差结构 \(\Sigma_{B_k}\)（或至少知道其矩）。不可观测/潜在的量：\(\beta^*\)（待估）以及 \(x_i\) 的真实联合分布的高阶矩（超出一二阶的部分，被允许任意）。

第二步：最小内核——一个显然的特例，揭示核心思路¶

最简特例：设 \(p=2\)，\(m=2\)，即一个块（块内两元素相关，没有跨块独立这一条）。此时协变量只有一维？不对，p=2，一个块大小为2。考虑估计量为最小二乘：\(\hat\beta = (X^\top X)^{-1} X^\top Y\)，且 \(\varepsilon\) 为高斯噪声（为简化，设\(\varepsilon\sim N(0,I)\)）。我们不关心一致性，而是关心\(\hat\beta\)的分布。

如果 \(X\) 是高斯且协方差为 \(\Sigma\)，则 \(\hat\beta\) 的条件分布（给定 \(X\)）是高斯，边缘分布也不是高斯但可计算。
如果 \(X\) 的每行是非高斯向量，具有与高斯相同的均值和协方差 \(\Sigma\)，那么 \(\hat\beta\) 的分布是否与高斯情形相同？

经典 Lindeberg 原理（元素独立情形）可以证明：逐元素地把 \(x_{ij}\) 替换为高斯变量，替换误差由三阶矩差异控制。但在块内相关时，不能逐元素替换，因为块内元素不独立，替换一个会影响其他元素的条件分布。本文的核心想法是：按块整体替换——直接把整个块 \(x_{i,B_k}\) 替换为高斯块 \(g_{i,B_k}\)（具有相同协方差矩阵），利用块间独立性保证不同块之间替换是独立的，从而将误差累加控制在块数 \(K\) 而不是元素数 \(p\) 上。

对于 \(p=2\) 的单块情形，不存在块间独立，替换误差将依赖于块内相关性强度。因此最小内核中“块间独立”是不可或缺的假设——它保证跨块替换误差可独立累积，最终被 \(K\) 稀释。多块（\(K>1\)）时的误差界比单块更紧。

用这个最小内核表述本文的核心命题（简化形式）：

考虑 \(n\) 个 i.i.d. 行，每行由 \(K\) 个独立块构成。定义估计量 \(\hat\beta(X)\) 为某个关于 \(X,Y\) 的有界Lipschitz函数（如 ridge 解）。设 \(G\) 是一个与 \(X\) 具有相同块结构、相同块内协方差的高斯矩阵。则对于任意有界 Lipschitz 函数 \(f\)，

\[\bigl|\mathbb{E}f(\hat\beta(X)) - \mathbb{E}f(\hat\beta(G))\bigr| \le C \cdot \frac{K \, m^{3/2} \cdot \gamma(\text{块内相关})}{n^{1/2}}.\]

其中 \(C\) 不依赖于分布的具体形状，只依赖于Lipschitz常数和矩条件。当 \(n\to\infty\) 且 \(K = O(p/m)\) 与 \(n\) 成比例时，该界趋于零。因此估计量分布在高斯与非高斯下渐近一致。

难点：块内相关使得替换一个块时，不能直接使用经典的独立 Lindeberg 替换（它要求每次只替换一个独立坐标）。本文的关键想法是：利用 Stein 方法 或 耦合构造，将替换误差转化为块内相关结构的函数，并利用块间独立性进行协方差分解。

三、这篇论文做了什么¶

三句话¶

问题：在高维线性模型（\(Y = X\beta^* + \varepsilon\)）中，当协变量 \(X\) 具有块依赖结构（块内元素可任意相关、块间独立）时，证明估计量（ridge、lasso 等）的分布具有 universality——即由非高斯协变量与同矩高斯协变量导出的估计量分布相差可被控制。
核心工具：发展了适用于块依赖的广义 Lindeberg 原理，通过按块替换并结合 Stein 方法处理块内相关性，推导出差的上界。
主要结论：对一系列凸损失估计量（包括 ridge、lasso），在矩匹配条件下，\(|\mathbb{E}f(\hat\beta(X)) - \mathbb{E}f(\hat\beta(G))| \le C \cdot n^{-c}\)（\(c>0\)），其中 \(G\) 是与 \(X\) 同协方差的高斯矩阵。这一结果将已有要求元素独立的 universality 推广到块依赖。

关键设定与假设¶

完整设定（在第二节最小记号基础上补充）：

线性模型：\(Y = X\beta^* + \varepsilon\)，\(\varepsilon \sim N(0,\sigma^2 I)\)（噪声高斯假设可放松，但为简化）。
协变量分布：行向量 \(x_i \in \mathbb{R}^p\) i.i.d.，具有零均值，协方差矩阵 \(\Sigma\)。
块依赖结构：\(\Sigma\) 是块对角矩阵，由 \(K = p/m\) 个 \(m\times m\) 块 \(\Sigma_{B_k}\) 组成。每行 \(x_i\) 的块分量 \(x_{i,B_k}\) 相互独立。
矩条件：对每个 \(k\)，非高斯分布与高斯分布的前两阶矩相等：\(\mathbb{E}[x_{i,B_k}] = 0\)，\(\text{Cov}(x_{i,B_k}) = \Sigma_{B_k}\)。此外，可能还需要有限的三阶或四阶矩（控制替换误差）。
估计量：考虑如下形式的 M-估计量：
\[\hat\beta = \arg\min_{\beta} \frac{1}{n} \sum_{i=1}^n \ell(y_i - x_i^\top \beta) + \lambda r(\beta),\]
其中损失函数 \(\ell\) 和正则项 \(r\) 满足一定凸性和光滑性（Lipschitz 梯度等）。具体例子包括：
Ridge：\(\ell(t)=t^2\)，\(r(\beta)=\|\beta\|^2\)；
Lasso：\(\ell(t)=t^2\)，\(r(\beta)=\|\beta\|_1\)；
更一般的稳健损失（Huber）也可能适用。
比例条件：\(n,p\to\infty\)，\(p/n\to\gamma\in(0,\infty)\)。块大小 \(m\) 可以为固定常数或随 \(n\) 缓慢增长。

相比已有文献的放宽/强化： - 放宽：元素独立性 → 块间独立性（块内可任意相关）。 - 强化：要求块大小 \(m\) 不随 \(n\) 增长过快（否则替换误差累积会发散）。作者可能假设 \(m = o(n^{1/2})\) 或 \(m\) 固定。

主要结果¶

（由于无完整定理陈述，以下为基于摘要和逻辑的合理推断，标记为“推测”，待与原文核对）

定理 1（广义 Lindeberg 原理，块依赖版本）：
设 \(\{Z_i\}_{i=1}^n\) 为 i.i.d. 随机向量，每 \(Z_i\) 可划分为 \(K\) 个独立块。令 \(\tilde Z_i\) 为与 \(Z_i\) 同协方差的高斯向量，且对任意块 \(B_k\)，\(Z_{i,B_k}\) 与 \(\tilde Z_{i,B_k}\) 具有相同的一、二阶矩。则对任意有界 Lipschitz 函数 \(h: \mathbb{R}^{n\times p} \to \mathbb{R}\)（满足 \(\|h\|_\text{Lip} \le L\)），有

\[\bigl|\mathbb{E}h(Z_1,\dots,Z_n) - \mathbb{E}h(\tilde Z_1,\dots,\tilde Z_n)\bigr| \le C L n^{1/2} K m^{3/2} \max_{k,i} \bigl\| \text{Cum}_3(Z_{i,B_k}) \bigr\|,\]

其中 \(\text{Cum}_3\) 表示三阶累积量张量的某种范数，\(C\) 为常数。

直觉：误差主要由替换一个块时产生的三阶矩差异引起，块间独立性保证不同块的替换误差可正交分解，从而将 \(p\) 维误差降为 \(K\) 维误差的加和。块内相关性通过修正协方差分解体现在系数 \(m^{3/2}\) 上。

定理 2（应用于 Ridge 估计量）：
在上述设定下，令 \(\hat\beta_\lambda^\text{ridge}(X) = (X^\top X + \lambda I)^{-1} X^\top Y\)，并假设 \(\lambda\) 固定或随 \(n\) 适当变化。则存在常数 \(c>0\) 使得

\[\sup_{f\in\text{Lip}_1} \bigl|\mathbb{E}f(\hat\beta_\lambda^\text{ridge}(X)) - \mathbb{E}f(\hat\beta_\lambda^\text{ridge}(G))\bigr| = O(n^{-c}).\]

定理 3（应用于 Lasso 估计量）：
类似结论对 Lasso 也成立，但需要额外的假设（如 \(X\) 满足 restricted eigenvalue condition，且该条件在高概率下成立）。由于 Lasso 解不是 \(X\) 的光滑函数，证明需先建立近似光滑性（如通过 AMP 迭代或承包构造）。

解决的技术难点： - 块内相关破坏了元素独立下 Lindeberg 替换的“逐个替换”性质，导致直接应用经典 Lindeberg 原理会引入不可控的协方差项。 - 替代表达式中的交叉项无法用独立矩消去。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

问题转化：将估计量 \(\hat\beta\) 表示为 \((X,Y)\) 的函数。由于 \(Y = X\beta^* + \varepsilon\)，\(\hat\beta\) 实际上是 \(X\) 和 \(\varepsilon\) 的泛函。通过固定 \(\varepsilon\) 或利用 \(\varepsilon\) 的高斯性，可先对 \(\varepsilon\) 取期望或条件。
Lindeberg 替换策略：从 \(X\) 的高斯版本 \(G\) 出发（具有相同块结构），通过逐块替换将 \(G\) 逐步变为非高斯 \(X\)。具体地，定义一个插值序列：第 \(t\) 步时将前 \(t\) 个行（或前 \(t\) 个块）替换为非高斯版本。
替换误差的分解与上界：引入一个“替换算子”\(\Delta_{i,k}\)，表示将第 \(i\) 行的第 \(k\) 块从高斯替换为非高斯所带来的差异。利用函数的一阶泰勒展开（或更一般的 Stein 引理类展开），将 \(\Delta_{i,k}\) 表示为：
\[\Delta_{i,k} h = \langle \nabla_{x_{i,B_k}} h, (x_{i,B_k} - g_{i,B_k}) \rangle + \frac12 \text{Tr}\bigl( \nabla^2_{x_{i,B_k}} h \cdot (\text{Cov差异}) \bigr) + \text{高阶项}.\]
由于矩匹配，一阶项期望为 0，二阶项协方差差异为 0（因为协方差匹配），所以主要误差来自三阶项。块间独立性保证了不同块对应的泰勒展开项可独立求和。
控制高阶项：对于非光滑泛函（如 Lasso），不能直接用泰勒展开。作者可能使用光滑化技巧（用高斯卷积或更普适的 Moreau-Yosida 正则化）将非光滑函数近似为光滑函数，再应用步骤3。或者采用leave-one-out论证（如 El Karoui 2018）来逐行替换。
最终错误界：将所有替换误差的期望相加，得到总误差的上界为 \(O( n K m^{3/2} n^{-1/2} )\)（经标准化后），在 \(K m = p\) 且 \(p/n = O(1)\) 时，该误差为 \(O(n^{-1/2})\) 量级。

关键跳跃点： - 块内相关下的泰勒展开二阶项消去：一般情况下，由于块内不独立，替换一个坐标会影响其他坐标的二阶项。作者的核心引理必须证明：当按整块替换时，由于块内协方差在两种分布下相同，二阶项的整体期望仍为零。这一点的证明需要用到块内各坐标联合分布的条件期望性质，可能是通过Stein 引理的高维推广（如 Barbour 1988）或四阶累积量消失条件。 - 非光滑泛函的处理：Lasso 解是凸优化问题的解，但其作为 \(X\) 的函数可从“原始-对偶”角度写作一个凸锥上的投影，该投影是 Lipschitz 的，但不可微。作者如何绕过可微性？一个常见技巧是使用Moreau 恒等式：\(\hat\beta = \text{prox}_{\lambda\|\cdot\|_1}(X^\top Y)\)，再利用 prox 的 Lipschitz 性质和一阶变分刻画。或者直接利用 AMP 迭代中的 state evolution 来建立 universality，但本文声称不依赖 AMP。

技术技巧点名： - 广义 Lindeberg 原理（块版本）：经典 Lindeberg 原理（Chatterjee 2006）要求函数对坐标的依赖是“可交换的”且坐标独立。本文推广到块独立，通过在每个块内引入耦合构造来模拟独立替换。 - Stein 方法 / 累积量展开：用于控制块内替换的泰勒余项，可能需要使用二次型 Stein 恒等式（如对于高斯向量 \(g\)，\(\mathbb{E}[g^\top A g] = \text{Tr}(A\Sigma)\)，且更高阶项对应累积量）。 - 光滑近似：针对 Lasso 等非光滑损失，可能使用Gaussian smoothing（即考虑 \(h_\sigma(z) = \mathbb{E}[h(z+\sigma N)]\)）或Moreau envelope，先得到光滑泛函的 universality，再通过取极限 \(\sigma\to0\) 并控制 Lipschitz 常数的衰减。

真实例子与应用¶

（本文为纯理论论文，不包含真实数据例子。但通常这类论文会包含模拟实验。由于未提供全文，无法确认模拟细节。根据常见模式，模拟可能如下：）

生成数据：设 \(\beta^*\) 为稀疏或非稀疏，\(X\) 的行由块结构生成：块内为 AR(1) 或复合对称相关，块间独立。比较两种分布：高斯（\(N(0,\Sigma)\)）与 Student-t 分布（经标准化使协方差等于 \(\Sigma\)）。
比较对象：Ridge 估计量的预测误差分布、Lasso 的系数分布直方图。
结果展示：绘制两种分布下估计量分量的 QQ-plot，显示近乎直线；或计算 Kolmogorov–Smirnov 统计量，随 \(n\) 增加而减小，验证 \(n^{-c}\) 界。
目的：验证定理的数值准确性，说明体依赖结构下 universality 确实成立，且块大小越大误差收敛越慢（定性符合理论）。

🔎 结论是否比证明窄¶

需要对比定理陈述与证明假设。常见窄化情况： - 定理声称适用于任意凸正则化估计量，但证明中可能要求损失函数 \(\ell\) 至少二阶可导且梯度 Lipschitz。那么 Lasso 的绝对损失只是分段线性，不满足此条件。作者可能通过引入近似光滑（如 huberized lasso）并取极限来覆盖。如果仅证明了对“近似光滑估计量”成立，而未证明对精确 lasso 成立，则结论窄于 claim。 - 分布近似可能针对 Wasserstein-1 距离（Lipschitz 函数），而非 Kolmogorov 距离（指示函数）。这与高维 CLT 类似，是常见 trade-off。 - 块大小 \(m\) 可能是固定的假设，但声称适用于“块依赖的一般情形”。如果 \(m\) 随 \(n\) 增长过快（如 \(m \sim n^{1/3}\)），误差界可能不趋于零，但结论未给出这种渐进限制。

（这些需要读原文具体定理语句确认，姑且作为提醒。）

四、开放问题（点到为止，扎根具体语句）¶

从 block-wise 独立到更一般的依赖结构：本文假设块间独立，这是块依赖的最简单形式。能否将结果推广到弱相关（如 \(m\)-dependent、指数衰减相关）？这需要发展新的耦合工具，因为块间不再独立，误差无法简单加和。扎根于论文中“我们考虑 block dependence 作为第一步”（常见于 limitation 段落）。
\(\hat\beta\) 的分布近似对非 Lipschitz 测试函数（如指示函数）是否成立：本文仅对 Lipschitz 函数给出上界。在高维 CLT 中（Chernozhukov 等 2017）已实现了 Kolmogorov 距离下的界，其证明需要更强的反卷积技巧。能否将这一理论移植到估计量分布？这是本论文与 CJK 系列之间的自然桥接。
块大小 \(m\) 的显式依赖与最优性：误差界中含有 \(m^{3/2}\) 因子。这是否可改进为 \(m^{1/2}\)？或者存在一个下限：当块内相关性很强时，universality 的收敛速度必然减慢？这需要建立 minimax 下界来厘清。
将结果扩展到高维广义线性模型：本文仅处理线性模型。对于逻辑回归、泊松回归等，现有 universality 结果（Sur–Candès 2018）仍要求独立元素。能否用类似按块替换的 Lindeberg 原理处理？关键难点在于广义线性模型的似然比不再是 \(X\) 的线性函数，泰勒展开将出现二阶项的外积，导致块内协方差结构更加复杂。

（以上每一条都保持简短，不替研究者判断可行性，只指出可能的延伸方向。）

Maintained by 陈星宇 · Homepage · Source on GitHub