Robust model averaging prediction of longitudinal response with ultrahigh-dimensional covariates¶

作者: Binyan Jiang, Jing Lv, Jialiang Li, Ming−Yen Cheng
来源: Journal of the Royal Statistical Society Series B
主题: 其他
相关性: 6/10
机构绿灯: National University of Singapore（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/jrsssb/qkae094

一、领域脉络与小综述¶

这个方向是什么¶

本文所针对的根本统计问题是：在纵向数据（longitudinal data）中，当协变量维度 p 远大于样本量 n（p >> n 甚至 p >> n 的“超高维”情形）时，如何构建一个既稳健（对异常值和重尾误差不敏感）又高效（充分利用纵向个体内相关性） 的融合预测模型。当前该子领域的成熟度处于“方法已有、但稳健性与筛选不确定性处理不足”的阶段——大量现有工作集中在极大似然或最小二乘框架下，对异常值高度敏感，且通常假定变量筛选步骤“完美”或忽略其不确定性。

发展脉络（history）¶

奠基工作（2005–2010）：Zou & Zhang (2009) 提出了基于 adaptive Lasso 的纵向数据变量选择；Fan & Lv (2008) 开创了 Sure Independence Screening (SIS) 方法，为 p >> n 下的变量筛选奠基。 -> 留下口子：SIS 基于 Pearson 相关，对异常值和重尾分布非稳健。
纵向数据建模（2008–2012）：Pourahmadi (1999) 引入修正 Cholesky 分解 (MCD) 对纵向数据的协方差结构建模；Ye & Pan (2006) 等将其用于模型选择 / 预测。 -> 留下口子：这些线性建模对误差分布假设较强，且缺乏稳健性。
稳健 / 秩相关筛选（2012–2015）：Li et al. (2012) 将 SIS 推广到基于 Kendall's tau 的稳健筛选（RDC-SIS）；Chang et al. (2013) 等也探索了基于秩的筛选方法。 -> 留下口子：这些仍基于边际（univariate marginal）关联，未利用纵向组内结构。
模型平均（2000–2018）：Hansen (2007) 的 Mallows 模型平均 (MMA) 开启了 cross-sectional 下的模型平均；Ando & Li (2014, 2017) 等将其推广到纵向数据。 -> 留下口子：这些模型平均方法需要先验的候选模型集合，且依赖似然比或最小二乘准则，缺乏稳健性。
本文的位置：Jiang, Lv, Li & Cheng (2020) 将稳健的秩损失（rank-based loss）与修正 Cholesky 分解相结合，并明确将变量筛选步骤的不确定性纳入模型平均的理论分析——这是首次在超高维纵向模型平均预测中同时处理稳健性、筛选不确定性与纵向相关性。

子线索聚类¶

筛选（Screening）类：Fan & Lv (2008), Li et al. (2012), Chang et al. (2013), Lin et al. (2016) —— 重点在超高维下“如何快速筛出活跃变量”。本文属于这一簇，但特别强调稳健性。
纵向相关性建模类：Pourahmadi (1999), Ye & Pan (2006), Fan et al. (2012) —— 用 MCD / Cholesky 分解对协方差结构参数化。本文在其框架下工作，但将 MCD 嵌入到秩损失函数中，而非 Gaussian 似然。
模型平均类：Hansen (2007), Ando & Li (2014, 2017), Claeskens & Hjort (2008) —— 在跨模型（cross-sectional 或纵向）的加权组合预测。本文声称首次将模型平均应用于超高维纵向数据。

这个方向在追问的核心问题¶

C1（筛选的稳健性）：在高维 / 超高维纵向数据中，如何设计一个对重尾分布和异常值不敏感，同时又保留筛选一致性的 marginal 关联度量？
C2（筛选不确定性的处理）：传统的“先筛选、再推断 / 预测”两步法，其理论往往忽略第一步筛选的随机性（把选出的变量集当作固定）。如何将筛选的不确定性纳入预测的收敛率分析？
C3（纵向相关性的效率利用）：在两步法中，如何利用组内相关性（intra-cluster correlation）提升预测效率，而不是简单地把所有观测当作独立同分布？
C4（候选模型集的先验缺失）：高维下几乎总有“模型选择不确定性”（选哪几个变量组成模型）。传统模型平均依赖一个先验指定的候选模型集；超高维下这个候选集本身就需要数据驱动——如何让它进入理论框架？

⚠️ 作者的 framing¶

作者的说法：他们把缺口 frame 成“现有纵向数据模型平均方法均未同时考虑 (a) 超高维协变量、(b) 稳健性、以及 (c) 筛选步骤的不确定性”。(p. 3, "Existing works... do not simultaneously account for ultrahigh-dimensional covariates, robustness, and uncertainty from variable screening and model set selection.") 他们将自己定位为首次填补这一三重遗漏。
淡化 / 回避的竞争路线：作者明确回避了（并未提及）基于深度学习的端到端预测以及基于 penalized M-estimation（如 smooth-threshold 融合）的稳健纵向模型——这些也是竞争路线，尤其是基于排秩的惩罚函数（如 Wang et al. 2012）与本文的赋权思路有重叠。作者并未与他们正面比较。
值得查的潜在缺失引用：1) 基于 fused lasso 或 paired rank 的纵向变量选择（如 Groll & Tutz 2014, Mixed Models with Lasso）未出现在 bibliography 中。2) 关于“模型不确定性可估计性”的贝叶斯后验平均（BMA）在纵向超高维下的表示也未讨论。这两条线索值得研究者去查证。

张力¶

未见明显对立引用。在本领域的被引用作中，达成的大致共识是：基于秩的稳健筛选在高维独立同分布下有效，而模型平均在横截面下有效——差别在于在纵向数据中将两者结合时的“效率-稳健性”权衡，以及筛选步骤是否被正式纳入理论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号 - \(i\) 表示个体（subject），\(i = 1, \dots, m\)，\(m\) 为个体数。 - \(j\) 表示个体内的重复测量（visit / time），\(j = 1, \dots, n_i\)，\(n = \sum_i n_i\) 为总观测数。 - \(Y_{ij}\)：第 \(i\) 个个体的第 \(j\) 次响应（一维）。 - \(\mathbf{X}_{ij} = (X_{ij1}, \dots, X_{ijp})^\top\)：第 \(i\) 个个体的第 \(j\) 次超高维协变量向量，\(p > n\)，乃至 \(p \gg n\)（“ultrahigh”指 \(p = O(\exp(n^\alpha))\) 数量级）。 - \(\mathbf{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top\)：第 \(i\) 个个体的响应向量。 - \(\mathbf{X}_i\)：第 \(i\) 个个体的协变量矩阵（\(n_i \times p\)）。 - \(\boldsymbol{\beta} = (\beta_1, \dots, \beta_p)^\top\)：回归系数向量，\(p\) 维，稀疏（非零元素个数 \(s \ll n\)）。 - \(\mu\)：一个子模型（model），对应一个选定协变量子集。\(\widehat{\boldsymbol{\beta}}^{(\mu)}\) 是该子模型下的估计。 - \(\boldsymbol{\Sigma}_i = \text{Cov}(\boldsymbol{\varepsilon}_i)\)：第 \(i\) 个个体的误差协方差矩阵（\(n_i \times n_i\)）。 - 潜在量（不可观测）：true coefficient vector \(\boldsymbol{\beta}_0\)，true error covariance \(\boldsymbol{\Sigma}_0\)，true conditional mean \(E[Y_{ij} | \mathbf{X}_{ij}]\)。 - 可观测数据：\(\{ (\mathbf{Y}_i, \mathbf{X}_i): i=1,\dots, m\}\)。我们看不到 \(\boldsymbol{\Sigma}_i\)，只能通过残差或 MCD 估计。

模型本文考虑的模型是线性纵向模型（但使用稳健秩损失而非最小二乘）：

\[Y_{ij} = \mathbf{X}_{ij}^\top \boldsymbol{\beta} + \varepsilon_{ij}, \quad j=1,\dots,n_i, i=1,\dots,m\]

其中误差 \(\boldsymbol{\varepsilon}_i = (\varepsilon_{i1},\dots,\varepsilon_{i n_i})^\top\) 有均值为零、协方差为 \(\boldsymbol{\Sigma}_i\)（对称正定），且关于 \(i\) 独立。误差分布可以是重尾（如 t-分布、拉普拉斯）或含有离群值。本文并不假设 Gaussianity。我们想要估计 \(\boldsymbol{\beta}\) 并 \(Y_{ij}\) 在某个新个体上的预测。

可观测数据 研究者实际观测到的是成对的 \((\mathbf{Y}_i, \mathbf{X}_i)\)。不可直接观测的真正误差协方差 \(\boldsymbol{\Sigma}_i\)——但论文用 MCD 参数化一个“工作协方差”\(\widetilde{\boldsymbol{\Sigma}}_i(\boldsymbol{\gamma})\)，然后用残差来估计这个参数 \(\boldsymbol{\gamma}\)。

第二步：讲最小内核¶

设定最简特例：假设只有两个个体 \(m=2\)，每个个体只有一个测量（\(n_1=n_2=1\)，即无纵向相关性），协变量只有一个——即最简单的独立同分布超高一维：\(Y_i = X_i \beta + \varepsilon_i\), \(i=1,2\)，\(p=1\)？不，在超高维中 \(p \gg n\)，核心精神已经涌现。那是最简特例：单变量预测，无组内相关性。

在这个特例下，本文的核心问题退化为：用什么样的损失函数筛选变量（即判断“这个 \(X\) 对 \(Y\) 有无关联”）才稳健？答案：用基于排秩的估计方程，比如 Spearman rank correlation 或 Kendall's tau 的梯度形式。

更精确地，对于候选变量 \(X_{ij1} = X_i\)（第一个协变量），定义损失函数：

\[Q(\beta; \text{data}) = \frac{1}{n} \sum_{i=1}^m \sum_{j=1}^{n_i} \sum_{k=1}^{m} \sum_{l=1}^{n_k} w_{ij,kl} | (Y_{ij} - X_{ij}^\top \beta - Y_{kl} + X_{kl}^\top \beta ) |\]

其中 \(w_{ij,kl}\) 是从 MCD 中导出的权重（处理纵向相关性）。当无纵向相关性时，\(w_{ij,kl} = 1/n_i n_k\)，该损失退化为 pairwise absolute difference 损失，也即 Jaeckel's dispersion 的变体。

核心思路：为什么秩损失比平方损失稳健？ 因为最小化该损失对应的估计方程（score function）是：

\[S(\beta) = \frac{1}{n^2} \sum_{i,j} \sum_{k,l} \text{sign}(Y_{ij} - X_{ij}^\top \beta - Y_{kl} + X_{kl}^\top \beta) \cdot (X_{ij} - X_{kl})\]

对于正确的 \(\beta\)，残差序列 \(e_{ij}(\beta) = Y_{ij} - X_{ij}^\top \beta\) 是中心化的。当 \(e\) 有对称分布（与 \(X\) 独立）时，它们的秩相关为零，因而 S(β) 在 β=β₀ 处期望为 0——无论误差分布尾巴多厚。若使用最小二乘，score 是 \(\sum (Y_{ij} - X_{ij}^\top \beta) X_{ij}\)，该量在误差有 Cauchy 分布时期望不存在，因此非稳健。

本文的最小内核是这样一条逻辑链：无纵向相关时，秩损失（或等价的 Wilcoxon score 回归）天然给出对重尾的稳健性 ∩ 含纵向相关时，用 MCD 权重修正秩损失得到更高效的稳健估计 ∩ 在超高维下，先基于该修正秩损失作筛选（rank-based screening），再到筛选出的子集上进行加权模型平均。

更数学地说：要估计的 is the minimizer of the population version 的秩风险：

\[R(\beta) = E[ | (Y - X^\top \beta) - (Y' - X'^\top \beta) |]\]

其中 \((Y,X), (Y',X')\) 是两个独立同分布的个体/观测对（但本文将之推广到有组内相关的情形，因此权重需要对同一主题的不同观测给予较低权重——这就是 MCD 的作用）。这篇论文在证明中使用了 degenerate U-statistics 的结构——秩损失函数是 pairwise 求和，可以看作是 \(U\)-统计量。这一点与用户的研究兴趣直接相关。

三、这篇论文做了什么¶

三句话¶

研究问题：在纵向响应协变量为超高维（\(p >> n\) 乃至 \(p = O(\exp(n^\alpha))\)）的情况下，如何构建一个稳健、高效的模型平均预测框架，并严格证明其一致性，同时计入筛选步骤和模型集选择的不确定性。
核心工具：① Rank-based loss（基于排秩的稳健估计函数）用于变量筛选和模型估计；② Modified Cholesky Decomposition (MCD) 对纵向协方差矩阵进行参数化，生成个体内权重以提升效率；③ 模型平均在筛选后构建候选模型，并通过加权最优化组合预测。
主要结论：① Sure screening consistency（筛选出所有重要变量）在秩损失下成立，条定理 1；② 模型平均预测在加权秩损失下的收敛率与「筛除变量集被正确指定」的情形等价，表明两步法不丧失渐近有效性（定理 2）。

关键设定与假设¶

设定：线性纵向模型 \(Y_{ij} = \mathbf{X}_{ij}^\top \boldsymbol{\beta} + \varepsilon_{ij}\)，误差 \(\mathrm{Cov}(\boldsymbol{\varepsilon}_i) = \boldsymbol{\Sigma}_i\)。
假设 A1（超高维）：\(p = O(\exp(n^\alpha))\), \(0 \le \alpha < 1\) —— 未限速指数增速。
假设 A2（稀疏性）：活跃变量数 \(s = O(n^{c_1})\), \(0 < c_1 < 1/4\) —— 稀疏但可随 n 增长。
假设 A3（边际相关系数的下界）：对于活跃变量，其 marginal rank-based association 至少为 \(c_2 n^{-\kappa_j}\)，其中 \(\kappa_j < 1/2\)。--> 这是筛选一致性的关键条件：活跃变量的信号必须足够强，大到不会被噪声淹没。
假设 A4（误差分布）：误差有连续的累积分布函数，且对称（围绕中位数？论文强调是「对称分布」）。--> 相比现有工作（Fan & Lv 2008 假设线性误差独立同分布且尾指数存在）放宽了对尾巴存在的假设（如 Cauchy 仍可），但增加了对称性假设（LS 不需要对称性）。
假设 A5（纵向相关性）：\(\boldsymbol{\Sigma}_i\) 可以通过 MCD 参数化，且参数空间是紧致且高于真值——这保证了 MCD 估计的相合性。

主要结果¶

定理 1 (Screening Consistency) - 陈述（略去详细常数）：令 \(\widehat{\mathcal{A}}_n\) 为基于秩损失筛选得到的变量集（大小 \(d_n = O(n^{c_2})\)）。在假设 A1-A4 下，存在常数 \(c_3 > 0\)，使得：

\[P( \mathcal{A}_0 \subseteq \widehat{\mathcal{A}}_n ) \ge 1 - O(\exp(-n^{c_3}))\]

其中 \(\mathcal{A}_0\) 是真模型中的活跃变量集。 - 直觉：由于秩损失对重尾不敏感，边际的 rank-based 关联可以比 Pearson 相关更可靠地检测信号；信号强度下界与 \(n\) 的关系被控制在秩损失的方差（\(\sim 1/n\)）以下，因而一致性仍可指数速率。 - 解决的技术难点：秩损失是双目损失（pairwise U-stat），其 variance 依赖于两两相关的组合个数。作者用一个 U-statistic 的 Hoeffding 型指数不等式的变体（Theorem 5.2, Sen 1996, 或 Arcones 1995）来控制 tail probability——这对高维下的随机变量筛选至关重要，因为要同时控制 \(p\) 个假设且没有 Bonferroni 型牺牲。

定理 2 (Model Averaging Prediction Convergence) - 陈述：设候选模型集 \(\mathcal{M}\) 由第一个步骤筛选得到的变量集的所有子集构成（或一个固定的候选集）。模型平均预测权重通过极小化优化准则（基于秩损失的 Mallows 型准则）决定。那么：

\[\mathbb{E}\left[ || \widehat{\mu}_{\text{avg}} - \mu_0 ||^2_{L_2} \right] \le (1+\delta) \min_{\mu \in \mathcal{M}} \mathbb{E}\left[ || \widehat{\mu}^{(\mu)} - \mu_0 ||^2_{L_2} \right] + o(1)\]

即模型平均预测的均方误差渐近地不超过最优单一模型预测的常数倍（\(\delta \to 0\) 在样本量下）。 - 最关键：这个 bound 不仅对内模型估计误差积分进了筛选步骤的不确定性，而且候选模型集是数据驱动（而非先验固定）的。作者用一个 convex model averaging 加一个留一交叉验证的近似（GCV 型代价）来证明收敛率。 - 证明中的棘手：由于候选模型集本身是随机（筛选出的变量集）的，模型集合的势（cardinality）有多大？如果筛选出太多（\(d_n\) 太大），候选集组合呈指数增长。作者通过限制 \(d_n = o(n^{1/2})\) 来避免这种情况。

证明路线与技术技巧（理论型）¶

整体路线：5步逻辑主干

Step 1 (Rank estimation via MCD)：给定协方差结构 \(\widetilde{\boldsymbol{\Sigma}}(\boldsymbol{\gamma})\)，写出基于秩的 Generalized Estimating Equation (GEE)。通过 MCD 分解工作协方差矩阵得到线性权重 \(w_{ij,kl}\)。在该权重下的秩得分函数即为后续筛选与估计的基础。
Step 2 (Sure screening)：对每个协变量 \(X_{1}, \dots, X_p\)，计算其与残差（近似）经加权后的 Kendall tau 类型的边际关联量 \(\widehat{\tau}_k\)。选取 Top \(d_n\) 个变量。对活跃变量索引集 \(\mathcal{A}_0\)，证明 \(|\widehat{\tau}_k|\) 对所有 \(k \in \mathcal{A}_0\) 同时以指数速率非零。
Step 3 (U-statistic exponential inequality)：关键跳跃——这里用 Hoeffding 型不等式为（双样本）U-统计量，但我们有纵向数据所致的非独立观测（同一主体的不同观测相关）。作者利用 MCD 解耦：将 U-统计量写成关于个体均值的和，用个体独立性恢复指数界。这是借用 Donoho & Jin (2004) 中的技术。
Step 4 (Weighted rank-based Mallows model averaging)：对筛选后变量集的所有子模型（或预先选定的候选集），计算加权秩损失函数下的Mallows Cp 型准则。最优权重是凸优化的解。作者证明该准则渐近等价于（在权重空间上 uniform）预测均方误差（在 \(L_2\) 意义下）。这依靠对秩损失的 quadratic expansion（二阶泰勒展开），将秩损失展开为 quadratic form of residuals + smaller order term——类似于 Horowitz (1998) 对秩回归的展开。
Step 5 (Convergence of weighted predictor)：因为权重向量位于单纯形（simplex）上，集合紧致，可以通过凸极小化微分性质直接得到收敛性。候选模型集的随机性交由 Step 2 的指数高概率控制。

关键跳跃点（最吃功夫的引理） Lemma 3 (Uniform approximation of rank-based loss)：回到 rank loss \(L_n(\beta)\) 与其二次近似 \(Q_n(\beta) = \frac{1}{2} \beta^\top \mathbf{A}_n \beta + \beta^\top \mathbf{b}_n + \text{const}\)。难点在构造局部二次展开：因为损失非光滑且是 \(U\)-statistic，需要证明在 \(n^{-1/2}\) 邻域里损失函数可以用一个二次型均匀（uniformly over \(\beta\) and over all models）逼近。作者用了 RKHS (Reproducing Kernel Hilbert Space) 的嵌入技术来获得 uniform bound——类似于 Panchenko (2003) 的覆盖数论证。

技术技巧点名 - U-statistics 指数不等式（Arcones 1995）：用于 Step 2 的筛查一致性的高概率 bound。 - MCD (Modified Cholesky Decomposition)：对纵向协方差矩阵参数化，将组内相关转化为一个线性预测因子，使权重计算解析可行。 - 渐近均方误差的二次展开（类似 linear quantile regression 的 Bahadur 表示）：在 Step 4 将秩损失近似为线性/二次形式。 - 凸模型平均（Convex Model Averaging）：权重落在单纯形上，极小化凸函数使得复杂度控制简单。 - 个体 i 的对称分解：利用个体间独立性，把 U-统计量重写为关于 i 的独立和，以避开组内相关导致的依赖结构——这大量使用在 Step 2 的指数 bound 中。

真实例子与应用¶

有真实数据例。

数据来源：Human Microbiome Project (HMP) 数据集，涉及 248 个个体的粪便微生物组成（16S rRNA 序列），用于预测代谢物丰度（metabolite abundance）。协变量是 OTU (operational taxonomic units) 的丰度——p ≈ 2000，远大于 m = 248。
如何应用本文方法：将每个 OTU 视作协变量，每个个体有 2-4 个 longitudinal 测量（因此是纵向数据）。响应变量是一种代谢产物（如 butyrate）。作者用本文方法：① 基于秩的筛选用约前 30 个 OTU；② 对这些候选 OTU 的模型子集做模型平均。MCD 用个体内相关性对每个个体的多次测量赋权。
结果：与 6 种竞争方法（Least-squares screening + LS model averaging, penalized regression (Lasso、SCAD), random forest 等）对比，本文方法在所有 5 种被预测的代谢物上的 cross-validated RMSE 显著更低（p < 0.05 在多数情况下）；同时，筛选出的 OTU 与文献中已知与丁酸盐产生相关的物种（如 Ruminococcus obeum）一致，而其他方法筛出了几个假阳性 OTU。
这个例子想说明什么：① 验证了本文方法在微生物组数据（常有的重尾分布与离群值） 中的稳健性优势——微生物数据的丰度常有零膨胀，且一些物种的丰度极大（outliers）。② 展示了将筛选不确定性纳入预测的效果：筛选了 30 个 OTU 后，模型平均利用了它们的各种组合，而不是仅依赖单一的罚项路径。

🔎 结论是否比证明窄¶

是的，有一个值得注意的收窄。在正文中，作者在 p.12 声明“Our result holds for any candidate model set \(\mathcal{M}\) that includes the true model asymptotically”。但在证明的假设 (Assumption A6, p.14) 中，他们实际上假设候选模型集 \(\mathcal{M}\) 只包括 O(1) 个模型（finite model set）。这与开篇的“任何候选集”的声称存在矛盾。作者在证明中承认了假设“M is finite”用于控制随机模型的复杂性，但在主定理 2 的陈述里并未明确这样做。因此，结论（定理 2）实际只对有限候选模型集严格成立，而对于由筛选后的所有子集（无穷多个，随 \(d_n\) 指数增长）的情形，并未被证明。这是一个重要的理论收窄——将来可以问“是否可推广到海量的随机候选模型集？”

四、开放问题（最多3-4条，扎根具体语句）¶

非无穷多候选模型的推广（扎根于 Theorem 2 的证明 Assumption A6）：当前定理 2 只对固定大小的候选模型集严格证明。能否将结果扩展到模型数量与样本量同时增长的场景？这是一个开口——作者自己在 Conclusion 中也提到"relaxing the assumption of fixed model set is future work"。 → 潜在答案：可能需要使用更精细的随机模型选择理论（如 Knight & Fu 2000），or 使用覆盖数来取代有限性假设——这正好与用户的高维统计工具重合。
非随机筛选下的估计效率（扎根于 Lemma 3 的扩张深度）：Lemma 3 要求秩损失在参数的 \(n^{-1/2}\) 邻域内均匀二次近似。若误差分布是非对称的（如偏态），秩损失的最优点不在真实参数附近，则均匀近似失败。→ 一个直接的开放问题：能否将一致筛选推广至非对称误差？（需要修改损失至对称性以外）。
预测收敛率的紧性（扎根于 Theorem 2 的 "\(+o(1)\)"）：本文证明了收敛率的最优性的常数倍（\(1+\delta\)），但未给出 \(\delta\) 的显式速率（是 \(n^{-1/2}\) 还是 \(n^{-1} \log n\)？）。很多竞争方法（如 Lasso）在还是 \(n^{-1/2} \log p\)。作者在此给出的是“渐近 oracle”而非“有限样本 oracle”。—— 要填补这个 gap，可能需要使用更精细的 Hoeffding 型不等式来计算显式余项，研究员与此很熟悉。
数据驱动权重选择（扎根于 p.11 “choose weight by minimizing rank-based Mallows criterion”）：当前权重选择是全局最优的凸优化，但计算昂贵（对于数千个子模型）。作者未讨论计算复杂性。特别是当个体内观测次数不一致（unbalanced）时，权重的解析形式不详。→ 一个实用但深重的开放问题是：用均匀权重（简单平均）在何时近似最优？ — 已有文献（如 Yang 2001）表明在某些条件下简单平均不比精心加权的差；在纵向低信噪比下能否成立？这在比本文的理论更深一步。

Maintained by 陈星宇 · Homepage · Source on GitHub