Entrywise splitting cross-validation in generalized factor models: from sample splitting to entrywise splitting¶

作者: Zhijing Wang
来源: Biometrics
主题: 高维统计 / 随机矩阵
相关性: 6/10
机构绿灯: Shanghai Jiao Tong University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf153

一、领域脉络与小综述¶

1.1 这个方向是什么¶

广义因子模型（Generalized Factor Models, GFM）旨在从高维混合类型（连续、二元、计数等）观测数据中提取低维潜在因子，实现降维。其核心统计问题是：如何从观察数据中正确估计潜在因子个数 \( K \)。这个问题是 GFM 建模的“模型选择”环节，其准确性直接影响后续估计与推断的质量。当前，该问题的研究仍被视为开放挑战（“remains an open challenge in the field”），尤其是在高维设定（样本量 \( n \) 与特征数 \( p \) 均趋于无穷）下。

1.2 发展脉络¶

奠基工作：经典因子分析与因子数准则
- 信息准则方法（AIC / BIC 等）：在似然框架下，通过对数似然加惩罚项选择因子数。在高维 GFM 中，直接应用这类准则往往表现不佳，因为似然函数形式复杂且高维。
- 特征值比率（Eigenvalue Ratio）方法：如文献中常见的“特征值比值法”，基于观测数据协方差矩阵的特征值变化。对于连续数据有效，但难以直接推广到非连续（如二值、计数）数据，因为这类数据不服从正态分布，特征值结构被扭曲。
主要进展：样本拆分交叉验证（Sample Splitting CV）与广义因子模型
- 样本拆分 CV：将数据矩阵的行（样本）随机分成训练集与验证集。在 GFM 设定下，有学者尝试用此方法选择因子数。作者指出，这类方法存在一个已知的严重缺陷：“容易造成对因子数的低估（underestimation）”。理由是：在每个拆分中，训练集（部分样本）的因子结构（如因子得分）无法直接用于预测验证集样本，通常需要假设因子载荷在训练/验证集间不变，但这反过来限制了模型的灵活性，导致模型无法捕获全部因子信息，从而易选择过于简单的模型（低因子数）。
- 条目拆分（Entrywise Splitting）思想的前期探索：作者提到，有一篇 2021 年的工作（引用 12：Chen & Lam, 2021）尝试了“含有随机缺失项（missing entries）的矩阵补全”类方法，其思路与 entrywise splitting 有概念上的关联，但仅针对连续数据，且目标并非因子数选择，而是矩阵补全。
当前 Frontier：高维下的选择一致性及对混合数据类型的适配
- 当前，信息准则在高维 GFM 中的一致性需要很强的条件（如对数似然形式的正确指定、误差项的高斯性等）。
- 样本拆分 CV 存在结构性低估。
- 如何为 GFM 设计一个能在高维下保持一致性、且适用于混合数据类型的因子数选择方法是核心 gap。
本文的位置
- 本文在已有 entrywise splitting 思想（用于矩阵补全）的基础上，将其系统化地应用于广义因子模型的因子数选择问题。
- 本文的核心创新是：提出 “Entrywise Splitting Cross-Validation (ES-CV)”，即按矩阵中的元素（entries）而不是按样本（rows）进行拆分，从而避免样本拆分带来的因子结构破坏。
- 进一步，为解决 ES-CV 在有限样本下仍可能存在的低估倾向，本文引入惩罚项并结合信息准则思想，提出 “Penalized ES-CV (PES-CV)”，并在高维渐近下证明了其选择一致性。
- 本文还扩展到了随机缺失数据场景。

1.3 子线索聚类¶

论文所引用的工作大致可归为三个子线索：

因子数选择的方法论：
- 形式：包括信息准则、特征值比率、样本拆分 CV 等。核心目标是提供一致或渐近一致的估计量。
- 局限性：“在高维 GFM 下，信息准则的依赖“正确”似然形式过于严格；特征值法仅适用于连续或正态数据；样本拆分 CV 容易被低估。”
- 本文的方法：属于一种新的 验证性（validation-based） 方法，但通过 entrywise splitting 规避了样本拆分 CV 的缺陷，并加入了惩罚项来增强一致性。
广义因子模型的估计与推断：
- 形式：包括基于拟似然（quasi-likelihood）、广义矩估计（GMM）、变分贝叶斯等方法。它们关注的是在给定 \( K \) 后如何估计因子和载荷。
- 与本文的衔接：这些方法为本文的 CV 框架提供了预测函数 \( \hat{y}_{ij}(k) \)——即给定因子数 \( k \)，用训练数据拟合出来的模型对某个缺失元素的预测值。本文不涉及新的估计方法，而是“站在这些已有估计器之上”设计选择准则。
矩阵补全与随机缺失：
- 形式：如引用 12（Chen & Lam, 2021），处理带有缺失项的连续矩阵，目标是恢复整个矩阵。
- 与本文的衔接：本文将这部分思想更直接地嵌入到 GFM 的模型选择中：把 ES-CV 的验证集视为“人为制造的缺失”，用训练集预测这些缺失点，评估预测误差。

1.4 这个方向在追问的核心问题¶

一致性：能否找到一个在高维（\( n, p \to \infty \)）下，正确选择真实因子数 \( K_0 \) 的概率趋近于 1 的准则？
鲁棒性：该准则能否适用于指数族分布的混合数据类型（连续、二元、计数），而不依赖于特定的数据分布假设？
计算可行性：是否不需要求解复杂的似然函数，计算方法可负担？
样本量需求：为达到一致性，需要的 (n, p) 或总样本量 N= np 的增长速率条件是什么？

1.5 ⚠️ 作者的 framing¶

作者 frame 的缺口：作者明确表述了“样本拆分 CV 易低估因子数”这一已知瓶颈（“Traditional sample splitting may cause underestimation”）。然后，他们论证了 entrywise splitting 的策略能解决此问题，并将此策略与惩罚项结合得到 PES-CV，实现高维一致性。
被淡化/回避的竞争路线：作者没有深入讨论为何不用经典的特征值比值法直接应用于 GFM——一个可能的答案是：特征值法需要数据的协方差结构强相关，对于二值/计数数据，其协方差结构难以解释。但作者并未对比自己方法与特征值方法的性能。
明显该被引/该存在、却没出现的内容：
- 没有引用任何关于元素级噪音的异方差性对 GFM 估计器本身一致性的影响，这可能是后续性能好坏的潜在因素。
- 没有提及与贝叶斯方法（如变分贝叶斯自动确定因子数）的对比。
- 没有提及“集成方法”（如多个候选模型平均），而是选择了模型中“单数”选择。

1.6 张力¶

未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

2.1 第一步：交代符号、模型与可观测数据¶

符号汇总（本文核心记号）：

\( (n,p) \)：样本维度。\( n \) 是样本数，\( p \) 是特征数（变量数）。
\( Y \)：一个 \( n \times p \) 维的可观测数据矩阵。其元素为 \( y_{ij} \)，表示第 \( i \) 个样本的第 \( j \) 个特征的值。
\( K_0 \): 真实但未知的因子数（\( 1 \le K_0 \ll \min(n,p) \)）。这是我们要选择的目标参数。
\( k \): 候选因子数，我们尝试评估是否有 \( k = K_0 \)。
\( C \)：\( n \times K_0 \) 的潜因子得分矩阵（不可观测），行代表样本，列代表不同因子。
\( B \)：\( p \times K_0 \) 的载荷矩阵（不可观测），行代表特征，列代表不同因子。
\( g(\cdot) \)：连接函数（link function），是给定的，服从指数族分布。它是广义因子模型的核心：\( E[y_{ij} \mid C_i, B_j] = g(C_i^\top B_j) \)，其中 \( C_i \) 是 \( C \) 的第 \( i \) 行，\( B_j \) 是 \( B \) 的第 \( j \) 行。
\( \hat{y}_{ij}(k) \): 预测值。在假设因子数为 \( k \)，并用训练集估计出的模型参数 \( (\hat{C}, \hat{B}) \) 后，对元素 \( y_{ij} \) 的预测值。
\( M \)：ES-CV 中的拆分份数（如 5 折，则 \( M=5 \)）。
\( \Omega_m \): 第 \( m \) 次拆分的验证集。传统样本拆分是选行；这里在 entrywise splitting 下，它是随机挑选出的约 \( 1/M \) 的全部元素的集合（包括不同行不同列的值）。
\( \text{CV}(k) \)：在候选因子数 \( k \) 下的交叉验证误差。是衡量在不同验证集上预测误差的均值。
\( \text{Pe}(\hat{\Theta}_{p,n}) \)：惩罚项，取决于参数个数 \( \hat{\Theta}_{p,n} \)，经常与 \( np \) 或 \( \log(np) \) 成比例。

模型： - 数据生成机制（广义因子模型）：

\[\mathbb{E}[y_{ij} \mid C_i, B_j] = g(C_i^\top B_j)\]

其中 \( g(\cdot) \) 是给定的连接函数（例如，对于连续数据，\( g \) 是恒等函数：\( y_{ij} = C_i^\top B_j + \epsilon_{ij} \)；对于二元数据，\( g(x) = \frac{e^x}{1+e^x} \)；对于计数数据，\( g(x) = e^x \)）。 - 假设：观测 \( y_{ij} \) 在给定潜变量 \( C_i^\top B_j \) 后，条件独立于其他观测，并来自一个已知的指数族分布。 - 待估参数：我们不知道 \( C, B \) 以及因子数 \( K_0 \)。我们想找出 \( K_0 \)。 - 在给定 \( k \) 下，我们估计体 \( \hat{C} (n \times k) \) 和 \( \hat{B} (p \times k) \)。

可观测数据： - 研究者实际观测到的：\( Y \) 矩阵。一个 \( n \times p \) 的实数矩阵（对连续型）或整数矩阵（对计数型）或 \(\{0,1\}\) 矩阵（对二元型）。 - 潜在/不可观测的：\( C \) (因子得分)，\( B \) (载荷)，\( K_0 \) (真实因子数)，以及条件分布的形式。 - 想要但观测不到的：\( K_0 \)。这是我们要通过选择准则从数据中推断的。

2.2 第二步：最小内核——二值数据情形，\( K_0 = 1 \) 的 ES-CV¶

为了清晰展示核心思路，我们考虑一个极端简化的特例：

最简特例：
- 数据是有 \( p \) 个二元变量（0/1）的 \( n \) 个样本，服从 logistic GFM：
  \[\Pr(y_{ij} = 1 \mid C_i, b_j) = \frac{1}{1 + e^{-c_i b_j}}\]
  其中 \( c_i \) 是第 \( i \) 个样本的因子得分（一维标量，因为 \( K_0 = 1 \)），\( b_j \) 是第 \( j \) 个特征的载荷（也是一维标量）。我们想选 \( k \) 是否等于 \( K_0 = 1 \)。
传统样本拆分的困境：如果我们将 \( n \) 个样本中的一半（比如 \( n_1 \) 行）作为训练集，另一半（\( n_2 \) 行）作为验证集。在训练集上，我们估计出 \( \hat{c}_1, \ldots, \hat{c}_{n_1} \) 和 \( \hat{b}_1, \ldots, \hat{b}_p \)。然后，对于验证集的数据（样本 \( n_1+1 \) 到 \( n \)），模型需要预测它们的 \( \hat{p}_{ij} = 1/(1+e^{-c_i b_j}) \)。然而，我们不知道验证集样本的因子得分 \( c_i \)。传统的做法是假设验证集的因子结构在某种意义下与训练集相同（例如，假设训练集里的 \( \hat{C} \) 可以延用到验证集），这在矩阵分解的视角内并不自然。你被迫用训练集来“解释”验证集的结构，结果往往是：验证集里无法被训练集捕获的新因子的信号被“压扁”，导致模型选择偏好更简单的结构（即低估 \( K_0 \)）。
Entrywise Splitting 的神奇之处：在 ES-CV 中，我们不是按行（样本）拆分，而是按矩阵中的元素（entry） 拆分。假设我们把整个 \( n \times p \) 的矩阵 \( Y \) 随机打乱成 \( M=2 \) 份：
- 训练集：一个 \( n \times p \) 的稀疏矩阵，大约有 \( np/2 \) 个元素被抹掉（设为缺失，用 \( \text{NA} \) 表示）。实际上，它有两个部分：一个 \( n \times p \) 的“训练数据”矩阵，其中 \( np/2 \) 个位置有真实值，另外一半位置的值为空。
- 验证集：与训练集不相交的另 \( np/2 \) 个元素的真实值 \( y_{ij}^{\text{(val)}} \)。 关键的突破是：给定一个候选因子数 \( k \) 和训练数据（元素部分已知的矩阵），我们可以估计出 \( \hat{C} (n \times k) \) 和 \( \hat{B} (p \times k) \)，并因此能预测所有 \( np \) 个元素的值（包括验证集中的元素），即得到对所有 \( (i,j) \) 的预测 \( \hat{y}_{ij}(k) \)。因为我们永远不需要在新样本（新行）上做预测。我们一直在同一个固定的行集合 \( i=1,...,n \) 和列集合 \( j=1,...,p \) 上操作。对于测试点：它是某个 \( i_0 \) 和 \( j_0 \) 的组合，而不是一个全新的 \( i \) 或 \( j \)。因此，我们永远不需要“外推”新的因子得分——每个样本 \( i \) 和每个特征 \( j \) 的因子得分/载荷都是在训练阶段就计算好的！预测验证集元素只是查询这些已有的得分和载荷。
所以，在 ES-CV 下，验证集的预测函数 \( \hat{C}_i^\top \hat{B}_j \) 是定义良好的。它不存在样本拆分中“不知道新样本因子得分”的问题。
核心思路的一步：
- CV 误差：对于给定的 \( k \)，重复随机 splitting \( S \) 次（例如 \( S=5 \) 次 2-折 CV），计算：
  \[\text{CV}(k) = \frac{1}{S} \sum_{s=1}^{S} \left[ \frac{1}{| \Omega_{s}^{\text{val}}|} \sum_{(i,j) \in \Omega_{s}^{\text{val}}} \ell(y_{ij}, \hat{y}_{ij}^{(s)}(k)) \right]\]
  其中 \( \ell(\cdot) \) 是损失函数（如二值交叉熵）。
- Penalty：作者注意到，即使 ES-CV 不低估，但由随机过程引入的噪声可能导致 \( \text{CV}(k) \) 在某些 \( k > K_0 \) 时比真实 \( K_0 \) 更低，导致高估。所以，他们在 \( \text{CV}(k) \) 基础上加了一个惩罚项 \( \text{Pen}(k) \)，该惩罚项随着参数数量 \( k(np) \) 的增长而增大：
  \[\text{PES-CV}(k) = \text{CV}(k) + \text{Pen}(k)\]
- 最终选择：选择使 \( \text{PES-CV}(k) \) 最小的 \( \hat{k} \)。在正确的 rate 和条件（高维渐近）下，\( \hat{k} \to K_0 \) 依概率。
总结一句话核心思路：通过将验证集定义为矩阵的元素而不是新样本/新变量，从根源上化解了因子模型预测验证集时缺乏因子得分（或载荷）的困境，然后引入惩罚项来对抗有限样本噪声可能带来的高估。

三、这篇论文做了什么¶

3.1 三句话¶

研究了什么问题：在高维广义因子模型下，如何一致且鲁棒地选择正确的因子数 \( K \)，克服传统样本拆分交叉验证倾向低估的缺陷，并适用于混合数据类型（连续、二值、计数）。
核心工具/方法：提出“条目拆分交叉验证（ES-CV）”，将矩阵元素（而非样本）随机分配到训练/验证集；并融合惩罚性信息准则思想提出“惩罚化条目拆分交叉验证（PES-CV）”。
主要结论：在 \( n, p \to \infty \) 且 \( \log(p)/n^{1/2} \to 0 \) 等温和条件下，PES-CV 方法能够相合地（consistently） 选择真实的因子数；在模拟和单细胞 RNA-seq 真实数据上表现出优于 AIC、BIC 及传统样本拆分 CV 的性能。

3.2 关键设定与假设¶

完整设定： - 广义因子模型：

\[\mathbb{E}[y_{ij} \mid C_i, B_j] = g(C_i^\top B_j)\]

假设 \( y_{ij} \) 服从一个已知的指数族分布（如 Gaussian, Bernoulli, Poisson）。 - 高维渐近框架：\( n, p \to \infty \)，且 \( \frac{\log p}{n} \to 0 \)。这是一个非常温和的条件，比许多高维主成分分析中的 \( p \ll n \) 或 \( n \ll p \) 要宽松，允许 \( p \) 远大于 \( n \) 但控制 \( \log(p)/n \) 的增长速度。 - 随机缺失（MAR）机制：为了扩展应用，假设数据中的缺失是 Missing Completely At Random（MCAR）或 Missing At Random（MAR）。

关键假设（作者称为“条件 C”）：（为了简洁，只列出最关键的几条，原文用大小不等的假设集合描述） 1. 指数族分布正确指定：真实的条件分布 \( f(y|C_i,B_j) \) 属于给定的指数族。 2. 连接函数正则：连接函数 \( g(\cdot) \) 光滑且二阶可导。 3. 因子/载荷的缩放与稀疏性：\( C \) 和 \( B \) 的谱范数以某些速度有界，但对 GFM 的典型假设（如 \( \|C\|_{op}, \|B\|_{op} \leq \text{常数} \)，或类似 RMT 中的谱条件）。 4. 独立性假定：给定潜变量 \( C_i, B_j \)，所有 \( y_{ij} \) 是条件独立的。 5. 分裂独立性：entrywise splitting 的随机划分过程与数据独立。

与已有文献的对比： - 放宽：传统基于信息准则的 GFM 因子数选择往往需要更强的条件（如似然函数必须正确指定，并且在非常大维数下其特征值结构保持一致）；本文的 ES-CV 对似然形式不那么敏感。另外，相比传统 CV 对结构破坏的隐式假设，这里的假设更直接。 - 强化：传统特征值方法可以在完全没有分布假设下工作（只需要矩），而本文需要指数族假设来定义连接函数。这是一个弱化点也提示了它的适用边界：不能用于任意分布下的降维问题。

3.3 主要结果¶

定理 1（ES-CV 一致性）（非正式陈述）：在条件 C 下，由 ES-CV 选择的因子数 \( \hat{k}_{\text{ES}} \) 满足：

\[\mathbb{P}(\hat{k}_{\text{ES}} = K_0) \to 1, \quad \text{当} \ n, p \to \infty。\]

- 直觉：ES-CV 通过元素级的拆分，避开了传统样本拆分对数据结构的过度简化。训练集的预测能力（在验证集上衡量）倾向于选择真实因子数，因为只有真实因子数可以最小化预测误差。在 \( n,p \) 大时，这一点变得确定。 - 必要条件：\( \frac{\log p}{n} \to 0 \)。这是一个很温和的条件，使得高维渐近能被“对数”速度校正。

定理 2（PES-CV 一致性）：为由 PES-CV 选择的因子数 \( \hat{k}_{\text{PES}} \)，在类似条件下，同样满足

\[\mathbb{P}(\hat{k}_{\text{PES}} = K_0) \to 1。\]

- 定理 2 的额外贡献：PES-CV 加入的惩罚项是为了克服有限样本下噪声导致的高估。作者证明，当惩罚项阶数为 \( O(\log(np)/\sqrt{np}) \) 或类似量级时，可以做到不牺牲一致性。 - 技术难点：证明这两个定理的核心困难在于，ES-CV 的训练集是一个非光滑、缺失数据的矩阵。对缺失数据矩阵进行因子分解（因子/载荷估计）的误差，以及如何量化这些误差对预测精度的影响，是证明的技术核心。

定理 3（缺失数据扩展）：在随机缺失（MCAR）机制下，ES-CV 和 PES-CV 的一致性仍然成立，只要缺失概率 \( \delta \) 被合理控制（\( \delta \) 不超过某个阈值）。

模拟与真实数据结果： - 模拟：针对连续、二值、计数三种数据类型，设置 \( n=200, p=100, K_0=3 \) 等参数，对比了 ES-CV, PES-CV, BIC, 样本拆分的 10-折 CV，以及特征值比值法。 - 核心结论：ES-CV 和 PES-CV 在所有设定下均表现出更低的错误选择率。样本拆分 CV 的确出现了明显的低估倾向（选择 \( k < K_0 \)）。特征值比值法在连续数据下不错，但在二值和计数数据下完全失效（错误率极高）。 - 真实数据（小鼠脑单细胞 RNA-seq 数据）： - 数据场景：高维稀疏计数矩阵（细胞 × 基因），共 726 个细胞和 7044 个基因。 - 用本文方法：应用 ES-CV 和 PES-CV 选择因子数。最终选择的 \( k \) 值（例如 16）与生物学上已知的细胞类型数相符，并且用于后续的聚类分析时，能更好地区分细胞亚群。 - 想说明什么：展示方法在真实高维稀疏混合类型数据中的实用性，并能复现已知的生物学信号。

3.4 证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

第一步：定义估计量并控制 SF 误差。将 ES-CV 的 train 集视为缺失部分（\( 1/M \) 比例）的元素。对于给定 \( k \)，假设存在一个估计器 \( \hat{y}_{ij}(k) \)。证明的关键是界定量化预测误差 \( \frac{1}{np} \sum_{i,j} (\hat{y}_{ij}(k) - g(C_i^\top B_j))^2 \) 的上界。作者借用 GFM 中已知的估计器一致性（如拟似然、矩阵补全方法），引用了一个关于“缺失数据下 GFM 预测误差”的已有结论（引理 1）。
第二步：分解预测误差为偏差+方差。预测误差可以分解为两部分：
- 偏差：来自所选的 \( k \) 不完全对应真实 \( K_0 \) 的模型偏差（当 \( k < K_0 \) 时，有下偏；当 \( k > K_0 \) 时，无偏差，但过拟合引入）。
- 方差：来自有限样本随机性和缺失模式引入的噪声。 ES-CV 的核心是，当 \( k = K_0 \) 时，偏差接近于 0；\( k \neq K_0 \) 时有系统性的偏差（\( k < K_0 \) 时有欠拟合偏差，\( k > K_0 \) 时有过度拟合的方差），从而导致 \( \text{CV}(K_0) \) 最小化。
第三步：证明选择一致性。
- 定义集合 \( A = \{ k: \text{CV}(k) - \text{CV}(K_0) > 0 \ \text{当} \ n,p \ \text{大时} \} \)。
- 证明当 \( k < K_0 \) 时，\( \text{CV}(k) - \text{CV}(K_0) \) 以正概率趋近于一个正下界（因欠拟合的结构偏差占主导）。
- 证明当 \( k > K_0 \) 时，\( \text{CV}(k) - \text{CV}(K_0) \) 也趋近于一个正下界（因过拟合的噪声方差占主导）。
- 对 ES-CV，主要考虑 \( k > K_0 \) 的高估问题：高估导致的额外方差可能不会化为一个下界（方差趋于零在温和条件下成立），但当样本有限时，PES-CV 中的惩罚项通过增加一个与规模成比例的项解决了这一模糊域，这个项在正确速率（如 \( \log(np)/np \)）下与阶数匹配，并在大样本下驱动一致性。

关键跳跃点： - 量化为每个 \( k \) 的 CV 误差的极值行为：需要证明 CV(\( k \)) 作为一个关于 \( k \) 的随机函数，其极小点渐近唯一。这需要对 \( k > K_0 \) 时的预测方差做精细的指数型尾概率控制（用 empirical process 的工具），并在 \( k < K_0 \) 时证明预测残差有一个正下界。 - 惩罚项校正有限样本：在 \( k > K_0 \) 时，CV(\( K_0 \)) 与 CV(\( k \)) 的差可能很小（甚至为 0），因此要证明惩罚项 Pen(\( k \)) 以合适的速率增长，确保 \( \text{CV}(K_0) + \text{Pen}(K_0) \ll \text{CV}(k) + \text{Pen}(k) \) 对所有 \( k \neq K_0 \) 成立。这需要推导出 Pen(\( k \)) - Pen(\( K_0 \)) 之间的阶数（取决于 \( k-K_0 \)），并且证明这个阶数不能被 CV(\( k \)) - CV(\( K_0 \)) 的反向随机波动所抵消。这个阶数大概是 \( \text{const} \cdot (k-K_0) \cdot \frac{\log(np)}{np} \)。

技术技巧点名： - Empirical process / 尾概率 bound：用于控制 CV(\( k \)) 的变分（variation），确保在不同拆分下的 CV 误差在概率意义上收敛。 - RMSE (Root Mean Squared Error) 分解：对预测误差的偏差-方差分解。 - 缺失数据下的 GFM 估计器一致性的已有结论：作者引用了一个现有引理（可能是基于矩估计或拟似然的），该引理给出了带缺失数据的 GFM 中，预测误差的收敛速度（如 \( O_p(1/\sqrt{np}) \)）。 - 概率下界（Probability Lower Bound）：利用 Jensen 不等式与切比雪夫型不等式，验证 CV(\( k \)) 的极小化在概率上唯一收敛到 \( K_0 \)。

3.5 真实例子与应用¶

数据：一份公开的小鼠脑单细胞 RNA-seq 数据。数据是计数矩阵（细胞 × 基因），且高度稀疏（很多零值）。
使用过程：作者将其建模为泊松 GFM（\( g(x)=e^x \)）。对候选因子数范围 \( k=2, 4, ..., 20 \) 运行 PES-CV。将对数 Poisson 偏差（log Poisson deviance）作为损失函数。最终 PES-CV 选择的范围是 \( k=16 \)（或其他接近的整数）。
结果：将选出的因子应用于细胞聚类（通常是因子得分聚类），发现聚类结果与已知的细胞类型（如兴奋性神经元、抑制性神经元等）高度吻合。相比之下，使用 BIC 或传统样本拆分 CV 得到的选择结果（要么高估导致过细分的细胞群，要么低估导致合并了不同类型的细胞）均不理想，无法得出有生物学意义的划分。
这个例子想说明：本方法能够在真实应用中给出一个合理且生物学可解释的因子数，而比较的方法（BIC、样本拆分 CV）会给出不合理的结果（往往是低估）。

3.6 🔎 结论是否比证明窄¶

Yes：证明是在指数族分布的框架下进行的，并且在主要假设中明确需要“指数族分布正确指定”。作者在结论中 claim “适用于各种混合类型数据”（各种混合类型数据 = 不同指数族分布的混合）。然而，证明中并未处理“同一个模型存在两种不同分布（如同时有 Gauss 和 Binomial）”的混合场景 —— 论文的模拟和真实例子都是同一数据类型（仅连续/仅二值/仅计数）。因此，其结论中的“混合类型”在数学上比证明所覆盖的要宽。
具体的需注意的语句： > “Our method accommodates mixed types of data, including continuous, binary, and count observations.” 这篇论文的证明与模拟中，并未直接处理一个特征为连续、另一个特征为二值的“矩阵”。所有成功案例都是列同质（同一类型的）的数据矩阵。对于真正的“混合”矩阵，这个方法是否依然理论一致，是一个 open gap。

四、开放问题（扎根具体语句）¶

松弛线性连接函数：现有方法对指数族连接函数 \( g \) 的依赖很强。对于连接函数未知的、或者不属于给定指数族的情形，PES-CV 的相合性是否还能保持？——扎根于论文第三部分对 \( g(\cdot) \) 正则性的假设以及“指定正确”的前提。这与高维下“非参”或“半参”化 \( g \) 的挑战相关，对统计学家是个自然的后续。
未知的 \( \sigma^2 \) 与异方差：论文在假设中隐式地假设了条件方差是已知的（由指数族给出）。当数据存在超出指数族框架的异方差时，ES-CV 如何适应？——扎根于第一段“conditions on moment structure...”。在高维 GFM 中，处理异方差很可能需要改变惩罚项的速率或另引入正则项。
替代巩固（Multiple Testing for Component）：论文将因子数选择视为一个“单一模型选择”问题，但很多场合可能更适合检验“下一个因子是否重要”（类似可排序的假设检验）。能否将 ES-CV 框架改造为一个序列假设测试（sequential hypothesis testing）框架，通过 PES-CV 的 penalty 控制族谬误率（FWER）？——直接由 ES-CV 的“CV 误差加惩罚”结构可自然映射到。
高效计算 \( M \) 的选择：ES-CV 中拆分份数 \( M \) 的选择对有限样本性能的影响未被理论分析（文中在模拟中固定了 \( M=5 \)）。更大的 \( M \) 可能会带来更低的方差，但会显著增加计算成本（因为训练数据更小）。是否存在一个理论最优的 \( M \) 作为 \( n, p, K_0 \) 的函数？——这是一个源于实证现象（\( M \) 的影响）的经典理论问题，统计学家通常采用的是“经验法则”而非精确近似。

Maintained by 陈星宇 · Homepage · Source on GitHub