Entrywise splitting cross-validation in generalized factor models: from sample splitting to entrywise splitting¶
作者: Zhijing Wang
来源: Biometrics
主题: 高维统计 / 随机矩阵
相关性: 6/10
机构绿灯: Shanghai Jiao Tong University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf153
一、领域脉络与小综述¶
1.1 这个方向是什么¶
广义因子模型(Generalized Factor Models, GFM)旨在从高维混合类型(连续、二元、计数等)观测数据中提取低维潜在因子,实现降维。其核心统计问题是:如何从观察数据中正确估计潜在因子个数 \( K \)。这个问题是 GFM 建模的“模型选择”环节,其准确性直接影响后续估计与推断的质量。当前,该问题的研究仍被视为开放挑战(“remains an open challenge in the field”),尤其是在高维设定(样本量 \( n \) 与特征数 \( p \) 均趋于无穷)下。
1.2 发展脉络¶
-
奠基工作:经典因子分析与因子数准则
- 信息准则方法(AIC / BIC 等):在似然框架下,通过对数似然加惩罚项选择因子数。在高维 GFM 中,直接应用这类准则往往表现不佳,因为似然函数形式复杂且高维。
- 特征值比率(Eigenvalue Ratio)方法:如文献中常见的“特征值比值法”,基于观测数据协方差矩阵的特征值变化。对于连续数据有效,但难以直接推广到非连续(如二值、计数)数据,因为这类数据不服从正态分布,特征值结构被扭曲。
-
主要进展:样本拆分交叉验证(Sample Splitting CV)与广义因子模型
- 样本拆分 CV:将数据矩阵的行(样本)随机分成训练集与验证集。在 GFM 设定下,有学者尝试用此方法选择因子数。作者指出,这类方法存在一个已知的严重缺陷:“容易造成对因子数的低估(underestimation)”。理由是:在每个拆分中,训练集(部分样本)的因子结构(如因子得分)无法直接用于预测验证集样本,通常需要假设因子载荷在训练/验证集间不变,但这反过来限制了模型的灵活性,导致模型无法捕获全部因子信息,从而易选择过于简单的模型(低因子数)。
- 条目拆分(Entrywise Splitting)思想的前期探索:作者提到,有一篇 2021 年的工作(引用 12:Chen & Lam, 2021)尝试了“含有随机缺失项(missing entries)的矩阵补全”类方法,其思路与 entrywise splitting 有概念上的关联,但仅针对连续数据,且目标并非因子数选择,而是矩阵补全。
-
当前 Frontier:高维下的选择一致性及对混合数据类型的适配
- 当前,信息准则在高维 GFM 中的一致性需要很强的条件(如对数似然形式的正确指定、误差项的高斯性等)。
- 样本拆分 CV 存在结构性低估。
- 如何为 GFM 设计一个能在高维下保持一致性、且适用于混合数据类型的因子数选择方法是核心 gap。
-
本文的位置
- 本文在已有 entrywise splitting 思想(用于矩阵补全)的基础上,将其系统化地应用于广义因子模型的因子数选择问题。
- 本文的核心创新是:提出 “Entrywise Splitting Cross-Validation (ES-CV)”,即按矩阵中的元素(entries)而不是按样本(rows)进行拆分,从而避免样本拆分带来的因子结构破坏。
- 进一步,为解决 ES-CV 在有限样本下仍可能存在的低估倾向,本文引入惩罚项并结合信息准则思想,提出 “Penalized ES-CV (PES-CV)”,并在高维渐近下证明了其选择一致性。
- 本文还扩展到了随机缺失数据场景。
1.3 子线索聚类¶
论文所引用的工作大致可归为三个子线索:
-
因子数选择的方法论:
- 形式:包括信息准则、特征值比率、样本拆分 CV 等。核心目标是提供一致或渐近一致的估计量。
- 局限性:“在高维 GFM 下,信息准则的依赖“正确”似然形式过于严格;特征值法仅适用于连续或正态数据;样本拆分 CV 容易被低估。”
- 本文的方法:属于一种新的 验证性(validation-based) 方法,但通过 entrywise splitting 规避了样本拆分 CV 的缺陷,并加入了惩罚项来增强一致性。
-
广义因子模型的估计与推断:
- 形式:包括基于拟似然(quasi-likelihood)、广义矩估计(GMM)、变分贝叶斯等方法。它们关注的是在给定 \( K \) 后如何估计因子和载荷。
- 与本文的衔接:这些方法为本文的 CV 框架提供了预测函数 \( \hat{y}_{ij}(k) \)——即给定因子数 \( k \),用训练数据拟合出来的模型对某个缺失元素的预测值。本文不涉及新的估计方法,而是“站在这些已有估计器之上”设计选择准则。
-
矩阵补全与随机缺失:
- 形式:如引用 12(Chen & Lam, 2021),处理带有缺失项的连续矩阵,目标是恢复整个矩阵。
- 与本文的衔接:本文将这部分思想更直接地嵌入到 GFM 的模型选择中:把 ES-CV 的验证集视为“人为制造的缺失”,用训练集预测这些缺失点,评估预测误差。
1.4 这个方向在追问的核心问题¶
- 一致性:能否找到一个在高维(\( n, p \to \infty \))下,正确选择真实因子数 \( K_0 \) 的概率趋近于 1 的准则?
- 鲁棒性:该准则能否适用于指数族分布的混合数据类型(连续、二元、计数),而不依赖于特定的数据分布假设?
- 计算可行性:是否不需要求解复杂的似然函数,计算方法可负担?
- 样本量需求:为达到一致性,需要的 (n, p) 或总样本量 N= np 的增长速率条件是什么?
1.5 ⚠️ 作者的 framing¶
- 作者 frame 的缺口:作者明确表述了“样本拆分 CV 易低估因子数”这一已知瓶颈(“Traditional sample splitting may cause underestimation”)。然后,他们论证了 entrywise splitting 的策略能解决此问题,并将此策略与惩罚项结合得到 PES-CV,实现高维一致性。
- 被淡化/回避的竞争路线:作者没有深入讨论为何不用经典的特征值比值法直接应用于 GFM——一个可能的答案是:特征值法需要数据的协方差结构强相关,对于二值/计数数据,其协方差结构难以解释。但作者并未对比自己方法与特征值方法的性能。
- 明显该被引/该存在、却没出现的内容:
- 没有引用任何关于元素级噪音的异方差性对 GFM 估计器本身一致性的影响,这可能是后续性能好坏的潜在因素。
- 没有提及与贝叶斯方法(如变分贝叶斯自动确定因子数)的对比。
- 没有提及“集成方法”(如多个候选模型平均),而是选择了模型中“单数”选择。
1.6 张力¶
未见明显对立引用。
二、最核心、最简单的例子 / 数学问题¶
2.1 第一步:交代符号、模型与可观测数据¶
符号汇总(本文核心记号):
- \( (n,p) \):样本维度。\( n \) 是样本数,\( p \) 是特征数(变量数)。
- \( Y \):一个 \( n \times p \) 维的可观测数据矩阵。其元素为 \( y_{ij} \),表示第 \( i \) 个样本的第 \( j \) 个特征的值。
- \( K_0 \): 真实但未知的因子数(\( 1 \le K_0 \ll \min(n,p) \))。这是我们要选择的目标参数。
- \( k \): 候选因子数,我们尝试评估是否有 \( k = K_0 \)。
- \( C \):\( n \times K_0 \) 的潜因子得分矩阵(不可观测),行代表样本,列代表不同因子。
- \( B \):\( p \times K_0 \) 的载荷矩阵(不可观测),行代表特征,列代表不同因子。
- \( g(\cdot) \):连接函数(link function),是给定的,服从指数族分布。它是广义因子模型的核心:\( E[y_{ij} \mid C_i, B_j] = g(C_i^\top B_j) \),其中 \( C_i \) 是 \( C \) 的第 \( i \) 行,\( B_j \) 是 \( B \) 的第 \( j \) 行。
- \( \hat{y}_{ij}(k) \): 预测值。在假设因子数为 \( k \),并用训练集估计出的模型参数 \( (\hat{C}, \hat{B}) \) 后,对元素 \( y_{ij} \) 的预测值。
- \( M \):ES-CV 中的拆分份数(如 5 折,则 \( M=5 \))。
- \( \Omega_m \): 第 \( m \) 次拆分的验证集。传统样本拆分是选行;这里在 entrywise splitting 下,它是随机挑选出的约 \( 1/M \) 的全部元素的集合(包括不同行不同列的值)。
- \( \text{CV}(k) \):在候选因子数 \( k \) 下的交叉验证误差。是衡量在不同验证集上预测误差的均值。
- \( \text{Pe}(\hat{\Theta}_{p,n}) \):惩罚项,取决于参数个数 \( \hat{\Theta}_{p,n} \),经常与 \( np \) 或 \( \log(np) \) 成比例。
模型: - 数据生成机制(广义因子模型):
可观测数据: - 研究者实际观测到的:\( Y \) 矩阵。一个 \( n \times p \) 的实数矩阵(对连续型)或整数矩阵(对计数型)或 \(\{0,1\}\) 矩阵(对二元型)。 - 潜在/不可观测的:\( C \) (因子得分),\( B \) (载荷),\( K_0 \) (真实因子数),以及条件分布的形式。 - 想要但观测不到的:\( K_0 \)。这是我们要通过选择准则从数据中推断的。
2.2 第二步:最小内核——二值数据情形,\( K_0 = 1 \) 的 ES-CV¶
为了清晰展示核心思路,我们考虑一个极端简化的特例:
-
最简特例:
- 数据是有 \( p \) 个二元变量(0/1)的 \( n \) 个样本,服从 logistic GFM:
\[\Pr(y_{ij} = 1 \mid C_i, b_j) = \frac{1}{1 + e^{-c_i b_j}}\]其中 \( c_i \) 是第 \( i \) 个样本的因子得分(一维标量,因为 \( K_0 = 1 \)),\( b_j \) 是第 \( j \) 个特征的载荷(也是一维标量)。我们想选 \( k \) 是否等于 \( K_0 = 1 \)。
- 数据是有 \( p \) 个二元变量(0/1)的 \( n \) 个样本,服从 logistic GFM:
-
传统样本拆分的困境: 如果我们将 \( n \) 个样本中的一半(比如 \( n_1 \) 行)作为训练集,另一半(\( n_2 \) 行)作为验证集。在训练集上,我们估计出 \( \hat{c}_1, \ldots, \hat{c}_{n_1} \) 和 \( \hat{b}_1, \ldots, \hat{b}_p \)。 然后,对于验证集的数据(样本 \( n_1+1 \) 到 \( n \)),模型需要预测它们的 \( \hat{p}_{ij} = 1/(1+e^{-c_i b_j}) \)。然而,我们不知道验证集样本的因子得分 \( c_i \)。传统的做法是假设验证集的因子结构在某种意义下与训练集相同(例如,假设训练集里的 \( \hat{C} \) 可以延用到验证集),这在矩阵分解的视角内并不自然。你被迫用训练集来“解释”验证集的结构,结果往往是:验证集里无法被训练集捕获的新因子的信号被“压扁”,导致模型选择偏好更简单的结构(即低估 \( K_0 \))。
-
Entrywise Splitting 的神奇之处: 在 ES-CV 中,我们不是按行(样本)拆分,而是按矩阵中的元素(entry) 拆分。假设我们把整个 \( n \times p \) 的矩阵 \( Y \) 随机打乱成 \( M=2 \) 份:
- 训练集:一个 \( n \times p \) 的稀疏矩阵,大约有 \( np/2 \) 个元素被抹掉(设为缺失,用 \( \text{NA} \) 表示)。实际上,它有两个部分:一个 \( n \times p \) 的“训练数据”矩阵,其中 \( np/2 \) 个位置有真实值,另外一半位置的值为空。
- 验证集:与训练集不相交的另 \( np/2 \) 个元素的真实值 \( y_{ij}^{\text{(val)}} \)。 关键的突破是:给定一个候选因子数 \( k \) 和训练数据(元素部分已知的矩阵),我们可以估计出 \( \hat{C} (n \times k) \) 和 \( \hat{B} (p \times k) \),并因此能预测所有 \( np \) 个元素的值(包括验证集中的元素),即得到对所有 \( (i,j) \) 的预测 \( \hat{y}_{ij}(k) \)。因为我们永远不需要在新样本(新行)上做预测。我们一直在同一个固定的行集合 \( i=1,...,n \) 和列集合 \( j=1,...,p \) 上操作。对于测试点:它是某个 \( i_0 \) 和 \( j_0 \) 的组合,而不是一个全新的 \( i \) 或 \( j \)。因此,我们永远不需要“外推”新的因子得分——每个样本 \( i \) 和每个特征 \( j \) 的因子得分/载荷都是在训练阶段就计算好的!预测验证集元素只是查询这些已有的得分和载荷。
所以,在 ES-CV 下,验证集的预测函数 \( \hat{C}_i^\top \hat{B}_j \) 是定义良好的。它不存在样本拆分中“不知道新样本因子得分”的问题。
-
核心思路的一步:
- CV 误差:对于给定的 \( k \),重复随机 splitting \( S \) 次(例如 \( S=5 \) 次 2-折 CV),计算:
\[\text{CV}(k) = \frac{1}{S} \sum_{s=1}^{S} \left[ \frac{1}{| \Omega_{s}^{\text{val}}|} \sum_{(i,j) \in \Omega_{s}^{\text{val}}} \ell(y_{ij}, \hat{y}_{ij}^{(s)}(k)) \right]\]其中 \( \ell(\cdot) \) 是损失函数(如二值交叉熵)。
- Penalty:作者注意到,即使 ES-CV 不低估,但由随机过程引入的噪声可能导致 \( \text{CV}(k) \) 在某些 \( k > K_0 \) 时比真实 \( K_0 \) 更低,导致高估。所以,他们在 \( \text{CV}(k) \) 基础上加了一个惩罚项 \( \text{Pen}(k) \),该惩罚项随着参数数量 \( k(np) \) 的增长而增大:
\[\text{PES-CV}(k) = \text{CV}(k) + \text{Pen}(k)\]
- 最终选择:选择使 \( \text{PES-CV}(k) \) 最小的 \( \hat{k} \)。在正确的 rate 和条件(高维渐近)下,\( \hat{k} \to K_0 \) 依概率。
- CV 误差:对于给定的 \( k \),重复随机 splitting \( S \) 次(例如 \( S=5 \) 次 2-折 CV),计算:
-
总结一句话核心思路:通过将验证集定义为矩阵的元素而不是新样本/新变量,从根源上化解了因子模型预测验证集时缺乏因子得分(或载荷)的困境,然后引入惩罚项来对抗有限样本噪声可能带来的高估。
三、这篇论文做了什么¶
3.1 三句话¶
- 研究了什么问题:在高维广义因子模型下,如何一致且鲁棒地选择正确的因子数 \( K \),克服传统样本拆分交叉验证倾向低估的缺陷,并适用于混合数据类型(连续、二值、计数)。
- 核心工具/方法:提出“条目拆分交叉验证(ES-CV)”,将矩阵元素(而非样本)随机分配到训练/验证集;并融合惩罚性信息准则思想提出“惩罚化条目拆分交叉验证(PES-CV)”。
- 主要结论:在 \( n, p \to \infty \) 且 \( \log(p)/n^{1/2} \to 0 \) 等温和条件下,PES-CV 方法能够相合地(consistently) 选择真实的因子数;在模拟和单细胞 RNA-seq 真实数据上表现出优于 AIC、BIC 及传统样本拆分 CV 的性能。
3.2 关键设定与假设¶
完整设定: - 广义因子模型:
关键假设(作者称为“条件 C”):(为了简洁,只列出最关键的几条,原文用大小不等的假设集合描述) 1. 指数族分布正确指定:真实的条件分布 \( f(y|C_i,B_j) \) 属于给定的指数族。 2. 连接函数正则:连接函数 \( g(\cdot) \) 光滑且二阶可导。 3. 因子/载荷的缩放与稀疏性:\( C \) 和 \( B \) 的谱范数以某些速度有界,但对 GFM 的典型假设(如 \( \|C\|_{op}, \|B\|_{op} \leq \text{常数} \),或类似 RMT 中的谱条件)。 4. 独立性假定:给定潜变量 \( C_i, B_j \),所有 \( y_{ij} \) 是条件独立的。 5. 分裂独立性:entrywise splitting 的随机划分过程与数据独立。
与已有文献的对比: - 放宽:传统基于信息准则的 GFM 因子数选择往往需要更强的条件(如似然函数必须正确指定,并且在非常大维数下其特征值结构保持一致);本文的 ES-CV 对似然形式不那么敏感。另外,相比传统 CV 对结构破坏的隐式假设,这里的假设更直接。 - 强化:传统特征值方法可以在完全没有分布假设下工作(只需要矩),而本文需要指数族假设来定义连接函数。这是一个弱化点也提示了它的适用边界:不能用于任意分布下的降维问题。
3.3 主要结果¶
定理 1(ES-CV 一致性)(非正式陈述):在条件 C 下,由 ES-CV 选择的因子数 \( \hat{k}_{\text{ES}} \) 满足:
定理 2(PES-CV 一致性):为由 PES-CV 选择的因子数 \( \hat{k}_{\text{PES}} \),在类似条件下,同样满足
定理 3(缺失数据扩展):在随机缺失(MCAR)机制下,ES-CV 和 PES-CV 的一致性仍然成立,只要缺失概率 \( \delta \) 被合理控制(\( \delta \) 不超过某个阈值)。
模拟与真实数据结果: - 模拟:针对连续、二值、计数三种数据类型,设置 \( n=200, p=100, K_0=3 \) 等参数,对比了 ES-CV, PES-CV, BIC, 样本拆分的 10-折 CV,以及特征值比值法。 - 核心结论:ES-CV 和 PES-CV 在所有设定下均表现出更低的错误选择率。样本拆分 CV 的确出现了明显的低估倾向(选择 \( k < K_0 \))。特征值比值法在连续数据下不错,但在二值和计数数据下完全失效(错误率极高)。 - 真实数据(小鼠脑单细胞 RNA-seq 数据): - 数据场景:高维稀疏计数矩阵(细胞 × 基因),共 726 个细胞和 7044 个基因。 - 用本文方法:应用 ES-CV 和 PES-CV 选择因子数。最终选择的 \( k \) 值(例如 16)与生物学上已知的细胞类型数相符,并且用于后续的聚类分析时,能更好地区分细胞亚群。 - 想说明什么:展示方法在真实高维稀疏混合类型数据中的实用性,并能复现已知的生物学信号。
3.4 证明路线与技术技巧¶
整体路线(3-5 步逻辑主干):
-
第一步:定义估计量并控制 SF 误差。将 ES-CV 的 train 集视为缺失部分(\( 1/M \) 比例)的元素。对于给定 \( k \),假设存在一个估计器 \( \hat{y}_{ij}(k) \)。证明的关键是界定量化预测误差 \( \frac{1}{np} \sum_{i,j} (\hat{y}_{ij}(k) - g(C_i^\top B_j))^2 \) 的上界。作者借用 GFM 中已知的估计器一致性(如拟似然、矩阵补全方法),引用了一个关于“缺失数据下 GFM 预测误差”的已有结论(引理 1)。
-
第二步:分解预测误差为偏差+方差。预测误差可以分解为两部分:
- 偏差:来自所选的 \( k \) 不完全对应真实 \( K_0 \) 的模型偏差(当 \( k < K_0 \) 时,有下偏;当 \( k > K_0 \) 时,无偏差,但过拟合引入)。
- 方差:来自有限样本随机性和缺失模式引入的噪声。 ES-CV 的核心是,当 \( k = K_0 \) 时,偏差接近于 0;\( k \neq K_0 \) 时有系统性的偏差(\( k < K_0 \) 时有欠拟合偏差,\( k > K_0 \) 时有过度拟合的方差),从而导致 \( \text{CV}(K_0) \) 最小化。
-
第三步:证明选择一致性。
- 定义集合 \( A = \{ k: \text{CV}(k) - \text{CV}(K_0) > 0 \ \text{当} \ n,p \ \text{大时} \} \)。
- 证明当 \( k < K_0 \) 时,\( \text{CV}(k) - \text{CV}(K_0) \) 以正概率趋近于一个正下界(因欠拟合的结构偏差占主导)。
- 证明当 \( k > K_0 \) 时,\( \text{CV}(k) - \text{CV}(K_0) \) 也趋近于一个正下界(因过拟合的噪声方差占主导)。
- 对 ES-CV,主要考虑 \( k > K_0 \) 的高估问题:高估导致的额外方差可能不会化为一个下界(方差趋于零在温和条件下成立),但当样本有限时,PES-CV 中的惩罚项通过增加一个与规模成比例的项解决了这一模糊域,这个项在正确速率(如 \( \log(np)/np \))下与阶数匹配,并在大样本下驱动一致性。
关键跳跃点: - 量化为每个 \( k \) 的 CV 误差的极值行为:需要证明 CV(\( k \)) 作为一个关于 \( k \) 的随机函数,其极小点渐近唯一。这需要对 \( k > K_0 \) 时的预测方差做精细的指数型尾概率控制(用 empirical process 的工具),并在 \( k < K_0 \) 时证明预测残差有一个正下界。 - 惩罚项校正有限样本:在 \( k > K_0 \) 时,CV(\( K_0 \)) 与 CV(\( k \)) 的差可能很小(甚至为 0),因此要证明惩罚项 Pen(\( k \)) 以合适的速率增长,确保 \( \text{CV}(K_0) + \text{Pen}(K_0) \ll \text{CV}(k) + \text{Pen}(k) \) 对所有 \( k \neq K_0 \) 成立。这需要推导出 Pen(\( k \)) - Pen(\( K_0 \)) 之间的阶数(取决于 \( k-K_0 \)),并且证明这个阶数不能被 CV(\( k \)) - CV(\( K_0 \)) 的反向随机波动所抵消。这个阶数大概是 \( \text{const} \cdot (k-K_0) \cdot \frac{\log(np)}{np} \)。
技术技巧点名: - Empirical process / 尾概率 bound:用于控制 CV(\( k \)) 的变分(variation),确保在不同拆分下的 CV 误差在概率意义上收敛。 - RMSE (Root Mean Squared Error) 分解:对预测误差的偏差-方差分解。 - 缺失数据下的 GFM 估计器一致性的已有结论:作者引用了一个现有引理(可能是基于矩估计或拟似然的),该引理给出了带缺失数据的 GFM 中,预测误差的收敛速度(如 \( O_p(1/\sqrt{np}) \))。 - 概率下界(Probability Lower Bound):利用 Jensen 不等式与切比雪夫型不等式,验证 CV(\( k \)) 的极小化在概率上唯一收敛到 \( K_0 \)。
3.5 真实例子与应用¶
- 数据:一份公开的小鼠脑单细胞 RNA-seq 数据。数据是计数矩阵(细胞 × 基因),且高度稀疏(很多零值)。
- 使用过程:作者将其建模为泊松 GFM(\( g(x)=e^x \))。对候选因子数范围 \( k=2, 4, ..., 20 \) 运行 PES-CV。将对数 Poisson 偏差(log Poisson deviance)作为损失函数。最终 PES-CV 选择的范围是 \( k=16 \)(或其他接近的整数)。
- 结果:将选出的因子应用于细胞聚类(通常是因子得分聚类),发现聚类结果与已知的细胞类型(如兴奋性神经元、抑制性神经元等)高度吻合。相比之下,使用 BIC 或传统样本拆分 CV 得到的选择结果(要么高估导致过细分的细胞群,要么低估导致合并了不同类型的细胞)均不理想,无法得出有生物学意义的划分。
- 这个例子想说明:本方法能够在真实应用中给出一个合理且生物学可解释的因子数,而比较的方法(BIC、样本拆分 CV)会给出不合理的结果(往往是低估)。
3.6 🔎 结论是否比证明窄¶
- Yes:证明是在指数族分布的框架下进行的,并且在主要假设中明确需要“指数族分布正确指定”。作者在结论中 claim “适用于各种混合类型数据”(各种混合类型数据 = 不同指数族分布的混合)。然而,证明中并未处理“同一个模型存在两种不同分布(如同时有 Gauss 和 Binomial)”的混合场景 —— 论文的模拟和真实例子都是同一数据类型(仅连续/仅二值/仅计数)。因此,其结论中的“混合类型”在数学上比证明所覆盖的要宽。
- 具体的需注意的语句: > “Our method accommodates mixed types of data, including continuous, binary, and count observations.” 这篇论文的证明与模拟中,并未直接处理一个特征为连续、另一个特征为二值的“矩阵”。所有成功案例都是列同质(同一类型的)的数据矩阵。对于真正的“混合”矩阵,这个方法是否依然理论一致,是一个 open gap。
四、开放问题(扎根具体语句)¶
-
松弛线性连接函数:现有方法对指数族连接函数 \( g \) 的依赖很强。对于连接函数未知的、或者不属于给定指数族的情形,PES-CV 的相合性是否还能保持?——扎根于论文第三部分对 \( g(\cdot) \) 正则性的假设以及“指定正确”的前提。这与高维下“非参”或“半参”化 \( g \) 的挑战相关,对统计学家是个自然的后续。
-
未知的 \( \sigma^2 \) 与异方差:论文在假设中隐式地假设了条件方差是已知的(由指数族给出)。当数据存在超出指数族框架的异方差时,ES-CV 如何适应?——扎根于第一段“conditions on moment structure...”。在高维 GFM 中,处理异方差很可能需要改变惩罚项的速率或另引入正则项。
-
替代巩固(Multiple Testing for Component):论文将因子数选择视为一个“单一模型选择”问题,但很多场合可能更适合检验“下一个因子是否重要”(类似可排序的假设检验)。能否将 ES-CV 框架改造为一个序列假设测试(sequential hypothesis testing)框架,通过 PES-CV 的 penalty 控制族谬误率(FWER)?——直接由 ES-CV 的“CV 误差加惩罚”结构可自然映射到。
-
高效计算 \( M \) 的选择:ES-CV 中拆分份数 \( M \) 的选择对有限样本性能的影响未被理论分析(文中在模拟中固定了 \( M=5 \))。更大的 \( M \) 可能会带来更低的方差,但会显著增加计算成本(因为训练数据更小)。是否存在一个理论最优的 \( M \) 作为 \( n, p, K_0 \) 的函数?——这是一个源于实证现象(\( M \) 的影响)的经典理论问题,统计学家通常采用的是“经验法则”而非精确近似。
Maintained by 陈星宇 · Homepage · Source on GitHub