Increasing dimension asymptotics for two-way crossed mixed effect models¶
作者: Ziyang Lyu, S.A. Sisson, A.H. Welsh
来源: Annals of Statistics
主题: 高维统计 / 随机矩阵
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:当数据具有交叉分类结构(例如行因子与列因子同时作用,且观测值落在行-列交叉的单元格中)时,如何在维数(行数、列数、单元格内重复数)同时趋于无穷的设定下,对混合效应模型中的固定效应与方差分量进行严格的渐近推断。当前该方向的成熟度处于“理论刚有突破,计算与推断仍存缺口”的阶段:嵌套结构的渐近理论已相对成熟,但交叉结构因破坏了独立性(观测值共享行或列随机效应),其似然函数结构与信息矩阵的渐近行为长期缺乏严格且普适的处理。
发展脉络: - 奠基与嵌套结构的成熟:Jiang (2013) 针对广义线性混合模型(GLMM)中的交叉随机效应,用“subset argument”回答了MLE一致性的开放问题,但作者明确指出:“the method does not lead to the asymptotic distribution of the estimators”——这留下了分布推断的口子。随后 Lyu & Welsh (2021) 在嵌套误差回归模型中,证明了当簇数与簇内观测数同时趋于无穷时,ML与REML估计量渐近正态且协方差矩阵有优雅结构,无需正态假设且对增长率无限制,为本文的方法奠定了直接基础。 - 交叉结构的计算突破:由于交叉随机效应的协方差矩阵缺乏稀疏性,传统GLS与Gibbs采样计算成本可达 \(O(N^{3/2})\)。Ghosh et al. (2020) 与 (2021) 提出backfitting算法,将GLS与逻辑回归混合模型的计算降至 \(O(N)\);Menictas et al. (2019) 发展了streamlined variational inference。作者在intro中点出:“recent literature on GLMMs with crossed random effects focuses on computational algorithms”——计算有进展,但严格的渐近分布理论滞后。 - 渐近分布的初步探索与限制:Jiang, Wand & Bhaskaran (2021) 导出了GLMM中Fisher信息矩阵的精确主导项,使得置信区间与Wald检验可用,但作者指出其局限:“require the ratios of the cluster sizes to the number of clusters to tend to zero”——这限制了维数增长的相对速率。Ekvall & Bottai (2021) 与 Baey et al. (2019) 处理了方差分量在边界或奇异信息点处的推断,但未针对交叉结构的高维渐近给出通用解。 - 本文的位置:本文将 Lyu & Welsh (2021) 在嵌套结构中的“增长率无限制、无需正态假设”的渐近正态性结果,推广至更复杂的两向交叉混合效应模型,填补了交叉结构“有计算算法、无严格渐近分布”的缺口。
子线索聚类: 1. 嵌套结构的渐近理论:Lyu & Welsh (2021, 2022) 系列工作,聚焦簇内与簇间参数的分离正则化与渐近独立性。 2. 交叉结构的计算算法:Ghosh et al. (2020, 2021) 的backfitting,Menictas et al. (2019) 的变分推断,旨在绕开 \(O(N^{3/2})\) 的计算瓶颈。 3. 方差分量的边界与奇异推断:Ekvall & Bottai (2021), Baey et al. (2019), Battey & McCullagh (2023),关注Wald统计量的异常几何与似然比检验的修正。
这个方向在追问的核心问题: 1. 交叉结构下,观测值因共享随机效应而不再独立,似然函数的极限行为如何严格刻画? 2. 行数、列数、单元格内重复数以任意相对速率增长时,参数的收敛速率与正则化常数如何分配? 3. 无需正态假设时,ML与REML的渐近分布是否仍具有可解析的结构化协方差?
⚠️ 作者的 framing: - 作者将缺口 frame 为:交叉结构“计算算法多,渐近分布理论无”,且已有分布理论(如 Jiang et al. 2021)对增长率有严格限制(簇内/簇数比趋于零),因此本文的“增长率无限制、无正态假设”成为显然的下一步。 - 被淡化的竞争路线:基于似然比检验(LRT)的边界推断(Baey et al. 2019, Battey & McCullagh 2023)未被深入对比,作者直接给出Wald推断的结构化协方差,未讨论Wald在方差分量近边界时的已知异常。 - 缺失的引用:高维随机矩阵理论中关于 Kronecker 结构协方差或交叉方差结构的估计渐近性(如独立成分分析或矩阵正态分布的渐近理论)未出现在intro。这是一个值得研究者去查的问题:交叉随机效应的协方差结构本质上接近矩阵正态的 Kronecker 结构,该领域的渐近结果是否与本文的“结构化协方差”有技术交集?
张力: 未见明显对立引用。但存在隐含张力:Jiang et al. (2021) 要求簇内/簇数比趋于零以获得可用的渐近,而本文声称增长率完全无限制也能获得结构化渐近——这两者在技术路线上如何调和(是Jiang的条件过强,还是本文的“结构化协方差”在不同速率下退化出不同形式),需在证明细节中核验。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号:
- \(I\): 行因子的水平数(行数)。
- \(J\): 列因子的水平数(列数)。
- \(K\): 每个单元格 \((i,j)\) 内的重复观测数(假设各单元格等重复,不等重复时理论类似但记号繁)。
- \(\boldsymbol{\beta}\): 固定效应参数向量(维度 \(p\)),是我们要估的 estimand。
- \(\sigma_r^2, \sigma_c^2, \sigma_{rc}^2, \sigma_e^2\): 分别为行随机效应、列随机效应、行-列交互随机效应、纯误差的方差分量,是我们要估的 estimand。
- \(\boldsymbol{\alpha}_i\): 第 \(i\) 行的随机效应向量(潜在量,不可观测)。
- \(\boldsymbol{\gamma}_j\): 第 \(j\) 列的随机效应向量(潜在量,不可观测)。
- \(\boldsymbol{\delta}_{ij}\): 单元格 \((i,j)\) 的交互随机效应向量(潜在量,不可观测)。
- \(Y_{ijk}\): 第 \(i\) 行、第 \(j\) 列、第 \(k\) 个重复的响应变量观测值(可观测随机变量)。
-
\(N = IJK\): 总样本量。
-
模型(两向交叉混合效应模型的数据生成机制): \(Y_{ijk} = \boldsymbol{x}_{ijk}^T \boldsymbol{\beta} + \alpha_i + \gamma_j + \delta_{ij} + e_{ijk}, \quad i=1,\dots,I, \ j=1,\dots,J, \ k=1,\dots,K\) 其中,\(\alpha_i, \gamma_j, \delta_{ij}, e_{ijk}\) 相互独立,分布未知(无需正态),均值为零,方差分别为 \(\sigma_r^2, \sigma_c^2, \sigma_{rc}^2, \sigma_e^2\)。\(\boldsymbol{x}_{ijk}\) 为已知的设计向量。
-
可观测数据: 研究者实际能观测到的是矩阵/面板形态的响应变量集合 \(\{Y_{ijk}\}\) 及对应的设计矩阵 \(\{\boldsymbol{x}_{ijk}\}\)。想要但观测不到的是各层的随机效应 \(\{\alpha_i, \gamma_j, \delta_{ij}\}\) 及其真实方差,只能靠模型假设与可观测的层内/层间变异去识别。由于观测值共享行或列随机效应,\(Y_{ijk}\) 之间不独立,协方差结构由交叉分类决定。
第二步:最小内核
整篇论文的证明本质上是嵌套误差回归模型(单向分类)渐近理论的推广,其最小内核在于:如何处理交叉结构带来的非独立性,使得参数的渐近正态性在增长率无限制时仍然成立。
最简特例:考虑 \(p=1\)(单固定效应,截距 \(\beta\)),\(K=1\)(每单元格无重复),且假设无交互效应 \(\delta_{ij}=0\)。 此时模型退化为:\(Y_{ij} = \beta + \alpha_i + \gamma_j + e_{ij}\)。 - 要证的命题退化成:当 \(I \to \infty, J \to \infty\) 且对 \(I/J\) 的速率无任何限制时,MLE \((\hat{\beta}, \hat{\sigma}_r^2, \hat{\sigma}_c^2, \hat{\sigma}_e^2)\) 联合渐近正态,且协方差矩阵具有分块对角结构(固定效应与方差分量渐近独立,行方差与列方差渐近独立)。 - 核心困难在哪:由于 \(Y_{ij}\) 既受 \(\alpha_i\) 又受 \(\gamma_j\) 影响,同一行的观测相关,同一列的观测也相关,似然函数中的交叉项使得信息矩阵不再像嵌套模型那样可简单按层分离。当 \(I/J \to 0\) 或 \(\infty\) 时,行与列提供的信息量极不对称,传统正则化(所有参数用同一个 \(N\) 缩放)会失效。 - 本文怎么破:核心想法是分层正则化。不同参数依其信息来源使用不同的维数缩放:\(\beta\) 用 \(N\) 缩放,\(\sigma_r^2\) 用 \(I\) 缩放,\(\sigma_c^2\) 用 \(J\) 缩放,\(\sigma_e^2\) 用 \(N\) 缩放。通过将信息矩阵按行、列、误差层分块,证明在任意速率下,交叉项对逆信息矩阵的贡献渐近可忽略,从而逆信息矩阵渐近分块对角,直接导出结构化协方差。
三、这篇论文做了什么¶
三句话: ① 研究了两向交叉混合效应模型中,行数 \(I\)、列数 \(J\)、单元格重复数 \(K\) 同时趋于无穷时,ML与REML估计量的渐近分布问题; ② 核心工具是分层正则化与信息矩阵的分块求逆近似,剥离了交叉非独立性带来的耦合; ③ 主要结论是:在无需正态假设与增长率无限制的温和条件下,估计量联合渐近正态,且协方差矩阵呈现优雅的分块对角结构(固定效应与方差分量独立,不同层方差分量独立)。
关键设定与假设: 在第二节最小记号的基础上补全: - 设计矩阵假设:固定效应设计矩阵 \(\boldsymbol{X}\) 需满足非奇异性条件,且随 \(I,J,K\) 增长时,其投影矩阵的极限行为可控(具体为 \(\boldsymbol{X}^T \boldsymbol{V}^{-1} \boldsymbol{X}\) 的最小特征值发散,速率与对应维数匹配)。 - 矩条件:随机效应与误差项无需正态,但需满足有限四阶矩(用于控制二次型估计量的渐近方差)。 - 参数空间:方差分量 \(\sigma_r^2, \sigma_c^2, \sigma_{rc}^2, \sigma_e^2\) 严格大于零(远离边界),避免奇异信息矩阵问题。 - 与已有文献的对比:放宽了 Jiang et al. (2021) 中“簇内/簇数比趋于零”的限制,允许 \(I, J, K\) 以任意相对速率增长;相比 Lyu & Welsh (2021) 的嵌套模型,处理了更复杂的交叉协方差结构 \(\boldsymbol{V}\)(不再是块对角)。
主要结果: 1. 定理:ML/REML的渐近正态性与结构化协方差(理论核心) - 陈述:在上述假设下,当 \(I,J,K \to \infty\)(无速率限制)时, \(\sqrt{N}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma}_\beta)\), \(\sqrt{I}(\hat{\sigma}_r^2 - \sigma_r^2) \xrightarrow{d} \mathcal{N}(0, \Sigma_r)\), \(\sqrt{J}(\hat{\sigma}_c^2 - \sigma_c^2) \xrightarrow{d} \mathcal{N}(0, \Sigma_c)\), 且这些极限分布相互独立(联合分布为分块对角)。 - 直觉:行方差的信息主要来自行的变异,列方差的信息主要来自列的变异,固定效应与纯误差的信息来自全部观测。当各维数都趋于无穷时,不同层提供的信息“正交化”,交叉耦合渐近消失。 - 必要条件:方差分量远离零边界;设计矩阵在加权投影下非退化;有限四阶矩。 - 解决的技术难点:在非独立数据与任意增长率下,证明了信息矩阵逆的渐近分块对角性。
- 推论/延伸:REML的等价性
- ML与REML在渐近分布上具有相同的结构化协方差,但REML在有限样本下对方差分量的偏差修正更优,这与嵌套模型中的经典结论一致。
证明路线与技术技巧: - 整体路线(5步主干): 1. 构造似然函数的二次型表示:将ML与REML的得分函数表示为响应变量 \(\boldsymbol{Y}\) 的二次型与线性型的组合,利用 \(\boldsymbol{V}\) 的Kronecker加结构简化。 2. 分层正则化:对得分函数中的不同参数项,分别乘以 \(\sqrt{N}, \sqrt{I}, \sqrt{J}\) 等缩放因子,构造正则化得分向量。 3. 信息矩阵的渐近分块化:计算正则化信息矩阵,证明其非对角块(如固定效应与方差分量的交叉信息、行方差与列方差的交叉信息)在任意增长率下渐近为零。 4. 逆信息矩阵的近似:利用分块对角近似,给出逆信息矩阵的显式渐近表达式,即为结构化协方差矩阵。 5. 渐近正态性的建立:对正则化得分函数应用鞅差分或弱依赖序列的中心极限定理(因数据非独立,需按行/列结构构造鞅或依赖图),结合二次型的矩收敛,完成证明。
- 关键跳跃点:
- 信息矩阵非对角块的渐近消失:这是最吃功夫的一步。在交叉模型中,行方差得分与列方差得分在有限样本下有非零协方差(因为观测同时受行和列影响)。作者需证明,无论 \(I/J\) 如何增长,这些协方差除以相应的缩放因子后趋于零。难点在于缩放因子的选择必须精确匹配信息量的发散速率,否则余项无法控制。
-
非独立数据的CLT:观测值因共享随机效应形成复杂依赖图(同一行的观测相关,同一列的观测相关)。作者需将得分函数分解为按行或按列的独立增量,构造鞅差分结构,绕开独立同分布CLT的失效。
-
技术技巧点名:
- Kronecker结构协方差矩阵的谱分解:用于简化 \(\boldsymbol{V}^{-1}\) 与二次型的计算,起作用在步骤1。
- 鞅差分中心极限定理:用于处理交叉依赖下的线性型与二次型渐近分布,起作用在步骤5。
- 分块矩阵求逆的渐近近似:用于从信息矩阵的渐近分块对角性导出逆矩阵的显式结构,起作用在步骤4。
- 矩方法与高阶矩控制:用于处理非正态假设下二次型的收敛,起作用在步骤5的方差计算。
真实例子与应用: 本文为纯理论论文,无实证数据例子。但作者在推导中明确指出,结构化协方差矩阵的显式表达式可直接用于构造Wald置信区间与假设检验,无需数值计算完整的观测信息矩阵,这是其实用价值所在。
🔎 结论是否比证明窄: - 作者在定理中严格证明了方差分量远离零边界时的渐近正态性。但在intro与讨论中,泛泛 claim 该结果“为交叉分类数据的推断提供理论支持”,未触及方差分量在零边界附近(实际中极常见,如检验某随机效应是否存在)时Wald检验的已知异常(Battey & McCullagh 2023 指出Wald在此失效)。这是一个结论窄于claim的地方,研究者需注意:本文的渐近分布仅在参数内点严格成立,边界推断需另寻LRT或修正方法。
四、开放问题(点到为止)¶
- 方差分量在零边界处的渐近分布:本文定理要求方差分量严格大于零。当检验 \(\sigma_r^2 = 0\) 或 \(\sigma_c^2 = 0\) 时,Wald统计量几何异常,需推导交叉结构下似然比检验的 \(\bar{\chi}^2\) 分布权重。扎根点:作者intro中未引用 Battey & McCullagh (2023) 对Wald异常的警告,且定理假设明确排除了边界。
- 不等重复单元格的渐近理论:本文假设各单元格重复数 \(K\) 相等。当 \(K_{ij}\) 不等且随 \(I,J\) 变化时,分层正则化的缩放因子如何选取?扎根点:作者在设定中写明“assume equal \(K\) for simplicity”,未给出不等重复的推广路线。
- 高维固定效应(\(p \to \infty\))的联合渐近:本文固定效应维度 \(p\) 有限。若 \(p\) 随 \(N\) 发散,信息矩阵的逆渐近近似是否仍成立?扎根点:作者假设中 \(\boldsymbol{X}^T \boldsymbol{V}^{-1} \boldsymbol{X}\) 的发散速率仅针对有限 \(p\),未讨论 \(p \to \infty\)。
- 与矩阵正态/Kronecker协方差估计的理论交汇:交叉随机效应模型的协方差结构本质上是矩阵正态分布的 Kronecker 结构。本文的渐近结果与高维矩阵正态估计的随机矩阵理论(如样本协方差矩阵的谱极限)有无技术交集或可借鉴的界?扎根点:intro完全未引用随机矩阵或矩阵正态渐近的文献,这是一个值得去查的空白。
Maintained by 陈星宇 · Homepage · Source on GitHub