Asymptotic distribution of maximum likelihood estimator in generalized linear mixed models with crossed random effects¶
作者: Jiming Jiang
来源: Annals of Statistics
主题: 其他
相关性: 6/10
机构绿灯: University of California, Davis(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/25-aos2504
一、领域脉络与小综述¶
这个方向是什么: 广义线性混合模型(GLMM)中的交叉随机效应估计问题,核心在于当数据结构呈现多维度交叉(如行与列的双向聚类)时,似然函数因涉及不可观测随机效应的高维积分而无法显式写出。这导致最大似然估计(MLE)的渐近理论(特别是相合性之后的极限分布)长期处于空白状态。该子方向目前处于"相合性已解决、渐近分布刚破局、高维/非参拓展尚待开垦"的成熟度阶段。
发展脉络(history): - 奠基与计算困境:GLMM与交叉效应的奠基工作可追溯至纵向与面板数据的经典文献(如 McCulloch & Searle 2001)。作者在 intro 中明确指出,这类模型"infamously known to present major challenges not only computationally but also theoretically"——计算上因积分不可 tractable 而无法直接优化,理论上因似然无显式表达而无法套用标准 MLE 渐近理论。 - 相合性的确立:Jiang (2015, JASA) 在此方向迈出关键一步,首次严格证明了交叉随机效应 GLMM 下 MLE 的强相合性。但作者在本文 intro 中点出其留下的口子:"to date only consistency of the maximum likelihood estimators (MLE) has been proved"——相合性只解决了"估得准",但"估的分布是什么"依然未知,导致置信区间与假设检验无法构造。 - 替代路线与瓶颈:在 MLE 路线卡壳的同时,学界发展了替代估计方法。Jiang & Rao (2003) 提出了基于矩的估计,绕开了似然计算;Lin & Breslow (1996) 等探索了边际似然与惩罚拟似然(PQL)。然而,作者在本文中暗示(且学界共识亦如此),这些替代方法在交叉效应下要么效率受损,要么渐近性质更难刻画,MLE 的渐近正态性仍是"open problem dating back to decades ago"。 - 本文的位置:本文填补了从 consistency 到 asymptotic normality 之间的理论鸿沟,核心创新在于不依赖似然函数的显式表达,而是通过二阶拉普拉斯近似与条件期望的大型方程组渐近求逆,直接逼近 MLE 的随机展开项。
子线索聚类: 1. 似然路线(MLE 的渐近理论):从经典 MLE 理论(Cramer 条件等)出发,试图在似然不可 tractable 时建立极限分布。Jiang (2015) 证明了相合性,本文证明了渐近正态性。 2. 计算与近似路线(Laplace / PQL / MCMC):侧重于如何近似那个高维积分。Lin & Breslow (1996) 讨论了 Laplace 近似在 GLMM 中的偏误修正;Breslow & Clayton (1993) 提出 PQL。本文的技术虽然也叫"Laplace approximation",但用途完全不同——不是为了算似然值,而是为了展开条件期望的系数。 3. 矩与 GMM 路线:完全绕开似然,用矩条件做估计。Jiang & Rao (2003) 是代表。本文在 intro 中未重点讨论此路线,意味着作者坚定站在 MLE 效率理论的阵地上。
这个方向在追问的核心问题: 1. 识别与估计:交叉随机效应下,参数的 identifiability 条件是什么?(Jiang 2015 已部分回答,但依赖于特定矩条件)。 2. 渐近分布:MLE 的渐近分布是否存在、形式为何、方差矩阵如何表达?(本文核心回答)。 3. 计算可行性:即使理论证明了渐近正态,MLE 的计算仍需迭代积分近似,计算复杂度随交叉维数如何增长?(本文未触及)。 4. 效率界:在半参数框架下(随机效应分布未指定),MLE 是否达到效率界?(本文未讨论,留给了半参数因果推断的后续拓展)。
⚠️ 作者的 framing: - 作者的 framing:作者将缺口 frame 为"似然不可 tractable 时,MLE 渐近分布无法用经典理论推导",从而让自己的"条件期望展开 + 渐近求逆"成为"obvious next step"——既然似然函数走不通,那就走似然方程,而似然方程的核心是条件期望,把条件期望近似出来,就能把 MLE 的随机展开做出来。 - 被淡化的竞争路线:矩估计(MOM)路线被完全淡化。对于纯理论目的(证明存在性),MOM 可能更容易;但作者显然追求的是 MLE 的效率优势,因此选择了一条更难的路。 - 缺失的引用:intro 中未见对半参数效率理论(如 Bickel et al. 1993, semiparametric efficiency bounds)或高维随机效应(如随机矩阵理论处理高维协方差结构)的引用。如果研究者想拓展,这两条是必须去查的 gap:随机效应的分布假设是否可以放宽到半参数?交叉维数 \(m_1, m_2\) 趋于无穷的相对速率是否可以引入高维渐近?
张力: 未见明显对立引用。Jiang (2015) 的相合性与本文的渐近正态性是顺延关系;矩路线与似然路线在估计目标上不同,不构成结论矛盾,只是路线分歧。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(\beta\):固定效应系数(\(p\) 维向量),是本文要估的核心目标。
- \(\sigma^2\):随机效应的方差参数(若为双向交叉,则有 \(\sigma_1^2, \sigma_2^2\) 等)。
- 随机变量 / 样本:
- \(y_{ij}\):第 \(i\) 行、第 \(j\) 列的响应变量(观测值)。
- \(x_{ij}\):对应的 \(p\) 维协变量(设计矩阵的一行)。
- \(u_i, v_j\):行随机效应与列随机效应,分别服从 \(N(0, \sigma_1^2)\) 与 \(N(0, \sigma_2^2)\),相互独立。
- 维数 / 样本量等指标:
- \(m_1\):行聚类数(行随机效应个数)。
- \(m_2\):列聚类数(列随机效应个数)。
- \(n\):总观测数,在完全交叉下 \(n = m_1 m_2\);在稀疏交叉下 \(n < m_1 m_2\)。
- \(p\):固定效应维数,假定 \(p\) 固定,\(m_1, m_2 \to \infty\)。
- 潜在 / 不可观测量:
- \(u_i, v_j\) 是潜在量,永远不可观测,只能通过 \(y_{ij}\) 的分布间接识别。
- 模型(数据生成机制):
- GLMM 的核心结构:\(E[y_{ij} | u_i, v_j] = h(\eta_{ij})\),其中 \(\eta_{ij} = x_{ij}^\top \beta + u_i + v_j\) 是线性预测子,\(h\) 是已知的逆链接函数(如 logistic 模型中 \(h = \text{expit}\))。
- 给定 \(u_i, v_j\),\(y_{ij}\) 服从指数族分布(如 Bernoulli、Poisson)。
- \(u_i \sim N(0, \sigma_1^2)\),\(v_j \sim N(0, \sigma_2^2)\),相互独立。
- 可观测数据:
- 研究者实际观测到的是 \(\{(y_{ij}, x_{ij}) : i \in \{1,\dots,m_1\}, j \in \{1,\dots,m_2\}\}\) 的一个子集(可能稀疏)。\(u_i, v_j\) 不可观测,只能靠正态分布假设去识别。
第二步:最小内核——二值响应、双向完全交叉、单固定效应
剥掉所有一般性,考虑最简特例: - \(p=1\)(只有一个固定效应参数 \(\beta\))。 - \(y_{ij} \in \{0, 1\}\)(Bernoulli,logistic GLMM)。 - \(\eta_{ij} = \beta + u_i + v_j\)(无协变量,只有截距与交叉随机效应)。 - 完全交叉设计:每个 \(i\) 与每个 \(j\) 都有观测,\(n = m_1 m_2\)。
在这个特例下,要证的命题退化成什么? 证明:当 \(m_1, m_2 \to \infty\) 且 \(m_1 / m_2 \to c \in (0, \infty)\) 时,MLE \(\hat{\beta}\) 满足
核心困难与破法(一看就懂): - 困难:似然函数 \(L(\beta) = \prod_{i,j} \int \int P(y_{ij} | \beta, u_i, v_j) d\Phi(u_i/\sigma_1) d\Phi(v_j/\sigma_2)\) 是 \(m_1 + m_2\) 重积分,无法写出显式表达式,更无法求导得到经典的 Fisher Information。 - 破法:MLE 满足似然方程 \(S(\hat{\beta}) = 0\),其中 \(S(\beta) = \sum_{i,j} (y_{ij} - E[y_{ij} | \beta]) x_{ij}\)。关键在于:\(E[y_{ij} | \beta]\) 仍是 \(m_1 + m_2\) 重积分(条件期望不可 tractable)。作者的想法是:用二阶拉普拉斯近似把 \(E[y_{ij} | \beta]\) 展开成 \(\beta\) 的多项式 + 余项,然后把所有 \(i,j\) 的近似式组装成一个关于 \(\{E[y_{ij} | \beta]\}\) 的大型线性方程组,对这个方程组渐近求逆,得到 \(E[y_{ij} | \beta]\) 的显式近似 \(\tilde{E}_{ij}\)。最后,把 \(\tilde{E}_{ij}\) 代入似然方程,\(S(\beta)\) 变成了一个可 tractable 的随机量,对其做 Taylor 展开 \(\hat{\beta} - \beta \approx -[S'(\beta)]^{-1} S(\beta)\),即可证明渐近正态性。
为什么成立:拉普拉斯近似在 \(m_1, m_2 \to \infty\) 时,积分域的集中性使得近似误差以 \(O(1/\min(m_1, m_2))\) 的速率衰减,二阶近似足以控制余项;而大型方程组的渐近求逆利用了交叉设计下矩阵的块结构(行与列的对称性),使得逆矩阵的元素可以显式写出。
三、这篇论文做了什么¶
三句话: ①研究了交叉随机效应 GLMM 中 MLE 的渐近分布问题。 ②核心工具是二阶拉普拉斯近似条件期望 + 渐近求逆大型方程组。 ③主要结论是严格证明了 MLE 的渐近正态性,并给出了极限方差矩阵的显式结构。
关键设定与假设: 在第二节最小记号的基础上,补全完整设定: - GLMM 一般设定:\(y_{ij}\) 服从指数族,线性预测子 \(\eta_{ij} = x_{ij}^\top \beta + u_i + v_j\),\(u_i \sim N(0, \sigma_1^2)\),\(v_j \sim N(0, \sigma_2^2)\),\(u_i, v_j\) 相互独立且与 \(x_{ij}\) 独立。 - 交叉设计:观测指标集 \(\mathcal{D} \subseteq \{1,\dots,m_1\} \times \{1,\dots,m_2\}\),允许稀疏交叉(不必完全观测)。 - 渐近框架:\(m_1, m_2 \to \infty\),\(m_1 / m_2 \to \rho \in (0, \infty)\)(双向同阶增长);\(p\) 固定。 - 核心假设(统计含义): 1. 参数空间紧致且内点:\(\beta, \sigma_1^2, \sigma_2^2\) 在紧集内部,保证 MLE 不落在边界(避免渐近分布非正态)。 2. 设计矩阵满秩:\(\sum_{(i,j)\in\mathcal{D}} x_{ij} x_{ij}^\top\) 随 \(n \to \infty\) 正定,保证 \(\beta\) 可识别。 3. 链接函数与指数族的正则条件:类似经典 MLE 理论的 Cramer 条件,保证三阶导数有界、矩存在。 4. 随机效应方差非零:\(\sigma_1^2, \sigma_2^2 > 0\),若方差为零则退化回 GLM,不属于本文范围。 - 相比已有文献的放宽/强化:Jiang (2015) 证明相合性时,对条件期望的近似要求较低(一阶即可);本文需要二阶近似,因此对链接函数的光滑性要求更强(需要四阶导数有界以控制余项)。
主要结果: - Theorem 1(渐近正态性):在上述假设下,MLE \(\hat{\beta}\) 满足
证明路线与技术技巧: - 整体路线(5步): 1. 写出似然方程:MLE \(\hat{\beta}\) 满足 \(\sum_{i,j} (y_{ij} - \mu_{ij}(\beta)) x_{ij} = 0\),其中 \(\mu_{ij}(\beta) = E[y_{ij} | \beta]\) 是不可 tractable 的条件期望。 2. 二阶拉普拉斯近似展开 \(\mu_{ij}(\beta)\):对 \(\mu_{ij}(\beta) = \int \int h(\beta + u_i + v_j) d\Phi(u_i) d\Phi(v_j)\) 做二阶 LA,得到 \(\mu_{ij}(\beta) \approx h(\beta) + A_1(\beta) \sigma_1^2 + A_2(\beta) \sigma_2^2 + B(\beta) \sigma_1^2 \sigma_2^2 + \text{余项}\),其中 \(A_1, A_2, B\) 是由 \(h\) 的导数决定的已知函数。 3. 组装大型方程组并渐近求逆:把所有 \((i,j)\) 的近似式写成关于 \(\{\mu_{ij}\}\) 的线性方程组 \(M \mu = b + r\),其中 \(M\) 是 \(n \times n\) 的块结构矩阵(利用行/列的对称性),\(b\) 是已知向量,\(r\) 是余项。对 \(M\) 做渐近求逆,得到 \(\mu \approx M^{-1} b + M^{-1} r\),显式写出 \(M^{-1}\) 的元素。 4. 代入似然方程并 Taylor 展开:把 \(\mu_{ij}\) 的显式近似代入似然方程,得到 \(S(\beta) = \sum (y_{ij} - \tilde{\mu}_{ij}) x_{ij} + \text{可控余项}\)。对 \(\hat{\beta}\) 在 \(\beta\) 处 Taylor 展开:\(\hat{\beta} - \beta \approx -[S'(\beta)]^{-1} S(\beta)\)。 5. 证明渐近正态性:\(S(\beta)\) 是独立同分布随机变量的和(给定随机效应分布后),其缩放后依分布收敛到正态;\(S'(\beta)\) 收敛到信息矩阵 \(V\);余项在 \(\sqrt{n}\) 缩放下依概率收敛到零。 Slutsky 定理完成证明。
- 关键跳跃点:
- Lemma 3(渐近求逆):这是最吃功夫的一步。\(M\) 是 \(m_1 m_2 \times m_1 m_2\) 的矩阵,直接求逆不可行。作者利用了交叉设计下 \(M\) 的 Kronecker 结构(行效应与列效应的乘积结构),将求逆问题转化为两个较小矩阵(\(m_1 \times m_1\) 与 \(m_2 \times m_2\))的求逆,再通过谱分解显式写出逆矩阵的元素,并证明了逆矩阵元素的渐近行为。
-
Lemma 5(余项控制):二阶 LA 的余项在 \(\sqrt{n}\) 缩放下的量级是 \(O_P(n^{-1/2} \cdot \max(m_1, m_2)^{-1})\),需要精细的矩计算来证明它依概率趋于零。
-
技术技巧点名:
- 二阶 Laplace approximation:用于展开条件期望 \(\mu_{ij}(\beta)\),起作用在步骤 2,将不可 tractable 的双重积分化为多项式 + 余项。
- Kronecker product / Block matrix asymptotic inversion:用于步骤 3,利用交叉设计的矩阵结构将大型求逆降维,显式写出逆矩阵。
- Conditional expectation expansion:步骤 2 的核心,把 \(E[h(\beta + u + v)]\) 展成 \(\beta\) 的多项式,系数由 \(h\) 的导数与 \(\sigma^2\) 决定。
- Taylor expansion with remainder control:步骤 4-5,对 MLE 做一阶展开,余项用二阶导数的界控制。
- Martingale / CLT for dependent sums:步骤 5 中,\(S(\beta)\) 的随机项虽然形式上依赖所有随机效应,但通过条件期望的近似,可以剥离出独立结构,应用经典 CLT。
真实例子与应用:
本文为纯理论 / 无实证例子。论文未包含任何真实数据分析、模拟实验或数值验证。所有结论均为严格数学证明。研究者若想看该方法的数值表现,需自行模拟交叉随机效应的 GLMM 数据并计算 MLE(可用 R 包 lme4 的 glmer 等作为计算工具,但需注意 glmer 用的是 Laplace/PQL 近似,与本文的理论近似有差异)。
🔎 结论是否比证明窄: - 本文的定理陈述与证明条件严格一致,未见泛泛 claim 或 conjecture。 - 唯一值得注意的"窄"点:定理要求 \(m_1 / m_2 \to \rho \in (0, \infty)\)(双向同阶增长)。若 \(m_1 \gg m_2\)(如行数远大于列数),证明中的渐近求逆与余项控制可能失效,但作者未讨论这种非平衡增长的情形,也未 conjecture 结论是否仍成立。这是一个潜在的窄结论点。
四、开放问题(点到为止,扎根具体语句)¶
- 非平衡交叉维数下的渐近分布:当 \(m_1 / m_2 \to \infty\) 或 \(0\) 时,二阶 LA 的余项与渐近求逆是否仍可控?扎根在本文定理条件 "\(m_1 / m_2 \to \rho \in (0, \infty)\)" 的限制——若放宽此条件,需重新评估 Lemma 3 与 Lemma 5 的收敛速率。
- 随机效应分布的半参数放宽:本文假设 \(u_i, v_j \sim N(0, \sigma^2)\)。若只假设 \(E[u_i]=0, E[u_i^2]=\sigma^2\) 而不指定分布,拉普拉斯近似失效,需寻找新的条件期望近似工具(如半参数效率界下的 influence function 展开)。扎根在 intro 对 "random effects" 的隐性正态假设——未见任何引用讨论非正态情形。
- 高维固定效应(\(p \to \infty\)):本文假定 \(p\) 固定。若 \(p\) 随 \(n\) 增长(如 \(p = o(n^{1/2})\)),MLE 的渐近正态性需要 debiased / desparsified 技术,且信息矩阵的求逆需引入高维渐近或随机矩阵理论。扎根在本文假设 "\(p\) is fixed" 的明确限制。
- 计算复杂度与统计-计算 tradeoff:本文证明了 MLE 的渐近正态性,但 MLE 的计算仍需迭代积分近似。是否存在多项式时间可计算的替代估计量,达到与 MLE 相同的渐近方差(即无 information-computation gap)?扎根在 intro 对 "computationally challenging" 的提及——本文只解决了理论侧,计算侧的 gap 仍开放。
提醒:要确认第 2 条(半参数放宽)是否是真 gap,建议去查近 5 年 GLMM / semiparametric efficiency 的 intro——若都指向正态假设的依赖,则为共识;若已有工作在单向随机效应下实现了半参数放宽,则交叉效应下的半参数是明确的下一步。
Maintained by 陈星宇 · Homepage · Source on GitHub