Likelihood Ratio Tests in Random Graph Models with Increasing Dimensions¶
作者: Ting Yan, Yuanzhang Li, Jinfeng Xu, Yaning Yang, Ji Zhu
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向研究的是网络/图模型参数在维数随样本量发散时,似然比检验(LRT)的渐近分布。根本统计问题是:当参数个数(例如节点数 \(n\))趋向无穷,经典低维下 Wilks 定理(\(2\log \text{LR} \to \chi^2_{df}\))是否依然成立?若不成立,偏差有多大、该如何修正?当前该方向处于高维渐近理论初步成型但模型覆盖面尚窄的阶段——\(\beta\)-模型与 Bradley-Terry 模型的 Wilks 现象刚被严格刻画,但更一般的图模型、带协变量的版本、以及不同原假设设定下的系统性理论尚未建立。
发展脉络: - 奠基工作:经典 Wilks (1938) 证明了固定维数下 \(2\log \text{LR}\) 的 \(\chi^2\) 极限;这是所有后续工作的出发点。 - 高维渐近的早期进展:Portnoy (1988) 等人开始研究维数 \(p\) 随 \(n\) 发散时 MLE 的渐近正态性,为高维 LRT 奠定了数学语言。 - 图模型 MLE 渐近性的建立:Chatterjee, Diaconis & Mukherjee (2011) 给出了 \(\beta\)-模型 MLE 的收敛速率与渐近正态性;Yan & Xu (2013) 将类似结果拓展至 Bradley-Terry 模型。这些工作解决了“高维 MLE 存在且收敛”的问题,但留下了 LRT 渐近分布的空白。 - 当前 frontier 与本文位置:本文 (Yan et al.) 直接填补了上述空白——在 \(n \to \infty\) 且原假设维数 \(r\) 固定或发散的设定下,严格推导了 \(\beta\)-模型与 Bradley-Terry 模型中 LRT 的极限分布,发现了高维齐性原假设下的正态极限与指定原假设下两模型的本质分歧。
子线索聚类: 1. 高维 MLE 渐近理论:聚焦于参数发散时 MLE 的存在性、一致性及渐近正态性(Chatterjee et al. 2011; Yan & Xu 2013)。本文的 LRT 理论完全依赖这条线索的速率结果。 2. 高维 LRT / Wilks 现象:聚焦于维数发散时似然比统计量的极限分布(Portnoy 1988; Murphy 1993)。本文属于此线索,但将对象从独立样本移到了图数据。 3. 图模型的渐近展开技术:聚焦于处理图数据中复杂依赖结构的渐近展开方法。本文在此线索上贡献了新的技术工具(Saddlepoint 展开与 Fisher 信息矩阵的渐近逆)。
这个方向在追问的核心问题: 1. 高维 Wilks 现象是否普适? 在参数发散的图模型中,\(2\log \text{LR}\) 是否仍服从 \(\chi^2\)?若不服从,其真实极限是什么? 2. 原假设维数 \(r\) 的发散速率如何影响极限分布? \(r\) 固定与 \(r \to \infty\) 是否导致完全不同的渐近形态? 3. 不同图模型的结构差异是否导致 LRT 渐近行为的根本分歧? \(\beta\)-模型(对称)与 Bradley-Terry 模型(非对称)在相同原假设下是否表现一致?
⚠️ 作者的 framing: - 作者将缺口 frame 为:“图模型的高维 MLE 渐近性已有结果,但 LRT 的 Wilks 现象完全空白”——这让本文成为“显然的下一步”。 - 被淡化的竞争路线:作者未讨论基于随机矩阵理论的谱方法检验(如测试图是否为 Erdős–Rényi 的最大特征值检验),也未讨论基于半参数/去偏 ML 的检验。这些路线在更一般的图模型中可能更稳健,但本文聚焦于参数模型的 LRT。 - 明显该被引却未出现的:高维 GLM 中 LRT 的近期理论(如 Sur & Candès 2019 对高维 Logistic 回归 MLE 的精确渐近分析)。Sur & Candès 的结果直接处理了高维二值响应模型的似然行为,与本文的 \(\beta\)-模型(本质上是 \(n\) 个节点的 Logistic 回归)高度相关,但 intro 中未提及——这是一个值得研究者去查的缺口:本文的渐近展开与 Sur & Candès 的 CGMT 路线是否兼容?能否互相印证?
张力: 未见明显对立引用。但本文揭示了一个模型间的内在张力:在指定原假设 \(H_0: \beta_i = \beta_{i0}\) 且 \(r\) 固定下,\(\beta\)-模型的 LRT 服从 \(\chi^2_r\),而 Bradley-Terry 模型的 LRT 不服从 \(\chi^2_r\)。这打破了“Wilks 现象跨模型普适”的直觉,是一个高价值信号。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- \(n\):图的节点数,也是参数维数(发散指标)。
- \(A\):\(n \times n\) 的邻接矩阵,\(A_{ij}\) 为可观测的二值随机变量(\(1\) 表示连边,\(0\) 表示不连边)。
- \(\beta = (\beta_1, \dots, \beta_n)^\top\):\(\beta\)-模型的参数向量,每个 \(\beta_i\) 是节点 \(i\) 的参数(estimand)。
- \(p_{ij}\):节点 \(i\) 与 \(j\) 连边的概率,\(p_{ij} = \exp(\beta_i + \beta_j) / (1 + \exp(\beta_i + \beta_j))\)(\(\beta\)-模型);或 \(p_{ij} = \exp(\beta_i) / (\exp(\beta_i) + \exp(\beta_j))\)(Bradley-Terry 模型,\(i \neq j\))。
- \(l(\beta)\):对数似然函数 \(l(\beta) = \sum_{i<j} [A_{ij} \log p_{ij} + (1-A_{ij}) \log(1-p_{ij})]\)(可观测数据 \(A\) 的函数)。
- \(\hat{\beta}\):全参数空间下的 MLE(随机变量)。
- \(\hat{\beta}_0\):原假设约束空间下的 restricted MLE(随机变量)。
- \(r\):原假设涉及的参数维数(\(r \leq n\),可固定或发散)。
- \(\Lambda_n\):似然比统计量,\(\Lambda_n = 2[l(\hat{\beta}) - l(\hat{\beta}_0)]\)(要研究其渐近分布的统计量)。
- 潜在/不可观测量:真实的参数向量 \(\beta^0\)(只能通过 MLE 估计,需假设其处于参数空间的内部以保证 MLE 存在)。
第二步:最小内核——齐性原假设 \(H_0: \beta_1 = \cdots = \beta_r\) 且 \(r \to \infty\)
剥掉所有一般性技术假设,本文最吃劲的数学内核是:当原假设维数 \(r\) 随 \(n\) 发散时,如何将 \(\Lambda_n\) 的偏差与方差精确展开到 \(O_p(1)\) 级别,从而得到非 \(\chi^2\) 的正态极限?
在 \(\beta\)-模型的齐性原假设 \(H_0: \beta_1 = \cdots = \beta_r\) 下,最小内核退化成如下问题: - 设 \(r \to \infty\),原假设下所有 \(r\) 个节点共享同一参数 \(\beta^*\)。 - 经典 Wilks 定理期望 \(\Lambda_n \approx \chi^2_{r-1}\),但当 \(r\) 很大时,\(\chi^2_{r-1}\) 本身经中心化归一化后也趋向正态 \((\chi^2_{r-1} - (r-1))/\sqrt{2(r-1)} \to N(0,1)\)。 - 核心数学困难:\(\Lambda_n\) 的均值不是 \(r-1\),方差不是 \(2(r-1)\)。由于高维 MLE 的偏差,\(\Lambda_n\) 存在非平凡的 \(O(r)\) 级别偏差项,必须精确扣除。 - 本文的破法:通过渐近展开,证明 \(\Lambda_n - r\) 的偏差被精确捕捉,使得归一化统计量 \(W_n = (\Lambda_n - r)/\sqrt{2r}\) 的均值趋于 \(0\)、方差趋于 \(1\),从而 \(W_n \to N(0,1)\)。 - 为什么成立(直觉):在高维下,\(\Lambda_n\) 可分解为二次型 \(\sum_{i=1}^r (\hat{\beta}_i - \hat{\beta}^*_0)^2 \cdot I_{ii}\) 加上高阶余项。由于 \(r\) 个参数独立地偏离约束,二次型求和后中心极限定理接管,余项在合适的矩条件下被控制到 \(o_p(\sqrt{r})\)。
三、这篇论文做了什么¶
三句话: ① 研究了 \(\beta\)-模型与 Bradley-Terry 模型中,参数维数发散时似然比检验统计量的渐近分布问题。 ② 核心工具是针对图模型依赖结构发展的高维渐近展开技术(Fisher 信息矩阵的渐近逆与 Taylor 展开的精细余项控制)。 ③ 主要结论是:齐性原假设下归一化 LRT 服从正态分布(高维 Wilks 现象),但指定原假设下两模型出现本质分歧(\(\beta\)-模型服从 \(\chi^2\),Bradley-Terry 模型不服从)。
关键设定与假设: - 设定:参数维数 \(n \to \infty\),原假设维数 \(r\) 可固定或 \(r \to \infty\)(但 \(r/n \to 0\) 以保证 MLE 一致性)。 - 假设 1(参数空间内部):真实参数 \(\beta^0\) 处于紧集内部,且 \(p_{ij}\) 远离 \(0\) 和 \(1\)(即 \(\max_i |\beta_i^0| \leq M\))。这保证了 MLE 的存在性与渐近正态性(沿用 Chatterjee et al. 2011 的条件)。 - 假设 2(原假设结构):分两类——(a) 齐性 \(H_0: \beta_1 = \cdots = \beta_r\);(b) 指定 \(H_0: \beta_i = \beta_{i0}\) for \(i=1,\dots,r\)。 - 假设 3(发散速率):对 \(r \to \infty\) 的情形,要求 \(r = o(n^{1/3})\)(Bradley-Terry 模型)或 \(r = o(n^{1/2})\)(\(\beta\)-模型),以确保展开余项可被吸收。 - 统计含义:假设 3 意味着原假设维数不能增长太快,否则高维偏差将淹没正态极限;这比 Portnoy (1988) 的 \(p=o(n^{1/2})\) 更严,因为图数据的依赖结构导致 Fisher 信息矩阵的逆更难控制。
主要结果: 1. 定理 1(齐性原假设,\(r \to \infty\)):在 \(H_0: \beta_1 = \cdots = \beta_r\) 且 \(r \to \infty\) 下,\(W_n = (\Lambda_n - r)/\sqrt{2r} \overset{d}{\to} N(0,1)\)。 - 直觉:\(\Lambda_n\) 的自由度 \(r-1\) 在发散时,\(\chi^2_{r-1}\) 本身趋向正态,但 \(\Lambda_n\) 有额外偏差需扣除 \(r\)(而非 \(r-1\)),归一化后正态接管。 - 必要条件:\(r/n \to 0\) 且 \(r = o(n^{1/3})\)(BT 模型)。 2. 定理 2(指定原假设,\(r\) 固定):在 \(H_0: \beta_i = \beta_{i0}\) 且 \(r\) 固定下,\(\beta\)-模型的 \(\Lambda_n \overset{d}{\to} \chi^2_r\);但 Bradley-Terry 模型的 \(\Lambda_n\) 不收敛到 \(\chi^2_r\)。 - 直觉:\(\beta\)-模型的 Fisher 信息矩阵在约束下仍保持对角占优,LRT 的二次型保持独立;BT 模型的 Fisher 信息矩阵因非对称性导致约束参数与非约束参数的耦合不可消除,二次型不再独立。 - 解决的技术难点:证明 BT 模型中 \(\Lambda_n\) 不服从 \(\chi^2\) 需要精确计算二次型的协方差结构,证明其非对角项不消失。 3. 定理 3(齐性原假设,\(r\) 固定):在 \(H_0: \beta_1 = \cdots = \beta_r\) 且 \(r\) 固定下,\(\Lambda_n \overset{d}{\to} \chi^2_{r-1}\)(经典 Wilks 定理在高维图模型中的重生)。 - 必要条件:\(n \to \infty\),\(r\) 固定。
证明路线与技术技巧: - 整体路线: 1. MLE 渐近展开:将 \(\hat{\beta} - \hat{\beta}_0\) 在 \(\beta^0\) 处展开为 Fisher 信息矩阵逆与得分向量的乘积,加上二阶余项。 2. Fisher 信息矩阵的渐近逆:计算全参数空间与约束参数空间的 Fisher 信息矩阵 \(I_n\) 与 \(I_0\),利用图模型的稀疏结构(\(I_n\) 近似对角)求其渐近逆。 3. 二次型分解:将 \(\Lambda_n\) 表达为 \((\hat{\beta} - \hat{\beta}_0)^\top I_0 (\hat{\beta} - \hat{\beta}_0)\) 加上高阶项,计算二次型的均值与方差。 4. 偏差扣除与归一化:对 \(r \to \infty\) 情形,精确计算二次型均值为 \(r + O(1)\),方差为 \(2r + O(1)\),构造 \(W_n\) 并用中心极限定理(CLT for dependent quadratic forms)证明正态极限。 5. 余项控制:用矩不等式将二阶 Taylor 展开余项控制到 \(o_p(\sqrt{r})\)。 - 关键跳跃点: - Fisher 信息矩阵逆的渐近表达:\(I_n^{-1}\) 不是简单的对角阵,BT 模型中非对角项代表参数耦合。作者通过巧妙的分块矩阵求逆与渐近近似,将 \(I_n^{-1}\) 表达为对角占优部分加小扰动,这是整个展开的基石。 - 指定原假设下 BT 模型的非 \(\chi^2\) 证明:需证明二次型中交叉项 \(I_{ij}(\hat{\beta}_i - \beta_{i0})(\hat{\beta}_j - \beta_{j0})\) 的协方差在 \(n \to \infty\) 时不消失,这要求精确追踪 MLE 协方差矩阵的极限结构。 - 技术技巧点名: - Fisher 信息矩阵的分块求逆与渐近近似:用于处理约束与无约束参数空间的耦合(起作用:将 \(I_n^{-1}\) 化为可计算的形式)。 - 高维二次型的 CLT:用于 \(r \to \infty\) 时 \(W_n\) 的正态极限(起作用:处理依赖的二次型求和)。 - Taylor 展开的精细余项控制:用三阶导数的界将余项压到 \(o_p(\sqrt{r})\)(起作用:保证展开的主项占优)。 - Saddlepoint / 矩生成函数技术(隐含在偏差计算中):用于精确计算二次型的均值与方差(起作用:捕捉 \(O(r)\) 级别的偏差)。
真实例子与应用: - 数据:两个真实网络数据——(1) 南方女性社交网络(18 足点,89 边);(2) 猴子互动网络(16 足点)。 - 怎么用上去:对这两个网络拟合 \(\beta\)-模型与 Bradley-Terry 模型,计算齐性原假设(测试所有节点参数是否相等)的 LRT 统计量,并与理论极限分布(正态或 \(\chi^2\))对比。 - 结果:在小网络(\(n=18, 16\))上,归一化 LRT 的 \(p\)-值与正态极限和 \(\chi^2\) 极限吻合,验证了理论的实用性。 - 想说明什么:即使 \(n\) 较小(\(<20\)),高维 Wilks 现象的渐近近似仍可用,展示了理论的稳健性。
🔎 结论是否比证明窄: - 论文在定理陈述中明确要求了 \(r = o(n^{1/3})\)(BT 模型)的速率条件,但在 abstract 和 intro 中泛泛 claim "as \(r\) goes to infinity",未强调速率限制——这是一个条件 X 下严格证明却被泛泛 claim 的地方。 - 对于指定原假设下 BT 模型的非 \(\chi^2\) 结论,论文只证明了"不服从 \(\chi^2_r\)",但未给出其真实极限分布的显式表达(只说依赖于具体的 \(\beta^0\))——这是一个窄结论,真实极限的刻画仍是开放的。
四、开放问题(点到为止,扎根具体语句)¶
- 指定原假设下 Bradley-Terry 模型 LRT 的真实极限分布是什么? 论文定理 2 只证明了不服从 \(\chi^2_r\),但未给出显式极限(扎根:定理 2 的陈述 "this is not true in the Bradley–Terry model")。
- 发散速率 \(r/n \to \rho > 0\) 时,Wilks 现象是否崩溃? 当前理论要求 \(r = o(n^{1/3})\),若 \(r\) 与 \(n\) 同阶,偏差项将主导,LRT 的极限形态可能完全不同(扎根:假设 3 的速率限制 \(r = o(n^{1/3})\))。
- 带协变量的 \(\beta\)-模型(如 \(\beta_i + \gamma^\top x_i\))中,高维 Wilks 现象是否成立? 本文未涉及任何协变量版本,而协变量的引入将改变 Fisher 信息矩阵的结构(扎根:intro 中 "applicable to a class of random graph models beyond" 的泛泛声明,但未覆盖带协变量情形)。
- 本文的渐近展开与 Sur & Candès (2019) 的 CGMT 路线是否兼容? intro 未引 Sur & Candès,但两者都处理高维二值响应模型的似然行为,路线不同但对象重叠——需查近期 5 篇高维 Logistic LRT 文献确认这是真 gap 还是已被其他路线解决。
Maintained by 陈星宇 · Homepage · Source on GitHub