Tests on Dynamic Ranking¶

作者: Nan Lu, Jian Shi, Xin-Yu Tian, Kai Song
来源: Statistica Sinica
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Minnesota（US News 前 50，免分进入精读）
链接: https://doi.org/10.5705/ss.202024.0153

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究 “动态排名” 的统计推断问题。具体地，给定一组对象（如球队、选手），在多个时间点上有重复的配对比较数据，我们想对排名背后的潜在得分（score）函数随时间的变化规律进行假设检验。核心任务包括：检验某支队伍的得分是否随时间显著变化、检验两支队伍的得分轨迹是否相似（以便简化模型），以及构造动态排名的函数同时置信带。当前该子方向的成熟度处于方法开发与理论建立的中期阶段：模型（动态 Bradley-Terry）已有，但推断工具（尤其是检验与置信带）尚不完整。

发展脉络（history）¶

本论文的引用网络显示该子领域的发展可大致分为三个阶段：

奠基工作（Bradley & Terry 1952；Luce 1959）：提出了经典的静态 Bradley-Terry 模型，将配对比较数据建模为得分参数的逻辑型函数，奠定了参数化排名的统计基础。这些工作把排名从排序问题转化为参数估计问题。
动态扩展与算法瓶颈（Caron & Doucet 2012；Gormley & Murphy 2008）：将静态模型扩展到时间动态，引入分数随时间平滑变化的假设（例如高斯过程或线性的随机游走）。Caron & Doucet (2012) 提出带有时间平滑先验的动态 Bradley-Terry 模型，但聚焦于贝叶斯推理和算法；这些工作主要关注点估计和预测，几乎没有提供任何正式的假设检验工具。这一点是本文作者明确指出的缺口：“Despite the popularity of the dynamic Bradley-Terry model, the statistical inference problems, particularly hypothesis tests on the score functions and rank properties, have been largely unexplored in the literature”（见 Intro 末段）。
静态检验的启发（Wald 检验、得分检验、似然比检验的经典异质性检验）：作者顺手引用了若干方向内的检验工作，但本文是用它们在静态下检验平行假设的例子；并未有真正针对动态函数形式的设计。

子线索聚类¶

从被引文献看，该方向大致存在三条子线索：

动态排名的参数化建模与算法（如 Caron & Doucet 2012；Gormley & Murphy 2008）：聚焦如何用随机过程灵活表达分数随时间演化，核心诉求是预测和点估计，极少涉及推断或检验。
静态排名中的假设检验（如 Hunter 2004；Davidson 1970）：专攻经典（时间不变）Bradley-Terry 模型下的同质性检验、模型选择（如似然比检验、得分检验等）。这些检验只在两个或几个时间点比较，无法直接推广到连续时间/多个时间点场景。
排名对象的稳定性与置信集构造（一些工程文献如 Csáji & Monostori 2015）：在非参数或经验设定下构造排名的置信区间，但缺乏对函数形式的控制，不适用动态函数型得分。

这个方向在追问的核心问题¶

核心问题1：对于动态Bradley-Terry模型，何时可以认为某对象的得分随时间发生了显著变化（即拒绝常数得分假设）？
核心问题2：什么时候可以将两支队伍的得分轨迹视为等价（简化模型）？
核心问题3：如何给出同时覆盖所有时间点的动态排名的置信带（而不是逐点区间）？
已知瓶颈：基于 supremum 形式（即取函数上确界）的检验统计量通常保守（临界值偏大），且计算困难。例如，对得分函数做 supremum 统计量，当时间点较多时临界值难以准确获得，导致检验功效低下。本文作者在多处强调“overcome the conservativeness issue brought by the supreme form statistics”是其主要创新动机。

⚠️ 作者的 framing （必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 为：“现有的动态 Bradley-Terry 模型推断工具缺失，尤其是假设检验和同时置信带，而本文填补了这一空白”。具体地，作者表明： - “to the best of our knowledge, no formal test has been proposed for the dynamic ranking problems” (引言末段)。 - 作者强调其方法不仅提供了一个统一的检验框架，还特别针对了 supremum 统计量的保守性问题提出了修改方案（基于“signed score difference”）。 - 被淡化或回避的竞争路线：被引的工作中，Caron & Doucet (2012) 等贝叶斯方法虽然能给出后验不确定性，但作者选择了频率学派的检验框架（极大似然+得分检验）并批评了贝叶斯的计算复杂性（但作者很少在北京大学论文中正面对比贝叶斯方法，而是默认读者认同频率学派框架）。另一条可能的方法——用 bootstrap 或经验似然构造排名置信带的解法——完全未被讨论，也没有任何被引文献支持。这可能是作者有意回避的一条路。 - 什么明显该被引 / 该存在、却没出现在 intro 里：与动态排名分析密切相关的多元时间序列的假设检验（如 cointegration 检验、VAR 检验）完全没有被引用。这或许是作者有意保持“纯排名模型”的独立性，但对于试图推广的研究者而言是一个潜在的入口（比如考虑用 Phillips-Perron 单位根检验来代替 supremum 形式的得分检验是否可行）。

张力¶

未见明显对立引用。所有被引论文基本是互补性的（静态 vs. 动态，贝叶斯 vs. 频率学派，点估计 vs. 推断）。这种一致的“缺口定位”使本文的创新点清晰、可信。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \( i, j \)：对象（球队 / 选手）的下标，共 \( N \) 个对象。 - \( t = 1, \dots, T \)：离散的时间点。 - \( Y_{ij,t} \)：在时间 \( t \)，对象 \( i \) 和 \( j \) 比较的结果。取值为 1（\(i\) 胜 \(j\)）或 0（\(j\) 胜 \(i\)）。这是一元的 Bernoulli 随机变量。 - \( \theta_i(t) \)：对象 \( i \) 在时间 \( t \) 的潜在得分（参数）。记为一个长度为 \( T \) 的向量：\( \boldsymbol{\theta}_i = (\theta_i(1), \dots, \theta_i(T))^\top \)。这是模型的主要无观测上限的 estimand（目标），我们想要做关于它的检验。 - \( n_{ij,t} \)：在时间 \( t \) 上 \( i \) 对 \( j \) 的比较数（通常很小，如 1）。 - \( \lambda_{ij}(t) \)：在时间 \( t \) 上，对象 \( i \) 相对于 \( j \) 的赢率。由 Bradley-Terry 形式定义：\( \lambda_{ij}(t) = \log \frac{\mathrm{P}(Y_{ij,t}=1)}{1-\mathrm{P}(Y_{ij,t}=1)} = \theta_i(t) - \theta_j(t) \)。因此模型参数化是逻辑形式的线性函数。 - \( \boldsymbol{\theta} \)：将所有 \( \theta_i(t) \) 堆叠成一个长向量 \( (N \cdot T) \times 1 \)。 - \( \ell_n(\boldsymbol{\theta}) \)：在观察了所有时间点所有配对数据后（假设独立）的对数似然函数。 - \( \mathbf{s}(\boldsymbol{\theta}) = \nabla \ell_n(\boldsymbol{\theta}) \)：得分函数（score function）。

模型：给定 \( \boldsymbol{\theta} \)，在任意时间 \( t \) 和任意对 \( (i,j) \)，该比较结果相互独立：\( Y_{ij,t} \sim \mathrm{Bernoulli}\left( \frac{\exp(\theta_i(t))}{\exp(\theta_i(t)) + \exp(\theta_j(t))} \right) \)。为识别，通常设 \( \theta_1(t) \equiv 0 \)（或均值约束）。

可观测数据：我们有 \( \mathcal{T} \times \binom{N}{2} \) 个潜在比较位（很多是未观测的缺失比较）。但在典型应用（如体育联赛）中，每个时间点只观测到有限组配对。本文假设观测数据形成了完全平衡或至少是有规律的正则模式。实际可观测量是 \( \{Y_{ij,t}, n_{ij,t}\}_{i<j, t=1}^T \)。不可观测量是真正的得分 \( \theta_i(t) \)——只能通过似然估计。

第二步：讲最小内核¶

最简特例（首选）：假设只有 2 个对象，\( T=2 \) 个时间点。这去掉了一切多对象、多时间点的复杂性，使问题退化为最简单的检验。我们想检验对象 1（白队）的得分在时间点 2 是否相对对象 2（红队）变化。将 \( \theta_1(t) \) 设为 0（识别），唯一参数是 \( \theta_2(t) \)。则模型为：在时间 \( t \) 上 \( \mathrm{P}(Y_{12,t}=1) = \frac{1}{1+\exp(\theta_2(t))} \)（对象 2 赢对象 1 的概率）。

原假设 \( H_0: \theta_2(1) = \theta_2(2) \)（即红队得分没有随时间变化）。在该最简设定下，似然比 / 得分检验退化为标准的二项比例检验（两个独立 Bernoulli 样本比例是否相等）。这不需要本文的方法。

但更关键的一个“最小内核”是检验得分函数变化，作者提出的基于“signed score difference”统计量：本质上是考虑对每个时间点 t，原始得分函数向量 \( \mathbf{s}(\boldsymbol{\theta}) \) 的变化方向，但不取绝对值，而是对每个时间点构建一个带符号的得分差：

\[z_{i}(t) = s_i(t)^\top \cdot \hat{\mathbf{V}}^{-1} \cdot \mathbf{s}_i(t)\]

其中 \( s_i(t) \) 是第 i 个对象在第 t 个时间点的得分向量子块，\( \hat{\mathbf{V}} \) 是 Fisher 信息阵的逆。然后用于统计检验的主统计量是：

\[\max_{i,t} |z_i(t)|\]

但作者为克服 supremum 的保守性，改用了一种顺序聚类检验：把 \( z_i(t) \) 排序后，按其中位数和分散程度构造临界值，而不是直接依赖渐近极值分布。这本质上是用了一种“Bootstrap 式的排名检验”思路来替代极值分布。

一句话概括本文核心数学困难：要在动态参数空间（维数 = \( N \cdot T \) 随 T 增大）上，构造分布已知、功效高、且计算可行的检验统计量。关键想法是用得分函数的带符号版本代替极值的绝对值，从而避免对渐近极值分布的依赖。

三、这篇论文做了什么（重心）¶

三句话¶

研究了什么问题：在动态 Bradley-Terry 模型下，研究了三个具体推断问题——①检验某个对象的得分函数是否随时间变化，②检验两支队伍的得分函数是否相似（pairwise similarity），③构造动态排名的同时置信带。
核心工具/方法：①对第一个问题，引入了基于得分函数（score function）的检验统计量，并利用 \( \chi^2 \) 型渐近近似；②对第二个问题，使用了评分得分差（signed score difference）框架，通过排序来构造非极值型的临界值，克服 supremum 型的保守性；③对第三个问题，结合 sup 与 Bonferroni 型校正构造同时置信带。
主要结论：所有提出的检验在渐近分布意义上都有理论保证（渐近 null 分布已知、检验相合），并且数值模拟和真实数据应用（体育比赛数据）证明了有限样本下的有效性。

关键设定与假设¶

在第二节最简记号基础上补全完整设定： - 识别约束：设定 \( \theta_1(t) \equiv 0 \) 对任意 t（基准对象固定为 0），这是 Bradley-Terry 模型的标准做法（否则参数平移不可识别）。注意这与静态相同。 - 观测模式假设：作者假设对于每个时间点 t 和每对 (i,j)，至少在一些时间点上有观测数据。更具体地，对评分函数进行 Fisher 信息矩阵求逆时，要求该矩阵非奇异。这要求数据足够丰富，且没有完全由孤例构成的不可识别情形。这是一个一般正则性条件，与同类文献类似，不算严格。 - 独立性与无跨时间依赖：假设不同时间点的比较结果是独立的（给定各自的得分参数）。这意味着每个时间点是完全独立比较的，没有时间序列的自相关结构。与 Caron & Doucet (2012) 相比，作者明显省去了动态平滑先验，将时间看做独立的事，这一设定简化了很多（导致检验可以直接用经典似然理论），但也削弱了模型与历史上动态排名的连续性。作者在引文中省略了对此不合理的讨论。 - 辅助引入“signed score difference”框架时，作者隐式假设了得分函数是正则且 Fisher 信息矩阵有界，这是标准 M-估计的常规假设（如新 McLeish 条件）。

相比已有文献，最大的简化是：假设不同时间点的数据是独立的（没有动态依赖），这使得似然分析直接在时间维度上的简单乘积。这在实际中常常不成立（如球队状态在时间上连续），但作者将其当作近似。

主要结果¶

定理1（得分函数变化检验）： - 陈述：在 \( H_0: \theta_i(t) = \alpha_i \)（对象 i 的得分在所有时间点相同）下，提出的检验统计量 \( Q_i = \hat{\mathbf{s}}_{i}^\top \hat{\mathbf{V}}_{i}^{-1} \hat{\mathbf{s}}_{i} \) 渐近服从 \( \chi^2_{(T-1)} \) 分布，其中 \( \hat{\mathbf{s}}_i \) 为在 \( H_0 \) 下得分的约束得分向量，\( \hat{\mathbf{V}}_i \) 为相应的 Fisher 信息子阵。 - 直觉：这是经典的约束得分检验（score test）在动态 Bradley-Terry 模型中的直接推广。当约束为“所有时间点的参数相等”时，得分统计量退化为一个 \( \chi^2 \) 随机变量。 - 难点何在：最大的技术难点在于识别约束的跨时间传播。由于基准参数为0固定，如果对不同时间点分别估计，基准可能不再固定。但作者巧妙地利用了整体似然函数（一次估计所有 \( N \cdot T \) 个参数），使得约束检验对跨时间偏导数的计算是直截了当的。

定理2（配对相似性检验）： - 检验 \( H_0: \theta_i(t) - \theta_j(t) = \delta_{ij} \)（时间不变差值）using signed score difference statistics as described earlier in the minimal kernel section. The core innovation lies in constructing critical value based purely on ranks rather than relying on suprema distributions, achieving tighter rejection regions without sacrificing asymptotic validity. - Theorem formally states that under regularity conditions the rejection region rejection thresholds constructed this way yields asymptotic size control stronger than Bonferroni-based ones.

定理3/4: 动态排名置信带 This部分是作者理论工作的重点之一，给出了同时置信带Theorem的陈述形式和证明概要Theorem 3: Under regularity conditions+ hold. Then the constructed band satisfies \(\mathrm{P}(\mathrm{rank}_i(t) \in \hat{R}_{i,\alpha}(t), \ \forall i=1,..,N, \ \forall t=1,..,T) \ge 1-\alpha + o(1)\). 构造方式：先对每个时间点单独构造每个对象的中心秩区间，再对时间维度进行平稳 bootstrap 校正来获得同时覆盖性质。

证明路线与技术技巧¶

整体路线（以定理1的得分检验为例，3-5步）：

得分函数构建：利用整个数据集计算未约束的对数似然的一阶导 \( \mathbf{s}(\boldsymbol{\theta}) \)。其是在 MLE \( \hat{\boldsymbol{\theta}}_{\text{full}} \) 下的得分向量，利用 Fisher 信息矩阵 \( \mathbf{I}(\hat{\boldsymbol{\theta}}_{\text{full}}) \) 进行标准化。
约束优化：在约束 \( \theta_i(1) = \dots = \theta_i(T) \) 下求 MLE \( \hat{\boldsymbol{\theta}}_0 \)。使用拉格朗日乘子法，但直接计算约束下的得分检验需要约束模型的信息矩阵。作者的方法是：计算无约束 MLE 下目标分量的方差，利用 Sherman-Morrison-Woodbury 公式对角块求逆：约束下的得分向量 = \( \mathbf{s}_i(\hat{\boldsymbol{\theta}}_0) \)。
免去二次型计算的技巧：直接写 Wald 形式：\( \hat{\boldsymbol{\theta}}_i \)（无约束下对象 i 系数组成的向量）在约束下理应相等，因此利用约束等价于 \( \mathbf{C} \boldsymbol{\theta} = 0 \)（差为0），通过 Delta Method 得到 \( \mathbf{C}\hat{\boldsymbol{\theta}}_{\text{full}} \) 的渐近协方差阵，然后得到 \( (\mathbf{C} \hat{\boldsymbol{\theta}}_{\text{full}})^\top [\mathbf{C} \mathbf{I}^{-1}(\hat{\boldsymbol{\theta}}_{\text{full}}) \mathbf{C}^\top]^{-1} (\mathbf{C} \hat{\boldsymbol{\theta}}_{\text{full}}) \) 服从 χ²。这比直接约束优化更方便分析。
收敛性证明：依靠标准的 M-估计渐近理论（矩条件、一致 law of large numbers，经验的 Donsker 性）——这正是本论文的技术常规性所在：给定正则条件下，所有定理的证明是可以从推导出渐近正态性后立刻写出，没有特别困难的跳跃。

关键跳跃点：对于signed score difference 的检验，关键难点在于： - 直接使用 supremum 统计量时，其渐近分布是极值分布（Gumbel 或 its 推导在复杂协方差结构下未知），因此要避免使用它。 - 作者提出的核心技巧是排序统计量的方法：将所有 \( z_i(t) \) 值进行排序并复制检验。通过找出两个连续统计量之间的差值中位数作为阈值（类似于 bootstrap-t 的一种变体），保证在一般条件下（满足缪云：独立性不太强）可以达到渐近相合，且拒绝域更紧。这是一个巧妙且简单的替换，避免了复杂的极值理论。

技术技巧点名： - 经验过程理论（Donsker 性）——用于证明无约束 MLE 的弱收敛（定理1-3的基础）。但由于模型是参数化的逻辑模型，直接使用标准 M-估计理论即可，没有用到更深的经验过程技巧（如 bracketing entropy）。作者在证明部分仅引用了常规教材（van der Vaart 1998），说明技术技巧不算新颖。 - Sherman-Morrison-Woodbury 公式——在分块 Fisher 信息阵的求逆时使用，这对多对象、多时间点的参数结构是标准操作。 - 排序统计量与重抽样技巧——对 signed score difference 检验的临界值构造。这在本文中是最具创新性的技术点：本质上是一种基于秩的 bootstrap 的样本分布近似。

真实例子与应用¶

本文确实包含一个真实数据例子：

使用的数据 / 场景：美国国家篮球协会（NBA）联赛1990-2019赛季的部分数据。具体地说，选取了 8 支在 20 年间至少8次进入季后赛的强队，把每个赛季作为时间点 t，使用赛季内所有比赛数据（每赛季 82 场常规赛）。
怎么把本文方法用上去：对每支球队，在时间维度上应用“得分函数变化检验”（即检验该球队的实力得分是否随时间显著变化）以及对某些“宿敌”对（如湖人-凯尔特人）应用配对相似性检验。
得到什么结果：① 所有 8 支球队的得分函数的“变化检验” p 值都 <0.001，表明球队实力确实随时间波动；② 某些历史对手（例：湖人 vs 凯尔特人）的配对相似性检验 p 值 >0.1，暗示它们的历史得分曲线相似（即两队一起强盛和衰落），而其他对比的检验显著不相似——进一步说明球队间实力演化存在聚类模式。③ 动态排名的同时置信带图显示，在 95% 的置信度下，每支球队在大多数赛季处于类似实力排名区间。
这个例子想说明什么：验证提出的检验方法能在真实数据中检测出先验已知的模式（随时间变化的实力、对手间相似性），并发现新聚类（实力演变趋势的分组）。

🔎 结论是否比证明窄¶

在定理1描述中，作者 claim 检验“提供了一种检验得分变化的方法”，但其证明只在完全平衡且独立时间点的数据下成立。如果真实数据存在时间序列自相关（如球队状态在相邻赛季有持续性），原假设拒绝率很可能膨胀。原文未进行该方面的敏感性分析。
对 signed score difference 检验的渐近分布只证明了“渐近控制第一类错误”，没有给出功效函数的形式。作者也承认这一点（在Conclusion部分），说只在模拟中观测到功效良好。这里存在一个理论承诺与实际证明之间的拉距：模仿实证文章常避免的功效分析。
真实例子中，对于配对相似性检验没有进行多重比较校正，但作者在对同一个比较集上一共进行了 28 次检验。这是一个未解决的软肋。作者在正文中没有提及对多重比较的讨论或 Bonferroni 校正。

四、开放问题（点到为止）¶

时间依赖下的检验：本文假设不同时间点的比较相互独立（得分独立？该假设是否合理？能否放松为马尔可夫过程？）— 扎根于下：原文在“模型设定”一节明确写了 “we assume comparisons are independent across time given the scores”，并在附录证明中要求独立。未来工作可以 把动态得分本身建模为随机游走或高斯过程，并在这种非独立设定下验证检验控制第一类错误的能力（这一方向直接链接到第二、三节的问题）。
功效分析的正式理论：本文对有偏检验的功效只依赖于模拟(“simulations demonstrate satisfactory power”)而不是理论。可否推导出 signed score difference 检验的局部渐近功效（Pitman 功效）？这是本文明确承认的局限（结论倒数第二句：“theoretical power analysis… left for future work”）。
多重比较校正缺失：真实例子中同时检验多对对手的相似性，但未做任何校正（FDR 或 Bonferroni）。需要将论文的配对相似性检验扩展到多变量 FDR 框架。具体问题：如何适应地选择临界值以控制所有对检验的 FWER 或 FDR？— 扎根于三节的真实例子中 Δ=28 的比较次数未被处理。
高维参数情形的检验：本文设定对象数 \( N \) 固定，时间点 \( T \) 发散。在更极端的 \( N \gg T \)（大量球队少量赛季）或 \( N,T \) 同时发散时，得分检验的 χ² 近似是否失效？这是统计量需要拓展的宏观方向，也在引言中暗示：“the high-dimensional extension remains open”。

Maintained by 陈星宇 · Homepage · Source on GitHub