跳转至

Unbiased estimation of squared concentration in the Fisher-von Mises-Langevin distribution and the impossibility of unbiased concentration

作者: Zain Jabbar, Yuqin Jiang, Andrey A. Popov
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.04267


一、领域脉络与小综述

这个方向是什么: 方向统计学研究分布在球面 \(S^{n-1}\) 上的数据,其核心统计问题之一是对 Fisher-von Mises-Langevin (FvML) 分布的集中度参数 \(\kappa\)(类比高斯分布的精度矩阵参数)进行推断。\(\kappa\) 控制数据在均值方向 \(\mu\) 周围的聚拢程度。当前该子方向的成熟度表现为:已有成熟的 MLE 及其渐近理论,但有限样本下的无偏估计理论长期处于空白,且已知 MLE 存在正偏差却无人证明该偏差是否为 \(\kappa\) 本身的不可消除属性。

发展脉络: - 奠基工作:Fisher (1953) [5] 首次提出球面上的 FvML 分布及 MLE;Hoeffding (1948) [6] 建立了 U-统计量的一般理论,为后续构造无偏估计提供了工具框架。 - 主要进展(偏差的发现与修补):Best & Fisher (1981) [2] 发现 \(n=2,3\) 时 MLE 存在正偏差;Tanabe et al. (2007) [27] 将正偏差的结论推广至一般 \(n \geq 2\),并给出了 \(O(N^{-2})\) 的偏差修正;Banerjee et al. (2005) [1] 提出了不一致的近似估计量 \(\hat{\kappa}_B\);Sra (2012) [25] 用 Newton 步改进了 \(\hat{\kappa}_B\),但作者指出这反而增加了偏差。 - 当前 frontier(无偏性的 impossibility):本文填补了长期悬而未决的理论缺口——证明了 \(\kappa\) 的无偏估计不仅 MLE 做不到,而是任何统计量都不可能做到(Corollary 3.2),并转向对替代参数化(平方集中度 \(\zeta=\kappa^2\))的无偏估计构造。 - 本文的位置:从 impossibility 定理出发,利用 \(A_n(\kappa)\) 的幂级数反演与高阶 U-统计量,构造了 \(\zeta\) 的(几乎)无偏估计量 \(\hat{\zeta}_M\)

子线索聚类: 1. MLE 及偏差修正路线:[2], [27], [1], [25]。这一簇在 \(\kappa\) 的参数化下不断修补 MLE 的偏差,但始终无法消除偏差,最终被本文的 impossibility 定理判定为死胡同。 2. 渐近近似路线:[1] 的高维近似 \(\hat{\kappa}_{hd}\) 与 [28] 的大 \(\kappa\) 近似 \(\hat{\kappa}_{lk}\)。这一簇在特定极端设定下有效,但在一般设定下有偏且不一致。 3. U-统计量与矩路线:[6] 的经典 U-统计量理论,[19] 的张量方法(为本文 \(D_{N,\ell}\) 的计算提供理论背景)。本文在此线索上推进,将 U-统计量与级数反演结合。

这个方向在追问的核心问题: 1. FvML 分布的集中度参数 \(\kappa\) 是否存在无偏估计量?(本文回答:不存在) 2. 若 \(\kappa\) 不可无偏估计,何种参数化(如 \(\kappa^2\)\(\kappa^{2\ell}\))可无偏估计,且其无偏估计量如何构造?(本文回答:\(\kappa^2\) 可行,构造了 partial sum U-statistic) 3. 构造出的高阶 U-统计量在有限样本与高维设定下,计算复杂度与截断误差如何权衡?(本文给出了经验权衡,理论分析留白)

⚠️ 作者的 framing: - 作者将缺口 frame 为:MLE 的正偏差不是 MLE 的缺陷,而是参数 \(\kappa\) 本身的不可估计性导致,因此转向 \(\kappa^2\) 是"显然的下一步"。 - 被淡化的竞争路线:半参数或稳健估计路线完全未被提及;对于 \(\kappa^2\) 的无偏估计,作者只探索了级数反演+U-统计量这一条路,未讨论是否存在更直接的矩方法或其他无偏构造。 - 明显该被引却未出现的:关于指数族中不可估计参数的经典理论(如 Lehmann-Scheffé 更深层的讨论,或 Dynkin 的可估函数代数理论);关于高阶 U-统计量计算复杂度的现代理论(如 treewidth / tensor contraction 复杂度分析)。这些缺失是研究者可以去查的缺口。

张力: 未见明显对立引用。Best & Fisher (1981) 与 Tanabe et al. (2007) 均发现正偏差,本文的 impossibility 定理将这一经验观察升格为绝对不可能性,二者是顺承而非矛盾。


二、这篇论文做了什么

类型判断:理论型(含实证验证)。

三句话: ① 证明了 FvML 分布的集中度参数 \(\kappa\) 在任何维度 \(n \geq 1\) 与任何样本量 \(N \geq 1\) 下均不存在无偏估计量。 ② 提出以平方集中度 \(\zeta = \kappa^2\)(命名为 intensity)作为替代参数化,并利用 \(A_n(\kappa)\) 的幂级数反演与内积的高阶 U-统计量,构造了 \(\zeta\) 的截断无偏估计量 \(\hat{\zeta}_M\)。 ③ 在合成数据、NYC 出租车轨迹与球面词嵌入上验证了 \(\hat{\zeta}_M\) 相比 MLE 及各类近似估计量在偏差上的显著消除,尤其在 \(N \ll n\) 的高维低样本设定下表现突出。

关键设定与假设: - FvML 分布\(X \sim \text{FvML}(\mu, \kappa)\),密度 \(f(x;\mu,\kappa) = C_n(\kappa) e^{\kappa \mu^\top x}\),其中 \(C_n(\kappa) = \frac{\kappa^{n/2-1}}{(2\pi)^{n/2} I_{n/2-1}(\kappa)}\)。 - \(A_n(\kappa)\) 函数\(A_n(\kappa) = I_{n/2}(\kappa) / I_{n/2-1}(\kappa)\),满足 \(E[\mu^\top X] = A_n(\kappa)\),是 \(\kappa\) 的严格单调增函数,且为 \(\kappa\) 的实解析奇函数(只含 \(\kappa\) 的奇数次幂)。 - 充分统计量\(T = \sum_{i=1}^N X_i\),在扩展的自然参数空间 \(\mathbb{R}^n\) 下完备。 - Impossibility 的核心假设:无偏估计量 \(\hat{\theta}\) 满足 \(E_{\mu,\kappa}[|\hat{\theta}|] < \infty\)(可积性),且对所有 \((\mu, \kappa) \in S^{n-1} \times (0, \infty)\) 成立 \(E_{\mu,\kappa}[\hat{\theta}] = g(\kappa)\)。 - U-统计量构造的假设:样本量 \(N \geq 2M\)(截断阶数 \(M\) 的两倍),且 \(\kappa < \rho_n\)\(A_n\) 反演级数的收敛半径)。

主要结果: 1. Theorem 3.1(可估函数的实解析性):若 \(g(\kappa)\) 存在无偏估计量,则必存在实解析函数 \(h\) 使得 \(g(\kappa) = h(\kappa^2)\)。直觉:通过对估计量在正交群 \(O(n)\) 下的 Haar 平均,消除了方向 \(\mu\) 的影响,将期望函数退化为仅依赖 \(\|\eta\|^2 = \kappa^2\) 的径向函数;再利用自然参数空间下期望的实解析性,证明该径向函数必须是 \(\kappa^2\) 的实解析函数。必要条件:\(g(\kappa)\) 必须在 \(\kappa^2\) 的实解析函数代数中。 2. Corollary 3.2(\(\kappa\) 的不可无偏估计性)\(\kappa\) 不是 \(\kappa^2\) 的实解析函数(\(\sqrt{s}\)\(s=0\) 处不可实解析延拓),因此 \(\kappa\) 不可无偏估计。这彻底封死了 \(\kappa\) 的无偏估计路线。 3. Theorem 4.1 & Corollary 4.4(\(\zeta\) 的级数展开与无偏估计)\(\zeta = \kappa^2 = \sum_{\ell=1}^\infty c_\ell A_n(\kappa)^{2\ell}\)(在 \(0 < \kappa < \rho_n\) 下收敛),且截断部分 \(\zeta_M = \sum_{\ell=1}^M c_\ell A_n(\kappa)^{2\ell}\) 的无偏估计量为 \(\hat{\zeta}_M = \sum_{\ell=1}^M c_\ell d_{A^{2\ell}}\),其中 \(d_{A^{2\ell}} = D_{N,\ell} / (N)_{2\ell}\)\(A_n(\kappa)^{2\ell}\) 的无偏 U-统计量。截断误差为 \(-\sum_{\ell > M} c_\ell A_n(\kappa)^{2\ell}\)

证明路线与技术技巧: - Theorem 3.1 的整体路线: 1. 可积性控制:利用 FvML 密度的下界 \(C_n(\kappa_0)^N e^{-\kappa_0 N}\),证明 \(\hat{\theta} \in L^1(\sigma^{\otimes N})\)。 2. Haar 对称化:对 \(\hat{\theta}\)\(O(n)\) 作用的 Haar 平均 \(\tilde{\theta}\),消除 \(\mu\) 的依赖,保持无偏性 \(E_{\mu,\kappa}[\tilde{\theta}] = g(\kappa)\),且 \(\tilde{\theta}\) 成为 \(O(n)\)-不变量。 3. 自然参数期望的实解析性:将 \(\tilde{\theta}\) 的期望写成自然参数 \(\eta = \kappa \mu\) 的函数 \(\tilde{m}(\eta)\),利用指数族在开自然参数空间下的实解析性(可在此空间内任意求导,控制分母不为零),证明 \(\tilde{m}\)\(\mathbb{R}^n\) 上实解析。 4. 旋转不变性降维\(\tilde{m}(Q\eta) = \tilde{m}(\eta)\) 推出 \(\tilde{m}\) 仅依赖 \(\|\eta\|\),退化为单变量偶函数 \(\phi(t) = \tilde{m}(tv)\)。 5. 偶实解析函数的因子化:偶实解析函数必可写为 \(h(t^2)\)(利用幂级数奇次项为零,及 \(\sqrt{\cdot}\)\((0,\infty)\) 的实解析性进行粘合),最终得 \(g(\kappa) = h(\kappa^2)\)。 - 关键跳跃点:Step 5 中将偶实解析函数 \(\phi(t)\) 因子化为 \(\psi(t^2)\)。难点在于 \(\phi\)\(t=0\) 处的幂级数只给出局部因子化 \(\psi_0(s)\),而 \(\phi(\sqrt{s})\)\((0,\infty)\) 上实解析给出 \(\psi_1(s)\),需证明二者在交集上相等从而可粘合为全局实解析函数。作者利用 \(\sqrt{\cdot}\)\((0,\infty)\) 的实解析性与 \(\phi\) 的实解析性,严格完成了粘合。 - 技术技巧点名: - Haar 测度对称化:用于消除方向参数 \(\mu\),将双参数问题退化为单参数 \(\kappa\) 的径向问题。 - 指数族自然参数空间的实解析性:用于证明期望函数 \(\tilde{m}(\eta)\) 的解析性,这是 Lehmann & Casella [15] 中完备性定理的深化应用。 - Lagrange-Bürmann 级数反演:用于从 \(A_n(\kappa)\) 的奇级数反演出 \(\kappa^2 = \sum c_\ell A_n(\kappa)^{2\ell}\),解决 \(\zeta\) 的级数展开。 - 高阶 U-统计量:用于构造 \(A_n(\kappa)^{2\ell}\) 的无偏估计量 \(d_{A^{2\ell}}\),核函数为相邻配对的内积乘积 \((X_{i_1} \cdot X_{i_2}) \cdots (X_{i_{2\ell-1}} \cdot X_{i_{2\ell}})\)

真实例子与应用: 1. 合成数据:网格搜索 \(n \in \{2, 25, 100\}\), \(\zeta \in \{1, 25, 100\}\)\(N\) 从 10 到 100。对比 MLE, Banerjee, Sra, Tanabe BC, 高维/大 \(\kappa\) 近似, \(U_{A^2_n}\), 及本文的 U-stat (\(M=5\)) 与 RU-stat (\(M=50\))。结果:在 \(n=25, \zeta=1\)\(n=100, \zeta=25\) 的高维低样本设定下,只有 U-统计量估计量保持无偏,MLE 偏差严重;在 \(n=2, \zeta=100\) 的低维高集中度下,RU-stat 表现最佳。验证了理论:截断无偏估计在困难设定下显著优于有偏 MLE。 2. NYC 出租车轨迹:将 2012 年 1 月 12 日的 478,884 次出行映射为 \(S^1\) 上的单位方向向量,按 159 个出租车区域分组。计算 \(\hat{\zeta}_{50}\)\(\hat{\zeta}_{MLE}\)。发现低样本量区域的 MLE 偏差极大(如 Springfield Gardens South,\(N=22\),MLE 比 U-stat 高 204.46),高样本量区域二者趋同。展示了在城市出行方向推断中,小样本区域的集中度推断必须用无偏估计。 3. 球面词嵌入:对 20 Newsgroups 语料库的 100 维 JoSE 词嵌入做 spherical K-means (\(K=20\)),计算每簇的 \(\hat{\zeta}_3\)\(\hat{\zeta}_{MLE}\)。发现 MLE 在所有簇上均高于 U-stat(相对超出 1.7% 到 23.6%),小且紧密的簇偏差最大。说明在 NLP 词向量聚拢度测量中,MLE 系统性高估集中度。

🔎 结论是否比证明窄: - 作者在 Corollary 4.4 后声称 "As \(M \to \infty\), \(\zeta_M(\kappa) \to \zeta\) for every \(0 < \kappa < \rho_n\)",但严格证明只给出了级数在 \(0 < \kappa < \rho_n\) 上的收敛性,未给出 \(\rho_n\) 的具体下界或与 \(R_n\) 的关系\(\rho_n\) 依赖于反演级数的收敛半径 \(\tau_n\),而 \(\tau_n\) 的定量分析被跳过,这使得"大 \(\kappa\) 下的无偏性"在理论上仍是一个缺口(实证中 \(\zeta=100\) 对应 \(\kappa=10\),可能已超出 \(\rho_n\))。 - 作者在 4.1 节提到 RU-stat 在 \(\ell > 2N\) 时使用"带重复的随机索引",这引入了偏差,但文中仍将其称为"近似无偏",未在定理中严格量化该随机化引入的偏差阶数。


三、开放问题

  1. 要证什么:是否存在对完整无穷级数 \(\zeta = \sum_{\ell=1}^\infty c_\ell A_n(\kappa)^{2\ell}\) 的严格无偏估计量(不依赖截断)?扎根点:Section 8 结论第一句 "First, does there exist an estimator \(\hat{\zeta}\) that is unbiased for the full infinite series?"
  2. 要估什么\(\hat{\zeta}_M\) 是否达到 Cramér-Rao 下界?若未达到,其半参数效率界是多少?扎根点:Section 8 结论第二句 "Does this estimator achieve the Cramér–Rao bound?"
  3. 要算什么:反演级数收敛半径 \(\rho_n\) 的定量下界是什么?在 \(\kappa \geq \rho_n\) 时,\(\hat{\zeta}_M\) 的截断误差如何随 \(M\) 衰减?扎根点:Theorem 4.1 中 \(\rho_n\) 的定义依赖于未定量的 \(\tau_n\),且实证中 \(\kappa=10\) (\(\zeta=100\)) 的设定可能已越界。
  4. 要估什么:RU-stat 中随机索引带重复抽样引入的偏差,其期望阶数是多少?扎根点:Section 4.1 末尾 "Otherwise, a uniformly random selection of \(2\ell\) indices (with repetition) is chosen. In this way a biased estimate of the partial sum can be computed"。

四、最核心、最简单的例子 / 数学问题

最简特例\(n=1\)(退化到两点分布 \(S^0 = \{-1, +1\}\))。

在这个特例下,FvML 退化为两点分布:\(P(X=+1) = \frac{e^\kappa}{e^\kappa + e^{-\kappa}}\), \(P(X=-1) = \frac{e^{-\kappa}}{e^\kappa + e^{-\kappa}}\)。 此时 \(A_1(\kappa) = E[X] = \frac{e^\kappa - e^{-\kappa}}{e^\kappa + e^{-\kappa}} = \tanh(\kappa)\)。 核心命题退化为:\(\kappa\) 不可无偏估计,但 \(\kappa^2\) 可无偏估计

为什么 \(\kappa\) 不可无偏估计: 若存在无偏估计 \(\hat{\kappa}(X_1, \dots, X_N)\),则 \(E_{\kappa}[\hat{\kappa}] = \kappa\)。由于 \(X_i\) 只取 \(\pm 1\)\(E_{\kappa}[\hat{\kappa}]\) 必须是 \(e^{2\kappa}\) 的有理函数(因 \(P(\text{data})\)\(e^{2\kappa}\) 的有理函数),从而是 \(\kappa\) 的实解析函数。但更直接地,由 Theorem 3.1,\(E_{\kappa}[\hat{\kappa}]\) 必须是 \(\kappa^2\) 的实解析函数 \(h(\kappa^2)\)。若 \(h(\kappa^2) = \kappa\),则 \(h(s) = \sqrt{s}\),在 \(s=0\) 处不可实解析延拓(导数趋于无穷),矛盾。

为什么 \(\kappa^2\) 可无偏估计(U-统计量构造如何走)\(\kappa^2\) 的级数反演退化为 \(\kappa^2\)\(\tanh(\kappa)^2\) 的关系。已知 \(\tanh(\kappa)^2 = 1 - \frac{1}{\cosh^2(\kappa)}\),其反演级数为 \(\kappa^2 = \sum_{\ell=1}^\infty c_\ell \tanh(\kappa)^{2\ell}\)(系数 \(c_\ell\) 由 Lagrange 反演给出,\(c_1=1\))。 U-统计量构造:\(A_1(\kappa)^2 = \tanh(\kappa)^2\) 的无偏估计为 \(d_{A^2} = \frac{1}{(N)_2} \sum_{i \neq j} X_i X_j\)(因为 \(E[X_i X_j] = \tanh(\kappa)^2\))。 更高阶 \(A_1(\kappa)^{2\ell} = \tanh(\kappa)^{2\ell}\) 的无偏估计为 \(d_{A^{2\ell}} = \frac{1}{(N)_{2\ell}} \sum_{i_1, \dots, i_{2\ell} \text{ distinct}} (X_{i_1} X_{i_2}) \cdots (X_{i_{2\ell-1}} X_{i_{2\ell}})\)。 最终 \(\hat{\zeta}_M = \sum_{\ell=1}^M c_\ell d_{A^{2\ell}}\)\(\sum_{\ell=1}^M c_\ell \tanh(\kappa)^{2\ell}\) 的无偏估计。

为什么成立:核心数学困难在于"无偏估计量必须依赖 \(\kappa^2\) 的实解析性",这由 \(O(n)\)-Haar 平均与指数族解析性强制产生。在 \(n=1\) 时,\(O(1)\)-Haar 平均即翻转对称 \(X \to -X\),将期望函数退化为偶函数,偶实解析函数必为 \(\kappa^2\) 的实解析函数,从而封死 \(\kappa\)(奇函数)的无偏性,打开 \(\kappa^2\)(偶函数)的无偏性。U-统计量则纯粹利用了独立样本内积的矩因子化 \(E[X_i X_j] = E[X_i]E[X_j]\),将 \(A_n(\kappa)^{2\ell}\) 的无偏估计转化为配对内积的组合平均。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论