Unbiased estimation of squared concentration in the Fisher-von Mises-Langevin distribution and the impossibility of unbiased concentration¶

作者: Zain Jabbar, Yuqin Jiang, Andrey A. Popov
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.04267

一、领域脉络与小综述¶

这个方向是什么：方向统计学研究分布在球面 \(S^{n-1}\) 上的数据，其核心统计问题之一是对 Fisher-von Mises-Langevin (FvML) 分布的集中度参数 \(\kappa\)（类比高斯分布的精度矩阵参数）进行推断。\(\kappa\) 控制数据在均值方向 \(\mu\) 周围的聚拢程度。当前该子方向的成熟度表现为：已有成熟的 MLE 及其渐近理论，但有限样本下的无偏估计理论长期处于空白，且已知 MLE 存在正偏差却无人证明该偏差是否为 \(\kappa\) 本身的不可消除属性。

发展脉络： - 奠基工作：Fisher (1953) [5] 首次提出球面上的 FvML 分布及 MLE；Hoeffding (1948) [6] 建立了 U-统计量的一般理论，为后续构造无偏估计提供了工具框架。 - 主要进展（偏差的发现与修补）：Best & Fisher (1981) [2] 发现 \(n=2,3\) 时 MLE 存在正偏差；Tanabe et al. (2007) [27] 将正偏差的结论推广至一般 \(n \geq 2\)，并给出了 \(O(N^{-2})\) 的偏差修正；Banerjee et al. (2005) [1] 提出了不一致的近似估计量 \(\hat{\kappa}_B\)；Sra (2012) [25] 用 Newton 步改进了 \(\hat{\kappa}_B\)，但作者指出这反而增加了偏差。 - 当前 frontier（无偏性的 impossibility）：本文填补了长期悬而未决的理论缺口——证明了 \(\kappa\) 的无偏估计不仅 MLE 做不到，而是任何统计量都不可能做到（Corollary 3.2），并转向对替代参数化（平方集中度 \(\zeta=\kappa^2\)）的无偏估计构造。 - 本文的位置：从 impossibility 定理出发，利用 \(A_n(\kappa)\) 的幂级数反演与高阶 U-统计量，构造了 \(\zeta\) 的（几乎）无偏估计量 \(\hat{\zeta}_M\)。

子线索聚类： 1. MLE 及偏差修正路线：[2], [27], [1], [25]。这一簇在 \(\kappa\) 的参数化下不断修补 MLE 的偏差，但始终无法消除偏差，最终被本文的 impossibility 定理判定为死胡同。 2. 渐近近似路线：[1] 的高维近似 \(\hat{\kappa}_{hd}\) 与 [28] 的大 \(\kappa\) 近似 \(\hat{\kappa}_{lk}\)。这一簇在特定极端设定下有效，但在一般设定下有偏且不一致。 3. U-统计量与矩路线：[6] 的经典 U-统计量理论，[19] 的张量方法（为本文 \(D_{N,\ell}\) 的计算提供理论背景）。本文在此线索上推进，将 U-统计量与级数反演结合。

这个方向在追问的核心问题： 1. FvML 分布的集中度参数 \(\kappa\) 是否存在无偏估计量？（本文回答：不存在） 2. 若 \(\kappa\) 不可无偏估计，何种参数化（如 \(\kappa^2\) 或 \(\kappa^{2\ell}\)）可无偏估计，且其无偏估计量如何构造？（本文回答：\(\kappa^2\) 可行，构造了 partial sum U-statistic） 3. 构造出的高阶 U-统计量在有限样本与高维设定下，计算复杂度与截断误差如何权衡？（本文给出了经验权衡，理论分析留白）

⚠️ 作者的 framing： - 作者将缺口 frame 为：MLE 的正偏差不是 MLE 的缺陷，而是参数 \(\kappa\) 本身的不可估计性导致，因此转向 \(\kappa^2\) 是"显然的下一步"。 - 被淡化的竞争路线：半参数或稳健估计路线完全未被提及；对于 \(\kappa^2\) 的无偏估计，作者只探索了级数反演+U-统计量这一条路，未讨论是否存在更直接的矩方法或其他无偏构造。 - 明显该被引却未出现的：关于指数族中不可估计参数的经典理论（如 Lehmann-Scheffé 更深层的讨论，或 Dynkin 的可估函数代数理论）；关于高阶 U-统计量计算复杂度的现代理论（如 treewidth / tensor contraction 复杂度分析）。这些缺失是研究者可以去查的缺口。

张力：未见明显对立引用。Best & Fisher (1981) 与 Tanabe et al. (2007) 均发现正偏差，本文的 impossibility 定理将这一经验观察升格为绝对不可能性，二者是顺承而非矛盾。

二、这篇论文做了什么¶

类型判断：理论型（含实证验证）。

三句话： ① 证明了 FvML 分布的集中度参数 \(\kappa\) 在任何维度 \(n \geq 1\) 与任何样本量 \(N \geq 1\) 下均不存在无偏估计量。 ② 提出以平方集中度 \(\zeta = \kappa^2\)（命名为 intensity）作为替代参数化，并利用 \(A_n(\kappa)\) 的幂级数反演与内积的高阶 U-统计量，构造了 \(\zeta\) 的截断无偏估计量 \(\hat{\zeta}_M\)。 ③ 在合成数据、NYC 出租车轨迹与球面词嵌入上验证了 \(\hat{\zeta}_M\) 相比 MLE 及各类近似估计量在偏差上的显著消除，尤其在 \(N \ll n\) 的高维低样本设定下表现突出。

关键设定与假设： - FvML 分布：\(X \sim \text{FvML}(\mu, \kappa)\)，密度 \(f(x;\mu,\kappa) = C_n(\kappa) e^{\kappa \mu^\top x}\)，其中 \(C_n(\kappa) = \frac{\kappa^{n/2-1}}{(2\pi)^{n/2} I_{n/2-1}(\kappa)}\)。 - \(A_n(\kappa)\) 函数：\(A_n(\kappa) = I_{n/2}(\kappa) / I_{n/2-1}(\kappa)\)，满足 \(E[\mu^\top X] = A_n(\kappa)\)，是 \(\kappa\) 的严格单调增函数，且为 \(\kappa\) 的实解析奇函数（只含 \(\kappa\) 的奇数次幂）。 - 充分统计量：\(T = \sum_{i=1}^N X_i\)，在扩展的自然参数空间 \(\mathbb{R}^n\) 下完备。 - Impossibility 的核心假设：无偏估计量 \(\hat{\theta}\) 满足 \(E_{\mu,\kappa}[|\hat{\theta}|] < \infty\)（可积性），且对所有 \((\mu, \kappa) \in S^{n-1} \times (0, \infty)\) 成立 \(E_{\mu,\kappa}[\hat{\theta}] = g(\kappa)\)。 - U-统计量构造的假设：样本量 \(N \geq 2M\)（截断阶数 \(M\) 的两倍），且 \(\kappa < \rho_n\)（\(A_n\) 反演级数的收敛半径）。

主要结果： 1. Theorem 3.1（可估函数的实解析性）：若 \(g(\kappa)\) 存在无偏估计量，则必存在实解析函数 \(h\) 使得 \(g(\kappa) = h(\kappa^2)\)。直觉：通过对估计量在正交群 \(O(n)\) 下的 Haar 平均，消除了方向 \(\mu\) 的影响，将期望函数退化为仅依赖 \(\|\eta\|^2 = \kappa^2\) 的径向函数；再利用自然参数空间下期望的实解析性，证明该径向函数必须是 \(\kappa^2\) 的实解析函数。必要条件：\(g(\kappa)\) 必须在 \(\kappa^2\) 的实解析函数代数中。 2. Corollary 3.2（\(\kappa\) 的不可无偏估计性）：\(\kappa\) 不是 \(\kappa^2\) 的实解析函数（\(\sqrt{s}\) 在 \(s=0\) 处不可实解析延拓），因此 \(\kappa\) 不可无偏估计。这彻底封死了 \(\kappa\) 的无偏估计路线。 3. Theorem 4.1 & Corollary 4.4（\(\zeta\) 的级数展开与无偏估计）：\(\zeta = \kappa^2 = \sum_{\ell=1}^\infty c_\ell A_n(\kappa)^{2\ell}\)（在 \(0 < \kappa < \rho_n\) 下收敛），且截断部分 \(\zeta_M = \sum_{\ell=1}^M c_\ell A_n(\kappa)^{2\ell}\) 的无偏估计量为 \(\hat{\zeta}_M = \sum_{\ell=1}^M c_\ell d_{A^{2\ell}}\)，其中 \(d_{A^{2\ell}} = D_{N,\ell} / (N)_{2\ell}\) 是 \(A_n(\kappa)^{2\ell}\) 的无偏 U-统计量。截断误差为 \(-\sum_{\ell > M} c_\ell A_n(\kappa)^{2\ell}\)。

证明路线与技术技巧： - Theorem 3.1 的整体路线： 1. 可积性控制：利用 FvML 密度的下界 \(C_n(\kappa_0)^N e^{-\kappa_0 N}\)，证明 \(\hat{\theta} \in L^1(\sigma^{\otimes N})\)。 2. Haar 对称化：对 \(\hat{\theta}\) 取 \(O(n)\) 作用的 Haar 平均 \(\tilde{\theta}\)，消除 \(\mu\) 的依赖，保持无偏性 \(E_{\mu,\kappa}[\tilde{\theta}] = g(\kappa)\)，且 \(\tilde{\theta}\) 成为 \(O(n)\)-不变量。 3. 自然参数期望的实解析性：将 \(\tilde{\theta}\) 的期望写成自然参数 \(\eta = \kappa \mu\) 的函数 \(\tilde{m}(\eta)\)，利用指数族在开自然参数空间下的实解析性（可在此空间内任意求导，控制分母不为零），证明 \(\tilde{m}\) 在 \(\mathbb{R}^n\) 上实解析。 4. 旋转不变性降维：\(\tilde{m}(Q\eta) = \tilde{m}(\eta)\) 推出 \(\tilde{m}\) 仅依赖 \(\|\eta\|\)，退化为单变量偶函数 \(\phi(t) = \tilde{m}(tv)\)。 5. 偶实解析函数的因子化：偶实解析函数必可写为 \(h(t^2)\)（利用幂级数奇次项为零，及 \(\sqrt{\cdot}\) 在 \((0,\infty)\) 的实解析性进行粘合），最终得 \(g(\kappa) = h(\kappa^2)\)。 - 关键跳跃点：Step 5 中将偶实解析函数 \(\phi(t)\) 因子化为 \(\psi(t^2)\)。难点在于 \(\phi\) 在 \(t=0\) 处的幂级数只给出局部因子化 \(\psi_0(s)\)，而 \(\phi(\sqrt{s})\) 在 \((0,\infty)\) 上实解析给出 \(\psi_1(s)\)，需证明二者在交集上相等从而可粘合为全局实解析函数。作者利用 \(\sqrt{\cdot}\) 在 \((0,\infty)\) 的实解析性与 \(\phi\) 的实解析性，严格完成了粘合。 - 技术技巧点名： - Haar 测度对称化：用于消除方向参数 \(\mu\)，将双参数问题退化为单参数 \(\kappa\) 的径向问题。 - 指数族自然参数空间的实解析性：用于证明期望函数 \(\tilde{m}(\eta)\) 的解析性，这是 Lehmann & Casella [15] 中完备性定理的深化应用。 - Lagrange-Bürmann 级数反演：用于从 \(A_n(\kappa)\) 的奇级数反演出 \(\kappa^2 = \sum c_\ell A_n(\kappa)^{2\ell}\)，解决 \(\zeta\) 的级数展开。 - 高阶 U-统计量：用于构造 \(A_n(\kappa)^{2\ell}\) 的无偏估计量 \(d_{A^{2\ell}}\)，核函数为相邻配对的内积乘积 \((X_{i_1} \cdot X_{i_2}) \cdots (X_{i_{2\ell-1}} \cdot X_{i_{2\ell}})\)。

真实例子与应用： 1. 合成数据：网格搜索 \(n \in \{2, 25, 100\}\), \(\zeta \in \{1, 25, 100\}\)，\(N\) 从 10 到 100。对比 MLE, Banerjee, Sra, Tanabe BC, 高维/大 \(\kappa\) 近似, \(U_{A^2_n}\), 及本文的 U-stat (\(M=5\)) 与 RU-stat (\(M=50\))。结果：在 \(n=25, \zeta=1\) 与 \(n=100, \zeta=25\) 的高维低样本设定下，只有 U-统计量估计量保持无偏，MLE 偏差严重；在 \(n=2, \zeta=100\) 的低维高集中度下，RU-stat 表现最佳。验证了理论：截断无偏估计在困难设定下显著优于有偏 MLE。 2. NYC 出租车轨迹：将 2012 年 1 月 12 日的 478,884 次出行映射为 \(S^1\) 上的单位方向向量，按 159 个出租车区域分组。计算 \(\hat{\zeta}_{50}\) 与 \(\hat{\zeta}_{MLE}\)。发现低样本量区域的 MLE 偏差极大（如 Springfield Gardens South，\(N=22\)，MLE 比 U-stat 高 204.46），高样本量区域二者趋同。展示了在城市出行方向推断中，小样本区域的集中度推断必须用无偏估计。 3. 球面词嵌入：对 20 Newsgroups 语料库的 100 维 JoSE 词嵌入做 spherical K-means (\(K=20\))，计算每簇的 \(\hat{\zeta}_3\) 与 \(\hat{\zeta}_{MLE}\)。发现 MLE 在所有簇上均高于 U-stat（相对超出 1.7% 到 23.6%），小且紧密的簇偏差最大。说明在 NLP 词向量聚拢度测量中，MLE 系统性高估集中度。

🔎 结论是否比证明窄： - 作者在 Corollary 4.4 后声称 "As \(M \to \infty\), \(\zeta_M(\kappa) \to \zeta\) for every \(0 < \kappa < \rho_n\)"，但严格证明只给出了级数在 \(0 < \kappa < \rho_n\) 上的收敛性，未给出 \(\rho_n\) 的具体下界或与 \(R_n\) 的关系。\(\rho_n\) 依赖于反演级数的收敛半径 \(\tau_n\)，而 \(\tau_n\) 的定量分析被跳过，这使得"大 \(\kappa\) 下的无偏性"在理论上仍是一个缺口（实证中 \(\zeta=100\) 对应 \(\kappa=10\)，可能已超出 \(\rho_n\)）。 - 作者在 4.1 节提到 RU-stat 在 \(\ell > 2N\) 时使用"带重复的随机索引"，这引入了偏差，但文中仍将其称为"近似无偏"，未在定理中严格量化该随机化引入的偏差阶数。

三、开放问题¶

要证什么：是否存在对完整无穷级数 \(\zeta = \sum_{\ell=1}^\infty c_\ell A_n(\kappa)^{2\ell}\) 的严格无偏估计量（不依赖截断）？扎根点：Section 8 结论第一句 "First, does there exist an estimator \(\hat{\zeta}\) that is unbiased for the full infinite series?"
要估什么：\(\hat{\zeta}_M\) 是否达到 Cramér-Rao 下界？若未达到，其半参数效率界是多少？扎根点：Section 8 结论第二句 "Does this estimator achieve the Cramér–Rao bound?"
要算什么：反演级数收敛半径 \(\rho_n\) 的定量下界是什么？在 \(\kappa \geq \rho_n\) 时，\(\hat{\zeta}_M\) 的截断误差如何随 \(M\) 衰减？扎根点：Theorem 4.1 中 \(\rho_n\) 的定义依赖于未定量的 \(\tau_n\)，且实证中 \(\kappa=10\) (\(\zeta=100\)) 的设定可能已越界。
要估什么：RU-stat 中随机索引带重复抽样引入的偏差，其期望阶数是多少？扎根点：Section 4.1 末尾 "Otherwise, a uniformly random selection of \(2\ell\) indices (with repetition) is chosen. In this way a biased estimate of the partial sum can be computed"。

四、最核心、最简单的例子 / 数学问题¶

最简特例：\(n=1\)（退化到两点分布 \(S^0 = \{-1, +1\}\)）。

在这个特例下，FvML 退化为两点分布：\(P(X=+1) = \frac{e^\kappa}{e^\kappa + e^{-\kappa}}\), \(P(X=-1) = \frac{e^{-\kappa}}{e^\kappa + e^{-\kappa}}\)。此时 \(A_1(\kappa) = E[X] = \frac{e^\kappa - e^{-\kappa}}{e^\kappa + e^{-\kappa}} = \tanh(\kappa)\)。核心命题退化为：\(\kappa\) 不可无偏估计，但 \(\kappa^2\) 可无偏估计。

为什么 \(\kappa\) 不可无偏估计：若存在无偏估计 \(\hat{\kappa}(X_1, \dots, X_N)\)，则 \(E_{\kappa}[\hat{\kappa}] = \kappa\)。由于 \(X_i\) 只取 \(\pm 1\)，\(E_{\kappa}[\hat{\kappa}]\) 必须是 \(e^{2\kappa}\) 的有理函数（因 \(P(\text{data})\) 是 \(e^{2\kappa}\) 的有理函数），从而是 \(\kappa\) 的实解析函数。但更直接地，由 Theorem 3.1，\(E_{\kappa}[\hat{\kappa}]\) 必须是 \(\kappa^2\) 的实解析函数 \(h(\kappa^2)\)。若 \(h(\kappa^2) = \kappa\)，则 \(h(s) = \sqrt{s}\)，在 \(s=0\) 处不可实解析延拓（导数趋于无穷），矛盾。

为什么 \(\kappa^2\) 可无偏估计（U-统计量构造如何走）： \(\kappa^2\) 的级数反演退化为 \(\kappa^2\) 与 \(\tanh(\kappa)^2\) 的关系。已知 \(\tanh(\kappa)^2 = 1 - \frac{1}{\cosh^2(\kappa)}\)，其反演级数为 \(\kappa^2 = \sum_{\ell=1}^\infty c_\ell \tanh(\kappa)^{2\ell}\)（系数 \(c_\ell\) 由 Lagrange 反演给出，\(c_1=1\)）。 U-统计量构造：\(A_1(\kappa)^2 = \tanh(\kappa)^2\) 的无偏估计为 \(d_{A^2} = \frac{1}{(N)_2} \sum_{i \neq j} X_i X_j\)（因为 \(E[X_i X_j] = \tanh(\kappa)^2\)）。更高阶 \(A_1(\kappa)^{2\ell} = \tanh(\kappa)^{2\ell}\) 的无偏估计为 \(d_{A^{2\ell}} = \frac{1}{(N)_{2\ell}} \sum_{i_1, \dots, i_{2\ell} \text{ distinct}} (X_{i_1} X_{i_2}) \cdots (X_{i_{2\ell-1}} X_{i_{2\ell}})\)。最终 \(\hat{\zeta}_M = \sum_{\ell=1}^M c_\ell d_{A^{2\ell}}\) 是 \(\sum_{\ell=1}^M c_\ell \tanh(\kappa)^{2\ell}\) 的无偏估计。

为什么成立：核心数学困难在于"无偏估计量必须依赖 \(\kappa^2\) 的实解析性"，这由 \(O(n)\)-Haar 平均与指数族解析性强制产生。在 \(n=1\) 时，\(O(1)\)-Haar 平均即翻转对称 \(X \to -X\)，将期望函数退化为偶函数，偶实解析函数必为 \(\kappa^2\) 的实解析函数，从而封死 \(\kappa\)（奇函数）的无偏性，打开 \(\kappa^2\)（偶函数）的无偏性。U-统计量则纯粹利用了独立样本内积的矩因子化 \(E[X_i X_j] = E[X_i]E[X_j]\)，将 \(A_n(\kappa)^{2\ell}\) 的无偏估计转化为配对内积的组合平均。

Maintained by 陈星宇 · Homepage · Source on GitHub

Unbiased estimation of squared concentration in the Fisher-von Mises-Langevin distribution and the impossibility of unbiased concentration¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论