Focused median bias reduction¶

作者: Davide Benussi, Ioannis Kosmidis, Alessandra Salvan, Nicola Sartori
主题: 数理统计 / 假设检验
相关性: 6/10
链接: https://arxiv.org/abs/2606.28597

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是参数估计中的偏差校正，特别是针对最大似然估计（MLE）在有限样本下的偏差问题。核心目标是构造估计量，使其渐近偏差（均值或中位数）以比 MLE 更快的速度衰减到零，从而改善基于这些估计量的推断（如置信区间、假设检验）的有限样本表现。当前该领域已从通用的均值偏差校正（如 Firth, 1993）发展到中位数偏差校正（如 Kenne Pagui et al., 2017），并开始关注焦点参数（focus parameter，即参数的一个光滑标量变换）的偏差校正问题。
发展脉络（history）：
- 奠基工作：Cox and Snell (1968) 给出了 MLE 偏差的渐近展开式，为后续所有偏差校正方法提供了理论基础。Firth (1993) 提出了通过调整得分方程来隐式地实现均值偏差校正的方法（s + A = 0），该方法不仅减少了偏差，还能在离散数据模型中防止边界估计（如逻辑回归中的无限估计），Kosmidis and Firth (2021) 为此提供了理论保证。Kosmidis (2014a) 对均值偏差校正方法进行了全面综述。
- 主要进展：中位数偏差校正：Kenne Pagui et al. (2017) 提出了隐式的中位数偏差校正方法，通过求解调整后的得分方程 s + A - iC = 0 来获得估计量。该估计量是分量-wise 三阶中位数无偏的，且在单调变换下具有精确的等变性。Kosmidis et al. (2020) 将该方法推广到广义线性模型，并提供了统一的拟 Fisher 评分算法。Kosmidis and Lunardon (2024) 进一步将偏差校正框架扩展到更一般的 M-估计，提出了经验偏差校正方法。
- 当前 Frontier：焦点参数的偏差校正：当关注的不是整个参数向量，而是其一个标量函数（焦点参数）时，直接应用上述方法需要重新参数化或推导调整后的剖面得分方程，计算复杂。Di Caterina and Kosmidis (2019) 和 Dæhlen et al. (2024) 提供了焦点参数均值偏差展开的显式表达式，用于改进 Wald 统计量和聚焦信息准则（FIC）。Gioia et al. (2023) 利用 Kenne Pagui et al. (2017) 方法的等变性，在参考参数化下进行中位数偏差校正，然后通过单调变换得到累积链接模型中优势比的校正估计量。
- 本文的位置：本文提出了一种显式的、针对焦点参数的中位数偏差校正估计量。它基于 Cornish-Fisher 展开，避免了求解非线性方程组，只需参考参数化下的 MLE（或其渐近等价估计）、变换的梯度和 Hessian，以及对数似然导数的期望乘积。当焦点参数是参考参数化的一个分量时，该显式估计量是隐式方法（Kenne Pagui et al., 2017）的一步近似。
子线索聚类：
1. 均值偏差校正：以 Firth (1993) 的调整得分方法为核心，包括 Kosmidis (2011) 的通用算法、Kosmidis and Firth (2018) 在逻辑回归中的理论保证、Kosmidis and Lunardon (2024) 的经验调整方法。这条线索成熟，应用广泛。
2. 中位数偏差校正：以 Kenne Pagui et al. (2017) 的隐式调整得分方法为核心，包括 Kosmidis et al. (2020) 在 GLM 中的实现、Kenne Pagui et al. (2020) 的高效实现、以及 Gioia et al. (2023) 在累积链接模型中的应用。这条线索较新，但计算成本高。
3. 焦点参数的推断与偏差校正：关注如何对参数的一个标量函数进行推断。包括 Di Caterina and Kosmidis (2019) 的 Wald 统计量位置调整、Dæhlen et al. (2024) 的精确偏差估计与 FIC、以及本文提出的显式中位数偏差校正。这条线索直接服务于应用中的具体问题（如边际效应、分位数、马氏距离）。
4. 基于 Hull 的置信区间（HulC）：Kuchibhotla et al. (2024) 提出了一种不依赖方差估计或极限分布的置信区间构造方法，其覆盖率的保证依赖于对估计量中位数偏差的均匀上界控制。本文将其与自己的显式中位数偏差校正方法结合，实现了接近名义水平的有限样本覆盖率。
这个方向在追问的核心问题：
1. 如何高效地实现焦点参数的中位数偏差校正？ 现有隐式方法（Kenne Pagui et al., 2017）需要求解非线性方程组，且需完全指定 nuisance 参数化，计算成本高。已知瓶颈：计算复杂，需要针对每个焦点参数进行推导和编程。
2. 如何将偏差校正方法与现代推断工具（如 HulC）结合？ HulC 的覆盖率保证依赖于对中位数偏差的控制，而偏差校正方法恰好能提供这种控制。已知瓶颈：需要一种计算上可行、且能保证中位数偏差上界很小的估计量。
3. 在模型选择后，如何对焦点参数进行有效推断？ 选择后的估计量（如基于 FIC 的）存在选择偏差，其分布复杂。已知瓶颈：需要一种能处理选择偏差、且计算简单的推断方法。
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）：
- 作者将缺口 frame 成：现有中位数偏差校正方法（Kenne Pagui et al., 2017）是隐式的，计算上“computationally demanding”，且对任意焦点参数的应用“algebraically nontrivial and computationally complicated”。因此，他们这篇提出显式的、基于 Cornish-Fisher 展开的校正方法，是“显然的下一步”。
- 被淡化或回避的竞争路线：作者承认他们的显式方法不具精确等变性（unlike the maximum likelihood and the median bias reduction method of Kenne Pagui et al., 2017），但强调其三阶中位数无偏性在单调变换下得以保持。他们淡化了等变性在实践中的重要性，将其描述为“creates flexibility in practice”。
- 什么明显该被引 / 该存在、却没出现在 intro 里？：作者没有讨论在高维设定（p > n）下该方法的适用性或挑战。虽然他们提到了“high-dimensional parameter specifications”作为信息量小的例子，但并未引用任何高维统计或正则化估计（如 Lasso）的文献。对于一位高维统计研究者，这是一个明显的缺口。
张力：未见明显对立引用。所有被引工作都沿着“偏差校正 → 改善推断”这一主线，只是在方法（均值 vs. 中位数）、形式（隐式 vs. 显式）和适用范围（全参数 vs. 焦点参数）上有所不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- θ：参考参数化下的 p 维参数向量，θ ∈ Θ ⊂ ℝᵖ。
- Y：可观测的随机向量（数据），其分布由 M_θ 决定。
- l(θ; Y)：对数似然函数。
- θ̂：MLE，θ̂ = arg max_θ l(θ; Y)。
- ψ = h(θ)：焦点参数，是一个光滑的标量函数 h: Θ → ℍ ⊂ ℝ。
- ψ̂ = h(θ̂)：焦点参数的 MLE。
- B(ψ) = E(ψ̂ - ψ)：ψ̂ 的均值偏差。
- K₂ = Var(ψ̂)：ψ̂ 的方差。
- K₃ = Cum₃(ψ̂)：ψ̂ 的三阶累积量。
- ρ₃ = K₃ / K₂^{3/2}：ψ̂ 的标准化的三阶累积量（偏度）。
- W = K₂^{-1/2} {ψ̂ - E(ψ̂)}：中心化和缩放后的 ψ̂。
- n：表征信息累积速率的量（通常是样本量）。
- Oₚ(n^{-k})：依概率收敛到 0 的阶数为 n^{-k} 的量。
模型：一个正则参数模型 M_θ，满足标准正则性条件（如 McCullagh, 2018, Sections 7.1, 7.2），使得 MLE 具有一致性、渐近正态性和渐近有效性。同时假设 Edgeworth 和 Cornish-Fisher 展开的有效性条件成立（如 Hall, 1992, Chapter 2）。
可观测数据：研究者能观测到的是 Y 的一个实现 y。基于此，可以计算对数似然 l(θ; y) 及其导数。研究者想要但观测不到的是真实的参数 θ 和焦点参数 ψ，以及 ψ̂ 的有限样本分布特性（如 B(ψ), K₂, K₃）。这些只能通过渐近理论或模拟来近似。

第二步：讲最小内核¶

本文的核心思路可以用一个最简特例来理解：假设我们已知 ψ̂ 的偏差 B(ψ)、方差 K₂ 和偏度 ρ₃（即“Oracle”情形），如何构造一个中位数无偏的估计量？

在这个特例下，核心数学问题退化为：如何调整 ψ̂，使得调整后的估计量的中位数等于真实的 ψ？

核心思路： 1. 构造一个渐近正态的枢轴量：考虑 W = K₂^{-1/2} {ψ̂ - E(ψ̂)}。W 渐近服从标准正态分布。Cornish-Fisher 展开告诉我们，可以通过一个变换来改进正态近似： Z = W - (ρ₃/6)(W² - 1) 这个 Z 是渐近标准正态的，且其分布对标准正态的逼近误差是 O(n^{-3/2})，比 W 的 O(n^{-1/2}) 误差更小。

求解中位数条件：一个渐近标准正态的随机变量，其中位数是 0。因此，如果我们能找到一个估计量 ψ̃，使得 Z(ψ̃) = 0，那么 ψ̃ 的中位数就应该渐近地等于 ψ。即，求解方程： Z = 0 关于 ψ 的解。
显式解：将 Z 的定义代入方程 Z=0，并利用 W 是 ψ̂ 的函数这一事实，可以得到一个显式解（见 Theorem 1 的证明）： ψ̃^{(o)} = ψ̂ - B(ψ) + (1/6) * (K₃ / K₂) 这个 ψ̃^{(o)} 就是Oracle 中位数偏差校正估计量。它通过从 ψ̂ 中减去偏差 B(ψ)，再加上一个与偏度 K₃/K₂ 相关的项，来将中位数拉回到 ψ。

这个最小内核揭示了本文的核心数学操作：中位数偏差校正不仅仅是减去均值偏差，还需要一个额外的偏度校正项 (1/6)(K₃/K₂)。这个项来源于 Cornish-Fisher 展开，用于纠正分布不对称性对中位数的影响。整篇论文的其余部分，就是如何在实际中（当 B(ψ), K₂, K₃ 未知时）用它们的估计量（如 b(ψ), κ₂, κ₃）来替换 Oracle 版本中的真实值，并证明这种替换不会破坏其三阶中位数无偏性。

三、这篇论文做了什么¶

三句话：
1. 研究了如何为光滑标量变换的焦点参数 ψ = h(θ) 构造一个显式的、计算上高效的中位数偏差校正估计量。
2. 核心工具是 Cornish-Fisher 展开，通过求解一个渐近正态枢轴量的中位数方程，得到一个显式校正公式 ψ̃ = ψ̂ - b(ψ) + (1/6)(κ₃/κ₂)，其中 b(ψ), κ₂, κ₃ 是基于参考参数化 θ 的 MLE 或其渐近等价估计计算的一阶近似。
3. 主要结论是：该估计量是三阶中位数无偏的；当焦点参数是 θ 的一个分量时，它是隐式中位数偏差校正方法（Kenne Pagui et al., 2017）的一步拟 Fisher 评分近似；与 HulC 方法结合，能提供接近名义水平的有限样本覆盖率。
关键设定与假设：
- 设定：在第二节最小记号的基础上，补全了完整设定。θ 是任意选择的参考参数化。ψ = h(θ) 是光滑的标量函数。需要计算 θ̂（或其渐近等价估计，如 Firth 的均值偏差校正估计量）。
- 假设：
  - 正则性条件：标准参数推断的正则性条件（McCullagh, 2018, Sections 7.1, 7.2），确保 MLE 的渐近性质。
  - Edgeworth/Cornish-Fisher 有效性：确保展开的有效性（Hall, 1992, Chapter 2）。
  - 连续分布：理论推导针对连续分布。对于离散分布，展开中包含振荡项，但作者通过模拟验证了方法在离散情况下的有效性。
  - 弱识别排除：假设 nκ₂ 有界远离零，即排除弱识别的焦点参数。
- 相比已有文献的放宽/强化：相比 Kenne Pagui et al. (2017) 的隐式方法，本文放宽了对完全指定 nuisance 参数化的需求，只需参考参数化下的 MLE 和变换的导数。相比 Di Caterina and Kosmidis (2019) 的均值偏差校正，本文强化了目标，追求三阶中位数无偏而非均值无偏。
主要结果：
- Theorem 1 (Oracle 估计量)：如果 K₂, ρ₃, B(ψ) 已知，则求解 Z=0 得到的 ψ̃^{(a)} 是三阶中位数无偏的，即 P(ψ̃^{(a)} ≤ ψ) = 1/2 + O(n^{-3/2})。这为后续的显式公式提供了理论基础。
- 非 Oracle 估计量（公式 4 和 9）：这是本文的核心方法贡献。
  - 公式 (4)：ψ̃ = ψ̂ - B̂(ψ) + (1/6)(K̂₃ / K̂₂)。当 B(ψ), K₂, K₃ 有闭式解时，直接用 θ̂ 代入。
  - 公式 (9)：ψ̃ = ψ̂ - b̂(ψ) + (1/6)(κ̂₃ / κ̂₂)。当闭式解不可得时，使用它们的一阶渐近展开 b(ψ), κ₂, κ₃。这是最实用的版本。作者证明了 -b̂(ψ) + (1/6)(κ̂₃/κ̂₂) = -B(ψ) + (1/6)(K₃/K₂) + Oₚ(n^{-3/2})，因此 ψ̃ 也是三阶中位数无偏的。
- Section 3.2 (与隐式方法的联系)：当 ψ = θ_t（即焦点参数是参考参数化的一个分量）时，公式 (9) 给出的校正量 θ̂_t + [V̂]ᵗ_t Â - Ĉ_t 恰好是 Kenne Pagui et al. (2017) 隐式方法的一步拟 Fisher 评分迭代。这建立了显式与隐式方法之间的桥梁，并解释了为什么显式方法能达到相同的三阶中位数无偏性。
证明路线与技术技巧：
- 整体路线：
  1. 构造枢轴量：从 ψ̂ 出发，通过中心化和缩放得到 W，再通过 Cornish-Fisher 展开构造渐近正态枢轴量 Z = W - (ρ₃/6)(W² - 1)。
  2. 求解中位数方程：令 Z=0，求解关于 ψ 的方程。通过展开，得到 Oracle 解 ψ̃^{(o)} = ψ̂ - B(ψ) + (1/6)(K₃/K₂)。
  3. 证明 Oracle 解的中位数性质：利用 Edgeworth 展开，证明 P(Z ≤ 0) = 1/2 + O(n^{-3/2})，从而证明 ψ̃^{(o)} 的三阶中位数无偏性。
  4. 处理未知量：将 Oracle 解中的未知量 B(ψ), K₂, K₃ 替换为它们的估计量（如 b̂(ψ), κ̂₂, κ̂₃）。通过 Taylor 展开证明这种替换引入的误差是 Oₚ(n^{-3/2})，因此非 Oracle 估计量 ψ̃ 也保持三阶中位数无偏性。
  5. 推导 κ₃ 的显式公式：在附录 S1 中，利用指数记号和 Einstein 求和约定，推导了 κ₃ 的矩阵表达式（公式 8），该表达式依赖于 V, P_t, Q_t 和 ψ̈。
- 关键跳跃点：从 Oracle 解到非 Oracle 解的过渡。关键在于证明 -b̂(ψ) + (1/6)(κ̂₃/κ̂₂) 与 -B(ψ) + (1/6)(K₃/K₂) 之差是 Oₚ(n^{-3/2})。这依赖于 b(ψ), κ₂, κ₃ 是 B(ψ), K₂, K₃ 的一阶近似，以及 θ̂ 的 √n 一致性。
- 技术技巧点名：
  - Cornish-Fisher 展开：用于构造渐近正态枢轴量 Z，并推导出中位数校正的显式形式。
  - Edgeworth 展开：用于证明 Z 的中位数性质，即 P(Z ≤ 0) = 1/2 + O(n^{-3/2})。
  - 指数记号与 Einstein 求和约定：在附录 S1 中用于高效地推导 κ₃ 的表达式，这是处理高阶张量运算的标准工具。
  - Taylor 展开：用于证明将 Oracle 解中的未知量替换为估计量后，误差阶数可控。
  - 拟 Fisher 评分：用于建立显式校正与隐式方法（Kenne Pagui et al., 2017）之间的联系。
真实例子与应用：本文包含了丰富的真实数据例子和模拟实验，这是其一大亮点。
- Example 1 (马氏距离)：使用模拟数据，展示了 ψ̃ 在估计平方马氏距离时，其低估概率（PU）远优于 ψ̂，且 Wald 置信区间覆盖率更接近名义水平。说明：验证了方法在多元正态分布下的有效性，特别是当 p/n 较大时。
- Example 2 (分层 Gamma 样本的共同形状参数)：推导了 Gamma 分布中共同形状参数 α 的显式校正公式（公式 11），并指出该公式与 Pace and Salvan (1999) 基于修正似然根的估计量一致。说明：展示了方法在指数族模型中的简洁性，并建立了与高阶似然推断的联系。
- Example 3 & 5 (GLM 中的个体边际效应)：使用 Default 数据集，展示了如何计算 probit 回归中边际效应的中位数偏差校正估计量。模拟结果显示，ψ̃ 几乎完全消除了中位数偏差，而 Wald 区间仍存在覆盖不足问题，但 HulC 区间达到了接近名义水平的覆盖率。说明：展示了方法在 GLM 中的广泛应用，并凸显了其与 HulC 结合的优势。
- Example 4 (Beta-二项回归)：使用 carrots 数据集，展示了在 Beta-二项回归中，ψ̃ 对过度分散参数 ρ 的估计。说明：展示了方法在非标准模型（非指数族）中的应用，并对比了其与隐式方法（Kenne Pagui et al., 2017）的差异（不等变性）。
- Example 6 (Weibull 分位数)：使用模拟数据，对比了 ψ̃、ψ̂ 和基于 r* 的估计量 ψ*。结果显示，ψ̃ 和 ψ* 在消除中位数偏差上同样有效，但 ψ̃ 的计算成本远低于 ψ*。说明：展示了方法在复杂非线性焦点参数（分位数）上的有效性，并凸显了其计算优势。
- Example 7 (相邻类别模型中的序数优越性度量)：使用 wine tasting 数据，展示了在数据分离导致 MLE 不存在的情况下，如何基于均值偏差校正估计量 θ† 来计算 ψ̃。说明：展示了方法在处理 MLE 边界问题时的鲁棒性，以及通过模拟估计 P_t 等量的可行性。
- Example 8 (FIC 模型选择与风险差异)：使用低出生体重数据，展示了在 FIC 模型选择后，基于宽模型的 ψ̃ 和 HulC 区间能提供接近名义水平的覆盖率，优于基于选择后模型的 Wald 区间。说明：展示了方法在模型选择后推断这一困难问题中的应用。
🔎 结论是否比证明窄：
- 作者在 Section 2.1 中声明“所有理论推导针对连续分布”，但在离散情况下“忽略振荡项”。然而，在多个离散数据例子（如 Example 3, 4, 7, 8）中，他们通过模拟验证了方法的有效性。因此，理论结论（三阶中位数无偏性）严格来说只在连续分布下被证明，对离散分布是“经验上有效”而非“理论上严格证明”。作者在 Section 2.1 末尾明确指出了这一点。
- 作者在 Section 7 的“Concluding remarks”中提到“Current work focuses on extensions beyond likelihood models, to problems specified through general estimating functions or estimation objectives.” 这表明本文的理论结果严格局限于似然模型，对更一般的 M-估计或估计方程框架的推广是未来工作。

四、开放问题¶

扩展到一般估计方程（M-估计）：本文的理论严格依赖于似然框架。作者在结论中明确将其列为未来工作。扎根点：Section 7, "Current work focuses on extensions beyond likelihood models, to problems specified through general estimating functions or estimation objectives." 这是一个明确的、由作者自己指出的 gap。
高维设定下的表现：本文的方法依赖于 θ̂ 的 √n 一致性。在高维（p > n）或弱识别设定下，MLE 可能不存在或不一致。如何将显式中位数偏差校正与正则化方法（如 Lasso, Ridge）结合，是一个开放问题。扎根点：Introduction 中提到了“high-dimensional parameter specifications”作为信息量小的例子，但并未深入讨论。这是一个明显的、未被探索的领域。
等变性的代价与收益的量化：作者承认他们的方法不具精确等变性，但声称“creates flexibility”。一个开放问题是：在什么情况下，这种不等变性会导致实际性能的显著下降？能否给出一个理论或经验准则，来指导如何选择参考参数化以最小化不等变性的负面影响？扎根点：Section 3.1 和 Section 7 讨论了等变性，但只是定性描述，缺乏量化分析。
与高阶 U-统计量的潜在联系：本文的校正公式 ψ̃ = ψ̂ - b(ψ) + (1/6)(κ₃/κ₂) 中，b(ψ) 和 κ₃ 的计算涉及 P_t 和 Q_t，这些是期望的乘积形式。对于某些焦点参数（如 U-统计量），ψ̂ 本身就是一个 U-统计量或其函数。那么，本文的显式校正公式能否为 U-统计量的中位数偏差校正提供一个统一框架？扎根点：这是一个基于研究者自身兴趣（高阶 U-统计量）的推测性问题，并非论文直接提及。但论文中 κ₃ 的推导（附录 S1）使用了张量方法，这与 U-统计量的高阶性质有潜在联系。

Maintained by 陈星宇 · Homepage · Source on GitHub