Tweedie's Formula, Variance Functions, and Score-Driven Updating¶

作者: Peter Reinhard Hansen, Chen Tong
主题: 经济理论 / 应用
相关性: 6/10
链接: https://arxiv.org/abs/2605.15902

一、核心问题与贡献¶

①本文研究了 score-driven 模型中基于条件似然分数的时变参数更新为何具有贝叶斯信号提取的解释。②核心工具是 Tweedie 公式与指数族方差函数理论，将边际预测密度的分数与共轭先验下的后验修正建立代数等价。③主要结论是：对一般条件密度，inverse-Fisher-scaled 条件分数等价于局部高斯近似下的贝叶斯后验修正；对共轭自然指数族，在期望参数空间与稳态精度折扣下，score-driven 修正与贝叶斯后验均值在转移动态施加前严格代数等价。

二、基础设定¶

核心概念与符号：
\(Y_t | \theta_t \sim f(y_t | \theta_t)\)：观测驱动模型，\(\theta_t\) 为时变参数。
\(s_t(\theta) = \partial_\theta \ell_t(\theta)\)：条件对数似然分数。
\(\mathcal{I}_t(\theta)\)：Fisher 信息矩阵。
Tweedie 公式：\(E[\mu|Y=y] = y + \sigma^2 \partial_y \log f(y)\)，将后验修正表示为边际密度的 scaled score。
NEF (自然指数族)：\(f(y|\theta) = h(y)\exp\{\theta y - \psi(\theta)\}\)，期望参数 \(\mu = \psi'(\theta)\)。
方差函数 \(V(\mu)\) 与 Tweedie 指标 \(p\)（\(V(\mu)=\mu^p\)）：决定条件分数如何标准化预测误差。
精度折扣：\(P^{-1}_{t+1|t} = \delta P^{-1}_{t|t}\)，\(0<\delta<1\)。
关键假设：
局部高斯预测近似（Prop 1）：\(\theta_t | \mathcal{F}_{t-1} \approx N(\bar{\theta}_t, \bar{P}_t)\)。统计学含义：将非高斯状态空间的滤波问题局部线性化，相比全局高斯假设（Kalman 滤波）放宽了动态演化的分布要求。
Fisher scoring 二次展开（Prop 1）：对数似然用 Fisher 信息而非观测 Hessian 展开。统计学含义：避免观测特定的 Hessian 噪声，保证曲率为正定，是经典 Fisher scoring 的标准操作。
稳态精度折扣（Prop 1 & 2）：\(n_{t|t-1} = \delta/(1-\delta)\)。统计学含义：先验精度处于折扣机制的稳态。相比时变先验精度，该假设是获得精确代数等价的核心条件，限制了模型对非平稳先验动态的适应性。
共轭自然指数族（Prop 2）：观测分布与先验共轭。统计学含义：保证后验解析可得，是精确等价成立的分布族限制。
问题背景：Score-driven 模型通常以 KL 散度极小化或鲁棒性作为理论支撑，缺乏直接的贝叶斯信号提取解释。Masreliez (1975) 给出了近似非高斯滤波，但未与 Tweedie 公式联系。本文针对 score-driven 修正“仅是局部近似还是具有精确贝叶斯意义”这一不足，区分了边际观测分数与条件参数分数，填补了 empirical Bayes 与观测驱动时间序列模型之间的理论鸿沟。

三、主要定理 / 核心结果¶

Lemma 1 & 2 (Tweedie's Formula for Gaussian & NEF)
原文陈述：高斯下 \(E[\mu|Y=y] - y = \sigma^2 \partial_y \log f(y)\)；NEF下 \(E[\theta|Y=y] = \partial_y \log(f(y)/h(y))\)。
直观解释：在经典信号提取中，从含噪观测向潜变量的贝叶斯修正，方向恰好是边际密度的分数，步长由噪声方差或基础测度决定。
技术难点：控制积分号下求导的支配条件。
局限：依赖边际密度 \(f(y)\) 的解析/估计，且 NEF 情形需基础测度修正，这与 score-driven 模型中的条件参数分数本质不同。
Lemma 3 (Variance-function normalization)
原文陈述：\(\mathcal{I}_\mu(\mu)^{-1} \partial_\mu \ell(y;\mu) = y - \mu\)。
直观解释：在期望参数空间中，逆 Fisher 信息缩放恰好抵消了方差函数对分数的标准化作用，还原了原始预测误差。
技术难点：无，指数族标准性质。
局限：仅适用于单参数指数族。
Proposition 1 (Local Bayesian-Fisher approximation)
原文陈述：在局部高斯先验与 Fisher 二次似然下，\(\theta_{t|t} = \bar{\theta}_t + (\bar{P}_t^{-1} + \mathcal{I}_t)^{-1} s_t\)；稳态折扣下退化为 \(\theta_{t|t} = \bar{\theta}_t + (1-\delta)\mathcal{I}_t^{-1} s_t\)。
直观解释：Score-driven 模型中的 inverse-Fisher-scaled 分数更新，等价于一步局部的 Kalman 滤波修正，Fisher 信息扮演了观测精度的角色。
技术难点：将先验精度与 Fisher 信息的稳态关系 \(\bar{P}_t^{-1} = \delta \mathcal{I}_t / (1-\delta)\) 代入后验均值公式。
局限：局部近似，假设 \(\mathcal{I}_t\) 在当前预测值处固定。
Proposition 2 (Exact NEF equivalence)
原文陈述：共轭 NEF 下，\(\mu_{t|t} = \mu_{t|t-1} + (1-\delta)(y_t - \mu_{t|t-1})\)，这恰好等于 \(\mu_{t|t-1} + \kappa \mathcal{I}_\mu(\mu_{t|t-1})^{-1} \partial_\mu \log f(y_t|\mu_{t|t-1})\)（\(\kappa=1-\delta\)）。
直观解释：在期望参数空间中，score-driven 修正不再是近似，而是转移动态施加前的精确贝叶斯后验均值。
技术难点：利用 Diaconis-Ylvisaker 恒等式证明共轭先验下期望参数的后验均值更新率。
局限：要求共轭 NEF、稳态精度折扣、期望参数空间。若在自然参数空间或变换参数空间（如 log-mean），等价性失效。

四、证明框架 / 方法设计¶

证明主干逻辑：构造性代数等价证明。先建立静态信号提取的边际分数等价，再通过局部曲率近似桥接条件分数，最后在共轭指数族下证明代数恒等。
关键逻辑步骤：
边际分数等价：对高斯卷积和 NEF，通过积分号下求导，将 \(E[\theta|Y]\) 表示为 \(\partial_y \log f(y)\) 的函数（Lemma 1 & 2）。
方差函数标准化消除：在期望参数空间中，利用链式法则证明逆 Fisher 缩放将条件分数还原为原始新息 \(y-\mu\)（Lemma 3）。
局部高斯融合：将高斯先验精度与似然 Fisher 信息结合，配方求解后验均值，引入稳态折扣率消去先验精度，得到条件分数的局部贝叶斯解释（Prop 1）。
共轭精确更新：利用共轭先验超参数的递推更新，结合 Diaconis-Ylvisaker 恒等式，证明期望空间的后验均值更新直接等价于逆 Fisher 缩放的条件分数（Prop 2）。
最关键的技巧性"跳跃点"：将 Tweedie 公式中的边际观测分数替换为条件参数分数。Tweedie 的修正项是对 \(y\) 求导，而 score-driven 是对 \(\theta\) 求导。作者通过 Lemma 3 揭示了在期望空间中，逆 Fisher 缩放的条件参数分数恰好等于原始新息 \(y-\mu\)，而共轭贝叶斯更新的核心驱动项也是 \(y-\mu\)，从而在代数上跨过了两种分数的鸿沟。
数学工具评价：经典指数族理论、贝叶斯折扣滤波与 Fisher scoring 的巧妙组合。未引入全新的数学分析框架，但通过参数空间（期望 vs 自然）的切换，实现了经验贝叶斯与时间序列滤波的理论统一。

五、与研究者兴趣的关联¶

连接子方向：Semiparametric efficiency theory 中的 compound decision 问题与 empirical Bayes；动态处理效应/时间序列因果推断中的时变参数滤波。
可借鉴的核心思路或技术工具：
Tweedie 公式与分数的等价性视角：在 semiparametric efficiency bound 的推导中，efficient influence function 常表现为分数形式。本文揭示的“后验修正=边际分数=逆 Fisher 缩放的条件分数”逻辑，可为高维或半参数设定下构造近似有效估计量提供启发（如用条件分数近似不可计算的边际分数）。
期望参数空间的代数简化：在因果推断的敏感性分析或 IV 估计中，若模型具有指数族结构，在期望参数空间进行更新/推断可避免曲率计算的复杂性，直接获得原始残差驱动的更新。
值得精读的关键参考文献：
Efron (2011): Tweedie’s formula and selection bias. 奠基性工作，详细阐述了 Tweedie 公式在 empirical Bayes 与选择偏差中的应用，对理解 semiparametric compound decision 极为关键。
Diaconis & Ylvisaker (1979): Conjugate priors for exponential families. 共轭先验期望参数后验均值恒等式的出处，是指数族贝叶斯推断的经典文献。
West et al. (1985): Dynamic generalized linear models and Bayesian forecasting. 动态 GLM 与折扣滤波的经典，提供了本文 Prop 2 所依赖的动态贝叶斯递推框架。

六、延伸思考与练习¶

假设扰动：若放宽“稳态精度折扣”假设（即 \(n_{t|t-1}\) 随时间非平稳变化），Prop 2 的精确等价性将破裂，score-driven 修正退化为具有时变学习率 \(\alpha_t = 1/(n_{t|t-1}+1)\) 的局部近似。技术上，要维持精确等价，需要引入时变的缩放矩阵 \(S_t\)，且 \(S_t\) 必须精确追踪先验精度的动态，这在非共轭或高维设定下极具挑战。
开放问题：对于非指数族分布（如 Student-t 等厚尾分布），方差函数可能不存在或非解析，此时如何构造一种广义的“方差函数标准化”，使得逆 Fisher 缩放的条件分数仍能保持某种局部贝叶斯最优性？
理解检测题：考虑 Beta-Binomial 模型 \(Y_t \sim \text{Bin}(N, p_t)\)，其中 \(p_t\) 具有共轭 Beta 先验。请写出在自然参数 \(\theta_t = \log(p_t/(1-p_t))\) 空间下的条件分数 \(\partial_\theta \ell\) 与逆 Fisher 缩放分数 \(\mathcal{I}_\theta^{-1} \partial_\theta \ell\)，并解释为什么在此参数空间下，score-driven 修正不再等于精确的贝叶斯后验均值修正，这与期望参数空间 \(\mu_t = p_t\) 下的结果有何本质区别？

Maintained by 陈星宇 · Homepage · Source on GitHub