Malliavin calculus techniques for local asymptotic mixed normality and their application to hypoelliptic diffusions¶

作者: Masaaki Fukasawa, Teppei Ogihara
来源: Bernoulli
主题: 数理统计 / 假设检验
相关性: 6/10
机构绿灯: University of Tokyo（US News 前 50，免分进入精读）
链接: https://doi.org/10.3150/23-bej1621

一、领域脉络与小综述¶

这个方向是什么¶

这是局部渐近正态性（LAN/LAMN）理论的一个子方向。LAN/LAMN 是 Le Cam 学派中分析参数统计模型渐近最优性的核心概念：如果某个统计模型（即带有参数 \(\theta\) 的概率测度族 \(P_{n,\theta}\)，基于样本量 \(n\)）在一个局部化参数 \(h\) 下，其对数似然比 \(\log(dP_{n,\theta + h/\sqrt{n}} / dP_{n,\theta})\) 依分布收敛到某个混合正态分布，那么极大似然估计量在该模型中是局部渐近极小化最优的（在 Hájek 的卷积定理和 Le Cam 的第三个引理的意义上）。

发展脉络（history）¶

奠基工作：Le Cam 的 LAN 理论（1960/1970s）。它是最小方差无偏估计的渐近版本。Jeganathan [Sankhyā Ser. A 44 (1982) 173–212] 将 LAN 推广到 LAMN，允许极限信息量是随机的——这在许多非平稳/非遍历的随机过程设定中自然出现（例如带随机波动的扩散过程）。Jeganathan 的框架要求模型满足三个条件（在不同的测度下收敛），但验证这些条件在具体模型上很难。
扩散过程的渐近理论：对于 椭圆扩散（即扩散项非退化，且具有光滑的转移密度和 Aronson 型高斯上下界），已有标准方法建立 LAMN，如 Kessler [Scand. J. Statist. 24 (1997) 211–229]。对于 积分扩散（部分观测/加性噪声观测），也有类似结果，如 Gloter [Scand. J. Statist. 33 (2006) 561–582]。这些结果依赖于对转移密度 \(p_t(\cdot,\cdot)\) 的精确（指数/多项式）估计。
当前 frontier 与本文的位置：许多实际模型是 次椭圆（hypoelliptic） 的——扩散项退化（例如某些坐标没有被噪声直接驱动），但通过漂移项的耦合，概率密度仍然光滑且从任何初始状态出发能到达全空间。这类模型缺乏标准的 Aronson 型估计。作者引用 Gobet [Bernoulli 7 (2001) 899–912] 的工作，该文用 Malliavin 微积分 证明了次椭圆扩散在固定时间间隔（而非高频）下的像的密度存在性和光滑性。本文的核心工作：将 Gobet 的 Malliavin 微积分方法 提升为一种通用框架，用于在高频观测的 三角阵列 中建立 LAMN，从而绕过对转移密度显式界的依赖。

子线索聚类¶

这些被引文献大致分布在以下三条子线索上：

线索 A：LAN/LAMN 的经典抽象框架。
Jeganathan (1982): 建立了 LAMN 的充分条件（三个收敛条件），是本文的数学起点。
Strasser [Mathematical statistics, 1985]：教科书性总结，把 Le Cam 的理论系统化。
Le Cam & Yang [Asymptotics in Statistics, 2000]：标准参考文献。
线索 B：扩散过程（尤其是高频观测）下的 LAN/LAMN。
椭圆扩散：Kessler (1997), Yoshida (1990, 1992)。核心工具是利用 Girsanov 变换与离散化。
积分/部分观测扩散：Gloter (2006), Genon-Catalot & Larédo (2016)。探讨观测是扩散自身 \((X_t)\) 的函数或积分时的推断。
关键口子：这些工作均假设椭圆性 (ellipticity)（即 \(\sigma(x)\sigma(x)^T\) 正定），或者假设转移密度有已知上下界。次椭圆情形被排除。
线索 C：Malliavin 微积分用于密度存在性与 LAMN。
Gobet (2001): 对小时间次椭圆扩散用 Malliavin 建立密度光滑性。作者引用这句话："Gobet (2001) showed the existence and smoothness of the density of the solution to a stochastic differential equation satisfying Hörmander's condition， using Malliavin calculus."
Nualart [Malliavin Calculus, 2006]：教科书。Malliavin 微积分的标准参考。
本文位置：本文是线索 C 向 LAMN 方向的推广。作者引用 Gobet 时强调：“...we further give tractable sufficient conditions which do not require Aronson-type estimates of the transition density function.”

这个方向在追问的核心问题¶

LAMN 的可验证充分条件：给定一个具体的参数化过程模型（比如次椭圆 SDE、非平稳过程），能否有通用的、避开 case-by-case 椭圆性验证的 LAMN 框架？
高频与低频观测的统一处理：对随机过程，高频观测（\(n \to \infty, \Delta t_n \to 0\)）和低频观测（\(\Delta t\) 固定）下的渐近理论有本质不同。本文处理高频观测——观测间距 \(h_n = 1/n\) 且观测数为 \(n\)，参数维数 \(d_\theta\) 固定，但“维数”是变化的（因为观测向量 \(X_{1/n}, ..., X_{n/n}\) 的维数随 \(n\) 增长）。
部分观测时的可识别性与 LAMN：当只能观测到扩散过程的一个函数（如积分 \(Y_t = \int_0^t X_s ds\)）时，信息量可能降低，LAMN 的成立依赖于该函数是否保留了足够的 Fisher 信息。

⚠️ 作者的 framing¶

作者的缺口定位：作者明确说，已有方法依赖 Aronson 型估计（即转移密度有高斯上下界），而这对于次椭圆扩散不成立或很难证明。他们的 work "does not require Aronson-type estimates"——这是他们的核心卖点。同时，他们明确将 Jeganathan 的框架推广到变维三角阵列，用来适配高频观测。
淡化 / 回避了什么：Malliavin 微积分本身是一个相当重量的工具。作者没有讨论如果不具备 Malliavin 光滑性（比如跳跃过程，或者带记忆的分数布朗运动驱动的扩散），他们的方法是否完全失效——这显然被回避了，可以当作一个明显的留白。
什么明显该被引 / 该存在、却没出现在 intro 里？：直觉上，如果目标是“避免 Aronson 型界”，那么从热核的上界理论和 Harnack 不等式出发的替代方法（如应用于次椭圆扩散的 Varadhan 型大偏差估计）也应该被提及。但 intro 中没有引用任何来自 PDE 领域（如 Davies, Stroock 等人）的次椭圆热核估计工作。这可能是因为那些界依然不够显式，或者只适用于固定时间。这是一个值得研究者验证的点。

张力¶

未见明显对立引用。被引的工作在扩散的 LAN/LAMN 方面整体是逐步推广的：椭圆 \(\to\) 次椭圆（本文）；它没有反驳任何已有结果，而是宣称在更弱条件下获得相同结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(θ \in Θ \subset \mathbb{R}^p\)：未知参数向量（\(p\) 固定）。
\(h \in \mathbb{R}^p\)：局部参数（local parameter），用于在 \(θ_0\) 附近局部化。
\(X^n = (X_{t_1}, X_{t_2}, ..., X_{t_n})\)：在时间点 \(t_i = i/n\)（网格间距 \(h_n = 1/n\)）观测到的一条离散路径（本文称其为 triangular array，因为维数 \(n\) 随 \(n\) 增长）。
\(d\)：扩散过程的维数（状态空间维度）。
\(P_{n,θ}\)：观测 \(X^n\) 在参数 \(θ\) 下的概率测度。
\(\mu_{n,θ}\)：未知的真实数据分布（一般为不可观测的连续路径的分布）。
\(\mathcal{F}_{n,θ} = dP_{n,θ} / d\mu_{n,θ}\)：似然比（相对于某个参考测度）。
\(Λ_{n,θ}(h) = \log(dP_{n,θ + h/\sqrt{n}} / dP_{n,θ})\)：局部对数似然比。
模型：数据生成过程是一个 参数化的随机微分方程（SDE）：d\(X_t = b(θ, X_t) dt + σ(X_t) dW_t\)，其中 \(W_t\) 是 \(d'\) 维布朗运动。关键点：
扩散系数 \(σ(\cdot)\) 不依赖于参数 \(θ\)（这降低了问题的难度，但也是许多此类文献的标准做法）。
该 SDE 可能满足 Hörmander 条件（即次椭圆性——扩散项 \(σ\) 所生成的向量场及它们的 Lie 括号张成整个 \(\mathbb{R}^d\)），这意味着即使 \(σ(x)\) 不是满秩，转移密度仍然存在且光滑。
本文的数学符号并不强调它是一个 SDE；他们用一个通用的“可测量映射” \(X^n = Φ_n(θ)\) 来建模，其中 \(θ\) 是输入。
可观测数据：
研究者实际能观测到的：\(\{X_{i/n}\}_{i=1}^n\)——这是离散的高频观测。维数 \(n \times d\)。
潜在/不可观测的：完整的连续路径 \(\{X_t: t ∈ [0,1]\}\) 和驱动该路径的布朗运动 \(W_t\)。
假设：通过 Malliavin 微积分，假设 \(Φ_n(θ)\)（将参数映射到观测的映射）在 Malliavin 意义下是光滑的。作者不假设存在一个显式的转移密度。

第二步：讲最小内核¶

本文不是由某个显式特例推广而来；它是一个框架性工作。最核心的数学困难可以浓缩成一个最小问题：

最小问题：考虑一个一维 (\(d=1\))，无参数 \(\sigma\) 的简单扩散：

\[dX_t = b(θ, X_t) dt + dB_t, \quad X_0 = x_0,\]

且观测为 \(X_{1/n}, X_{2/n}, ..., X_{n/n}\)。我们要证明 LAMN：

\[\log \frac{dP_{n,θ + h/\sqrt{n}}}{dP_{n,θ}} \xrightarrow{\mathcal{L}} \mathcal{N}\left( \frac{h^2}{2} I, h^2 I \right) \quad \text{(LAN)}\]

其中 \(I\) 是 Fisher 信息。

为什么这是难的（先忽略现有技巧）：直接推导需要转移密度的表达式或界，但其显式形式一般不可得，且不存在 Aronson 估计。

本文的关键想法：作者说：“...we model \(X^n\) as a function of \(θ\) and the driving noise \(W\). Then, by Malliavin calculus, we treat the parametric derivative of the log-likelihood as a Malliavin derivative.”

把参数嵌入到噪声：把观测写成 \(X^n = Φ_n(θ, W)\)，其中 \(W\) 是驱动布朗运动的某离散化版本。\(W\) 不依赖于 \(θ\)，因此关于 \(θ\) 的微分可以“push”到 \(Φ_n\)。
Malliavin 导数代替显式密度：对数似然 \(\ell_n(θ) = \log(dP_{n,θ}/d\mu_{n,θ})\) 的的灵敏度量 \(\nabla_θ \ell_n(θ)\) 可以通过 Malliavin 微积分中的一个积分变换定理（integration by parts formula）表示为：
\[\nabla_θ \ell_n(θ) = -\delta\left( \frac{\nabla_θ Φ_n}{\mathbb{E}[DΦ_n \cdot (DΦ_n)^* | ...]} \right)\]
这里 \(\delta\) 是 Skorokhod 积分（Malliavin 散度），\(D\) 是 Malliavin 导数。核心要计算的是：
- 观测映射对 \(θ\) 的普通导数 \(\nabla_θ Φ_n\)（这是显式可计算的，由 SDE 的漂移决定）和
- Malliavin 导数 \(D Φ_n\)（描述观测对底层噪声 \(W\) 的灵敏度，这同样可由 SDE 的随机流展式获得）。
避免密度界：作者不试图证明 \(p_t(x|θ)\) 是光滑且可逆的。他们直接证明随机量 \(\det(\mathbb{E}[DΦ_n \cdot (DΦ_n)^* | \mathcal{F}^x])\) 几乎必然有界和可积（这是 Hörmander 条件在 Malliavin 框架下的反映），并且通过 \(\nabla_θ \ell_n(θ)\) 的展开证明了 LAMN。

结论：本文的核心思想是：Malliavin 可微性 + 一个非退化 Malliavin 协方差矩阵（由 Hörmander 条件保证）足以绕过转移密度的显式估计，建立 LAMN。 这为处理一类广泛的过程（包括次椭圆的、部分观测的）提供了统一工具。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在没有 Aronson 型转移密度估计的设定下（即允许转移密度有零点），研究统计模型（尤其是基于高频观测的扩散模型）何时具有 局部渐近混合正态性（LAMN）。
核心工具/方法：将 Jeganathan 的 LAMN 框架推广到变维三角阵列；利用 Malliavin 微积分（特别是积分变换公式，来自 Gobet (2001)）给出可验证的 LAMN 充分条件，重点是假设观测映射在 Malliavin 意义下光滑且非退化。
主要结论：① 提出了一个一般性的 LAMN 充分条件（定理 1）；② 将该条件应用于次椭圆扩散的高频观测，证明了在完全观测（定理 2）和部分观测（积分扩散，定理 3）下的 LAMN 性质。

关键设定与假设（在第二节记号基础上补全）¶

设定：数据 \(X^n = (X_{t_1}, ..., X_{t_n})\) 通过一个 可测映射 \(X^n = Φ_n(θ, \tilde{W})\) 定义，其中 \(\tilde{W}\) 是作为“潜在变量”的无限维噪声（典型例子：布朗运动路径）。本文假设 \(\tilde{W}\) 在 Malliavin 意义下是光滑的（属于经典 Wiener 空间）。
假设 A（混合性）：参考测度 \(\mu_{n,θ}\) 作者写为 \(P_{n,θ}^0\)——在模拟 \(\tilde{W}\) 下的分布。这个假设是 Jeganathan 框架所固有的，并不容易解释。简而言之，它确保了局部对数似然比的渐近性质可以归结为依赖于“观测的 Malliavin 导数”的条件。
假设 B-D（Malliavin 框架）：
- B（光滑性）：映射 \(θ \to Φ_n(θ, \tilde{W})\) 几乎必然是 Malliavin 可微的，且其 Malliavin 导数 \(D Φ_n\) 和普通导数 \(\nabla_θ Φ_n\) 满足适当的可积性条件。关键点：这保证了我们可以对似然比函数进行积分的部（integration by parts）。
- C（可逆性）：Malliavin 协方差矩阵 \(σ_{M,n} = \mathbb{E}[D Φ_n \cdot (D Φ_n)^* | \mathcal{F}_t^Φ]\) 几乎必然是正定的（其行列式远离零），且其矩可控制。这对应于 Hörmander 条件的统计学类比：过程对噪声的灵敏度是满秩的。
- D（稳定性）：\(∇_θ Φ_n\) 和 Malliavin 协方差的变动在 \(n\) 增长时是稳定的（有紧收敛）。
对次椭圆扩散的额外假设：
漂移系数 \(b(θ, x)\) 是 \(C^∞\) 且 满足 Hörmander 条件（即次椭圆）。
扩散系数 \(σ(x)\) 是 \(C^∞\) 且 线性增长，但其 \(d\times d'\) 矩阵可能不是满秩的（即退化扩散）。
相比已有文献：放宽了椭圆性假设（不再要求 \(\sigma\sigma^T\) 正定）；增加了对 Malliavin 光滑性和可逆性的技术假设。强化了对噪声的假设（必须来自 Wiener 噪声驱动的连续路径，且必须是可微的 Malliavin 过程）。

主要结果¶

定理 1（一般充分条件）：在假设 A-D 下，模型具有 LAMN 性质，且混合正态的随机协方差矩阵 \(I(θ)\) 可以显式写出（与 Malliavin 协方差矩阵相关）。这是本文最抽象的贡献，因为它将 LAMN 的验证程序化为：（1）证明观测映射是 Malliavin 光滑的；（2）证明 Malliavin 协方差矩阵非退化。
定理 2（次椭圆扩散，完全观测）：对满足 Hörmander 条件的 SDE，高频观测 \(X^n\) 在定理 1 下具有 LAMN。这是已知椭圆结果（Kessler, 1997; Yoshida, 1992）的直接推广。
定理 3（次椭圆扩散，部分观测）：假设只能观测到积分扩散 \(Y_t = \int_0^t X_s ds\)（或加上加性噪声），LAMN 仍然成立。技术难点：积分操作 \(\int_0^t X_s ds\) 需要额外的 Malliavin 计算，作者利用推广的积分变换公式应对。

证明路线与技术技巧（理论型）¶

整体路线（针对定理 2 的证明）：

第一步：把 \(X^n\) 写成关于 \(θ\) 和噪声 \(W\) 的函数。具体做法是使用 Euler-Maruyama 数值方法（或精确分布）将 SDE 的解写作 \(X_{i/n} = Φ_i(θ, W)\)。因为漂移 \(b(θ, \cdot)\) 依赖于 \(θ\)。这是 Jeganathan 框架所需要的显式映射表达。
第二步：验证假设 B-D：
- B（光滑性）：通过 Gobet (2001) 的引理，作者证明 \(Φ_i\) 是 Malliavin 可微的，且其 Malliavin 导数由 SDE 的随机流（first variation process）给出，可用矩阵解 \(J_t = \int_0^t \nabla_x b \, J_s ds + ...\) 计算。关键跳跃：次椭圆性（Hörmander 条件）保证了 Malliavin 导数的非退化性——这是 PDE 领域的 Malliavin 技术之核心；作者通过在 SDE 上直接使用 Hörmander 条件完成了这一跳跃。
- C（非退化性）：作者证明 Malliavin 协方差矩阵 \(\mathbb{E}[D X^n \cdot (D X^n)^*]\) 的特征值以正概率远离零。这等价于证明 Malliavin 矩阵的行列式是 几乎必然有界可积 的。技术技巧：利用 Kusuoka-Stroock 的小时间渐近（一个 Kusuoka 引理）——该引理表明，在 Hörmander 条件下，存在一个依赖于该条件所定义的 Hörmander 阶（Hörmander index） 的多项式界，从而强制可积性。这个多项式界代替了 Aronson 型估计中的指数界。
第三步：应用定理 1。一旦 B-D 被验证（即定理 2 的证明完成），LAMN 直接从定理 1 推出。定理 3 类似，但需要对积分扩散的 Malliavin 导数作更复杂的估计（涉及梯度的积分）。

技术技巧点名： - Malliavin 积分变换定理（Integration by parts formula）：这是核心，将似然比的统计导数转化为 Malliavin 散度（Skorokhod integral）的期望，从而绕过显式密度。 - Kusuoka-Stroock 的多项式下界：用于处理次椭圆性。作者引用 Gobet (2001) 的工作，该工作证明了在 Hörmander 条件下，Malliavin 矩阵的行列式有几乎处处非零的下界，且矩可积。这是本文的“关键跳跃点”在次椭圆设定中的体现——没有这个下界，条件 C 无法被满足。 - 随机流（first variation process）：显式计算 \(\nabla_θ Φ_n\) 和 \(D Φ_n\) 的工具，将统计性质归结为 SDE 的 Jacobi 矩阵。 - 三角阵列变维：作者明确将 Jeganathan 的定理推广到观测维数 \(n\) 随 \(n\) 增长的情形（即变量维数增长），这是高频数据所特有的。

真实例子与应用¶

本文为纯理论，无真实数据例子或模拟实验。 全部贡献是数学定理和证明。

🔎 结论是否比证明窄¶

是的，值得注意以下几点：

假设 C 在有限样本下只能保证无反例，不能保证实际数据下的 LAMN 成立。作者在定理 2 证明中明确依赖了“几乎必然”的概念，而真实数据只提供一个实现。这本质上仍然是渐近性质，与具体观测值无关，属于所有渐近理论的通病。
Hörmander 条件的显式假设：定理 2 的证明中，Hörmander 条件是充分条件。但作者没有探讨是否必要——也就是说，是否存在次椭圆扩散但不满足 Hörmander 条件的设定？这在数学上几乎不可能（Hörmander 条件正是次椭圆性的精确刻画），但在工程上，要验证某一 SDE 是否满足这个条件有时需要繁琐的 Lie 括号计算。
参数限制：作者假设 \(\sigma\) 不依赖 \(θ\)。这在应用中是一个较强的限制，例如在随机波动率模型中，参数往往同时在漂移和扩散中出现。论文没有讨论扩散项含参数时 LAMN 是否仍然可通过相同技术证明。

四、开放问题¶

下面罗列成具体的、可查证的开放点，每条扎根于论文具体语句。

扩散项参数化的情形：要证什么：对次椭圆扩散 \(dX_t = b(θ, X_t)dt + σ(θ, X_t)dW_t\)（\(\sigma\) 也依赖 \(θ\)）建立 LAMN。扎根于：论文引言末尾 "We assume σ does not contain θ" 的限制（三段末）。这种推广可能不需要新思想，但 M maliavin 导数 \(D σ\) 的计算会更复杂，且条件 C（Malliavin 矩阵非退化）可能需要新技巧。
低频观测或无观测间隙：要证什么：对 \(\Delta t\) 固定的低频观测（观测时间点稀疏）建立 LAMN。扎根于：论文明确说它们处理 "high-frequency observations"（摘要）。低频下次椭圆扩散的 LAMN 已知（依赖于转移密度的 Jeřábek 展开，但比高频更难）。
减少 Malliavin 假设强度：要证什么：本文假设了 Malliavin 光滑性（假设 B）。有没有可能只假设观测映射是连续但 非 Lipschitz（比如带漂移的反射扩散），然后用其他概率工具建立 LAMN？扎根于：假设 B-D 是整个证明的起点，作者没有讨论放松它们的可能性。
推断问题（如自适应估计）：要证什么：在 LAMN 框架下，半参数兴趣参数（如 drift 的某些泛函）在次椭圆扩散高频观测下是否能被有效估计？扎根于：论文没有讨论任何半参数设定，最后一节 future work 中没有提到。但这是从 LAMN 到统计推断的自然下一步，且与用户的技术武器库（半参数效率理论）高度吻合。

Maintained by 陈星宇 · Homepage · Source on GitHub