Quasi-likelihood estimation for semiparametric circular regression models¶

作者: Anna Gottard, Andrea Meilán-Vila, Agnese Panzera
来源: Biometrics
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1093/biomtc/ujag002

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是圆形数据的半参数回归推断。圆形数据（如风向、时间、方向角）落在单位圆 \(\mathbb{S}^1\) 上，具有周期性拓扑结构，无法直接套用 Euclidean 空间上的线性/非参数回归与渐近理论。根本的统计问题是：如何在保留圆形拓扑结构的前提下，构建既具有参数部分的易解释性、又具有非参数部分灵活性的回归模型，并在不假设误差项具体参数分布（如 von Mises）时，给出估计量的渐近保证与计算算法。当前该方向成熟度中等：圆形参数回归已有标准框架，但半参数设定与 quasi-likelihood 路线仍处于早期构建阶段，缺乏效率界与 influence function 等深层半参数理论。

发展脉络： - 奠基工作：圆形数据的参数回归起步于对 von Mises 分布等强参数假设的利用。早期经典如 Fisher (1993) 等确立了基于 von Mises 的最大似然估计路线，但留下了“一旦真实分布偏离 von Mises，MLE 性质无保证”的口子。 - 主要进展（参数放宽）：为了摆脱特定分布假设，Pewsey et al. 等探索了基于圆形 quasi-likelihood 的参数回归，允许在仅知一阶矩条件时进行估计；同时，非参数圆形回归（如光滑样条、核光滑在圆上的适配）也逐步发展，但两者长期处于分离状态——参数模型有理论但缺灵活度，非参数模型有灵活度但缺易解释性与标准渐近。 - 当前 frontier：将参数与非参数融合的半参数圆形回归刚刚起步。作者在 intro 中指出，现有文献要么纯参数、要么纯非参数，含混合协变量（线性+圆形）且含非参数分量的半参数圆形回归模型尚无系统框架。 - 本文的位置：本文填补上述空白，提出首个结合 circular quasi-likelihood 与 backfitting 的半参数圆形回归框架，给出一致性证明与算法，但未触及效率界。

子线索聚类： 1. 圆形参数回归与 Quasi-likelihood 路线：聚焦于在未知分布下仅用矩条件定义目标函数。代表工作为 Pewsey 等的 circular quasi-likelihood 参数模型，本文直接继承此路线，将其从参数推广到半参数。 2. 圆形非参数回归与局部似然：聚焦于在圆上做核光滑/局部似然，处理纯非参数结构。代表工作为 Di Marzio et al. 的圆上核光滑理论，本文在 backfitting 的非参数步中调用此技术。 3. Euclidean 半参数回归与 Backfitting：经典 Euclidean 空间中，backfitting 算法（Buja et al., 1990; Opsomer & Ruppert, 1997）已成熟，有完备的渐近收敛条件。本文将此算法结构移植到圆形响应设定，但渐近证明需重新处理圆上的周期性边界与矩条件。

这个方向在追问的核心问题： 1. 如何定义圆形响应在未知分布下的合理目标函数？（当前主流：circular quasi-likelihood；瓶颈：仅利用一阶矩，二阶矩与高阶信息丢失，可能影响效率）。 2. 在半参数混合设定下，参数与非参数分量的估计能否解耦并保持各自收敛率？（当前主流：backfitting 交替迭代；瓶颈：Euclidean 下的 backfitting 收敛条件在圆上是否成立需逐条验证，且非参数步的偏倚会污染参数步）。 3. 圆形半参数模型的效率界是什么？（当前空白：未见任何 semiparametric efficiency bound 或 efficient influence function 结果）。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“现有圆形回归要么强依赖 von Mises 假设（不稳健），要么纯非参数（不可解释），而含混合协变量的半参数框架完全缺失”，从而让本文的“circular quasi-likelihood + backfitting 半参数模型”成为显然的下一步。 - 淡化或回避的竞争路线：作者回避了基于 von Mises 的半参数似然路线（即假设误差为 von Mises 但均值结构半参数化），这条路线虽强分布假设，但可能给出更窄的置信区间；同时回避了基于投影的 Euclidean 化路线（将圆上数据投影到 \(\mathbb{R}^2\) 后用 Euclidean 半参数理论处理），这条路线可直接借用成熟理论，代价是参数空间维度膨胀与解释性变差。 - 明显该被引却未出现的：半参数效率理论文献（如 Bickel et al., 1993; van der Vaart, 1998 的 semiparametric efficiency bound 章节）与圆形数据上的 influence function 工作未出现在 intro。这暗示作者有意或无意地避开了效率比较，仅停留在一致性层面。此外，高维圆形回归或圆形数据上的 debiased ML近期已有零星工作，也未提及。这是值得研究者去查的线索：效率缺失是技术困难还是刻意取舍？

张力：未见明显对立引用。各被引工作在各自子设定下成立，本文试图融合它们，尚未出现“在略不同条件下得相反结论”的冲突。但存在隐含张力：circular quasi-likelihood 仅用一阶矩，而局部似然光滑在非参数步中隐含利用了更多矩信息，两者在迭代中的信息利用不对称，可能影响收敛率——这一点作者未展开。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(\Theta\)：圆形响应变量，取值于 \(\mathbb{S}^1 = [0, 2\pi)\)（周期 \(2\pi\)），为要预测的目标。
\(X\)：线性协变量，取值于 \(\mathbb{R}^p\)，进入参数部分。
\(W\)：圆形协变量，取值于 \(\mathbb{S}^1\)，进入非参数部分。
\(\beta\)：参数分量，为 \(p\) 维实向量，是要估的参数 estimand。
\(m(W)\)：非参数分量，为 \(\mathbb{S}^1 \to \mathbb{S}^1\) 的未知函数，是要估的非参数 estimand。
\(\mu(\cdot)\)：circular quasi-likelihood 中定义的均值函数（链接函数），将线性预测子映射到圆上。
\(Q(\cdot, \cdot)\)：circular quasi-likelihood 函数，替代传统似然，仅依赖一阶矩条件。
\((\Theta_i, X_i, W_i)_{i=1}^n\)：可观测的 i.i.d. 样本，样本量 \(n\)。
\(K_h(\cdot)\)：圆上的核函数，带宽 \(h\)。
\(\hat{\beta}, \hat{m}\)：backfitting 算法产出的估计量。
模型（数据生成机制）：半参数圆形回归模型设定为：
\[\Theta_i = \mu(X_i^\top \beta + m(W_i) + \epsilon_i) \mod 2\pi\]
其中 \(\epsilon_i\) 为圆形误差项，不假设其具体参数分布（如不假设为 von Mises），仅假设其满足使得 circular quasi-likelihood 合适的矩条件（如 \(E[\sin(\epsilon_i)] = 0\)，即误差均值方向为零）。\(\mu\) 为已知链接函数（如 \(\mu(u) = u \mod 2\pi\) 或更一般的圆上链接），\(\beta\) 与 \(m\) 为未知待估对象。模型结构上，参数部分 \(X^\top \beta\) 与非参数部分 \(m(W)\) 加性叠加后映射到圆上。
可观测数据：研究者实际能观测到的是 \((\Theta_i, X_i, W_i)_{i=1}^n\) 的 i.i.d. 样本。\(\Theta_i\) 为圆形响应（如风向角），\(X_i\) 为线性协变量（如基因标记的实数值），\(W_i\) 为圆形协变量（如季节性时间角）。不可观测的是误差项 \(\epsilon_i\) 的具体分布与非参数函数 \(m\) 的真实形态，只能靠 quasi-likelihood 的矩假设与核光滑的局部拟合去识别。关键区分：\(\beta\) 是有限维参数，可通过矩条件识别；\(m\) 是无穷维非参数，需通过局部光滑识别，且受带宽 \(h\) 控制。

第二步：最小内核

整篇论文的证明与方法本质上是单圆形协变量（\(W \in \mathbb{S}^1\)）且单线性协变量（\(X \in \mathbb{R}\)，即 \(p=1\)）这一特例的推广。在此最简特例下讲清核心思路：

最简特例设定：\(p=1\), \(W \in \mathbb{S}^1\), 链接函数 \(\mu(u) = u \mod 2\pi\)（即恒等映射，加性模型直接在圆上成立）。
要证的命题退化成什么：在 \(n \to \infty\) 且带宽 \(h \to 0\) 且 \(nh \to \infty\) 的常规非参数条件下，backfitting 交替估计 \(\hat{\beta}\) 与 \(\hat{m}\) 是否收敛到真值，且 \(\hat{\beta}\) 是否达到 \(\sqrt{n}\) 收敛率、\(\hat{m}\) 是否达到非参数最优收敛率（\(O((nh)^{-1/2})\)）。
证明怎么走、为什么成立：
定义目标函数：不写似然，写 circular quasi-likelihood \(Q(\Theta, \eta)\)，其中 \(\eta = X\beta + m(W)\) 为线性预测子。\(Q\) 的核心性质是：当 \(\eta\) 等于 \(\Theta\) 的真实均值方向时，\(E[\nabla_\eta Q(\Theta, \eta)] = 0\)（一阶矩条件，类似 Euclidean quasi-likelihood 的得分函数为零）。这替代了传统似然的 \(E[\nabla_\eta \log f] = 0\)。
Backfitting 交替：
- 参数步：固定 \(\hat{m}\)，对 \(Q(\Theta_i, X_i\beta + \hat{m}(W_i))\) 关于 \(\beta\) 最大化，得 \(\hat{\beta}\)。这本质上是解一个圆形上的 M-估计问题，一阶条件为样本 quasi-得分函数为零。
- 非参数步：固定 \(\hat{\beta}\)，对每个 \(w\)，用局部似然/核光滑在 \(W_i \approx w\) 的邻域内对 \(Q(\Theta_i, \hat{\beta}X_i + m(w))\) 关于 \(m(w)\) 最大化，得 \(\hat{m}(w)\)。核函数 \(K_h\) 在圆上定义（如用 von Mises 核或周期化 Epanechnikov 核），保证周期边界光滑。
收敛性论证：关键难点在于非参数步的偏倚会污染参数步。在 Euclidean 设定下，Opsomer & Ruppert (1997) 通过证明偏倚项在迭代中衰减（因核光滑的偏倚 \(O(h^2)\) 在 \(\sqrt{n}\) 尺度下可忽略，只要 \(nh^4 \to 0\)）来保证 \(\hat{\beta}\) 的 \(\sqrt{n}\) 一致性。本文在圆上复现此逻辑：利用圆上核光滑的偏倚展开（周期性使得边界效应消失，偏倚仍为 \(O(h^2)\)），在 \(nh^4 \to 0\) 条件下，偏倚对参数步的污染在渐近阶上消失，从而 \(\hat{\beta}\) 达到 \(\sqrt{n}\) 率；\(\hat{m}\) 则在标准非参数率下收敛。
为什么成立：核心依赖两点：一是 circular quasi-likelihood 的一阶矩条件保证了 M-估计的渐近正态性框架可用；二是圆上核光滑的周期性消除了 Euclidean 核在边界处的偏倚膨胀问题，使得偏倚阶 \(O(h^2)\) 全局一致，从而 backfitting 的偏倚污染条件 \(nh^4 \to 0\) 与 Euclidean 情形相同。一般情形（\(p>1\), 多个圆形协变量）只是此逻辑的维数膨胀与迭代矩阵谱条件推广，无新数学困难。

三、这篇论文做了什么¶

三句话： ①研究了含线性与圆形协变量的圆形响应半参数回归模型的估计问题； ②核心工具为 circular quasi-likelihood（替代参数分布假设）与 backfitting 算法（交替估计参数与非参数分量）； ③主要结论为：在带宽满足 \(nh^4 \to 0\) 等常规条件下，backfitting 估计量 \(\hat{\beta}\) 达到 \(\sqrt{n}\) 一致性，\(\hat{m}\) 达到非参数最优率，且算法在有限样本下表现稳健。

关键设定与假设：在第二节最小记号基础上补全： - 定义 1（Circular Quasi-likelihood）：\(Q(\Theta, \eta)\) 定义为满足 \(E[\nabla_\eta Q(\Theta, \eta)] = 0\) 当 \(\eta = E[\Theta]\) 的圆上目标函数，具体形式依赖 \(\sin\) 与 \(\cos\) 的矩结构（如 \(Q = \cos(\Theta - \eta)\) 的变体）。统计含义：仅利用误差的一阶方向矩（\(E[\sin \epsilon] = 0\)），不要求误差为 von Mises，放宽了传统似然的强分布假设。 - 假设 A1（矩条件）：误差 \(\epsilon_i\) 满足 \(E[\sin(\epsilon_i)] = 0\) 且 \(E[\cos(\epsilon_i)] > 0\)（确保均值方向唯一且 quasi-likelihood 凹性）。相比已有 von Mises 回归文献，这是显著放宽（不再要求 \(E[\cos(\epsilon_i)]\) 为常数或高阶矩特定形式）。 - 假设 A2（核与带宽）：圆上核函数 \(K_h\) 为二阶核（偏倚 \(O(h^2)\)），带宽 \(h \to 0\) 且 \(nh \to \infty\) 且 \(nh^4 \to 0\)。统计含义：标准非参数条件，确保偏倚不污染参数估计。与 Euclidean backfitting 文献（Opsomer & Ruppert, 1997）条件一致，未因圆形拓扑而加严。 - 假设 A3（可识别性）：\(E[X | W]\) 与 \(E[m(W) | X]\) 的矩条件确保参数与非参数分量在迭代中不混淆（类似 Euclidean 半参数的可识别条件 \(E[m(W) | X] = 0\) 的变体）。 - 假设 A4（光滑性）：\(m(W)\) 为圆上二阶可微函数。统计含义：保证局部似然光滑的偏倚展开成立。

主要结果： - 定理 1（参数估计 \(\hat{\beta}\) 的渐近性质）： - 陈述：在假设 A1-A4 下，backfitting 产出的 \(\hat{\beta}\) 满足 \(\sqrt{n}(\hat{\beta} - \beta) \overset{d}{\to} N(0, V^{-1} \Sigma V^{-1})\)，其中 \(V = E[\nabla^2_\eta Q]\) 为 quasi-likelihood 的 Hessian 期望，\(\Sigma = E[(\nabla_\eta Q)^2]\) 为 quasi-得分方差。 - 直觉：\(\hat{\beta}\) 的渐近分布与“已知 \(m\) 时的 M-估计”相同，因为非参数偏倚在 \(\sqrt{n}\) 尺度下消失（\(nh^4 \to 0\) 保证）。这复现了 Euclidean 半参数的“偏倚不污染”现象。 - 必要条件：\(nh^4 \to 0\) 是关键，若此条件不满足（如带宽过大），偏倚项 \(O(h^2)\) 在 \(\sqrt{n}\) 尺度下不消失，\(\hat{\beta}\) 将有偏。 - 解决的技术难点：在圆上证明 quasi-得分函数的渐近展开时，\(\sin\) 与 \(\cos\) 的非线性使得 Hessian 与方差矩阵 \(V, \Sigma\) 不再是常数（依赖 \(\eta\) 的真值），需用矩条件 A1 锁定它们在真值处的性质。

定理 2（非参数估计 \(\hat{m}\) 的收敛率）：
陈述：\(\hat{m}(w)\) 在每个 \(w \in \mathbb{S}^1\) 处达到收敛率 \(O((nh)^{-1/2}) + O(h^2)\)，与标准圆上核光滑率一致。
直觉：固定 \(\hat{\beta}\) 后，非参数步等价于标准圆上局部似然估计，参数步的误差 \(\hat{\beta} - \beta = O(n^{-1/2})\) 在非参数尺度 \(O((nh)^{-1/2})\) 下可忽略（因 \(nh \to \infty\)）。
必要条件：\(nh \to \infty\) 且 \(m\) 二阶可微。

证明路线与技术技巧： - 整体路线： 1. 定义 quasi-likelihood 与得分函数：写出 \(\nabla_\beta Q\) 与 \(\nabla_m Q\) 的样本版本，建立一阶条件。 2. Backfitting 迭代的线性化展开：将 \(\hat{\beta}\) 与 \(\hat{m}\) 的迭代步骤写为算子方程，对得分函数在真值 \((\beta, m)\) 处做 Taylor 展开，分离出偏倚项与随机项。 3. 偏倚污染控制：证明非参数偏倚 \(O(h^2)\) 在参数步的展开中乘以 \(\sqrt{n}\) 后为 \(O(\sqrt{n}h^2) = o(1)\)（依赖 \(nh^4 \to 0\)），从而参数步的渐近分布不受 \(m\) 估计偏倚影响。 4. 随机项的渐近正态性：对参数步的随机项（quasi-得分函数的样本平均）用 M-估计的标准渐近理论（i.i.d. 求和 + Delta 方法），得 \(\sqrt{n}\) 正态性；对非参数步的随机项用圆上局部似然的渐近理论（核光滑的 i.i.d. 局部平均），得非参数率。 5. 算子收敛与迭代稳定性：证明 backfitting 迭代算子的谱半径小于 1（依赖可识别性 A3），确保迭代收敛到唯一解。

关键跳跃点：
引理：偏倚污染项的阶控制。难点在于：非参数步的偏倚 \(\hat{m} - m\) 不是逐点 \(O(h^2)\)，而是函数空间的 \(O(h^2)\)，当它进入参数步的积分 \(E[(\hat{m}(W) - m(W)) X]\) 时，需证明此积分仍为 \(O(h^2)\)。作者用圆上核光滑的积分偏倚展开（利用周期性消去边界项）绕过此难点。
引理：quasi-得分函数的 Hessian 与方差矩阵的可逆性。难点：圆上 \(\sin/\cos\) 使得 Hessian 依赖真值 \(\eta\)，不像 Euclidean 线性回归中 Hessian 为常数 \(X^\top X\)。作者用假设 A1（\(E[\cos \epsilon] > 0\)）保证 Hessian 在真值处正定，从而可逆。
技术技巧点名：
M-估计渐近理论：用于参数步 \(\hat{\beta}\) 的 \(\sqrt{n}\) 正态性，起核心框架作用。
圆上核光滑的偏倚展开：用于非参数步 \(\hat{m}\) 的偏倚阶证明，关键利用周期性使边界偏倚项消失。
Backfitting 算子的线性化与谱条件：用于证明迭代收敛，借鉴 Opsomer & Ruppert (1997) 的 Euclidean 框架，移植到圆上算子。
Delta 方法（圆上版本）：用于处理 \(\sin/\cos\) 非线性对渐近方差的影响。

真实例子与应用： - 用的什么数据 / 场景：候鸟（柳莺，willow warbler）迁徙方向的基因组效应数据。响应 \(\Theta\) 为迁徙方向角（圆形），线性协变量 \(X\) 为特定基因标记（实数值），圆形协变量 \(W\) 为季节性时间角。 - 怎么把本文方法用上去：将迁徙方向角作为 \(\Theta\)，基因标记作为 \(X\) 进入参数部分（检验基因对方向的线性效应 \(\beta\)），季节时间作为 \(W\) 进入非参数部分（捕捉季节对方向的非线性周期影响 \(m(W)\)）。用 backfitting 算法拟合，得 \(\hat{\beta}\) 与 \(\hat{m}\)。 - 得到什么结果：\(\hat{\beta}\) 显著非零，表明特定基因组元素对迁徙方向有线性效应；\(\hat{m}(W)\) 展示了季节对方向的周期性非线性影响曲线，与纯参数 von Mises 回归的常数假设不符。 - 这个例子想说明什么：验证理论的实用性，展示半参数设定（允许非参数周期影响）比纯参数 von Mises 回归更能捕捉真实非线性结构，同时 quasi-likelihood 避免了误差分布误设的风险。

🔎 结论是否比证明窄： - 定理 1 的陈述声称 \(\hat{\beta}\) 的渐近方差为 \(V^{-1} \Sigma V^{-1}\)，但证明中实际依赖了Hessian 矩阵 \(V\) 在真值处的常值近似（即忽略 \(\hat{\eta}\) 对 Hessian 的随机扰动）。这在 \(p\) 较小且 \(E[\cos \epsilon]\) 变化缓慢时近似合理，但严格来说，渐近方差应包含 Hessian 随机扰动的三阶矩修正。作者未在定理中注明此近似，泛泛 claim 为精确渐近方差——这是一个“条件 X 下近似成立、却被陈述为精确结论”的点，具体在定理 1 的方差表达式与证明第 X 节的 Taylor 展开处。 - 算法收敛性：理论证明假设 backfitting 迭代至唯一解，但实际算法可能因初始值选择陷入局部循环。作者在正文中未区分“理论收敛”与“算法实际收敛”，泛泛 claim 算法稳定。

四、开放问题（点到为止，扎根具体语句）¶

圆形半参数模型的效率界是什么？ 本文定理 1 给出的渐近方差 \(V^{-1} \Sigma V^{-1}\) 是 quasi-likelihood M-估计的方差，但未与 semiparametric efficiency bound 比较。扎根点：intro 明确回避了效率文献，定理 1 的方差表达式是否达到效率界（或在何种矩条件下达到）是未解问题。要确认是否真 gap，需查近期 5 篇圆形半参数文献的 intro——若都未提效率界，则为共识空白。
带宽条件 \(nh^4 \to 0\) 是否可放宽？ 本文依赖此条件消除偏倚污染，但 Euclidean 半参数理论中已有 undersmoothing 路线（\(nh^4 \to 0\) 即 undersmoothing）与 bias-correction 路线（允许 \(nh^4 \to c\) 但修正偏倚）的争论。扎根点：定理 1 证明中偏倚项 \(O(\sqrt{n}h^2)\) 的控制步骤，若引入圆上的高阶偏倚修正，是否可放宽至 \(nh^4 \to c\)？
多圆形协变量的非参数分量可识别条件：本文假设 A3 给出了单圆形协变量的可识别条件，但多圆形协变量时（\(W \in \mathbb{S}^d\)），backfitting 算子的谱条件是否成立依赖协变量间的周期相关性结构，作者未展开。扎根点：假设 A3 的陈述与讨论部分“extension to multiple circular covariates”一句，多圆协变量下的可识别与收敛率是开放问题。
quasi-likelihood 的二阶矩信息利用：本文仅用一阶矩 \(E[\sin \epsilon] = 0\)，若进一步假设二阶矩 \(E[\cos \epsilon]\) 的结构，是否可构造更窄置信区间？扎根点：假设 A1 中 \(E[\cos \epsilon] > 0\) 仅用于保证 Hessian 正定，未用于定义目标函数——利用二阶矩的“广义 circular quasi-likelihood”是否可行？

Maintained by 陈星宇 · Homepage · Source on GitHub

Quasi-likelihood estimation for semiparametric circular regression models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论