Bias Correction for Semiparametric Regression Models¶

作者: Yuming Zhang, Yanyuan Ma, Xuming He, Stéphane Guerrier
主题: 非参数 / 半参数
相关性: 8/10
链接: https://arxiv.org/abs/2605.08656

核心问题与动机¶

本文解决半参数回归模型 $f{Y|x^T\beta + m(z), \phi}$ 中参数 $\beta$ 和散布参数 $\phi$ 的有限样本偏差问题。重要性在于：当参数维度 $p$ 相对样本量 $n$ 较大或散布较高时，标准估计量（如 MLE）的有限样本偏差显著，会严重破坏置信区间的覆盖率和假设检验的准确性；同时 $\phi$ 常具有科学意义（如 EHR 错分类机制、差分隐私标签机制），需准确估计。已有方法的不足：经典半参数文献多聚焦 $\beta$ 的半参数效率而忽略有限样本偏差；参数偏差修正方法（如 Firth、Indirect Inference）难以推广至含非参成分 $m(\cdot)$ 及发散 $p$ 的半参数模型；高维去偏方法（Debiased Lasso）通常不适用于含非参成分和散布参数的模型，且依赖稀疏性。

主要贡献¶

提出 SABRE（SemipArametric Bias-Reduced Estimation）：首个针对此类宽泛半参数模型的仿真去偏框架，利用 B-spline 参数近似模型匹配期望，消除主导偏差项。
允许参数维度 $p$ 发散（$p^2\log n / n \to 0$），无需稀疏性假设或惩罚项，同时实现 $\beta$ 和 $\phi$ 的偏差修正。
在广义部分线性模型（GPLM）子类下，证明 $\hat{\beta}$ 渐近正态且去偏不增方差（保留半参数效率）。
附带给出非参成分 $m(\cdot)$ 的去偏估计及其渐近分布，支持对 $m(\cdot)$ 的有效推断。

方法框架¶

模型设定：$f{Y|x^T\beta + m(z), \phi}$，GPLM 下为指数族 $\exp{(y\nu - b(\nu))/\phi + c(y, \phi)}$，$\nu = x^T\beta + m(z)$。
初始估计：用 B-spline 基展开 $m(z) \approx B(z)^T\alpha$，定义参数 $\gamma = (\beta^T, \alpha^T)^T$，通过解得分方程与 Pearson 矩条件得到 B-spline MLE (sMLE) $(\tilde{\gamma}, \tilde{\phi})$。
SABRE 估计方程：求解 $(\hat{\gamma}, \hat{\phi})$ 使得： $$ \tilde{\gamma} - E_{\gamma, \phi}[\tilde{\gamma}^(\gamma, \phi)] = 0, \quad \tilde{\phi} - E_{\gamma, \phi}[\tilde{\phi}^(\gamma, \phi)] = 0 $$ 其中 $\tilde{\gamma}^, \tilde{\phi}^$ 是在给定参数下从 B-spline 近似模型生成仿真数据计算出的 sMLE。
核心假设：
S.1-S.3 (B-spline 欠平滑)：$m_0 \in C^q$，结点数 $N$ 满足 $N^2(\log n)^2 n^{-1} \to 0$ 且 $n^{3/2}N^{-2q} = O(1)$，控制近似误差以消除非参侵入偏差。
P.1 (维度发散)：$p^2\log n / n \to 0$。
计算算法：采用随机近似求解估计方程，避免在每步优化中显式计算蒙特卡洛期望，解决高维计算瓶颈。

主要理论结果¶

收敛速率 (Theorem 1)：$|\hat{\beta} - \beta_0|_2 = O_p(p^{1/2}n^{-1/2})$；$\hat{\phi} - \phi_0 = O_p({(p+N)^{1/2}n^{-1/2}})$。
渐近分布与效率：$\hat{\beta}$ 具有渐近正态性，且其渐近方差与 sMLE 相同，即达到半参数有效界，实现了无方差膨胀的偏差修正。
偏差阶数：通过分解 $E[\hat{\gamma}^\circ] - \gamma_0$，SABRE 消除了 sMLE 偏差的主导项 $d^(\gamma_0, \phi_0)$，仅剩高阶余项 $d^(\gamma_0, \phi_0) - E[d^*(\hat{\gamma}^\circ, \tilde{\phi})]$，实现偏差降阶。

实验 / 数值仿真¶

实验设计：涵盖 GPLM（Logistic/Poisson）及非 GPLM 场景，变化 $p/n$ 比率与散布程度，对比 sMLE 与 SABRE。
评估指标：参数 Bias、RMSE、CI 覆盖率与长度。
主要发现：SABRE 显著降低 $\beta, \phi, m(\cdot)$ 的偏差；在 $p/n$ 较大或高散布时优势最突出；CI 覆盖率更接近名义水平且长度更短。真实数据（早期糖尿病 EHR 表型分析）验证了其实用性。

与研究者兴趣的关联¶

半参数效率理论：直接关联 primary interests 中的 semiparametric efficiency bounds，证明去偏过程可保持渐近效率，为半参数去偏理论提供新视角。
高维统计与 Debiased ML：处理发散维度 $p$（$p^2\log n / n \to 0$），与 Debiased ML 思路有共鸣，但针对含非参成分的半参数模型且不依赖稀疏性假设。
统计计算：采用随机近似求解仿真估计方程，是高维/复杂似然下计算优化的典型技巧，对数值方法研究有借鉴意义。

局限性与开放问题¶

严格渐近理论仅在 GPLM 子类中建立，对更一般的 $f{Y|x^T\beta + m(z), \phi}$（如错分类机制导出的非指数族模型）缺乏完整理论证明，尽管方法框架适用且仿真有效。
依赖 B-spline 欠平滑条件，对非参函数 $m(z)$ 的收敛速率有特定要求，可能限制某些复杂非参结构的适用性。
维度发散速率受限于 $p^2\log n / n \to 0$，无法处理 $p > n$ 的超高维场景，如何结合惩罚/稀疏假设拓展至超高维半参数去偏是开放问题。

Maintained by 陈星宇 · Homepage · Source on GitHub