Bias Correction for Semiparametric Regression Models¶
作者: Yuming Zhang, Yanyuan Ma, Xuming He, Stéphane Guerrier
主题: 非参数 / 半参数
相关性: 8/10
链接: https://arxiv.org/abs/2605.08656
核心问题与动机¶
本文解决半参数回归模型 $f{Y|x^T\beta + m(z), \phi}$ 中参数 $\beta$ 和散布参数 $\phi$ 的有限样本偏差问题。重要性在于:当参数维度 $p$ 相对样本量 $n$ 较大或散布较高时,标准估计量(如 MLE)的有限样本偏差显著,会严重破坏置信区间的覆盖率和假设检验的准确性;同时 $\phi$ 常具有科学意义(如 EHR 错分类机制、差分隐私标签机制),需准确估计。已有方法的不足:经典半参数文献多聚焦 $\beta$ 的半参数效率而忽略有限样本偏差;参数偏差修正方法(如 Firth、Indirect Inference)难以推广至含非参成分 $m(\cdot)$ 及发散 $p$ 的半参数模型;高维去偏方法(Debiased Lasso)通常不适用于含非参成分和散布参数的模型,且依赖稀疏性。
主要贡献¶
- 提出 SABRE(SemipArametric Bias-Reduced Estimation):首个针对此类宽泛半参数模型的仿真去偏框架,利用 B-spline 参数近似模型匹配期望,消除主导偏差项。
- 允许参数维度 $p$ 发散($p^2\log n / n \to 0$),无需稀疏性假设或惩罚项,同时实现 $\beta$ 和 $\phi$ 的偏差修正。
- 在广义部分线性模型(GPLM)子类下,证明 $\hat{\beta}$ 渐近正态且去偏不增方差(保留半参数效率)。
- 附带给出非参成分 $m(\cdot)$ 的去偏估计及其渐近分布,支持对 $m(\cdot)$ 的有效推断。
方法框架¶
- 模型设定:$f{Y|x^T\beta + m(z), \phi}$,GPLM 下为指数族 $\exp{(y\nu - b(\nu))/\phi + c(y, \phi)}$,$\nu = x^T\beta + m(z)$。
- 初始估计:用 B-spline 基展开 $m(z) \approx B(z)^T\alpha$,定义参数 $\gamma = (\beta^T, \alpha^T)^T$,通过解得分方程与 Pearson 矩条件得到 B-spline MLE (sMLE) $(\tilde{\gamma}, \tilde{\phi})$。
- SABRE 估计方程:求解 $(\hat{\gamma}, \hat{\phi})$ 使得: $$ \tilde{\gamma} - E_{\gamma, \phi}[\tilde{\gamma}^(\gamma, \phi)] = 0, \quad \tilde{\phi} - E_{\gamma, \phi}[\tilde{\phi}^(\gamma, \phi)] = 0 $$ 其中 $\tilde{\gamma}^, \tilde{\phi}^$ 是在给定参数下从 B-spline 近似模型生成仿真数据计算出的 sMLE。
- 核心假设:
- S.1-S.3 (B-spline 欠平滑):$m_0 \in C^q$,结点数 $N$ 满足 $N^2(\log n)^2 n^{-1} \to 0$ 且 $n^{3/2}N^{-2q} = O(1)$,控制近似误差以消除非参侵入偏差。
- P.1 (维度发散):$p^2\log n / n \to 0$。
- 计算算法:采用随机近似求解估计方程,避免在每步优化中显式计算蒙特卡洛期望,解决高维计算瓶颈。
主要理论结果¶
- 收敛速率 (Theorem 1):$|\hat{\beta} - \beta_0|_2 = O_p(p^{1/2}n^{-1/2})$;$\hat{\phi} - \phi_0 = O_p({(p+N)^{1/2}n^{-1/2}})$。
- 渐近分布与效率:$\hat{\beta}$ 具有渐近正态性,且其渐近方差与 sMLE 相同,即达到半参数有效界,实现了无方差膨胀的偏差修正。
- 偏差阶数:通过分解 $E[\hat{\gamma}^\circ] - \gamma_0$,SABRE 消除了 sMLE 偏差的主导项 $d^(\gamma_0, \phi_0)$,仅剩高阶余项 $d^(\gamma_0, \phi_0) - E[d^*(\hat{\gamma}^\circ, \tilde{\phi})]$,实现偏差降阶。
实验 / 数值仿真¶
- 实验设计:涵盖 GPLM(Logistic/Poisson)及非 GPLM 场景,变化 $p/n$ 比率与散布程度,对比 sMLE 与 SABRE。
- 评估指标:参数 Bias、RMSE、CI 覆盖率与长度。
- 主要发现:SABRE 显著降低 $\beta, \phi, m(\cdot)$ 的偏差;在 $p/n$ 较大或高散布时优势最突出;CI 覆盖率更接近名义水平且长度更短。真实数据(早期糖尿病 EHR 表型分析)验证了其实用性。
与研究者兴趣的关联¶
- 半参数效率理论:直接关联 primary interests 中的 semiparametric efficiency bounds,证明去偏过程可保持渐近效率,为半参数去偏理论提供新视角。
- 高维统计与 Debiased ML:处理发散维度 $p$($p^2\log n / n \to 0$),与 Debiased ML 思路有共鸣,但针对含非参成分的半参数模型且不依赖稀疏性假设。
- 统计计算:采用随机近似求解仿真估计方程,是高维/复杂似然下计算优化的典型技巧,对数值方法研究有借鉴意义。
局限性与开放问题¶
- 严格渐近理论仅在 GPLM 子类中建立,对更一般的 $f{Y|x^T\beta + m(z), \phi}$(如错分类机制导出的非指数族模型)缺乏完整理论证明,尽管方法框架适用且仿真有效。
- 依赖 B-spline 欠平滑条件,对非参函数 $m(z)$ 的收敛速率有特定要求,可能限制某些复杂非参结构的适用性。
- 维度发散速率受限于 $p^2\log n / n \to 0$,无法处理 $p > n$ 的超高维场景,如何结合惩罚/稀疏假设拓展至超高维半参数去偏是开放问题。
Maintained by 陈星宇 · Homepage · Source on GitHub