Simultaneous semiparametric inference for single-index models¶

作者: Jiajun Tang, Holger Dette
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

单指标模型（Single-Index Model, SIM）是半参数回归的一类核心模型，它假设响应变量 \( Y \) 与协变量向量 \( X \) 之间的关系通过一个未知的、光滑的连接函数 \( g \) 作用在协变量的一个线性组合上：\( Y = g(\beta^\top X) + \varepsilon \)。当模型中还包含一个线性可加部分 \( Z^\top \theta \) 时，成为部分线性单指标模型（Partially Linear Single-Index Model, PLSIM）：\( Y = g(\beta^\top X) + Z^\top \theta + \varepsilon \)。该方向的核心统计问题是：在未知函数 \( g \) 和未知参数 \( (\beta, \theta) \) 同时出现时，如何有效地估计它们，并对它们进行推断。当前，该领域的理论成熟度较高，在估计方面（如实现 \( L_2 \) minimax 最优速率）已有成熟结果，但联合推断（joint inference，尤其是构造联合置信带、同时假设检验）的理论尚不完善，特别是关于非参部分和参数部分估计量的渐近独立性与联合弱收敛行为的认识不全。

发展脉络（history）¶

该领域的奠基工作可追溯到 Ichimura (1993) 与 Härdle, Hall & Ichimura (1993)，它们分别从估计（M-估计）和渐近理论角度为单指标模型奠定了根基。紧随其后，Xia et al. (2002) 的 MAVE 方法、Yu & Ruppert (2002) 的 PARSIM 算法等，极大地推动了估计的实践。在推断方面，Hristache et al. (2001) 通过结构自适应方法实现了对链接函数的更好非参估计。

然而，对于 部分线性 设定下的联合推断，特别是想要同时得到链接函数 \( g \) 的置信带和参数 \( (\beta, \theta) \) 的置信域时，现有理论被 gap 所困扰。本文引用的一系列工作（均为作者 Dette 的早期族谱成员，如 Dette, Wagener & Volgushev (2009)、Dette et al. (2014)、Dette et al. (2020)）发展了基于光滑样条和核方法的单指标模型理论，构建了链接函数的 点wise 置信区间。但正如作者在 intro 中指出的："...for the partially linear single-index model, results for the joint inference of the nonparametric and parametric components are still missing." 本文的贡献正是填补这个空缺——它利用 Bahadur 表示 将估计量的渐近分布显式地写出，进而捕获了非参部分（\( \hat{g} \)）与参数部分（\( \hat{\beta}, \hat{\theta} \)）之间的渐近独立这一反直觉现象，从而使得联合推断变得可行。

子线索聚类¶

被引文献大致落在以下 2-3 条子线索上： 1. 光滑样条在单指标模型中的应用（Dette 系）：以 Dette, Wagener & Volgushev (2009) 为最早，到 Dette & Wagener (2014) 扩展到部分线性框架，再到 Dette, Kroll & Wagner (2020) 发展 Lasso 后部分线性单指标模型的高维估计。这一簇是本文直接扎根的前线。 2. 单指标模型的 Bootstrap 推断：González-Manteiga & Vieu (2020) 提出了一种 bootstrap 方法用于 single-index 的置信带，但其带宽选择过于复杂且性能未获理论保证。本文的 multiplier bootstrap 正是针对这一点的改进。 3. 核方法与局部多项式方法：代表有 Härdle, Hall & Ichimura (1993) 和 Xia et al. (2002)。这些方法通常需要带宽选择，且带宽选择的误差会传导入推断的精度。本文的光滑样条方案允许使用自适应的平滑参数（通过 GCV 选择），在推断上避免了核方法带宽选择的麻烦。

这个方向在追问的核心问题¶

估计的 minimax 最优性：参数部分和非参部分的收敛速率是否可达 minimax 下界？本文回答了早先猜测：以 \( L_2 \) 风险计，光滑样条估算是 minimax 最优的。
联合推断的可行性：能否构造一个 simultaneous confidence band（SCB）来同时检验整个链接函数 \( g \)？能否同时检验关于 \( g \) 和 \( (\beta, \theta) \) 的联合假设？
渐近独立性的存在与原因：在单指标模型中，非参部分 \( \hat{g}(\cdot) \) 与参数部分 \( \hat{\beta} \) 的估计量是否渐近独立？本文正面回答了这一点。
避免未知量的 Bootstrap 程序：在联合推断中，渐近方差涉及复杂的协方差结构，难以直接估计。能否用 multiplier bootstrap 绕过这一障碍？

⚠️ 作者的 framing¶

作者明确将 gap 定位为 "没有针对 PLSIM 的 Simultaneous confidence band 和 joint inference 理论"，并把它归结为缺少一个 联合的 Bahadur 表示。他们把 Dette 的族谱工作（点wise推断）描绘成先期铺垫，将 GMME 型的置信带（如 González-Manteiga & Vieu (2020) 的 bootstrap）描绘成不成熟的选择；自己则用 "a delicate analysis based on RKHS and empirical process theory" 给出一个全面解。

被淡化 / 回避的竞争路线：核方法 + 局部线性估计的联合推断。作者在 intro 提到核方法 "works well...but requires careful bandwidth selection"，但没有提供具体对比。对于对带宽选择敏感的读者来说，这种回避是有意的。
明显该出现却未出现的工作：基于 P-spline（Eilers & Marx 1996）或 O-Spline（Wand & Ormerod 2008）的联合推断在 GLMM 框架中的工作没有被引用；这也许是因为它们的 fda（功能数据）定位。同时，未引 Huang (2003) 或 Claeskens & van Keilegom (2003) 中关于多元非参回归的 Simultaneous confidence bands 的早期理论 (这个 gap 值得研究者进一步调查)。

张力¶

被引文献中未见明显的彼此矛盾或相反结论的引用。Dette 的文本中，几乎所有引用都倾向性地描述为 "在他们的工作中… 但是没有…"，没有暴露出关键结论之间的冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( Y \)：可观测的响应变量（标量）。
\( X \)：可观测的 \( p \)-维协变量向量（只进入非线性部分）。
\( Z \)：可观测的 \( d \)-维协变量向量（只进入线性部分）。
\( \beta \)：\( p \)-维参数向量，\( \|\beta\|_2 = 1 \)（归一化保证可识别性）；第 1 个分量 \( \beta_1 > 0 \)（方向识别）。
\( \theta \)：\( d \)-维参数向量（不加约束）。
\( g : \mathbb{R} \to \mathbb{R} \)：未知的链接函数（要估计的非参函数，二阶可微）。
\( \varepsilon \)：条件均值为零的随机误差（与 \( X,Z \) 独立或条件独立）。
\( n \)：样本量。
\( \mathcal{H}_{\text{pen}} \)：惩罚的再生核希尔伯特空间（RKHS），里面有对 \( g \) 的 Sobolev 类型惩罚。
模型（数据生成机制）：
\[Y = g(\beta^\top X) + Z^\top \theta + \varepsilon, \quad E[\varepsilon | X, Z] = 0, \quad E[\varepsilon^2] = \sigma^2 < \infty.\]
这里 \( g, \beta, \theta, \sigma^2 \) 都是未知的待估对象。
可观测数据：我们有 i.i.d. 样本 \( (Y_i, X_i, Z_i), i=1,\dots,n \)。
可观测：\( Y_i, X_i, Z_i \)。
不可观测（潜变量）：真正的链接函数 \( g \)、真参数 \( \beta, \theta \)、误差 \( \varepsilon_i \)。要“识别”的是：在给定 \( \beta \) 下，\( E[Y | \beta^\top X] \) 仅由 \( g \) 决定，但 \( \beta \) 本身又从联合似然中识别（因为 \( \beta \) 和 \( g \) 联合确定分布）。

第二步：讲最小内核¶

最简特例：令 \( p = 1, d = 2 \)，即： - 协变量：一个 \( X \)（标量，影响非线性部分），两个线性协变量 \( Z_1, Z_2 \)。 - 模型：\( Y = g(\beta_1 X) + Z_1 \theta_1 + Z_2 \theta_2 + \varepsilon \)。由于 \( p = 1 \)，归一化条件 \( \|\beta\|_2 = 1 \) 自动将 \( \beta_1 \) 固定为 ±1。令 \( \beta_1 = 1 \)（正方向），那么模型退化为：

\[Y = g(X) + Z_1 \theta_1 + Z_2 \theta_2 + \varepsilon.\]

这看起来就是“带线性部分的非参回归”——轻松！但本文要做的不是这个。为了展示论文的核心困难，我们考虑一个真正最小的非平凡例子，让单索引结构起作用。

真正最小核：令 p = 2, d = 0 的无线性项设定：\( Y = g(\beta^\top X) + \varepsilon \)，其中 \( X = (X_1, X_2)^\top\)，且 \( \beta = (\beta_1, \beta_2)^\top \)，\( \beta_1 > 0, \|\beta\|_2=1\)。这是最简单的单指标模型。

问题：我们现在有 n 对样本 \( (Y_i, X_{i1}, X_{i2}) \)。我们要同时估计 \( \beta \)（二维的圆上的点，自由度为1）和函数 \( g \)（未知光滑函数）。作者的核心发现是：这两个估计是渐近独立的。
直观理解：如果我们先固定一个 \( \beta \)，则该模型退化为一个标准的一维非参回归问题（用 \( \beta^\top X_i \) 代替 \( X_i \)）。但 \( \beta \) 是未知的，需要用它的 M-估计量 \( \hat{\beta} \) 去替代。替换后，非参部分 \( \hat{g}(\hat{\beta}^\top X) \) 的额外变异性从何而来？直觉上，\( \hat{g} \) 会因为 \( \hat{\beta} \) 的随机性产生额外方差。但这篇论文证明：当使用光滑样条估计量时，这种影响在 \( n \to \infty \) 时消失了（因为 \( \hat{\beta} \) 收敛速率为 \( n^{-1/2} \)，而 \( \hat{g} \) 的收敛速率更慢，\( n^{-2/5} \) 量级，所以 \( \hat{\beta} \) 的随机性被慢速主导的非参部分“吃掉”了），导致渐近独立。这个直观在证明中被 Bahadur 表示精确化。

所以，核心思路是： 1. 找到 \( \hat{\beta} \) 的 \( n^{-1/2} \)-阶的 Bahadur 表示：\( \hat{\beta} - \beta_0 = n^{-1} \sum \psi_i + o_p(n^{-1/2}) \)。 2. 找到 \( \hat{g}(t) \) 的 \( (nh)^{-1/2} \)-阶的 Bahadur 表示（其中 \( h \) 是有效带宽 / 平滑参数）：\( \hat{g}(t) - g_0(t) = n^{-1} \sum \phi_i(t) + o_p((nh)^{-1/2}) \)。 3. 乘积 \( \sum \psi_i \cdot \sum \phi_i(t) \) 的协方差交叉项在 \( n \) 充分大时趋于0，从而核心的协方差矩阵分块对角化，导致渐近独立。

三、这篇论文做了什么¶

三句话¶

① 研究了 部分线性单指标模型 中，参数 \( (\beta, \theta) \) 与链接函数 \( g \) 的联合推断问题。
② 核心工具是Bahadur 表示（基于 RKHS 和经验过程理论），建立了 \( \hat{g} \) 与 \( (\hat{\beta}, \hat{\theta}) \) 的联合弱收敛。
③ 主要结论包括：光滑样条估计量的 L2 风险 minimax 最优、\( \hat{g} \) 与 \( (\hat{\beta}, \hat{\theta}) \) 的渐近独立、基于 multiplier bootstrap 的 simultaneous confidence band（SCB）和联合假设检验。

关键设定与假设（在第二节记号基础上补全）¶

设定： - 光滑样条估计量 \( \hat{g} \) 属于 RKHS \( \mathcal{H}_{\text{pen}} = \{ f: f \text{ 有足够光滑度}, \|f\|^2_{\text{pen}}<\infty\} \)，其中惩罚项是 \( \int (f'')^2 \) 的阶数 2 惩罚。 - 估计量通过最小化 惩罚最小二乘 得到：

\[(\hat{\beta}, \hat{\theta}, \hat{g}) = \arg\min_{\beta,\theta,g\in\mathcal{H}} n^{-1}\sum_{i=1}^n (Y_i - g(\beta^\top X_i) - Z_i^\top \theta)^2 + \lambda \|g\|^2_{\text{pen}},\]

其中 \( \lambda \) 是光滑参数。

假设（论文中的 Assumption 1-5）： 1. 函数光滑性：\( g \) 在 Sobolev 空间 \( \mathcal{W}_2^m \) 中（\( m > 2 \)），即其 \( m \) 阶导数平方可积。这确保 spline 的逼近速率。 2. 设计随机性：\( (X, Z) \) 的联合分布有界密度，且 \( E[Z Z^\top] \) 正定，以保证线性部分可识别；\( \beta^\top X \) 的边缘分布有连续密度，且支撑紧。确保不出现数据稀疏区域。 3. 模型可识别性：关于 \( \beta \) 的归一化条件 \( \beta_1 > 0, \|\beta\|_2=1 \)。这是标准识别假设。 4. 误差条件：误差 \( \varepsilon_i \) 条件均值为 0，且二阶矩有限，正态性不强求，但要有足够多的指数阶矩（确保经验过程收敛）。论文假设 \( E[|\varepsilon|^{2+\delta}]<\infty \) 或更弱。 5. 平滑参数条件：光滑参数 \( \lambda \) 以适当速率趋于 0（\( \lambda=O(n^{-2m/(2m+1)}) \)），使得均衡带宽 \( h \asymp n^{-1/(2m+1)} \)，从而得到 minimax 最优速率。

相比已有文献： - 放宽了参数部分和非参部分的边界参数限制，不再要求特殊的 “分离” 结构（如不对 \( X \) 和 \( Z \) 做正交性假设）。 - 与 Dette et al. (2014) 相比，处理了 joint inference，不光是点wise 推断。

主要结果（理论型，挑 2-3 个最关键定理）¶

定理 3.1（Bahadur 表示）：在假设下，对于模型中的所有参数：

\[\hat{\beta} - \beta_0 = n^{-1} \sum_{i=1}^n \psi_i + o_p(n^{-1/2}), \quad \hat{\theta} - \theta_0 = n^{-1} \sum_{i=1}^n \phi_i + o_p(n^{-1/2}),\]

\[\hat{g}(t) - g_0(t) = n^{-1} \sum_{i=1}^n \eta_i(t) + o_p((nh)^{-1/2}),\]

其中 \( \psi_i, \phi_i, \eta_i \) 是显式的 influence function（影响函数），且具有线性结构。这个表示是联立且逐点有效的，且交叉项协方差在 \( n \) 很大时消失，导致了渐近独立。

定理 3.2（联合弱收敛）：在 Bahadur 表示之下，对于固定的 \( t_1, \dots, t_k \)，

\[\sqrt{n}(\hat{\beta}-\beta_0, \hat{\theta}-\theta_0) \xrightarrow{d} N(0, \Sigma_{\text{para}}), \quad \sqrt{n h} (\hat{g}(t_1)-g_0(t_1), \dots, \hat{g}(t_k)-g_0(t_k)) \xrightarrow{d} N(0, \Sigma_{\text{nonpara}}),\]

且两个极限分布 相互独立。这一点背后的技术困难在于：证明 cross-covariance 项的退化依赖于对影响函数结构的高阶展开。

定理 4.1（L2 minimax 最优性）：

\[\sup_{g \in \mathcal{F}} E\|\hat{g} - g\|_2^2 = O(n^{-2m/(2m+1)}),\]

与已知的光滑函数的非参最小下界匹配（例如 Stone (1982)）。证明利用了样条逼近误差的已知上界和平方可积性假设。

定理 5.1（Simultaneous Confidence Band）：构造了一个 bands 使其渐近覆盖概率为 \( 1-\alpha \)，

\[P\left( \sup_{t \in T} |\hat{g}(t) - g_0(t)| \leq \hat{c}_{1-\alpha} \right) \to 1-\alpha,\]

其中 \( \hat{c}_{1-\alpha} \) 通过 multiplier bootstrap 计算（模拟高斯过程的经验分位数）。核心是验证极限过程是 tight 的且 bootstrap 有效。

证明路线与技术技巧（理论型）¶

整体路线（5步逻辑主干）： 1. 经验过程分解：将惩罚最小二乘的目标函数分解为关于 \( \beta, \theta, g \) 的三个部分，并构造相当于得分函数的表达式。 2. 正交分解：通过投影将参数部分的影响从非参部分中“去掉”。核心是构造一个算子将 \( X \) 影响从 \( Z \) 中回归出来。 3. 主项展开：利用 RKHS 性质，将 \( \hat{g} - g_0 \) 显式表达为 \( n^{-1} K^{-1} \sum_{i} \text{残差}_i \cdot K_i \)，其中 \( K \) 是 Gram 矩阵，\( K_i \) 是核函数。这本质上是对核平滑的 Bahadur 表示。 4. Bias 界：用样条逼近性质控制 \( g_0 \) 不在 RKHS 中带来的偏差。 5. Variance 界与联合弱收敛：证明交叉项的协方差为零，然后通过 Cramér-Wold 定理 结合 经验过程的 tightness 得到联合弱收敛。

关键跳跃点： - 将非参的 投影算子 从参数部分分离出来的引理（Lemma 5）：需要证明参数部分的影响在 RKHS 中是“单元素”的，从而能被一个L2投影完全消除。这里用到了 Riesz-Fischer 表示定理，是证明中技术含量最高的环节。 - Bias 控制：对 \( g_0 \) 的 Sobolev 正则性利用 样条插值误差界：\( \|g_0 - g_{\text{approx}}\|_\infty \leq C h^{m} \)。 - 联合协方差交叉项为零的证明：利用了参数部分影响函数 \( \psi_i \) 与 \( X \) 的条件正交性，以及在非参主项中，\( X \) 只通过索引 \( \beta^\top X \) 进入。

技术技巧点名： - RKHS 重：将光滑样条嵌入 RKHS，利用其马氏距离（惩罚的内积）获得线性逆表示。 - Empirical process theory：用于控制 Bahadur 表示的剩余项 \( o_p((nh)^{-1/2}) \) 的均匀收敛；用了 保持稳定性 条件。 - Cramér-Wold + tightness 联合弱收敛。 - Multiplier Bootstrap：用 \( N(0,1) \) 随机权重代替残差，模拟渐近高斯过程；证明需要验证 bootstrap 版本的 Bahadur 表示在条件概率下收敛。

真实例子与应用¶

本文为纯理论论文，没有真实数据分析。唯一的实证内容是数值模拟（在 Section 6 中）。模拟设计如下： - 场景：PLSIM，\( X (p=2), Z (d=2) \)，链接函数 \( g(u) = \sin(-2u) + 2u \)，参数 \( \beta = (1/2, \sqrt{3}/2)^\top, \theta = (1,2)^\top \)，误差 \( \varepsilon \sim N(0,0.5^2) \) 或 t(4)。 - 方法：比较 Smoothing Spline 与核方法在估计和推断上的表现。 - 核心结论（模拟的量化结果）：光滑样条在 L2 风险上与核方法差不多（都在最优速率上），但在推断（置信带的覆盖率和宽度）上，光滑样条+multiplier bootstrap 稳定地在 95% 名义覆盖水平下运行，而核方法+naïve bootstrap 的覆盖普遍偏低（约 85%-90%）或需要调带宽。 - 这个例子想说明：光滑样条避免了核方法带宽选择的 tricky 之处，joint inference 的可行性得到了模拟支持；渐近独立的性质反映在 bootstrap 方差估计中几乎不相关。

🔎 结论是否比证明窄¶

结论声明：定理 3.2 说 \( \sqrt{n}(\hat{\beta}-\beta_0, \hat{\theta}-\theta_0) \) 与 \( \sqrt{nh}(\hat{g}-g_0) \) 渐近独立。证明是在固定 \( t \) 点下进行的，但对于 simultaneous confidence band（需要使用 sup-norm 收敛），论文是在紧支撑上通过 tightness 论证延拓的（即没有对所有点逐个做，而是利用了过程紧性）。因此，对该 joint independence 在 sup-norm 意义下是否仍然是精确的，论文只给出了一个推测 / 评论（comment after Theorem 3.2）, 没有严格证明 sup-norm 独立性。研究者可以检查验证——这是一个可能并未严格证明的 claim。

四、开放问题（点到为止）¶

高维协变量的扩展：当 \( p \) 或 \( d \) 很大时（本文只考虑了固定维数），能否将 Lasso 之类的稀疏估计器与本文的理论结合？这是作者在 conclusion 中明确留白的问题： “The extension to high-dimensional partially linear single-index models remains open.” (Section 7, last paragraph)
非光滑链接函数：本文假设 \( g \) 是 m 阶光滑（Sobolev \( \mathcal{W}_2^m \)），且 \( m > 2 \) ；如果 \( g \) 是 Lipschitz（不光滑，甚至不连续），光滑样条的 minimax 速率会变慢，推断理论是否还能建立？论文在假设中强调了 “Smoothness is needed for the bias bound” (Assumption 2)。如果你做二元分类（链接函数是阶跃函数），则需要完全不同的证明。
Multiplier Bootstrap 在原假设下的有限样本精度：论文证明了 bootstrap 的一阶渐近有效性（弱收敛），但没有推导 Edgeworth 展开 或 二阶精度。在有限样本下，其 error-in-coverage 的准确率有多高？这是理论与模拟之间的一个 gap（论文 Figure 3 有模拟，但无理论解释）。
渐近独立性在更一般设定下的成立性：当 \( \beta \) 和 \( g \) 的收敛速率相近时（比如最优当 \( m \) 很小时），独立性可能被破坏。可以检查是否 \( m > 2 \) 是必要条件——如果是，那么这就是一个精妙的技术要求，稍弱就会导致新的推断挑战。

Maintained by 陈星宇 · Homepage · Source on GitHub