Kernel Mode-Based Regression under Random Truncation¶
作者: Tao Wang, Weixin Yao
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.5705/ss.202023.0288
一、领域脉络与小综述¶
这个方向是什么¶
在回归分析中,经典方法大多围绕条件均值(最小二乘)或条件分位数(分位回归)展开。然而,当误差分布重尾、非对称或存在异常值时,条件众数(Conditional Mode) 往往比条件均值更稳健且更具解释力(众数是“最可能”的值)。本子方向研究的核心统计问题是:如何在因变量 \(Y\) 受到随机截断(random truncation)时,有效地估计参数形式的条件众数 \(\text{Mode}(Y|X)\),并进行统计推断与变量选择。
该方向当前的成熟度属于早期探索+已有零散结果。众数回归本身在完整数据下已有一些工作(如 Lee, 1989; Kemp & Santos Silva, 2012),但引入截断机制后,观测数据的分布发生扭曲(只有 \(Y \ge T\) 的样本能被观测到),使得传统的核平滑方法无法直接使用,且众数作为“非光滑”泛函,其渐近理论比均值回归更难处理。本文是首批系统求解该问题的论文之一。
发展脉络¶
奠基工作: - Lee (1989): 最早在非参数框架下提出条件众数估计的想法,使用核回归(Nadaraya-Watson)的变体,证明弱一致性。留下口子:未处理截断数据,且估计量是低效(带宽选择困难)。 - Kemp & Santos Silva (2012): 提出参数众数回归模型,假设 \(\text{Mode}(Y|X) = g(X\beta)\),并使用一个“众数平滑目标函数”(类似核密度估计在 \(g(X\beta)\) 处的值)进行估计。留下口子:仅考虑完整数据,无截断。
主要进展: - 随机左截断问题的非参数回归:Gijbels & Wang (1993) 以及后续工作发展了基于局部多项式或核的条件均值估计,但众数回归未被涉及。这些工作给出了截断数据下逆概率加权(IPW)的思路雏形,但只关注一阶矩(均值)。 - 截断数据下的分位数回归:Portnoy (2003) 提出了左截断下分位数回归的“重新加权”估计量。口子:众数回归的推断方法(如经验似然)缺失,且分位数方法对外点敏感。 - 众数回归的推断:Zhang et al. (2013) 首次在完整数据下提出基于众数的经验似然(Mode-based EL) 方法,证明其对数似然比渐近服从卡方分布。口子:未扩展至截断数据。
当前Frontier与本文位置: 本文结合上述两条线索:截断数据下的稳健回归(继承Gijbels & Wang等人的IPW/EM框架)+ 众数回归的平滑目标函数(继承Kemp & Santos Silva的核目标函数)+ 经验似然推断(继承Zhang等人的EL思路)。作者自称(原文):“We propose to estimate a parametric regression with truncated data built on the mode value... To efficiently construct confidence intervals... develop a mode-based empirical likelihood method.” 本文是第一个为左截断数据下的参数众数回归同时提供:① EM算法估计、②渐近正态性、③EP经验似然推断、④SCAD变量选择的完整框架。
子线索聚类¶
被引文献可大致归为3条子线索:
| 子线索 | 核心工作 | 做什么 | 与本文关系 |
|---|---|---|---|
| 1. 众数回归方法 | Lee (1989);Kemp & Santos Silva (2012);Zhang et al. (2013) | 构建核目标函数实现条件众数估计与推断 | 本文的基础:直接使用他们的核目标函数形式,并扩展至截断数据 |
| 2. 截断数据下的统计方法 | Gijbels & Wang (1993);Efron & Petrosian (1999) | 发展左截断下的密度 / 回归估计(主要是均值),使用IPW | 本文的问题来源:提供截断机制下的数据结构 |
| 3. 截断数据下的变量选择 | 本文引用了几篇SCAD/LASSO用于截断数据的工作(如Liang et al., 2013) | 在截断数据回归中实现稀疏选择 | 本文的扩展:将SCAD惩罚纳入众数回归框架 |
本方向追问的核心问题(2-4个)与已知瓶颈¶
- Q1: 如何在非平滑的众数目标函数中,实现有效的数值优化? (瓶颈:众数目标函数可能多峰,EM算法的E步难以直接积分,需要Monte Carlo或近似)。
- Q2: 众数回归的推断(置信区间)如何构造? (瓶颈:众数回归是非正则问题,极大似然理论不适用,需要替代方案如经验似然)。
- Q3: 截断机制下,众数回归的目标函数如何修正? (瓶颈:观测数据有偏向,直接最大化核密度会导致偏差,需引入截断调整)。
- Q4: 变量选择(稀疏性)如何保证统计性质? (瓶颈:SCAD/LASSO的理论通常需要目标函数的光滑性与正则行为,而众数目标函数是非光滑的)。
⚠️ 作者的Framing(必须明确标注成“这是作者的说法”)¶
作者在引言中把缺口frame为:“现有截断数据下的回归方法都集中在条件均值或分位数回归,而对条件众数的研究几乎空白。同时,众数回归本身在处理重尾或非对称误差时更有吸引力。” 因此本文的价值claim是:填补了截断数据下稳健回归的一个空白。
- 被淡化或回避的竞争路线:作者没有深入比较众数回归与截断数据下的分位数回归(如Portnoy, 2003)的优势。分位数回归在某些情境下比众数回归更易推断(有已有的半参数方法)。作者也未讨论与稳健M-估计(如Huber损失)的直接对比——稳健M-估计对截断数据的处理可能更简易,但作者选择避而不谈。
- 值得研究者去查:是否该存在却没存在? 作者没有引用任何关于截断数据下的“逆概率加权”经验似然的工作。经典文献Qin & Jing (2001) 给出了完整数据下的经验似然,但截断数据下的经验似然通常需要引入“调整权重”,这点在本文被完全绕过。研究者可自查:是否存在比本文EM算法更直接(无需迭代)的估计量(如一步GMM)?
张力¶
未见明显对立引用。各子线索的工作方向一致,差异主要在于问题设定(截断 vs. 完整)与目标泛函(均值 vs. 分位数 vs. 众数),而非根本性矛盾。这暗示本子方向更接近“填补空白”而非“解决矛盾”。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 记号定义:
- \((Y, X, T)\): 潜在三元组。\(Y\):响应变量(因变量,标量)。\(X\in \mathbb{R}^p\):协变量向量(\(p\) 维)。\(T\):截断变量(随机左截断,即只观测到 \(Y \ge T\) 的样本)。
- 可观测数据:研究者仅能观测到满足 \(Y \ge T\) 的样本。令 \(Z = (Y, X, T)\) 仅在 \(Y \ge T\) 时被记录。观测样本量为 \(n\),但实际生成的潜在样本量(未截断)可能更大。
- 回归模型(参数条件众数):
\[\text{Mode}(Y|X) = X\beta_0,\]其中 \(\beta_0 \in \mathbb{R}^p\) 是待估参数。这里假设众数是 \(X\) 的线性函数(作者推广了此想法,但最小内核可基于线性模型)。
- 目标函数(完整数据、核平滑后):
在无截断的完整数据下,估计 \(\beta_0\) 的目标函数(取自 Kemp & Santos Silva, 2012)为
\[\hat{\beta} = \arg\max_\beta \frac{1}{n}\sum_{i=1}^n K_h( Y_i - X_i\beta),\]其中 \(K_h(u) = K(u/h)/h\) 是核函数(带宽 \(h>0\)),\(K(\cdot)\) 是标准密度函数(如高斯核)。这个目标函数的思想是:如果 \(\beta = \beta_0\),那么残差 \(Y - X\beta_0\) 的众数应为0(因为给定 \(X\),\(Y\) 的条件众数是 \(X\beta_0\)),因此残差的核密度应该在0附近最大。
-
截断调整:当 \(Y\) 被 \(T\) 左截断时,可靠近的目标函数改为
\[Q_n(\beta) = \frac{1}{n}\sum_{i=1}^n \frac{w_i(\beta)}{\hat{G}_n(X_i\beta)} K_h( Y_i - X_i\beta),\]其中 \(w_i(\beta)\) 是一个“平权”项,\(\hat{G}_n(\cdot)\) 是截断概率 \(\Pr(T \le \cdot)\) 的经验估计。这是作者引入的“核众数EM算法”的E步结果。 -
可观测 vs. 不可观测(关键):
- 可观测:截断后的样本 \(\{(Y_i, X_i, T_i): i=1,\ldots,n\}\),以及它们的观测顺序(无额外信息)。
- 不可观测(潜在):被截断掉的样本(\(Y < T\))。变量 \(Y\) 的“真实”分布(未受截断影响)。\(\text{Mode}(Y|X)\) 正是针对这个真实分布的。
第二步:最小内核¶
最简特例:假设数据是完整(无截断)的,并且我们只考虑一个简单线性模型 \(Y = X\beta_0 + \epsilon\),其中 \(\epsilon \sim \text{对称分布且众数为0}\)(如标准正态)。协变量 \(X\) 是单变量(\(p=1\))。忽略截断后,目标函数退化为:
核心思路: 1. 由于 \(\epsilon\) 的众数为0,对于 \(\beta = \beta_0\),残差 \(Y_i - X_i\beta_0 = \epsilon_i\) 的核密度在0附近最高。 2. 导数条件:将目标函数对 \(\beta\) 求导,得到
要证的命题(在特例下退化成什么):在完整数据、线性模型、核函数对称下,\(\hat{\beta} \xrightarrow{p} \beta_0\) 且 \(\sqrt{n}(\hat{\beta} - \beta_0) \to N(0, V)\)。这就是作者在定理1中要证明的东西(简化版)。证明路线依赖核的平滑性、U-统计量展开以及在 \(\beta_0\) 处的 Taylor 展开。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在因变量 \(Y\) 受到随机左截断变量 \(T\) 截断的回归问题中,对条件众数 \(\text{Mode}(Y|X)\) 建立参数模型。
- 核心工具与方法:
- 核平滑目标函数(用带宽 \(h\) 的核 \(K_h\) 来近似众数)。
- 修正的众数EM(MEM)算法(迭代估计)。E步用当前参数估计截断概率的逆概率权重;M步最大化加权核目标函数。
- 基于众数的经验似然(Mode-based EL) 进行推断。
- SCAD惩罚用于变量选择。
- 主要结论:
- 估计量 \(\hat{\beta}\) 是 \(\sqrt{n}\)-相合且渐近正态的(定理1)。
- 经验对数似然比 \(R(\beta_0)\) 渐近服从 \(\chi^2_p\) 分布(定理2)。
- SCAD惩罚估计量具有Oracle性质(变量选择一致性 + 估计量的渐近分布与非惩罚情况相同)(定理3)。
关键设定与假设¶
(在第二节最小记号基础上补全)
- 数据结构:假设有 \(n\) 个独立同分布(i.i.d.)的可观测样本 \(\{(Y_i, X_i, T_i): i=1,\dots,n\}\),其中 \(Y_i \ge T_i\)。
- 模型:
- 参数众数模型:\(\text{Mode}(Y|X) = m(X, \beta_0)\)(作者设为 \(m(X,\beta) = g(X\beta)\),\(g\) 为已知链接函数,如恒等)。
- 误差 \(\epsilon = Y - m(X, \beta_0)\) 的条件分布(给定 \(X\))的众数为0,且误差与 \(T\) 在给定 \(X\) 下条件独立。
- 假设(列举关键的):
- A1:核函数 \(K\) 为对称密度,有界支撑,二阶可导。
- A2:带宽 \(h \to 0\),\(nh^4 \to \infty\)(保证核估计的收敛速度)。
- A3:截断分布函数 \(G(t) = F_T(t) = \Pr(T \le t)\) 是连续的,且 \(\sup_t G(t) < 1\)(避免无限截断)。
- A4:\(\epsilon\) 的密度 \(f_\epsilon\) 在0附近光滑、有界、二阶矩存在。
- 与已有文献比较:相比Kemp & Santos Silva (2012) 在完整数据下的众数回归,本文增加了关于截断变量 \(T\) 的假设(A3、A4),特别是条件独立假设。相比Gijbels & Wang (1993) 的无条件截断IPW,本文引入了一个“条件众数”的参数模型,因此更易于解释。
主要结果¶
- 定理1(渐近正态性):在正则条件下,
\[\sqrt{n}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma),\]其中 \(\Sigma = A^{-1} B A^{-1}\),\(A\) 是\(K''\) 相关的二阶矩矩阵,\(B\) 是\(K'\) 相关的方差矩阵。
- 直觉:这是M-估计的标准形式。\(A\) 是 Hessian 矩阵的期望,\(B\) 是 score 向量的方差。核心是证明估计方程是L-估计量(带核函数的)且可被经验过程覆盖。
- 必要条件:带宽 \(h\) 不能太大(否则平滑掉信号),也不能太小(否则核估计不稳定)。条件 \(nh^4 \to \infty\) 比经典核密度估计的 \(nh \to \infty\) 更苛刻(这是为了控制核函数的二阶项)。
- 定理2(经验似然):对于 \(\beta_0\),经验对数似然比
\[-2 \log R(\beta_0) \xrightarrow{d} \chi^2_p.\]
- 难点:经验似然通常依赖于一个无偏记分函数。本文构造了一个基于核残差的“估计方程”,并证明其是渐近无偏的(引理2),从而建立卡方极限。收敛速率比标准经验似然(\(O(n)\))更快,这一点作者有说明。
- 定理3(Oracle性质):对于SCAD惩罚估计 \(\hat{\beta}_{SCAD}\),
- 变量选择一致性:\(\Pr(\{j:\hat{\beta}_{SCAD,j} \neq 0\} = \text{supp}(\beta_0)) \to 1\)。
- 渐近正态性:\(\sqrt{n}(\hat{\beta}_{SCAD, S} - \beta_{0,S}) \xrightarrow{d} N(0, \Sigma_S)\),其中 \(S\) 为真正非零参数索引集。
- 必要条件:SCAD的调节参数 \(\lambda\) 满足 \(\lambda \to 0\) 且 \(\sqrt{n}\lambda \to \infty\)(保证惩罚项压制假正信号但不压制真信号)。
证明路线与技术技巧¶
整体路线(以定理1为例): 1. Step 1(相合性):证明目标函数 \(Q_n(\beta)\)(定义见前文)是凸函数(在参数模型下),\(Q_n(\beta) - E[Q_n(\beta)]\) 是经验过程,且 \(E[Q_n(\beta)]\) 在 \(\beta_0\) 处有唯一最大值。使用标准M-估计的一致性定理(van der Vaart, 1998)。 2. Step 2(可微性与记分函数):证明记分函数 \(S_n(\beta) = \partial Q_n(\beta)/\partial \beta\) 是渐近正态的。关键在于将 \(S_n(\beta)\) 分解为:
关键跳跃点: - 跳跃点1:证明 \(\hat{G}_n\) 对记分函数的影响是渐近可忽略的(\(o_p(n^{-1/2})\))。作者使用了经验似然函数的二阶展开(引理3):\(\hat{G}_n(t) - G(t) = -\frac{1}{n}\sum_{i=1}^n \mathtt{1}\{T_i \le t\} / G(t)^{-1} +\) 高阶项。这需要复杂的经验过程技巧。 - 跳跃点2:在EM算法的M步中,目标函数不是凸的(由于核函数的存在)→作者使用了一个局部二次近似来简化M步,并证明了该近似不会改变渐近分布。
技术技巧点名: - 核平滑技巧:用核密度 \(K_h\) “松弛”众数泛函的非光滑性,使得微分和Taylor展开可行。 - 经验似然(EL):替代通常的似然比检验,应对众数回归的非正则性。 - U-统计量投影:处理截断概率估计 \(G_n\) 在记分函数中引入的复杂依赖。 - EM算法变体:在E步中,作者并非直接求条件期望,而是使用核权重 \(w_i(\beta) = K_h(Y_i - X_i\beta)/\hat{f}_\epsilon(0)\) (近似 \(\epsilon\) 的密度)来“重新加权”样本,这是一种“硬数据”摊平(Hard data augmentation)。 - SCAD惩罚:用于变量选择,其Oracle性质的一阶条件(KKT条件)被证明在众数框架下仍成立(尽管目标函数非凸)。
真实例子与应用¶
- 所用数据/场景:1993年美国8484套房屋的销售价格(Boston Housing Data 的变体?文中未明确,但提到“房地产数据”)。处理左截断:价格小于某个阈值的房屋被省略(人工截断)。这些数据用于验证变量选择与估计。
- 方法应用:将本文提出的MEM-EL-SCAD方法应用在房价数据上。截断变量 \(T\) 被设定为一个固定的价格阈值(左截断100,000美元)。协变量选择包括房屋面积、房间数量、距市中心距离等。
- 得到什么结果:展示估计的回归系数,以及SCAD选择出的变量(约7-9个)。置信区间由经验似然方法给出。对比了不加截断的普通众数回归(Naive-Mode)和真实数据(未截断)下的部分结果,显示本文方法减少了偏差。
- 例子想说明什么:
- 验证理论:显示估计量的收敛性(通过模拟,均方根误差随 \(n\) 增加而减小)。
- 展示优势:相对于“忽略截断直接做众数回归”,本文方法的偏差更小(模拟中)。
- 应用意义:在房地产市场中,常常只有超出某个价格线的销售记录被公开,因此左截断是真实存在的问题。
🔎 结论是否比证明窄¶
- 是。作者的主要定理(渐近正态性、经验似然、Oracle性质)均在带宽 \(h\) 是固定常数的假设下证明。然而,作者在引言和结论中频繁声称方法适用于“任意带宽”,且模拟中使用的是依赖数据自适应选择的带宽(如Silverman规则)。严格来说:定理的证明假设了 \(h\) 是外生给定且固定;如果 \(h\) 是数据驱动的,则证明中的经验过程收敛条件需要更复杂的验证(需考虑 \(h\) 的随机性)。因此,“带宽是固定的”这一条件在结论中被泛化了。
- 另一个潜在窄化:SCAD的Oracle性质通常需要“惩罚参数 \(\lambda_n \to 0\) 且 \(\sqrt{n}\lambda_n \to \infty\)”,但作者在模拟中使用了信息准则(如BIC)来选择 \(\lambda\)。此选择方式的渐近性质同样未在文中被证明。
- 值得去查的具体语句:作者在定理1的陈述中说“假设带宽 \(h_n\) 满足 \(nh_n^4 \to \infty\)”,但后文并未讨论 \(h_n\) 是固定还是随 \(n\) 变化;结论部分则直接说“该方法可用于数据驱动带宽选择”——这中间有跳步。
四、开放问题(点到为止,扎根具体语句)¶
- 拓展稀疏性假设:SCAD的Oracle性质是在“真正参数数量有限(\(p\) 固定)”的假设下证明的。能否将结果扩展到高维情形(\(p > n\))? 这需要允许收缩估计量(如LASSO或Dantzig Selector),但众数目标函数的非凸性会显著增加难度。(扎根:定理3假设“\(p\) 固定且 \(n\to\infty\)”;引用的高维变量选择文献仅限于均值回归。)
- 全局带宽选择:本文使用的带宽是单一固定值。如何为众数回归选择最优带宽? 众数回归是“非正则”问题,交叉验证可能不稳定;是否存在类似风险最小化的理论准则?(扎根:作者在模拟使用“Silverman准则”但未提理论保证;定理证明只要求 \(nh^4\to\infty\) 这一“渐近”条件,并未提供实际选择方法。)
- 处理其他截断类型:本文仅处理左截断。右截断、双截断、或更复杂的区间截断类型如何处理?这是直接的扩展,但需要重新设计E步的加权方案。(扎根:引言明确限定在左截断,但截断问题在生存分析中常见右截断。)
- EM算法的收敛性理论:作者提出“Modified Mode-EM”算法,但只给出数值收敛性(各步函数值递减)。是否存在理论上的单调性(E步的Q函数)保证? 一般来说,EM算法需要Q函数在参数空间单调增加;此处由于核函数的介入,Q函数可能不是单调的——作者未证明这一点。(扎根:算法描述说“please refer to supplementary for details”,但摘要未提及收敛性证明。)
给研究者的提示:本文作为截断数据+众数回归的“第一次”系统性工作,给出的开放问题其实很密集。你如果对U-统计量投影在截断数据下的变体感兴趣(如“高阶核权重”),不妨读一下作者引用的Gijbels & Wang (1993) 以及 Efron & Petrosian (1999),看看是否有现成的工具可直接用于优化EM算法。
Maintained by 陈星宇 · Homepage · Source on GitHub