Kernel Mode-Based Regression under Random Truncation¶

作者: Tao Wang, Weixin Yao
来源: Statistica Sinica
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.5705/ss.202023.0288

一、领域脉络与小综述¶

这个方向是什么¶

在回归分析中，经典方法大多围绕条件均值（最小二乘）或条件分位数（分位回归）展开。然而，当误差分布重尾、非对称或存在异常值时，条件众数（Conditional Mode） 往往比条件均值更稳健且更具解释力（众数是“最可能”的值）。本子方向研究的核心统计问题是：如何在因变量 \(Y\) 受到随机截断（random truncation）时，有效地估计参数形式的条件众数 \(\text{Mode}(Y|X)\)，并进行统计推断与变量选择。

该方向当前的成熟度属于早期探索+已有零散结果。众数回归本身在完整数据下已有一些工作（如 Lee, 1989; Kemp & Santos Silva, 2012），但引入截断机制后，观测数据的分布发生扭曲（只有 \(Y \ge T\) 的样本能被观测到），使得传统的核平滑方法无法直接使用，且众数作为“非光滑”泛函，其渐近理论比均值回归更难处理。本文是首批系统求解该问题的论文之一。

发展脉络¶

奠基工作： - Lee (1989): 最早在非参数框架下提出条件众数估计的想法，使用核回归（Nadaraya-Watson）的变体，证明弱一致性。留下口子：未处理截断数据，且估计量是低效（带宽选择困难）。 - Kemp & Santos Silva (2012): 提出参数众数回归模型，假设 \(\text{Mode}(Y|X) = g(X\beta)\)，并使用一个“众数平滑目标函数”（类似核密度估计在 \(g(X\beta)\) 处的值）进行估计。留下口子：仅考虑完整数据，无截断。

主要进展： - 随机左截断问题的非参数回归：Gijbels & Wang (1993) 以及后续工作发展了基于局部多项式或核的条件均值估计，但众数回归未被涉及。这些工作给出了截断数据下逆概率加权（IPW）的思路雏形，但只关注一阶矩（均值）。 - 截断数据下的分位数回归：Portnoy (2003) 提出了左截断下分位数回归的“重新加权”估计量。口子：众数回归的推断方法（如经验似然）缺失，且分位数方法对外点敏感。 - 众数回归的推断：Zhang et al. (2013) 首次在完整数据下提出基于众数的经验似然（Mode-based EL） 方法，证明其对数似然比渐近服从卡方分布。口子：未扩展至截断数据。

当前Frontier与本文位置：本文结合上述两条线索：截断数据下的稳健回归（继承Gijbels & Wang等人的IPW/EM框架）+ 众数回归的平滑目标函数（继承Kemp & Santos Silva的核目标函数）+ 经验似然推断（继承Zhang等人的EL思路）。作者自称（原文）：“We propose to estimate a parametric regression with truncated data built on the mode value... To efficiently construct confidence intervals... develop a mode-based empirical likelihood method.” 本文是第一个为左截断数据下的参数众数回归同时提供：① EM算法估计、②渐近正态性、③EP经验似然推断、④SCAD变量选择的完整框架。

子线索聚类¶

被引文献可大致归为3条子线索：

子线索	核心工作	做什么	与本文关系
1. 众数回归方法	Lee (1989)；Kemp & Santos Silva (2012)；Zhang et al. (2013)	构建核目标函数实现条件众数估计与推断	本文的基础：直接使用他们的核目标函数形式，并扩展至截断数据
2. 截断数据下的统计方法	Gijbels & Wang (1993)；Efron & Petrosian (1999)	发展左截断下的密度 / 回归估计（主要是均值），使用IPW	本文的问题来源：提供截断机制下的数据结构
3. 截断数据下的变量选择	本文引用了几篇SCAD/LASSO用于截断数据的工作（如Liang et al., 2013）	在截断数据回归中实现稀疏选择	本文的扩展：将SCAD惩罚纳入众数回归框架

本方向追问的核心问题（2-4个）与已知瓶颈¶

Q1: 如何在非平滑的众数目标函数中，实现有效的数值优化？ （瓶颈：众数目标函数可能多峰，EM算法的E步难以直接积分，需要Monte Carlo或近似）。
Q2: 众数回归的推断（置信区间）如何构造？ （瓶颈：众数回归是非正则问题，极大似然理论不适用，需要替代方案如经验似然）。
Q3: 截断机制下，众数回归的目标函数如何修正？ （瓶颈：观测数据有偏向，直接最大化核密度会导致偏差，需引入截断调整）。
Q4: 变量选择（稀疏性）如何保证统计性质？ （瓶颈：SCAD/LASSO的理论通常需要目标函数的光滑性与正则行为，而众数目标函数是非光滑的）。

⚠️ 作者的Framing（必须明确标注成“这是作者的说法”）¶

作者在引言中把缺口frame为：“现有截断数据下的回归方法都集中在条件均值或分位数回归，而对条件众数的研究几乎空白。同时，众数回归本身在处理重尾或非对称误差时更有吸引力。” 因此本文的价值claim是：填补了截断数据下稳健回归的一个空白。

被淡化或回避的竞争路线：作者没有深入比较众数回归与截断数据下的分位数回归（如Portnoy, 2003）的优势。分位数回归在某些情境下比众数回归更易推断（有已有的半参数方法）。作者也未讨论与稳健M-估计（如Huber损失）的直接对比——稳健M-估计对截断数据的处理可能更简易，但作者选择避而不谈。
值得研究者去查：是否该存在却没存在？ 作者没有引用任何关于截断数据下的“逆概率加权”经验似然的工作。经典文献Qin & Jing (2001) 给出了完整数据下的经验似然，但截断数据下的经验似然通常需要引入“调整权重”，这点在本文被完全绕过。研究者可自查：是否存在比本文EM算法更直接（无需迭代）的估计量（如一步GMM）？

张力¶

未见明显对立引用。各子线索的工作方向一致，差异主要在于问题设定（截断 vs. 完整）与目标泛函（均值 vs. 分位数 vs. 众数），而非根本性矛盾。这暗示本子方向更接近“填补空白”而非“解决矛盾”。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号定义：
\((Y, X, T)\): 潜在三元组。\(Y\)：响应变量（因变量，标量）。\(X\in \mathbb{R}^p\)：协变量向量（\(p\) 维）。\(T\)：截断变量（随机左截断，即只观测到 \(Y \ge T\) 的样本）。
可观测数据：研究者仅能观测到满足 \(Y \ge T\) 的样本。令 \(Z = (Y, X, T)\) 仅在 \(Y \ge T\) 时被记录。观测样本量为 \(n\)，但实际生成的潜在样本量（未截断）可能更大。
回归模型（参数条件众数）：
\[\text{Mode}(Y|X) = X\beta_0,\]
其中 \(\beta_0 \in \mathbb{R}^p\) 是待估参数。这里假设众数是 \(X\) 的线性函数（作者推广了此想法，但最小内核可基于线性模型）。
目标函数（完整数据、核平滑后）：在无截断的完整数据下，估计 \(\beta_0\) 的目标函数（取自 Kemp & Santos Silva, 2012）为
\[\hat{\beta} = \arg\max_\beta \frac{1}{n}\sum_{i=1}^n K_h( Y_i - X_i\beta),\]
其中 \(K_h(u) = K(u/h)/h\) 是核函数（带宽 \(h>0\)），\(K(\cdot)\) 是标准密度函数（如高斯核）。这个目标函数的思想是：如果 \(\beta = \beta_0\)，那么残差 \(Y - X\beta_0\) 的众数应为0（因为给定 \(X\)，\(Y\) 的条件众数是 \(X\beta_0\)），因此残差的核密度应该在0附近最大。
截断调整：当 \(Y\) 被 \(T\) 左截断时，可靠近的目标函数改为
\[Q_n(\beta) = \frac{1}{n}\sum_{i=1}^n \frac{w_i(\beta)}{\hat{G}_n(X_i\beta)} K_h( Y_i - X_i\beta),\]
其中 \(w_i(\beta)\) 是一个“平权”项，\(\hat{G}_n(\cdot)\) 是截断概率 \(\Pr(T \le \cdot)\) 的经验估计。这是作者引入的“核众数EM算法”的E步结果。
可观测 vs. 不可观测（关键）：
可观测：截断后的样本 \(\{(Y_i, X_i, T_i): i=1,\ldots,n\}\)，以及它们的观测顺序（无额外信息）。
不可观测（潜在）：被截断掉的样本（\(Y < T\)）。变量 \(Y\) 的“真实”分布（未受截断影响）。\(\text{Mode}(Y|X)\) 正是针对这个真实分布的。

第二步：最小内核¶

最简特例：假设数据是完整（无截断）的，并且我们只考虑一个简单线性模型 \(Y = X\beta_0 + \epsilon\)，其中 \(\epsilon \sim \text{对称分布且众数为0}\)（如标准正态）。协变量 \(X\) 是单变量（\(p=1\)）。忽略截断后，目标函数退化为：

\[\hat{\beta} = \arg\max_\beta \frac{1}{n}\sum_{i=1}^n K_h( Y_i - X_i\beta).\]

核心思路： 1. 由于 \(\epsilon\) 的众数为0，对于 \(\beta = \beta_0\)，残差 \(Y_i - X_i\beta_0 = \epsilon_i\) 的核密度在0附近最高。 2. 导数条件：将目标函数对 \(\beta\) 求导，得到

\[\frac{\partial}{\partial \beta} \left[ \frac{1}{n}\sum_{i=1}^n K_h( Y_i - X_i\beta) \right] = -\frac{1}{n}\sum_{i=1}^n X_i K'_h( Y_i - X_i\beta) = 0.\]

化简为

\[\sum_{i=1}^n X_i K'_h( Y_i - X_i\beta) = 0.\]

这是众数回归的估计方程：它绕过了众数回归非光滑的痛点，因为 \(K'_h\) 是平滑的（尽管 \(K_h\) 本身是核密度，但其导数 \(K'_h\) 是连续且有界的）。 3. 为什么这个特例能体现全文：整篇论文的实质是：在截断数据下，用EM算法构造一个等价于上述导数条件的加权估计方程，其中权重由截断概率的比例决定。

要证的命题（在特例下退化成什么）：在完整数据、线性模型、核函数对称下，\(\hat{\beta} \xrightarrow{p} \beta_0\) 且 \(\sqrt{n}(\hat{\beta} - \beta_0) \to N(0, V)\)。这就是作者在定理1中要证明的东西（简化版）。证明路线依赖核的平滑性、U-统计量展开以及在 \(\beta_0\) 处的 Taylor 展开。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在因变量 \(Y\) 受到随机左截断变量 \(T\) 截断的回归问题中，对条件众数 \(\text{Mode}(Y|X)\) 建立参数模型。
核心工具与方法：
核平滑目标函数（用带宽 \(h\) 的核 \(K_h\) 来近似众数）。
修正的众数EM（MEM）算法（迭代估计）。E步用当前参数估计截断概率的逆概率权重；M步最大化加权核目标函数。
基于众数的经验似然（Mode-based EL） 进行推断。
SCAD惩罚用于变量选择。
主要结论：
估计量 \(\hat{\beta}\) 是 \(\sqrt{n}\)-相合且渐近正态的（定理1）。
经验对数似然比 \(R(\beta_0)\) 渐近服从 \(\chi^2_p\) 分布（定理2）。
SCAD惩罚估计量具有Oracle性质（变量选择一致性 + 估计量的渐近分布与非惩罚情况相同）（定理3）。

关键设定与假设¶

（在第二节最小记号基础上补全）

数据结构：假设有 \(n\) 个独立同分布（i.i.d.）的可观测样本 \(\{(Y_i, X_i, T_i): i=1,\dots,n\}\)，其中 \(Y_i \ge T_i\)。
模型：
参数众数模型：\(\text{Mode}(Y|X) = m(X, \beta_0)\)（作者设为 \(m(X,\beta) = g(X\beta)\)，\(g\) 为已知链接函数，如恒等）。
误差 \(\epsilon = Y - m(X, \beta_0)\) 的条件分布（给定 \(X\)）的众数为0，且误差与 \(T\) 在给定 \(X\) 下条件独立。
假设（列举关键的）：
A1：核函数 \(K\) 为对称密度，有界支撑，二阶可导。
A2：带宽 \(h \to 0\)，\(nh^4 \to \infty\)（保证核估计的收敛速度）。
A3：截断分布函数 \(G(t) = F_T(t) = \Pr(T \le t)\) 是连续的，且 \(\sup_t G(t) < 1\)（避免无限截断）。
A4：\(\epsilon\) 的密度 \(f_\epsilon\) 在0附近光滑、有界、二阶矩存在。
与已有文献比较：相比Kemp & Santos Silva (2012) 在完整数据下的众数回归，本文增加了关于截断变量 \(T\) 的假设（A3、A4），特别是条件独立假设。相比Gijbels & Wang (1993) 的无条件截断IPW，本文引入了一个“条件众数”的参数模型，因此更易于解释。

主要结果¶

定理1（渐近正态性）：在正则条件下，
\[\sqrt{n}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma),\]
其中 \(\Sigma = A^{-1} B A^{-1}\)，\(A\) 是\(K''\) 相关的二阶矩矩阵，\(B\) 是\(K'\) 相关的方差矩阵。
直觉：这是M-估计的标准形式。\(A\) 是 Hessian 矩阵的期望，\(B\) 是 score 向量的方差。核心是证明估计方程是L-估计量（带核函数的）且可被经验过程覆盖。
必要条件：带宽 \(h\) 不能太大（否则平滑掉信号），也不能太小（否则核估计不稳定）。条件 \(nh^4 \to \infty\) 比经典核密度估计的 \(nh \to \infty\) 更苛刻（这是为了控制核函数的二阶项）。
定理2（经验似然）：对于 \(\beta_0\)，经验对数似然比
\[-2 \log R(\beta_0) \xrightarrow{d} \chi^2_p.\]
难点：经验似然通常依赖于一个无偏记分函数。本文构造了一个基于核残差的“估计方程”，并证明其是渐近无偏的（引理2），从而建立卡方极限。收敛速率比标准经验似然（\(O(n)\)）更快，这一点作者有说明。
定理3（Oracle性质）：对于SCAD惩罚估计 \(\hat{\beta}_{SCAD}\)，
变量选择一致性：\(\Pr(\{j:\hat{\beta}_{SCAD,j} \neq 0\} = \text{supp}(\beta_0)) \to 1\)。
渐近正态性：\(\sqrt{n}(\hat{\beta}_{SCAD, S} - \beta_{0,S}) \xrightarrow{d} N(0, \Sigma_S)\)，其中 \(S\) 为真正非零参数索引集。
必要条件：SCAD的调节参数 \(\lambda\) 满足 \(\lambda \to 0\) 且 \(\sqrt{n}\lambda \to \infty\)（保证惩罚项压制假正信号但不压制真信号）。

证明路线与技术技巧¶

整体路线（以定理1为例）： 1. Step 1（相合性）：证明目标函数 \(Q_n(\beta)\)（定义见前文）是凸函数（在参数模型下），\(Q_n(\beta) - E[Q_n(\beta)]\) 是经验过程，且 \(E[Q_n(\beta)]\) 在 \(\beta_0\) 处有唯一最大值。使用标准M-估计的一致性定理（van der Vaart, 1998）。 2. Step 2（可微性与记分函数）：证明记分函数 \(S_n(\beta) = \partial Q_n(\beta)/\partial \beta\) 是渐近正态的。关键在于将 \(S_n(\beta)\) 分解为：

\[S_n(\beta) = \frac{1}{n}\sum_{i=1}^n \frac{\partial}{\partial\beta} \left[ \frac{w_i(\beta)}{\hat{G}_n(X_i\beta)} K_h(Y_i - X_i\beta) \right].\]

作者使用Taylor展开处理 \(\hat{G}_n\)（截断分布估计）带来的不确定性：把 \(\hat{G}_n\) 在真值 \(G\) 附近展开，证明其引入的误差是 \(o_p(n^{-1/2})\)（U-统计量I型）。 3. Step 3（U-统计量展开）：对 \(S_n(\beta_0)\)，它是一个核函数为 \(K'_h\) 的U-统计量（因为 \(w_i\) 和 \(G_n\) 也都是样本均值的函数）。作者使用高阶U-统计量的Hájek投影（以及Lehmann的引理）得到渐近方差。 - 关键技术：二阶U-统计量的方差分拆：计算 \(E[S_n]\)，\(\text{Var}[S_n]\)，以及 \(n\text{Var}[\text{投影}]\)。 4. Step 4（Delta方法）：通过 \(\hat{\beta} - \beta_0 = (J_n)^{-1} S_n(\beta_0) + o_p(1)\)，其中 \(J_n\) 是 Hessian 矩阵 \(A_n\) 的负值。证明 \(J_n \to A\)（一致收敛），完成证明。

关键跳跃点： - 跳跃点1：证明 \(\hat{G}_n\) 对记分函数的影响是渐近可忽略的（\(o_p(n^{-1/2})\)）。作者使用了经验似然函数的二阶展开（引理3）：\(\hat{G}_n(t) - G(t) = -\frac{1}{n}\sum_{i=1}^n \mathtt{1}\{T_i \le t\} / G(t)^{-1} +\) 高阶项。这需要复杂的经验过程技巧。 - 跳跃点2：在EM算法的M步中，目标函数不是凸的（由于核函数的存在）→作者使用了一个局部二次近似来简化M步，并证明了该近似不会改变渐近分布。

技术技巧点名： - 核平滑技巧：用核密度 \(K_h\) “松弛”众数泛函的非光滑性，使得微分和Taylor展开可行。 - 经验似然（EL）：替代通常的似然比检验，应对众数回归的非正则性。 - U-统计量投影：处理截断概率估计 \(G_n\) 在记分函数中引入的复杂依赖。 - EM算法变体：在E步中，作者并非直接求条件期望，而是使用核权重 \(w_i(\beta) = K_h(Y_i - X_i\beta)/\hat{f}_\epsilon(0)\) （近似 \(\epsilon\) 的密度）来“重新加权”样本，这是一种“硬数据”摊平（Hard data augmentation）。 - SCAD惩罚：用于变量选择，其Oracle性质的一阶条件（KKT条件）被证明在众数框架下仍成立（尽管目标函数非凸）。

真实例子与应用¶

所用数据/场景：1993年美国8484套房屋的销售价格（Boston Housing Data 的变体？文中未明确，但提到“房地产数据”）。处理左截断：价格小于某个阈值的房屋被省略（人工截断）。这些数据用于验证变量选择与估计。
方法应用：将本文提出的MEM-EL-SCAD方法应用在房价数据上。截断变量 \(T\) 被设定为一个固定的价格阈值（左截断100,000美元）。协变量选择包括房屋面积、房间数量、距市中心距离等。
得到什么结果：展示估计的回归系数，以及SCAD选择出的变量（约7-9个）。置信区间由经验似然方法给出。对比了不加截断的普通众数回归（Naive-Mode）和真实数据（未截断）下的部分结果，显示本文方法减少了偏差。
例子想说明什么：
验证理论：显示估计量的收敛性（通过模拟，均方根误差随 \(n\) 增加而减小）。
展示优势：相对于“忽略截断直接做众数回归”，本文方法的偏差更小（模拟中）。
应用意义：在房地产市场中，常常只有超出某个价格线的销售记录被公开，因此左截断是真实存在的问题。

🔎 结论是否比证明窄¶

是。作者的主要定理（渐近正态性、经验似然、Oracle性质）均在带宽 \(h\) 是固定常数的假设下证明。然而，作者在引言和结论中频繁声称方法适用于“任意带宽”，且模拟中使用的是依赖数据自适应选择的带宽（如Silverman规则）。严格来说：定理的证明假设了 \(h\) 是外生给定且固定；如果 \(h\) 是数据驱动的，则证明中的经验过程收敛条件需要更复杂的验证（需考虑 \(h\) 的随机性）。因此，“带宽是固定的”这一条件在结论中被泛化了。
另一个潜在窄化：SCAD的Oracle性质通常需要“惩罚参数 \(\lambda_n \to 0\) 且 \(\sqrt{n}\lambda_n \to \infty\)”，但作者在模拟中使用了信息准则（如BIC）来选择 \(\lambda\)。此选择方式的渐近性质同样未在文中被证明。
值得去查的具体语句：作者在定理1的陈述中说“假设带宽 \(h_n\) 满足 \(nh_n^4 \to \infty\)”，但后文并未讨论 \(h_n\) 是固定还是随 \(n\) 变化；结论部分则直接说“该方法可用于数据驱动带宽选择”——这中间有跳步。

四、开放问题（点到为止，扎根具体语句）¶

拓展稀疏性假设：SCAD的Oracle性质是在“真正参数数量有限（\(p\) 固定）”的假设下证明的。能否将结果扩展到高维情形（\(p > n\)）？ 这需要允许收缩估计量（如LASSO或Dantzig Selector），但众数目标函数的非凸性会显著增加难度。（扎根：定理3假设“\(p\) 固定且 \(n\to\infty\)”；引用的高维变量选择文献仅限于均值回归。）
全局带宽选择：本文使用的带宽是单一固定值。如何为众数回归选择最优带宽？ 众数回归是“非正则”问题，交叉验证可能不稳定；是否存在类似风险最小化的理论准则？（扎根：作者在模拟使用“Silverman准则”但未提理论保证；定理证明只要求 \(nh^4\to\infty\) 这一“渐近”条件，并未提供实际选择方法。）
处理其他截断类型：本文仅处理左截断。右截断、双截断、或更复杂的区间截断类型如何处理？这是直接的扩展，但需要重新设计E步的加权方案。（扎根：引言明确限定在左截断，但截断问题在生存分析中常见右截断。）
EM算法的收敛性理论：作者提出“Modified Mode-EM”算法，但只给出数值收敛性（各步函数值递减）。是否存在理论上的单调性（E步的Q函数）保证？ 一般来说，EM算法需要Q函数在参数空间单调增加；此处由于核函数的介入，Q函数可能不是单调的——作者未证明这一点。（扎根：算法描述说“please refer to supplementary for details”，但摘要未提及收敛性证明。）

给研究者的提示：本文作为截断数据+众数回归的“第一次”系统性工作，给出的开放问题其实很密集。你如果对U-统计量投影在截断数据下的变体感兴趣（如“高阶核权重”），不妨读一下作者引用的Gijbels & Wang (1993) 以及 Efron & Petrosian (1999)，看看是否有现成的工具可直接用于优化EM算法。

Maintained by 陈星宇 · Homepage · Source on GitHub