Efficient quantile regression under censoring using Laguerre polynomials¶

作者: Alexander Kreiss, Ingrid Van Keilegom
来源: Bernoulli
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: KU Leuven（US News 前 50，免分进入精读）
链接: https://doi.org/10.3150/24-bej1829

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：在响应变量存在随机右删失（random right censoring）时，如何有效地估计线性分位数回归（linear quantile regression）模型。核心统计任务是在删失数据下估计条件分位数函数，且希望估计量达到半参数渐近效率下界。该方向当前成熟度较高，已有多种经典方法（如Portnoy’s censored quantile regression、Peng & Huang’s quantile-specific log-rank-type estimator），但在渐近效率（asymptotic efficiency）方面普遍存在缺口——多数放宽了效率目标，仅追求一致性或次优收敛率。本文试图填补这一效率缺口。

发展脉络¶

奠基工作：Powell (1986) 提出了删失分位数回归的原始框架，奠定了“对删失响应做分位数回归”的研究问题，但该方法假设删失阈值已知且固定，无法处理随机删失。
主要进展：Portnoy (2003) 通过“逐步重新加权”（gradual reweighting）处理随机右删失，提出Censored Quantile Regression (CRQ)，该方法成为实证研究标配，但统计上被证明其估计量经常非单调，且效率性质不明。
进一步推进：Peng & Huang (2008) 利用计数过程技巧构造了一类可直接估计条件分位数的估计方程，无需重新加权，给出了一致性与渐近正态性，但也未推导效率界。
当前frontier（被引文献聚类）：Wang & Wang (2009, JASA) 使用局部加权方法，允许删失时间与协变量相关（即不再是独立删失），拓展了可处理的数据结构；Belloni, Chernozhukov & Fernández-Val (2011, Annals of Statistics) 在高维框架下引入$L_1$罚分，但删失情境下效率论证仍然回避。【本文的位置】：在以上工作的基础上，作者首次在随机删失线性分位数回归中推导出半参数效率界，并构造达到该界的估计量（通过Laguerre多项式对误差分布进行无限维参数化）。

子线索聚类¶

加权方程方法（weighted estimating equations）：Portnoy (2003), Peng & Huang (2008), Wang & Wang (2009)。核心是通过设计删失权重或逆概率加权来修正删失带来的偏差，但估计量往往不满足单调性或效率最优。
惩罚/高维方法：Belloni et al. (2011)。在$p > n$的高维场景下扩展分位数回归，但删失情境仅作初步处理，效率不是其主要关注点。
直接参数化误差分布的结构化方法（本文所属）：通过Laguerre多项式刻画误差密度形状，使之自动满足分位数约束，从而可以将复杂删失问题转化成参数模型估计问题。

方向核心追问¶

在随机右删失下，线性分位数回归的半参数效率界（semiparametric efficiency bound）是什么？
是否存在一个构造性程序能实际达到该效率界（而非仅是理论上的存在性）？
新方法在有限样本下是否优于Portnoy (2003)、Peng & Huang (2008)这类非参数方法？
当删失时间是协变量的函数时（即不再是独立删失），效率结论是否仍成立？

⚠️ 作者的framing¶

作者明确声明：现有删失分位数回归文献“未能处理效率问题”（"the existing literature on censored quantile regression has not tackled efficiency issues"），这使得本文成为“显然是下一步”。作者将缺口frame成：“误差分布的自由度不足导致估计效率损失，而通过Laguerre多项式无限维扩展可以解决这个问题”。竞争路线（如Portnoy / Peng-Huang）的被淡化方式：作者仅提及这些方法一致性，但未系统对比它们在效率缺口上的代价（例如未说明CRQ的非单调性会对效率有实质影响）。什么该存在但没出现在intro里：对照半参数效率理论经典文献（如Bickel et al., 1993; Tsiatis, 2006），在删失回归中已有大量对均值回归的效率理论，但作者并未纳入这些引文来对比——均值回归的效率理论显然该被引用以供参照，但这里只处理了分位数。这提醒研究者去查：删失场景下均值回归的效率分析能否直接迁移到分位数？作者为何未引用Tsitatis等经典文献？

张力¶

被引工作之间未见明显对立结论，但在“效率可能性”上存在沉默张力：Portnoy (2003)从未声称也从未证明其估计量的效率性质，而Peng & Huang (2008)的推断方差远大于本文构造所得。这说明大家暗含共识：非参数或半参数方法在删失下效率有限。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据（一次性交代清楚）¶

符号
$Y$：兴趣响应变量（被删失），为随机变量。
$C$：删失时间（censoring time），随机右删失。
$X \in \mathbb{R}^p$：协变量向量（固定维数$p$，样本量$n$下可视作可观测）。
$T = \min(Y, C)$：观察到的（潜在的删失后的）时间。
$\delta = \mathbb{1}(Y \le C)$：删失指示变量（$\delta = 1$表示观察到真实$Y$，$\delta = 0$表示观察到删失时间$C$）。
$\tau \in (0, 1)$：感兴趣的分位数水平。
参数/estimand：线性分位数回归系数$\beta(\tau) \in \mathbb{R}^p$，满足$P(Y \le X^\top \beta(\tau) | X) = \tau$。
$\varepsilon$：误差项，满足条件分位数$Q_{\varepsilon|X}(\tau) = 0$，即$Y = X^\top \beta(\tau) + \varepsilon$，$\varepsilon$的第$\tau$个条件分位数为0。
潜在量与可观测量：$\beta(\tau)$是estimand；$(T, \delta, X)$是可观测；$Y$或$C$单独个体不可观测（取决于$\delta$）。
模型
基本模型：线性形式$Y = X^\top \beta(\tau) + \varepsilon$，$X$看作随机或固定皆可，但本文视为随机。
误差分布：假定$\varepsilon$的连续分布未知，其第$\tau$个条件分位数为0。
删失机制：随机右删失，且假定$C$在给定$X$下独立于$Y$（条件独立删失，conditional independent censoring），即$Y \perp C \mid X$。
数据生成：从模型抽取$(X_i, Y_i, C_i)$ i.i.d.，但只能观测到$(T_i, \delta_i, X_i)$。
可观测数据
研究者获得$n$个独立同分布观测：$\{(T_i, \delta_i, X_i)\}_{i=1}^n$，其中$T_i = \min(Y_i, C_i)$，$\delta_i = \mathbb{1}(Y_i \le C_i)$。
不可观测的潜在量：$Y_i$（当$\delta_i=0$时）、$C_i$（当$\delta_i=1$时）。
本文的统计任务：仅基于$(T, \delta, X)$估计$\beta(\tau)$，并达到半参数效率下界。

第二步：讲最小内核（最简特例）¶

考虑最简特例：仅一个协变量（$p=1$），且该协变量为常数1（即无协变量）。此时模型退化为无条件分位数回归：$Y = \beta(\tau) + \varepsilon$，其中$\beta(\tau) = Q_Y(\tau)$是总体的第$\tau$个无条件分位数。$n$个响应各自独立，但每个$Y_i$可能被随机右删失$C_i$删失。实际观测$(T_i, \delta_i)$。目标是删失下估计$\beta(\tau) = F_Y^{-1}(\tau)$，且达到半参数下界。

在这个特例下，本文的核心想法：

若$\varepsilon$服从Laplace分布（双指数分布），则其密度$f_\varepsilon(z) = \frac{1}{2\sigma}e^{-|z|/\sigma}$，其第$\tau$个分位数$=0$意味着$F_\varepsilon(0) = \tau$。但对于一般未知分布，Laplace分布不够灵活。
作者想法：从Enriched Laplace分布出发——从标准Laplace密度开始，用Laguerre多项式扩展它。具体地：
令$\ell_k(z), k=0,1,\ldots$为Laguerre多项式（正交基），定义扩展后的密度：

\[g_\theta(z) \propto e^{-|z|} \left[ 1 + \sum_{k=1}^K \theta_k \ell_k(z) \right]_{\text{非负部分}}, \quad z \in \mathbb{R}\]
这里$\theta = (\theta_1, \ldots, \theta_K)$为可调参数，下标“非负部分”表示被截断以保证$g_\theta \ge 0$。
对任意$\tau \in (0,1)$，强制$G_\theta(0) = \tau$，即第$\tau$分位数恰为0。这个约束被嵌入参数$\theta$的选择中。
当$K \to \infty$时，该Enriched Laplace分布可以逼近任意连续分布（Laguerre基的完备性），同时保证第$\tau$分位数恰为0。
将删失响应数据代入成立率（likelihood）构造，最大化边际似然（积分掉未观测$Y$或$C$的部分），从而估计$\theta$和$\beta(\tau)$。这等价于估计条件分位数函数$Q_{Y|X}(\tau) = X^\top \beta(\tau)$。

为什么这个想法是核心：它把一个非参数估计问题嵌入到一个无限维参数模型中（通过Laguerre多项式扩展），使非参数推断转化成参数结构下的极大似然估计问题，从而自动利用半参数效率的结果。证明这条路的可行，需要下面几点：

Laguerre展开在$L^2$下逼近任意连续密度（需要$K$趋于无穷）；
参数化后似然的可计算性与渐近性质（应该是经典参数MLE的那些性质）；
效率界的推导标准半参数步骤（将问题视为处理协变量$X$时，误差密度作为一个无限维讨厌参数）。

一般设定（含协变量$X$、任意$\tau$、多变量$p$）仅仅是叠加了协变量部分的复杂度和更高维的Laguerre展开。

三、这篇论文做了什么¶

三句话¶

研究了响应随机右删失下的线性分位数回归模型的半参数有效估计问题。
通过 Laguerre多项式对误差分布进行无限维参数化，构造了 Enriched Laplace 分布，使$\tau$分位数自动为0，从而将非参数估计问题转化为参数化MLE问题。
证明了所提估计量的一致性与渐近正态性，并推导了半参数效率界，模拟和真实数据分析表明在有限样本下优于Portnoy (2003)和Peng & Huang (2008)的方法。

关键设定与假设¶

记法 / 假设	含义	与已有文献的对比
$Y_i = X_i^\top \beta(\tau) + \varepsilon_i$	线性分位数回归模型	与Powell (1986)、Portnoy (2003)相同
$Q_\varepsilon(\tau	X) = 0$	误差第$\tau$条件分位数为0
$\varepsilon$连续且支撑$\mathbb{R}$	分布光滑，支撑全线	Pang & Huang假设连续但未要求支撑全线
$C \perp Y \mid X$（条件独立删失）	删失不依赖于未被观测的潜在$Y$在给定$X$后	比Wang & Wang (2009)假设更温和删失可以是$X$的函数，但不会是$Y$的函数
$P(C \ge X^\top \beta(\tau)) > 0$	在回归线上未完全删失	确保可识别性
$n \to \infty$，$p$固定	低维渐近	Belloni et al.处理高维场景
$\Theta_K$紧集，$K \to \infty$时$n^{-1}K \to 0$	Laguerre项数$K$随样本量增加但要慢，确保参数无限增长但收敛速率不高过样本$n$	这是关键的trade-off：$K$需足够大以逼近真实分布，但又不能太大以致$K/n$不趋于0，否则MLE会崩

主要结果¶

定理1（相合性与渐近正态性）：假设$K = K_n \to \infty$且$K_n = o(n^{1/2})$（随样本量增长但慢于$\sqrt{n}$），则所提估计量$\hat{\beta}_n$满足： - $\hat{\beta}_n \xrightarrow{p} \beta_0$（相合性） - $\sqrt{n} ( \hat{\beta}_n - \beta_0 ) \xrightarrow{d} N(0, \Sigma)$（渐近正态性），其中$\Sigma$为半参数效率界对应的Cramér-Rao型下界。 - 直觉：由于Enriched Laplace分布逼近真实误差分布的速度足够快（K增长够快），MLE衰减到参数化情形的速率（$\sqrt{n}$）而不会衰减到非参数的慢速。 - 技术难点：需处理$K$随$n$增长时的Donsker性质与熵条件。

定理2（半参数效率界）：在条件独立删失假设下，半参数效率界（即在所有正则半参数估计量的渐近方差下界）可显式给出为：

\[\text{EffBound}(\beta) = \frac{\tau (1-\tau)}{[f_\varepsilon(0|X)]^2} \cdot E[\tilde{X} \tilde{X}^\top]^{-1}\]

其中$\tilde{X} = X \cdot \frac{G(h(X^\top \beta_0))}{1 - F_\varepsilon(0|X)}$（$G$为删失时间$C$的生存函数），而$f_\varepsilon(0|X)$为误差在0处的条件密度。重要：该界与完全观测下（无删失）的分位数回归效率界在形式上类似，但多了一个删失依赖因子$G(h)/[1 - F_\varepsilon(0)]$。 - 直觉：删失增加了方差，因为观测到真实$Y$的概率减少。 - 实际意义：该界可数值计算，研究者可评估已有方法（如Portnoy / Peng-Huang）的效率损失程度。

模拟与实证： - 模拟设定：$n=200/500$，$\tau=0.25,0.50,0.75$，删失率20%–50%，真实误差分布为Normal/Logistic/Laplace。对比方法：Portnoy CRQ、Peng-Huang PHQ。 - 核心结果：本文方法在$\tau=0.50$（中位数）下RMSE比Portnoy低约15%–40%，比Peng-Huang低约5%–20%；在$\tau=0.25$、高删失率时差距扩大；在$\tau=0.75$下几乎所有方法性能接近，因删失主要在右侧，高删失率对高分位数影响巨大，但本文方法仍维持较小方差。 - 真实数据：COVID-19患者住院时长数据（$n = 3,874$，协变量：年龄、性别、基础病）。响应变量为住院天数，右删失率约为25%（部分患者尚未出院）。本文方法估计的中位数住院天数模型的系数与Portnoy接近但置信区间更窄（约窄20%–30%），直观验证效率提升。

证明路线与技术技巧（理论型必写）¶

整体路线（3-5步）：

** fundamental link**：将线性分位数回归模型与Enriched Laplace分布的MLE框架连接。写下完整似然函数$L_n(\beta, \theta) = \prod_{i=1}^n \left[ f_\theta(T_i - X_i^\top \beta) \right]^{\delta_i} \left[ S_\theta(T_i - X_i^\top \beta) \right]^{1-\delta_i}$，其中$f_\theta$为Enriched Laplace密度，$S_\theta$为其生存函数。
** profile 技术**：对固定的$\beta$，最大化$\theta$得到profile log-likelihood $\ell_n^{\text{prof}}(\beta) = \max_\theta \log L_n(\beta, \theta)$。由于$\theta$维数$K = K_n$增长得快于$n$的平方根，需控制此profile塑化（profile transformation）不会引起渐近偏差偏移。
** Donsker与熵条件**：验证$\ell_n^{\text{prof}}$满足随机函数的Donsker性质。利用Laguerre多项式的特殊结构——在$L^2$下有闭式导数——证明经验过程范数收敛以$\sqrt{n}$速率。
** 局部渐近二次展开**：在真实$(\beta_0, \theta_0)$附近，将profile似然函数展开成$\sqrt{n}(\beta - \beta_0)$的二次型，加上一个可渐近忽略的余项。这是标准半参数MLE做法。
** 推导效率界**：利用信息量算子（information operator）在分位数回归设定下的具体形式——这里关键依赖于Enriched Laplace分布下关于$\beta$与$\theta$的交叉信息（cross-information）为0。这使得$\beta$方向的效率界等于边际信息量的逆，进一步结合删失观测的Fisher信息形式即可得显式。

关键跳跃点： - 引理3.2（Laguerre多项式逼近连续密度的一致收敛率）：证明当$K \to \infty$时Enriched Laplace密度逼近真实密度的误差在$L^2$下为$O(K^{-1/2})$，且该界可以结合$K_n = o(n^{1/2})$条件保证MLE的$\sqrt{n}$速率不受损。证明利用了经典的Laguerre展开的Jackson-type估计与误差密度的光滑性。 - 引理4.1（profile似然的二阶展开的余项控制）：这是最复杂的部分，需要用到经验过程（empirical processes）中的uniform entropy bound与Glivenko-Cantelli类型结果。难点是$K$随时间增长，但$\theta$参数空间紧，可借助Laguerre多项式的代数性质（矩阵稀疏性）简化协方差算子。 - 效率界推导中的核心步骤：作者计算了关于$\beta$与$\theta$的得分函数，并发现利用了Enriched Laplace的“相位关系”——由于第$\tau$分位数被固定为0，$\beta$方向的得分与$\theta$方向在信息算子意义下正交（在参数化下正交，不一定在所有方向），这使得半参数效率界退化为参数类似情形，因而可以显式计算。

技术技巧点名： - 经验过程（Empirical process）：用于验证profile似然函数的随机收敛性。需要计算$L_2$熵，但利用了Laguerre基的正交性将复杂度参数化。 - 鞅理论（Martingale theory）用于删失似然：$L_n$可以表达成与Aalen–Johansen估计器中出现的计数过程类似的形式，这是删失数据文献的标准工具。 - U-统计量（高阶）：虽未直接用到，但在“profile似然”展开中涉及形如$\sum_i \delta_i \psi(T_i - X_i^\top \beta)$的求和，近似于一种U-统计量结构，但其变异性分析依赖鞅性质，不直接用U-统计量CLT。 - 正交多项式逼近理论：Laguerre多项式的核。（全文核心） - 信息算子与信息量计算（Information operator calculus）：用于效率界推导。

结论是否比证明窄：有；具体而言，定理2的效率界公式是在假设$K \to \infty$、$K_n = o(n^{1/2})$且固定$p$下证明的，但作者在结论中声称这是“删失线性分位数回归模型”的效率界。是否存在更一般的效率界适用于$p$随$n$增长或假设删失依赖于$X$更复杂场景？作者未加声明，但估计这些场景下效率界可能会改变（信息算子结构会变）。这说明断言的效率界是在当前的模型类型下当前的证明框架下严格，但不能直接迁移到任意删失分位数回归模型。另：效率界的推导依赖于条件独立删失，如果不是条件独立删失（比如$C$依赖于$Y$超过$X$），则结论需重新审视。作者在真实例子中假定条件独立，未作敏感度分析。

真实例子与应用¶

数据来源：美国医院COVID-19患者住院记录（公开的HHS数据集），$n = 3,874$，删失率约25%。
如何使用：建立模型$Q_{\text{住院天数}}(\tau | X) = X^\top \beta(\tau)$，$\tau = 0.5$（中位数住院时长）。协变量$X$包括年龄、性别（二元）、是否有慢性肝病、高血压、心脏病等5个基础病指示变量。
结果：本文方法估计年龄增长10岁≈住院天增加0.7天（95% CI [0.5, 1.0]），Portnoy估计为0.6天（CI [0.3, 1.2]），Peng-Huang估计0.8天（CI [0.4, 1.3]）。虽然点估计相近，但本文置信区间的宽度（0.5）比Portnoy（0.9）窄44%，比Peng-Huang（0.9）窄44%，验证效率提高。
目的：展示实际数据集中等效改进，同时验证模拟中效率优势推广到真实世界场景（since删失率与协变量结构不可控）。

四、开放问题（具体扎根于本文语句）¶

高维删失分位数回归的效率界：本文设定$p$固定，假设$K_n = o(n^{1/2})$。当$p$随$n$增长时（高维框架），效率界的推导是否仍然成立？需要的技术工具是否类似“高维半参数M-estimation”（如文献中的restricted eigenvalue条件、高维投影估计）？扎根点：定理陈述中明确“设p固定”；Conclusion部分提及“将方法扩展到高阶协变量和高维场景是未来方向”。
Laguerre项数$K$的选择准则：本文仅给出理论条件$K_n = o(n^{1/2})$，未给出数据自适应选择$K$的方法（如基于AIC/BIC交叉验证）。关于最优$K$的选择是否可归结为经典模型选择问题，是否可结合高阶U统计量背景下的“收缩复杂度”控制？扎根点：Section 5模拟部分只使用了固定$K=5$和$K=10$对比，未讨论自适应策略。
非条件独立删失（informative censoring）下的效率问题：本文的关键假设之一是$C \perp Y \mid X$。如果删失依赖于未被观测到的潜在$Y$（如删失取决于患者健康状况太差而提前死亡），该假设被违反，效率界的公式必然变化。是否有平行的“工具变量或代理变量删失”类似理论？扎根点：文中假设群“Condition 1: Independent censoring”。
计算复杂性：MLE中的似然包含Laguerre多项式的智能求和。当$K$或$p$较大时，计算组合数量指数增长。扎根点：作者没有讨论实现的计算复杂度；从计算统计意义上看，这是一个潜在的有意义的瓶颈。
效率界的可能性有多大（与高阶U-Statistics挂钩）：作者利用了Enriched Laplace的参数化，半参数效率界的表示依赖于误差密度$f_\varepsilon(0|X)$。这项可能有Hájek–Le Cam视角下的解释。扎根点：效率界公式（Theorem 2）明确写成了含有$f_\varepsilon(0|X)$的形式，证明中的信息算子计算可展示效率损失随删失的结构。是否存在基于更高阶（higher-order）U-统计量的信息损失闭式表达式？

Maintained by 陈星宇 · Homepage · Source on GitHub

记法 / 假设	含义	与已有文献的对比
\(Y_i = X_i^\top \beta(\tau) + \varepsilon_i\)	线性分位数回归模型	与Powell (1986)、Portnoy (2003)相同
$Q_\varepsilon(\tau	X) = 0$	误差第\(\tau\)条件分位数为0
\(\varepsilon\)连续且支撑\(\mathbb{R}\)	分布光滑，支撑全线	Pang & Huang假设连续但未要求支撑全线
\(C \perp Y \mid X\)（条件独立删失）	删失不依赖于未被观测的潜在\(Y\)在给定\(X\)后	比Wang & Wang (2009)假设更温和删失可以是\(X\)的函数，但不会是\(Y\)的函数
\(P(C \ge X^\top \beta(\tau)) > 0\)	在回归线上未完全删失	确保可识别性
\(n \to \infty\)，\(p\)固定	低维渐近	Belloni et al.处理高维场景
\(\Theta_K\)紧集，\(K \to \infty\)时\(n^{-1}K \to 0\)	Laguerre项数\(K\)随样本量增加但要慢，确保参数无限增长但收敛速率不高过样本\(n\)	这是关键的trade-off：\(K\)需足够大以逼近真实分布，但又不能太大以致\(K/n\)不趋于0，否则MLE会崩