Quantile regression with measurement errors¶
作者: Mushan Li, Yanyuan Ma, Liqun Wang
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2607.00188
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向要解决的根本问题是:当协变量含有经典测量误差时,如何对响应变量的条件分位数进行一致估计和推断。与均值回归不同,分位数回归的目标函数(check function)是非线性且非光滑的,这使得测量误差无法像在均值回归中那样通过简单的期望运算被“分离”或“校正”。因此,该方向的核心挑战在于,如何在保持分位数回归对异常值稳健、能刻画条件分布全局特征等优势的同时,克服测量误差带来的衰减偏倚(attenuation bias)和估计不一致性。当前,该方向的成熟度较低,尤其是在非线性分位数回归领域,几乎为空白。
发展脉络(history)¶
-
奠基工作:线性分位数回归与测量误差问题的提出
- Koenker and Bassett Jr [1978]:提出了分位数回归的基本框架,奠定了整个领域的基础。
- Fuller [2009], Carroll et al. [2006]:系统性地建立了测量误差模型的理论与方法,明确指出简单替代(naive substitution)会导致估计不一致。这些工作为后续研究提供了问题背景和标准假设(如经典测量误差模型)。
-
主要进展:线性分位数回归的测量误差校正
- He and Liang [2000]:提出了正交距离分位数回归(orthogonal distance quantile regression),但依赖于“模型误差与测量误差具有联合球对称分布”这一强假设,这实际上要求两者同分布,从而保证了可识别性。该方法的适用性有限。
- Wei and Carroll [2009]:提出了基于反卷积(deconvolution)的方法。作者在引言中指出,该方法“要求所有条件分位数都满足线性关系,即使只关心单个分位数水平”,这导致了“更严格的模型假设和繁重的数值计算”。这是该方向的一个重要但计算代价高昂的进展。
- Firpo et al. [2017]:同样使用反卷积程序恢复含误差协变量的条件密度,然后构建估计方程。作者指出,尽管该方法只关注一个分位数水平,但“由于涉及反卷积步骤,计算仍然繁重”。
- Wang et al. [2012]:提出了校正损失估计(Corrected-Loss Estimation, CLE),该方法“只要求在感兴趣的分位数处进行估计”,但“仅限于单变量含测量误差的协变量”。这是目前线性情形下最实用的方法之一,但受限于协变量维度。
- Guan and Wang [2017], Yang and Yang [2020]:使用工具变量(Instrumental Variable)方法来估计线性分位数回归模型,为处理内生性或非经典测量误差提供了另一条路径。
-
当前 Frontier 与本文的位置
- 作者在引言中明确指出:“据我们所知,目前还没有关于非线性分位数回归、且协变量(无论是单个还是多个)含有测量误差的工作。” 所有现有工作都局限于线性模型,且各自带有不同的限制性假设(如球对称误差、要求所有分位数线性、单变量协变量等)。
- 本文(Li, Ma, Wang)声称填补了这一空白,提出了首个针对一般(线性和非线性)分位数回归模型、在正态测量误差下的一致估计量。其核心创新在于,通过核平滑处理分位数目标函数的不连续性,并利用复域延拓(complex-domain extension) 和矩生成函数(moment generating function) 技巧来“抵消”测量误差,从而绕过了反卷积这一瓶颈。
子线索聚类¶
这些被引文献大致落在以下三条子线索上:
- 线索一:基于分布假设的方法。以 He and Liang [2000] 为代表,通过对误差分布施加强假设(如球对称)来保证可识别性。这类方法假设强,但计算相对简单。
- 线索二:基于反卷积的方法。以 Wei and Carroll [2009] 和 Firpo et al. [2017] 为代表。这类方法试图恢复含误差协变量的真实分布,但计算代价高,且通常需要额外的假设(如所有分位数线性)。
- 线索三:基于校正损失或工具变量的方法。以 Wang et al. [2012] 和 Guan and Wang [2017] 为代表。这类方法通过修改损失函数或引入额外变量来校正偏倚,通常更高效,但各有适用范围(如 CLE 限于单变量协变量,IV 方法需要有效工具变量)。
这个方向在追问的核心问题¶
- 如何在不依赖反卷积或强分布假设的前提下,对非线性分位数回归进行测量误差校正? 这是本文试图回答的核心问题。
- 如何将现有线性模型的方法推广到非线性模型? 非线性带来的技术困难(如估计函数的复杂形式)是主要瓶颈。
- 如何同时处理多个含测量误差的协变量? 现有方法(如 CLE)通常限于单变量情形。
- 如何在不要求所有分位数水平都满足同一模型的前提下,对单个分位数进行推断? 这是对 Wei and Carroll [2009] 方法的一个关键改进。
⚠️ 作者的 framing¶
- 作者把缺口 frame 成什么? 作者将缺口 frame 为“非线性分位数回归 + 测量误差”这一双重困难组合的空白。他们声称,线性分位数回归的测量误差问题已经很难,非线性分位数回归本身也很难,两者结合“加倍了问题的难度”。因此,他们的工作成为“显然的下一步”——一个能同时处理线性和非线性模型、且不依赖其他分位数水平假设的统一框架。
- 哪些竞争路线被他淡化或回避了?
- 工具变量方法:作者在引言中仅一笔带过 Guan and Wang [2017] 和 Yang and Yang [2020] 的工作,没有深入讨论其在非线性模型下的可能性或局限性。这可能是因为 IV 方法通常需要额外的可识别性假设,且与本文的“正态测量误差”设定不完全兼容。
- 非正态或非加性测量误差:作者在讨论部分(Section 5)承认,他们的方法“仅适用于正态加性测量误差”。他们引用了 Tsiatis and Ma [2004], Ma and Tsiatis [2006], Garcia and Ma [2017] 等处理更灵活误差结构的工作,但将其归为“未来研究方向”,从而淡化了本文方法在误差结构上的局限性。
- 什么明显该被引 / 该存在、却没出现在 intro 里?
- Hausman et al. [2021]:这篇论文在讨论部分被提及,研究的是“响应变量有正态加性误差时的分位数回归”。作者指出他们的方法也可用于此场景。但该文未被引入引言,可能是因为它关注的是响应变量误差而非协变量误差,属于一个略有不同的子问题。不过,将其作为相关或可扩展的工作在引言中提及,可能会使文献综述更完整。
- 关于“统计-计算权衡”的文献:本文的方法涉及复域延拓和数值积分(Gauss-Hermite quadrature),其计算复杂度与协变量维度相关。虽然本文没有讨论,但该方向(尤其是高维协变量情形)可能存在统计精度与计算可行性之间的权衡,这是研究者可以进一步探索的张力点。
张力¶
未见明显对立引用。现有工作主要在假设和适用范围上有所不同,但都承认测量误差会导致分位数回归估计不一致,且都致力于在特定条件下解决该问题。它们之间没有根本性的矛盾结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
Y:响应变量(可观测)。X:含有测量误差的协变量向量(潜在变量,不可观测)。Z:不含测量误差的协变量向量(可观测)。W:X的代理变量(可观测),满足W = X + Σ^{1/2} U。U:标准正态测量误差向量,U ~ N(0, I),且与(X, Z, ϵ)独立。Σ:测量误差的协方差矩阵(已知或可估计)。β:待估的回归系数向量(参数)。ϵ:模型误差,其τ条件分位数为 0,即Q_{ϵ|X,Z}(τ) = 0。τ:预先指定的分位数水平,τ ∈ (0, 1)。m(X, Z, β):τ条件分位数函数,即Q_{Y|X,Z}(τ) = m(X, Z, β)。ρ_τ(t):check 函数,ρ_τ(t) = I(t ≥ 0)τ t - I(t < 0)(1-τ)t。g_τ(t):ρ_τ(t)的“导数”(广义),包含 Dirac delta 函数。ψ(t):g_τ(t)的核平滑版本,ψ(t) = τ - 1 + K(t/h) + t k_h(t)。k(·):对称核函数(如高斯核),其复域延拓是解析的。K(·):k(·)的累积分布函数。h:带宽参数。V:一个独立于所有其他变量的标准正态随机向量,V ~ N(0, I),作为“抵消变量”(cancel variate)。√-1:虚数单位i。
-
模型:
- 分位数回归模型:
Y = m(X, Z, β) + ϵ,其中Q_{ϵ|X,Z}(τ) = 0。这意味着m(X, Z, β)是给定(X, Z)下Y的τ条件分位数。 - 经典测量误差模型:
W = X + Σ^{1/2} U,其中U ~ N(0, I)且独立于(X, Z, ϵ)。Σ是已知或可估计的。 - 模型假设:
m(X, Z, β)及其对β的导数m'_β(X, Z, β)的复域延拓在整个复平面上是解析的。
- 分位数回归模型:
-
可观测数据:
- 研究者实际能观测到的是独立同分布样本
(W_i, Z_i, Y_i),i = 1, ..., n。 - 不可观测的是真实的协变量
X_i和模型误差ϵ_i。X_i是想要但观测不到的潜在变量,只能通过其代理W_i和模型假设来推断。
- 研究者实际能观测到的是独立同分布样本
第二步:讲最小内核¶
本文的核心思路可以用一个最简特例来理解:线性分位数回归,单个协变量 X 含有测量误差,且 Σ = σ² 已知。
在这个特例下:
* 模型:Y = β₀ + β₁ X + ϵ,Q_{ϵ|X}(τ) = 0。
* 测量误差:W = X + σ U,U ~ N(0, 1)。
* 目标:估计 β = (β₀, β₁)。
核心困难:如果我们有 X,我们可以解 min_β Σ ρ_τ(Y_i - β₀ - β₁ X_i)。但 X_i 不可观测,只有 W_i。直接代入 W_i 会导致 β 的估计不一致(衰减偏倚)。
本文的关键想法(在特例下):
1. 平滑:分位数回归的“导数” g_τ(t) 在 t=0 处不连续。作者用核函数 k(·) 将其平滑为 ψ(t)。这样,ψ(t) 就是一个光滑函数,其复域延拓是解析的。这是后续所有操作的前提。
2. 复域抵消:作者引入一个独立的随机变量 V ~ N(0, 1),并考虑一个“复值”的协变量 W + √-1 σ V。注意,W + √-1 σ V = X + σ U + √-1 σ V。
3. 关键等式:对于任意解析函数 g(·),有:
E[ g(W + √-1 σ V) | X, Y ] = g(X)。
为什么?因为 U 和 V 是独立的标准正态变量。考虑 g 的泰勒展开,需要计算 E[(σ(U + √-1 V))^k]。由于 U + √-1 V 的矩生成函数是 M_{U+√-1 V}(t) = E[exp(t(U+√-1 V))] = exp(t²/2) * exp(-t²/2) = 1,其所有阶矩(k > 0)都为零。因此,展开式中所有包含 U 和 V 的项在取期望后都消失了,只剩下 g(X)。
这个特例下的估计步骤:
1. 构造一个“复值”的估计函数:S(Y, W, β) = E_V[ ψ(Y - β₀ - β₁(W + √-1 σ V)) * (-β₁) ]。这里 E_V 表示对 V 求期望。
2. 根据上面的关键等式,E[S(Y, W, β) | X, Y] = ψ(Y - β₀ - β₁ X) * (-β₁)。
3. 因此,E[S(Y, W, β)] = E[ψ(Y - β₀ - β₁ X) * (-β₁)]。而后者正是无测量误差时,基于平滑后“导数”的估计方程在总体上的期望。
4. 通过求解样本版本的估计方程 (1/n) Σ_i S(Y_i, W_i, β) = 0,可以得到 β 的一致估计。
总结:这个最小内核揭示了本文的核心数学操作:用核平滑解决分位数函数的不连续性,用复域延拓和矩生成函数技巧“抵消”正态测量误差。一般情形(非线性、多维协变量)只是将这个特例的线性函数 β₀ + β₁ X 替换为一般的 m(X, Z, β),并将标量 σ 替换为矩阵 Σ^{1/2},其核心思想完全一致。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在协变量含有经典正态测量误差的一般(线性和非线性)分位数回归模型中,如何对回归系数
β进行一致估计和推断。 - 核心工具 / 方法:通过核平滑处理分位数目标函数的不连续性,并利用复域延拓和矩生成函数技巧,构造了一个无偏的估计方程,从而绕过了反卷积步骤。
- 主要结论:在温和的正则条件下,所提估计量达到
√n一致性和渐近正态性,并且是首个针对一般分位数回归模型(含正态测量误差)的一致估计量。
关键设定与假设¶
- 设定:
Y = m(X, Z, β) + ϵ,Q_{ϵ|X,Z}(τ) = 0。W = X + Σ^{1/2} U,U ~ N(0, I)且独立于(X, Z, ϵ)。Σ已知或可通过重复测量估计。 - 关键假设:
- (C1) 唯一解:总体估计方程
E[S(Y, W, Z, β, Σ)] = 0在真值β的邻域内有唯一解。这是估计方程方法的标准可识别性条件。 - (C2) 紧参数空间:
β的参数空间B是紧集。用于证明一致性。 - (C3) 光滑性与非奇异性:
m(x, z, β)对β二阶可导;矩阵E[f_{ϵ|X,Z}(0, X, Z) m'_β(X, Z, β)^{⊗2}]非奇异(这是渐近方差中A矩阵的来源);E[||m'_β(X, Z, β)||²]有界。这些是标准正则条件,用于保证估计量的渐近正态性和方差有限。 - (C4) 条件密度光滑性:条件密度
f_{ϵ|X,Z}在ϵ=0处二阶可导。这是为了控制核平滑带来的偏倚。 - (C5) 核函数解析性:核函数
k(·)在实轴上对称正定,且其复域延拓在整个复平面上解析。这是复域延拓技巧能够成立的关键,因为需要取无穷阶导数。 - (C6) 带宽条件:
nh⁴ → 0且nh → ∞。前者保证渐近偏倚可忽略,后者保证方差收敛。这是半参数估计中核平滑的典型条件。
- (C1) 唯一解:总体估计方程
- 相比已有文献的放宽或强化:
- 放宽:相比 Wei and Carroll [2009],不要求所有分位数水平都满足线性关系;相比 He and Liang [2000],不要求误差的球对称分布;相比 Wang et al. [2012],不限于单变量含误差协变量。
- 强化:要求测量误差是正态的,且核函数必须是解析的。这是本文方法成立的核心代价。
主要结果¶
-
定理 2.1(Σ 已知):在条件 (C1)-(C6) 下,由估计方程 (2) 解出的
bβ_s是β的一致估计,且√n(bβ_s - β) → N(0, A^{-1} B_1 A^{-T})。- 直觉:
A矩阵是信息量的度量(类似于 Fisher 信息),B_1是估计函数的方差。渐近方差是典型的“三明治”形式。 - 必要条件:
nh⁴ → 0和nh → ∞确保了偏倚和方差都得到控制,从而√n收敛速率得以实现。 - 解决的技术难点:证明了核平滑和复域延拓后的估计函数
S(·)在总体期望上等于无测量误差时的平滑估计函数,且其渐近方差可计算。
- 直觉:
-
定理 2.2(Σ 未知):当
Σ未知,通过重复测量估计出bΣ后,将其代入估计方程得到的bβ仍然是一致且渐近正态的,但渐近方差中多了一项B_2,反映了估计Σ带来的额外不确定性。- 直觉:
B_2项是S(·)对Σ的敏感度与bΣ的渐近方差的乘积,这是两阶段估计的标准结果。
- 直觉:
证明路线与技术技巧¶
-
整体路线:
- 构造无偏估计函数:通过核平滑
ψ(·)和复域延拓W + √-1 Σ^{1/2} V,构造S(Y, W, Z, β, Σ)。证明E[S|X, Z, Y] = ψ(Y - m(X, Z, β)) m'_β(X, Z, β),从而E[S] = O(h²)(偏倚阶数)。 - 一致性证明:将求解估计方程视为一个 M-估计问题。利用一致大数定律证明目标函数
Q_n(β)一致收敛到Q_0(β),再结合参数空间的紧性和总体目标函数的唯一最大值点,得到bβ的一致性。 - 渐近正态性证明:对估计方程在真值
β处进行泰勒展开。证明(1/n) Σ ∂S/∂β^T依概率收敛到-A。证明(1/√n) Σ S(Y_i, W_i, Z_i, β, Σ)的方差收敛到B_1,且满足 Lyapunov 中心极限定理的条件。结合带宽条件nh⁴ → 0消除偏倚,得到√n(bβ - β) = A^{-1} * (1/√n) Σ S + o_p(1) → N(0, A^{-1} B_1 A^{-T})。 - 处理未知 Σ:将
bβ视为β和Σ的联合估计问题。对S(Y, W, Z, bβ, bΣ)进行关于β和Σ的双变量泰勒展开。利用bΣ的√n一致性和渐近正态性,以及S对Σ的导数,推导出bβ的渐近方差中包含了bΣ的贡献B_2。
- 构造无偏估计函数:通过核平滑
-
关键跳跃点:
- 证明
E[{Σ^{1/2}(U + √-1 V)}^s] = 0对所有|s| > 0成立。这是整个方法的核心。它依赖于U和V是独立标准正态变量这一事实,通过计算U + √-1 V的矩生成函数M(t) = exp(t²/2) * exp(-t²/2) = 1来证明。这个跳跃点在于,将看似复杂的复值随机变量的期望计算,转化为一个简洁的矩生成函数乘积问题。 - 控制核平滑的偏倚:证明
E[S(Y, W, Z, β, Σ)] = O(h²)。这需要精细的泰勒展开和积分计算,利用f_{ϵ|X,Z}在ϵ=0处的光滑性以及核函数的对称性,将偏倚项控制在h²阶。
- 证明
-
技术技巧点名:
- 复域延拓(Complex-domain extension):将实值函数
m(·)和ψ(·)扩展到复平面,引入虚数单位√-1和辅助随机变量V。这是“抵消”测量误差的核心技巧。 - 矩生成函数(Moment generating function):用于计算
U + √-1 V的矩,证明其所有非零阶矩为零。 - 核平滑(Kernel smoothing):用光滑函数
ψ(t)近似不连续的g_τ(t),使得复域延拓成为可能,并控制估计的偏倚和方差。 - M-估计理论(M-estimation theory):用于证明估计量的一致性和渐近正态性,特别是引用了 Newey and McFadden [1994] 的定理。
- 泰勒展开与 Delta 方法:用于推导渐近方差,尤其是在处理未知
Σ时,对S进行关于β和Σ的联合展开。
- 复域延拓(Complex-domain extension):将实值函数
真实例子与应用¶
- 数据:Kaggle 上的 2024 年日本樱花开花日期预测数据集。包含 903 个地点的观测数据。
- 场景:研究影响樱花开花等待时间(
Y)的因素。协变量包括:日平均温度(X₁,有测量误差)、花蕾生长速度(X₂,有测量误差)、日降水量(Z₁)、纬度(Z₂)、经度(Z₃)。 - 方法应用:
- 使用一个非线性分位数回归模型(
τ=0.5):Y = 100β₀ + β₁X₁ + 10β₂ log(X₂) + β₃Z₁ + β₄Z₂ + β₅Z₃ + ϵ。 - 通过插值法(对每个地点的时序数据拟合线性/泊松模型)来估计真实协变量
X₁, X₂和测量误差方差Σ。 - 应用本文提出的方法(使用二维 Gauss-Hermite 求积)和 Naive 方法进行估计。同时,将插值后的数据视为“无误差”数据,进行“误差自由”估计作为参照。
- 使用一个非线性分位数回归模型(
- 结果:
- 本文提出的方法和“误差自由”的插值法得到的估计值非常接近,而 Naive 方法则显著低估了日平均温度(
β₁)的效应。 - 所有方法都显示,温度、花蕾生长速度和降水量的增加会缩短等待时间,而纬度的增加会延长等待时间。经度的影响不显著。
- 本文提出的方法的标准差大于“误差自由”方法,这反映了测量误差带来的信息损失。
- 本文提出的方法和“误差自由”的插值法得到的估计值非常接近,而 Naive 方法则显著低估了日平均温度(
- 这个例子想说明什么:验证了本文方法在真实数据场景下的有效性,展示了其相对于 Naive 方法的优势,并说明了测量误差校正的必要性。
🔎 结论是否比证明窄¶
- 窄的方面:定理 2.1 和 2.2 的证明严格依赖于正态测量误差和核函数解析这两个假设。作者在讨论部分(Section 5)明确承认了这一点,并将其列为未来工作。因此,论文的结论(“首个一致估计量”)严格限于正态加性测量误差的设定。任何声称该方法适用于更一般误差结构的说法,都超出了本文证明的范围。
- 泛化的 claim:作者在摘要和引言中声称该方法适用于“一般分位数回归模型”,这包括线性和非线性。从证明来看,这确实成立,因为证明过程并未利用
m(·)的线性性质,只要求其复域延拓是解析的。因此,这个 claim 是成立的。
四、开放问题¶
- 非正态或非加性测量误差:本文方法严格依赖于正态测量误差假设。如何将复域延拓技巧或类似思想推广到非正态(如拉普拉斯、t分布)或非加性(如乘法误差)的测量误差结构?这扎根于论文 Section 5 的讨论:“How to incorporate more flexible measurement error structures while still bypassing the need to estimate the distribution of error-prone covariates is a challenging yet interesting future research topic.”
- 高维协变量与计算效率:本文的估计方程涉及对
V的期望,实践中通过 Gauss-Hermite 求积或 Monte Carlo 近似。当含误差协变量X的维度d较高时,求积点的数量会随d指数增长,导致“维度灾难”。如何在高维情形下实现计算可行且统计有效的估计?这是一个开放问题,论文未作讨论。 - 带宽选择的自动化与理论保证:论文在模拟和实例中使用了基于 SIMEX 的带宽选择程序(Algorithm 1),但该程序本身是启发式的,其理论性质(如是否达到最优收敛速率)未被证明。能否为本文的估计量设计一个具有理论保证的、数据驱动的带宽选择方法(如交叉验证的变体)?这扎根于论文 Appendix C 中描述的带宽选择程序。
- 与工具变量方法的结合:本文假设测量误差与
(X, Z, ϵ)独立。如果存在工具变量Z可以放松这个假设(如允许测量误差与ϵ相关),如何将本文的复域延拓技巧与工具变量方法结合,以处理更一般的内生性测量误差问题?这扎根于引言中提及的 Guan and Wang [2017] 和 Yang and Yang [2020] 的工作,但本文未将其作为主要路线。
Maintained by 陈星宇 · Homepage · Source on GitHub