Quantile regression with measurement errors¶

作者: Mushan Li, Yanyuan Ma, Liqun Wang
主题: 因果推断
相关性: 6/10
链接: https://arxiv.org/abs/2607.00188

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：当协变量含有经典测量误差时，如何对响应变量的条件分位数进行一致估计和推断。与均值回归不同，分位数回归的目标函数（check function）是非线性且非光滑的，这使得测量误差无法像在均值回归中那样通过简单的期望运算被“分离”或“校正”。因此，该方向的核心挑战在于，如何在保持分位数回归对异常值稳健、能刻画条件分布全局特征等优势的同时，克服测量误差带来的衰减偏倚（attenuation bias）和估计不一致性。当前，该方向的成熟度较低，尤其是在非线性分位数回归领域，几乎为空白。

发展脉络（history）¶

奠基工作：线性分位数回归与测量误差问题的提出
- Koenker and Bassett Jr [1978]：提出了分位数回归的基本框架，奠定了整个领域的基础。
- Fuller [2009], Carroll et al. [2006]：系统性地建立了测量误差模型的理论与方法，明确指出简单替代（naive substitution）会导致估计不一致。这些工作为后续研究提供了问题背景和标准假设（如经典测量误差模型）。
主要进展：线性分位数回归的测量误差校正
- He and Liang [2000]：提出了正交距离分位数回归（orthogonal distance quantile regression），但依赖于“模型误差与测量误差具有联合球对称分布”这一强假设，这实际上要求两者同分布，从而保证了可识别性。该方法的适用性有限。
- Wei and Carroll [2009]：提出了基于反卷积（deconvolution）的方法。作者在引言中指出，该方法“要求所有条件分位数都满足线性关系，即使只关心单个分位数水平”，这导致了“更严格的模型假设和繁重的数值计算”。这是该方向的一个重要但计算代价高昂的进展。
- Firpo et al. [2017]：同样使用反卷积程序恢复含误差协变量的条件密度，然后构建估计方程。作者指出，尽管该方法只关注一个分位数水平，但“由于涉及反卷积步骤，计算仍然繁重”。
- Wang et al. [2012]：提出了校正损失估计（Corrected-Loss Estimation, CLE），该方法“只要求在感兴趣的分位数处进行估计”，但“仅限于单变量含测量误差的协变量”。这是目前线性情形下最实用的方法之一，但受限于协变量维度。
- Guan and Wang [2017], Yang and Yang [2020]：使用工具变量（Instrumental Variable）方法来估计线性分位数回归模型，为处理内生性或非经典测量误差提供了另一条路径。
当前 Frontier 与本文的位置
- 作者在引言中明确指出：“据我们所知，目前还没有关于非线性分位数回归、且协变量（无论是单个还是多个）含有测量误差的工作。” 所有现有工作都局限于线性模型，且各自带有不同的限制性假设（如球对称误差、要求所有分位数线性、单变量协变量等）。
- 本文（Li, Ma, Wang）声称填补了这一空白，提出了首个针对一般（线性和非线性）分位数回归模型、在正态测量误差下的一致估计量。其核心创新在于，通过核平滑处理分位数目标函数的不连续性，并利用复域延拓（complex-domain extension） 和矩生成函数（moment generating function） 技巧来“抵消”测量误差，从而绕过了反卷积这一瓶颈。

子线索聚类¶

这些被引文献大致落在以下三条子线索上：

线索一：基于分布假设的方法。以 He and Liang [2000] 为代表，通过对误差分布施加强假设（如球对称）来保证可识别性。这类方法假设强，但计算相对简单。
线索二：基于反卷积的方法。以 Wei and Carroll [2009] 和 Firpo et al. [2017] 为代表。这类方法试图恢复含误差协变量的真实分布，但计算代价高，且通常需要额外的假设（如所有分位数线性）。
线索三：基于校正损失或工具变量的方法。以 Wang et al. [2012] 和 Guan and Wang [2017] 为代表。这类方法通过修改损失函数或引入额外变量来校正偏倚，通常更高效，但各有适用范围（如 CLE 限于单变量协变量，IV 方法需要有效工具变量）。

这个方向在追问的核心问题¶

如何在不依赖反卷积或强分布假设的前提下，对非线性分位数回归进行测量误差校正？ 这是本文试图回答的核心问题。
如何将现有线性模型的方法推广到非线性模型？ 非线性带来的技术困难（如估计函数的复杂形式）是主要瓶颈。
如何同时处理多个含测量误差的协变量？ 现有方法（如 CLE）通常限于单变量情形。
如何在不要求所有分位数水平都满足同一模型的前提下，对单个分位数进行推断？ 这是对 Wei and Carroll [2009] 方法的一个关键改进。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么？ 作者将缺口 frame 为“非线性分位数回归 + 测量误差”这一双重困难组合的空白。他们声称，线性分位数回归的测量误差问题已经很难，非线性分位数回归本身也很难，两者结合“加倍了问题的难度”。因此，他们的工作成为“显然的下一步”——一个能同时处理线性和非线性模型、且不依赖其他分位数水平假设的统一框架。
哪些竞争路线被他淡化或回避了？
- 工具变量方法：作者在引言中仅一笔带过 Guan and Wang [2017] 和 Yang and Yang [2020] 的工作，没有深入讨论其在非线性模型下的可能性或局限性。这可能是因为 IV 方法通常需要额外的可识别性假设，且与本文的“正态测量误差”设定不完全兼容。
- 非正态或非加性测量误差：作者在讨论部分（Section 5）承认，他们的方法“仅适用于正态加性测量误差”。他们引用了 Tsiatis and Ma [2004], Ma and Tsiatis [2006], Garcia and Ma [2017] 等处理更灵活误差结构的工作，但将其归为“未来研究方向”，从而淡化了本文方法在误差结构上的局限性。
什么明显该被引 / 该存在、却没出现在 intro 里？
- Hausman et al. [2021]：这篇论文在讨论部分被提及，研究的是“响应变量有正态加性误差时的分位数回归”。作者指出他们的方法也可用于此场景。但该文未被引入引言，可能是因为它关注的是响应变量误差而非协变量误差，属于一个略有不同的子问题。不过，将其作为相关或可扩展的工作在引言中提及，可能会使文献综述更完整。
- 关于“统计-计算权衡”的文献：本文的方法涉及复域延拓和数值积分（Gauss-Hermite quadrature），其计算复杂度与协变量维度相关。虽然本文没有讨论，但该方向（尤其是高维协变量情形）可能存在统计精度与计算可行性之间的权衡，这是研究者可以进一步探索的张力点。

张力¶

未见明显对立引用。现有工作主要在假设和适用范围上有所不同，但都承认测量误差会导致分位数回归估计不一致，且都致力于在特定条件下解决该问题。它们之间没有根本性的矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Y：响应变量（可观测）。
- X：含有测量误差的协变量向量（潜在变量，不可观测）。
- Z：不含测量误差的协变量向量（可观测）。
- W：X 的代理变量（可观测），满足 W = X + Σ^{1/2} U。
- U：标准正态测量误差向量，U ~ N(0, I)，且与 (X, Z, ϵ) 独立。
- Σ：测量误差的协方差矩阵（已知或可估计）。
- β：待估的回归系数向量（参数）。
- ϵ：模型误差，其 τ 条件分位数为 0，即 Q_{ϵ|X,Z}(τ) = 0。
- τ：预先指定的分位数水平，τ ∈ (0, 1)。
- m(X, Z, β)：τ 条件分位数函数，即 Q_{Y|X,Z}(τ) = m(X, Z, β)。
- ρ_τ(t)：check 函数，ρ_τ(t) = I(t ≥ 0)τ t - I(t < 0)(1-τ)t。
- g_τ(t)：ρ_τ(t) 的“导数”（广义），包含 Dirac delta 函数。
- ψ(t)：g_τ(t) 的核平滑版本，ψ(t) = τ - 1 + K(t/h) + t k_h(t)。
- k(·)：对称核函数（如高斯核），其复域延拓是解析的。
- K(·)：k(·) 的累积分布函数。
- h：带宽参数。
- V：一个独立于所有其他变量的标准正态随机向量，V ~ N(0, I)，作为“抵消变量”（cancel variate）。
- √-1：虚数单位 i。
模型：
- 分位数回归模型：Y = m(X, Z, β) + ϵ，其中 Q_{ϵ|X,Z}(τ) = 0。这意味着 m(X, Z, β) 是给定 (X, Z) 下 Y 的 τ 条件分位数。
- 经典测量误差模型：W = X + Σ^{1/2} U，其中 U ~ N(0, I) 且独立于 (X, Z, ϵ)。Σ 是已知或可估计的。
- 模型假设：m(X, Z, β) 及其对 β 的导数 m'_β(X, Z, β) 的复域延拓在整个复平面上是解析的。
可观测数据：
- 研究者实际能观测到的是独立同分布样本 (W_i, Z_i, Y_i)，i = 1, ..., n。
- 不可观测的是真实的协变量 X_i 和模型误差 ϵ_i。X_i 是想要但观测不到的潜在变量，只能通过其代理 W_i 和模型假设来推断。

第二步：讲最小内核¶

本文的核心思路可以用一个最简特例来理解：线性分位数回归，单个协变量 X 含有测量误差，且 Σ = σ² 已知。

在这个特例下： * 模型：Y = β₀ + β₁ X + ϵ，Q_{ϵ|X}(τ) = 0。 * 测量误差：W = X + σ U，U ~ N(0, 1)。 * 目标：估计 β = (β₀, β₁)。

核心困难：如果我们有 X，我们可以解 min_β Σ ρ_τ(Y_i - β₀ - β₁ X_i)。但 X_i 不可观测，只有 W_i。直接代入 W_i 会导致 β 的估计不一致（衰减偏倚）。

本文的关键想法（在特例下）： 1. 平滑：分位数回归的“导数” g_τ(t) 在 t=0 处不连续。作者用核函数 k(·) 将其平滑为 ψ(t)。这样，ψ(t) 就是一个光滑函数，其复域延拓是解析的。这是后续所有操作的前提。 2. 复域抵消：作者引入一个独立的随机变量 V ~ N(0, 1)，并考虑一个“复值”的协变量 W + √-1 σ V。注意，W + √-1 σ V = X + σ U + √-1 σ V。 3. 关键等式：对于任意解析函数 g(·)，有： E[ g(W + √-1 σ V) | X, Y ] = g(X)。为什么？因为 U 和 V 是独立的标准正态变量。考虑 g 的泰勒展开，需要计算 E[(σ(U + √-1 V))^k]。由于 U + √-1 V 的矩生成函数是 M_{U+√-1 V}(t) = E[exp(t(U+√-1 V))] = exp(t²/2) * exp(-t²/2) = 1，其所有阶矩（k > 0）都为零。因此，展开式中所有包含 U 和 V 的项在取期望后都消失了，只剩下 g(X)。

这个特例下的估计步骤： 1. 构造一个“复值”的估计函数：S(Y, W, β) = E_V[ ψ(Y - β₀ - β₁(W + √-1 σ V)) * (-β₁) ]。这里 E_V 表示对 V 求期望。 2. 根据上面的关键等式，E[S(Y, W, β) | X, Y] = ψ(Y - β₀ - β₁ X) * (-β₁)。 3. 因此，E[S(Y, W, β)] = E[ψ(Y - β₀ - β₁ X) * (-β₁)]。而后者正是无测量误差时，基于平滑后“导数”的估计方程在总体上的期望。 4. 通过求解样本版本的估计方程 (1/n) Σ_i S(Y_i, W_i, β) = 0，可以得到 β 的一致估计。

总结：这个最小内核揭示了本文的核心数学操作：用核平滑解决分位数函数的不连续性，用复域延拓和矩生成函数技巧“抵消”正态测量误差。一般情形（非线性、多维协变量）只是将这个特例的线性函数 β₀ + β₁ X 替换为一般的 m(X, Z, β)，并将标量 σ 替换为矩阵 Σ^{1/2}，其核心思想完全一致。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在协变量含有经典正态测量误差的一般（线性和非线性）分位数回归模型中，如何对回归系数 β 进行一致估计和推断。
核心工具 / 方法：通过核平滑处理分位数目标函数的不连续性，并利用复域延拓和矩生成函数技巧，构造了一个无偏的估计方程，从而绕过了反卷积步骤。
主要结论：在温和的正则条件下，所提估计量达到 √n 一致性和渐近正态性，并且是首个针对一般分位数回归模型（含正态测量误差）的一致估计量。

关键设定与假设¶

设定：Y = m(X, Z, β) + ϵ，Q_{ϵ|X,Z}(τ) = 0。W = X + Σ^{1/2} U，U ~ N(0, I) 且独立于 (X, Z, ϵ)。Σ 已知或可通过重复测量估计。
关键假设：
- (C1) 唯一解：总体估计方程 E[S(Y, W, Z, β, Σ)] = 0 在真值 β 的邻域内有唯一解。这是估计方程方法的标准可识别性条件。
- (C2) 紧参数空间：β 的参数空间 B 是紧集。用于证明一致性。
- (C3) 光滑性与非奇异性：m(x, z, β) 对 β 二阶可导；矩阵 E[f_{ϵ|X,Z}(0, X, Z) m'_β(X, Z, β)^{⊗2}] 非奇异（这是渐近方差中 A 矩阵的来源）；E[||m'_β(X, Z, β)||²] 有界。这些是标准正则条件，用于保证估计量的渐近正态性和方差有限。
- (C4) 条件密度光滑性：条件密度 f_{ϵ|X,Z} 在 ϵ=0 处二阶可导。这是为了控制核平滑带来的偏倚。
- (C5) 核函数解析性：核函数 k(·) 在实轴上对称正定，且其复域延拓在整个复平面上解析。这是复域延拓技巧能够成立的关键，因为需要取无穷阶导数。
- (C6) 带宽条件：nh⁴ → 0 且 nh → ∞。前者保证渐近偏倚可忽略，后者保证方差收敛。这是半参数估计中核平滑的典型条件。
相比已有文献的放宽或强化：
- 放宽：相比 Wei and Carroll [2009]，不要求所有分位数水平都满足线性关系；相比 He and Liang [2000]，不要求误差的球对称分布；相比 Wang et al. [2012]，不限于单变量含误差协变量。
- 强化：要求测量误差是正态的，且核函数必须是解析的。这是本文方法成立的核心代价。

主要结果¶

定理 2.1（Σ 已知）：在条件 (C1)-(C6) 下，由估计方程 (2) 解出的 bβ_s 是 β 的一致估计，且 √n(bβ_s - β) → N(0, A^{-1} B_1 A^{-T})。
- 直觉：A 矩阵是信息量的度量（类似于 Fisher 信息），B_1 是估计函数的方差。渐近方差是典型的“三明治”形式。
- 必要条件：nh⁴ → 0 和 nh → ∞ 确保了偏倚和方差都得到控制，从而 √n 收敛速率得以实现。
- 解决的技术难点：证明了核平滑和复域延拓后的估计函数 S(·) 在总体期望上等于无测量误差时的平滑估计函数，且其渐近方差可计算。
定理 2.2（Σ 未知）：当 Σ 未知，通过重复测量估计出 bΣ 后，将其代入估计方程得到的 bβ 仍然是一致且渐近正态的，但渐近方差中多了一项 B_2，反映了估计 Σ 带来的额外不确定性。
- 直觉：B_2 项是 S(·) 对 Σ 的敏感度与 bΣ 的渐近方差的乘积，这是两阶段估计的标准结果。

证明路线与技术技巧¶

整体路线：
1. 构造无偏估计函数：通过核平滑 ψ(·) 和复域延拓 W + √-1 Σ^{1/2} V，构造 S(Y, W, Z, β, Σ)。证明 E[S|X, Z, Y] = ψ(Y - m(X, Z, β)) m'_β(X, Z, β)，从而 E[S] = O(h²)（偏倚阶数）。
2. 一致性证明：将求解估计方程视为一个 M-估计问题。利用一致大数定律证明目标函数 Q_n(β) 一致收敛到 Q_0(β)，再结合参数空间的紧性和总体目标函数的唯一最大值点，得到 bβ 的一致性。
3. 渐近正态性证明：对估计方程在真值 β 处进行泰勒展开。证明 (1/n) Σ ∂S/∂β^T 依概率收敛到 -A。证明 (1/√n) Σ S(Y_i, W_i, Z_i, β, Σ) 的方差收敛到 B_1，且满足 Lyapunov 中心极限定理的条件。结合带宽条件 nh⁴ → 0 消除偏倚，得到 √n(bβ - β) = A^{-1} * (1/√n) Σ S + o_p(1) → N(0, A^{-1} B_1 A^{-T})。
4. 处理未知 Σ：将 bβ 视为 β 和 Σ 的联合估计问题。对 S(Y, W, Z, bβ, bΣ) 进行关于 β 和 Σ 的双变量泰勒展开。利用 bΣ 的 √n 一致性和渐近正态性，以及 S 对 Σ 的导数，推导出 bβ 的渐近方差中包含了 bΣ 的贡献 B_2。
关键跳跃点：
- 证明 E[{Σ^{1/2}(U + √-1 V)}^s] = 0 对所有 |s| > 0 成立。这是整个方法的核心。它依赖于 U 和 V 是独立标准正态变量这一事实，通过计算 U + √-1 V 的矩生成函数 M(t) = exp(t²/2) * exp(-t²/2) = 1 来证明。这个跳跃点在于，将看似复杂的复值随机变量的期望计算，转化为一个简洁的矩生成函数乘积问题。
- 控制核平滑的偏倚：证明 E[S(Y, W, Z, β, Σ)] = O(h²)。这需要精细的泰勒展开和积分计算，利用 f_{ϵ|X,Z} 在 ϵ=0 处的光滑性以及核函数的对称性，将偏倚项控制在 h² 阶。
技术技巧点名：
- 复域延拓（Complex-domain extension）：将实值函数 m(·) 和 ψ(·) 扩展到复平面，引入虚数单位 √-1 和辅助随机变量 V。这是“抵消”测量误差的核心技巧。
- 矩生成函数（Moment generating function）：用于计算 U + √-1 V 的矩，证明其所有非零阶矩为零。
- 核平滑（Kernel smoothing）：用光滑函数 ψ(t) 近似不连续的 g_τ(t)，使得复域延拓成为可能，并控制估计的偏倚和方差。
- M-估计理论（M-estimation theory）：用于证明估计量的一致性和渐近正态性，特别是引用了 Newey and McFadden [1994] 的定理。
- 泰勒展开与 Delta 方法：用于推导渐近方差，尤其是在处理未知 Σ 时，对 S 进行关于 β 和 Σ 的联合展开。

真实例子与应用¶

数据：Kaggle 上的 2024 年日本樱花开花日期预测数据集。包含 903 个地点的观测数据。
场景：研究影响樱花开花等待时间（Y）的因素。协变量包括：日平均温度（X₁，有测量误差）、花蕾生长速度（X₂，有测量误差）、日降水量（Z₁）、纬度（Z₂）、经度（Z₃）。
方法应用：
1. 使用一个非线性分位数回归模型（τ=0.5）：Y = 100β₀ + β₁X₁ + 10β₂ log(X₂) + β₃Z₁ + β₄Z₂ + β₅Z₃ + ϵ。
2. 通过插值法（对每个地点的时序数据拟合线性/泊松模型）来估计真实协变量 X₁, X₂ 和测量误差方差 Σ。
3. 应用本文提出的方法（使用二维 Gauss-Hermite 求积）和 Naive 方法进行估计。同时，将插值后的数据视为“无误差”数据，进行“误差自由”估计作为参照。
结果：
- 本文提出的方法和“误差自由”的插值法得到的估计值非常接近，而 Naive 方法则显著低估了日平均温度（β₁）的效应。
- 所有方法都显示，温度、花蕾生长速度和降水量的增加会缩短等待时间，而纬度的增加会延长等待时间。经度的影响不显著。
- 本文提出的方法的标准差大于“误差自由”方法，这反映了测量误差带来的信息损失。
这个例子想说明什么：验证了本文方法在真实数据场景下的有效性，展示了其相对于 Naive 方法的优势，并说明了测量误差校正的必要性。

🔎 结论是否比证明窄¶

窄的方面：定理 2.1 和 2.2 的证明严格依赖于正态测量误差和核函数解析这两个假设。作者在讨论部分（Section 5）明确承认了这一点，并将其列为未来工作。因此，论文的结论（“首个一致估计量”）严格限于正态加性测量误差的设定。任何声称该方法适用于更一般误差结构的说法，都超出了本文证明的范围。
泛化的 claim：作者在摘要和引言中声称该方法适用于“一般分位数回归模型”，这包括线性和非线性。从证明来看，这确实成立，因为证明过程并未利用 m(·) 的线性性质，只要求其复域延拓是解析的。因此，这个 claim 是成立的。

四、开放问题¶

非正态或非加性测量误差：本文方法严格依赖于正态测量误差假设。如何将复域延拓技巧或类似思想推广到非正态（如拉普拉斯、t分布）或非加性（如乘法误差）的测量误差结构？这扎根于论文 Section 5 的讨论：“How to incorporate more flexible measurement error structures while still bypassing the need to estimate the distribution of error-prone covariates is a challenging yet interesting future research topic.”
高维协变量与计算效率：本文的估计方程涉及对 V 的期望，实践中通过 Gauss-Hermite 求积或 Monte Carlo 近似。当含误差协变量 X 的维度 d 较高时，求积点的数量会随 d 指数增长，导致“维度灾难”。如何在高维情形下实现计算可行且统计有效的估计？这是一个开放问题，论文未作讨论。
带宽选择的自动化与理论保证：论文在模拟和实例中使用了基于 SIMEX 的带宽选择程序（Algorithm 1），但该程序本身是启发式的，其理论性质（如是否达到最优收敛速率）未被证明。能否为本文的估计量设计一个具有理论保证的、数据驱动的带宽选择方法（如交叉验证的变体）？这扎根于论文 Appendix C 中描述的带宽选择程序。
与工具变量方法的结合：本文假设测量误差与 (X, Z, ϵ) 独立。如果存在工具变量 Z 可以放松这个假设（如允许测量误差与 ϵ 相关），如何将本文的复域延拓技巧与工具变量方法结合，以处理更一般的内生性测量误差问题？这扎根于引言中提及的 Guan and Wang [2017] 和 Yang and Yang [2020] 的工作，但本文未将其作为主要路线。

Maintained by 陈星宇 · Homepage · Source on GitHub