Assumption-Lean Quantile Regression¶
作者: Georgi Baklicharov, Christophe Ley, Vanessa Gorasso, Brecht Devleesschauwer, Stijn Vansteelandt
来源: Statistica Sinica
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:当研究者使用分位数回归(QR)试图推断暴露变量对结果变量在不同分位数上的因果/关联效应时,如果所拟合的参数模型被误设(例如真实的条件分位数函数并非线性),或者协变量选择过程引入了额外的不确定性,传统的 QR 估计量将收敛到一个毫无意义的杂糅参数,且置信区间会严重失真。该方向当前已进入成熟期,主流思路是借鉴半参数效率理论中的“假设松弛”框架,将目标参数从参数模型的强假设中剥离出来,赋予其非参数/半参数的解释,并利用有效影响函数构建稳健估计。
发展脉络: - 奠基工作:Koenker & Bassett (1978) 提出分位数回归,开启了条件分位数建模的参数路线,但遗留了“模型一旦误设,估计量意义不明”的根本口子。 - 主要进展(假设松弛路线):在均值回归层面,Buja et al. (2019a, 2019b) 系统性地提出了“假设松弛”框架,证明在非参数模型下,线性回归系数可被映射为一个非参数主效应,即使线性模型误设,该主效应仍有明确的加权关联解释。Vansteelandt & Dukes (2022) 将此思路推进到因果推断,在部分线性均值模型中推导了有效影响函数,实现了数据自适应估计与稳健推断。 - 当前 frontier(分位数层面的假设松弛):分位数回归的假设松弛远比均值回归困难,因为条件分位数函数涉及不可微的指示函数,影响函数的推导与估计极其复杂。此前仅有 Wei et al. (2023) 尝试在部分线性分位数模型下做假设松弛推断,但作者在 intro 中明确指出其遗留口子:“Wei et al. (2023) did not address variable selection and data-adaptive estimation”,即未解决机器学习/变量选择带来的过度不确定性问题。 - 本文的位置:本文填补了 Wei et al. (2023) 留下的口子,将 Vansteelandt & Dukes (2022) 的部分线性均值模型思路完整迁移到分位数层面,推导了非参数主效应的有效影响函数,并首次在分位数假设松弛框架下解决了变量选择/数据自适应带来的推断失效问题。
子线索聚类: 1. 假设松弛与非参数主效应:Buja et al. (2019a, 2019b);Vansteelandt & Dukes (2022);本文。这一簇在做:打破参数模型的强假设,将回归系数重新定义为非参数模型下的投影/主效应,保证模型误设时目标参数仍有意义。 2. 分位数回归的稳健推断:Koenker & Bassett (1978)(参数奠基);Wei et al. (2023)(半参数尝试);本文。这一簇在做:解决 QR 特有的不可微性带来的影响函数推导困难,以及条件分位数估计的收敛率问题。 3. 数据自适应与变量选择后的有效推断:Belloni et al. (2019)(均值回归的 Post-selection 推断);本文。这一簇在做:当初始估计经过变量选择或机器学习筛选后,如何避免过度不确定性,保证最终推断的有效性。
这个方向在追问的核心问题: 1. 目标参数的识别与解释:当参数分位数模型误设时,估计量收敛到的那个极限,到底在非参数世界里代表什么统计/因果含义? 2. 半参数效率界的可达性:在包含不可微指示函数的分位数设定下,非参数主效应的有效影响函数是什么?能否构造出达到半参数效率界的估计量? 3. 数据自适应的推断保全:当干扰函数的估计使用了变量选择或机器学习时,如何避免这些算法的随机性吞噬掉目标参数的推断有效性?
⚠️ 作者的 framing(这是作者的说法): 作者将缺口 frame 为:现有的分位数假设松弛推断(特指 Wei et al. 2023)虽然给出了影响函数,但“did not address variable selection and data-adaptive estimation”,因此本文是“显然的下一步”——补上数据自适应这块拼图。 被淡化或回避的竞争路线:Intro 中未提及基于矩条件/GMM 的分位数稳健推断路线(如 Chernozhukov et al. 的相关工作),也未提及完全放弃参数化暴露效应、转向纯非参数分位数因果推断的路线。 明显该被引却未出现的:在分位数回归的半参数效率理论推导中,经典的打分函数与可微性讨论(如 Newey & McFadden 1994 的大样本理论)是绕不开的地基,Intro 未显式点名此基石;此外,处理变量选择后推断的交叉拟合思想源于 Chernozhukov et al. (2018) 的 Debiased ML,Intro 仅提了 Belloni et al. (2019),未提 DML 的核心文献,这是一条值得研究者去查的线索。
张力: 未见明显对立引用。Buja et al. (2019) 与 Wei et al. (2023) 在“参数模型误设时系数仍有意义”这一判断上是连贯的,分歧仅在于均值与分位数的技术实现难度。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(\beta\):感兴趣的暴露变量关联参数(目标参数)。
- \(\theta_0\):非参数主效应估计量,是 \(\beta\) 在非参数模型下的映射,即使参数模型误设,\(\theta_0\) 仍有明确解释。
- 随机变量 / 样本:
- \(A\):暴露变量(如体重指标)。
- \(Y\):结果变量(如医疗费用)。
- \(L\):协变量向量(如年龄、性别等)。
- \(O = (L, A, Y)\):可观测的联合数据,样本为 \(O_1, \dots, O_n\)。
- 维数 / 样本量等指标:
- \(n\):样本量。
- \(p\):协变量 \(L\) 的维数(可为高维)。
- \(\tau \in (0,1)\):感兴趣的分位数水平(如 \(\tau=0.5\) 对应中位数)。
- 潜在 / 不可观测量:
- \(Q_\tau(L, A) = \inf\{y: P(Y \le y \mid L, A) \ge \tau\}\):真实的条件分位数函数,它是不可观测的潜在结构,只能靠假设去识别与估计。
- \(g(L)\):协变量的非参数主效应函数,不可观测,需从数据中估计。
第二步:讲最小内核
剥掉所有高维、变量选择与一般分位数水平的包装,考虑最简特例:单一连续暴露变量 \(A\),单一协变量 \(L\),中位数 \(\tau=0.5\)。
在这个特例下,传统的参数分位数回归假设 \(Q_{0.5}(L, A) = \alpha + \beta A + \gamma L\)。如果这个线性模型是错的(真实函数可能是 \(Q_{0.5}(L, A) = f(L) + \beta A + h(A)L\)),传统估计量 \(\hat{\beta}_{QR}\) 收敛到的极限不是真实的暴露效应,而是模型误设下的杂糅投影。
本文的最小内核是:将 \(\beta\) 重新定义为一个非参数主效应 \(\theta_0\),使得即使线性假设错误,\(\theta_0\) 依然捕捉了 \(A\) 对 \(Y\) 在中位数上的加权平均关联。在最简特例下,这个映射的核心直觉是:
要证的命题退化成什么:证明存在一个估计量 \(\hat{\theta}\),它只依赖可观测数据 \(O\),不依赖线性模型的正确性,且 \(\sqrt{n}(\hat{\theta} - \theta_0)\) 收敛到正态分布。
证明怎么走(最小内核版): 1. 推导 \(\theta_0\) 在非参数模型下的有效影响函数(EIF)。在中位数下,EIF 包含一项指示函数 \(I(Y \le g(L) + \theta_0 A) - 0.5\),其中 \(g(L)\) 是 \(L\) 的非参数主效应。 2. 利用 EIF 构造一步估计量:\(\hat{\theta} = \theta_0^{init} + \frac{1}{n} \sum_{i=1}^n EIF(O_i; \hat{g}, \theta_0^{init})\)。 3. 为什么成立?因为 EIF 的构造保证了当干扰函数 \(\hat{g}\) 以快于 \(n^{-1/4}\) 的速率收敛时,一步估计量的二阶余项可被忽略,\(\hat{\theta}\) 达到半参数效率界。
三、这篇论文做了什么¶
三句话: ① 研究了分位数回归在模型误设与变量选择下推断失效的问题; ② 核心工具是将目标参数映射为非参数主效应,并推导其有效影响函数以构建一步估计量; ③ 主要结论是:在部分线性分位数设定下,该估计量在模型误设时仍一致且渐近正态,且能吸收数据自适应(变量选择/ML)带来的过度不确定性。
关键设定与假设: - 部分线性分位数模型:\(Q_\tau(L, A) = g(L) + \beta A\)。这里 \(g(L)\) 是完全非参数的函数,\(\beta\) 是参数化的暴露效应。相比传统 QR(假设 \(g(L)\) 为线性),大幅放宽了对协变量的限制;相比 Wei et al. (2023),本文进一步在估计 \(g(L)\) 时允许使用变量选择。 - 非参数主效应 \(\theta_0\) 的定义:\(\theta_0\) 是非参数模型下使得 \(E\left[ \left\{I(Y \le g(L) + \theta A) - \tau\right\} A \right] = 0\) 的解。统计含义:即使真实的 \(Q_\tau(L, A)\) 不是 \(g(L) + \theta_0 A\),\(\theta_0\) 依然捕捉了 \(A\) 对条件分位数偏离 \(\tau\) 的加权平均边际扰动。 - 核心假设(相比已有文献的强化): 1. \(g(L)\) 的初始估计 \(\hat{g}\) 必须以 \(o(n^{-1/4})\) 的速率收敛(这是半参数一步估计的标准要求,与 Vansteelandt & Dukes 2022 一致,但在分位数设定下实现此收敛率更难)。 2. 暴露变量 \(A\) 在给定 \(L\) 下的条件分布需满足一定的平滑性/有界性假设,以处理分位数指示函数的不可微性。
主要结果: - 定理(一致性与渐近正态性):在上述设定与收敛率假设下,基于 EIF 构造的一步估计量 \(\hat{\theta}\) 满足 \(\sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, V)\),其中 \(V\) 是非参数模型下的效率界。 - 直觉:EIF 将估计误差分解为指示函数的均值与干扰函数估计误差的乘积。由于 EIF 的构造使得目标参数的得分函数与干扰函数的得分函数正交,干扰函数的估计误差在一步更新中被“抵消”掉了一阶项,只剩下二阶余项,只要 \(\hat{g}\) 收敛够快,余项可忽略。 - 解决的技术难点:分位数指示函数 \(I(Y \le g(L) + \theta A)\) 对 \(\theta\) 和 \(g\) 都不可微,传统影响函数推导路径(直接对路径求导)失效。本文通过引入条件分布的平滑假设,将不可微的指示函数转化为条件概率的平滑函数,从而在期望下完成了求导与正交化。
证明路线与技术技巧: - 整体路线: 1. 目标参数映射:将参数模型下的 \(\beta\) 映射为非参数模型下的 \(\theta_0\),证明在部分线性模型正确时 \(\theta_0=\beta\),误设时 \(\theta_0\) 仍有明确解释。 2. EIF 推导:在非参数模型下,通过计算路径导数(或利用 Gateaux 导数),求得 \(\theta_0\) 的 EIF。此 EIF 必然包含不可微的指示函数。 3. 正交化拆解:将 EIF 拆解为目标参数部分与干扰函数部分,验证两者的正交性,确认二阶余项的形式。 4. 一步估计与收敛率分析:构造一步估计量,利用经验过程理论,证明在 \(\hat{g}\) 收敛率为 \(o(n^{-1/4})\) 时,经验过程的余项可控,渐近正态性成立。 - 关键跳跃点:从不可微的指示函数 \(I(Y \le g(L) + \theta A)\) 中提取出对 \(g\) 的“导数”。这是整篇证明最吃功夫的地方。因为指示函数跳变,直接求导为 0 或无穷,无法用于正交化。 - 技术技巧点名: - 平滑化替代:用 \(P(Y \le g(L) + \theta A \mid L, A)\) 替代 \(I(Y \le g(L) + \theta A)\) 在期望下求导,利用条件分布的平滑性绕过指示函数的不可微性。 - Neyman 正交性:在 EIF 的构造中,确保目标参数的梯度与干扰函数的梯度正交,使得干扰函数的估计误差不污染目标参数的一阶渐近分布。 - 经验过程理论:在证明一步估计量的余项收敛时,使用经验过程的不等式控制 \(\sup\) 距离,确保 \(\hat{g}\) 的收敛率条件足够支撑余项的 \(o_p(n^{-1/2})\) 要求。
真实例子与应用: - 用的什么数据 / 场景:比利时年度医疗费用与超重(BMI)的关联数据。医疗费用分布通常右偏严重,均值回归无法捕捉尾部特征,分位数回归是标准工具。 - 怎么把本文方法用上去:将 BMI 作为暴露变量 \(A\),人口学特征作为协变量 \(L\),医疗费用作为 \(Y\)。拟合部分线性分位数模型,在中位数与高分位数(如 \(\tau=0.75, 0.9\))处估计超重对医疗费用的非参数主效应 \(\theta_0\)。干扰函数 \(g(L)\) 使用数据自适应方法(含变量选择)估计。 - 得到什么结果:在传统 QR 下,变量选择后的置信区间异常狭窄(过度乐观);在本文的假设松弛估计下,置信区间宽度合理修正,且暴露效应的估计值在模型误设时依然稳定,不随变量选择算法的变动而剧烈震荡。 - 这个例子想说明什么:验证理论的核心承诺——假设松弛估计量在变量选择带来的过度不确定性下依然保全了推断的有效性,而传统 QR 在变量选择后推断失真。
🔎 结论是否比证明窄: 论文在定理陈述中严格要求 \(\hat{g}\) 的收敛率为 \(o(n^{-1/4})\),但在应用与模拟部分使用的数据自适应算法(如随机森林、Lasso)在一般条件下难以保证此收敛率。作者在正文中泛泛 claim 这些算法“在实践中表现良好”,但并未在理论上证明所用的特定 ML 算法在分位数干扰函数设定下确实达到 \(o(n^{-1/4})\)。这是一个典型的“条件 X 下严格证明,却被泛泛 claim 适用”的跳跃,研究者需注意定理假设与实际算法的缺口。
四、开放问题(点到为止)¶
- 干扰函数收敛率的硬约束能否放松? 定理要求 \(\hat{g}\) 收敛率为 \(o(n^{-1/4})\),但在高维或复杂 ML 算法下此条件常不满足。能否通过 Higher-Order Influence Functions (HOIF) 将收敛率要求放松至 \(o(n^{-1/2k})\)(\(k\) 为影响函数阶数)?扎根点:定理的收敛率假设与第 5 节模拟中 ML 算法的无保证缺口。
- 分位数不可微性的平均-case 处理是否完备? 本文通过条件分布平滑假设绕过指示函数的不可微性,但在离散或混合型 \(Y\)(如医疗费用中大量的零值)下,条件分布不可微,此时 EIF 的推导是否依然成立?扎根点:第 3 节 EIF 推导中的平滑性假设。
- 能否将此假设松弛框架迁移到 Proximal Causal Inference? 在 Proximal CI 中,负对照变量替代未观测混杂,若在部分线性分位数 Proximal 模型下推导 EIF,是否会遇到类似的不可微指示函数困难?扎根点:Intro 中对 Vansteelandt & Dukes (2022) 均值模型因果推断的引用,以及本文未触及的因果识别设定。
提醒:要确认第 1 条是否真 gap,去读近 5 篇 HOIF 与分位数半参数估计的 intro——若都指向收敛率硬约束的放松,则为共识真 gap;若互相打架(如有人认为 \(n^{-1/4}\) 在实践中足够),则为机会。
Maintained by 陈星宇 · Homepage · Source on GitHub