Rectified Linear Unit Regression¶

作者: Tatsushi Oka
主题: 非参数 / 半参数
相关性: 8/10
链接: https://arxiv.org/abs/2605.30609

一、核心问题与贡献¶

①研究了如何在不依赖条件密度存在性及连续性假设的前提下，对离散/混合型结局变量的分布特征与分位数处理效应进行识别与推断。②核心工具是将 ReLU 变换后的结局变量对协变量做 \(L^2\) 投影得到积分条件分布函数的闭式估计，再通过 Legendre-Fenchel 变换（凸共轭）恢复积分条件分位数函数，并利用 Hadamard 方向可微映射的 delta method 处理推断。③主要贡献是提出了一个仅需有限矩与满秩假设的闭式半参数估计框架，实现了任意概率子区间上平均分位数处理效应（AQTE）的点识别与有效推断，统一了 ATE 与 QTE。

二、基础设定¶

核心概念与符号：
\(G_{Y|X}(y|x) = \int_{-\infty}^y F_{Y|X}(s|x)ds\)：积分条件分布函数。
\(G^*_{Y|X}(\tau|x) = \sup_{y} \{\tau y - G_{Y|X}(y|x)\}\)：积分条件分位数函数（凸共轭）。
\(\beta_0(y) = (E[XX^T])^{-1} E[X(y-Y)^+]\)：ReLU 回归系数。
\(\theta(\tau_\ell, \tau_u)\)：平均分位数处理效应（AQTE）。
关键假设：
A1：\(E[Y^2]<\infty\) 且 \(E[XX^T]\) 正定。含义：保证 \(L^2\) 最小距离问题解的唯一性与闭式表达。相比分位数回归要求条件密度存在且为正，此处极大放宽了分布假设。
A2：i.i.d. 抽样，\(Y_0\) 为紧集，\(E[Y^4]<\infty\)。含义：紧集保证经验过程的一致收敛，四阶矩保证渐近方差有限。
A3：潜在结果框架下随机化分配 \((Y(0),Y(1)) \perp W\)。含义：标准无混杂假设，保证 \(G_{Y(w)}\) 的非参数识别。
问题背景：传统分位数回归（QR）在离散结局下因条件密度不存在而失效，需 jittering 等修补；分布回归（DR）需迭代优化且推断复杂。本文针对 QR 在非连续分布下的理论缺陷，利用积分泛函平滑掉分布函数的跳跃与平坦区，通过凸结构绕开分位数函数的集合多值性。最相关文献是 Chernozhukov et al. (2020) 的离散分布推断与 Firpo (2007) 的 QTE 估计，本文将二者统一至 AQTE 框架并给出闭式解。

三、主要定理 / 核心结果¶

Proposition 1（凸对偶表征）：
原文陈述：\(G_{Y|X}(y|x) = E[(y-Y)^+|X=x]\) 且 \(G^*_{Y|X}(\tau|x) = \int_0^\tau F^{-1}_{Y|X}(u|x)du\)，次微分 \(\partial G^*_{Y|X}(\tau|x) = [F^{-1}_{Y|X}(\tau|x), F^{-1}_{Y|X}(\tau^+|x)]\)。
直观解释：ReLU 变换的期望天然是 CDF 的积分（凸函数），其凸共轭天然是分位数函数的积分。次微分在连续点退化为单点（分位数），在跳跃点包容了广义逆的区间。
技术难点：绕开了非连续分布下 \(F^{-1}\) 不唯一（集合多值）的点识别难题，积分操作使 Lebesgue 零测度上的任意选取不影响结果。
Theorem 1（一致渐近分布）：
原文陈述：\(\sqrt{n}(\hat{\beta}(\cdot) - \beta_0(\cdot)) \Rightarrow B(\cdot)\) 在 \(\ell^\infty(Y_0)\) 中，\(B\) 为高斯过程，协差阵 \(Q_X^{-1}\Sigma(y_1,y_2)Q_X^{-1}\)。
直观解释：闭式 OLS 估计量在紧集上收敛到异方差稳健的高斯过程，支持构造一致置信带。
局限：要求 \(Y_0\) 紧集，对尾部推断需额外矩截断；四阶矩假设在饱和模型（如 RCT）中可降至二阶。
Theorem 3（AQTE 极限分布）：
原文陈述：\(\sqrt{n}(\hat{\theta}(\tau_\ell,\tau_u) - \theta) \Rightarrow \frac{1}{\tau_u-\tau_\ell}\{(Z_1(\tau_u)-Z_1(\tau_\ell)) - (Z_0(\tau_u)-Z_0(\tau_\ell))\}\)，其中 \(Z_w(\tau) = \sup_{y \in \partial G^*_{Y(w)}(\tau)} \{-B_w(y)\}\)。
直观解释：极限分布是凸共轭方向导数作用于高斯过程的线性组合。在分位数连续处退化为正态分布，在跳跃处为高斯过程在次微分区间上的上确界（非正态）。

四、证明框架 / 方法设计¶

主干逻辑：经验过程理论 + 凸分析 + 方向可微 Delta method。
关键步骤：
闭式表达：将 \(\hat{\beta}(y)\) 写为 OLS 形式，分离出经验过程 \(\tilde{B}(y)\)。
Donsker 类论证：证明 \(f_y(X,Y) = X(y-Y)^+ - XX^T\beta_0(y)\) 构成 Donsker 类（利用 ReLU 的 1-Lipschitz 性质与紧指标集 \(Y_0\) 的有限覆盖数）。
凸对偶映射：对 \(\hat{G}\) 施加 Legendre-Fenchel 变换 \(L\)，证明 \(L\) 在 \(G\) 处沿 \(C(Y_0)\) 切空间 Hadamard 方向可微。
方向导数表征：利用次微分 \(\partial G^*\) 将方向导数 \(L'_G(h)(\tau)\) 表征为 \(\sup_{y \in \partial G^*(\tau)} \{-h(y)\}\)，进而得到 \(Z_w(\tau)\)。
最关键的跳跃点：将 Legendre-Fenchel 变换的 argmax 集与积分分位数函数的次微分 \(\partial G^*\) 等价起来（Prop 1(b)），从而把非光滑凸映射的方向导数转化为高斯过程在闭区间上的上确界，完美衔接了 Fang & Santos (2019) 的 delta method 与 Chernozhukov et al. (2013) 的 fattened argmax 推断。

五、问题发现：研究者能做什么¶

(A) 立即可做 1. 问题表述：计算 ReLU 回归估计量 \(\hat{\beta}(y)\) 在半参数模型 \(\{F_{Y|X}\}\) 下的 semiparametric efficiency bound，并验证其是否达到该 bound。 - 用到武器库：very_familiar 中的 estimation theory in causal inference 与 moderately_familiar 中的 semiparametric theory。 - 第一步具体动作：写出 AQTE 参数 \(\theta(\tau_\ell, \tau_u)\) 在无混杂假设下的 efficient influence function（参考 Firpo 2007 的 RIF 思路，但目标泛函变为积分分位数差），对比本文 OLS 闭式估计量的 influence function 是否与之一致。 - 与本文关系：补全。本文只给出了一致性与极限分布，未讨论估计量的有效性。若未达到 bound，则存在改进空间。 2. 问题表述：推导 ReLU 回归估计量在非参数协变量设定（如 \(X\) 替换为 series/sieve 逼近 \(h(V)\)）下的收敛速率，并给出 minimax lower bound。 - 用到武器库：very_familiar 中的 minimax bounds for estimation problems 与 nonparametric statistics。 - 第一步具体动作：在 \(G_{Y|V}(y|v)\) 属于某 Holder 空间的假设下，计算 series-based ReLU 回归的 \(L^2\) 收敛速率，并用 Fano's lemma 构造局部假设集推导 minimax lower bound，验证速率是否 sharp。 - 与本文关系：推广。本文仅考虑有限维线性设定，高维/非参数协变量下的 minimax 性质是空白。

(B) 中期可做 1. 缺哪一块：moderately_familiar 中的 HOIF (Higher-Order Influence Functions) 理论，特别是高阶偏差与 U-统计量计算。 - 补哪 1-2 篇文献：Robins et al. (2008) "Higher order influence functions and minimax estimation of nonlinear functionals"；或 Chen et al. (2020) 关于 HOIF 与 debiased machine learning 的工作。 - 补完之后能做什么：当协变量 \(V\) 维度较高时，第一步中的线性/series ReLU 回归可能产生严重偏差。可以构造 AQTE 的 HOIF debiased 估计量，通过计算高阶 U-统计量的 tensor contraction（调用 very_familiar 中的 computation of higher-order U-statistics / einsum）实现数值计算，达到部分 robustness 与更快偏差衰减。

(C) 暂不建议 1. 缺什么机器：对非连续分布下凸共轭方向导数极限分布（高斯过程上确界）的 精确数值特征化与快速模拟（涉及非标准极值分布的复杂 SDP/凸优化采样）。 - 为何不易绕过去：本文推断依赖 fattened argmax delta-method bootstrap，其极限分布 \(Z_w(\tau)\) 在次微分区间上取 sup，无闭式 CDF。要精确计算该分布的临界值或做规模放大，需对高斯过程在随机区间上的 sup 做大规模数值优化/采样，这超出了当前武器库的 einsum/treewidth 或经典半参数理论范畴。

值得精读的关键参考文献： 1. Fang & Santos (2019), "Inference on directionally differentiable functions"：本文推断核心引擎，必读以理解方向可微 delta method 与 bootstrap 一致性条件。 2. Firpo (2007), "Efficient semiparametric estimation of quantile treatment effects"：AQTE 的特例 QTE 的效率理论，连接 (A)1 档效率 bound 计算的起点。 3. Chernozhukov et al. (2020), "Generic inference on quantile and quantile effect functions for discrete outcomes"：本文最直接的竞争对手，对比其 DR+jittering 路径与本文 ReLU+凸对偶路径在离散结局下的优劣。

六、延伸思考与练习¶

假设扰动：若修改 A3(c) 的随机化假设为条件无混杂 \((Y(0),Y(1)) \perp W | V\) 且 \(V\) 为高维连续协变量，结论的识别仍成立（见 Appendix B），但估计需第一步非参数/series 回归。此时若再扰动 A1(b) 的满秩假设为 \(E[XX^T]\) 近似低秩（高维 \(p>n\)），则闭式 OLS 失效，需引入正则化（Lasso/RLasso）。正则化 ReLU 回归的凸对偶结构是否保留？Debiasing 后的 AQTE 推断是否仍可用方向可微 delta method？此问题落入 (B)1 档，需 HOIF/debiased ML 肌肉。
开放问题：如何将 ReLU 回归框架从二值处理 \(W\) 推广到连续/多值处理 \(D\)，定义连续处理下的积分条件分位数处理效应（ACQTE）？其凸对偶识别与推断是否需要新的方向可微分析？
理解检测题：设 \(Y|X=x\) 为 Bernoulli(0.5) 分布（纯离散）。写出 \(G_{Y|X}(y|x)\)、\(G^*_{Y|X}(\tau|x)\) 的显式表达式，并指出在 \(\tau=0.5\) 处 \(\partial G^*_{Y|X}(\tau|x)\) 的区间。问：此时 AQTE 估计量 \(\hat{\theta}(0.4, 0.6)\) 的极限分布中，\(Z_w(0.5)\) 是正态随机变量还是高斯过程的 sup？为什么？

Maintained by 陈星宇 · Homepage · Source on GitHub