跳转至

Regularity, Phase Transitions, and Uniform Inference for Proximal Counterfactual Quantile Processes

作者: Pengyun Wang
主题: 因果推断
相关性: 10/10
链接: https://arxiv.org/abs/2605.09257


核心问题与动机

本文旨在解决存在未测量混杂时,基于近端负控制代理变量的反事实分布、分位数及下尾风险过程的半参数推断问题。问题的重要性在于:分布因果效应比均值效应包含更丰富的信息;而已有方法的根本不足在于,仅将结果变量替换为 $1{Y \le y}$ 的逐点方法无法揭示逆问题的正则性边界,无法给出 CDF 过程的有效协方差核,无法提供免密度估计的同时分位数置信带,更无法量化弱代理如何破坏 $\sqrt{n}$ 推断。

主要贡献

  • 提出近端反事实 CDF 的 primal-dual 逆问题表示,将目标泛函的连续性归结为对偶桥的存在性。
  • 证明阈值饱和模型下的正则性二分法:$F^a(y)$ 路径可微当且仅当存在平方可积的对偶桥且残差矩有限。
  • 给出紧算子谱特征下的 Picard 型相变:$\sum_j \ell_{a,j}^2/s_{a,j}^2 < \infty$ 是 $\sqrt{n}$ 正则估计的精确边界;越过此边界时,有限维效率界发散,minimax 速率变慢。
  • 推导出有效 CDF 过程的渐近表示与交叉拟合一致双重稳健展开。
  • 构造了免密度估计的同时分位数置信带(通过反转 CDF 带实现)及下尾 CVaR 推断(通过 shortfall 表示消去分位数导数)。

方法框架

  • 模型设定:观测 $O=(Y, A, Z, W, X)$,$Z, W$ 分别为处理诱导和结果诱导的代理变量。
  • Primal 桥方程:$T_a h_{a,y} = g_{a,y}$,其中 $T_a h = E[h(W,X)|A=a,Z,X]$,$g_{a,y} = E[1{Y\le y}|A=a,Z,X]$。目标泛函 $F^a(y) = \ell(h_{a,y}) = E[h_{a,y}(W,X)]$。
  • Dual 桥方程:$T_a^ q_a = 1$,即 $E[1{A=a}q_a(Z,X)-1|W,X]=0$,其中 $T_a^$ 为 $T_a$ 的希尔伯特伴随算子。
  • 正则性条件:$1 \in \text{Range}(T_a^*)$ 且残差矩 $E[1{A=a}q_a^2(Z,X){1{Y\le y} - h_{a,y}(W,X)}^2] < \infty$。
  • 有效影响函数:$\phi_{a,y}(O) = h_{a,y}(W,X) - F^a(y) + 1{A=a}q_a(Z,X){1{Y\le y} - h_{a,y}(W,X)}$。

主要理论结果

  • Theorem 4.2 (Adjoint-range regularity dichotomy):在阈值饱和模型中,$F^a(y)$ 路径可微当且仅当存在 $y$-正则的对偶桥 $q_a$。半参数效率界为 $I^{-1}{a,y} = E[\phi{a,y}^2(O)]$;若无此对偶桥,不存在有界渐近方差的 $\sqrt{n}$ 正则估计。
  • Theorem 4.3 (Spectral regularity criterion):在紧算子奇异系统 ${(s_{a,j}, e_{a,j}, f_{a,j})}$ 下,正则性等价于 Picard 条件 $\sum_{j} \ell_{a,j}^2 / s_{a,j}^2 < \infty$(其中 $\ell_{a,j} = \langle 1, e_{a,j} \rangle$)。若级数发散,有限维效率界以 $\sigma_y^2 |q_{a,m}|_{a,Z}^2$ 速率发散。
  • Theorem 4.4 (Minimax phase transition):在高斯逆问题基准下,若 $\rho > \alpha+1/2$,minimax 风险 $R_n \asymp n^{-1}$;若 $\rho < \alpha+1/2$,$\sqrt{n}$ 正则估计不可能,且 $R_n \asymp n^{-(2\beta+2\rho-1)/(2\alpha+2\beta)}$。

实验 / 数值仿真

(文本未包含此部分,跳过)

与研究者兴趣的关联

直击 Proximal causal inferenceefficiency theory 两个核心方向。将 Proximal 分布推断转化为 primal-dual 逆问题,利用 Riesz 表示定理与伴随算子的值域给出正则性的泛函分析充要条件;并将弱代理问题转化为谱域的 Picard 条件与相变,这对理解半参数效率界与不适定逆问题的交互、以及 debiased ML 在弱工具/弱代理下的失效机制极具启发性。

局限性与开放问题

  • 谱特征与相变分析假设算子 $T_a$ 紧致,排除了含恒等算子成分的连续协变量情形,非紧算子下的正则性边界仍待探索。
  • Minimax 下界基于高斯序列实验基准,尚未在完整 proximal 观测数据模型中通过 LAN 严格证明全局极小极大性。
  • 阈值饱和假设 (Assumption 4.4) 较强,尤其是桥相容的阈值倾斜子模型构造,在更弱正则条件下的有效性未知。

Maintained by 陈星宇 · Homepage · Source on GitHub