跳转至

Learning a directed acyclic graph with additive heteroscedastic errors

作者: Xintao Xia, Li Chen, Yue Hu, Chunlin Li
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.26515


一、核心问题与贡献

①研究了在加性异方差误差(Location-Scale Noise Model, LSNM)的结构方程模型下,有向无环图(DAG)的因果发现与可识别性问题。②核心方法是提出两阶段迭代算法 RESQUE:先做均值回归构造残差,再利用复合分位数回归(CQR)中条件尺度系数在不同分位数下的不变性递归识别 sink node。③主要结论是:证明了异方差结构在无界/有界变量下均能带来非参数可识别性,且 RESQUE 在变量数随样本量发散时仍能一致恢复拓扑序与图结构。

二、基础设定

  • 核心概念与符号
  • LSNM: \(X_j = f_j(X_{PA_G(j)}) + g_j(X_{PA_G(j)})\varepsilon_j\)\(f_j\) 为条件均值,\(g_j\) 为条件尺度函数。
  • Pseudo-variables: \(X_j^* = f_j(X_i^*, x_{S_1}) + g_j(X_i^*, x_{S_1})\varepsilon_j\),用于将多变量可识别性局部降维为双变量问题。
  • Topological layer: \(N_1 \cup \cdots \cup N_T\),按 sink node 逐层剥离的图分解。
  • 特征映射: \(\Phi(X_{-j})\), \(\Psi(X_{-j})\),对 \(f_j\)\(\log g_j\) 的线性逼近基。
  • 关键假设
  • Assumption 1 (Bivariate Identifiability): 包含两个条件:条件1(无界变量)要求反向模型的密度与导数满足特定微分方程不成立;条件2(有界变量)利用条件支撑集边界函数 \(s(x)\) 及其导数与密度的微分方程不成立。统计学含义:异方差性在因果方向上产生的条件分布不对称性,无法被任何反向 LSNM 拟合。相比 Immer et al. (2023) 放宽了无界支撑的要求。
  • Assumption 2/4 (Sparsity & Approximation): \(\|\beta_j\|_0 \le s_1\), \(\|\gamma_{j,k}\|_0 \le s_2\),逼近误差 \(\|r\|_2^2 \le Cs/n\)。统计学含义:高维稀疏逼近条件,允许半参数模型误差存在。
  • Assumption 3/6 (RE & RNI): Restricted Eigenvalue 与 Rank Non-degeneracy Index。统计学含义:保证 Lasso 与 CQR 在高维下收敛的标准设计矩阵条件。
  • Assumption 8 (Signal Strength): \(\beta_{j,\min} \ge a\lambda_1'\), \(\gamma_{j,\min} \ge a\lambda_2'\)(含 \(\sqrt{s_1}\) 因子)。统计学含义:保证变量选择 sign-consistency 的最小信号强度门槛。
  • 问题背景:现有基于异方差的因果发现(如 Immer et al. 2023)仅限双变量且要求无界支撑;基于均值的方法(CAM, NOTEARS)在因果信息仅编码于方差成分时失效;基于独立性检验的方法(TL)在高维下需样本分割且检验效力低。本文最相关的参考文献是 Immer et al. (2023)(拓展其双变量可识别性至多变量有界域)与 Peters et al. (2014)/Bühlmann et al. (2014)(将 ANM 的拓扑层恢复逻辑移植到 LSNM)。

三、主要定理 / 核心结果

  1. Theorem 2 (DAG Identifiability)
  2. 原文陈述:若对每对父子 \((i, j)\) 及某条件集 \(S\),存在实现 \(x_S\) 使得伪变量 \((X_i^*, X_j^*)\) 满足 Assumption 1,则 \(G\) 可识别。
  3. 直观解释:多变量 DAG 的可识别性可局部化:只要能在某个控制变量 \(S\) 的取值下,把父子对“投影”为满足双变量异方差不对称性的伪变量,全局图方向即可确定。
  4. 技术难点:将多变量条件分布的异方差不对称性,通过构造伪变量降维到双变量微分方程可处理的层面。
  5. 局限:要求存在 \(p_{X_S}(x_S)>0\) 的实现,对某些离散或极端连续分布可能难以满足。

  6. Theorem 3 (CQR Convergence & Structure Recovery)

  7. 原文陈述:$\

Maintained by 陈星宇 · Homepage · Source on GitHub

评论