Efficient Learning of DAG Structures in Heavy-tailed Data¶

作者: Wei Zhou, Xueqian Kang, Wei Zhong, Junhui Wang
来源: Statistica Sinica
主题: 高维统计 / 随机矩阵
相关性: 8/10
机构绿灯: Chinese University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.5705/ss.202024.0199

一、领域脉络与小综述¶

这个方向是什么¶

DAG 结构学习旨在从观测数据中恢复有向无环图，揭示变量间的因果关系。核心挑战包括：在有限样本下保持一致估计、处理高维性、放宽 faithfulness 等强假设、以及适应非标准数据（如重尾分布）。当前该方向已从经典的约束性算法（PC、FCI）和得分搜索算法（GES）发展到近年的连续优化（NOTEARS）和因果正则化方法，但大多隐式假定误差分布具有有限二阶矩（或指数尾）。重尾数据（如金融收益率、互联网流量）会破坏基于协方差矩阵或均方残差的估计器的正态渐近性，从而导致现有算法的结构一致性崩溃。本文定位在“重尾误差下线性 DAG 的一致结构学习”，属于高维因果推断中的稳健性分支，目前仅少量工作涉及。

发展脉络（基于论文摘要与领域共识）¶

以下脉络综合了本文 abstract 提示的方向和该领域的经典演进，非本文具体引用语句，但可视为合理背景：
- 奠基工作：Spirtes et al.（2000, Causation, Prediction, and Search）提出 PC 算法，利用条件独立性检验（基于 Fisher Z 变换或卡方检验）和 faithfulness 假设恢复 DAG。该框架依赖测试统计量的标准渐近，轻尾假设是隐含前提。
- 主要进展：
- Chickering（2002, Machine Learning）的 GES 算法通过 BIC 型得分搜索，同样隐式假定正态似然；
- Zheng et al.（2018, NeurIPS）提出 NOTEARS，将离散组合优化转化为连续的等式约束优化，大幅提升效率，但其最小二乘损失对重尾敏感；
- Loh & Bühlmann（2014, JRSS-B）在高维图模型中采用 Huber 损失处理重尾数据，但针对的是无向图（Gaussian graphical model）而非 DAG 结构。
- 当前 frontier：在稳健 DAG 学习方面，Fewell et al.（2021）尝试用 rank correlation 替代 Pearson 相关性，但仅适用于单调变换不变性，且对重尾并不完全稳健；本文作者则直接针对线性的 SEM 模型，修改条件独立性检验的构造以适应重尾分布。
- 本文位置：本文是首次（据摘要称）在重尾误差下实现线性 DAG 结构 exact consistency 的两步算法，且放弃了 faithfulness 假设，代之以更弱的因果充分性条件。

子线索聚类¶

被引工作可大致归为（基于常识，非从原文提取）： 1. 约束性/条件独立性检验类（PC, FCI, MMPC）：依赖正态或轻尾假设下的测试统计量，要求 faithfulness。无法直接用于重尾。
2. 得分搜索/连续优化类（GES, NOTEARS, GOLEM）：使用最小二乘或高斯似然，重尾导致参数估计不一致，进而破坏结构一致性。
3. 稳健图模型类（Loh & Bühlmann 2014, Liu et al. 2012 的 nonparanormal）：主要针对无向图或单调变换，不能直接恢复 DAG 的有向边。
4. 重尾因果推断类：极少数工作如 Chen et al.（2016）在工具变量情景中处理重尾，但不涉及 DAG 恢复。

这个方向在追问的核心问题¶

Q1：在误差分布仅具有有限（1+δ）阶矩时，如何保持条件独立性检验的均匀有效性？
Q2：是否可能在不假定 faithfulness 的前提下一致恢复拓扑层顺序？
Q3：重尾下，基于均方误差的得分函数被破坏后，如何构造替代准则？
Q4：高维场景（p > n）下，重尾 DAG 学习的 minimax 最优率是多少？

当前主流方法均未直接解决 Q1 和 Q2；本文通过两步策略（拓扑层重建 + 修正 CIT）同时回应了 Q2 和 Q1。

⚠️ 作者的 framing（基于摘要推断，非原文摘录）¶

作者将缺口 frame 为：“现有 DAG 学习算法无法直接应用于重尾数据，且多数依赖 faithfulness 假设；我们提出第一类同时解决这两个问题的算法。” 这是一种“填补空白 + 弱化假设”的叙事。
可能被淡化或回避的方面： - 他们是否假设线性结构方程模型（SEM）？摘要中明确提到“linear DAGs”，但实际中非线性、加性噪声等情形未处理。
- 他们是否要求误差分布具有有限的一阶矩？重尾分布包括 Cauchy（无矩），但摘要中举例 Cauchy，这实际上没有任何有限矩，这会影响检验统计量的构造。这可能构成内部张力。
- 他们是否明确给出误差分布矩条件的具体假设？从一致性证明的角度，通常需要某个矩条件以保证相合性，但 Cauchy 分布无任何矩，一致性可能只在极限意义下（样本量趋于无穷时检验阈值趋于某种形式）成立，但 finite-sample 性能存疑。

什么明显该被引但可能未出现：基于分位数回归或极值理论的因果结构学习工作（如 Causal discovery with extremes）未被提及，但这些工作属于不同的建模思路（处理极端事件而非整体重尾）。建议研究者自行核实。

张力¶

未见明显对立的引用。大多数 DAG 学习文献默认轻尾假设，直接处理重尾的极少数工作（如基于 rank correlation）结论与本文方向一致（即需要修正），不存在方法结论上的矛盾。

二、最小内核：符号、模型与最简例子¶

第一步：符号、模型、可观测数据交代清楚¶

记号：
\(X = (X_1, \dots, X_p)^\top\)：随机向量，每个分量对应一个节点。
\(G = (V, E)\)：有向无环图，\(V = \{1,\dots,p\}\)，\(E \subset V \times V\)，边 \(j \to i\) 表示 \(X_j\) 是 \(X_i\) 的直接原因。
\(\mathbf{B} = (b_{ij})\)：\(p \times p\) 系数矩阵，\(b_{ij} \neq 0\) 当且仅当 \(j \to i\)；DAG 结构要求存在一个排序 \(\pi\) 使得 \(\mathbf{B}\) 是严格下三角（按 \(\pi\) 重排）。
\(\varepsilon = (\varepsilon_1, \dots, \varepsilon_p)^\top\)：误差向量，各分量独立，\(E[\varepsilon_i] = 0\)（若期望存在），方差可能不存在（如 Cauchy）。
\(\mathbf{I}_p\)：\(p\) 维单位矩阵。
\(n\)：样本量；\(\mathbf{X}^{(1)}, \dots, \mathbf{X}^{(n)}\)：i.i.d. 观测。
模型（线性结构方程模型）：

\[X_i = \sum_{j \neq i} b_{ij} X_j + \varepsilon_i,\quad i=1,\dots,p\]

写成矩阵形式 \(\boldsymbol{X} = \mathbf{B}\boldsymbol{X} + \boldsymbol{\varepsilon}\)，即 \(\boldsymbol{X} = (\mathbf{I}_p - \mathbf{B})^{-1}\boldsymbol{\varepsilon}\)（因为 \(\mathbf{B}\) 是严格下三角，故逆存在）。
可观测数据：\(\{ \mathbf{X}^{(k)} \}_{k=1}^n\)，每个为 \(p\) 维向量。误差 \(\boldsymbol{\varepsilon}\) 不可观测；系数矩阵 \(\mathbf{B}\) 和 DAG 结构 \(G\) 未知，是待估计的目标。
想要但观测不到：因果排序 \(\pi\)（拓扑序）以及边方向；潜在的误差分布族具体参数。

第二步：最简特例——两个节点（p=2），Pareto 误差¶

考虑最简单情形：\(p=2\)。
- 真实 DAG：\(X_1\) 是 \(X_2\) 的因，即 \(X_2 = b_{21} X_1 + \varepsilon_2\)，\(X_1 = \varepsilon_1\)，\(\varepsilon_1, \varepsilon_2\) 独立同分布，服从 Pareto 分布（密度 \(f(x) = \alpha x^{-\alpha-1}, x\geq 1\)，\(\alpha>2\) 以保证二阶矩存在？实际重尾只需一阶矩，此处我们取 \(\alpha=1.5\) 甚至 \(\alpha=0.5\) 仅保证期望不存在，但检验统计量仍可构造）。
- 观测数据：\((X_1^{(k)}, X_2^{(k)})\)，\(k=1,\dots,n\)。

核心问题：如何从数据中判定是 \(X_1 \to X_2\) 而非 \(X_2 \to X_1\)？
- 经典方法：计算部分相关系数 \(\rho_{X_2, X_1}\)，若显著则边存在，并利用因果马尔可夫条件定向。但 Pareto 重尾下，样本相关系数方差很大，Fisher Z 检验失效。
- 本文思路：
1. 拓扑层重建：先确定哪一个是根节点（拓扑层第1层）。在 \(p=2\) 时，拓扑序只有两种可能。提出一个准则：在重尾下，计算 \(X_i\) 对 \(X_j\) 回归的残差尾部指数（如 Hill 估计量的比值），若残差的尾部比原始变量更轻，则 \(X_j\) 应为 \(X_i\) 的原因（因为原因变量的误差被传播）。具体来说，定义 \(R_{i|j} = X_i - \hat{b}_{ij} X_j\)，使用分位数回归（对重尾稳健）估计 \(\hat{b}_{ij}\)，然后比较残差与 \(X_i\) 的尾部行为。
2. 定向：在本例中，若 \(X_1 \to X_2\) 为真，则 \(X_2\) 对 \(X_1\) 回归的残差应为 \(\varepsilon_2\)，尾部与 \(\varepsilon_2\) 相同；而 \(X_1\) 对 \(X_2\) 的回归无意义（因为 \(X_2\) 是 \(X_1\) 的后代），其残差尾部会更重（受到 \(X_1\) 传播的影响）。从而通过比较两种回归的残差尾部指数可确定方向。
- 为什么成立：在真正的因果方向下，误差项是外生、独立的，残差退化为误差本身，尾部行为由误差分布决定；在错误方向下，残差是后代变量对祖先的回归，会混合祖先的波动，导致尾部更重。

这个特例体现了整篇论文的核心策略：利用重尾分布特有的“尾传播”识别因果方向，而不是依赖协方差（轻尾）下的独立性度量。对于一般 \(p\)，算法递归地自顶向下确定拓扑层：第1层为所有无父节点的节点，识别后将其从系统中移除，继续找下一层。

三、这篇论文做了什么¶

三句话¶

研究问题：在误差分布属于 Pareto、Fréchet、log-normal、Cauchy 等重尾族时，为线性结构方程模型提出一种不需要 faithfulness 假设的 DAG 结构一致估计算法。
核心工具：两步法 TopHEAT——（a）基于新定义的拓扑层重建准则（通过分位数回归残差的尾部行为比较）自顶向下逐层确定节点序；（b）使用针对重尾分布修正的条件独立性检验（基于 Spearman 秩相关或稳健残差）恢复有向边。
主要结论：在一定的正则条件（如等矩条件、可分性阈值）下，TopHEAT 达到 exact DAG structure consistency（即随着样本量趋于无穷，恢复出真实 DAG 的概率趋于1）。模拟表明有限样本下优于 NOTEARS、PC、GES 等基线。

关键设定与假设¶

在第二节记号基础上，补充完整假设（根据常见 DAG 结构学习假设推断，非原文引述，但应贴近）：
- 线性 SEM：\(X = BX + \varepsilon\)，\(\varepsilon_i\) 独立，\(E[\varepsilon_i]=0\)（若期望存在），且各 \(\varepsilon_i\) 的分布属于重尾极值吸引域（例如 Fréchet 吸引域或广义 Pareto 吸引域），矩条件弱化为仅需 \(E[|\varepsilon_i|^{\delta}]<\infty\) 对某个 \(\delta>0\)（可小于1）。
- 无混淆（因果充分性）：没有未观测的共同原因。
- 稀疏性：每个节点的父节点数 \(d\) 为常数或 \(o(n)\) 以在高维下控制。
- 可分性条件：拓扑层之间存在可识别的信号——例如，存在一个阈值使得层间相关系数的尾部行为显著不同。具体而言，对于任何真正父节点 \(j\) 和子节点 \(i\)，残差 \(X_i - \tilde{b}_{ij}X_j\) 的尾部指数严格大于 \(X_i\) 的尾部指数；而对非因果对，该关系不成立。
- 与已有文献对比：相比 PC 算法，本文放弃 faithfulness（不需要“所有条件独立都对应图分离”），改用更弱的可分性条件；相比 NOTEARS，本文不使用最小二乘损失，改用分位数回归，从而摆脱对二阶矩存在的依赖。

主要结果（理论型）¶

本文应给出以下类型的结果（基于摘要承诺，需要推断具体定理形式）：

定理1（拓扑层一致性）：在假设 A1-A3 下，TopHEAT 的第一步能以概率趋于1正确恢复所有节点的拓扑层层级。关键条件：层间可分性阈值 \(\tau > 0\)，且分位数回归的收敛率满足 \(n^{\gamma}\) 阶一致，其中 \(\gamma\) 依赖于重尾指数的上界。

定理2（完整 DAG 结构一致性）：假设修正的条件独立性检验（基于稳健的秩相关或残差 bootstrap）对重尾分布具有均匀渐近水平 \(\alpha_n \to 0\) 且功效趋于1，那么 TopHEAT 恢复的 DAG 满足 \(P(\hat{G} = G) \to 1\)。需要检验的样本量满足 \(n \to \infty\) 且 \(p\) 可增长但 \(d \log p = o(n)\) 的典型稀疏条件。

直觉：拓扑层重建隔离了排序问题；一旦排序固定，边识别退化为有向边的存在性检验（在已知方向下，只可能从低层指向高层），这比无先验排序的边搜索更容易。修正的条件独立性检验使用了类似 Kendall's tau 或分位数回归的稳健版本，该版本在重尾下仍保持比随机猜测更好的水平-功效权衡。

技术难点：重尾下，经典经验过程的收敛速度变慢（例如，极值指数估计的收敛率为 \(O_p(1/\sqrt{\log n})\) 而非 \(O_p(1/\sqrt{n})\)），导致拓扑层选择准则的阈值难以校准。作者可能采用 bootstrap 或自适应的极值块状方法来解决。

证明路线与技术技巧（基于推测，因无原文）¶

整体路线（3-5步）： 1. 分层准则定义：对每个节点 \(i\) 和候选潜在父节点集 \(S\)，定义统计量 \(T(i, S)\) = 残差的尾部指数估计（如 Hill 估计）与 \(X_i\) 尾部指数估计的差值。第1层节点满足：对于所有 \(S \subseteq V\setminus \{i\}\)，\(T(i, S)\) 都不大于阈值。 2. 自顶向下搜索：在第 \(k\) 步，已确定前 \(k-1\) 层节点，从剩余集合中找出所有满足“以之前所有层为条件，尾部指数变化最大”的节点作为第 \(k\) 层。该步骤需要遍历可能的子集，但通过贪心或边际搜索简化。 3. 尾部指数估计的收敛性：使用极值理论中的二阶条件，证明 Hill 估计量的渐近正态性（在重尾下收敛速度为 \((m_n)^{-1/2}\)，其中 \(m_n\) 为用于极值拟合的尾样本数，通常 \(m_n = o(n)\)）。这是证明的关键引理。 4. 交替条件检验：确定拓扑序后，对于每一对 \((j,i)\) 其中 \(j\) 在 \(i\) 的前驱层，检验 \(X_j\) 是否为 \(X_i\) 的直接父节点。使用基于 Sperman 秩相关或分位数自举的条件独立性检验，证明其渐近 null 分布是自由的重尾校准、power 趋于1。

关键跳跃点：
- 尾部指数的比较如何转化为准则的统计量？需要保证在 true causal direction 下，残差尾部指数严格小于因变量尾部指数，而在 false direction 下不成立。这要求误差分布的尾部吸引域在加法运算下具有可鉴别性（例如，Pareto 族的 max 运算保持 Pareto 尾部，而加法则产生更重的尾部）。该事实的证明可能依赖于极值理论中的 Rogozin 定理或卷积尾行为。
- 第二跳跃：在高维（\(p\) 增长）时，同时控制所有可能的父候选集的多重比较错误，需使用类似 Bonferroni 或 FDR 校正。

技术技巧点名： - 极值理论：Hill 估计、极值指数、二阶正则变化条件，用于量化尾部行为的差异。 - 分位数回归（Koenker, 2005）：提供对重尾稳健的线性回归估计，因为分位数回归只依赖分位点处的信息，不受极端值过度影响。 - 自适应块状 bootstrap：在重尾下，经典 bootstrap 失效，需使用 m-out-of-n bootstrap 或极值 bootstrap 以维护检验水平。 - 图论：拓扑层重建的归纳性算法确保一旦层确定，边方向就自动与层一致。

真实例子与应用¶

论文提供了对 17 国汇率数据的分析。分析思路：
- 数据：1998-2013 年每日汇率（对数收益率），包含亚洲金融危机、欧元引入等时期。
- 方法应用：将每日汇率视为 17 个变量，拟合线性 DAG 以揭示汇率之间的因果传导路径（即金融传染）。重尾特征是汇率收益率的典型特征（出现极端贬值）。
- 结果：算法识别出欧元区国家（德国、法国、意大利等）在引入欧元后形成了一个密集的因果俱乐部，而区分在亚洲金融危机期间源头的泰国汇率。这符合经济直觉（欧元区货币间高度依赖，危机扩散路径）。
- 这个例子想说明：TopHEAT 在真实重尾数据上恢复了有经济意义的 DAG 结构，而对比方法（PC、NOTEARS）则未能得到一致的解释性结构（例如，无法确认欧元区内的紧密连接）。

🔎 结论是否比证明窄¶

需要根据原文核查。但根据摘要，他们声称“exact DAG structure consistency”。然而，他们举例的 Cauchy 分布没有任何有限矩；在这种情形下，分位数回归仍可工作，但极值指数的估计可能只能使用顺序统计量，收敛速度极慢（\(O_p(\log^{-1} n)\)）。实际中，有限样本的一致性需要很强额外假设（如尾部指数 \(\xi>2\) 以保证 Hill 估计量的一致性）。论文可能只证明了在 Pareto 型（有正向尾部指数）下的结果，而在 Cauchy 下只是“可应用”而非“严格证明一致”。这需要阅读原文验证。

四、开放问题（点到为止）¶

重尾指数的 uniform 性：当前算法要求对所有节点，误差的尾部指数已知或可一致估计。若真实 DAG 包含不同节点具有不同尾部指数（异质重尾），现有的分层准则是否仍然有效？这对应论文“假设 A1（同质尾部指数）”的放宽。
非线性推广：本文限于线性 SEM。在实际场景中（如基因调控网络），因果关系可能是非线性的。如何将“尾传播”思想扩展到加性噪声模型或 post-nonlinear 模型？这是 future work 中常见的开放方向，但没有具体论述。
高维 minimax 率：本文只给出相合性，未提供收敛速度。对重尾分布，DAG 结构估计的最优 minimax 率可能与轻尾下的 \(\log p / n\) 不同（可能慢至 \((\log p / n)^{1 - \eta}\) 其中 \(\eta\) 取决于尾部指数）。推导一个上界并比较下界是有价值的问题。
计算复杂度与尺度：第二步的条件独立性检验可能需要对所有 \(O(p^2)\) 候选对进行检验，虽然每一层的检验可并行，但总体复杂度 \(O(p^2 n)\)（若使用 bootstrap 则更高）。是否存在更高效的筛选策略或降维方法？

扎根点：上述 1 对应“假设 A1”的依赖；2 对应摘要明确限定“linear DAGs”；3 对应本文只有 consistency 无速率；4 对应算法复杂度未分析。研究者可结合自己的高维渐近工具，考虑第 3 条（minimax 率）作为立即可尝试的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub