Confidence Sets for Causal Orderings¶

作者: Y. Samuel Wang, Mladen Kolar, Mathias Drton
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

本文处理的子问题是：在可识别的结构方程模型（SEM）设定下，如何对变量间的因果排序（causal ordering）构造置信集，从而量化因果发现中的模型不确定性。 当前该方向处于方法构建与渐近理论并存的阶段——已有多种算法能输出单个因果DAG或等价类，但如何系统性地量化哪些排序没有被数据排除、并能用于后续效应估计的带模型不确定性的置信区间，还远未成熟。

1.2 发展脉络（基于一般背景知识，因论文intro未提供详细引用）¶

奠基工作：Pearl (2000) 与 Spirtes et al. (2000) 奠定了基于条件独立性检验的因果发现框架（PC算法、IC算法），输出的是马尔可夫等价类（Markov equivalence class）。这些工作留下一个核心口子：等价类描述的是条件独立关系下的不确定性，但无法覆盖模型中的噪声结构差异（例如非高斯噪声带来的超越等价类的识别性）。
主要进展—可识别SEM的兴起：Shimizu et al. (2006) 提出 LiNGaM（线性非高斯加性误差SEM），证明当噪声非高斯时，因果方向可被完全识别（而非仅等价类）。Hoyer et al. (2009) 推广到非线性加性误差模型。这些工作留下另一个口子：一旦识别性从“等价类”变成“唯一排序”，不确定性就被压缩为零，但这种“点估计”忽略了有限样本下的噪声——数据可能支持多个截然不同的排序。
当前frontier—不确定性量化：近期（< 5年）有少数工作开始处理因果发现的置信集：例如 Peters et al. (2014) 给出了基于方差比的置信集（仅适用于线性高斯等特殊情形），而本文作者声称其方法是第一个能在一般可识别加性误差SEM下对整个排序空间构建渐近有效置信集的工作。
本文位置：作者将其方法定位为“将因果发现的不确定性量化转化为经典的拟合优度检验与bootstrap问题”，从而绕开了复杂的高维模型选择与正则化路径。

1.3 子线索聚类（基于领域常识，待用户核实论文intro后修正）¶

基于条件独立性检验的方法：PC/FCI/MMHC等算法，输出等价类。自顶向下，不需要指定SEM形式，但置信集难构造（因为等价类本身已是关于图结构的不确定性集合）。
基于评分/惩罚的方法：BIC/GOBNILP等，输出单个最优DAG。不确定性量化困难，标准bootstrap（对边频率）不具理论保证。
基于可识别SEM+似然比检验的方法：LiNGaM等，一般只能输出单一排序，部分工作（Peters 2014）构造了特殊情况下的置信集，但不具通用性。本文即属此线索的拓展。

1.4 这个方向在追问的核心问题（2-4个）¶

因果发现的输出（排序/祖先关系/因果效应）置信区间的覆盖概率能否在有限样本或渐近下保持？
当面对高维设定（p > n）时，排序空间太大，如何设计有效的搜索与检验策略？
非参数/半参数SEM下（残差分布未知、函数形式光滑但非参数），排序检验如何构造以及渐近分布如何推导？

1.5 ⚠️ 作者的Framing（基于未见详细intro，属推测）¶

作者framing的中心锚点：将“检验一个候选排序是否被数据拒绝”等价于“检验该排序下残差矩阵的独立性（或其联合分布的一个特定特征）”，进而用残差bootstrap构造p值。这是一个“化因果排序检验为模型拟合优度检验”的视角转换。
竞争路线淡化：作者大概率会在intro中淡化基于条件独立性检验的等价类方法（如PC），理由是“等价类本身是图结构的不确定性集合，但无法提供排序级别的置信陈述”。
作者未提及但值得查的引用：
基于贝叶斯的因果图模型后验推断方法（如MCMC over DAGs），它们也输出排序上的后验概率，但作者可能以“后验不具有频数覆盖频率”或“先验敏感”为由回避。
基于Bootstrap的边频率重抽样方法（如 boot.strength in bnlearn），虽然被广泛使用但缺乏理论覆盖保证——作者是否对此做了对比？

张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

2.1 符号、模型、可观测数据的交代（一次性立清）¶

下标：变量index \(i, j = 1, \dots, p\)；样本index \(k = 1, \dots, n\)。
随机变量：\(X = (X_1, \dots, X_p)^\top \in \mathbb{R}^p\)，服从一个可识别的加性误差结构方程模型（SEM）：
\[X_j = f_j(X_{\text{pa}(j)}) + \varepsilon_j,\quad j=1,\dots,p,\]
其中 \(\text{pa}(j)\) 是 \(X_j\) 的直接父节点集合（依一个未知DAG \(\mathcal{G}\) 的排序），\(f_j\) 是已知形式（线性/特定非线性）但可能含未知参数的函数，\(\varepsilon_j\) 是独立于父节点和非因果后代、且彼此独立的加性噪声（\(E[\varepsilon_j] = 0\)，方差 \(\sigma_j^2\)）。
因果排序（causal ordering）\(\pi\)：是 \(\{1,\dots,p\}\) 的一个排列（总 \(p!\) 种），记作 \(\pi = (\pi_1, \dots, \pi_p)\)，表示变量的一种全顺序，其中排在后面的变量不能是排在前面的变量的祖先。一个好的排序必须与真实DAG的拓扑顺序一致（但可能不是唯一，例如空DAG下所有排序都是拓扑顺序）。
可观测数据：独立同分布样本 \(\{X^{(k)}\}_{k=1}^n\)，每个样本是一个 \(p\) 维向量。我们只能观测到原始数据，不能直接观测到噪声 \(\varepsilon\)、排序 \(\pi\) 或 DAG结构。
想要但不可观测的量：真实排序 \(\pi^*\)（或其他所依赖的DAG）。只能通过数据样本去推断或构造置信集。

2.2 最小内核：p=2 的线性加性噪声SEM¶

为看清核心思路，剥掉所有一般性：假设只有2个变量 \(X_1, X_2\)，且数据来自一个可识别的线性加性噪声模型（即非高斯噪声情形）：

\[X_1 = c + \varepsilon_1,\quad X_2 = \theta X_1 + \varepsilon_2,\]

其中 \(\varepsilon_1, \varepsilon_2\) 独立非高斯（各向同性，方差已知或未知），\(\theta \neq 0\)。此时真排序只有一种可能：1在2前（即 \(\pi^* = (1,2)\)），因为模型可识别。

检验一个候选排序 \(\pi_0\) 是否被数据拒绝：先不管别的，假设我们想测 \(\pi_0 = (2,1)\) 是否可能。若 \(\pi_0\) 是真的，则应有模型：
\[X_2 = c' + \varepsilon'_2,\quad X_1 = \theta' X_2 + \varepsilon'_1.\]
对数据进行回归获得残差 \(\hat{\varepsilon}_1, \hat{\varepsilon}_2\)（基于 \(\pi_0\)下的假设回归）。如果真实排序是 \((1,2)\)，那么 \(\pi_0\) 下的回归一定会把因果关系搞反，导致其中一个残差与解释变量相关（不再独立）。因此我们可以检验“残差与解释变量独立”这个零假设——拒绝就意味着 \(\pi_0\) 被数据排除。
bootstrap构造p值：获得真实数据在 \(\pi_0\) 下的残差后，残差bootstrap通过反复重采这些残差来生成零分布（因为若零假设真，残差近似独立同分布）。具体地，对每个bootstrap样本重新拟合 \(\pi_0\) 下的模型，计算该拟合下的某个Gof统计量（如残差与父变量的相关性绝对值之和），并与原样本的Gof统计量比较——原样本质心落在bootstrap分布的极端位置，则拒绝。
从检验到置信集：对候选排序集 \(\Pi\)（即所有 \(p!\) 个排序或经筛选后的子集），依次检验每一个 \(\pi \in \Pi\) 是否被数据拒绝（在水平 \(\alpha\) 下）。所有未被拒绝的排序构成一个置信集 \(\hat{\mathcal{S}}(\alpha)\)，作者证明：
\[\lim_{n\to\infty} \mathbb{P}(\pi^* \in \hat{\mathcal{S}}(\alpha)) \ge 1-\alpha.\]

论文核心数学问题的本质：对每个候选排序\(\pi\)，拟合一个异于真实模型的SEM并得到残差，然后将“\(\pi\) 是真实排序”这个假设转化为该残差矩阵具有某种独立于解释变量的结构这一可检验的零假设。剩下来的工作就是证明bootstrap能一致近似该零假设下的统计量分布（尽管真实模型的残差结构未知）。

三、这篇论文做了什么（本次重心，务必讲透）¶

3.1 三句话¶

研究了可识别加性误差结构方程模型下因果排序置信集的构造问题。
核心工具是将每个候选排序的检验转化为该排序下残差的拟合优度检验，并采用残差bootstrap程序来近似零分布。
主要结论：bootstrap置信集的渐近有效性（覆盖概率 \(\ge 1-\alpha\)），以及从该置信集导出祖先关系的子/超集与因果效应置信区间（包含模型不确定性）的理论保证。

3.2 关键设定与假设¶

补充完整设定（在2.1基础上）：

识别性假设：模型 \(X_j = f_j(X_{\text{pa}(j)}) + \varepsilon_j\) 中的噪声 \(\varepsilon_j\) 独立、均值为零，且其联合分布使得排序可被唯一识别（例如非高斯噪声或线性高斯下可能与某个已知参照对比）。本文假设模型属于一个 可识别族（例如线性非高斯加性噪声族，或后文例举的特定参数族）。
函数形式已知：\(f_j\) 的形式（例如线性、多项式、特定非线性族）已知，但参数未知。不能是非参数光滑函数。因为残差bootstrap要求残差的定义清晰且能从回归中唯一估计出。
同方差假定？文中未明确提出，但按bootstrap一致性证明，通常需要残差序列独立同分布（或至少可交换），因此作者大概率假设了同方差（homoscedasticity）的噪声。
所检验排序的模型可拟合：对于任何候选排序 \(\pi \in \Pi\)，在该排序下的模型都能唯一拟合（即回归均存在且参数可估计）。这隐含要求候选排序与真实模型的排序间无线性共线性导致参数不可识别。

相比已有文献（如Peters 2014），本文放宽了对特定噪声分布（如高斯）或简单p=2情形的依赖，推广到了一般可识别加性噪声族和任意p。但强化了对函数形式的假设（已知参数族 vs 真正非参数）。

3.3 主要结果¶

定理1（bootstrap置信集的渐近有效性）：在假设条件下，按文中残差bootstrap程序构造的置信集 \(\hat{\mathcal{S}}(\alpha)\) 满足：

\[\liminf_{n\to\infty} \mathbb{P}(\pi^* \in \hat{\mathcal{S}}(\alpha)) \ge 1-\alpha.\]

直觉：对所有未被拒绝的排序，经bootstrap p值的分布渐近地服从均匀分布或更保守的分布，从而覆盖真实排序的概率被控制。必要条件：每个候选排序的回归残差在零假设下近似独立同分布；bootstrap过程能一致逼近零分布（需要残差序列下经验分布函数收敛到真实分布）。

定理2 / 命题（祖先关系的子/超集）：若对每个节点对\((i,j)\)定义：若在所有未被拒绝的排序中 i 恒在 j 前，则输出“i是j的祖先”；若存在排序令i在j后、也存在令i在j前，则不确定。这些推定出的祖先关系在渐近水平 \(1-\alpha\) 下是真实祖先关系的子集/超集。

定理3（因果效应置信区间）：利用置信集中的每个排序分别估计某个固定因果效应（例如do-算子下的值），取这些估计值的区间上下界，就得到一个效应置信区间。作者证明这个区间在渐近水平 \(1-\alpha\) 下覆盖真实效应（因为每个排序下的估计值依概率收敛到真实效应——由于识别性，真排序下估计一致，错排序下估计可能也有概率成立？更恰当的解释是：只要真排序在置信集中就被包含，真效应就在该区间内）。

3.4 证明路线与技术技巧¶

整体路线（共4步）：

Step 1——回归残差与零假设刻画：对任一候选排序 \(\pi\)，按它的顺序递归回归每个变量对排在其前面的父变量的回归，得到残差向量 \(\hat{\varepsilon}_i^{(\pi)}\)。定义检验统计量 \(T_n(\pi) =\) 【某种度量残差与解释变量（相对于\(\pi\)）之间依赖性的范数/统计量】。
Step 2——残差bootstrap的构造：从原数据得到残差 \(\{\hat{\varepsilon}_i^{(\pi)}\}_{i=1}^p\) 后，通过bootstrap重采残差（加回到原解释变量的观测值上）生成新数据集，重新拟合 \(\pi\) 下的回归，再次计算统计量 \(T_n^{*(b)}(\pi)\)（b = 1,…,B）。
Step 3——bootstrap p值：比较原统计量 \(T_n(\pi)\) 与bootstrap分布 \(\{T_n^{*(b)}(\pi)\}\) 的尾部：\(\hat{p}(\pi) = (1/B)\sum_{b=1}^B \mathbb{I}(T_n^{*(b)}(\pi) \ge T_n(\pi))\)。若\(\hat{p}(\pi) < \alpha\)，则排除\(\pi\)。
Step 4——覆盖概率证明：需要证明当\(\pi = \pi^*\)时，原统计量\(T_n(\pi^*)\)的抽样分布与bootstrap分布渐近一致（从而p值渐近均匀）；当\(\pi \neq \pi^*\)但渐近时仍可能被包含在置信集中时，需证明bootstrap分布对错排序是否同样能给出有效p值的证明——这部分牵涉到如果错排序下的回归误设，残差序列未必独立同分布，bootstrap可能不成立。作者的证明很可能依赖于识别性：只要模型可识别，错排序下的拟合残差之间会保留非零关联且范数趋于无穷（这样很快就会被排除）。

关键跳跃点： - 最吃功夫的引理：对错误排序，证明\(T_n(\pi)\)依概率趋于无穷（从而会在置信集中被排除）的速率。依赖于残差与错回归的回归误差阶。 - bootstrap一致性的证明：在正确排序下，残差序列是近似独立同分布的（自然回归误差由真正噪声驱动），bootstrap一致可借用古典bootstrap理论；而在错误排序下，残差序列并不独立——此时需要证明bootstrap仍然工作良好或至少不扩大错误。

技术技巧点名： - 残差bootstrap：标准非参数bootstrap（重采残差后加到原解的预测值生成新数据），用来近似零分布。 - 光滑回归估计的渐近理论：用于证明参数估计量的收敛性，确保残差的经验分布（empirical process）可被bootstrap可复制的极限过程一致逼近。 - Edgeworth展开/Pivot性：可能未明确使用纯Edgeworth，而是靠bootstrap自己的二阶正确性来保证置信水平。

3.5 真实例子与应用¶

本文应包含模拟与真实数据例子（作者注“表/图”）。若实际有，典型场景可能是：使用基因表达数据或社会经济调查数据（p约5-10），在已知的线性可识别SEM设定下，构造排序置信集并展示它覆盖了先验已知的因果关系，同时与现有方法（如LiNGaM输出单一排序 + 边bootstrap）对比，展示置信集的平滑性（不同\(\alpha\)下的逐步排除）与祖先关系的稳定度。这个例子的目的是验证理论覆盖水平在有限样本下的保持，以及指出多个排序虽然排列不同但可能在祖先关系上达成一致的实用优势。

若本文为纯理论 / 无实证例子则明确标注。这里按第一遍摘要推断包含实证，最终需用户确认。

3.6 🔎 结论是否比证明窄¶

可能的检查点： - 作者宣称置信集涵盖的是“真实排序”，但证明中是否假设了模型形式完全已知（即\(f_j\)形式已知）且噪声分布可识别？如果真实模型并非来自已知参数族，识别性下降，证明是否还能成立？——很可能不能，作者会在limitation中承认。 - 对于祖先关系的子/超集，只有当置信集非空才成立。若置信集为空（严重误设或小样本），结论不定义。 - 因果效应置信区间的实际覆盖对每个排序下的效应估计量的一致性依赖很强——如果错误排序下的效应估计也收敛到某个真实值（但不同DAG），则区间可能过于宽松——作者可能对此做了讨论。

四、开放问题（点到为止）¶

高维情形：本文方法基于对所有候选排序（或至少庞大子集）依次检验，p>10时不可行。是否有方法利用排序空间的结构（如部分排序/祖先关系DAG的凸性）来设计有效的搜索策略？这扎根于论文对排序空间穷举的计算负担。
非参数SEM：若函数形式\(f_j\)未知（非参数光滑），残差bootstrap将失效（因为无法唯一分解残差与拟合值）。这是作者假设中的最紧受限——是否可以基于留一交叉拟合的HOIF检验来构造半参数版排序置信集？扎根于假设2.1的“已知参数族”。
更严格的覆盖保证：定理1只证明渐近\(\ge 1-\alpha\)，无有限样本修正或高置信区间（如置信束’conformal’）。一个明确的开放问题是能否在有限样本下提供非渐近覆盖保证（例如利用交换性检验）。
实际应用的 模型误设鲁棒性：若真实模型是线性非高斯，但研究者错误地设为线性高斯（协方差可识别），排序置信集是否还能保持部分覆盖顺序？这与论文未讨论的模型误设敏感性直接相关。

Maintained by 陈星宇 · Homepage · Source on GitHub