Ancestor regression in linear structural equation models¶

作者: C Schultheiss, P Bühlmann
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：线性结构方程模型下的因果发现，核心统计问题是从观测数据的联合分布中推断变量间的因果方向与祖先关系。在非高斯或等方差设定下，因果图是可识别的；但在高斯线性设定下，由于马尔可夫等价类的存在，因果方向不可识别。本子方向当前处于“部分可识别框架已成熟、高斯不可识别框架下的假设检验与部分推断刚刚起步”的阶段。

发展脉络： - 奠基工作：Spirtes et al. (2001) 与 Chickering (2002) 建立了基于条件独立的约束型因果发现（如 PC 算法），但只能恢复马尔可夫等价类，无法区分等价类内的因果方向。 - 主要进展（可识别路线）：Shimizu et al. (2006) 提出 LiNGAM，利用非高斯噪声实现完全识别；Peters and Bühlmann (2014) 证明若高斯线性模型中所有噪声方差相等，因果图亦可完全识别；Gnecco et al. (2021) 将因果发现拓展至重尾分布，利用尾系数捕捉极值依赖的非对称性。 - 当前 frontier：在不可识别的高斯设定下，放弃“完全恢复因果图”的目标，转向“对特定因果关系提供假设检验与错误控制”。Schultheiss, Bühlmann and Yuan (2021) 提出高阶最小二乘（HOLS）检验线性因果模型的局部拟合优度，能区分混淆与直接因果，但未系统解决祖先推断与全局拟合优度问题。 - 本文的位置：本文（Schultheiss & Bühlmann, 2023）提出“祖先回归”，将因果发现转化为对特定变量的祖先与非祖先的假设检验，在高斯不可识别设定下提供渐近 Type I error 控制，并补充了全局线性 SEM 拟合优度检验。

子线索聚类： 1. 可识别性路线：依赖特定分布假设（非高斯 / 等方差 / 重尾）打破马尔可夫等价类对称性，实现因果图完全恢复（Shimizu 2006; Peters & Bühlmann 2014; Gnecco 2021）。 2. 约束型与评分型路线：基于条件独立或评分函数搜索等价类，不依赖分布假设但无法定向等价类内边（Spirtes 2001; Chickering 2002; Kalisch et al. 2012 的 pcalg 实现）。 3. 部分推断与假设检验路线：在不可识别设定下，不追求完全恢复图，而是对局部因果关系（如 \(X\) 是否为 \(Y\) 的祖先）进行假设检验与错误控制（Schultheiss & Bühlmann 2021 HOLS; 本文祖先回归）。

这个方向在追问的核心问题： 1. 在高斯线性 SEM 不可识别设定下，能否对特定因果主张（如“\(X\) 是 \(Y\) 的祖先”）提供有效的假设检验与 Type I error 控制？ 2. 如何检验多变量数据是否来自线性 SEM（全局拟合优度），而不仅仅是局部混淆检测？ 3. 假设检验框架下的因果发现，其统计功效与不可识别性之间的取舍机制是什么？

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为：现有方法在高斯设定下因不可识别性而“失效”，而祖先回归通过假设检验框架“即使不可识别也能提供 Type I error 控制”。作者淡化了可识别路线（非高斯 / 等方差）在实际数据中可能近似成立的情形，也回避了约束型方法在等价类内定向时结合领域知识（如时间顺序）的常见实践。明显该被引却未出现的：基于分数型因果发现（如 BIC 评分的 GES 算法）在高斯设定下的渐近性质工作，以及近期半参数因果发现（如基于环境/干预变量的不变性预测原则 Peters et al. 2016）——这些路线同样在不可识别设定下提供部分推断，但未被讨论，值得研究者去查是否构成竞争路线。

张力：未见明显对立引用。可识别路线与假设检验路线在目标上互补而非矛盾：前者追求完全恢复，后者在不可识别时退守部分推断。但存在隐含张力：可识别路线要求强分布假设，若假设错则推断全错；假设检验路线无需强假设，但功效低——这两条路线的适用边界与切换条件尚未有理论刻画。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\mathcal{G}\)：有向无环图（DAG），节点集 \(\{1, \ldots, p\}\)。
\(\text{an}_\mathcal{G}(j)\)：节点 \(j\) 在 \(\mathcal{G}\) 中的祖先集（包括 \(j\) 本身）。
\(B\)：\(p \times p\) 的因果效应矩阵，\(B_{ij}\) 为 \(X_i \to X_j\) 的直接因果效应，\(\mathcal{G}\) 由 \(B\) 的非零元决定。
\(\Omega\)：噪声协方差矩阵，本文假设 \(\Omega\) 为对角阵（噪声独立），即 \(\Omega_{jj} = \sigma_j^2\)。
随机变量 / 样本：
\(X = (X_1, \ldots, X_p)^\top\)：\(p\) 维观测随机向量。
\(\mathbf{X} = (X^{(1)}, \ldots, X^{(n)})^\top\)：\(n \times p\) 的样本矩阵，\(X^{(k)}\) 为第 \(k\) 个独立观测。
维数 / 样本量等指标：
\(p\)：变量维数（本文理论要求 \(p\) 固定，\(n \to \infty\)）。
\(n\)：样本量。
潜在 / 不可观测量：
\(\varepsilon = (\varepsilon_1, \ldots, \varepsilon_p)^\top\)：不可观测的独立噪声向量，\(\varepsilon_j \sim \text{some distribution with mean 0, variance } \sigma_j^2\)。
模型（数据生成机制）：
线性结构方程模型（Linear SEM）：\(X = BX + \varepsilon\)，等价于 \(X = (I - B)^{-1} \varepsilon\)。
\(B\) 对应 DAG \(\mathcal{G}\)（即 \(I - B\) 可逆且 \(B\) 的非零元对应 \(\mathcal{G}\) 的边）。
噪声 \(\varepsilon_j\) 相互独立，分布未指定（高斯或非高斯均可）。
要估的对象：对任意给定 \(j\)，判断哪些节点属于 \(\text{an}_\mathcal{G}(j)\)。
可观测数据：
研究者实际能观测到的是 \(n\) 个独立同分布的 \(p\) 维样本 \(\mathbf{X}\)，即 \((X_1, \ldots, X_p)\) 的联合分布样本。
不可观测的是因果矩阵 \(B\)、噪声分布 \(\varepsilon\)、以及因果图 \(\mathcal{G}\)——只能靠假设（如 DAG 结构、噪声独立）与统计方法去识别。

第二步：最小内核——最简特例（\(p=3\)，高斯噪声，检验单变量是否为祖先）

考虑 \(p=3\)，变量 \(X_1, X_2, X_3\)，因果图 \(\mathcal{G}\)：\(X_1 \to X_2 \to X_3\)（即 \(X_1\) 是 \(X_3\) 的祖先，\(X_2\) 是 \(X_3\) 的直接父节点）。线性 SEM：

\[X_1 = \varepsilon_1, \quad X_2 = b_{21} X_1 + \varepsilon_2, \quad X_3 = b_{32} X_2 + \varepsilon_3,\]

其中 \(\varepsilon_1, \varepsilon_2, \varepsilon_3\) 独立高斯，方差 \(\sigma_1^2, \sigma_2^2, \sigma_3^2\) 任意（不可识别设定）。

核心问题：检验“\(X_1\) 是否为 \(X_3\) 的祖先”。

祖先回归的做法： 1. 对目标变量 \(X_3\)，做回归 \(X_3 = \beta_1 X_1 + \beta_2 X_2 + \text{residual}\)。 2. 在此例中，\(\beta_1 = b_{21} b_{32}\)（因为 \(X_1\) 通过 \(X_2\) 间接影响 \(X_3\)），\(\beta_2 = b_{32}\)。 3. 关键观察：若 \(X_1\) 是 \(X_3\) 的祖先，则 \(\beta_1 \neq 0\)；若 \(X_1\) 不是 \(X_3\) 的祖先（如假设图改为 \(X_2 \to X_3\) 且 \(X_1 \to X_3\) 无边），则 \(\beta_1 = 0\)。 4. 但直接检验 \(\beta_1 \neq 0\) 不够——因为若 \(X_1\) 不是祖先但与 \(X_3\) 有共同祖先（如 \(X_1 \leftarrow X_0 \to X_3\)），回归系数 \(\beta_1\) 也可能非零（混淆效应）。 5. 祖先回归的修正：对 \(X_1\) 做回归 \(X_1 = \gamma_2 X_2 + \gamma_3 X_3 + \text{residual}\)，得到残差 \(R_1 = X_1 - \gamma_2 X_2 - \gamma_3 X_3\)。 6. 再做回归 \(X_3 = \theta R_1 + \text{residual}\)（或更一般地，\(X_3\) 对 \(R_1\) 及其他变量回归）。 7. 最小内核的命题：在高斯线性 SEM 中，\(X_1\) 是 \(X_3\) 的祖先 \(\iff\) \(\theta \neq 0\)；\(X_1\) 不是 \(X_3\) 的祖先 \(\iff\) \(\theta = 0\)。 - 直觉：\(R_1\) 是剔除了 \(X_1\) 与 \(X_3\) 的共同后代（\(X_2\)）及 \(X_3\) 本身影响后的 \(X_1\) 的“纯净成分”。若 \(X_1\) 是祖先，\(R_1\) 仍保留了对 \(X_3\) 的因果效应（通过非 \(X_2, X_3\) 的路径），故 \(\theta \neq 0\)；若 \(X_1\) 不是祖先，\(R_1\) 与 \(X_3\) 只能通过共同祖先或混淆产生相关，但剔除 \(X_3\) 及共同后代后，混淆路径被阻断，\(\theta = 0\)。

为什么成立（证明直觉）： - \(R_1\) 的构造本质上是取 \(X_1\) 在“非 \(X_3\) 祖先集”上的残差。在 DAG 中，若 \(X_1\) 不是 \(X_3\) 的祖先，则 \(X_1\) 与 \(X_3\) 的所有相关路径必经过共同祖先或混淆，而这些路径在回归 \(X_1\) 于 \(X_3\) 及共同后代后被阻断（类似调整共同后代阻断混淆的因果推断技巧）。若 \(X_1\) 是祖先，则存在 \(X_1 \to \cdots \to X_3\) 的定向路径，该路径不经过 \(X_3\) 的其他祖先（或已被残差构造保留），故 \(R_1\) 与 \(X_3\) 仍有因果效应。

这个特例退化成什么： - 检验 \(\theta = 0\) 退化成标准的线性回归系数 \(t\)-检验。在不可识别的高斯设定下，\(\theta = 0\) 的零假设是可检验的（因为零假设下残差与目标独立，分布可推），而 \(\theta \neq 0\) 的功效受噪声方差与因果效应大小限制。

三、这篇论文做了什么¶

三句话： ① 研究了线性 SEM 中从观测数据推断特定变量祖先集的问题，提出基于回归残差的假设检验方法“祖先回归”。 ② 核心工具是对候选变量做回归取残差（剔除共同后代与目标变量影响），再检验残差对目标变量的回归系数是否为零。 ③ 主要结论是在高斯不可识别设定下，祖先回归提供渐近 Type I error 控制（误判非祖先为祖先的概率受控），但功效低于可识别方法；同时给出线性 SEM 全局拟合优度的渐近有效 \(p\)-值。

关键设定与假设： - 线性 SEM：\(X = BX + \varepsilon\)，\(B\) 对应 DAG \(\mathcal{G}\)，\(\varepsilon\) 独立（\(\Omega\) 对角）。 - 噪声分布：允许高斯（不可识别）或非高斯；高斯下等价类内方向不可识别，但祖先关系在等价类内可能可识别。 - DAG 假设：无环、因果充分性（无隐藏混淆），这是祖先回归零假设检验成立的关键。 - 样本量要求：\(n \to \infty\), \(p\) 固定（大样本渐近理论）。 - 相比已有文献：放宽了 Peters & Bühlmann (2014) 的等方差假设、Shimizu et al. (2006) 的非高斯假设；但强化了 DAG 与无隐藏混淆假设（HOLS 2021 允许局部混淆检测，本文全局拟合优度检验要求无混淆）。

主要结果：

祖先推断的 Type I error 控制（Theorem 1 / 核心定理）：
陈述：对任意目标变量 \(j\) 与候选变量 \(i\)，在零假设 \(H_0: i \notin \text{an}_\mathcal{G}(j)\) 下，祖先回归的检验统计量渐近服从标准正态（或 \(t\)）分布，从而 Type I error 渐近受控于名义水平 \(\alpha\)。
直觉：零假设下，残差 \(R_i\) 与 \(X_j\) 独立（因混淆路径被阻断），回归系数 \(\theta_{ji} = 0\)，标准 OLS 理论适用。
必要条件：线性 SEM、DAG、噪声独立、\(n \to \infty\)、\(p\) 固定。
解决的技术难点：在高斯不可识别设定下，零假设的分布可推导（因为 \(H_0\) 限制了图结构，使得残差构造阻断所有非因果路径），而备择假设的分布不可识别（功效受等价类限制）。
祖先推断的功效分析（Theorem 2 / 功耗下界）：
陈述：在备择假设 \(H_1: i \in \text{an}_\mathcal{G}(j)\) 下，检验统计量的功效取决于因果效应累积路径强度与噪声方差；在高斯设定下，功效低于非高斯方法（如 LiNGAM）。
直觉：高斯下等价类内存在与真实图效应相同的替代图，祖先回归只能检测“等价类内一致的祖先关系”，对等价类内不一致的方向功效为零。
必要条件：同 Theorem 1。
全局拟合优度检验（Theorem 3 / Goodness-of-fit p-value）：
陈述：构造渐近有效的 \(p\)-值，检验数据是否来自线性 SEM（\(X = BX + \varepsilon\), \(\varepsilon\) 独立）。
直觉：基于残差交叉矩（或高阶矩）检验噪声独立性；若存在隐藏混淆或非线性，残差交叉矩非零，检验拒绝。
必要条件：线性 SEM、无隐藏混淆、\(n \to \infty\)、\(p\) 固定。
解决的技术难点：高斯下二阶交叉矩为零（因协方差只反映线性相关），需用三阶或更高阶交叉矩检验独立性（类似 HOLS 2021 的思路，但本文构造了全局而非局部的检验）。

证明路线与技术技巧：

整体路线（祖先推断 Theorem 1）：
构造残差 \(R_i\)：对 \(X_i\) 回归于 \(\{X_k : k \neq i, k \notin \text{an}_\mathcal{G}(j) \text{ 的候选集}\}\)（实际操作中回归于除 \(X_j\) 外的所有变量，或特定子集）。
证明在 \(H_0\) 下，\(R_i\) 与 \(X_j\) 独立：利用 DAG 结构与回归调整阻断混淆路径（调整共同后代阻断后门路径的因果推断标准技巧）。
在 \(R_i\) 与 \(X_j\) 独立下，回归系数 \(\theta_{ji}\) 的 OLS 估计量渐近正态，标准误差可估，构造 \(t\)-统计量。
渐近正态性由 OLS 标准理论保证（独立回归元与误差项）。
整体路线（拟合优度 Theorem 3）：
估计因果矩阵 \(B\)（可用任意方法，如 PC+定向，或最小二乘）。
计算残差 \(\hat{\varepsilon} = X - \hat{B}X\)。
构造残差交叉矩统计量（如三阶交叉矩 \(\sum \hat{\varepsilon}_i \hat{\varepsilon}_j \hat{\varepsilon}_k\) 的标准化求和）。
证明在真实线性 SEM 下，该统计量渐近正态（因真实残差独立，高阶交叉矩期望为零）。
计算渐近方差（需考虑 \(\hat{B}\) 估计误差对残差的影响，类似 M-估计量的影响函数调整）。
关键跳跃点：
祖先推断：证明 \(H_0\) 下 \(R_i\) 与 \(X_j\) 独立——这里依赖 DAG 的局部 Markov 性质与调整共同后代的混淆阻断技巧，是因果图理论与回归推断的衔接点。
拟合优度：处理 \(\hat{B}\) 估计误差对残差交叉矩渐近分布的影响——需用 Delta 方法或影响函数展开，计算渐近方差时需考虑参数估计的“噪声放大”效应。
技术技巧点名：
DAG 调整与混淆阻断：用回归调整共同后代阻断后门路径（因果推断标准工具，用于证明 \(H_0\) 下独立性）。
Delta 方法 / 影响函数展开：用于拟合优度检验中计算残差交叉矩统计量的渐近方差（半参数 M-估计理论）。
高阶交叉矩检验：用三阶或更高阶矩检验高斯变量独立性（类似 HOLS 2021，但本文构造全局统计量而非局部）。
OLS 渐近理论：标准线性回归系数的渐近正态性与 \(t\)-分布（用于祖先推断的 Type I error 控制）。

真实例子与应用： - 数据：Sachs et al. (2005) 的流式细胞术数据（蛋白质信号网络，\(p=11\) 变量，\(n\) 数百样本），这是因果发现领域的标准 benchmark。 - 怎么用上去： 1. 对每个目标蛋白质（如 PKC），用祖先回归检验其他蛋白质是否为其祖先，控制 Type I error 在 \(\alpha=0.05\)。 2. 用拟合优度检验验证数据是否符合线性 SEM 假设。 3. 与 LiNGAM（非高斯方法）和 PC 算法（约束型方法）比较推断结果。 - 得到什么结果： 1. 祖先回归在高斯设定下检测出部分祖先关系，但漏检了一些弱效应路径（功效低于 LiNGAM）。 2. 拟合优度检验未拒绝线性 SEM 假设（\(p\)-值 > 0.05），支持数据近似符合线性 SEM。 3. 与共识网络（Sachs et al. 2005 的 SC 列）及 Mooij & Heskes (2013) 的 MH 方法比较，祖先回归在方向推断上保守但无误判（Type I error 受控），而 LiNGAM 有少量误判但检出更多边。 - 这个例子想说明什么：验证祖先回归在真实数据上的 Type I error 控制与保守功效，展示拟合优度检验的实用性，并对比可识别方法（LiNGAM）在近似非高斯数据上的优势。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中 claim 祖先回归“在高斯不可识别设定下提供 Type I error 控制”，但理论证明（Theorem 1）严格依赖 DAG 与无隐藏混淆假设。若存在隐藏混淆，\(H_0\) 下 \(R_i\) 与 \(X_j\) 可能不独立（混淆路径无法被调整共同后代完全阻断），Type I error 控制失效——这一限制在正文中提及但未在主定理中显式量化。 - 拟合优度检验 claim “检验数据是否来自线性 SEM”，但定理只证明在“线性 SEM + 无隐藏混淆”下的渐近有效性；若数据来自非线性 SEM 但近似线性，检验可能无功效或 Type I error 膨胀——这一 gap 在文中作为 future work 提及。

四、开放问题（点到为止，扎根具体语句）¶

隐藏混淆下的祖先推断：本文 Theorem 1 依赖无隐藏混淆（因果充分性），若存在隐藏混淆，\(H_0\) 下独立性可能失效。要证什么：在允许隐藏混淆的设定下，能否构造残差使得 \(H_0\) 下独立性仍成立，或给出 Type I error 膨胀的显式界？扎根点：文中 Section 5 讨论 limitations 时提及“hidden confounding breaks the independence under \(H_0\)”。
高维设定（\(p \to \infty\)）的祖先推断：本文理论要求 \(p\) 固定、\(n \to \infty\)，高维下 OLS 不可行。要估什么：在 \(p > n\) 或 \(p \to \infty\) 设定下，用惩罚回归（如 Lasso）构造残差，能否保持 Type I error 控制？扎根点：文中未讨论高维，但 HOLS 2021 已有高维局部拟合优度检验，可查该文的高维扩展思路。
半参数或非线性 SEM 的拟合优度检验：本文拟合优度检验针对线性 SEM，非线性或半参数 SEM 下高阶交叉矩检验可能失效。要证什么：在半参数 SEM（如 \(X_j = f_j(\text{pa}_j) + \varepsilon_j\)）下，能否构造基于残差独立性的渐近有效拟合优度检验？扎根点：文中 Section 6 future work 提及“extension to nonlinear SEMs is an open problem”。
功效与不可识别性的显式取舍刻画：本文指出高斯下功效低于非高斯方法，但未给出功效的显式下界或与等价类大小的定量关系。要估什么：在给定等价类大小与噪声方差下，祖先回归的最小功效是多少？扎根点：文中 Theorem 2 给出功效依赖路径强度，但未量化等价类对功效的限制——可查 Chickering (2002) 的等价类大小刻画与本文功效公式的衔接。

Maintained by 陈星宇 · Homepage · Source on GitHub

Ancestor regression in linear structural equation models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论