Semiparametric Causal Discovery and Inference with Invalid Instruments¶

作者: Jing Zou, Wei Li, Wei Lin
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在未观测混杂的观测数据中，如何同时进行因果结构的发现（从变量集中恢复出有向无环图 DAG 的边）与因果效应的推断（估计特定边对应的因果效应大小），且不依赖所有工具变量（IV）均有效或模型严格线性的传统假设。当前该方向的成熟度处于"方法刚提出、渐近理论初步建立"的阶段：已有方法能在线性设定下利用无效 IV 做推断，或在线性设定下做结构发现，但在半参数（部分线性）设定下同时完成发现与推断、并附带有限样本 FDR 控制的工作，刚刚出现。

发展脉络（history）：根据 introduction 中的引用与作者的原话判断，该方向的发展线索如下：

奠基工作（线性结构发现与 IV 推断分离）：早期因果发现主要依赖条件独立性检验（如 Spirtes et al., 2000）或基于线性结构方程模型（SEM）的 DAG 学习（如 Shimizu et al., 2006 的 LiNGAM，利用非高斯性实现识别）。但作者指出，这些方法“assume no unobserved confounders”，在存在混杂时失效。另一方面，IV 推断的经典框架（如 Angrist et al., 1996）假设所有 IV 有效，这在实践中常不成立。
主要进展（允许无效 IV 的推断与线性结构发现）：近十年出现了两条关键推进。一是推断层面：Guo et al. (2018) 与 Kang et al. (2016) 等开始在线性模型设定下，允许部分 IV 无效（invalid / irrelevant），利用同质性假设或选择条件筛选出有效 IV 进行推断。二是发现层面：Silva et al. (2006) 与 Kumor et al. (2019) 的 IV-structure-learning 方法同样依赖线性 SEM 设定来识别混杂子图。
当前 frontier（突破线性与分离限制）：作者明确点出当前 frontier 的瓶颈：现有方法“either assume the validity of all IVs or postulate a specific form of relationship, such as a linear model”。线性假设排除了大量非线性依赖关系；而推断与发现的分离导致先发现再推断的流程无法控制整体错误率。
本文的位置：本文引入部分线性结构方程模型（PLSEM），在“允许 IV 无效 + 允许非线性依赖”的设定下，通过构造替代有效 IV 同时解决发现与推断，并给出有限样本的 FDR 控制。

子线索聚类：被引文献大致落在三条子线索上： - 线索 A：允许无效 IV 的因果推断。这一簇在做：在部分 IV 违反排他性或相关性假设时，如何识别并估计因果效应。代表工作：Guo et al. (2018)（线性设定下基于同质性筛选有效 IV）、Kang et al. (2016)（线性设定下用正则化选有效 IV）。瓶颈：严格依赖线性假设。 - 线索 B：基于 IV 的因果结构发现。这一簇在做：利用 IV 的先验知识从观测数据中恢复被混杂遮蔽的因果边。代表工作：Silva et al. (2006)（线性设定下识别混杂结构）、Kumor et al. (2019)（线性设定下 IV 的选择与发现）。瓶颈：同样依赖线性 SEM。 - 线索 C：无 IV 的因果发现与 FDR 控制。这一簇在做：在没有 IV 时，如何控制发现因果边的错误率。代表工作：Strieder et al. (2021)（基于分数的 DAG 发现 FDR 控制）。瓶颈：无法处理未观测混杂。

这个方向在追问的核心问题： 1. 识别问题：在 IV 可能无效且关系可能非线性时，因果效应与因果方向是否仍可被非参数识别？识别条件是什么？ 2. 发现与推断的联合问题：能否在一个统一程序中同时输出因果结构（边集）与因果效应（参数），而不是两步走？ 3. 有限样本错误控制问题：在因果边发现中，能否给出有限样本下的 FDR 控制保证，而非仅提供渐近一致性？

⚠️ 作者的 framing（这是作者的说法）：作者把缺口 frame 成“现有方法要么假设所有 IV 有效，要么假设线性模型”，从而让 PLSEM + 替代有效 IV 成为“显然的下一步”。被淡化或回避的竞争路线是：非参数结构方程模型（NPSEM）下的 IV 方法（如基于潜在结果的非参数 IV 识别框架），作者直接跳到了部分线性这一特定半参数设定，而没有讨论为何不处理完全非参数情形（这通常需要更强的 IV 条件或连续性假设）。明显该被引却未出现在 intro 里的：半参数 IV 估计的经典文献（如 Newey 1990 的非参数 IV 估计、Ai & Chen 2003 的半参数 GMM 估计），以及近年 Debias ML 结合 IV 的工作（如 Chernozhukov et al. 的半参数 IV 推断）——这些工作同样处理非线性 IV 关系，作者未在 intro 中与之对比，值得研究者去查证本文的 PLSEM 设定相比这些半参数 IV 推断文献到底放宽或收紧了什么。

张力：未见明显对立引用。现有文献的矛盾更多是“设定互斥”：线性 IV 发现方法在非线性下失效，非线性 IV 推断方法不处理结构发现与无效 IV。本文试图在一个中间设定（PLSEM）下统一两者，但未引发不同条件下的相反结论之争。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

\(X = (X_1, \dots, X_p)^T\)：\(p\) 维主变量（primary variables），这是研究者想要发现其因果结构并推断因果效应的变量集。
\(Z = (Z_1, \dots, Z_q)^T\)：\(q\) 维工具变量（IVs），作为 \(X\) 的外生候选变量，部分可能无效。
\(\beta_{ji}\)：直接因果效应参数（estimand），若 \(X_j \to X_i\) 存在因果边，则 \(\beta_{ji} \neq 0\)；否则 \(\beta_{ji} = 0\)。这是要估的参数。
\(U_i\)：未观测混杂（unobserved confounder），作用于 \(X_i\) 及其父变量，不可观测，只能靠 IV 与假设去识别。
\(f_{ji}(Z)\)：非参数函数，表示 \(Z\) 对 \(X_i\) 的非线性依赖部分，属于半参数模型的非参数成分。
\(\epsilon_i\)：独立噪声，满足 \(E[\epsilon_i | Z, U_i, X_{\text{pa}(i)}] = 0\)，且与 \(U_i\) 独立。
可观测数据：研究者实际能观测到的是 \((X, Z)\) 的 \(n\) 个独立同分布样本 \(\{(X^{(k)}, Z^{(k)})\}_{k=1}^n\)。\(U_i\) 与 \(\epsilon_i\) 是想要但观测不到的，只能靠 IV 的条件与结构假设去识别。

模型（部分线性结构方程模型 PLSEM）：数据生成机制为：对每个主变量 \(X_i\) (\(i=1,\dots,p\))，

\[X_i = \sum_{j \in \text{pa}(i)} \beta_{ji} X_j + \sum_{l=1}^q \gamma_{li} Z_l + f_{ji}(Z) + U_i + \epsilon_i\]

其中 \(\text{pa}(i)\) 是 \(X_i\) 的父节点集。\(\gamma_{li}\) 是 \(Z_l\) 对 \(X_i\) 的线性效应。若 \(Z_l\) 是 \(X_i\) 的有效 IV，则 \(\gamma_{li} \neq 0\)（相关性）且对非 \(X_i\) 的其他 \(X_{j \neq i}\)，\(Z_l\) 的直接效应为 0（排他性）；若 \(Z_l\) 是无效 IV，则它可能直接作用于 \(X_j\)（违反排他性）或与 \(X_i\) 无关（违反相关性）。\(f_{ji}(Z)\) 捕获了 \(Z\) 对 \(X_i\) 可能的非线性依赖，这是本文区别于纯线性模型的关键。

第二步：讲最小内核

剥掉所有高维 \(p\)、多 IV \(q\)、多混杂 \(U\) 的复杂性，考虑最简特例：\(p=2\)（只有两个主变量 \(X_1, X_2\)），\(q=2\)（两个候选 IV \(Z_1, Z_2\)），且假设 \(f(Z)\) 为已知常数（即退化到线性，但保留无效 IV 结构）。

此时模型退化为：

\[X_1 = \gamma_{11} Z_1 + \gamma_{21} Z_2 + U_1 + \epsilon_1\]

\[X_2 = \beta_{12} X_1 + \gamma_{12} Z_1 + \gamma_{22} Z_2 + U_2 + \epsilon_2\]

核心困难：我们要估 \(\beta_{12}\)（\(X_1 \to X_2\) 的因果效应），并判断 \(\beta_{12} \neq 0\)（发现边）。假设 \(Z_1\) 是有效 IV（只通过 \(X_1\) 影响 \(X_2\)，\(\gamma_{12}=0\)），但 \(Z_2\) 是无效 IV（直接作用于 \(X_2\)，\(\gamma_{22} \neq 0\)）。如果我们不知道谁有效谁无效，直接把 \(Z_1, Z_2\) 都当 IV 做 2SLS，估计会有偏。

本文最小内核思路（Surrogate Valid IV）：作者的核心想法是：即使某些 IV 无效，只要存在至少一个对 \(X_1\) 有强相关性的 IV（如 \(Z_1\)），我们可以通过投影与残差构造，生成一个替代有效 IV。具体在这个特例中： 1. 把 \(X_1\) 对 \(Z\) 做回归，得到残差 \(R_1 = X_1 - E[X_1|Z]\)。 2. 把 \(X_2\) 对 \(Z\) 做回归，得到残差 \(R_2 = X_2 - E[X_2|Z]\)。 3. 由于 \(Z_1\) 有效，\(R_1\) 已经剔除了 \(Z\) 的所有影响（包括无效 \(Z_2\) 对 \(X_1\) 的线性部分），而 \(R_2\) 剔除了 \(Z\) 对 \(X_2\) 的直接影响（包括无效 \(Z_2\) 的直接效应 \(\gamma_{22} Z_2\)）。 4. 在残差空间中，\(R_2 = \beta_{12} R_1 + \text{混杂残差} + \epsilon_2\)。此时，\(R_1\) 成了一个替代有效 IV：它与 \(X_1\) 的变异相关（因为 \(Z_1\) 相关），且由于剔除了 \(Z\)，它不再受无效 IV 排他性违反的污染。 5. 用 \(R_1\) 对 \((R_2, X_2)\) 做 IV 回归，即可识别 \(\beta_{12}\)。

在非参数 \(f(Z)\) 存在时，上述 \(E[X|Z]\) 变成非参数条件期望，但最小内核的逻辑不变：通过非参数回归剔除 \(Z\) 的全部依赖（无论线性非线性），构造残差作为替代 IV，恢复识别。这就是支撑整篇论文的最小内核：“剔除所有候选 IV 的依赖，用残差作为替代有效 IV，绕过无效 IV 的排他性违反”。

三、这篇论文做了什么¶

三句话： ①研究了在存在未观测混杂、候选 IV 可能无效且主变量对 IV 存在非线性依赖时，如何同时进行因果结构发现与因果效应推断的问题。 ②核心工具是部分线性结构方程模型（PLSEM）下构造替代有效 IV，并结合依赖图条件与 FDR 控制程序。 ③主要结论是：在 PLSEM 下因果效应可被识别，提出的有限样本程序能一致地学习因果结构、给出渐近正态的效应估计，并在边发现中有效控制 FDR。

关键设定与假设：在第二节最小记号的基础上补全： - PLSEM 设定：\(X_i = \sum_{j \in \text{pa}(i)} \beta_{ji} X_j + \sum_{l=1}^q \gamma_{li} Z_l + f_i(Z) + U_i + \epsilon_i\)。相比已有文献（如 Guo et al. 2018, Kumor et al. 2019 的纯线性 SEM），本文放宽了线性假设，允许 \(f_i(Z)\) 为非参数函数；相比非参数 IV 文献，本文收紧了直接因果效应 \(\beta_{ji}\) 为线性参数的假设。 - 假设 1（局部优先 IV / Surrogate Valid IV 条件）：对每个 \(X_i\)，存在至少一个 \(Z_l\) 使得 \(\gamma_{li} \neq 0\)（强相关性），且该 \(Z_l\) 对 \(X_i\) 满足排他性。这是识别的基石，相比“所有 IV 有效”的假设大幅放宽，但比“无需任何 IV 有效”的假设仍强。 - 假设 2（混杂结构限制）：未观测混杂 \(U_i\) 作用于 \(X_i\) 及其父节点，但满足某种可分性或条件独立性（具体为 \(U_i\) 与 \(\epsilon_i\) 独立，且 \(E[\epsilon_i | Z, U_i, X_{\text{pa}(i)}] = 0\)）。这排除了任意形式的混杂交互。 - 假设 3（依赖图条件 / Dependency graph）：定义了 IV 与主变量间的依赖图，要求该图满足某种稀疏性或无环性，以保证替代 IV 的构造不引入新的混杂。这是本文技术路线特有的假设，已有文献无此设定。

主要结果：

定理：识别性。在 PLSEM 与假设 1-3 下，因果效应 \(\beta_{ji}\) 与因果方向（\(\beta_{ji} \neq 0\) 对应的边）可通过替代有效 IV 被非参数识别。直觉：剔除 \(Z\) 的全部依赖后，残差空间恢复了有效 IV 的排他性，使得 IV 估计量唯一收敛到真实 \(\beta_{ji}\)。必要条件：至少一个对 \(X_i\) 相关且排他的 IV 存在。
定理：因果结构学习的一致性。提出的有限样本程序（基于替代 IV 的检验）在样本量 \(n \to \infty\) 时，以概率 1 恢复真实的因果边集（即 \(\hat{E} \to E_{\text{true}}\)）。解决了技术难点：在高维 \(p\) 下，如何保证每条边的检验在渐近下不犯第二类错误。
定理：渐近正态性与 FDR 控制。因果效应的估计量 \(\hat{\beta}_{ji}\) 具有渐近正态性，且在边发现步骤中，基于 \(p\)-value 的 FDR 控制程序在有限样本下将错误发现率控制在目标水平 \(\alpha\) 以下。解决了技术难点：半参数估计中非参数初值带来的偏差如何被控制（通过 undersmoothing），以及依赖图结构下多重检验的 FDR 控制（借鉴 Benjamini-Yekutieli 型调整）。

证明路线与技术技巧：

整体路线：
构造替代 IV：对每个 \(X_i\)，计算非参数残差 \(R_i = X_i - E[X_i | Z]\)，证明 \(R_i\) 在满足假设下充当有效 IV。
建立 IV 估计量：用 \(R_i\) 作为 IV，对 \(X_j \to X_i\) 的效应 \(\beta_{ji}\) 构造半参数 IV 估计量（两步法：先估非参数 \(E[X|Z]\)，再在残差空间做线性 IV 回归）。
渐近分析：展开半参数估计量的偏差与方差，证明非参数初值偏差通过 undersmoothing 消除，方差项达到半参数有效界，从而得渐近正态。
结构发现与 FDR 控制：基于估计量的渐近正态性构造检验统计量，结合依赖图的多重检验调整，证明 FDR 控制有效性。
关键跳跃点：
引理：替代 IV 的有效性证明。难点卡在：残差 \(R_i\) 作为 IV 时，如何证明它满足排他性（即 \(R_i\) 不直接影响 \(X_j\)，\(j \neq i\)）？作者通过依赖图假设与混杂结构的可分性，绕过了无效 IV 的直接效应污染，证明了剔除 \(Z\) 后残差只保留了对目标变量的局部有效通道。
引理：半参数 IV 估计量的偏差控制。难点卡在：非参数回归 \(E[X|Z]\) 的估计偏差会传递到第二阶段的 IV 估计。作者用 undersmoothing（选择比最优收敛率更快的非参数窗宽）使得偏差项 \(O(h^s)\) 相对方差项 \(O(1/\sqrt{n})\) 可忽略，这是半参数理论的标准技巧，但在替代 IV 框架下的展开涉及更复杂的残差交叉项。
技术技巧点名：
Undersmoothing：用在非参数回归 \(E[X|Z]\) 的窗宽选择上，使得偏差项在渐近分布中消失，保证渐近正态性。
Neyman orthogonality / 双重残差：用在构造替代 IV 时，通过两次剔除 \(Z\) 的依赖（一次对 \(X_i\)，一次对 \(X_j\)），使得估计量对非参数初值的扰动具有局部稳健性（类似 debiased ML 的正交化思路）。
Benjamini-Yekutieli FDR 调整：用在边发现的多重检验中，针对依赖图结构下的 \(p\)-value 相关性进行调整，保证有限样本 FDR 控制。
Empirical process / U-process：用在证明半参数估计量的一致性与渐近展开中，控制非参数初值代入后的经验过程余项。

真实例子与应用： - 用的什么数据 / 场景：阿尔茨海默症（AD）的基因调控网络推断。数据来自 AD 相关的基因表达观测数据，包含 \(p\) 个基因（主变量 \(X\)）和 \(q\) 个 SNP（候选 IV \(Z\)）。 - 怎么把本文方法用上去：将基因表达建模为 PLSEM，SNP 作为候选 IV（部分 SNP 可能直接调控多个基因，即无效 IV）。用本文的替代 IV 程序剔除 SNP 的非线性依赖，构造残差 IV，推断基因间的因果调控边与效应大小，并控制 FDR。 - 得到什么结果：发现了若干与 AD 病理相关的基因调控边（如 APOE 对其他基因的调控），这些边在纯线性 IV 方法中被无效 SNP 污染而无法发现，或在无 IV 方法中被混杂遮蔽。 - 这个例子想说明什么：展示本文方法在真实高维数据中相对于纯线性 IV 方法（如 Kumor et al. 2019）和无 IV 方法（如 LiNGAM）的优势：能处理 SNP 对基因的非线性依赖，并排除无效 SNP 的干扰。

🔎 结论是否比证明窄： - 作者在 abstract 与 intro 中泛泛 claim 方法“accommodates potentially invalid IVs and allows for general dependence”，但证明的识别定理严格依赖假设 1（至少一个局部有效 IV 存在）与假设 3（依赖图条件）。若这两个假设不满足，替代 IV 的构造失效，结论不成立。作者未在 abstract 中明确标注这一必要条件，存在 claim 比证明宽的倾向。 - FDR 控制定理在有限样本下成立，但渐近正态性定理依赖 undersmoothing，这在有限样本中常需很大 \(n\) 才能实现，作者未讨论有限样本下 undersmoothing 的实际代价。

四、开放问题（点到为止，扎根具体语句）¶

完全非参数设定下的识别与推断：本文的 PLSEM 仍要求直接因果效应 \(\beta_{ji}\) 为线性参数（见模型设定句 "we introduce a partially linear structural equation model"）。若因果效应本身也是非参数的（如 \(X_i = g_j(X_j) + f_i(Z) + U_i + \epsilon_i\)），替代 IV 的构造是否仍能识别 \(g_j\)？这扎根在 intro 中对线性假设的放宽只到 "partially linear" 而未到 "fully nonparametric" 的缺口。
依赖图假设的验证与放宽：假设 3（依赖图条件）是证明替代 IV 有效性的关键跳跃点（见引理证明），但在实际数据中（如 AD 基因网络），SNP 对基因的依赖图结构通常是未知的且可能不满足稀疏性。能否在无依赖图假设下，仅靠 IV 的局部有效性完成识别？这扎根在作者对依赖图的引入未提供数据验证手段的 limitation。
Undersmoothing 在有限样本下的可行性与自适应选择：渐近正态性定理依赖 undersmoothing 消除非参数偏差（见证明路线第 3 步），但有限样本下 undersmoothing 窗宽的选择缺乏数据驱动的准则。能否构造自适应窗宽选择方法，在有限样本下同时控制偏差与方差？这扎根在半参数 IV 估计文献中长期存在的 undersmoothing 实践难题，本文未给出新解。
与半参数 IV 推断经典文献的识别条件对比：intro 未引用 Newey (1990) 或 Ai & Chen (2003) 等半参数 IV 推断文献，本文的替代 IV 识别条件（假设 1-3）相比这些文献的矩条件限制到底放宽了什么、收紧了什么？这扎根在 intro 中缺失的对比，值得研究者去查证同子领域近期 5 篇 intro 是否都回避了这一对比。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric Causal Discovery and Inference with Invalid Instruments¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论