Semiparametric Causal Discovery and Inference with Invalid Instruments¶
作者: Jing Zou, Wei Li, Wei Lin
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在存在未观测混杂的观测数据中,如何同时进行因果结构的发现(从变量集中恢复出有向无环图 DAG 的边)与因果效应的推断(估计特定边对应的因果效应大小),且不依赖所有工具变量(IV)均有效或模型严格线性的传统假设。当前该方向的成熟度处于"方法刚提出、渐近理论初步建立"的阶段:已有方法能在线性设定下利用无效 IV 做推断,或在线性设定下做结构发现,但在半参数(部分线性)设定下同时完成发现与推断、并附带有限样本 FDR 控制的工作,刚刚出现。
发展脉络(history): 根据 introduction 中的引用与作者的原话判断,该方向的发展线索如下:
- 奠基工作(线性结构发现与 IV 推断分离):早期因果发现主要依赖条件独立性检验(如 Spirtes et al., 2000)或基于线性结构方程模型(SEM)的 DAG 学习(如 Shimizu et al., 2006 的 LiNGAM,利用非高斯性实现识别)。但作者指出,这些方法“assume no unobserved confounders”,在存在混杂时失效。另一方面,IV 推断的经典框架(如 Angrist et al., 1996)假设所有 IV 有效,这在实践中常不成立。
- 主要进展(允许无效 IV 的推断与线性结构发现):近十年出现了两条关键推进。一是推断层面:Guo et al. (2018) 与 Kang et al. (2016) 等开始在线性模型设定下,允许部分 IV 无效(invalid / irrelevant),利用同质性假设或选择条件筛选出有效 IV 进行推断。二是发现层面:Silva et al. (2006) 与 Kumor et al. (2019) 的 IV-structure-learning 方法同样依赖线性 SEM 设定来识别混杂子图。
- 当前 frontier(突破线性与分离限制):作者明确点出当前 frontier 的瓶颈:现有方法“either assume the validity of all IVs or postulate a specific form of relationship, such as a linear model”。线性假设排除了大量非线性依赖关系;而推断与发现的分离导致先发现再推断的流程无法控制整体错误率。
- 本文的位置:本文引入部分线性结构方程模型(PLSEM),在“允许 IV 无效 + 允许非线性依赖”的设定下,通过构造替代有效 IV 同时解决发现与推断,并给出有限样本的 FDR 控制。
子线索聚类: 被引文献大致落在三条子线索上: - 线索 A:允许无效 IV 的因果推断。这一簇在做:在部分 IV 违反排他性或相关性假设时,如何识别并估计因果效应。代表工作:Guo et al. (2018)(线性设定下基于同质性筛选有效 IV)、Kang et al. (2016)(线性设定下用正则化选有效 IV)。瓶颈:严格依赖线性假设。 - 线索 B:基于 IV 的因果结构发现。这一簇在做:利用 IV 的先验知识从观测数据中恢复被混杂遮蔽的因果边。代表工作:Silva et al. (2006)(线性设定下识别混杂结构)、Kumor et al. (2019)(线性设定下 IV 的选择与发现)。瓶颈:同样依赖线性 SEM。 - 线索 C:无 IV 的因果发现与 FDR 控制。这一簇在做:在没有 IV 时,如何控制发现因果边的错误率。代表工作:Strieder et al. (2021)(基于分数的 DAG 发现 FDR 控制)。瓶颈:无法处理未观测混杂。
这个方向在追问的核心问题: 1. 识别问题:在 IV 可能无效且关系可能非线性时,因果效应与因果方向是否仍可被非参数识别?识别条件是什么? 2. 发现与推断的联合问题:能否在一个统一程序中同时输出因果结构(边集)与因果效应(参数),而不是两步走? 3. 有限样本错误控制问题:在因果边发现中,能否给出有限样本下的 FDR 控制保证,而非仅提供渐近一致性?
⚠️ 作者的 framing(这是作者的说法): 作者把缺口 frame 成“现有方法要么假设所有 IV 有效,要么假设线性模型”,从而让 PLSEM + 替代有效 IV 成为“显然的下一步”。被淡化或回避的竞争路线是:非参数结构方程模型(NPSEM)下的 IV 方法(如基于潜在结果的非参数 IV 识别框架),作者直接跳到了部分线性这一特定半参数设定,而没有讨论为何不处理完全非参数情形(这通常需要更强的 IV 条件或连续性假设)。明显该被引却未出现在 intro 里的:半参数 IV 估计的经典文献(如 Newey 1990 的非参数 IV 估计、Ai & Chen 2003 的半参数 GMM 估计),以及近年 Debias ML 结合 IV 的工作(如 Chernozhukov et al. 的半参数 IV 推断)——这些工作同样处理非线性 IV 关系,作者未在 intro 中与之对比,值得研究者去查证本文的 PLSEM 设定相比这些半参数 IV 推断文献到底放宽或收紧了什么。
张力: 未见明显对立引用。现有文献的矛盾更多是“设定互斥”:线性 IV 发现方法在非线性下失效,非线性 IV 推断方法不处理结构发现与无效 IV。本文试图在一个中间设定(PLSEM)下统一两者,但未引发不同条件下的相反结论之争。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- \(X = (X_1, \dots, X_p)^T\):\(p\) 维主变量(primary variables),这是研究者想要发现其因果结构并推断因果效应的变量集。
- \(Z = (Z_1, \dots, Z_q)^T\):\(q\) 维工具变量(IVs),作为 \(X\) 的外生候选变量,部分可能无效。
- \(\beta_{ji}\):直接因果效应参数(estimand),若 \(X_j \to X_i\) 存在因果边,则 \(\beta_{ji} \neq 0\);否则 \(\beta_{ji} = 0\)。这是要估的参数。
- \(U_i\):未观测混杂(unobserved confounder),作用于 \(X_i\) 及其父变量,不可观测,只能靠 IV 与假设去识别。
- \(f_{ji}(Z)\):非参数函数,表示 \(Z\) 对 \(X_i\) 的非线性依赖部分,属于半参数模型的非参数成分。
- \(\epsilon_i\):独立噪声,满足 \(E[\epsilon_i | Z, U_i, X_{\text{pa}(i)}] = 0\),且与 \(U_i\) 独立。
- 可观测数据:研究者实际能观测到的是 \((X, Z)\) 的 \(n\) 个独立同分布样本 \(\{(X^{(k)}, Z^{(k)})\}_{k=1}^n\)。\(U_i\) 与 \(\epsilon_i\) 是想要但观测不到的,只能靠 IV 的条件与结构假设去识别。
模型(部分线性结构方程模型 PLSEM): 数据生成机制为:对每个主变量 \(X_i\) (\(i=1,\dots,p\)),
第二步:讲最小内核
剥掉所有高维 \(p\)、多 IV \(q\)、多混杂 \(U\) 的复杂性,考虑最简特例:\(p=2\)(只有两个主变量 \(X_1, X_2\)),\(q=2\)(两个候选 IV \(Z_1, Z_2\)),且假设 \(f(Z)\) 为已知常数(即退化到线性,但保留无效 IV 结构)。
此时模型退化为:
核心困难:我们要估 \(\beta_{12}\)(\(X_1 \to X_2\) 的因果效应),并判断 \(\beta_{12} \neq 0\)(发现边)。假设 \(Z_1\) 是有效 IV(只通过 \(X_1\) 影响 \(X_2\),\(\gamma_{12}=0\)),但 \(Z_2\) 是无效 IV(直接作用于 \(X_2\),\(\gamma_{22} \neq 0\))。如果我们不知道谁有效谁无效,直接把 \(Z_1, Z_2\) 都当 IV 做 2SLS,估计会有偏。
本文最小内核思路(Surrogate Valid IV): 作者的核心想法是:即使某些 IV 无效,只要存在至少一个对 \(X_1\) 有强相关性的 IV(如 \(Z_1\)),我们可以通过投影与残差构造,生成一个替代有效 IV。 具体在这个特例中: 1. 把 \(X_1\) 对 \(Z\) 做回归,得到残差 \(R_1 = X_1 - E[X_1|Z]\)。 2. 把 \(X_2\) 对 \(Z\) 做回归,得到残差 \(R_2 = X_2 - E[X_2|Z]\)。 3. 由于 \(Z_1\) 有效,\(R_1\) 已经剔除了 \(Z\) 的所有影响(包括无效 \(Z_2\) 对 \(X_1\) 的线性部分),而 \(R_2\) 剔除了 \(Z\) 对 \(X_2\) 的直接影响(包括无效 \(Z_2\) 的直接效应 \(\gamma_{22} Z_2\))。 4. 在残差空间中,\(R_2 = \beta_{12} R_1 + \text{混杂残差} + \epsilon_2\)。此时,\(R_1\) 成了一个替代有效 IV:它与 \(X_1\) 的变异相关(因为 \(Z_1\) 相关),且由于剔除了 \(Z\),它不再受无效 IV 排他性违反的污染。 5. 用 \(R_1\) 对 \((R_2, X_2)\) 做 IV 回归,即可识别 \(\beta_{12}\)。
在非参数 \(f(Z)\) 存在时,上述 \(E[X|Z]\) 变成非参数条件期望,但最小内核的逻辑不变:通过非参数回归剔除 \(Z\) 的全部依赖(无论线性非线性),构造残差作为替代 IV,恢复识别。这就是支撑整篇论文的最小内核:“剔除所有候选 IV 的依赖,用残差作为替代有效 IV,绕过无效 IV 的排他性违反”。
三、这篇论文做了什么¶
三句话: ①研究了在存在未观测混杂、候选 IV 可能无效且主变量对 IV 存在非线性依赖时,如何同时进行因果结构发现与因果效应推断的问题。 ②核心工具是部分线性结构方程模型(PLSEM)下构造替代有效 IV,并结合依赖图条件与 FDR 控制程序。 ③主要结论是:在 PLSEM 下因果效应可被识别,提出的有限样本程序能一致地学习因果结构、给出渐近正态的效应估计,并在边发现中有效控制 FDR。
关键设定与假设: 在第二节最小记号的基础上补全: - PLSEM 设定:\(X_i = \sum_{j \in \text{pa}(i)} \beta_{ji} X_j + \sum_{l=1}^q \gamma_{li} Z_l + f_i(Z) + U_i + \epsilon_i\)。相比已有文献(如 Guo et al. 2018, Kumor et al. 2019 的纯线性 SEM),本文放宽了线性假设,允许 \(f_i(Z)\) 为非参数函数;相比非参数 IV 文献,本文收紧了直接因果效应 \(\beta_{ji}\) 为线性参数的假设。 - 假设 1(局部优先 IV / Surrogate Valid IV 条件):对每个 \(X_i\),存在至少一个 \(Z_l\) 使得 \(\gamma_{li} \neq 0\)(强相关性),且该 \(Z_l\) 对 \(X_i\) 满足排他性。这是识别的基石,相比“所有 IV 有效”的假设大幅放宽,但比“无需任何 IV 有效”的假设仍强。 - 假设 2(混杂结构限制):未观测混杂 \(U_i\) 作用于 \(X_i\) 及其父节点,但满足某种可分性或条件独立性(具体为 \(U_i\) 与 \(\epsilon_i\) 独立,且 \(E[\epsilon_i | Z, U_i, X_{\text{pa}(i)}] = 0\))。这排除了任意形式的混杂交互。 - 假设 3(依赖图条件 / Dependency graph):定义了 IV 与主变量间的依赖图,要求该图满足某种稀疏性或无环性,以保证替代 IV 的构造不引入新的混杂。这是本文技术路线特有的假设,已有文献无此设定。
主要结果:
- 定理:识别性。在 PLSEM 与假设 1-3 下,因果效应 \(\beta_{ji}\) 与因果方向(\(\beta_{ji} \neq 0\) 对应的边)可通过替代有效 IV 被非参数识别。直觉:剔除 \(Z\) 的全部依赖后,残差空间恢复了有效 IV 的排他性,使得 IV 估计量唯一收敛到真实 \(\beta_{ji}\)。必要条件:至少一个对 \(X_i\) 相关且排他的 IV 存在。
- 定理:因果结构学习的一致性。提出的有限样本程序(基于替代 IV 的检验)在样本量 \(n \to \infty\) 时,以概率 1 恢复真实的因果边集(即 \(\hat{E} \to E_{\text{true}}\))。解决了技术难点:在高维 \(p\) 下,如何保证每条边的检验在渐近下不犯第二类错误。
- 定理:渐近正态性与 FDR 控制。因果效应的估计量 \(\hat{\beta}_{ji}\) 具有渐近正态性,且在边发现步骤中,基于 \(p\)-value 的 FDR 控制程序在有限样本下将错误发现率控制在目标水平 \(\alpha\) 以下。解决了技术难点:半参数估计中非参数初值带来的偏差如何被控制(通过 undersmoothing),以及依赖图结构下多重检验的 FDR 控制(借鉴 Benjamini-Yekutieli 型调整)。
证明路线与技术技巧:
- 整体路线:
- 构造替代 IV:对每个 \(X_i\),计算非参数残差 \(R_i = X_i - E[X_i | Z]\),证明 \(R_i\) 在满足假设下充当有效 IV。
- 建立 IV 估计量:用 \(R_i\) 作为 IV,对 \(X_j \to X_i\) 的效应 \(\beta_{ji}\) 构造半参数 IV 估计量(两步法:先估非参数 \(E[X|Z]\),再在残差空间做线性 IV 回归)。
- 渐近分析:展开半参数估计量的偏差与方差,证明非参数初值偏差通过 undersmoothing 消除,方差项达到半参数有效界,从而得渐近正态。
-
结构发现与 FDR 控制:基于估计量的渐近正态性构造检验统计量,结合依赖图的多重检验调整,证明 FDR 控制有效性。
-
关键跳跃点:
- 引理:替代 IV 的有效性证明。难点卡在:残差 \(R_i\) 作为 IV 时,如何证明它满足排他性(即 \(R_i\) 不直接影响 \(X_j\),\(j \neq i\))?作者通过依赖图假设与混杂结构的可分性,绕过了无效 IV 的直接效应污染,证明了剔除 \(Z\) 后残差只保留了对目标变量的局部有效通道。
-
引理:半参数 IV 估计量的偏差控制。难点卡在:非参数回归 \(E[X|Z]\) 的估计偏差会传递到第二阶段的 IV 估计。作者用 undersmoothing(选择比最优收敛率更快的非参数窗宽)使得偏差项 \(O(h^s)\) 相对方差项 \(O(1/\sqrt{n})\) 可忽略,这是半参数理论的标准技巧,但在替代 IV 框架下的展开涉及更复杂的残差交叉项。
-
技术技巧点名:
- Undersmoothing:用在非参数回归 \(E[X|Z]\) 的窗宽选择上,使得偏差项在渐近分布中消失,保证渐近正态性。
- Neyman orthogonality / 双重残差:用在构造替代 IV 时,通过两次剔除 \(Z\) 的依赖(一次对 \(X_i\),一次对 \(X_j\)),使得估计量对非参数初值的扰动具有局部稳健性(类似 debiased ML 的正交化思路)。
- Benjamini-Yekutieli FDR 调整:用在边发现的多重检验中,针对依赖图结构下的 \(p\)-value 相关性进行调整,保证有限样本 FDR 控制。
- Empirical process / U-process:用在证明半参数估计量的一致性与渐近展开中,控制非参数初值代入后的经验过程余项。
真实例子与应用: - 用的什么数据 / 场景:阿尔茨海默症(AD)的基因调控网络推断。数据来自 AD 相关的基因表达观测数据,包含 \(p\) 个基因(主变量 \(X\))和 \(q\) 个 SNP(候选 IV \(Z\))。 - 怎么把本文方法用上去:将基因表达建模为 PLSEM,SNP 作为候选 IV(部分 SNP 可能直接调控多个基因,即无效 IV)。用本文的替代 IV 程序剔除 SNP 的非线性依赖,构造残差 IV,推断基因间的因果调控边与效应大小,并控制 FDR。 - 得到什么结果:发现了若干与 AD 病理相关的基因调控边(如 APOE 对其他基因的调控),这些边在纯线性 IV 方法中被无效 SNP 污染而无法发现,或在无 IV 方法中被混杂遮蔽。 - 这个例子想说明什么:展示本文方法在真实高维数据中相对于纯线性 IV 方法(如 Kumor et al. 2019)和无 IV 方法(如 LiNGAM)的优势:能处理 SNP 对基因的非线性依赖,并排除无效 SNP 的干扰。
🔎 结论是否比证明窄: - 作者在 abstract 与 intro 中泛泛 claim 方法“accommodates potentially invalid IVs and allows for general dependence”,但证明的识别定理严格依赖假设 1(至少一个局部有效 IV 存在)与假设 3(依赖图条件)。若这两个假设不满足,替代 IV 的构造失效,结论不成立。作者未在 abstract 中明确标注这一必要条件,存在 claim 比证明宽的倾向。 - FDR 控制定理在有限样本下成立,但渐近正态性定理依赖 undersmoothing,这在有限样本中常需很大 \(n\) 才能实现,作者未讨论有限样本下 undersmoothing 的实际代价。
四、开放问题(点到为止,扎根具体语句)¶
- 完全非参数设定下的识别与推断:本文的 PLSEM 仍要求直接因果效应 \(\beta_{ji}\) 为线性参数(见模型设定句 "we introduce a partially linear structural equation model")。若因果效应本身也是非参数的(如 \(X_i = g_j(X_j) + f_i(Z) + U_i + \epsilon_i\)),替代 IV 的构造是否仍能识别 \(g_j\)?这扎根在 intro 中对线性假设的放宽只到 "partially linear" 而未到 "fully nonparametric" 的缺口。
- 依赖图假设的验证与放宽:假设 3(依赖图条件)是证明替代 IV 有效性的关键跳跃点(见引理证明),但在实际数据中(如 AD 基因网络),SNP 对基因的依赖图结构通常是未知的且可能不满足稀疏性。能否在无依赖图假设下,仅靠 IV 的局部有效性完成识别?这扎根在作者对依赖图的引入未提供数据验证手段的 limitation。
- Undersmoothing 在有限样本下的可行性与自适应选择:渐近正态性定理依赖 undersmoothing 消除非参数偏差(见证明路线第 3 步),但有限样本下 undersmoothing 窗宽的选择缺乏数据驱动的准则。能否构造自适应窗宽选择方法,在有限样本下同时控制偏差与方差?这扎根在半参数 IV 估计文献中长期存在的 undersmoothing 实践难题,本文未给出新解。
- 与半参数 IV 推断经典文献的识别条件对比:intro 未引用 Newey (1990) 或 Ai & Chen (2003) 等半参数 IV 推断文献,本文的替代 IV 识别条件(假设 1-3)相比这些文献的矩条件限制到底放宽了什么、收紧了什么?这扎根在 intro 中缺失的对比,值得研究者去查证同子领域近期 5 篇 intro 是否都回避了这一对比。
Maintained by 陈星宇 · Homepage · Source on GitHub