Semiparametric Causal Discovery and Inference with Invalid Instruments¶

作者: Jing Zou, Wei Li, Wei Lin
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202025.0331

一、核心问题与贡献¶

①本文研究了在存在未观测混杂和潜在无效工具变量（IV）的设定下，基于观测数据的因果发现（学习有向无环图）与因果效应推断问题。②核心方法是引入部分线性结构方程模型（PLSEM），通过构造替代有效IV（surrogate valid IVs）实现半参数框架下的因果识别。③主要贡献在于证明了所提有限样本程序能一致学习因果结构，估计量具有渐近正态性，且在边恢复中能有效控制错误发现率（FDR）。

二、基础设定¶

核心概念与符号
PLSEM：$X_j = \sum_{k \neq j} \beta_{jk} X_k + g_j(Z) + \epsilon_j$，其中 $X$ 为内生变量，$Z$ 为IV，$g_j(\cdot)$ 为非参数函数，$\beta_{jk}$ 为因果效应。
Invalid IVs：满足 $E[\epsilon_j|Z] \neq 0$ 的工具变量，即与误差项相关（存在未观测混杂或直接效应）。
Surrogate valid IVs：通过特定投影和聚合规则构造的替代工具变量，满足外生性与相关性，用于替代原始的无效IV集合。
DAG：有向无环图，编码 $X$ 之间的因果结构。
关键假设
PLSEM形式假设：因果效应是线性的（$\beta_{jk}$），而IV对内生变量的影响是非参数的（$g_j(Z)$）。统计学含义：放宽了传统IV方法对线性模型的强依赖；对比：比纯线性SEM更灵活，比完全非参数方法更易获得 $\sqrt{n}$ 收敛率。
Plurality/Majority Rule（多数原则）：在候选IV集合中，有效IV的数目严格大于任何单一类型的无效IV数目。统计学含义：保证无效IV的偏误在聚合中被抵消，是识别的关键；对比：比传统IV方法要求所有IV均有效更宽松，与近期无效IV估计文献（如Guo et al., 2018）一致。
替代IV的外生性与相关性：构造的 surrogate valid IV 必须与误差项正交且与内生变量相关。统计学含义：确保两阶段最小二乘（或类似矩估计）的合法性。
问题背景
已有不足：现有因果发现方法在未观测混杂下失效；现有IV方法要么假设所有IV有效（违背现实），要么假设严格的线性关系（限制模型适用性）。
参考文献区别：区别于 Loh & Bühlmann (2014) 的线性SEM因果发现，本文允许非参数IV效应；区别于 Guo et al. (2018) 纯无效IV参数估计，本文聚焦半参数模型下的图结构学习与FDR控制。

三、主要定理 / 核心结果¶

识别定理
原文陈述：在PLSEM与Plurality rule下，因果方向 $\beta_{jk}$ 与图结构可通过 surrogate valid IVs 被非参数识别。
直观解释：即使部分IV无效，只要“好IV”比“同类型的坏IV”多，通过类似投票的聚合机制，就能构造出不受混杂污染的替代IV，从而剥离出因果效应。
技术难点：在非参数 $g_j(Z)$ 存在时，如何分离无效IV带来的内生性偏误与非线性IV效应。
局限：Plurality rule 在弱IV或无效IV类型极多时可能失效。
渐近正态性定理
原文陈述：因果效应估计量 $\hat{\beta}{jk}$ 满足 $\sqrt{n}(\hat{\beta}{jk} - \beta_{jk}) \xrightarrow{d} N(0, \sigma^2_{jk})$。
直观解释：尽管模型包含非参数部分 $g_j(Z)$ 和无效IV筛选的不确定性，因果效应的估计仍达到参数收敛率且服从中心极限定理。
技术难点：非参数函数 $g_j$ 的估计误差通常非参数收敛（如 $n^{-2/5}$），需利用 Robinson (1988) 型部分线性模型的特殊结构，证明其在正交投影后不影响线性参数的 $\sqrt{n}$ 收敛率。
局限：要求 $g_j$ 具备足够的光滑度，且 $Z$ 的维数不能过高（维数灾难）。
FDR控制定理
原文陈述：所提多重检验程序在边恢复中能控制错误发现率低于预设水平 $\alpha$。
直观解释：在因果发现中，错误地发现一条不存在的边（假阳性）的比例被严格控制。
技术难点：需处理估计量之间的复杂依赖结构，以及模型选择（无效IV筛选）带来的选择性偏差。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法 + 部分线性模型正交投影 + 矩方法 + 多重检验修正。
关键逻辑步骤：
残差正交化：对 $X_j$ 和 $X_k$ 关于 $Z$ 做非参数回归得到残差，消除非参数混淆函数 $g_j(Z)$ 和 $g_k(Z)$ 的影响，将问题转化为残差间的线性关系。
替代有效IV构造：利用 Plurality rule，对残差与IV的条件矩进行聚合/投票，筛选出或构造出满足外生性的 surrogate valid IVs。
矩估计与渐近分析：基于构造的替代IV建立矩条件，估计 $\beta_{jk}$；利用经验过程理论证明非参数残差带来的高阶项可忽略，从而获得 $\sqrt{n}$ 收敛率与渐近正态性。
FDR控制：基于渐近正态性计算 p-value，结合 BH (Benjamini-Hochberg) 过程或类似方法调整 p-value，证明在图结构学习中的 FDR 控制界。
最关键的技巧性引理/跳跃点：Surrogate valid IV 的构造及其外生性证明。这是从“存在无效IV”到“可识别”的跳跃点。通过某种聚合（如中位数或多数投票机制），使得局部矩条件的偏误相互抵消，构造出全局有效的矩条件。
数学工具评价：是经典半参数统计（Robinson变换）与无效IV识别（Plurality rule）及高维多重检验的巧妙组合，并非全新分析框架，但在因果发现这一具体场景的适配极具技巧性。

五、与研究者兴趣的关联¶

连接子方向：Proximal causal inference 的 negative control 设定 / IV 敏感性分析 / 半参数效率理论。
可借鉴的核心思路：
替代IV构造思路：在 Proximal CI 中，当 negative control 不完美时，可借鉴本文的 Plurality/聚合思路，构造满足条件独立性的“替代负对照”，实现稳健识别。
半参数无效IV的敏感性分析：本文的 Plurality rule 可视为一种结构性敏感性分析假设，可将其推广至量化违背 Plurality rule 程度对因果界的影响。
值得精读的关键参考文献：
Guo, Z., Kang, H., Cai, T. T., & Small, D. S. (2018). Confidence Intervals for Causal Effects with Invalid Instruments. 理解无效IV下 Plurality rule 的源头与参数设定下的推断逻辑。
Robinson, P. M. (1988). Root-N-Consistent Semiparametric Regression. 理解部分线性模型中非参数成分不破坏参数成分 $\sqrt{n}$ 收敛率的核心正交投影技术。
Loh, P. L., & Bühlmann, P. (2014). High-Dimensional Learning of Linear Causal DAGs. 对比在无混杂或有效IV下，线性因果发现的基础框架。

六、延伸思考与练习¶

假设扰动：若放宽 Plurality rule（即有效IV不占多数），结论会如何变化？技术上需要引入部分识别框架，推导因果效应的置信集合，而非点估计。
开放问题：如何将此框架扩展到高维设定（$p > n$），同时保证因果发现的一致性与FDR控制？非参数部分 $g_j(Z)$ 的维数灾难如何通过稀疏性假设或深度学习表征克服？
理解检测题：在 PLSEM $X_j = \beta_{jk} X_k + g_j(Z) + \epsilon_j$ 中，若 $Z$ 包含无效IV（即 $E[\epsilon_j|Z] \neq 0$），请简述为什么直接对 $X_j$ 关于 $X_k$ 和 $Z$ 做部分线性回归无法得到 $\beta_{jk}$ 的一致估计？Surrogate valid IV 是如何从矩条件层面克服这一内生性偏误的？

Maintained by 陈星宇 · Homepage · Source on GitHub