Semiparametric Causal Discovery and Inference with Invalid Instruments¶
作者: Jing Zou, Wei Li, Wei Lin
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202025.0331
一、核心问题与贡献¶
①本文研究了在存在未观测混杂和潜在无效工具变量(IV)的设定下,基于观测数据的因果发现(学习有向无环图)与因果效应推断问题。②核心方法是引入部分线性结构方程模型(PLSEM),通过构造替代有效IV(surrogate valid IVs)实现半参数框架下的因果识别。③主要贡献在于证明了所提有限样本程序能一致学习因果结构,估计量具有渐近正态性,且在边恢复中能有效控制错误发现率(FDR)。
二、基础设定¶
- 核心概念与符号
- PLSEM:$X_j = \sum_{k \neq j} \beta_{jk} X_k + g_j(Z) + \epsilon_j$,其中 $X$ 为内生变量,$Z$ 为IV,$g_j(\cdot)$ 为非参数函数,$\beta_{jk}$ 为因果效应。
- Invalid IVs:满足 $E[\epsilon_j|Z] \neq 0$ 的工具变量,即与误差项相关(存在未观测混杂或直接效应)。
- Surrogate valid IVs:通过特定投影和聚合规则构造的替代工具变量,满足外生性与相关性,用于替代原始的无效IV集合。
-
DAG:有向无环图,编码 $X$ 之间的因果结构。
-
关键假设
- PLSEM形式假设:因果效应是线性的($\beta_{jk}$),而IV对内生变量的影响是非参数的($g_j(Z)$)。统计学含义:放宽了传统IV方法对线性模型的强依赖;对比:比纯线性SEM更灵活,比完全非参数方法更易获得 $\sqrt{n}$ 收敛率。
- Plurality/Majority Rule(多数原则):在候选IV集合中,有效IV的数目严格大于任何单一类型的无效IV数目。统计学含义:保证无效IV的偏误在聚合中被抵消,是识别的关键;对比:比传统IV方法要求所有IV均有效更宽松,与近期无效IV估计文献(如Guo et al., 2018)一致。
-
替代IV的外生性与相关性:构造的 surrogate valid IV 必须与误差项正交且与内生变量相关。统计学含义:确保两阶段最小二乘(或类似矩估计)的合法性。
-
问题背景
- 已有不足:现有因果发现方法在未观测混杂下失效;现有IV方法要么假设所有IV有效(违背现实),要么假设严格的线性关系(限制模型适用性)。
- 参考文献区别:区别于 Loh & Bühlmann (2014) 的线性SEM因果发现,本文允许非参数IV效应;区别于 Guo et al. (2018) 纯无效IV参数估计,本文聚焦半参数模型下的图结构学习与FDR控制。
三、主要定理 / 核心结果¶
- 识别定理
- 原文陈述:在PLSEM与Plurality rule下,因果方向 $\beta_{jk}$ 与图结构可通过 surrogate valid IVs 被非参数识别。
- 直观解释:即使部分IV无效,只要“好IV”比“同类型的坏IV”多,通过类似投票的聚合机制,就能构造出不受混杂污染的替代IV,从而剥离出因果效应。
- 技术难点:在非参数 $g_j(Z)$ 存在时,如何分离无效IV带来的内生性偏误与非线性IV效应。
-
局限:Plurality rule 在弱IV或无效IV类型极多时可能失效。
-
渐近正态性定理
- 原文陈述:因果效应估计量 $\hat{\beta}{jk}$ 满足 $\sqrt{n}(\hat{\beta}{jk} - \beta_{jk}) \xrightarrow{d} N(0, \sigma^2_{jk})$。
- 直观解释:尽管模型包含非参数部分 $g_j(Z)$ 和无效IV筛选的不确定性,因果效应的估计仍达到参数收敛率且服从中心极限定理。
- 技术难点:非参数函数 $g_j$ 的估计误差通常非参数收敛(如 $n^{-2/5}$),需利用 Robinson (1988) 型部分线性模型的特殊结构,证明其在正交投影后不影响线性参数的 $\sqrt{n}$ 收敛率。
-
局限:要求 $g_j$ 具备足够的光滑度,且 $Z$ 的维数不能过高(维数灾难)。
-
FDR控制定理
- 原文陈述:所提多重检验程序在边恢复中能控制错误发现率低于预设水平 $\alpha$。
- 直观解释:在因果发现中,错误地发现一条不存在的边(假阳性)的比例被严格控制。
- 技术难点:需处理估计量之间的复杂依赖结构,以及模型选择(无效IV筛选)带来的选择性偏差。
四、证明框架 / 方法设计¶
- 证明主干逻辑:构造法 + 部分线性模型正交投影 + 矩方法 + 多重检验修正。
- 关键逻辑步骤:
- 残差正交化:对 $X_j$ 和 $X_k$ 关于 $Z$ 做非参数回归得到残差,消除非参数混淆函数 $g_j(Z)$ 和 $g_k(Z)$ 的影响,将问题转化为残差间的线性关系。
- 替代有效IV构造:利用 Plurality rule,对残差与IV的条件矩进行聚合/投票,筛选出或构造出满足外生性的 surrogate valid IVs。
- 矩估计与渐近分析:基于构造的替代IV建立矩条件,估计 $\beta_{jk}$;利用经验过程理论证明非参数残差带来的高阶项可忽略,从而获得 $\sqrt{n}$ 收敛率与渐近正态性。
- FDR控制:基于渐近正态性计算 p-value,结合 BH (Benjamini-Hochberg) 过程或类似方法调整 p-value,证明在图结构学习中的 FDR 控制界。
- 最关键的技巧性引理/跳跃点:Surrogate valid IV 的构造及其外生性证明。这是从“存在无效IV”到“可识别”的跳跃点。通过某种聚合(如中位数或多数投票机制),使得局部矩条件的偏误相互抵消,构造出全局有效的矩条件。
- 数学工具评价:是经典半参数统计(Robinson变换)与无效IV识别(Plurality rule)及高维多重检验的巧妙组合,并非全新分析框架,但在因果发现这一具体场景的适配极具技巧性。
五、与研究者兴趣的关联¶
- 连接子方向:Proximal causal inference 的 negative control 设定 / IV 敏感性分析 / 半参数效率理论。
- 可借鉴的核心思路:
- 替代IV构造思路:在 Proximal CI 中,当 negative control 不完美时,可借鉴本文的 Plurality/聚合思路,构造满足条件独立性的“替代负对照”,实现稳健识别。
- 半参数无效IV的敏感性分析:本文的 Plurality rule 可视为一种结构性敏感性分析假设,可将其推广至量化违背 Plurality rule 程度对因果界的影响。
- 值得精读的关键参考文献:
- Guo, Z., Kang, H., Cai, T. T., & Small, D. S. (2018). Confidence Intervals for Causal Effects with Invalid Instruments. 理解无效IV下 Plurality rule 的源头与参数设定下的推断逻辑。
- Robinson, P. M. (1988). Root-N-Consistent Semiparametric Regression. 理解部分线性模型中非参数成分不破坏参数成分 $\sqrt{n}$ 收敛率的核心正交投影技术。
- Loh, P. L., & Bühlmann, P. (2014). High-Dimensional Learning of Linear Causal DAGs. 对比在无混杂或有效IV下,线性因果发现的基础框架。
六、延伸思考与练习¶
- 假设扰动:若放宽 Plurality rule(即有效IV不占多数),结论会如何变化?技术上需要引入部分识别框架,推导因果效应的置信集合,而非点估计。
- 开放问题:如何将此框架扩展到高维设定($p > n$),同时保证因果发现的一致性与FDR控制?非参数部分 $g_j(Z)$ 的维数灾难如何通过稀疏性假设或深度学习表征克服?
- 理解检测题:在 PLSEM $X_j = \beta_{jk} X_k + g_j(Z) + \epsilon_j$ 中,若 $Z$ 包含无效IV(即 $E[\epsilon_j|Z] \neq 0$),请简述为什么直接对 $X_j$ 关于 $X_k$ 和 $Z$ 做部分线性回归无法得到 $\beta_{jk}$ 的一致估计?Surrogate valid IV 是如何从矩条件层面克服这一内生性偏误的?
Maintained by 陈星宇 · Homepage · Source on GitHub