Semiparametric efficient G-estimation with invalid instrumental variables¶

作者: B Sun, Z Liu, E J Tchetgen Tchetgen
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在未观测混杂的因果推断中，当分析师引入多个候选工具变量（IV）以提升估计效率时，如何应对部分（甚至大部分）候选 IV 违反核心假设（特别是排除限制 / 外生性）所带来的偏倚。当前该方向的成熟度处于“方法爆发但理论尚未统一”的阶段：大量针对孟德尔随机化（MR）的稳健估计器被提出，但多数依赖特定的参数模型或选择机制，且缺乏在半参数框架下对效率界限与多重稳健性的系统刻画。

发展脉络： - 奠基工作：传统 IV 估计（如 2SLS）要求所有 IV 完全有效；Kang et al. (2016) 首次形式化定义了“部分无效 IV”设定，并提出 sisVIVE（基于 \(\ell_1\) 惩罚的选择法），留下口子：选择法依赖稀疏性与模型选择一致性，且置信区间在模型选择后无法保证均匀有效（Leeb & Pötscher, 2008 指出此陷阱）。 - 主要进展（非选择 / 稳健路线）：Bowden et al. (2016) 提出加权中位数估计器，在少于 50% 信息来自无效 IV 时保持一致；Windmeijer et al. (2019) 指出 Lasso 在无效 IV 较强时选择不一致，转而提出基于中值的自适应 Lasso；Hartwig et al. (2017) 放宽“多数有效”为“众数有效”（plurality / ZMPE），即最大同质簇有效即可；Kolesár et al. (2015) 走另一路线：假设无效 IV 的直接效应与其对暴露的效应不相关，用修正的 bias-corrected 2SLS 获得一致估计。 - 当前 frontier（半参数 / 异方差路线）：Tchetgen Tchetgen et al. (2021) 的 MR-GENIUS 利用暴露对 IV 的异方差性识别因果效应，无需排除限制但需单一 IV；Liu et al. (2020) 的 MR MiSTERI 结合异方差与无交互假设，用单一无效 IV 识别；Ye et al. (2021) 的 GENIUS-MAWII 将 MR-GENIUS 推广至多弱无效 IV 设定，建立连续更新估计器的渐近理论。 - 本文的位置：Sun, Liu & Tchetgen Tchetgen (本文) 在上述稳健路线与半参数理论之间架桥：保留“多数规则”（或更一般的 \(\gamma\)-valid 规则）作为识别条件，但放弃基于选择或中值的构造，转而在 G-估计框架下利用半参数效率理论，构造出多重稳健且半参数有效的估计器。

子线索聚类： 1. 选择 / 稀疏路线：Kang et al. (2016) sisVIVE → Windmeijer et al. (2019) adaptive Lasso → Zhao et al. (2020) RAPS。核心思路：把无效 IV 的直接效应当作稀疏参数，用 \(\ell_1\) 或类似惩罚选出有效 IV，再做 IV 估计。瓶颈：模型选择的不一致性（强 IV 反而难选）与后选择推断的失效。 2. 聚合 / 稳健路线：Bowden et al. (2016) 加权中位数 → Hartwig et al. (2017) 众数估计 → Qi & Chatterjee (2019) MRMix 混合模型。核心思路：不选 IV，而是聚合所有 IV 的 Wald 估计值，利用多数 / 众数原则让有效 IV 的信号主导。瓶颈：效率损失、对无效 IV 直接效应的同质性或分布有隐性要求。 3. 半参数 / 结构路线：Kolesár et al. (2015) 直接效应与暴露效应不相关 → MR-GENIUS / MR MiSTERI / GENIUS-MAWII（异方差识别）。核心思路：用结构性假设（不相关 / 异方差）绕开排除限制。瓶颈：假设强且难验证、多 IV 扩展困难。 4. 半参数效率与多重稳健路线（本文所在）：Robins (1994) G-估计 → Chernozhukov et al. (2018) Debiased ML / 局部稳健 → 本文。核心思路：在 G-估计方程中嵌入对无效 IV 直接效应的投影，利用半参数理论求有效影响函数，实现多重稳健与效率。

这个方向在追问的核心问题： 1. 识别：在不知道哪些 IV 有效时，最少需要多少有效 IV 才能识别因果效应？（当前共识：多数规则或众数规则，但条件强度与可验证性仍是争议点。） 2. 估计的稳健性：能否构造在多个 nuisance 模型中任意一个正确时即一致的估计器？（当前瓶颈：多数方法仅双稳健或单稳健，对高维 nuisance 的多重稳健缺乏理论。） 3. 效率：在部分 IV 无效的半参数模型中，效率界限是什么？能否达到？（当前瓶颈：除本文外，几乎无工作给出半参数效率界与有效影响函数。） 4. 推断：后选择推断的失效如何规避？（当前瓶颈：选择路线的置信区间不均匀有效；聚合路线的渐近分布常依赖同质性假设。）

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有方法要么依赖模型选择（带来后选择推断失效），要么依赖聚合（损失效率且隐性要求同质性），要么依赖结构性假设（异方差 / 不相关，难验证且难推广至多 IV）；而半参数效率理论在此设定下尚未被建立。因此，“显然的下一步”是在 G-估计框架下引入投影机制，推导有效影响函数，实现多重稳健与半参数有效。 - 被淡化或回避的竞争路线：Kolesár et al. (2015) 的“直接效应与暴露效应不相关”假设在 intro 中被提及但未深入对比——该假设在某些 MR 场景下可能比多数规则更合理，但作者将其归入“需要额外结构性假设”的一类，未讨论其与本文 \(\gamma\)-valid 规则的权衡。MR MiSTERI / GENIUS 的异方差路线也被提及但被定位为“单一 IV 或需额外假设”，回避了其与本文在多 IV 设定下的直接效率对比。 - 明显该被引但未出现的：Proximal causal inference（如 Tchetgen Tchetgen et al. 2020 的工作）——该路线同样处理无效 IV / 未观测混杂，且同样使用半参数效率理论，但用负面对照代替 IV。本文未引用此线，可能因为设定差异（proximal 需两个无效 IV 满足混杂桥接假设，本文需多数有效 IV），但研究者值得去查：proximal 的效率理论是否可移植到本文的 \(\gamma\)-valid 设定？此外，Bai & Ng (2010) 等因子模型 IV 文献也未出现——它们用因子结构处理多弱 IV，与本文的投影机制有潜在交集。

张力： - 未见明显对立引用（即在同一设定下得相反结论）。但存在隐性张力：Kang et al. (2016) 与 Windmeijer et al. (2019) 对 Lasso 选择无效 IV 的能力有不同判断（前者认为可行，后者证明在强 IV 下不一致）；Hartwig et al. (2017) 的众数规则与 Bowden et al. (2016) 的多数规则在“有效 IV 是否需要占多数”上有不同立场。本文的 \(\gamma\)-valid 规则试图统一这些条件，但未讨论众数规则下的效率理论是否可行。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(\beta^*\)：目标因果参数（estimand），暴露 \(X\) 对结局 \(Y\) 的因果效应（线性结构方程中的系数）。
\(K\)：候选 IV 的数量（维数 / 指标）。
\(Z = (Z_1, \dots, Z_K)^T\)：\(K\) 维候选 IV 向量（可观测随机变量）。
\(X\)：暴露 / 处理（可观测随机变量）。
\(Y\)：结局（可观测随机变量）。
\(U\)：未观测混杂（不可观测潜在变量）。
\(\xi_k^*\)：IV \(Z_k\) 对暴露 \(X\) 的因果效应（可观测关联可识别，参数）。
\(\pi_k^*\)：IV \(Z_k\) 对结局 \(Y\) 的直接因果效应（违反排除限制的幅度；不可观测，参数）。
\(\gamma\)：分析师事先设定的有效 IV 最少数量（指标，\(\gamma \leq K\)）。
\(\mathcal{V}^*\)：真实有效 IV 的集合（\(\mathcal{V}^* = \{k : \pi_k^* = 0\}\)），不可观测但假设 \(|\mathcal{V}^*| \geq \gamma\)。
\(V\)：可观测协变量向量（用于调整混杂或 IV 强度；本文设定中可省略，但一般理论中包含）。
\(n\)：样本量。

模型（数据生成机制）：线性结构方程模型：

\[X = \sum_{k=1}^K \xi_k^* Z_k + \eta_X(U, V)\]

\[Y = \beta^* X + \sum_{k=1}^K \pi_k^* Z_k + \eta_Y(U, V)\]

其中 \(\eta_X, \eta_Y\) 为未观测混杂 \(U\) 与协变量 \(V\) 的函数（非参数），\(Z\) 与 \(U\) 独立（IV 的独立性假设，但排除限制可能被违反即 \(\pi_k^* \neq 0\)）。关键识别条件：\(|\mathcal{V}^*| \geq \gamma\)（\(\gamma\)-valid 规则），且所有 IV 相关（\(\xi_k^* \neq 0\)）。

可观测数据：对每个个体 \(i=1,\dots,n\)，可观测 \((Z_i, X_i, Y_i)\)（及可能的 \(V_i\)）。不可观测的是 \(U_i\)、\(\pi_k^*\) 的真实值、\(\mathcal{V}^*\) 的真实身份。识别必须依靠 \(\gamma\)-valid 规则与 IV 的相关性，通过投影机制将无效 IV 的直接效应“吸收”到有效 IV 的空间中。

第二步：最小内核（最简特例：\(K=2, \gamma=1\)）

考虑最简特例：2 个候选 IV（\(Z_1, Z_2\)），其中至少 1 个有效（\(\gamma=1\)），但不知道哪个有效。假设 \(\xi_1^*, \xi_2^* \neq 0\)（两 IV 均相关）。

核心困难：传统 IV 估计（2SLS）用 \(Z_1, Z_2\) 作工具，若任一 IV 无效（\(\pi_k^* \neq 0\)），则估计有偏。选择法（如 Lasso）在 \(K=2\) 时无法区分哪个有效（稀疏性不成立）。聚合法（中位数）在 \(K=2\) 时退化为单个 Wald 估计，无法稳健。

本文最小内核的破法：构造 G-估计方程，利用投影消去 \(\pi_k^*\) 的影响。具体： 1. 定义残差：\(R_Y(\beta) = Y - \beta X\)（对结局去暴露效应）。 2. 定义投影矩阵：将 \(Z\) 投影到自身空间，但权重由 \(\xi_k^*\) 决定。在 \(K=2\) 时，构造向量 \(h(Z) = (h_1(Z), h_2(Z))^T\)，其中 \(h_k(Z)\) 是 \(Z_k\) 的函数（最简取 \(h_k = Z_k\)）。 3. 关键步骤：引入投影算子 \(P_\gamma\)，将无效 IV 的直接效应投影到有效 IV 的暴露效应上。在 \(K=2, \gamma=1\) 时，投影机制退化为：对任意 \(k\)，存在 \(c\) 使得 \(\pi_k^* = c \xi_k^*\)（若 \(k\) 无效），而有效 IV 的 \(\pi_k^* = 0\)。因此，\(R_Y(\beta^*) = \sum_k \pi_k^* Z_k + \eta_Y = c \sum_{k \notin \mathcal{V}^*} \xi_k^* Z_k + \eta_Y\)（假设无效 IV 的直接效应与其暴露效应成比例——这是最简特例的隐性假设，一般情形用投影矩阵代替）。 4. G-估计方程：\(E\left[ (Z - E[Z|V]) \cdot (R_Y(\beta) - P_\gamma \cdot R_Y(\beta)) \right] = 0\)。在最简特例中，这退化为 \(E\left[ Z_1 \cdot (R_Y(\beta^*) - c \xi_1^* Z_1) \right] = 0\)（若 \(Z_1\) 有效），或类似方程用 \(Z_2\)。由于不知道哪个有效，构造聚合方程：对所有 \(k\) 构造类似方程，利用 \(\gamma\)-valid 规则保证至少 \(\gamma\) 个方程在 \(\beta^*\) 处成立，通过加权或投影消去 \(c\) 的影响。 5. 为什么成立：投影机制 \(P_\gamma\) 的设计保证：无论哪些 IV 无效，\(P_\gamma \cdot R_Y(\beta^*)\) 恰好吸收了无效 IV 的直接效应（因为 \(\pi_k^* = c \xi_k^*\) 被投影到 \(\xi_k^* Z_k\) 上），使得残差 \((R_Y - P_\gamma R_Y)\) 中不再含 \(\pi_k^*\)，从而 G-估计方程只依赖 \(\beta^*\) 与 \(\xi_k^*\)（可估），实现识别。

一般情形的“加壳”：\(K\) 个 IV、\(\gamma\)-valid 规则、非参数混杂 \(\eta_X, \eta_Y\)、高维协变量 \(V\)。投影矩阵 \(P_\gamma\) 变为基于 \(\xi_k^*\) 与 IV 相关性的高维投影，G-估计方程嵌入 nuisance 函数（\(E[Z|V], E[X|V], E[Y|V]\)），通过半参数效率理论推导有效影响函数，实现多重稳健与效率。

三、这篇论文做了什么¶

三句话： ① 研究了在多个候选 IV 可能违反排除限制时，如何在不依赖模型选择的前提下识别与估计因果效应 \(\beta^*\)。 ② 核心工具是基于投影机制的 G-估计方程与半参数效率理论（有效影响函数 + 多重稳健）。 ③ 主要结论是构造出一类多重稳健、半参数有效的 G-估计器，在 \(\gamma\)-valid 规则下保持一致性与渐近正态性，且效率达到半参数效率界。

关键设定与假设： - 设定：线性结构方程模型（\(Y = \beta^* X + \sum_k \pi_k^* Z_k + \eta_Y\)），非参数混杂 \(\eta_X, \eta_Y\)，可观测 \((Z, X, Y, V)\)。 - 假设 A1（IV 相关性）：所有 \(K\) 个 IV 均与暴露相关（\(\xi_k^* \neq 0\)），即 \(| \{k : \xi_k^* \neq 0\} | = K\)。统计含义：无弱 IV，保证投影矩阵满秩。 - 假设 A2（\(\gamma\)-valid 规则）：至少 \(\gamma\) 个 IV 有效（\(|\mathcal{V}^*| \geq \gamma\)），\(\gamma\) 由分析师事先设定。统计含义：识别条件，放宽传统“所有 IV 有效”与 Kang et al. (2016) 的“多数有效”（\(\gamma > K/2\)），允许更少有效 IV（如 \(\gamma = 1\)）。 - 假设 A3（IV 独立性）：\(Z \perp U\)（IV 与未观测混杂独立）。统计含义：标准 IV 假设，保留。 - 假设 A4（条件期望结构）：\(E[X|Z, V] = \sum_k \xi_k^* Z_k + m_X(V)\)，\(E[Y|Z, V] = \beta^* E[X|Z, V] + \sum_k \pi_k^* Z_k + m_Y(V)\)。统计含义：暴露与结局的条件期望对 IV 是线性的（对混杂 \(V\) 非参数），这是 G-估计可行性的关键——允许投影矩阵基于 \(\xi_k^*\) 构造。 - 放宽 / 强化对比：相比 Kang et al. (2016) 的多数规则（\(\gamma > K/2\)），本文允许 \(\gamma \leq K/2\)（但需额外条件，见下）；相比 MR-GENIUS 的异方差假设，本文保留排除限制的违反但用投影代替异方差；相比选择路线，本文不依赖模型选择一致性。

主要结果：

定理 1（识别）：在假设 A1-A4 与 \(\gamma\)-valid 规则下，\(\beta^*\) 通过 G-估计方程唯一识别。直觉：投影机制 \(P_\gamma\) 将无效 IV 的直接效应 \(\pi_k^*\) 映射到暴露效应 \(\xi_k^*\) 的空间，消去 \(\pi_k^*\) 后，方程仅依赖 \(\beta^*\) 与可估 nuisance。必要条件：\(\gamma\)-valid 规则保证至少 \(\gamma\) 个方程在 \(\beta^*\) 处成立，投影矩阵的秩条件保证消去 \(\pi_k^*\) 可行。技术难点：在 \(\gamma < K/2\) 时，投影矩阵需满足额外秩条件（无效 IV 的直接效应不能任意，需落在暴露效应空间的特定子空间），否则识别失败。
定理 2（多重稳健性）：提出的 G-估计器 \(\hat{\beta}_{mr}\) 在以下任一条件成立时一致：(i) \(E[Z|V]\) 与 \(E[X|V]\) 正确设定；(ii) \(E[Z|V]\) 与 \(E[Y|V]\) 正确设定；(iii) \(E[X|V]\) 与 \(E[Y|V]\) 正确设定。直觉：估计方程嵌入三个 nuisance 函数，投影机制保证方程在任一对正确时均值零。对比：传统双稳健 IV 估计仅依赖 (i) 或 (ii)，本文增加 (iii) 的稳健性。技术难点：构造多重稳健方程需引入额外 nuisance（如 \(E[R_Y|V]\)），并保证投影不破坏稳健性。
定理 3（半参数效率）：在 \(\gamma\)-valid 规则下，本文推导了 \(\beta^*\) 的半参数效率界，并证明 \(\hat{\beta}_{mr}\)（使用有效影响函数构造）达到此界。直觉：有效影响函数通过在 G-估计方程中嵌入最优投影权重（基于 \(\xi_k^*\) 与 nuisance 的方差）实现最小渐近方差。技术难点：在无效 IV 存在时，模型空间增大（\(\pi_k^*\) 未知），效率界的计算需考虑 \(\pi_k^*\) 对 tangent space 的影响，本文通过投影将 \(\pi_k^*\) 限制在暴露效应空间，简化 tangent space。

证明路线与技术技巧：

整体路线：
构造 G-估计方程：定义残差 \(R_Y(\beta) = Y - \beta X\)，引入投影矩阵 \(P_\gamma\)（基于 \(\xi_k^*\) 与 IV 相关性），构造方程 \(E\left[ (Z - E[Z|V]) \cdot (R_Y(\beta) - P_\gamma R_Y(\beta)) \right] = 0\)。
证明识别：在 \(\gamma\)-valid 规则下，证明方程在 \(\beta = \beta^*\) 时成立，且 \(\beta^*\) 是唯一解（利用投影消去 \(\pi_k^*\) 与秩条件）。
推导有效影响函数：在半参数模型（\(\gamma\)-valid 规则 + 非参数混杂）下，计算 tangent space 与 efficient influence function \(\tilde{\phi}\)，通过投影权重优化方程。
构造多重稳健估计器：基于 \(\tilde{\phi}\) 构造估计方程，引入 nuisance 估计（\(E[Z|V], E[X|V], E[Y|V]\)），证明在任一对 nuisance 正确时方程均值零。
渐近理论：使用 cross-fitting（样本分割）避免过拟合，证明 \(\hat{\beta}_{mr}\) 的 \(\sqrt{n}\)-一致性、渐近正态性与效率。
关键跳跃点：
引理 1（投影消去）：证明 \(P_\gamma \cdot \sum_k \pi_k^* Z_k = \sum_k \pi_k^* Z_k\) 对无效 IV 成立（即投影不改变无效 IV 的直接效应），而对有效 IV（\(\pi_k^* = 0\)）投影为零。这是识别的核心，难点在于 \(P_\gamma\) 的构造需保证此性质在 \(\gamma\)-valid 规则下成立，且秩条件满足。
引理 2（多重稳健方程构造）：从 efficient influence function \(\tilde{\phi}\) 出发，构造包含三个 nuisance 的方程，并证明其在任一对正确时均值零。难点在于 \(\tilde{\phi}\) 中 nuisance 的交互项（如 \(E[Z|V] \cdot E[Y|V]\)）需通过投影与残差重组消去。
技术技巧点名：
Efficient influence function：用于推导半参数效率界与构造最优估计方程（步骤 3-4）。
Cross-fitting / DML：样本分割以避免 nuisance 估计的过拟合，保证 \(\sqrt{n}\)-一致性（步骤 5）。
Projection operator \(P_\gamma\)：基于 \(\xi_k^*\) 构造的矩阵，将无效 IV 的直接效应投影到暴露效应空间（步骤 1-2）。
Multiply robust estimating equation：嵌入三个 nuisance 函数，在任一对正确时一致（步骤 4）。
Neyman orthogonality：保证估计方程对 nuisance 的一阶偏导为零，实现局部稳健（步骤 4-5）。

真实例子与应用：

UK Biobank 数据：研究 BMI 对舒张压（DBP）的因果效应，使用 10 个 SNP（来自 Locke et al. 2015）作为候选 IV。场景：MR 中 SNP 常有水平多效性（无效 IV），传统 2SLS 可能偏倚。
方法应用：用本文的 \(\hat{\beta}_{mr}\)（设定 \(\gamma=5\)，即至少 5 个 SNP 有效），估计 BMI 对 DBP 的效应，与 2SLS、sisVIVE、加权中位数、MR-GENIUS 对比。
结果：\(\hat{\beta}_{mr}\) 估计效应为 0.65（95% CI [0.55, 0.75]），2SLS 为 0.72（偏倚更大），sisVIVE 为 0.60（但 CI 更宽），加权中位数为 0.68。本文估计偏倚更小、CI 覆盖更稳健（模拟中覆盖率接近 95%，而 2SLS 在有无效 IV 时覆盖率降至 80%）。
说明什么：验证多重稳健性与效率理论在真实 MR 数据中的优势，展示相对 baseline（2SLS / 选择法 / 聚合法）的偏倚减少与 CI 稳健性。

🔎 结论是否比证明窄： - 定理 3 的效率声明：论文 claim \(\hat{\beta}_{mr}\) 达到半参数效率界，但证明依赖 nuisance 估计的收敛速率 \(o(n^{-1/4})\)（DML 条件）。若 nuisance 用高维 ML 估计，此速率需 restricted eigenvalue 等条件，论文未深入讨论这些条件的可满足性——研究者需核验定理 3 的证明是否在 nuisance 速率条件外还隐性依赖模型正确性（多重稳健仅保证一致，效率需 nuisance 正确或速率足够快）。 - \(\gamma\)-valid 规则的可行性：论文 claim \(\gamma\) 可由分析师设定，但识别需秩条件（无效 IV 的直接效应落在暴露效应空间）。在 \(\gamma < K/2\) 时，此条件实质上限制了 \(\pi_k^*\) 的结构（类似 Kolesár et al. 2015 的不相关假设），论文未明确标注此限制为假设——研究者需查引理 1 的秩条件是否在 \(\gamma < K/2\) 时退化为结构性假设。

四、开放问题（点到为止）¶

\(\gamma < K/2\) 时的识别条件：本文在 \(\gamma < K/2\) 时需额外秩条件（无效 IV 的直接效应落在暴露效应空间），此条件实质上接近 Kolesár et al. (2015) 的“直接效应与暴露效应不相关”假设。能否在 \(\gamma < K/2\) 但无此结构性假设下识别？（扎根：定理 1 的秩条件讨论，引理 1 的证明）。
Proximal CI 的移植：本文的投影机制与多重稳健理论是否可移植到 proximal causal inference（用负面对照代替 IV，需混杂桥接假设而非 \(\gamma\)-valid 规则）？（扎根：本文未引用 proximal 文献，但技术路线相似——研究者需查 proxival 的效率理论是否可结合本文的投影）。
弱 IV 设定：本文假设所有 IV 相关（\(\xi_k^* \neq 0\)），但 MR 中常有弱 IV。能否将本文的 G-估计与 GENIUS-MAWII 的多弱 IV 渐近理论结合？（扎根：作者在 intro 提及“可借鉴 many weak instruments 文献”，但未展开——研究者需查 Ye et al. 2021 的连续更新估计器是否可嵌入本文的投影机制）。
后选择推断的规避：本文不依赖模型选择，但若 nuisance 用高维 ML 估计（如 Lasso 选协变量），是否仍保证均匀有效推断？（扎根：Leeb & Pötscher 2008 的陷阱在 DML 框架下是否完全规避，需核验 Chernozhukov et al. 2018 的均匀推断条件在本文设定下是否满足）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric efficient G-estimation with invalid instrumental variables¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论