A flexible semiparametric approach for robust causal inference with invalid instruments and unmeasured confounder¶

作者: Yunlong Cao, Yuquan Wang, Dapeng Shi, Dong Chen, Yue-Qing Hu
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 9/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261439252

一、领域脉络与小综述¶

这个方向是什么¶

在工具变量（IV）框架下同时处理两个典型问题：某些工具变量可能违反外生性或排除限制（即“无效工具”），且存在未观测的混杂因子。传统IV方法要求所有工具均有效，但实际中常遇到部分工具无效的情况；同时，未观测混杂的分布通常被参数化假设（如正态）以简化估计，但未观测量的分布难以验证，参数化假设会带来误设风险。本方向试图在不对未观测混杂做分布假设的前提下，设计估计量，使其在存在无效工具时仍能一致估计因果效应，并能自动识别哪些工具是有效的。

发展脉络（基于领域公开文献的概略梳理，非直接从论文intro提取，因用户未提供全文intro）¶

奠基工作：Kang et al. (2016) 提出使用“多数有效”假设（plurality rule）识别因果效应，但需要强IV假设且未涉及未观测混杂的非参数处理。Bowden et al. (2015) 的MR-Egger在孟德尔随机化中允许所有工具违反排除限制但效应方向相同，但依赖InSIDE假设（工具-混杂独立）。
主要进展：在无效工具的选择上，有基于lasso的IV选择方法（如Windmeijer et al. 2019），但通常假设已观测混杂充分调整或未观测混杂分布已知。Guo et al. (2018) 提出“近似IV”框架，允许部分工具轻微违反排除限制，但假设未观测混杂具有线性结构。另外，关于未观测混杂的无分布假设处理，半参数方法（如semiparametric IV，Newey & Powell 2003）通常要求所有工具有效，且未处理无效工具的识别。
当前frontier：2020年后出现结合 “无效工具选择”与“未观测混杂非参数建模”的工作。例如，采用nonparametric IV with many weak IVs，或使用proximal causal inference（Tchetgen Tchetgen et al. 2020）通过代理变量绕过未观测混杂，但通常不处理无效工具。
本文位置：作者采用flexible semiparametric model——对未观测混杂的分布完全自由（不参数化），并通过penalized estimation同时筛选无效工具和估计因果效应。该方法同时放宽了两个经典假设，属于把两个子方向的进展合并起来的工作。

子线索聚类¶

无效工具的选择与稳健估计：聚焦于在部分工具失效时如何一致估计因果效应。方法包括：基于多数规则的置信区间（Kang 2016）、MR-Egger（Bowden 2015）、IV-robust方法（Guo 2018）、lasso-based IV selection（Windmeijer 2019）等。本文属于此线索，但增加了对未观测混杂分布的放松。
未观测混杂的非参数/半参数处理：关注在无分布假设下识别因果效应。线索包括：nonparametric IV（Newey & Powell 2003）、proximal causal inference（Tchetgen Tchetgen 2020）、latent variable model等。本文属于此线索，但增加了对无效工具的容忍。
高维IV与惩罚估计：当IV数量多、可能都有问题时的变量选择与效应估计。本文使用惩罚semiparametric估计，直接落在此类。

核心追问与瓶颈¶

如何在不指定未观测混杂分布的情况下，仍能做到semiparametric efficient估计？是否有influence function存在？
无效工具的识别需要哪些条件可检验？是否依赖“大多数有效”或“某些方向性假设”？
当无效工具数增多时，惩罚方法能否保持oracle性质？选择一致性需要的最小信噪比条件是什么？
半参数模型中的非参数部分（未观测混杂的bispectrum?）如何通过核/级数逼近，误差控制如何影响IV的估计？

⚠️ 作者的framing（基于摘要推测）¶

作者将缺口frame为“现有方法要么假设未观测混杂分布参数化，要么假设所有IV有效，但两者同时放松的工作缺失”。因此本文被定位为“combined relaxations”的显然下一步。可能淡化的竞争路线：proximal causal inference（不假设IV有效但需要可观测代理变量），以及完全nonparametric IV（对未观测混杂不做假设但需要大量有效IV）。作者未提proximal IV可能因为该类方法需要代理变量且通常不处理无效IV-直接违反排除限制的情形。未观测到的被引：Kang et al. (2016) 和Tchetgen Tchetgen et al. (2020) 应该是强烈相关的，但摘要未列举，若实际intro未引用则可能是一个遗漏。

张力¶

未见明显对立引用。不同子线索间侧重不同，但不存在直接矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号定义（基于IV因果推断的标准记号）： - \(Y_i\)：结果变量（可观测，连续或离散）。 - \(D_i\)：处理变量（可观测，连续或二元）。 - \(Z_i = (Z_{i1}, \dots, Z_{ip})^\top\)：候选工具变量向量（可观测，p个）。 - \(U_i\)：未观测混杂因子（不可观测，影响 \(D\) 和 \(Y\)，且与某些 \(Z_j\) 相关导致无效）。 - \(\mathbf{X}_i\)：已观测协变量向量（可选，假设已调整所有可观测混杂）。 - 因果效应参数 \(\beta\)：定义在结构方程中（如线性模型），目标estimand。 - 模型假定：结构方程为

\[Y_i = D_i \beta + g(Z_i, U_i, X_i) + \varepsilon_i,\]

其中 \(g(\cdot)\) 是未知函数，\(\mathbb{E}[\varepsilon_i | D_i, Z_i, X_i, U_i] = 0\)。但为了识别，需要用IV来排除部分效应。 - 更具体的半参数模型（本文所用）：假设

\[Y_i = D_i \beta + \mathbf{Z}_i^\top \alpha + h(U_i) + X_i^\top \gamma + \varepsilon_i,\]

其中 \(h(U)\) 是未观测混杂的未知函数（flexible，不做参数假设），\(\alpha\) 是p维向量，其非零分量对应“无效工具”（即 \(Z_j\) 对Y有直接效应，违反排除限制）。理想情况：有效器满足 \(\alpha_j = 0\)。模型允许 \(U\) 与 \(Z\) 相关（通过未知分布），这是无效性的来源之一。 - 目标：一致估计 \(\beta\)，并同时识别哪些 \(Z_j\) 是无效的（即 \(\alpha_j \neq 0\)）。

可观测数据：研究者观察到i.i.d.样本 \(\{Y_i, D_i, Z_i, X_i\}_{i=1}^n\)。未观测混杂 \(U_i\) 以及误差 \(\varepsilon_i\) 不可观测。\(h(U)\) 是未知函数，无先验参数形式。关键困难：\(U\) 与 \(Z\) 相关，且某些 \(Z_j\) 可能通过 \(\alpha_j\neq 0\) 直接进入结果方程，导致传统IV方法失效。

第二步：最小内核——最简特例¶

考虑最简设定：单个候选IV (p=1)，无协变量 \(X\)。此时模型退化为：

\[Y_i = D_i \beta + Z_i \alpha + h(U_i) + \varepsilon_i.\]

这里 \(Z\) 是标量。如果 \(Z\) 是有效工具，则 \(\alpha=0\)，且 \(Z\) 与 \(U\) 独立（或至少与误差正交）。但由于 \(U\) 不可观测且 \(Z\) 可能与 \(U\) 相关，即使 \(\alpha=0\)，用 \(Z\) 作为IV也可能有偏（因为 \(Z\) 通过 \(U\) 影响Y）。经典IV要求 \(Z\) 与 \(U\) 独立且\(\alpha=0\)。本文的“invalid instrument”在标量情况下指 \(\alpha\neq 0\) 或 \(Z\)与\(U\)相关（或两者都有）。但作者用半参数模型同时允许两者：通过引入 \(h(U)\) 吸收 \(U\) 对Y的非线性影响，再通过惩罚识别哪个 \(Z\) 是无效的。

最小内核命题：假设已知 \(U\) 是有限支撑的离散变量（最简单），那么模型变成有限混合模型。\(h(U)\) 相当于每种类别的截距。此时，参数 \((\beta, \alpha)\) 的识别依赖于 \(Z\) 对 \(D\) 的预测能力以及 \(Z\) 对 \(Y\) 的直接效应（\(\alpha\)）与 \(U\)的类别效应可分开。惩罚估计通过加lasso项（惩罚 \(\alpha\)）迫使部分\(\alpha\)为零。当只有一个有效IV时，\(\alpha=0\)，那么参数识别来自条件矩 \(\mathbb{E}[Z(Y - D\beta)] = \mathbb{E}[Z h(U)]\)，这通常不可识别除非 \(Z\) 与 \(U\) 独立——但本文通过允许 \(h(U)\) 未知，实质上放弃了对\(U\)的分布约束，从而唯一代价是强度假设：\(Z\) 与 \(U\) 的依赖结构必须通过 \(D\) 的方程或高阶矩来消去。数学本质：这是比经典IV更弱的识别，需要至少两个或多个IV（即使多数无效）才能通过一些overidentifying restrictions锁定\(\beta\)。最小内核实际上对应于p≥2时，使用多数有效条件（如Kang 2016）。作者的半参数惩罚估计是将识别条件嵌入到估计方程中。

证明的关键思路：将 \(h(U)\) 视为未知函数，用非参数基（如样条）逼近，然后构造包含所有参数的惩罚目标函数（例如基于广义矩条件或最小二乘）。由于 \(h(U)\) 与 \(\alpha\) 的混淆，通过lasso促使\(\alpha\)稀疏，并证明如果多数IV有效，则oracle性质成立：\(\alpha\) 的非零分量被正确识别，\(\beta\)的估计收敛到\(n^{-1/2}\)正态。

三、这篇论文做了什么¶

三句话： 1. 研究问题：在存在未观测混杂且可能有多个无效工具的IV设定下，估计因果效应\(\beta\)，并自动识别哪些工具无效。 2. 核心工具：采用半参数模型（\(Y = D\beta + Z^\top\alpha + h(U) + X^\top\gamma + \varepsilon\)），对未知函数\(h(\cdot)\)用级数展开逼近，使用带adaptive lasso惩罚的估计方程法，同时估计\(\beta\)和\(\alpha\)，并筛选无效工具。 3. 主要结论：所提估计量具有oracle性质（渐近等价于已知无效工具真实集合时的估计），且\(\hat\beta\)是\(\sqrt{n}\)一致且渐近正态；变量选择一致（无效工具被正确与有效分开）。

关键设定与假设（基于摘要和文献推断；完整假设需见原文）¶

模型：如前所述。
假设1（可识别性）：存在足够的有效工具使模型可识别。具体可能需要“多数有效条件”或“方向性条件”（类似Bowden的InSIDE）。作者可能要求至少一个有效工具且某些工具满足\(\mathbb{E}[Z_j U] = 0\)（外生）但允许其他与U相关。
假设2（稀疏性）：无效工具的数量相对于总IV数稀疏（或至少小于某个值），以便惩罚方法能实现oracle。
假设3（半参数非参数部分）：\(h(U)\)属于某个光滑函数类，能用位数有限的样条或级数一致近似。
假设4（正则条件）：包含矩存在、设计矩阵条件数有界、工具与处理相关（非弱IV）。

相比于已有文献：放松了未观测混杂的参数假设（对比Kang 2016等）；相较于proximal inference不需要代理变量；相较于完全非参数IV，通过假设线性部分（\(Z^\top\alpha\)）简化结构。

主要结果（从摘要可知，具体定理需原文）¶

Theorem 1 (Oracle property): 在正则条件下，\(\hat\alpha\)的支撑集依概率收敛到真实支撑集（变量选择一致性）。即\(\mathbb{P}(\{j:\hat\alpha_j\neq 0\} = \mathcal{S}_0) \to 1\)。
Theorem 2 (Asymptotic normality): 对于\(\hat\beta\)，有\(\sqrt{n}(\hat\beta - \beta_0) \xrightarrow{d} N(0, \sigma^2)\)，其中渐近方差达到半参数效率下界（若模型设置恰当）。但摘要未明确给出效率界，要确认原文是否证明了达到semiparametric efficiency bound。
估计方法：可能是两步估计：第一步用非参数部分（如B-spline）逼近\(h(U)\)，再基于\(h\)的估计构造IV-like矩条件，加上lasso惩罚。或者通过profile似然。

证明路线与技术技巧（推断）¶

整体路线： 1. 构造目标函数：使用一个基于矩条件的惩罚最小二乘或GMM形式，其中将\(h(U)\)用级数基展开（如\(h(u) \approx \sum_{k=1}^K \phi_k(u) \theta_k\)），\(K\)随\(n\)增长。目标函数：

\[Q_n(\beta, \alpha, \theta, \gamma) = \frac{1}{n}\sum_{i=1}^n (Y_i - D_i\beta - Z_i^\top\alpha - \Phi(U_i)^\top\theta - X_i^\top\gamma)^2 + \lambda_n \sum_{j=1}^p w_j |\alpha_j|,\]

其中\(U_i\)是未知的！因此必须用一些代理或通过迭代估计？实际上因为\(U\)不可观测，需要额外处理。常见做法是视\(h(U)\)为未知函数，并通过工具变量条件矩来消除。更可能是用条件矩

\[\mathbb{E}[Z(Y - D\beta - Z^\top\alpha) | U] = h(U)\]

的某种局部或全局投影。具体细节需原文。 2. 第一步：对给定的\(\beta,\alpha\)，非参数估计\(h(U)\)（例如通过回归光滑或核估计）。 3. 第二步：将非参数估计代入，得到profile目标函数，再对\(\alpha\)加lasso惩罚，解出稀疏估计。 4. 渐近理论：先证明选择一致性（利用IRL条件、beta_min条件等），再证明在oracle集会下，\(\beta\)的渐近正态性（通过影响函数展开或M-估计理论）。

关键跳跃点： - 如何同时处理未观测混杂的未知函数和惩罚变量选择？最难点是\(U\)的不可观测性使非参数估计复杂。作者可能假定\(U\)的分布虽然自由，但可通过分解\(U\)为某些可观测变量的函数？或使用多个IV构造\(U\)的代理。这是一个潜在局限性：如果\(U\)完全不可观测，非参数估计依赖IV与\(U\)的关系，可能导致无法一致估计\(h(U)\)。这可能是本文的隐蔽假设。 - 变量选择一致性需要控制非参数估计的误差对惩罚项的影响，标准方法是通过证明该误差是\(o_p(1/\sqrt{n})\)或更小，从而不影响选择。

技术技巧： - 用到核级数逼近（B-spline or sieves） 估计\(h(U)\)。 - Adaptive lasso：用一致初估（如未惩罚的估计）构造权重，使得无效工具系数被收缩到0。 - profile oracle lemma：将非参数部分profle掉后，剩余有限维参数满足标准lasso理论。 - 也许用到了effective dimension reduction：将\(U\)投影到IV张成的空间以消去。

真实例子与应用¶

模拟实验：设置不同条件：不同数量的无效工具、不同程度的未观测混杂相关性，比较本文方法与现有方法（如2SLS + 不识别无效工具、MR-Egger、Kang方法）在偏差、MSE、选择准确率上的表现。结论：本文方法在存在无效工具时偏差小、选择一致。
ARIC数据应用：动脉粥样硬化风险社区研究，使用遗传IV（SNPs）估计血压对心血管事件的影响。因遗传IV可能违反排他性（通过其他路径影响结局），存在无效工具。本文方法筛选出有效IV子集后，得到与先验一致的效应估计。

🔎 结论是否比证明窄¶

需待原文确认。很可能作者在证明中假设了某些条件（如 \(U\) 是一维连续光滑、工具数量p固定且小于n），但结论可能声称适用于高维IV（p>n）。若如此，这就是窄结论被泛化。另外，未观测混杂完全非参数可能缺乏可检验性，但在证明中可能需要假设某些工具与U充分独立，这是识别条件，但结论并未充分强调。

四、开放问题（扎根具体语句推测，待原文验证）¶

semiparametric efficiency bound是否达到？ 摘要未提。若原文未证明，则留出“在本文模型下推导有效影响函数并证明达到下界”的开放问题。
高维IV（p>n）场景下变量选择一致性是否成立？ 本文假设p固定还是发散？若只证明p固定，则高维扩展是自然问题（需处理非参数部分与高维惩罚的交互）。
未观测混杂\(U\)的识别性：本文通过半参数模型保留\(h(U)\)，但\(U\)本身不可观测，模型的可识别性除非工具数量与\(U\)的维数有特定关系。是否需要假设\(U\)的维数已知且小于有效工具数？这可能与proximal causal inference中的“桥函数”相关。可追问：“在\(h(U)\)完全任意时，因果效应\(\beta\)是否点识别？”
Weak IV情形：当工具变量解释力弱时，lasso的选择性能可能恶化。本文是否有弱IV下的理论？若没有，则针对弱IV和无效工具的联合处理是open gap。

（注：以上开放问题均需对照原文 limitation 和 future work 确认。建议研究者阅读原文后，将每个点与具体句子对照。）

Maintained by 陈星宇 · Homepage · Source on GitHub