Measurement error-robust causal inference via constructed instrumental variables¶

作者: Caleb H Miles, Linda Valeri, Brent Coull
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biomtc/ujag057

一、核心问题与贡献¶

①本文研究了混杂变量和/或暴露存在测量误差时，平均处理效应（ATE）与自然间接效应（NIE）的识别与估计问题。②核心方法是构造工具变量，即仅利用观测数据的函数作为误差变量的 IV。③在结果回归模型关于误差变量为线性的假设下，证明这些构造的 IV 满足相关性与排他性约束，无需外部数据或误差分布先验即可恢复因果效应的一致估计。

二、基础设定¶

核心概念与符号：
$A$ / $A^$：真实暴露 / 观测的含误差暴露（$A^ = A + \epsilon_A$）
$W$ / $W^$：真实混杂 / 观测的含误差混杂（$W^ = W + \epsilon_W$）
$M$：中介变量，$Y$：结果变量
NIE：自然间接效应，即暴露通过中介对结果产生的因果效应
Constructed IV $Z$：由观测数据 $(A^, W^)$ 构造的函数，作为 $W^$ 或 $A^$ 的工具变量
关键假设：
Classical Measurement Error：$\epsilon_W \perp!!!\perp (A, W, Y)$，$E[\epsilon_W]=0$。含义：非微分测量误差。相比文献：标准设定，但本文无需已知 $Var(\epsilon_W)$。
Linearity of Outcome Regression：$E[Y|A, W]$（或含中介时的 $E[Y|A, M, W]$）关于 $W$ 是线性的。含义：结果模型对误差变量的依赖关系严格为一阶线性。相比文献：这是本文最核心的强假设，传统测量误差校正通常不要求此条件，但需要外部工具变量；本文以此换取内部识别。
IV Relevance & Exclusion：$Cov(Z, W^*) \neq 0$ 且 $Z \perp!!!\perp \epsilon_W$。含义：构造的 $Z$ 与含误差变量相关，但与测量误差本身无关。由构造方式和线性假设联合保证。
问题背景：传统测量误差校正方法（如回归校准、SIMEX）严重依赖外部重复测量数据或已知误差分布。本文针对"无任何外部信息"的困境，利用结果模型的线性结构在系统内部构造 IV。与最相关文献的区别：传统 IV 方法需寻找外部工具，而本文的 Constructed IV 完全内生；相较于半参数测量误差校正，本文避开了矩条件的复杂估计，但承担了更强的模型假设。

三、主要定理 / 核心结果¶

核心发现的量化描述：理论证明了在结果模型线性假设下，基于构造 IV 的 GMM/2SLS 估计量具有一致性。在模拟研究中，当误差方差较大时，Naive 估计的偏差可达真实值的 30%-50%，而 Constructed IV 估计的偏差接近 0，95% 覆盖率接近名义水平。
与 baseline 的对比：对比了 Naive estimator（忽略测量误差，严重有偏）、Regression Calibration（需外部数据，无外部数据时失效）和 SIMEX（需已知误差分布）。本文方法在无外部信息设定下是唯一一致的。
结论的稳健性：稳健性严重依赖于结果模型的线性假设。模拟显示，当 $E[Y|A,W]$ 对 $W$ 存在未建模的非线性（如二次项）时，排他性约束被破坏，Constructed IV 估计会产生偏误，但偏误仍小于 Naive 估计。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
识别：利用矩条件 $E[Z(Y - \beta A - \gamma W^*)] = 0$。由于 $Z$ 与 $\epsilon_W$ 无关（排他性），该矩条件等价于基于真实变量 $W$ 的正交条件，从而识别出因果参数 $\beta$ 和 $\gamma$。
估计量：两阶段最小二乘（2SLS）。第一阶段：用构造的 $Z$ 回归 $W^*$ 得到拟合值；第二阶段：用 $Y$ 对 $A$ 和第一阶段的拟合值进行回归。对于 NIE，通过参数化中介模型与结果模型，结合 2SLS 恢复的参数进行乘积法估计。
核心假设的可信度分析：
线性假设的验证：可通过过度识别检验间接验证。若构造了多于误差变量数量的 IV，Hansen's J 检验的拒绝可暗示线性假设或排他性约束的违背。
潜在违背：若 $W$ 对 $Y$ 的作用具有强非线性（如流行病学中的阈值效应），排他性约束失效，$Z$ 将与 $\epsilon_W$ 产生相关性。
稳健性检验策略：在实证分析中，比较不同构造方式下的 IV 估计结果；通过模拟不同误差方差评估 Naive 方法的衰减程度以反证测量误差的存在。
计算/实现细节：基于标准 2SLS 框架，计算复杂度极低（$O(np)$），可直接使用 R 中 ivreg 或 AER 包实现，核心难点仅在于 $Z$ 的构造（通常取残差或特定投影）。

五、与研究者兴趣的关联¶

连接子方向：因果中介分析中的测量误差校正；内生性/IV 识别策略。
可借鉴的核心思路："内生变量的函数可作为自身工具变量"的构造逻辑。在 Proximal CI 中寻找负对照的思路是利用外部变量，而本文是利用模型结构（线性）在同一组变量中构造 IV。这种将测量误差转化为内生性问题，并利用矩条件代数性质构造 IV 的技巧，可迁移至高维或半参数框架下处理潜变量。
值得精读的关键参考文献：
Carroll RJ, et al. (2006) Measurement Error in Nonlinear Models：测量误差领域的经典，理解传统方法为何依赖外部数据，对比本文方法的假设置换。
Lewbel A (2012) Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models：基于异方差构造 IV 的经典文献，本文的 Constructed IV 思路与其有异曲同工之妙，对比两者构造逻辑有助于深化对内部 IV 生成机制的理解。

六、延伸思考与练习¶

假设扰动：若 $E[Y|A,W]$ 对 $W$ 是非线性的（如包含 $W^2$），排他性约束 $Z \perp!!!\perp \epsilon_W$ 是否必然被破坏？如果破坏，能否通过构造高阶矩的 Constructed IV（如基于 $W^{*2}$ 的函数）来恢复识别？技术上需要引入高阶矩条件或 GMM 估计。
开放问题：如何在半参数/非参数结果回归模型下，构造无需外部数据的测量误差稳健因果效应估计量？能否结合机器学习逼近非线性结构同时保留排他性？
理解检测题：假设真实模型为 $Y = \beta A + \gamma W + \delta AW + \epsilon_Y$（即存在暴露与混杂的交互效应），其中 $W$ 不可观测，仅观测到 $W^ = W + U$。请说明在此交互效应模型下，传统的构造 IV（例如 $Z = W^ - E[W^*|A]$）为何可能违背排他性约束，并尝试提出一种新的构造 IV 方式以恢复一致性。

Maintained by 陈星宇 · Homepage · Source on GitHub