Flexible and efficient estimation of causal effects with error-prone exposures: a control variates approach for measurement error¶

作者: Keith Barnatchez, Rachel Nethery, Bryan E Shepherd, Giovanni Parmigiani, Kevin P Josey
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向处理的是因果推断中暴露变量测量误差的校正与估计问题。在观察性研究中，我们关心的暴露（处理、风险因素）往往不能完美测量——比如空气质量模型预测的PM2.5浓度与真实浓度有偏差，电子健康记录中提取的临床指标与实际值有出入。如果直接使用含误差的暴露进行因果推断，会产生偏倚。核心挑战是：如何在仅有部分样本获得“金标准”暴露测量（验证子样本）的情况下，利用全体样本的误差暴露数据，构造出对因果参数的一致、高效估计量。这个子方向当前处于方法快速发展但尚无统一框架的阶段——大量方法依赖强参数假设或为特定参数定制，缺乏一个既能灵活适应多种研究设计又保持良好理论性质的通用框架。

发展脉络¶

奠基工作：测量误差问题在生物统计中由来已久。早期奠基工作如 Carroll et al. (2006) 的专著系统化了经典测量误差框架下的回归校正方法。Braun et al. (2017) 首次将二元暴露的因果推断与倾向评分结合进行误差校正，开启了因果框架下的系统研究。同时，Keogh and Bartlett (2021) 明确将测量误差重新视角化为缺失数据问题，这为后续方法提供了重要理论桥梁——一旦把“真值缺失”当作缺失数据，就可以借用缺失数据领域已经成熟的工具（如多重插补、广义提鞋估计）。

主要进展：这个方向在2017-2023年间经历了三个并行发展： - 参数/半参数方法：Webb-Vargas et al. (2017) 开发了基于多重插补的外部校准方法，Hong et al. (2017) 提出了处理差异测量误差的贝叶斯方法，Kyle et al. (2016) 将SIMEX扩展到含时间变异混杂的边际结构模型。这些方法各有所长，但大多依赖参数模型或误差结构假设。 - 因果框架下的新估计量：Kennedy (2020) 在非参数模型下研究了暴露部分缺失时的有效估计，给出了EIF和非参数效率界，并构造了基于机器学习的双稳健估计量。Yang and Ding (2019) 开创性地提出了利用多源数据的控制变量方法，成为本文的直接前身。Guo et al. (2021) 将控制变量框架推广到多源数据设定，其中一个数据源ATE可识别、另一个不可识别，用不可识别的构造控制变量降低方差。 - 连续/分类暴露的拓展：Wu et al. (2019) 利用回归校准结合广义倾向评分处理连续含误差暴露，Josey et al. (2023) 提出多重插补结合BART估计因果暴露反应函数。Shepherd et al. (2022) 发展了多波验证抽样设计。

当前frontier：随着数据自适应方法（机器学习）的兴起，研究者越来越关注不需要强参数假设的估计方法。Zeng et al. (2023) 和 Dahabreh et al. (2019) 的工作展示了在目标人群泛化场景下如何实现高效率、双稳健的估计。Kennedy (2024) 进一步总结了双稳健目标机器学习理论框架。当前的张力在于：如何既保持与数据自适应方法兼容的灵活性，又不牺牲理论性质（特别是渐近有效性和双稳健性）。

本文的位置：本文定位在将控制变量框架系统化地适配到暴露测量误差问题。它从Yang and Ding (2019)和Guo et al. (2021)的控制变量思想出发，但专门为两相抽样设计下的暴露测量误差定制了完整框架——初始估计量只用验证子样本构造、方差缩减项用全体样本的误差暴露数据构造。技术上，它展示了该估计量的双稳健性，并且证明了只要两组估计模型（暴露校正模型和结果模型）都正确，就是半参有效的。这是第一次将控制变量框架与测量误差问题的双稳健性建立起系统联系。

子线索聚类¶

这些被引文献大致落在三个子线索：

参数/半参数测量误差校正方法（约占40%）：以回归校准（RC）、多重插补（MI）、SIMEX为核心，通常假设测量误差的结构（如经典测量误差、误差方差已知）。代表：Webb-Vargas et al. (2017)（MI for external calibration）、Hong et al. (2017)（贝叶斯方法）、Wu et al. (2019)（RC+GPS）、Josey et al. (2023)（MI+BART）、Oh et al. (2019)（RC+Raking for correlated errors）。这一簇的优势是计算简单且统计性质清晰，但弱点是需要强参数假设。
半参/非参效率理论方法（约占30%）：以影响函数、双稳健估计量、效率界为核心，强调在最小假设下达到最优效率。代表：Kennedy (2020)（部分缺失暴露的有效估计）、Dahabreh et al. (2019)（推广/运输效率估计量）、Zeng et al. (2023)（效率界与minimax下界）、Kallus and Mao (2020)（代理变量效率增益）。这一簇有漂亮的理论框架和最优性保证，但每个估计量往往为特定参数高度定制，缺乏通用性。
多源数据/控制变量方法（约占20%）：以利用辅助数据源降方差为核心，是本文的直接前身。代表：Yang and Ding (2019)（CV框架用于合并验证和非验证数据）、Guo et al. (2021)（多源ATE估计的CV方法）。这一簇的优点是有清晰的控制变量理论支撑、可实现方差缩减，但之前主要针对合并不同来源数据，未专门处理暴露测量误差的结构。
抽样设计与验证样本优化（约占10%）：专注于如何选择验证子样本以提高效率。代表：Amorim et al. (2021)（两相抽样优化设计）、Shepherd et al. (2022)（多波验证抽样）。这一簇的弱点是与因果框架结合不够深入。

这个方向在追问的核心问题¶

如何在不依赖强参数假设的前提下，对含误差暴露的因果效应实现一致估计？ ——当前主流方法（RC、MI）依赖误差结构的参数假设，而机器学习虽灵活但可能导致收敛率变慢或不稳定。
如何利用全体样本的含误差暴露数据实现接近或超越“只用验证样本”估计的效率增益？ ——核心难点是既要利用大样本信息降方差、又不引入偏倚。
估计量能否达到半参效率界？ ——目前除Kennedy (2020)等个别工作外，大部分暴露测量误差校正方法尚未被放在半参效率框架下分析。
能否构造出仅在暴露模型或结果模型一个正确时就一致的“双稳健”估计量？ ——这是因果推断中许多方法（AIPW、TMLE）的标准追求，但在测量误差设定下鲜有满足。

⚠️ 作者的framing¶

作者的缺口描述：作者把缺口frame成“现有方法要么依赖限制性参数假设，要么专为某个僵化定义的统计量定制而损失灵活性，缺乏一个既灵活又具有理想理论性质的假设-精简（assumption-lean）估计框架”。他们声称：“There remains a critical need for assumption-lean estimation methods that are both flexible and possess desirable theoretical properties across a variety of study designs.”

作者淡化/回避的竞争路线： - 作者基本上完全不与Kennedy (2020)的效率界和双稳健方法做直接对比。Kennedy (2020)实际上已经给出了暴露部分缺失下的非参数有效估计框架，而且同样是假设精简的、可以用机器学习拟合、且能达到sqrt(n)率的。作者的回避可能是因为Kennedy的方法依赖于假设缺失机制是MAR（依赖可观测协变量和结果），而本文不专门讨论缺失机制（验证样本是设计选的，不是随机缺失）。 - 作者没有讨论测量误差结构本身——误差是经典性、加法性、乘法性？误差与真值是否相关？误差方差的异质性？——这个“误差结构的参数化假设”正是被回避的问题。 - 作者没有讨论效率最优性——虽然在方法论中提到“达到半参有效”，但正文没有推导效率界、也没有对比EIF。在补充材料中才提到他们的估计量可以被看作某个半参模型下的RAL估计量，但没有给出效率界的计算。

值得研究者去查的问题：intro中没有出现任何关于半参数效率界的讨论（除了Kennedy 2020被引了一次）。本文引用了Kennedy (2020)、Yang and Ding (2019)、Guo et al. (2021)、Dahabreh et al. (2019)、Zeng et al. (2023)，这些工作都涉及效率界或EIF分析，但本文在正文中完全不讨论效率界。这是故意回避还是技术限制？值得对比Kennedy (2020)的效率框架与本文的CV框架在效率界的可达性。

张力¶

未见明显的对立结论引用——这些工作在同一方向上相互继承借鉴，没有出现不同条件下矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（全文统一记号）：

暴露变量：$A$ ——关心的暴露/处理，这是理论上最核心的量。
真实暴露：$A^*$ ——金标准的真实暴露，只有验证子样本能观测到。
误差暴露：$A$ ——全体样本可观测到的含误差暴露。关系：$A = A^* + U$（经典测量误差）。
结果变量：$Y$ ——结局，全体样本可观测。
协变量：$X$ ——预处理协变量，全体样本可观测。
验证指示：$V$ ——$V=1$表示该个体在验证子样本中，可观测$A^*$；$V=0$则表示只能观测到$A$。
因果参数：$\tau$ ——平均处理效应（ATE）$\tau = \mathbb{E}[Y(1) - Y(0)]$，其中$Y(a)$是潜在结果。
样本量：总体本数为$n$，验证子样本数为$n_v$。
估计量：$\hat{\tau}$ ——对$\tau$的估计。

模型与假设：

无混杂性：$Y(a) \perp A^* \mid X$ ——给定协变量$X$后，真实暴露的分配与潜在结果独立。
无测量误差相关性：$Y \perp A \mid (A^*, X)$ ——结果$Y$在给定真实暴露$A^*$和$X$后，与误差暴露$A$条件独立（即不存在差分测量误差）。
两相抽样：验证子样本$V=1$是从全体样本中按某种设计（可以是SRS、也可以是SRS+基于协变量的不等概率抽选）选择的。

可观测数据（实际到手的东西）： - 全体样本（$i=1,\dots,n$）：$(X_i, A_i, Y_i, V_i)$ ——包含协变量、含误差暴露、结果、是否在验证子样本。 - 验证子样本（$i: V_i=1$）：额外观测到真实暴露$A^*_i$。 - 观测不到的量：所有验证子样本外的个体，真实暴露$A^*$观测不到。

第二步：讲最小内核¶

最简特例：假设暴露是二元的，$A^* \in \{0,1\}$，误差暴露$A$也是二元的（$0/1$），只有一个协变量$X$（也二元，$X\in\{0,1\}$）。目标是估计ATE $\tau = \mathbb{E}[Y(1)-Y(0)]$。

记全体样本量为$n$，其中$n_v$个验证子样本能观测到真实$A^*$；其余$n_u = n - n_v$个非验证样本只能观测到含误差的$A$。

核心思路（两步走）：

初始估计（只用验证子样本）：只在验证子样本中，我们可以直接估计ATE——因为验证子样本有病$A^*$和$Y$、$X$都完整，而且验证子样本是SRS抽取的（假设设计如此），所以可以用标准的方法（如outcome regression或IPW）在验证子样本上得到$\hat{\tau}_0$。这个估计量在$n_v\to\infty$时是一致的，但方差大（因为只用了一小部分数据）。
方差缩减项（用全体样本）：构造一个零期望的量$\hat{\Delta}$，使得它在全体样本上计算时，$\mathbb{E}[\hat{\Delta}] = 0$，且与$\hat{\tau}_0$强相关。然后用控制变量技巧：
\[\hat{\tau}_{CV} = \hat{\tau}_0 - \hat{\Delta}\]
这样，如果$\hat{\Delta}$与$\hat{\tau}_0$的相关性够强，就能在不破坏一致性（因为期望是0）的同时降低方差。

构造$\hat{\Delta}$的具体形式（这个最简特例下的例子）：

记$m(X) = \mathbb{E}[Y \mid X, A^*=1] - \mathbb{E}[Y \mid X, A^*=0]$为结果模型，$e(X) = \mathbb{P}(A^*=1 \mid X)$为真实暴露的倾向评分。

先只用验证子样本估计$\hat{m}(X)$和$\hat{e}(X)$（简单回归或核方法）。
然后在全体样本上计算：
\[\hat{\Delta} = \frac{1}{n}\sum_{i=1}^n \left[ \frac{(V_i \cdot \mathbb{I}(A^*_i=1))}{\hat{e}(X_i)} Y_i - \frac{(V_i \cdot \mathbb{I}(A^*_i=0))}{1-\hat{e}(X_i)} Y_i \right] - \left[ \frac{V_i \cdot (A^*_i - \hat{e}(X_i))}{\hat{e}(X_i)(1-\hat{e}(X_i))} \hat{m}(X_i) \right]\]
这个公式看起来复杂，但它的核心性质是：在全体样本上取期望时等于0（这是由模型性质保证的）。
最终估计量：
\[\hat{\tau}_{CV} = \underbrace{\frac{1}{n_v}\sum_{i:V_i=1} \left[ \frac{A^*_i}{\hat{e}(X_i)}Y_i - \frac{1-A^*_i}{1-\hat{e}(X_i)}Y_i \right]}_{\hat{\tau}_0} - \hat{\Delta}\]

为什么成立： - 一致性：$\hat{\tau}_0$在验证子样本上用标准IPW估计一致，且$\hat{\Delta}$期望为0（只要模型正确）。 - 双稳健性：如果结果模型$\hat{m}(X)$正确，或者暴露倾向模型$\hat{e}(X)$正确，至少一个被正确指定时，$\hat{\tau}_{CV}$仍一致。因为另一个的错误不影响主要调优项。 - 方差缩减：如果$\hat{\tau}_0$与$\hat{\Delta}$正相关（二者都在验证子样本上的倾向性很大时都高估/低估），减可抵消部分方差。

这个最简例子展示了核心思想：用一个不偏的初始估计量（只基于小样本），和一个在大样本上容易计算且零期望的调整项，同时达到一致性和效率增益。

三、这篇论文做了什么¶

三句话¶

本文研究暴露变量含测量误差时因果效应（ATE）在两种抽样设计（SRS验证、不等概率验证）下的估计问题，提出了一个基于控制变量法（control variates）的通用估计框架。
核心方法是将验证子样本上的初始一致估计与全体样本上构造的零期望方差缩减项线性组合，且这个方差缩减项利用了全体样本的含误差暴露数据，不需要对误差分布做参数假设。
主要结论是：该估计量具有双稳健性（只要暴露校正模型或结果模型有一个正确即保持一致），且在两组模型都正确时达到半参有效性（即方差能通过影响函数去偏）；模拟研究显示其均方误差（MSE）普遍低于回归校准、多重插补等主流方法。

关键设定与假设¶

完整设定（在第二节最小记号上的扩展）：

记号（与第一节保持一致）：$A^*$为金标准真实暴露（只在验证子样本Validation Set上可观测），$A$为含误差暴露（全体样本均可观测），$X$为预处理协变量，$Y$为结果，$V$为验证指示变量（$V=1$表验证子样本）。
因果参数：$\tau = \mathbb{E}[Y(1)-Y(0)]$（平均处理效应），定义为$n^{-1}\sum_{i=1}^n Y_i(1)-Y_i(0)$。
两相抽样设计考虑的两种抽样方案：
SRS (Simple Random Sampling)：验证子样本从全体样本中简单随机抽取。
BSS (Balanced Sampling with Stratification)：按$X$或$A$分层的不等概率抽样（如重抽样少见的协变量组合）。

关键假设（与第二节一致）： - 假设1（无混杂性）：$Y(a) \perp A^* \mid X$ ——潜在结果与真实暴露在给定$X$下独立。 - 假设2（无差分测量误差）：$Y \perp A \mid (A^*, X)$ ——结果$Y$在给定$A^*$和$X$后，与$A$条件独立。 - 假设3（重叠性）：$0 < \mathbb{P}(A^*=1 \mid X) < 1$，且$\mathbb{P}(V=1 \mid X) > 0$（验证子样本在每个$X$取值下有正概率被抽中）。

与已有文献相比： - 相比Keogh and Bartlett (2021)：本文不把误差当作缺失数据，而是构造控制变量。因此不要求误差结构为经典测量误差，更灵活。 - 相比Kennedy (2020)：Kennedy假设缺失机制是MAR，而本文假设验证子样本是按设计抽选的（已知抽样概率），因此弱化了缺失机制的假设、更好控制抽样不确定性。 - 相比Yang and Ding (2019)：本文专门针对暴露测量误差的场景，而不是通用多源数据合并。本文也明确给出了双稳健性证明，而Yang and Ding原始论文侧重方差缩减的效率增益，未讨论双稳健性。

主要结果¶

定理1（估计量的大样本一致性）：在假设1-3下，如果至少一个模型（暴露校正模型$m(A^*,X)$或结果模型$e(X)$）正确指定且验证子样本大小$n_v\to\infty$，则$\hat{\tau}_{CV} \xrightarrow{p} \tau$（以概率收敛）。

定理2（渐近正态性与方差结构）：在两者模型都正确、且$n_v / n \to \rho \in (0,1)$的假设下，

\[\sqrt{n}(\hat{\tau}_{CV} - \tau) \xrightarrow{d} N(0, \sigma^2_{CV})\]

其中$\sigma^2_{CV} = \mathbb{E}[D^2_{\tau}] - \mathbb{E}[D^2_{eff}]$，$D_{\tau}$是只用验证子样本的初始估计的影响函数方差，$D_{eff}$是方差缩减项的影响函数。直观上，方差缩减项越大，$\sigma^2_{CV}$越小，效率增益越大。

定理3（双稳健性的正式表述）：如果暴露校正模型$m(X,A^*)$正确（即$\mathbb{E}[Y \mid X, A^*] = m_0(X,A^*)$），或者结果模型$e(X)$正确（即$\mathbb{P}(A^*=1 \mid X) = e_0(X)$），则$\hat{\tau}_{CV}$一致。这比标准的AIPW双稳健性更强——因为验证子样本大小$n_v$远小于$n$，标准AIPW可能在小样本下失效，但本文的CV框架保证了一致性。

证明路线与技术技巧¶

整体路线（3步逻辑主干）： 1. 初始估计分解：将初始估计量$\hat{\tau}_0$写成“真值+渐近线性展开”的形式，即$\hat{\tau}_0 = \tau + D_0 + o_p(n^{-1/2})$，其中$D_0$是影响函数项，在验证子样本上计算，期望为0。 2. 方差缩减项构造：对全体样本上的量$\hat{\Delta}$同样做线性化展开，得到$\hat{\Delta} = D_\Delta + o_p(n^{-1/2})$，使得$\mathbb{E}[D_\Delta] = 0$，且$D_\Delta$与$D_0$高度正相关。 3. 控制变量加和：$ \hat{\tau}{CV} = \hat{\tau}_0 - \hat{\Delta} = \tau + (D_0 - D\Delta) + o_p(n^{-1/2})$。由于$D_0 - D_\Delta$的方差小于$D_0$的方差（因为减去了正相关的量），实现了方差缩减。

关键跳跃点： - 引理1（$D_0$与$D_\Delta$的相关性刻画）：证明$D_0$和$D_\Delta$的协方差恰好等于用一个基于全体样本的“校正影响函数”的方差。这个引理是方差缩减的数学基础。 - 引理2（双稳健性的局部影响函数形式）：给定至少一个模型正确的前提下，$\hat{\tau}_{CV}$的影响函数可以写成无偏形式$\psi(Z) = \psi_0(Z) - \psi_\Delta(Z)$，且$\psi_0$和$\psi_\Delta$在错误模型下被去偏。难点在于：错误模型会导致$\hat{\tau}_0$偏向一个方向，而$\hat{\Delta}$偏向相反方向，需要证明这两个偏差恰好抵消（这就是双稳健性的精妙之处）。

技术技巧点名： - Empirical process / U-statistics：用于处理初始估计量和方差缩减项的多重嵌套估计（$\hat{m}$和$\hat{e}$都是估计的），需要处理“估计者在估计里”的误差。 - 影响函数线性化/De-biasing：关键步骤是把$\hat{\tau}_0$和$\hat{\Delta}$都线性化为影响函数之和，用标准“von Mises expansion”技术。 - 抽样概率校正（Survey sampling weights）：处理BSS不等概率抽时用到的广义提鞋（generalized raking）加权法。

真实例子与应用¶

数据：Vanderbilt Comprehensive Care Clinic的HIV电子健康记录数据，包含4,217名HIV患者。

场景：估计CD4+T细胞计数（暴露$A^*$）对艾滋病发生率（结果$Y$）的因果效应。CD4计数组：≥350 cells/mm³（即“高CD4”）vs < 350（“低CD4”）。真实CD4计数来自医疗记录的验证子样本，误差暴露$A$来自抽取的h-lab数据（电子健康记录的自动提取）。

怎么用本文方法： - 全体样本4,217人，验证子样本$n_v$约600人（SRS方案）或按协变量分层抽样（BSS方案）。 - 协变量$X$包括：年龄、性别、抗病毒治疗起始时的病毒载量等。 - 构造$\hat{\tau}_{CV}$：先用验证子样本估计$m(X,A^*)$和$e(X)$（这里$A^*$是真CD4分组），再用全体样本的$A$（含误差CD4分组）计算方差缩减项。

结果：本文的$\hat{\tau}_{CV}$估计低CD4导致艾滋病发生率升高的ATE为 0.42（95% CI: 0.28-0.56）。相比之下，若只使用验证子样本（忽略误差暴露数据）估计的ATE为 0.39（95% CI: 0.21-0.57）——区间宽30%。对比使用全体错误暴露数据的“朴素”估计（假设A没有误差）给出的ATE为 0.12（95% CI: 0.05-0.19）——严重向下偏倚。这个例子验证了：CV方法成功利用了非验证样本信息将置信区间缩窄了30%，同时校正了误暴露导致的偏倚。

🔎 结论是否比证明窄¶

结论严格在“假设1-3+至少一个模型正确”的条件下证明。但论文的某些表述（如标题“flexible and efficient”）可能需要谨慎解读： - “Efficient”在文中指的是方差缩减（减了方差），不等于达到半参效率界——正文没有证明达到了EIF对应的full-data效率下界。 - “Flexible”在技术上意味着可以使用任何数据自适应方法（xgboost、深度网络）来拟合$m$和$e$，但$m$和$e$的形式必须是暴露校正模型（即$A^*$函数）+结果模型（$X$的函数）。这并非“完全不用假设”，而是假设暴露-模型形式和结果-模型形式（但可以通过数据自适应方法灵活估计）。 - 在BSS（分层抽样）验证设计下，作者声称CV方法适用，但证明中的渐近性质依赖于验证子样本按设计抽选，不能简单推广到任意非随机验证。

四、开放问题¶

半参效率界问题（扎根在本文Supplementary Materials的标注）：作者称在补充材料中展示了$\hat{\tau}_{CV}$是某个半参模型下的RAL估计量，但正文未给出该半参模型的效率界，也未证明$\hat{\tau}_{CV}$能达到该效率界。问题：这个CV估计量的方差是否达到了数据有效利用下的半参效率下界？比较对象应该是Kennedy (2020)在相同设定下的EIF方差。
多个暴露的拓展：本文仅考虑单个暴露（$A^*$）含误差。现实中常有多个协变量同时含误差。问题：能否将控制变量框架推广到多暴露含误差的情况？到时方差缩减项如何构造？
有限样本性质（扎根在定理1-3的$n_v \to \infty$假设）：验证子样本往往很小（$n_v \ll n$），渐近理论可能不准确。问题：在$n_v$固定、$n$增长的情况下，估计量是否仍一致？需要发展有限样本理论（如Chernoff Bound）来刻画其MSE的精确表现。
与稳健性框架的整合：本文双稳健性的“双”是指暴露模型和结果模型。但从测量误差的角度看，误差结构本身也是一个建模维度。问题：能否发展“三稳健”（结果模型+暴露倾向模型+误差结构模型）的估计量，使得只要三者任意两个正确就保持一致？

Maintained by 陈星宇 · Homepage · Source on GitHub