Systematically missing data in causally interpretable meta-analysis¶

作者: Jon A Steingrimsson, David H Barker, Ruofan Bie, Issa J Dahabreh
来源: Biostatistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 因果可解释的元分析旨在将多个随机对照试验（RCT）的因果效应推断，外推或泛化到一个无法进行实验但可获得协变量信息的目标人群。该子方向的根本统计问题是：当试验参与机制非随机、且不同试验人群与目标人群的协变量分布存在异质性时，如何利用观测数据无偏地识别与估计目标人群的潜在结果均值或平均因果效应（ATE）。当前该方向在识别理论与半参数估计上已有较成熟的框架，但在应对多试验汇总时的系统性缺失数据与复杂抽样设计上仍处于起步阶段。

发展脉络 - 奠基工作：Pearl & Bareinboim (2014) 提出选择图与 do-演算，将跨人群的外推问题形式化为“可运输性”，给出了基于图论的符号判定程序，但未涉及半参数估计与有限样本推断。 - 主要进展（识别与估计）：Dahabreh 系列工作将外推从图论判定推进到统计估计。Dahabreh et al. (2018) 给出了从单一试验向目标人群泛化的教程式梳理，提出 IPW、g-formula 与 DR 估计器；Dahabreh et al. (2020) 将框架扩展至多试验的“因果可解释元分析”，明确指出“假设所有试验的推断均可运输至同一目标人群”对观测数据律有强约束（如各试验在给定协变量与处理下的期望结果相等）；Dahabreh et al. (2019) 进一步给出了多试验 DR 估计器，证明其在至少一个干扰模型正确时一致且渐近正态。 - 当前 frontier（缺失数据与复杂抽样）：多试验汇总时，某些试验根本未采集某些基线协变量（系统性缺失），导致既有识别条件（要求条件于全部效应修饰因子）失效。Resche-Rigon & White (2016) 与 Kunkel & Kaizar (2017) 处理了元分析中系统性缺失的多重插补，但未触及因果识别；Kundu et al. (2017) 用 GMM 结合不同维度回归模型处理系统性缺失，但限于参数模型；Mohan & Pearl (2018) 用图模型处理 MNAR 的可估性，未给出半参数估计。此外，目标人群数据常来自复杂抽样调查，既有因果外推方法未将抽样权重与聚类结构纳入估计与方差计算。 - 本文的位置：本文首次在因果可解释元分析框架下，同时处理协变量系统性缺失的识别问题与复杂抽样设计的估计问题，填补了既有外推理论在多试验数据不齐整与目标人群非简单随机样本时的空白。

子线索聚类 1. 因果外推的识别与图论：Pearl & Bareinboim (2014)、Dahabreh et al. (2019, counterfactual/graphical)。聚焦于用选择图或反事实模型刻画“可运输性”的条件，给出非参数识别公式，但不处理估计。 2. 因果外推的半参数估计：Dahabreh et al. (2018, 2019, 2020)、Robins et al. (2007)、Smucler et al. (2019)、Rotnitzky et al. (2019)。聚焦于 DR 估计、混合偏倚性质、\(\ell_1\) 正则化与 cross-fitting，处理高维干扰函数但假设协变量完全观测。 3. 元分析中的系统性缺失数据：Resche-Rigon & White (2016)、Kunkel & Kaizar (2017)、Kundu et al. (2017)。聚焦于多重插补或 GMM，处理协变量在某些试验全缺失，但不在因果识别框架下讨论。 4. 元分析的随机效应与加权：Zeng & Lin (2015)。聚焦于传统随机效应元分析的渐近性质与最优加权，指出当试验数有限时常用加权渐近正态近似严重失准，但未涉及因果外推与协变量缺失。

这个方向在追问的核心问题 1. 识别：当效应修饰因子在某些试验系统性缺失时，目标人群的 ATE 在何种可验证条件下可由观测数据非参数识别？需要哪些关于缺失机制与结果模型的假设？ 2. 估计：在识别成立时，如何构造兼顾系统性缺失与复杂抽样设计的 DR 估计器，使其在干扰函数部分误设时仍保持 \(n^{-1/2}\)-CAN？ 3. 效率：在系统性缺失下，半参数效率界为何？既有 DR 估计器是否达到该界？ 4. 稳健性：对不可检验的“给定已观测协变量与试验指示下缺失随机”假设（A6），如何做敏感性分析？

⚠️ 作者的 framing - 作者将缺口 frame 为“既有因果外推方法要求条件于全部效应修饰因子，但多试验中协变量常系统性缺失，导致既有识别与估计方法直接失效”，从而让本文“在因果框架下处理系统性缺失的识别与估计”成为显然的下一步。 - 被淡化或回避的竞争路线：作者未讨论基于多重插补（MICE）先补全再做因果外推的路线，也未与 Kundu et al. (2017) 的 GMM 路线在估计效率或鲁棒性上做直接对比；对高维设定下可能需要的 cross-fitting 或 \(\ell_1\) 正则化（Smucler et al. 2019, Rotnitzky et al. 2019）未纳入本文估计器。 - 明显该被引但未出现在 intro 的：处理 MNAR 的最新因果图方法（如 Mohan & Pearl 2018 被引但仅一笔带过）、半参数效率理论的标准参考（如 Bickel et al. 1993 或 van der Vaart 1998 未引）、高维 DR 估计的 cross-fitting 文献。这值得研究者去查：是否因为本文的识别假设已将 MNAR 退化为 MAR，从而图方法不适用？是否效率界推导在缺失下有额外困难？

张力未见明显对立引用。既有工作在各自假设下结论一致，张力主要体现在假设的强弱：Dahabreh et al. (2020) 要求各试验条件于全部协变量的结果期望相等，而本文在系统性缺失下不得不放松此条件（仅要求条件于已观测协变量子集的相等），这实质上引入了新的不可检验假设（A6），与既有框架的“可验证约束”精神存在内在张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据 - \(a \in \mathcal{A}\)：处理值（如 \(a=1\) 为筛查，\(a=0\) 为对照）。 - \(Y\)：观测结果（如肺癌死亡）。 - \(Y^a\)：潜在结果，若强制处理为 \(a\) 时的结果。 - \(X\)：全部基线协变量向量（如年龄、性别、吸烟包年数、种族等），维度为 \(p\)。 - \(X^{(k)}\)：第 \(k\) 个协变量子集（维度 \(p_k < p\)），由试验 \(s \in \mathcal{S}_k\) 所采集。 - \(R_k\)：缺失指示，\(R_k=1\) 表示 \(X^{(k)}\) 已观测（即个体来自试验 \(s \in \mathcal{S}_k\) 或目标人群样本）。 - \(S\)：试验指示/参与指示，\(S=s\) 表示个体来自试验 \(s\)；\(S=0\) 表示个体来自目标人群样本。 - \(\mathcal{S}_k\)：采集了协变量子集 \(X^{(k)}\) 的试验集合。 - \(Z\)：目标人群样本中的抽样设计变量（如 PSU、分层），用于构造抽样权重 \(w_i\)。 - \(\psi^a\)：目标人群的潜在结果均值 estimand：\(\psi^a = E[Y^a | S=0]\)。 - \(\delta\)：ATE estimand：\(\delta = \psi^1 - \psi^0\)。 - \(n_s\)：试验 \(s\) 的样本量；\(n_0\)：目标人群样本量；\(N = \sum_{s} n_s + n_0\) 为总样本量。 - 模型：数据生成上，目标人群 \((X, Z, S=0)\) 服从某未知分布 \(P_0\)；各试验 \((X, S=s, A, Y)\) 服从 \(P_s\)，试验内处理 \(A\) 由随机化机制决定（已知或可估）。缺失机制：若 \(s \notin \mathcal{S}_k\)，则该试验所有个体的 \(X^{(k)}\) 均不可观测（\(R_k=0\)），且缺失指示由试验设计决定（非随机缺失，但缺失本身已知）。 - 可观测数据：对试验 \(s \in \mathcal{S}_k\) 的个体，观测 \((X^{(k)}, S=s, A, Y)\)；对试验 \(s \notin \mathcal{S}_k\) 的个体，观测 \((S=s, A, Y)\) 但 \(X^{(k)}\) 缺失。对目标人群个体，观测 \((X, Z, S=0)\)，但不观测 \((A, Y)\)。想要但观测不到的：目标人群的 \((Y^1, Y^0)\)；非 \(\mathcal{S}_k\) 试验的 \(X^{(k)}\)；目标人群的处理与结果。

第二步：最小内核——两个试验、一个协变量系统性缺失 考虑最简特例：2 个试验（\(s=1,2\)），1 个目标人群样本（\(s=0\)），二值处理 \(a \in \{0,1\}\)，协变量 \(X=(V, W)\) 其中 \(V\) 为两试验均采集的协变量（如年龄、性别），\(W\) 为仅试验 1 采集的协变量（如吸烟包年数，试验 2 系统性缺失 \(W\)）。

识别难题：目标 ATE \(\delta = E[Y^1|S=0] - E[Y^0|S=0]\)。若 \(W\) 是效应修饰因子（即 \(E[Y^a|V,W,S]\) 依赖 \(W\)），则仅用试验 1 的数据可识别条件于 \((V,W)\) 的结果均值，但试验 2 缺失 \(W\)，无法直接验证“试验 2 与目标人群在给定 \(V,W\) 下结果期望相等”的假设。既有外推识别要求条件于全部效应修饰因子，但 \(W\) 在试验 2 不可观测，识别公式 \(E[Y^a|S=0] = E_{X|S=0}[E[Y^a|X,S=s]]\) 在 \(s=2\) 时因 \(W\) 缺失而无法计算。
本文的破局想法：引入缺失随机假设（A6）：\(R_W \perp Y^a | (V, S, A=a)\)，即在给定已观测协变量 \(V\)、试验指示 \(S\) 与处理 \(A\) 后，协变量 \(W\) 的缺失指示与潜在结果独立。此假设将 MNAR 退化为条件 MAR，使得：
试验 1 中 \(E[Y^a|V,W,S=1]\) 可直接回归估计；
试验 2 中虽无 \(W\)，但由 A6 可得 \(E[Y^a|V,S=2] = E_{W|V,S=2}[E[Y^a|V,W,S=1]]\)（结合 A3：条件于 \(V,W\) 的结果期望在试验 1 与 2 相等），从而试验 2 的边缘结果期望可由试验 1 的条件结果模型与 \(W\) 在目标人群的分布积分出来；
目标人群的 \(\psi^a = E_{X|S=0}[E[Y^a|V,W,S=1]]\) 可直接用目标人群的 \((V,W)\) 分布与试验 1 的结果模型积分。
最小内核的数学命题：在 A1-A6 下，\(\psi^a\) 可由观测数据非参数识别为
\[\psi^a = E_{X|S=0}\left[E[Y|V,W,S=1,A=a]\right]\]
或等价地（当目标人群仅观测 \(V\) 时）
\[\psi^a = E_{V|S=0}\left[E[Y|V,S=2,A=a]\right]\]
证明路线：A3（条件结果相等）将试验 1 的条件结果模型桥接到试验 2；A6（缺失随机）将试验 2 的边缘结果期望拆解为对 \(W\) 的积分；A1（无直接试验效应）与 A2（可运输性）保证条件结果可跨试验与目标人群搬运；A4（随机化）保证试验内 \(A \perp Y^a | X, S\)；A5（正性）保证条件概率非零。整个识别的核心跳跃在于 A6：它让“缺失协变量”从识别的障碍变为可积分消除的冗余，前提是缺失与潜在结果在给定已观测变量后独立。

三、这篇论文做了什么¶

三句话 ① 研究了多试验因果可解释元分析中，当部分试验系统性缺失某些基线协变量时，目标人群 ATE 的识别与估计问题；② 核心工具是引入条件缺失随机假设（A6）与可运输性假设（A3），将缺失协变量从识别障碍转化为可积分消除的量，并据此构造 IPW、g-formula 与 DR 三类估计器；③ 主要结论是在 A1-A6 下 ATE 可非参数识别，三类估计器在常规正则条件下为 \(n^{-1/2}\)-CAN，DR 估计器在至少一个干扰模型正确时一致，模拟与实证分析验证了有限样本表现。

关键设定与假设 在第二节最小记号基础上补全： - A1（No direct effect of trial participation on outcome）：\(Y^a \perp S | X\)，即给定全部协变量后，参与哪个试验不直接影响结果。统计含义：排除了试验本身（如不同医疗系统）对结果的直接因果效应，仅通过协变量分布差异产生异质性。相比 Dahabreh et al. (2020) 的相同假设，未放宽。 - A2（Transportability）：\(E[Y^a | X, S=s] = E[Y^a | X, S=0]\) 对所有 \(s\) 与 \(a\) 成立。统计含义：条件于全部协变量的潜在结果均值跨试验与目标人群相等。本文在系统性缺失下，此假设仅对已观测协变量子集 \(X^{(k)}\) 可验证（结合 A3），对未观测部分依赖 A6 间接保证。 - A3（Equal expectations conditional on covariate subsets）：对固定 \(a\)，\(E[Y^a | X^{(k)}, S=s]\) 对所有 \(s \in \mathcal{S}_k\) 相等。统计含义：条件于各试验共同采集的协变量子集，潜在结果均值相等。这是本文新增假设，用于在缺失下桥接不同试验的结果模型。 - A4（Randomization within trials）：\(A \perp Y^a | X, S=s\) 对试验 \(s\) 内成立。统计含义：试验内处理随机化，保证条件结果均值可由观测结果均值识别。标准假设，未变。 - A5（Positivity）：\(P(A=a|X^{(k)}, S=s) > 0\) 对 \(s \in \mathcal{S}_k\)；\(P(S=0|X) > 0\)；\(P(R_k=1|X^{(k)}, S=0) > 0\)。统计含义：保证 IPW 权重非无穷。新增了对缺失指示的正性条件。 - A6（Missing at random conditional on observed covariates and trial）：\(R_k \perp Y^a | (X^{(k)}, S, A=a)\)。统计含义：给定已观测协变量、试验指示与处理后，协变量子集 \(X^{(k)}\) 的缺失与潜在结果独立。这是本文最关键的新增假设，将系统性缺失从 MNAR 转化为条件 MAR，使得识别公式中缺失协变量可积分消除。不可检验，是本文识别的阿基米德支点。

主要结果 - 定理 1（识别）：在 A1-A6 下，\(\psi^a\) 可由观测数据非参数识别，给出两条识别公式： 1. 基于 g-formula 的识别：\(\psi^a = E_{X|S=0}\left[\sum_{k} I(R_k=1) E[Y | X^{(k)}, S \in \mathcal{S}_k, A=a]\right]\)（对目标人群协变量分布积分）； 2. 基于 IPW 的识别：\(\psi^a = E\left[\frac{I(S \in \mathcal{S}_k, A=a) R_k}{P(S \in \mathcal{S}_k | X^{(k)}) P(A=a | X^{(k)}, S \in \mathcal{S}_k)} Y\right]\)（对试验结果加权）。直觉：A6 保证缺失指示可从条件结果中剥离，A3 保证不同试验的条件结果模型可互换，从而缺失协变量不阻断识别路径。必要条件：A6 不可检验，若违反则识别公式偏倚方向未知。 - 定理 2-4（估计器的 CAN 性质）：在 A1-A6 与常规正则条件下（干扰函数估计收敛速率 \(n^{-1/4}\) 或更快、权重有界、模型光滑），IPW、g-formula 与 DR 估计器均为 \(n^{-1/2}\)-CAN。DR 估计器在至少一个干扰模型（结果模型或参与/缺失模型）正确时一致，但若两者均误设则不一致。技术难点：在系统性缺失下，DR 估计器的干扰函数涉及多个试验的协变量子集与缺失指示，需保证交叉项的渐近消去。 - 推论（复杂抽样下的修正）：当目标人群数据来自复杂抽样设计时，将目标人群的协变量分布估计 \(E_{X|S=0}\) 替换为抽样加权估计 \(\sum_{i: S_i=0} w_i f(X_i) / \sum w_i\)，方差估计采用 sandwich 估计器并允许聚类。此修正不改变 CAN 性质，但要求抽样权重有界且设计已知。

证明路线与技术技巧 - 整体路线： 1. 从反事实模型出发，用 A1-A2 将目标人群的 \(\psi^a\) 表达为条件于全部协变量的试验结果均值的积分； 2. 用 A3 将不同试验的条件结果均值桥接到共同协变量子集 \(X^{(k)}\) 上； 3. 用 A6 将缺失指示从条件结果中剥离，得到仅依赖已观测数据的识别公式； 4. 基于识别公式构造 IPW、g-formula 与 DR 估计器，用 M-估计理论证明 CAN； 5. 对复杂抽样，用抽样加权替换简单随机样本的均值，证明加权估计器的 CAN。 - 关键跳跃点：从“全部协变量”的识别到“已观测协变量子集”的识别，核心跳跃在于 A6 的引入——它让 \(E[Y^a | X, S=s]\) 可拆解为 \(E_{X^{(-k)} | X^{(k)}, S=s, R_k=1}[E[Y^a | X, S=s]]\)，从而缺失协变量 \(X^{(-k)}\) 的分布可由已观测数据估计。此跳跃依赖 A6 的不可检验假设，若违反则后续全部推导失效。 - 技术技巧： 1. M-估计理论：用于证明三类估计器的 CAN 性质，通过验证估计方程的零均值与光滑性，引用经典 M-估计收敛定理（未点名具体引用，但属 van der Vaart 1998 第 5 章范畴）。 2. DR 构造：基于 IPW 与 g-formula 的组合，构造 \(DR = IPW - g\text{-formula} + \text{plug-in}\)，利用双干扰函数的偏倚乘积结构保证单模型正确时偏倚消去。此构造与 Robins et al. (2007) 的标准化 DR 估计器思路一致。 3. 抽样加权整合：将目标人群的协变量分布估计从经验测度替换为加权经验测度 \(\sum w_i / \sum w_i\)，方差估计用 sandwich 公式允许聚类。此技巧与调查统计中的加权估计器理论一致（未引具体调查统计文献）。 4. 归一化 IPW：引用 Robins et al. (2007) 与 Dahabreh et al. (2019) 的归一化权重技巧，将 IPW 估计器的分母从期望值替换为样本均值，避免极端权重下的有限样本不稳定。

真实例子与应用 - 数据：两个肺癌筛查 RCT——NLST（National Lung Screening Trial，\(n \approx 53,000\)）与 PLCO（Prostate, Lung, Colorectal, and Ovarian Cancer Screening Trial，\(n \approx 77,000\)）；目标人群数据来自 NHANES（National Health and Nutrition Examination Survey，\(n \approx 5,000\) 符合 USPSTF 筛查标准者）。 - 系统性缺失结构：NLST 采集了种族信息，PLCO 未采集种族（种族在 PLCO 系统性缺失）；两试验均采集年龄、性别、吸烟状态等。 - 方法应用：用本文的 DR 估计器，结合 NLST 的条件结果模型（条件于年龄、性别、吸烟、种族）与 PLCO 的边缘结果模型（条件于年龄、性别、吸烟），对 NHANES 目标人群估计 LDCT 筛查 vs 对照的肺癌死亡 ATE。目标人群协变量分布用 NHANES 抽样加权估计，允许聚类。 - 结果：估计出目标人群的 ATE 为 LDCT 筛查降低肺癌死亡风险约 20%（具体数值见论文表 4），与 NLST 内部效应相近但略低，反映了目标人群协变量分布的差异。归一化 DR 估计器比未归一化版本更稳定。 - 例子想说明什么：验证本文方法在真实系统性缺失与复杂抽样下的可行性；展示归一化 DR 估计器的有限样本优势；说明协变量缺失（种族）不阻断识别的前提是 A6 成立（论文讨论了 A6 的合理性：种族缺失与肺癌死亡在给定年龄、吸烟后可能独立，但承认不可检验）。

🔎 结论是否比证明窄 - 论文在定理 2-4 中严格证明了三类估计器在“干扰函数估计收敛速率 \(n^{-1/4}\) 或更快”下的 CAN 性质，但在讨论中泛泛 claim“DR 估计器在干扰函数使用机器学习估计时仍可保持 CAN”，未给出 cross-fitting 或 \(\ell_1\) 正则化的严格证明。此 claim 扎根于 Smucler et al. (2019) 与 Rotnitzky et al. (2019) 的高维 DR 理论，但本文未引用也未验证那些条件（如稀疏性、cross-fitting）在系统性缺失下是否成立。 - 论文在实证分析中假设 A6 成立，但承认 A6 不可检验，并在讨论中提到“需发展敏感性分析方法评估 A6 违反的影响”，此为未证明的 conjecture，扎根于 limitation 部分。

四、开放问题（点到为止）¶

A6 的敏感性分析：A6（\(R_k \perp Y^a | X^{(k)}, S, A\)）不可检验，需发展参数化敏感性分析方法，量化 A6 违反对 ATE 估计偏倚的方向与大小。扎根于论文 Section 7 limitation：“Our methods rely on the untestable missing at random assumption (Assumption A6), it would be of interest to develop sensitivity analysis methods to evaluate how violations of that assumption may affect the results [51]。”（引用 Dahabreh et al. 2019 的敏感性分析工作，但该工作处理的是参与机制违反，非缺失机制违反）。
系统性缺失下的半参数效率界：本文给出了三类估计器但未推导半参数效率界。在 A1-A6 下，\(\psi^a\) 的有效影响函数为何？既有 DR 估计器是否达到效率界？扎根于论文未讨论效率界的事实，以及 Dahabreh et al. (2020) 亦未在完整协变量下推导效率界。研究者可参考 Robins et al. (2008) 的 HOIF 理论，判断是否需高阶影响函数以突破 \(n^{-1/4}\) 速率限制。
高维协变量与 cross-fitting：本文假设干扰函数估计收敛速率 \(n^{-1/4}\)，但未讨论高维下（\(p > n\)）如何保证此速率。需将 Smucler et al. (2019) 的 cross-fitting 与 \(\ell_1\) 正则化 DR 理论扩展至系统性缺失设定，证明在稀疏性条件下 DR 估计器仍为 CAN。扎根于论文 Section 7 对机器学习干扰函数的泛泛 claim 与未验证的 cross-fitting 条件。
A3 的可检验性：A3（条件于协变量子集的结果期望跨试验相等）在部分协变量缺失下是否可由观测数据检验？若不可检验，需敏感性分析。扎根于论文对 A3 的讨论：“The conditions imply that for a fixed treatment a, the expectations E[Y|X(k),S=s,A=a] are equal for all trials s ∈ Sk [10]”，此条件在 \(X^{(k)}\) 完全观测的试验间可检验，但在缺失试验间依赖 A6 间接保证，形成复合不可检验假设。

Maintained by 陈星宇 · Homepage · Source on GitHub

Systematically missing data in causally interpretable meta-analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论