Integration of Observational and Randomized Controlled Trial Data: Approaches, Challenges, A Novel Estimator, and Application to the LEADER Cardiovascular Outcomes Trial¶

讲者: Lauren Dang
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-02-07
主题: 因果推断
视频: https://youtu.be/KilwkNczs0U · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2210.05802 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告属于 "RCT + 外部数据整合" (RCT–external data integration / data fusion for causal inference) 这一子方向。它追问的核心问题是：在不能/不愿运行大型 RCT 的情形下，如何把一个小型 RCT 与更大规模的观测性数据（外部对照）结合起来估计因果效应，同时识别并控制观测数据引入的偏倚？

历史脉络与奠基：经典因果推断框架（Rubin Causal Model, Robins' G-computation, IPTW）已经给出了在观测数据中识别 ATE 的标准假设（无未测量混杂、正性、一致性）。当 RCT 数据存在但样本量不足时，早期的 "Bayesian dynamic borrowing"（如 Pocock (1976) 的先验方法，以及较新的 Meta-analytic Predictive (MAP) prior, Schmidli et al. 2014）通过先验分布形式地整合外部信息，但依赖主观的先验参数（如"对数据有多确信"）且控制偏倚风险的能力有限。
主流路线：近年来涌现了一批 "偏倚感知"的数据融合估计量，它们不假设外部数据是无偏的，而是用数据本身判断是否/如何整合。可粗分为几类：
1. 测试后再池化 (Test-then-pool)：简单检验 RCT 与外部对照的均值是否相等，若不能拒绝则合并——但低功效时容易错误接受有偏数据。报告提到这是个"高风险高回报"的方法。
2. 偏倚校正 / 参数化偏倚模型：如 Kallus et al. (2018) 的 "experiment grounding"，假设外部数据与 RCT 之间的偏倚可由协变量的参数化函数描述，并直接校正。优点是可外推至 RCT 未覆盖的协变量范围，缺点是对函数形式很敏感。
3. 连续权重优化：如 Oberst et al. (2020) 的方法，通过某种连续权重（如收缩估计）来最小化均方误差（MSE = bias² + variance）。
4. 评论者 Robin Evans 展示的 power likelihood 方法（与博士生合作）：贝叶斯框架中把外部数据的似然提升到一个幂次 η (0≤η≤1)，通过留一验证的预测密度选择 η。计算上通 MCMC 很重，但理论上能在条件平均处理效应 (CATE) 的 MSE 上取得优势。
这场报告的站位：报告提出的 ES-CVTMLE (Experiment-Selector Cross-Validated Targeted Maximum Likelihood Estimator) 属于 "离散候选实验选择"路线——它不是用一个连续权重，而是在一个有限的候选实验集合（如 RCT alone, RCT + 外部数据源A, RCT + 数据源B, ...）中选一个最优的，然后用选定的实验做 ATE 估计。这个思路直接传承 van der Laan 系（TMLE + cross-validation for data-adaptive parameters）的精神，特色在于：
- 用两个偏倚信号（G-computation 估计的「因果间隙」+ 对阴性对照结局 NCO 估计的ATE）来构造选择准则，不依赖用户指定的调谐参数。
- 利用交叉验证将「实验选择」与「效应估计」分离，并为推断推导了混合正态极限分布，用 Monte Carlo 抽样构建置信区间——这是本报告的方法论核心。

该方向当前的前沿还包括：Shi et al. (2020) 的 NCO-based bias correction 方法；Dahabreh et al. (2020) 的 transportability 框架；Colnet et al. (2021) 的 RWD-RCT 整合综述。本报告对应的论文 arXiv:2210.05802 是这一子方向中 第一个将交叉验证实验选择 + TMLE + NCO 纳入统一估计量 的工作。

二、最小内核 / 一个最简例子¶

符号与设定¶

可观测数据：\( O = (S, W, A, Y) \)，其中：
\( S \in \{0, 1, \dots, K\} \)：数据源标识。\( S=0 \) 是 RCT，\( S=1,\dots,K \) 是外部观测数据集（报告中仅考虑外部对照，即 \( A \) 固定为 0）。
\( W \)：基线协变量（足够用于条件交换性）。
\( A \in \{0, 1\} \)：二值处理（1 = 活性治疗，0 = 标准治疗/安慰剂）。
\( Y \)：结果变量。
潜在不可观测量：反事实结果 \( Y(1), Y(0) \)。
目标估计量 (estimand)：平均处理效应 \( \psi_{F} = \mathbb{E}[Y(1) - Y(0)] \)，对某个定义明确的实验（即某个有限的数据源组合）的意向人群平均。
候选实验：每个候选实验 \( e \) 对应一个数据源子集的合并。最简单的例子：\( e=0 \) 只用 RCT；\( e=1 \) 用 RCT + 外部对照数据集 1；\( e=2 \) 用 RCT + 外部对照数据集 2；等等。

最简特例（两个时间点、无 NCO 时）¶

假设： - \( K=1 \)：只有一个外部对照数据集（全部为 \( A=0 \) 的对照患者）。 - 忽略 NCO（只使用偏倚估计 \( \hat{B} \)）。 - 为了简化，暂时忽略交叉验证的细节，只看理想化的 Oracle 选择。

数据：RCT 有 \( n \) 个样本（包含处理组和对照组），外部数据有 \( m \) 个样本（全是对照组）。

核心思想（非 Oracle，实际执行）：

估计偏倚：对每个候选实验 \( e \)，用 G-computation 公式估计一个“统计参数” \( \psi_e \)：
\[\psi_e = \mathbb{E}_{P_e}[ \mathbb{E}(Y|A=1, W) - \mathbb{E}(Y|A=0, W) ],\]
其中 \( P_e \) 是实验 \( e \) 的联合分布。

对于 \( e=0 \)（仅 RCT），由于随机化，\( \psi_0 \) 是 ATE 的无偏估计。对于 \( e=1 \)（合并外部对照），\( \psi_1 \) 可能是有偏的。

定义一个“因果间隙”估计量 \( \hat{B} = \hat{\psi}_1 - \hat{\psi}_0 \)（此处 \( \hat{\psi}_0 \) 实际是从 RCT 估计的一个不同的因果参数 \( \tilde{\psi} \)——见报告的详细推导，但直觉上就是“用 RCT 数据作为无偏基准来估计偏倚”）。

选择实验：选择最小化 \( \widehat{\text{Var}} + \hat{B}^2 \) 的实验。如果偏倚很小，方差降低的收益会超过增加的小幅方差，于是选择合并实验；否则退回 RCT alone。
估计 ATE：用选定的实验，通过 CV-TMLE 计算 ATE 的点估计和置信区间。

为什么交叉验证是必要的？：因为在「全数据上先选实验再估计」会导致过度拟合——被选中只是因为在该样本上偏倚被低估。交叉验证将实验选择（在 training fold）与效应估计（在 validation fold）分开，从而得到条件于选择规则的、正确的采样分布。

这个特例很清楚地展示了 trade-off：合并外部数据可能大幅缩小置信区间（从 RCT 的宽区间变为合并的较窄区间），但偏倚估计的采样误差会导致两种失败模式——把有偏数据误收（覆盖降低）或把无偏数据误拒（浪费功效）。

三、报告主体：讲者讲了什么¶

[0:00–0:06] 引言与动机¶

讲者：Lauren Dang (UC Berkeley)，合作者包括 Jens Magelund Tarp, Trine Julie Abrahamsen, Kajsa Kvist, John B Buse, Maya Petersen, Mark van der Laan。资金来自 Novo Nordisk。
核心动机：当大样本 RCT 不可行（罕见病、伦理上不允许多随机化到对照）时，可用小 RCT + 外部数据（既往试验或真实世界数据）。挑战是外部数据可能引入偏倚。
目标工作：提出一个能自动判断何时整合外部数据的稳健估计量。

[0:06–0:13] 符号与识别框架¶

设定：S=0 为 RCT，S=1...K 为外部数据集（报告中只讨论外部含对照的情形，但方法也适用于外部含处理的情形）。
目标参数：ATE \(\psi_{F} = E[Y(1)-Y(0)]\)。
核心识别假设：Mean exchangeability over S：\( E[Y(a)|W, S=0] = E[Y(a)|W, S=e] \) 对所有 e 成立。即不存在「参加试验 vs. 在真实世界」对结局的直接影响，也不存在未测量的共同原因。这是一个很强的假设，报告的核心工作就是在假设可能不成立时如何保持稳健。

[0:13–0:17] 数据融合估计量的类别与挑战¶

讨论了三类方法：
Bayesian dynamic borrowing（如 MAP priors, Schmidli et al. 2014）。
Test-then-pool / equivalence-based placebo tests：先检验两组对照均值是否一致，通过则合并。批评：低功效时容易误收有偏数据。
最小化 MSE 族（Robin 讨论的 Oberst et al. 的连续方法属于此类）。
核心挑战：偏倚-方差的固有权衡。报告用两张分布图（[0:13] 附近）直观解释为什么任何单一偏倚估计量都会因为抽样误差而错误地接受或拒绝外部数据。

[0:17–0:21] 引入阴性对照结局 (NCO)¶

NCO 定义：不受处理影响、但受导致偏倚的未测量因素影响的变量。
假设：u-comparability（导致偏倚的因素对结果和 NCO 的影响“相同”）+ additive equi-confounding（在可加尺度上幅度相同）。
函数：对每个实验，额外估计 NCO 的 ATE（称为 \( \hat{\phi} \)）。若假设成立，\( \hat{\phi} \) 就是真正的偏倚。
报告使用 \( \hat{B} + \hat{\phi} \) 作为选择准则中的 偏倚惩罚项。理由是即使 NCO 假设不完全成立，这个惩罚项也会使选择器优先控制偏倚而非单纯追求方差下降（类似加了数据驱动的 L1 惩罚）。

[0:21–0:25] ES-CVTMLE 的具体构造¶

分 V 折：每折中，训练集 (V-1)/V 的数据用于实验选择，验证集 1/V 用于 ATE 估计。
训练集上：
对每个候选实验，用 Super Learner 拟合结局回归和倾向性评分。
用 TMLE 估计该实验的因果间隙 \( \hat{B}_e \) 和 NCO ATE \( \hat{\phi}_e \)。
估计该实验 ATE 估计量的方差 \( \widehat{\text{Var}}_e \)。
选择实验 \( e^* \)：最小化 \( \widehat{\text{Var}}_e + (\hat{B}_e + \hat{\phi}_e)^2 \)。
验证集上：按照选中的 \( e^* \) 对应的数据源，在该折的验证集上用 CV-TMLE 估计 ATE。
最终点估计：所有验证集 ATE 估计的平均值。

[0:25–0:29] 渐进行为与置信区间构建¶

关键数学洞察：通过分析 \( \sqrt{n} \times \text{bias} \) 的行为（趋于 0、常数、无穷）来分类渐进分布。
偏倚可忽略 (\(\sqrt{n}\cdot bias \to 0\))：混合正态，可从数据学习。
偏倚约等于标准误 (\(\sqrt{n}\cdot bias \to c\))：混合正态依赖于未知 \(c\)。
偏倚很大 (\(\sqrt{n}\cdot bias \to \infty\))：等效于仅用 RCT 的 CV-TMLE。
推断方法：由于无穷小偏倚的存在，标准的 delta 方法不一致；bootstrap 也不一致（引用 Yang et al.）。报告用 Monte Carlo 模拟：从估计的极限混合正态分布中采样分位数构造置信区间。这个 procedure 是保守的（当偏倚为 0 时稍宽），但避免了大偏倚时失效。

[0:29–0:36] 模拟验证¶

设定：
RCT: n=150, 处理分配 0.67 概率。
三个外部对照数据集（各 n=500）：S=1 (无偏), S=2 (偏倚 ≈ 方差减少的平方根，即"tricky" 量级), S=3 (偏倚很大)。
两个偏倚生成因子；NCO 只受其中一个影响（u-comparability 不成立——这是特意设计的困难场景）。
对比估计量：DTMLE (RCT alone), Test-then-pool, NCO diff-in-diff, Bayesian dynamic borrowing。
结果：
单独的 ES-CVTMLE (只用 \( \hat{B}^2 \))：对三个数据集均保持 ≥95% 覆盖，但功效增益温和（从 64% 升至 74%）。
ES-CVTMLE + NCO 惩罚项：在无偏数据上覆盖稍保守（如前预期），但功效升至 83%；在大偏倚数据上退回 RCT alone；在 tricky 偏倚+不完美 NCO 处，覆盖降至 92%——仍相对接近名义 95%。
对比之下，Test-then-pool 在有偏数据上覆盖降至 79%。

[0:36–0:42] LEADER 试验实证分析¶

数据：LEADER 试验 (Manso et al. 2016)，约 9300 名参与者，评估 liraglutide vs 安慰剂对血糖控制（HbA1c 变化）的影响。
构造 ground truth：用所有中心 + 南美 (CS) 数据作为"已知真值"；从 CS 中子采样一个小 RCT。
偏倚机制：CS 中安慰剂组 HbA1c 改善大于欧洲组，因为基线 A1c 更高导致更多附加药物添加。若把欧洲对照加进来，会夸大 liraglutide 效果。
NCO：基线胆固醇（受相同的未测量健康系统因素影响，但不受治疗影响）。
结果：
CS-only 小 RCT：点估计 0.97，置信区间宽。
不加偏倚检查合并 CS 外部数据：区间缩至 2/3，点估计仍 0.97（正确）。
不加检查合并欧洲外部数据：区间缩至 2/3，但点估计偏到 1.33（错误）。
ES-CVTMLE（有偏倚检查）：合并 CS 外部数据时区间缩至 0.83 倍，点估计 0.96；合并欧洲数据时区间恢复原宽，点估计 0.98。
结论：方法有效区分了有偏和无偏外部数据，虽然代价是中等程度的方差缩减损失。

[0:42–0:46] 总结与建议¶

总结：ES-CVTMLE 相对稳健（对比 95% 名义覆盖）、不依赖主观参数、可通过验证评估。不能保证在所有场景下达到 95% 覆盖，因此建议在做最终分析前，通过结果盲的仿真来评估估计量在特定场景下的覆盖表现。
代码：R 包 es.CVTMLE 已在 CRAN 发布（后续可核实确切的包名 —— 参见 5. 中对应论文）。

Robin Evans 的讨论（[0:46–1:00] ，略去，因为未转录全）¶

讨论重点对比了其他四类方法：最小化 MSE 方法 (Oberst et al.)、Stein 收缩 (Rosenman et al.)、experiment grounding (Kallus et al.)、power likelihood (Evans)。关于 NCO 的提问引出了 Shi et al. (2020) 和 Mao et al. (2020) 的更精细方法，用于放松 u-comparability 假设。

四、对应论文与开放问题¶

对应论文¶

arXiv:2210.05802 (强制核实：这是与转写最匹配的论文，但与报告的动画摘要一致) ："Experiment-selector cross-validated targeted maximum likelihood estimator for hybrid RCT-external data studies"，作者：Lauren Eyler Dang, Jens Magelund Tarp, Trine Julie Abrahamsen, Kajsa Kvist, John B Buse, Maya Petersen, Mark van der Laan。
注意：转写中讲者提到 "Jens Magelund Tarp" 和 "Trine Julie Abrahamsen" 与其他合作者——这与论文一致。
R 包名称在转写中提到 "our package is now on CRAN"，很可能叫 es.CVTMLE 或类似名称——可至 CRAN 按作者名核实。

开放问题（每条均源自转写中的具体陈述）¶

NCO 假设失效时的理论行为（源自 [0:17] 讲者的坦诚：“如果这些假设不成立……但我们在模拟中故意让 u-comparability 不成立”）：虽然模拟显示即使不完美 NCO 也有效，但理论上 NCO 失效和因果间隙同时偏离时，ES-CVTMLE 的偏差收敛速度与覆盖的精确关系并未刻画。这是开放的理论问题。
非二进制候选实验的连续扩展（源自 Robin 提问 [0:58] 和讲者回答：“可以设想不同的倾向得分匹配数量作为候选实验……但不是连续优化”）：当前框架要求预定义有限个候选实验。能否将其扩展为连续优化（如为一个连续的加权参数）而保持 TMLE 的理论性质，尚未解决。
交叉验证下的实验选择偏差对推断的精确影响（源自 [0:25] 的渐进讨论和 [0:29] 的 Monte Carlo 方法）：当前的推断是多步的且保守的。是否存在更直接的、基于高阶影响函数 (HOIF) 的推断方法可以减少过度保守性，同时处理来自实验选择和 TMLE 链路的多重不确定性？这是一个非常数学的开放挑战。
多个外部数据源且选择的依赖关系（源自 [0:25] 的混合正态分布场景，当偏倚 ≈ SE 时）：当外部数据源数量 K 很大（如 K→ ∞），且某些数据源在少量折叠中被选中而另一些在大量折叠中被选中时，估计量的极限分布是否仍保持混合正态性质？交叉验证折叠之间选中的实验有相关性，对推断的复杂性如何？
与实验接地方法的可比性（源自 Robin 比较 [0:51]）：Kallus et al. 的实验接地使用参数化偏倚函数，ES-CVTMLE 完全非参数。是否存在一个半参数效率下界，表明非参数的惩罚项必须比参数模型方法更保守？当前无直接比较。

Maintained by 陈星宇 · Homepage · Source on GitHub