Robust Estimation and Inference with Selective Borrowing in Hybrid Controlled Trials: A Tutorial with SelectiveIntegrative and intFRT¶

作者: Ke Zhu, Hairong Huang, Shu Yang, Xiaofei Wang
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2607.00350

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在随机对照试验（RCT）样本量不足时，如何安全、有效地借用外部对照（EC）数据来提升统计效率，同时控制因数据异质性（协变量偏移和结局漂移）引入的偏倚。当前该领域已从“全借用”发展到“选择性借用”阶段，核心挑战在于：如何在借用前识别出与RCT对照可交换的EC子集，并在借用后提供有效的推断（包括渐近推断和有限样本精确推断）。

发展脉络¶

奠基工作：Rubin (1974) 奠定了因果推断的潜在结果框架，明确指出非随机化数据在严格控制下可用于估计因果效应，为借用外部数据提供了理论基础。Neyman (1923) 提出了潜在结果和平均处理效应的概念。
早期混合试验设计：Ventz et al. (2022) 系统提出了混合对照试验（HCT）的设计框架，将EC数据与RCT随机化结合，并分析了在存在测量和未测量混杂时的表现。Mishra-Kalyani et al. (2022) 从监管角度综述了肿瘤学中外部对照臂的当前使用和未来方向。这两篇工作确立了HCT作为“提升效率同时保留RCT目标人群”的可行策略。
协变量偏移调整方法：这是解决EC与RCT人群协变量分布差异的第一道防线。Shan et al. (2022) 通过模拟评估了多种统计方法（匹配、加权、结果建模）在混合真实世界对照臂中的表现。Lin et al. (2023) 明确了不同匹配方案对应的因果估计量。Li et al. (2023) 推导了借用EC后的半参数效率界，并提出了双重稳健且局部有效的估计量。Valancius et al. (2024) 将HCT纳入正式因果推断框架，建立了图形化准则并发展了高效双重稳健估计。这些工作共同构成了“全借用”策略的方法论基础。
选择性借用（当前frontier）：意识到全借用可能引入偏倚后，研究者开始发展选择性借用方法。Gao et al. (2025a) 提出了数据自适应整合框架，通过偏倚惩罚动态筛选出可比的EC子集，实现了“可比时达到半参数效率界，不可比时选择性借用”。Zhu et al. (2025) 和 Liu et al. (2025b) 将共形推断引入选择性借用，通过个体化可交换性检验和MSE最小化阈值选择来识别无结局漂移的EC子集。本文（Zhu, Huang, Yang, Wang, 2026）的位置：它是一篇教程，将上述选择性借用方法（PSB和CSB）与Fisher随机化检验整合为一个可复现的工作流，并提供了R包实现。

子线索聚类¶

线索1：全借用与协变量偏移调整（Shan et al., 2022; Lin et al., 2023; Li et al., 2023; Valancius et al., 2024）。核心是假设所有EC满足条件均值可交换性（Assumption 2），通过IPW、AIPW、ACW等方法调整协变量偏移。
线索2：选择性借用（Gao et al., 2025a; Zhu et al., 2025; Liu et al., 2025b）。核心是识别并仅借用与RCT对照可交换的EC子集。分为两条子路径：基于惩罚的PSB（Gao et al., 2025a）和基于共形推断的CSB（Zhu et al., 2025; Liu et al., 2025b）。
线索3：随机化推断（Simon & Simon, 2011; Carter et al., 2024）。利用FRT提供有限样本精确的I类错误控制，尤其适用于小样本和自适应选择后的推断。
线索4：预后评分调整（Schuler et al., 2022; Liao et al., 2025; Højbjerre-Frandsen et al., 2026）。利用外部数据训练预后模型，将预测得分作为协变量纳入RCT分析，在不引入偏倚的前提下提升效率。这是与选择性借用互补的另一种思路。

核心问题与瓶颈¶

如何定义和检验“可交换性”？ 条件均值可交换性（Assumption 2）与个体可交换性（共形推断中的假设）哪个更合适？前者更弱但难以直接检验，后者更强但可通过共形p值评估。
选择性借用的阈值如何选择？ CSB通过MSE最小化选择阈值，但MSE估计本身依赖无偏基准（NB估计量），在小样本下可能不稳定。
选择性借用后的推断如何保证有效性？ 自适应选择过程会扭曲后续推断，FRT通过重放选择过程来解决，但计算成本高。
如何扩展到更复杂的结局类型？ 当前方法主要针对二值和连续结局，生存数据、竞争风险等场景的方法尚在发展中。

⚠️ 作者的framing¶

作者将缺口frame为：“现有选择性借用方法（PSB和CSB）已有理论，但缺乏一个从数据预处理到最终推断的完整、可复现的工作流和用户友好的软件实现”。因此，本文的定位是“教程+软件”，而非提出新方法。作者淡化了以下竞争路线： - 贝叶斯动态借用方法：作者在结论中明确提到“未详细讨论”，但未解释为何聚焦于频率学派方法。 - 预后评分调整：仅在结论中作为未来方向提及，未与选择性借用进行系统比较。 - 设计阶段的样本量确定：作者承认这是未来方向，但未在教程中整合。

值得研究者去查的问题：本文的intro和参考文献中，未见对以下工作的引用或讨论： - 基于贝叶斯的混合试验设计（如Power Prior、Meta-Analytic-Predictive方法），这些是监管提交中常用的替代方案。 - 因果中介分析或工具变量方法在HCT中的应用（尽管EC数据可能涉及未测量混杂）。 - 与高维协变量或非参数结果模型相关的选择性借用方法。

张力¶

未见明显对立引用。各被引工作基本在互补的设定下发展，未发现同一问题下得出相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号： - \(A \in \{0, 1\}\)：处理变量（1=实验治疗，0=对照）。 - \(Y\)：观测到的结局（本文为二值：3年生存状态，1=存活，0=死亡）。 - \(X\)：基线协变量向量（本文含5个：性别、年龄、种族、组织学、肿瘤大小）。 - \(S \in \{0, 1\}\)：数据来源指示变量（1=RCT，0=EC）。 - \(Y(a)\)：在\(A=a\)下的潜在结局（counterfactual）。 - \(\tau = \theta_1 - \theta_0\)：RCT人群中的平均处理效应（ATE），其中\(\theta_a = \mathbb{E}[Y(a) \mid S=1]\)。 - \(n_{\text{RCT}}\)：RCT样本量；\(n_{\text{EC}}\)：EC样本量；\(n = n_{\text{RCT}} + n_{\text{EC}}\)。 - \(\pi_A(x) = \mathbb{P}(A=1 \mid S=1, X=x)\)：RCT中的处理分配概率（已知常数\(\bar{\pi}_A = n_1/n_{\text{RCT}}\)）。 - \(\pi_S(x) = \mathbb{P}(S=1 \mid X=x)\)：采样倾向得分。 - \(\mu_a(x) = \mathbb{E}[Y \mid A=a, X=x]\)：条件均值结局（在Assumption 2下，\(\mu_0(x)\)对RCT对照和EC相同）。 - \(r(x) = \text{Var}(Y \mid S=1, A=0, X) / \text{Var}(Y \mid S=0, A=0, X)\)：条件方差比。 - \(b_i = \mathbb{E}[Y \mid S=0, A=0, X_i] - \mathbb{E}[Y \mid S=1, A=0, X_i]\)：第\(i\)个EC的个体偏倚参数（PSB中使用）。

模型： - 数据生成机制：RCT中，\(A\)由已知随机化机制生成（独立于\(X\)）。EC中，所有个体接受对照（\(A=0\)）。结局\(Y\)由潜在结果和分配机制决定。 - 识别假设：Assumption 1（RCT内SUTVA、无混杂、正性）由随机化保证。Assumption 2（条件均值可交换性）是借用EC的关键假设，要求\(\mathbb{E}[Y(0) \mid S=1, X] = \mathbb{E}[Y(0) \mid S=0, X]\)。Assumption 3（采样正性）要求EC的协变量值落在RCT的支持内。 - 要估的对象：\(\tau = \theta_1 - \theta_0\)。

可观测数据： - 可观测：\((S_i, A_i, X_i, Y_i)\)，\(i=1,\dots,n\)。其中RCT个体有\(S=1\)，EC个体有\(S=0\)且\(A=0\)。 - 不可观测：潜在结局\(Y_i(0)\)和\(Y_i(1)\)（对每个个体只能观测到一个）。EC个体的\(Y(1)\)完全缺失。RCT个体的反事实由随机化保证可识别。

第二步：最小内核¶

最简特例：假设只有一个二元协变量\(X \in \{0, 1\}\)，RCT和EC的样本量分别为\(n_{\text{RCT}}=2\)和\(n_{\text{EC}}=2\)。RCT中，处理分配完全随机（各1人）。EC中两人均接受对照。目标：估计\(\tau = \mathbb{E}[Y(1)-Y(0) \mid S=1]\)。

在这个特例下，核心问题退化成什么？

全借用（FB）：假设Assumption 2成立（即给定\(X\)，RCT对照和EC的\(Y(0)\)均值相同）。那么我们可以将RCT对照和EC合并来估计\(\theta_0\)。例如，用AIPW估计量：
\(\hat{\theta}_1\)：只用RCT处理组（1人），用协变量调整。
\(\hat{\theta}_0^{\text{FB}}\)：合并RCT对照（1人）和EC（2人），用AIPW调整协变量偏移。
如果EC的\(X\)分布与RCT不同（例如EC中\(X=1\)的比例更高），AIPW通过采样倾向得分加权来校正。
选择性借用（CSB）：假设Assumption 2可能对部分EC不成立（例如，EC中有一个人的\(Y\)系统性低于RCT对照，即使\(X\)相同）。CSB通过共形p值检验每个EC与RCT对照的个体可交换性：
将RCT对照（1人）分为训练集和校准集（由于样本太小，实际中会用交叉验证）。
对每个EC，计算共形得分（如最近邻距离），与校准集比较得到p值。
只保留p值大于阈值\(\gamma\)的EC。
用保留的EC子集重新估计\(\theta_0\)。
FRT：在\(H_0^{\text{sharp}}: Y_i(1)=Y_i(0)\)对所有RCT个体成立下，RCT中两个个体的潜在结局完全已知（等于观测结局）。FRT通过随机重排处理分配（共\(\binom{2}{1}=2\)种可能），对每种分配重新运行整个分析（包括EC选择），得到检验统计量的分布。这保证了即使在EC选择后，I类错误仍被精确控制。

核心数学困难：选择性借用引入了“选择不确定性”——EC子集的选择依赖于数据，导致后续推断（如置信区间）的覆盖率和I类错误可能偏离名义水平。本文的关键想法是：用FRT重放整个选择过程，从而将选择不确定性纳入推断，实现后选择有效的推断。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：为混合对照试验（HCT）中利用外部对照（EC）提升统计效率的问题，提供了一个从数据预处理到最终推断的完整、可复现的统计分析工作流。
核心工具/方法：整合了协变量偏移调整（AIPW等）、选择性借用（PSB和CSB）和Fisher随机化检验（FRT），并提供了R包SelectiveIntegrative和intFRT的实现。
主要结论：通过合成肺癌数据演示，选择性借用（CSB）相比全借用（FB）能产生更接近无借用（NB）的估计，同时通过借用部分EC提升精度；FRT为选择性借用后的推断提供了有限样本精确的I类错误控制。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

目标人群：RCT人群（\(S=1\)），由试验入排标准定义。EC仅用于提升效率，不改变目标人群。
处理分配：RCT内，\(A\)完全随机化，\(\pi_A(x) \equiv \bar{\pi}_A = n_1/n_{\text{RCT}}\)（已知常数）。EC中，所有个体\(A=0\)。
关键假设：
Assumption 1 (RCT识别)：SUTVA、无混杂、正性。由随机化保证。
Assumption 2 (条件均值可交换性)：\(\mathbb{E}[Y(0) \mid S=1, X] = \mathbb{E}[Y(0) \mid S=0, X]\)。这是借用EC的核心假设，选择性借用的目标就是识别满足此假设的EC子集。
Assumption 3 (采样正性)：\(\pi_S(x) > 0\)对所有\(x\)在RCT支持内成立。这要求EC的协变量值落在RCT支持内，但不要求反之。
相比已有文献的放宽/强化：
相比Li et al. (2023)的全借用框架，本文通过选择性借用放宽了Assumption 2对全部EC的要求（只要求被选中的子集满足）。
相比Gao et al. (2025a)的PSB，本文的CSB使用了更强的个体可交换性假设（共形推断所需），但通过数据自适应阈值选择来平衡偏倚和方差。
相比Zhu et al. (2025)和Liu et al. (2025b)，本文强化了实用性：提供了完整的R代码、数据预处理步骤和报告清单。

主要结果¶

本文是教程，无新定理。核心量化结论来自合成数据演示（表2和表3）：

方法	估计值 (RD)	SE	95% CI	渐近p值	FRT p值	借用EC数
NB-AIPW	0.0568	0.0474	(-0.0361, 0.1497)	0.2310	0.227	0
FB-AIPW	0.0978	0.0376	(0.0241, 0.1715)	0.0093	0.120	335
CSB-AIPW	0.0584	0.0402	(-0.0205, 0.1373)	0.1470	0.187	153

FB-AIPW：估计值最大（0.0978），SE最小，渐近p值显著（0.0093），但FRT p值不显著（0.120）。这表明FB可能因借用所有EC（包括有结局漂移的）而引入偏倚，导致渐近推断过于乐观。
CSB-AIPW：估计值（0.0584）接近NB（0.0568），SE（0.0402）介于NB和FB之间，借用153个EC。渐近和FRT p值均不显著，说明选择性借用在控制偏倚的同时适度提升了效率。
PSB-ACW（表3）：仅借用1个EC，估计值几乎等于NB，说明在二值结局+GLM设定下，PSB可能过于保守。

证明路线与技术技巧¶

本文为教程，无新证明。但可梳理其引用的核心方法（Zhu et al., 2025; Liu et al., 2025b）的证明路线：

CSB的证明路线（基于Zhu et al., 2025）： 1. 共形p值的有效性：在个体可交换性下，共形p值在有限样本中满足\(\mathbb{P}(p_i \leq \alpha) \leq \alpha\)（对任意\(\alpha \in [0,1]\)）。这是共形推断的标准性质（Angelopoulos et al., 2024）。 2. MSE估计：将NB估计量视为近似无偏基准，将CSB估计量的MSE分解为\((\hat{\tau}_\gamma - \hat{\tau}_{\text{NB}})^2 + \widehat{\text{Var}}(\hat{\tau}_\gamma)\)。第一项估计偏倚的平方，第二项用sandwich或bootstrap估计方差。 3. 阈值选择的一致性：在正则条件下，最小化估计MSE的阈值\(\hat{\gamma}\)收敛到最小化真实MSE的阈值\(\gamma^*\)。 4. 后选择推断：在阈值选择一致性下，用所选EC子集构造的AIPW估计量渐近正态，且sandwich方差估计有效。

FRT的证明路线（基于Simon & Simon, 2011）： 1. 条件推断：在\(H_0^{\text{sharp}}\)下，给定潜在结局和协变量，处理分配是唯一随机源。 2. 重排有效性：通过重排处理分配并重放整个分析（包括EC选择），得到的检验统计量分布精确等于其在\(H_0^{\text{sharp}}\)下的随机化分布。 3. I类错误控制：由于p值基于该精确分布计算，FRT在有限样本中精确控制I类错误，不依赖大样本近似或模型正确设定。

技术技巧点名： - 共形推断：用于个体可交换性检验，提供有限样本精确的p值（无需分布假设）。 - 交叉验证/Jackknife+：用于改进共形p值的稳定性和数据利用率（Barber et al., 2021）。 - 自适应Lasso：用于PSB中的偏倚参数选择和收缩（Zou, 2006）。 - 双重稳健估计（AIPW/ACW）：用于协变量偏移调整，在结果模型或采样倾向得分模型之一正确时保持一致性。 - Sandwich方差估计：用于渐近推断，考虑EC选择和估计的不确定性。

真实例子与应用¶

数据：合成数据集lungcancer，包含在intFRTR包中，模拟了CALGB 9633试验（评估IB期非小细胞肺癌术后辅助化疗 vs 观察）和NCDB外部对照。RCT有335人（167治疗，168对照），EC有11,700人（匹配后保留335人）。

方法应用： 1. 资格对齐：将EC限制在RCT协变量支持内（年龄、肿瘤大小范围）。 2. 匹配：基于采样倾向得分进行1:1最近邻匹配（精确匹配组织学），得到335个匹配EC。 3. 全借用：用AIPW估计ATE（RD），得到0.0978（SE=0.0376）。 4. CSB：用最近邻共形得分和标签条件共形p值，通过MSE最小化选择阈值\(\hat{\gamma}=0.6\)，借用153个EC，得到ATE=0.0584（SE=0.0402）。 5. PSB：用GLM作为初始偏倚模型，自适应Lasso选择，仅借用1个EC，ATE=0.0562（SE=0.0427）。 6. FRT：对NB、FB、CSB分别运行1000次置换，得到FRT p值（表2）。

结果：CSB在控制偏倚（估计值接近NB）和提升效率（SE小于NB）之间取得了平衡。FB的渐近p值显著但FRT p值不显著，提示FB可能因偏倚导致I类错误膨胀。

例子想说明什么：选择性借用（尤其是CSB）相比全借用能更稳健地处理EC的异质性，而FRT为选择性借用后的推断提供了额外的安全保障。

🔎 结论是否比证明窄¶

窄结论1：PSB在合成数据中仅借用1个EC，作者指出“当使用GLM处理二值结局时，惩罚偏倚估计程序可能导致保守的借用决策”（Section 3.3.4）。但本文未证明这是PSB的一般性质还是数据特例。具体语句：“This indicates that, when a GLM is used for binary outcomes, the penalized bias estimation procedure may lead to conservative borrowing decision in this dataset.”
窄结论2：FRT的有限样本精确性依赖于\(H_0^{\text{sharp}}\)（个体处理效应全为零），而非更常见的\(H_0^{\text{weak}}\)（平均处理效应为零）。作者在Section 2.4中明确指出了这一点，但未讨论当研究者关心的是\(H_0^{\text{weak}}\)时FRT的表现。
窄结论3：CSB的MSE最小化阈值选择依赖于NB估计量作为无偏基准。当NB本身有偏（例如因RCT样本量过小导致协变量调整不充分）时，MSE估计可能不准确。作者在Section 2.3.3中提到了这一点，但未提供理论保证。

四、开放问题¶

生存数据的扩展：本文仅处理二值结局，但许多HCT应用涉及总生存期或无进展生存期等时间-事件终点。如何将CSB和FRT扩展到删失数据？扎根点：Section 4 “Extending selective borrowing and randomization-based inference in HCTs to survival outcomes remains an important area of ongoing research (Gao et al., 2025b).”
设计阶段工具：本文聚焦于分析阶段，但HCT的样本量确定和试验设计方法尚不成熟。如何基于选择性借用进行前瞻性样本量计算？扎根点：Section 4 “developing sample size determination methods and design-stage tools for HCTs would facilitate their practical use in future clinical studies (Gao et al., 2025c; Liu et al., 2025a).”
预后评分的整合：将外部数据训练的预后模型预测得分作为“超级协变量”纳入选择性借用框架，能否进一步提升效率？扎根点：Section 4 “Integrating such super-covariates into the proposed framework is a promising direction for future research.”
PSB的保守性诊断：在二值结局+GLM设定下，PSB为何仅借用1个EC？这是否是GLM的线性假设与二值结局的非线性不匹配所致？更灵活的初始偏倚模型（如机器学习）能否改善？扎根点：Section 3.3.4的结果和作者的评论。

Maintained by 陈星宇 · Homepage · Source on GitHub