A Conformal Selection Framework for Individual Treatment Beneficiaries with Auxiliary External Data¶
作者: Jiajun Liu, Ke Zhu, Xiaofei Wang
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.31954
一、领域脉络与小综述¶
这个方向是什么¶
本文所解决的子方向是:在个体化治疗决策中,如何基于条件平均处理效应(CATE)的估计,以可控的假发现率(FDR)识别出哪些患者是治疗的潜在受益者。核心统计问题是将“估计CATE”转化为“对每个候选患者进行假设检验”,并控制多重比较下的错误率。该方向当前处于方法学发展的活跃期,但尚未形成统一框架——现有工作要么只做CATE估计(忽略不确定性),要么只做共形预测区间(不直接回答“是否受益”),要么只做多重检验(但未与CATE估计和外部数据结合)。
发展脉络(history)¶
作者在引言中引用的工作可串成以下脉络:
- 奠基工作:CATE估计的早期方法
- Gail and Simon (1985), Robins (1986), Yusuf et al. (1991):通过回归建模处理-协变量交互,奠定了“效应建模”范式的基础。
- 作者引用句定位:“Early work primarily modeled treatment-covariate interactions through outcome regression, often referred to as regression-based effect modeling.”
-
留下的口子:这些方法只给出点估计,不提供个体层面的不确定性度量。
-
主要进展:灵活的CATE估计方法
- Wager and Athey (2018) 的因果森林、Hahn et al. (2020) 的贝叶斯因果森林、Kennedy (2023) 的DR-learner、Nie and Wager (2021) 的R-learner等。
- 作者引用句定位:“Although these methods have greatly improved our ability to estimate treatment effect heterogeneity, accurate CATE prediction alone does not fully solve the beneficiary selection problem.”
-
留下的口子:这些方法仍停留在“预测”层面,没有将预测转化为有错误控制的决策规则。
-
当前Frontier:共形推断在因果推断中的应用
- Lei and Candès (2021):开发了反事实结果和个体处理效应(ITE)的共形预测区间。
- Alaa et al. (2023):提出共形元学习器,构建模型无关的ITE预测区间。
- Jin and Candes (2023):引入共形p值用于选择问题中的FDR控制,提供了错误控制筛选的一般基础。
- 作者引用句定位:“However, existing work does not directly address the beneficiary selection problem considered here. Conformal selection methods have primarily focused on observed outcomes, whereas precision medicine decisions often depend on treatment contrasts and individualized treatment benefit.”
-
留下的口子:共形选择方法只关注观测结果,而精准医学决策依赖于处理对比;共形ITE方法主要关注预测区间,而非以错误率控制选择受益者。
-
本文的位置:作者将上述两条线(CATE估计 + 共形推断 + FDR控制)整合,并引入外部数据(RWD)辅助模型训练,同时保持共形校准锚定在RCT数据上,从而提出一个模型无关的、FDR控制的受益者选择框架。
子线索聚类¶
被引文献大致落在三条子线索上:
-
线索A:CATE估计方法(Gail and Simon, 1985; Robins, 1986; Imai and Ratkovic, 2013; Wager and Athey, 2018; Hahn et al., 2020; Kennedy, 2023; Nie and Wager, 2021 等)。这一簇在做:用各种统计/机器学习方法估计条件平均处理效应,目标是得到准确的点估计或预测区间。
-
线索B:共形推断在因果推断中的应用(Lei and Candès, 2021; Alaa et al., 2023; Jin et al., 2023; Jin and Candes, 2023; Cai et al., 2024; Chen et al., 2024 等)。这一簇在做:用共形方法构造反事实/ITE的预测区间或p值,提供有限样本有效的推断。
-
线索C:多重检验与FDR控制(Benjamini and Hochberg, 1995; Benjamini and Yekutieli, 2001; Ranganathan et al., 2016)。这一簇在做:为同时检验多个假设提供错误率控制方法。
-
线索D(隐含):外部数据(RWD)辅助RCT分析(Kent et al., 2018; Lipkovich et al., 2024; Yang et al., 2023; Zhu et al., 2025 等)。这一簇在做:利用真实世界数据增强RCT的统计效力或模型训练。
这个方向在追问的核心问题¶
- 如何将CATE估计转化为有错误控制的个体化决策? 当前主流方法是直接阈值化或排序CATE估计值,但忽略了估计不确定性和多重比较问题。
- 如何在有限RCT样本下实现有效的个体化受益者选择? RCT通常不足以训练可靠的CATE模型,需要借助外部数据。
- 如何保证外部数据辅助下的选择仍然有有效的错误率控制? 外部数据可能存在偏倚或人群偏移,直接使用会破坏推断有效性。
- 共形p值在CATE-based选择中的有限样本性质如何? 特别是当使用伪结果(pseudo-outcome)而非真实ITE时,共形p值的有效性需要额外条件(如随机序条件)。
⚠️ 作者的framing(必须明确标注成“这是作者的说法”)¶
- 作者把缺口frame成什么:作者声称现有工作“does not directly address the beneficiary selection problem”——共形选择方法只关注观测结果,而精准医学决策依赖于处理对比;共形ITE方法只关注预测区间而非选择受益者。因此,本文是“显然的下一步”:将共形p值用于CATE-based受益者选择,并整合外部数据。
- 哪些竞争路线被他淡化或回避了:
- 作者淡化了“直接阈值化CATE估计”的路线,将其描述为“simple but ignores uncertainty and multiplicity”。但实践中,许多阈值化方法(如基于CATE置信区间下界的规则)也能提供某种不确定性度量。作者没有与这些方法进行系统比较。
- 作者回避了“贝叶斯方法”在受益者选择中的应用(如贝叶斯决策理论下的最优选择规则),尽管引用了贝叶斯因果森林(Hahn et al., 2020)和BART(Chipman et al., 2010),但没有讨论贝叶斯框架如何直接处理选择问题。
- 什么明显该被引/该存在、却没出现在intro里?
- 没有引用关于“个体化处理规则(ITR)估计”的文献(如Q-learning, A-learning, outcome-weighted learning等),这些方法直接优化个体化决策规则,与受益者选择高度相关。
- 没有引用关于“共形推断在多重检验中FDR控制”的更近期理论工作(如Barber et al., 2021的“predictive inference with the jackknife+”在多重检验中的扩展)。
- 没有引用关于“外部数据整合中的选择性借用(selective borrowing)”的贝叶斯方法(如power prior, commensurate prior),这些方法与本文的“test-then-pool”策略形成对比。
张力¶
未见明显对立引用。所有被引工作基本在“CATE估计需要更好的不确定性量化”这一共识上一致,没有出现彼此矛盾或在不同条件下得相反结论的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号: - \(A \in \{0,1\}\):二元处理变量(1=处理,0=对照)。 - \(Y \in \mathbb{R}\):观测结果变量。 - \(X \in \mathbb{R}^p\):\(p\)维基线协变量向量。 - \(Y(1), Y(0)\):潜在结果(potential outcomes),分别对应接受处理和对照时的结果。不可观测——每个个体只能观测到其中一个。 - \(\tau_i = Y_i(1) - Y_i(0)\):个体处理效应(ITE)。不可观测——因为每个个体只有一个潜在结果被观测。 - \(\tau(x) = \mathbb{E}[Y(1) - Y(0) \mid X = x]\):条件平均处理效应(CATE)。目标参数(estimand)——这是本文要推断的对象。 - \(c_j\):临床有意义阈值,用于定义零假设 \(H_{0j}: \tau(X_{n+m+j}) \leq c_j\)。 - \(S \in \{0,1\}\):数据来源指示变量(1=RCT, 0=RWD)。 - \(n\):RCT样本量;\(m\):RWD样本量;\(n_t\):候选患者数量。 - \(n_c\):校准集(calibration set)样本量,是RCT的一个子集。 - \(\hat{\tau}(x)\):CATE的估计量(由基学习器训练得到)。 - \(Y'_i\):伪结果(pseudo-outcome),由DR-learner构造,满足 \(\mathbb{E}[Y'_i \mid X_i = x] = \tau(x)\)。 - \(V(x, y)\):共形得分函数,度量候选值\(y\)与拟合模型\(\hat{\tau}(x)\)的兼容性。 - \(\hat{V}_j = V(X_{n+m+j}, c_j)\):候选患者\(j\)的零假设边界得分。 - \(V_i = V(X_i, Y'_i)\):校准集个体\(i\)的共形得分。 - \(p_j\):候选患者\(j\)的共形p值。 - \(q\):目标FDR水平(如0.15或0.20)。
模型: - 数据生成机制基于潜在结果框架(Rubin, 1974)。在RCT中,处理分配是随机的(Assumption 1: 一致性、正性、随机化)。在RWD中,假设强可忽略性(Assumption 2: 无未测量混杂)。 - 目标CATE \(\tau(x)\)通过DR伪结果\(Y'\)识别:\(Y' = \frac{A - \hat{e}(X)}{\hat{e}(X)(1-\hat{e}(X))}(Y - \hat{\mu}_A(X)) + \hat{\mu}_1(X) - \hat{\mu}_0(X)\),其中\(\hat{e}(x)\)是倾向得分估计,\(\hat{\mu}_a(x)\)是结果回归估计。 - 共形推断的有限样本有效性依赖于可交换性假设(Assumption 3 & 4)。
可观测数据: - RCT数据 \(\mathcal{D}_{\text{RCT}} = \{(Y_i, A_i, X_i)\}_{i=1}^n\):可观测到结果、处理、协变量。 - RWD数据 \(\mathcal{D}_{\text{RWD}} = \{(Y_{n+i}, A_{n+i}, X_{n+i})\}_{i=1}^m\):同样可观测到结果、处理、协变量。 - 候选患者数据 \(\mathcal{D}_{\text{Test}} = \{X_{n+m+j}\}_{j=1}^{n_t}\):只观测到协变量,结果和处理尚未发生(或未观测)。 - 不可观测量:每个个体的潜在结果\(Y_i(1), Y_i(0)\),以及ITE \(\tau_i\)。CATE \(\tau(x)\)是目标参数,需要通过可观测数据识别和估计。
第二步:讲最小内核¶
最简特例:假设只有一个候选患者(\(n_t = 1\)),RCT样本量足够大(不需要RWD辅助),CATE是常数(\(\tau(x) = \tau\),即没有异质性),阈值\(c=0\),使用最简单的共形得分:\(V(x, y) = y - \hat{\tau}(x)\)(残差得分)。校准集和候选患者来自同一分布(可交换性成立)。
在这个最简特例下,问题退化为:检验单个候选患者的CATE是否大于0,即 \(H_0: \tau \leq 0\) vs \(H_1: \tau > 0\)。
核心思路: 1. 构造伪结果:用RCT数据训练倾向得分模型\(\hat{e}(x)\)和结果回归模型\(\hat{\mu}_a(x)\),然后计算每个个体的DR伪结果\(Y'_i\)。 2. 训练CATE模型:将伪结果\(Y'_i\)对协变量\(X_i\)回归,得到\(\hat{\tau}(x)\)。在常数CATE假设下,\(\hat{\tau}(x)\)就是样本均值\(\bar{Y}'\)。 3. 计算校准得分:对校准集个体\(i=1,\dots,n_c\),计算残差得分 \(V_i = Y'_i - \hat{\tau}(X_i)\)。 4. 计算候选患者的边界得分:对候选患者,在零假设下,其“伪结果”应不超过0,因此边界得分 \(\hat{V} = 0 - \hat{\tau}(X_{n+m+1}) = -\hat{\tau}(X_{n+m+1})\)。 5. 构造共形p值:比较边界得分\(\hat{V}\)与校准得分\(\{V_i\}\)的分布。p值定义为校准得分中小于\(\hat{V}\)的比例(加上随机化处理平局):
为什么这个特例抓住了核心:即使在这个最简单的设定下,本文的关键想法已经体现——用共形p值代替直接阈值化CATE估计。p值提供了对“证据强度”的量化,而不是仅仅看点估计是否大于0。当推广到多个候选患者时,只需对多个p值应用BH过程即可控制FDR。当需要RWD辅助时,只需在步骤1-2中使用RWD数据训练模型,但校准步骤3-5始终锚定在RCT数据上。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在精准医学中,如何基于CATE估计,以可控的FDR识别出治疗的潜在受益者,特别是在RCT样本有限时如何利用外部数据(RWD)辅助模型训练。
- 核心工具/方法:将受益者选择转化为多重检验问题,对每个候选患者构造共形p值(基于DR伪结果和RCT校准集),然后应用Benjamini-Hochberg过程控制FDR。外部数据仅用于模型训练,共形校准始终锚定在RCT数据上。
- 主要结论:模拟表明该框架能在各种设定下维持FDR控制(BH过程始终将FDR控制在目标水平\(q=0.15\)以下),功效取决于基学习器和外部数据的可比性。非小细胞肺癌案例展示了如何识别有限切除手术的受益候选患者以减少过度治疗。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- Assumption 1 (RCT内的识别):一致性、正性(\(0 < e(x) < 1\))、随机化(\(Y(a) \perp A \mid (X, S=1)\))。这是RCT内CATE识别的标准条件。
- Assumption 2 (RWD内的强可忽略性):\((Y(1), Y(0)) \perp A \mid X\)。这是RWD用于模型训练的条件,如果违反,外部数据辅助的CATE模型可能有偏,影响功效但不影响FDR控制(因为校准锚定在RCT)。
- Assumption 3 (候选级共形有效性):在零假设下,候选患者的“oracle得分”\(V^*_j = V(X_{n+m+j}, \tau(X_{n+m+j}))\)与校准得分\(\{V_i: i \in \mathcal{D}_{\text{Calib}}\}\)可交换。这是单个候选患者共形p值有效性的基础。
- Assumption 4 (条件可交换性用于FDR控制):在给定训练阶段(包括拟合的CATE模型)的条件下,校准得分与候选患者的oracle得分可交换,且得分几乎必然无平局。这是BH过程有限样本FDR控制的基础。
- 随机序条件(stochastic ordering):基于伪结果的共形得分相对于基于oracle CATE的得分是保守的(即伪得分分布比oracle得分分布更靠右/更分散)。这是从Alaa et al. (2023)借用的条件,用于保证基于伪结果的共形推断对CATE-level推断仍然有效。
相比已有文献的放宽/强化: - 相比Jin and Candes (2023):本文将其共形p值框架从“观测结果选择”扩展到“处理对比选择”,需要处理ITE不可观测的问题(通过DR伪结果)。 - 相比Alaa et al. (2023):本文从“预测区间覆盖”转向“单侧检验的FDR控制”,需要额外的随机序条件和可交换性条件。 - 相比标准CATE估计文献:本文增加了共形校准步骤和BH过程,对模型训练和校准的数据分割有明确要求(RCT数据分为训练集和校准集)。
主要结果¶
理论结果(Theorem 1): - 陈述:在得分函数单调、伪结果得分相对于oracle得分保守、Assumption 4成立(可交换性+无平局)的条件下,对确定性共形p值应用BH过程,FDR被控制在目标水平\(q\)以下:\(\text{FDR} \leq q\)。 - 直觉:证明的核心是构造一个“修改后的p值向量”,使得在零假设为真的候选患者被选中的事件上,该修改后的p值向量与原p值向量产生相同的拒绝集,然后利用可交换性证明每个候选患者的“oracle p值”在条件上是超均匀的(super-uniform),从而得到FDR界。 - 必要条件:得分函数单调、伪得分保守、可交换性、无平局。 - 解决的技术难点:如何将基于伪结果的共形p值与BH过程结合,并证明有限样本FDR控制。关键跳跃点在于证明修改后的p值向量不改变拒绝集(公式S4),以及利用条件超均匀性得到每个候选患者的贡献不超过\(q/n_t\)。
模拟结果: - FDR控制:在所有模拟场景下(不同RCT样本量、协变量偏移程度、结果模型结构、噪声水平、外部数据偏倚),BH过程始终将FDR控制在目标水平\(q=0.15\)以下。Bonferroni校正过于保守(FDR接近0),而不控制FDR则会出现明显的FDR膨胀(特别是在非线性结果模型下)。 - 功效:借用外部数据(ED)相比仅用RCT数据(ID)普遍带来功效提升,特别是在RCT样本量小(\(n=50\))时。功效提升的幅度取决于协变量偏移程度和外部数据可比性。基学习器的选择对功效影响显著:Super Learner和BART在非线性模型下表现最好,线性回归和BMA在非线性模型下功效很低。 - 外部数据偏倚(outcome drift):即使外部数据存在结果偏倚(\(b=0.8\)),FDR控制仍然维持,但功效提升幅度减小。这验证了“外部数据仅用于训练、校准锚定在RCT”的设计原则。
案例研究(非小细胞肺癌): - 数据:CALGB 140503 RCT(694名患者)和NCDB外部数据(14,742名患者,经筛选后)。结果变量为5年限制平均生存时间(RMST)。 - 方法应用:将RCT数据分为训练集(40%)、校准集(40%)、 nuisance估计集(20%)。从NCDB随机抽取3,000条记录加入训练集。使用Super Learner和BART作为基学习器,5折交叉拟合构造DR伪结果。对800名候选患者应用BH过程(\(q=0.20\))。 - 结果:仅用RCT数据时,共形p值表面不规则;加入NCDB数据后,表面更平滑,显示老年和小肿瘤患者更可能从有限切除中受益——这与先前亚组分析一致。外部数据增强了区分信号与噪声的能力。 - 这个例子想说明:框架可以在真实临床场景中应用,利用RWD改善CATE模型训练,同时保持RCT锚定的FDR控制,得到临床可解释的受益者选择结果。
证明路线与技术技巧¶
整体路线(Theorem 1的证明): 1. 定义oracle p值和修改后的p值:对每个候选患者\(j\),定义oracle p值\(p^*_j\)(基于oracle得分\(V^*_j\))和修改后的p值\(p^{(j)}_\ell\)(将校准集扩大为包含\(V^*_j\))。 2. 证明在零假设为真且\(j\)被选中的事件上,修改后的p值向量与原p值向量产生相同的拒绝集(公式S4)。关键论证:单调性保证\(p^*_j \leq p_j\);对\(\ell \neq j\),分两种情况(\(\hat{V}_\ell > \hat{V}_j\)和\(\hat{V}_\ell < \hat{V}_j\))证明修改后的p值不改变BH的拒绝集。 3. 将FDR分解为每个候选患者的贡献之和,并利用步骤2将每个贡献上界为\(\mathbb{E}[\mathbb{I}\{p^*_j \leq q |\mathcal{R}^*_{j \to 0}|/n_t\} / (1 \vee |\mathcal{R}^*_{j \to 0}|)]\),其中\(\mathcal{R}^*_{j \to 0}\)是将\(p^*_j\)设为0后的修改拒绝集。 4. 利用可交换性证明条件超均匀性:给定无序集\(\mathcal{U}_j = \{V_1, \dots, V_{n_c}, V^*_j\}\)和边界得分\(\{\hat{V}_\ell: \ell \neq j\}\),\(p^*_j\)的条件分布是超均匀的(公式S6)。 5. 结合条件超均匀性和塔性质,得到每个候选患者的贡献不超过\(q/n_t\),求和得FDR \(\leq q\)。
关键跳跃点: - 跳跃点1:证明修改后的p值向量不改变拒绝集(公式S4)。这是整个证明中最吃功夫的部分,需要仔细分析BH过程的步进性质以及不同候选患者得分之间的序关系。 - 跳跃点2:将FDR分解为每个候选患者的贡献后,需要将贡献中的\(p_j\)替换为\(p^*_j\),并证明替换后拒绝集不变(因为\(p^*_j \leq p_j\)且\(j\)已被拒绝)。这依赖于单调性和BH的步进性质。 - 跳跃点3:证明\(\mathcal{R}^*_{j \to 0}\)不依赖于\(p^*_j\),从而可以应用条件超均匀性。这通过将\(p^*_j\)设为0实现,因为BH过程对0值p值总是拒绝。
技术技巧点名: - 共形p值的构造(公式6):使用秩比较加上随机化平局处理,这是Jin and Candes (2023)的标准技巧。 - DR伪结果构造(公式3):Kennedy (2023)的双重稳健估计量,将CATE估计转化为标准回归问题。 - 交叉拟合(cross-fitting):在伪结果构造中使用K折交叉拟合,减少过拟合,保持训练和校准的独立性。 - BH过程:标准的多重检验FDR控制方法(Benjamini and Hochberg, 1995)。 - 条件超均匀性论证:利用可交换性证明p值在给定充分统计量下的条件分布是超均匀的,这是共形推断中证明FDR控制的标准技巧(Jin and Candes, 2023)。 - 修改p值向量的构造:这是本文证明的核心技巧,通过构造一个“如果候选患者\(j\)的oracle得分已知”的假想p值向量,将原问题转化为可交换性论证。
🔎 结论是否比证明窄¶
- Theorem 1的FDR控制是在确定性共形p值(无随机化平局)下证明的,但模拟和案例中使用的是随机化共形p值(公式6)。作者在定理陈述中明确说明“under the no-ties assumption”,但在实践中平局几乎必然存在,随机化版本是必要的。作者没有证明随机化版本的FDR控制,只是声称“the proof is provided in Supplementary Material B”——但补充材料中的证明也是针对确定性版本的。
- 随机序条件(stochastic ordering) 是Theorem 1的前提,但作者没有给出该条件成立的充分条件或可检验的准则。在模拟中,作者通过经验CDF图(Supplementary Material E)展示了该条件在模拟设定下近似成立,但没有理论保证。在案例研究中,作者也做了类似的诊断(Supplementary Material E.2),但这只是描述性的。
- Theorem 1的FDR控制是“条件于训练阶段”的,即给定拟合的CATE模型和伪结果构造。这意味着FDR控制是在“模型已固定”的意义下成立的,而不是在重复抽样(包括模型训练步骤)下的无条件FDR控制。作者在证明开头明确说明“Throughout the proof, we condition on the training stage”,但正文中没有强调这一条件性,可能被读者误解为无条件FDR控制。
- 外部数据偏倚不影响FDR控制的声称是基于“外部数据仅用于训练、校准锚定在RCT”的设计原则。但模拟中只考虑了外部数据存在结果偏倚(outcome drift)的情况,没有考虑外部数据存在混杂偏倚(即Assumption 2被违反)的情况。如果RWD中存在未测量混杂,训练出的CATE模型可能有偏,这种偏倚可能通过伪结果传播到共形得分,从而影响FDR控制——尽管作者声称“does not directly affect the FDR guarantee”,但这一声称缺乏理论证明。
四、开放问题¶
-
随机序条件的理论刻画:本文的FDR控制依赖于伪结果得分相对于oracle得分的随机序条件(stochastic ordering),但作者只给出了经验诊断(Supplementary Material E),没有给出该条件成立的充分条件(如CATE估计的收敛速度、伪结果构造的误差界等)。扎根点:Theorem 1的前提“the pseudo-outcome-based scores are conservative relative to the corresponding oracle CATE-based scores”——这是一个未理论化的条件。
-
无条件FDR控制:Theorem 1的FDR控制是条件于训练阶段的。能否证明无条件(在重复抽样包括模型训练步骤下)的FDR控制?这可能需要将模型训练的不确定性纳入论证,或者使用样本分割论证。扎根点:证明开头“Throughout the proof, we condition on the training stage”。
-
外部数据存在混杂偏倚时的FDR控制:本文只考虑了外部数据存在结果偏倚(outcome drift)的情况,但未考虑RWD中Assumption 2被违反(存在未测量混杂)的情况。此时训练出的CATE模型可能有偏,FDR控制是否仍然成立?扎根点:Assumption 2的陈述及其在框架中的作用(“If this assumption is violated, the external-data-assisted CATE model may be biased, which can affect efficiency, power, and the stability of beneficiary selection”——但未讨论对FDR控制的影响)。
-
在线FDR控制:本文的BH过程是批处理(batch)的,但临床实践中候选患者可能顺序到达。如何将框架扩展到在线FDR控制(如LORD, LOND, SAFFRON, ADDIS)?扎根点:Section 5的讨论“Extending the proposed framework to online FDR control is therefore a useful future direction”。
-
条件共形p值:本文的共形p值是边际有效的(marginal validity),而非条件于每个协变量值。如果需要在特定亚组(如老年患者)中控制FDR,需要亚组特定的校准。如何实现连续协变量下的条件FDR控制?扎根点:Section 5的讨论“the validity of conformal p-values is marginal, rather than conditional on each covariate value”。
Maintained by 陈星宇 · Homepage · Source on GitHub