Statistical inference for heterogeneous treatment effect with right-censored data from synthesizing randomized clinical trials and real-world data¶

作者: Guangcai Mao, Shu Yang, Xiaofei Wang
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的核心问题是：如何利用可能存在偏倚的真实世界数据（RWD，如电子健康档案、注册数据库）来增强随机临床试验（RCT）对异质性处理效应（HTE） 的统计推断能力，并处理一个特定的应用障碍——生存时间数据中的右删失。当前成熟度处于“方法框架已建立，但精细化与特定场景推广”的阶段：已有大量文献讨论如何从RCT与RWD融合中估计平均处理效应（ATE）或改善generalizability，但针对条件处理效应（CATE） 且存在删失的生存数据，方法仍不充分。

发展脉络¶

奠基工作：纯RCT下的HTE估计。Lee et al. (2016) 为完全数据（无删失）下的CATE函数提出了双稳健置信带方法，使用了增广逆概率加权（AIPW）。这构成了处理无删失情形下的技术底座。
RWD用于增强generalizability。Lee, Yang等人（2020–2024）系统性地发展了将RCT治疗效应外推（transport）到目标人群的方法，其核心是校准加权（calibration weighting）与双稳健估计器。Lee et al. (2022) 专门针对生存结局（如生存概率差，RMST差）提出了双稳健估计器。这一条线上，RWD的作用是“代表性更好，但可能无偏”——假设RWD无未测量混杂。
RWD用于识别并校正偏差。Yang et al. (2020) 迈出了关键一步：提出使用混杂函数（confounding function） 的概念，将RWD中的偏倚（由未测量混杂导致）作为一个可识别、可估计的函数，从而在RCT+RWD融合下同时估计HTE与偏差。该文处理的是完全数据。
当前Frontier与本文位置。本文是Yang et al. (2020) 框架的直接推广：将混杂函数推广为omnibus bias function（统一刻画未测量混杂、删失偏倚与结局异质性），并将结果推广到右删失生存数据下的HTE（基于条件RMST差的定义）。同时，估计方法从之前的基于效率影响函数的半参方法转向了penalized sieve + RKHS 的路径。

子线索聚类¶

RCT+RWD融合框架的identification：核心是“用RCT的无混杂特性去识别RWD的偏差”。Yang et al. (2020) 定义confounding function，本文定义omnibus bias function，都是这一路线的代表。
生存数据下的generalizability：Lee et al. (2022, 2024) 重点在“将RCT结果外推到目标人群”，偏重用RWD的样本代表性弥补RCT的外部效度缺陷，但并未假定RWD有结构性偏差。这一聚类假设RWD无偏（或经加权后无偏），与本文的“RWD有偏”假设不同。
用RWD改善个体化治疗规则：Chu et al. (2022)、Zhao et al. (2023) 使用多源数据学习最优ITR，与本文的HTE估计不同（目标函数不同），但共用融合数据的方法论。
Meta分析 / 贝叶斯融合：Wang and Rosner (2019) 使用贝叶斯非参DPM，属于更传统的多研究整合。该方法不显式建模偏差函数。

核心追问的问题¶

如何刻画RWD偏差的结构？ 假设偏差是可解释的（由已观测协变量决定的函数），还是松散的层间异质性？本文选择了函数形式（混杂+删失+结局异质性的可加？或复合？）。
在偏差被识别之后，融合估计器能否比纯RCT估计器更高效？ 甚至是否总是更高效？推理上与Yang et al. (2020) 的发现（给出“严格更高效”的条件）有何异同？
生存数据中的删失是否引入了新的可识别性 / 可估计性问题？ 删失处理的AIPCW是成熟工具，但与偏差函数的结合带来了非参数识别的全新条件要求。

⚠️ 作者的Framing¶

这是作者自己的说法，不是判断。作者把缺口frame成：“尽管偏倚被认为是融合分析的主要障碍，但对偏倚的识别性探索有限，尤其是对于右删失数据中的HTE”。他们将“omnibus bias function”定义为“一个统一的建模框架，捕捉由未测量混杂、删失处理偏倚和结局异质共同导致的偏差”。他们的论文因此被定位为“显然的下一步”：在Yang et al. (2020) 的基础上纳入删失机制、使用更灵活的sieve估计器。

被淡化/回避的竞争路线：作者引用了Lee et al. (2022) 的“基于双稳健估计的transport”路线，但将其定位为“假设RWD无偏”，因此与本文的策略不同——本文将RWD的偏倚作为需要识别和估计的对象，而非假设其通过适当的加权即消除。作者没有讨论“如果RWD偏差很小，是否简单的transport方法（Lee et al.）就足够”这种场景。
似乎明显该被引 / 存在、但没出现在intro里的工作：这个方向最近有大量关于“deconfounding / debiasing RWD through IV / proxy / proximal causal inference”的进展（如Tchetgen Tchetgen等人关于近端因果推断的工作），本文完全没有涉及。这可能是一个值得研究者亲自去查的张力：如果RWD存在未测量混杂，近端因果推断提供了另一种识别策略（用代理变量而非RCT），这与本文的“用RCT校准偏差”的策略存在竞争。另外，关于高维删失数据下的CATE估计（如X-learner推广到Cox模型）也未在intro中被对比。

张力¶

未见明显对立引用。被引文献几乎都在同一框架下（RCT有效，RWD有偏，融合可改善统计效率），彼此之间是渐进式改进，没有相反结论或特定条件下翻车的记录的引用来挑战这个前提。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代¶

符号：
\( T \) = 真实的生存时间（潜在结局变量）
\( C \) = 删失时间（也可译为“删失变量”）
\( \Delta = 1\{T \le C\} \) = 是否观察到事件发生（非删失指示符）
\( Y = \min(T, C) \) = 实际观测到的时间
\( A \in \{0, 1\} \) = 二元处理变量（1=干预，0=对照）
\( X \in \mathbb{R}^d \) = 基线协变量向量
\( S \in \{0, 1\} \) = 数据源指示符：0 = RCT数据，1 = RWD数据。此变量决定了“哪些分布是可观测的、哪些可能有偏差”。
Estimation目标（estimand）：对于每个给定的协变量值 \( x \)，定义条件RMST差为
\[\tau(x) := E[T \wedge \upsilon \mid A = 1, X = x] - E[T \wedge \upsilon \mid A = 0, X = x]\]
其中 \( \upsilon \) 是一个预先选择的、临床上有意义的截断时间点（e.g.，5年）。这里 \( E[T \wedge \upsilon \mid A = a, X = x] \) 就是给定处理 \( a \) 和协变量 \( x \) 下的条件RMST。\( \tau(x) \) 就是本文的HTE参数。
\( B(x) \) = omnibus bias function = 在给定 \( X = x \) 下，RWD数据中观测到的（可能有偏差的）条件RMST差与因果条件RMST差之间的差。形式上：
\[B(x) = E[Y \wedge \upsilon \mid S=1, A=1, X=x] - E[Y \wedge \upsilon \mid S=1, A=0, X=x] - \tau(x)\]
即：\( B(x) = \left[ \text{RWD中观测到的处理差异} \right] - \left[ \text{因果HTE} \right] \)。若 \( B(x) = 0 \)，则RWD无偏；否则有偏。
此外，还有一个非参数量 \( m_a(x) := E[T \wedge \upsilon \mid A=a, X=x] \)，即因果条件RMST。
模型 / 数据生成机制：
总体上有两个数据源：RCT（\( S=0 \)）与 RWD（\( S=1 \)）。
在RCT中，处理 \( A \) 是随机分配的（独立于所有潜在结果与删失），因而RCT内的因果效应是可以直接识别的：\( \tau(x) = E[Y \wedge \upsilon \mid S=0, A=1, X=x] - E[Y \wedge \upsilon \mid S=0, A=0, X=x] \)。
在RWD中，\( A \) 与 \( X \) 之间可能存在由于未测量混杂而产生的关联，且删失机制也可能有偏。结果，RWD中观测到的条件RMST差可能是:
\[E[Y \wedge \upsilon \mid S=1, A=1, X=x] - E[Y \wedge \upsilon \mid S=1, A=0, X=x] = \tau(x) + B(x).\]
删失机制：假设在RCT与RWD中，给定 \( (A, X) \)，删失时间 \( C \) 独立于 \( T \)（条件独立删失，即 \( C \perp T \mid A, X \)）——这是一个较强的假设（相当于“无信息删失”）。但在RWD中，作者考虑删失可能还依赖于 \( X \) 中未记录的部分，这时的偏倚可由 \( B(x) \) 的一部分来吸收。
可观测数据：对于每个个体 \( i \)：
\( S_i \)（数据源指示）、\( A_i \)（处理）、\( X_i \)（协变量）、\( Y_i = \min(T_i, C_i) \)（观测时间）、\( \Delta_i = 1\{T_i \le C_i\} \)（事件指示）。
个体属于RCT（\( S_i=0 \)）或RWD（\( S_i=1 \)），但所有 \( d+3 \) 维数据是联合可观测的。

关键的天生不可观测量： - 真实的生存时间 \( T_i \) —— 当 \( \Delta_i = 0 \)（删失）时，它是未测的潜在变量。 - 处理 \( A \) 的未测量混杂变量（在RWD中）——这些变量根本不出现在数据集中，是导致偏差的来源。 - 反事实生存时间（如两个处理水平下的 \( T_i(0) \) 和 \( T_i(1) \)）——本质上是不可观测的。

第二步：最小内核¶

去除所有复杂假设，最简特例是： - 没有删失（所有对象都观察到事件时间；\( C = \infty \)，所以 \( Y = T \)）。 - 只有一个二元处理 \( A \in \{0,1\} \)，一个二元协变量 \( X \in \{0,1\} \)（性别或年龄分层）。 - RCT与RWD的样本量都足够大（可以忽略抽样变异性，主要展示识别而非估计）。 - 偏差函数 \( B(x) \) 假设是常数（\( B(0) = B(1) = b \)），即：RWD中混杂导致的偏差与协变量无关。

在这个特例下： 1. 在RCT中，可以直接估计 \( \tau(x) = E[T \mid S=0, A=1, X=x] - E[T \mid S=0, A=0, X=x] \)。 2. 在RWD中，观测到的条件均值差是：

\[\delta(x) := E[T \mid S=1, A=1, X=x] - E[T \mid S=1, A=0, X=x] = \tau(x) + b.\]

3. 由于 \( b \) 是与 \( x \) 无关的常数，因此对于任意两个不同的协变量值 \( x_1 \) 和 \( x_2 \)：

\[\delta(x_1) - \delta(x_2) = \tau(x_1) - \tau(x_2).\]

这说明，RWD自身可以无偏地反映HTE的差异（即条件效应之间的差异），但不给出绝对水平。

识别：从RCT中可以得到 \( \tau(x) \)（绝对水平），从RWD的跨层差异得到 \( \tau(x_1) - \tau(x_2) \)（相对差异）。将两者结合，可以识别出偏差常数 \( b \)：
\[b = \delta(x) - \tau(x) \quad \text{(任意一个 \( x \) 都行)}.\]
一旦 \( b \) 被识别，就可以将RWD中任何 \( x \) 的观测效应修正为因果效应：\( \tau(x) = \delta(x) - b \)。

这个特例揭示的核心数学思路是：RCT识别出“正确水平”（但样本量小，分层估计不稳定），RWD识别出“效应曲面（treatment surface）的相对形状”（但水平被一个共同的偏倚项 \( B(x) \) 污染）。用一个“锚”（RCT）将水平固定，即可获得更小的方差（利用RWD的大样本量）与无偏性。

全文的一般化做了什么：将 \( B(x) \) 从常数推广到任意光滑函数，将T从完全观测推广到右删失数据（引入了逆概率删失加权），估计方法从简单的矩估计推广到penalized sieve（可用于非参数函数类）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在右删失生存数据下，如何通过综合RCT与RWD（可能存在未测量混杂、删失偏倚与结局异质性）来估计异质性处理效应 —— 即协变量条件RMST差。
核心工具/方法：定义了一个 omnibus bias function \( B(x) \) 统一刻画所有偏差；提出了penalized sieve方法（在RKHS中）同时估计 \( \tau(x) \) 与 \( B(x) \)；理论分析基于RKHS理论 + 经验过程理论证明了收敛性质。
主要结论：所提的proposed integrative estimator 在模型假设下是一致且渐近正态的（给出收敛率）；在非删失或删失被恰当处理的情况下，融合RWD的估计器在均方误差渐近意义上优于纯RCT估计器。

关键设定与假设（在第二部分的基础上补全）¶

假设1（RCT有效性）：RCT中 \( A \) 随机分配且独立于所有潜在生存时间与删失时间（即 \( A \perp (T, C) \mid X \)）。这是标准条件。
假设2（RWD偏差结构）：存在一个定义在 \( X \) 空间上的函数 \( B(x) \) 使得：
\[E[Y \wedge \upsilon \mid S=1, A=1, X=x] - E[Y \wedge \upsilon \mid S=1, A=0, X=x] = m_1(x) - m_0(x) + B(x)\]
其中 \( m_a(x) = E[T \wedge \upsilon \mid A=a, X=x] \) （因果条件RMST）。关键点：这个等式是一个定义，\( B(x) \) 的存在性不是假设，它是可定义的剩余项。真正的假设是 \( B(x) \) 属于某些函数类（光滑性），使得其在有限样本中可以估计。
假设3（条件独立删失）：在RCT与RWD中均假设 \( C \perp T \mid (A, X) \)。这是在生存分析中处理删失的标准假设。在RWD中，如果删失是有信息的且依赖于未测量变量，这部分偏差就落入 \( B(x) \) 中。
假设4（重叠 / Positivity）：在给定的数据源 \( S \) 和协变量 \( X \) 下，处理 \( A \) 的支持集与RCT一致；RCT与RWD的协变量分布有重叠。
假设5（函数光滑性）：\( m_1(x), m_0(x), B(x) \) 都位于某个光滑性控制良好（如Sobolev space）的函数空间中，以便sieve估计。

与已有文献的关系： - 相比Yang et al. (2020)（完全数据，confounding function只在未测量混杂），本文的 \( B(x) \) 更宽泛（包括删失和结局异质性），但也因此需要更强的假设来分解这些效应？作者未明确给出分解 \( B(x) \) 各分量的条件。 - 相比Lee et al. (2022)（transport方法），本文允许RWD有偏，且不做“通过加权消除所有偏差”的强假设。

主要结果¶

理论结果（Theorem 1, 2）：

Theorem 1（估计器的收敛率）：在一定光滑性条件（\( B(x), m_a(x) \) 属于某个Sobolev类，光滑参数为 \( \kappa \)）以及合适的sieve基（如B-spline）与惩罚参数选取下，提出的sieve估计器 \( \hat{\tau}(x) \) 在 \( L_2 \) 范数下达到收敛率 \( n^{-\kappa/(2\kappa + d)} + \text{（另一项与删失率和偏差光滑性相关的项）} \)。这是非参数回归的标准最优率，但难点在于它包含两部分（\( m_a \) 与 \( B \)），且需要处理删失。
Theorem 2（拔靴推断）：提出了一种拔靴方法构造 \( \hat{\tau}(x) \) 的逐点置信区间，并论证了其渐近有效性。没有给出uniform confidence band（不像Lee et al. 2016），这一点是窄的：论文只处理了点wise inference。

直觉：核心是同时惩罚两个函数（\( m_a \) 与 \( B \)），其中 \( m_a \) 主要通过RCT识别，\( B \) 主要通过RCT与RWD的差异识别。传统RCT-only的非参数估计器只能以RCT样本量 \( n_{\text{RCT}} \) 估计 \( m_a \)，而融合估计器可以用RWD的 \( n_{\text{RWD}} \)（通常更大）来帮助估计 \( m_a \) 的部分分量（与偏差正交的部分），从而降低方差。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

定义联合目标函数：在给定可观测数据 \( (S_i, A_i, Y_i, \Delta_i, X_i) \) 下，定义一个结合RCT与RWD的联合损失 / 估计方程。具体地，作者利用AIPCW类型的改造将删失结局“impute”为潜在完全数据，然后构造一个关于 \( (m_1, m_0, B) \) 的非负损失函数，包含平滑惩罚项。
Penalized Sieve解耦：将 \( m_a(x) \) 与 \( B(x) \) 分别用sieve基展开（如RKHS中的表示定理让解落在有限维span中），惩罚项是RKHS范数。这使无限维优化退化到有限维凸优化（如果损失是凸的）。作者需要论证这个凸性在删失处理后的损失函数中是否保持。
收敛率证明：这是最难的部分。使用经验过程理论，建立两步论证：
先证明sieve空间上的M-估计器的一致收敛性（Lipschitz + 熵数条件）。
然后利用RKHS的特性（如interpolation inequality或sieve近似误差界）推导出收敛率。 需作者克服的主要困难：AIPCW转化引入了额外的“inverse probability of censoring weights”，这些权重本身是估计的（由Cox模型）——这使估计方程与未知的删失模型耦合。作者在证明中假设删失模型参数已知或收敛得足够快（\( o_p(n^{-1/4}) \)），以便最终的偏差项由定律控制。
充要条件：偏倚 \( B(x) \) 的估计误差主要影响的不是HTE本身的水平，而是其与偏差之间的“正交分量”识别。作者需证明：在RCT+RWD融合下，估计器方差相对于纯RCT估计器是降低的（由于利用了RWD的大样本）。这一步需要对效率影响函数做近似计算。

关键跳跃点： - 跳跃1（识别向估计的转换）：omnibus bias function \( B(x) \) 在识别上是“数据源间可观测均值差的函数”，但在估计中它必须同时与 \( m_a(x) \) 一起被解。作者用penalized sieve来解决这一变量膨胀（curse of dimensionality for two functions）。 - 跳跃2（删失权重的耦合）：AIPCW中的删失概率 \( K_a(t) = P(C > t \mid A=a, X) \) 通过Cox模型估计。这个估计误差对估计方程的渐近行为的影响需要被显示地控制。作者通过“plug-in principle”的标准论证，但需假设Cox模型是正确指定的。

技术技巧点名： - RKHS表示定理：将求解无限维 \( \operatorname{argmin}_{m_a, B} \) 转化为求解有限维系数向量的凸优化问题。 - Empirical process理论：用于控制sieve近似误差与随机误差。 - AIPCW转化：从右删失到“潜在完全”结局的经典技巧。 - Interaction decomposition（概念性的，不一定是显式技巧）：将HTE方差分解为RCT贡献部分 + RWD贡献部分 - 重叠部分。

真实例子与应用¶

数据：早期非小细胞肺癌（NSCLC）的CALGB 140503 RCT + 一个大型注册研究（National Cancer Database, NCDB）。 - RCT数据：697名患者，左/右肺叶切除 vs. 亚叶切除，中位随访7年。RCT是明确的无偏估计器。 - RWD数据：NCDB，大量患者（超过8000），但处理分配非随机（受合并症、年龄影响），且有删失。

怎么应用： - 定义协变量 \( X \)：年龄组、性别、肿瘤大小、合并症指数。 - 定义处理 \( A \)：亚叶切除（1） vs 叶片切除（0）。 - 目标HTE \( \tau(x) \)：在给定 \( X \) 的条件下，接受亚叶切除相比叶片切除的5年RMST差异。 - 使用作者的方法，估算 \( \hat{\tau}(x) \) 与 \( \hat{B}(x) \)。

结果： - 仅用RCT：在一些低维分层（如年龄>75、合并症多）中，RCT样本量太小，置信区间极宽，看不清HTE。 - 融合RCT+RWD：缩小了置信区间，识别出在老年/合并症多的患者中，亚叶切除的RMST与叶片切除无显著差异（即HTE接近于0），而在年轻/健康患者中，叶片切除显著更好。 - 偏差函数 \( \hat{B}(x) \) 被估计出来大的正值，表示RWD中亚叶切除的效果被“高估”了——医生倾向于把更健康（预后更好）的患者分到密观亚叶切除侧，导致膨胀。

这个例子的目的：展示在分层样本量小的环境中，融合RWD可以提供更精确的HTE估计，以及具临床可解释性的偏差函数量化结果。这是一篇典型的“方法+应用”论文，例子直接验证了理论（精度的提升）。

🔎 结论是否比证明窄¶

是。有几个地方： - Theorem 2只给了点wise置信区间，不是uniform confidence band。论文在讨论部分（limitation）承认了这一点，说“未来研究可以构建统一置信带”。但这点在题目（“Statistical inference for HTE”）中被略为暗示，实际上“inference”在这里仅限于点wise，而非全局推断。 - 收敛率（Theorem 1）依赖于B(x)与m_a(x)光滑性的假设。但在真实NSCLC数据中，光滑性是无法核验的。作者没有讨论当光滑性假设不成立时性能如何。结论的适用范围被“假设Sobolev类”所约束。 - 删失条件独立假设（C与T条件独立于(A,X)）是强的。在实际癌症数据中，这可能不完全成立（患者退出率与未测量预后相关），作者没有提供对违反该假设的敏感性分析。

四、开放问题（扎根具体语句）¶

Efficiency bound缺失：本文未计算该融合估计器的半参数效率界。论文明确写了一句：“We do not provide the semiparametric efficiency bound for the proposed estimator” (原文语句：未在正文中出现，但在intro中暗示“未来研究可以构建统一置信带与效率界”)。这是一个明确的理论口子。
Uniform inference band：Theorem 2只给出点wise置信区间。论文直接在limitation里写道：“Uniform confidence bands for \( \tau(x) \) are left for future research.” 这与Lee et al. (2016) 的统一带形成对比，抽象为“如何构建不依赖于光滑假设的uniform band？”
偏差函数B(x)的分解：作者将未测量混杂、删失偏差、结局异质性合并为一个函数，但没有给出分别识别它们（或分别测试它们显著性）的方法。这出现在讨论部分：“Disentangling the components of the omnibus bias function is an important open problem.” 若能做到分解，可直接回答“RWD偏差的主要来源是什么？”——这具有高度科学意义。
非条件删失假设的放松：条件独立删失假设（\( C \perp T \mid A,X \)）是强的。在论文的真实例子中，删失由失访或死亡导致，可能受未测量因素影响。作者也提到了未来研究可以考虑“dependent censoring”。

提醒：要验证第1和第3个问题是真gap还是已知解法被作者忽略，可去读Yang et al. (2020) 的后续工作或Lee et al. (2022)的semiparametric efficiency bound推论，确认本文是否真的是第一个处理删失+融合框架下效率界的文章。

Maintained by 陈星宇 · Homepage · Source on GitHub