Test-based integrative analysis for heterogeneous treatment effects combining randomized trial and real-world data¶

讲者: Shu Yang
讨论人: Issa Dahabreh
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-04-26
主题: 因果推断
视频: https://youtu.be/APIQujnvXNI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2005.10579 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告位于因果推断中整合随机对照试验（RCT）与真实世界数据（RWD）这个正在快速发展的子方向。这个方向的基本追问是：如何利用样本量大、代表性好的RWD来改进基于RCT的因果推断，同时防范RWD因缺乏随机化而引入的偏倚。

奠基与主流路线： * Meta分析思路：一类工作是将RCT与观察性研究的汇总统计量或个体患者数据合并（如Verde & Ohmann, 2015; Sobel et al., 2017），但通常不区分两种数据设计上的互补角色，或者合并后破坏了RCT的随机化结构，依赖未测量混杂不可检验的假设。 * 运输性与外推：另一条主线以Issa Dahabreh等为代表，重点是利用RWD的“代表性”来改进RCT结果向目标人群的外推（generalizability / transportability）。这主要是将RCT的内部有效性扩展到更广人群。 * 替代结局与验证：如报告开头提到的Hector等人工作，利用RCT的随机化来验证观察性研究中用于估计长周期结局的替代指标。

当前Frontier与本报告的站位： 当前的field正在从“简单合并”或“单向外推”转向更精细的双向整合，即同时利用RCT的内部有效性（随机化）和RWD的外部有效性（大样本、代表性），并允许两种数据扮演不同角色。核心挑战在于RWD的“可比性”（即是否满足无未测量混杂等假设）通常是未知的。

这场报告（Yang et al. 2022）的独特站位是提出一个两阶段决策框架： 1. 如果RWD“兼容”（满足假设），则通过半参数效率理论将两种数据最优合并，获得比仅用RCT更高效的估计。 2. 如果RWD不兼容，则通过预测试（pre-testing）自动检测这种不兼容，并退回到仅使用RCT的稳健估计。

其核心创新点在于：同时处理“最优利用”和“自动稳健”这两个目标，并针对预测试估计量带来的非正则性（non-regularity）**（源于决策的硬阈值和测试与估计共享数据），开发了理论分析和自适应的推断工具。这并非简单的“全有或全无”合并，也不是对RWD的权重进行连续平滑，而是基于假设检验的硬决策，并正视由此产生的统计推断困难。

二、最小内核 / 一个最简例子¶

符号、模型与可观测数据

Unit / Target Population：考虑一个超级总体。对每个个体 \(i\)，有：
- \(X_i \in \mathbb{R}^p\)：背景协变量（如年龄、性别）。
- \(A_i \in \{0,1\}\)：接收的治疗（0=对照，1=干预）。
- \(Y_i \in \mathbb{R}\)：结局（如三年内癌症复发）。
- \(Z_i \subseteq X_i\)：一组已知的效应修饰因子，我们关心HTE如何随 \(Z\) 变化。
- \(\delta_i \in \{0,1\}\)：数据来源指示符（1=RCT，0=RWD）。
- 潜在结果：\(Y_i(0), Y_i(1)\)（服从因果一致性 \(Y_i = A_i Y_i(1) + (1-A_i)Y_i(0)\)）。
Estimand / 参数：
- 条件平均处理效应：\(\tau(z) = \mathbb{E}[Y(1)-Y(0) | Z=z]\)。
- 报告假设一个参数模型：\(\tau(z) = \tau_{\psi_0}(z)\)，其中 \(\psi_0 \in \mathbb{R}^p\) 是未知参数。例如最简单的线性模型：\(\tau_{\psi_0}(Z) = Z^\top \psi_0\)。目标就是估计 \(\psi_0\)。
可观测数据：我们观察到来自两个独立非重叠样本的数据：
- RCT样本 (\(\delta=1\))：\(\{X_i, A_i, Y_i\}_{i=1}^m\)，其中 \(A_i\) 由随机化决定。
- RWD样本 (\(\delta=0\))：\(\{X_i, A_i, Y_i\}_{i=1}^n\)，其中 \(A_i\) 由未知的观察性分配机制决定。通常 \(n \gg m\)。

一个最简例子 (d=1)

假设 \(Z\) 只有一个变量，比如肿瘤大小（中心化和缩放后）。HTE模型为 \(\tau_{\psi_0}(Z) = \psi_0 Z\)。我们想知道 \(\psi_0\)，即肿瘤大小每变化一个单位，治疗效果平均变化多少。

核心思想：结合“如何” + “何时”

如果RWD完美无偏（无未测量混杂，HTE可运输）：我们可以使用两个数据源来估计 \(\psi_0\)，使估计更精确。讲者使用了半参数效率理论，构建了一个基于“拟似结局”（pseudo-outcome）和“残差”的得分函数（Efficient Score, \(S_\psi\)）。这个得分的妙处在于，即使我们用于调整的工作模型（如倾向性得分、结果回归）估计得不完美，只要它们的估计误差的乘积以 \(o_P(n^{-1/2})\) 的速度收敛（率-双稳健性，Rate-Double Robustness），最终对 \(\psi_0\) 的估计依然是 \(\sqrt{n}\)-一致且高效的。
但如果RWD有偏：直接用它会得到有偏的 \(\psi_0\) 估计。所以我们需要先测试RWD是否无偏。报告的策略是：
- 只使用RCT数据，得到一个虽然是正确的但可能不够精确的估计量 \(\hat{\psi}_{rt}\)。
- 构造一个检验统计量 \(T\)，测量当我们将 \(\hat{\psi}_{rt}\) 代入RWD的得分函数时，该得分的平均值是否显著偏离0。如果 \(T\) 很小，就“接受”RWD是兼容的，然后合并所有数据得到最终估计 \(\hat{\psi}_{tbi}\)。如果 \(T\) 很大，就“拒绝”RWD，最终估计只使用RCT数据，即 \(\hat{\psi}_{tbi} = \hat{\psi}_{rt}\)。

讲者的核心贡献在于严谨地分析了这种“做决策、再估计”的框架，发现它导致了一个非正则估计量，其极限分布是混合分布，标准Bootstrap失效。基于此，他们推导了自适应的置信区间。

三、报告主体：讲者讲了什么¶

[0:00-0:02] 引言与动机 * 定位：报告将自身放置在与Hector、Issa Dahabreh等人工作（关于运输性与替代结局）互补的语境中，强调自己关注的是处理效应异质性（HTE） 的估计，而非平均处理效应或外推。 [0:01-0:02] * 动机：由21st Century Cures Act及其引发的争论（FDA能否信任RWD）作为切入点，目标是找到一个“中间地带”（middle ground），即整合两种数据，取长补短。 [0:02-0:04] * 应用实例：评估早期非小细胞肺癌（NSCLC）患者辅助化疗的效果。RCT（CALGB 9633）样本量极小（~300人），不足以检测亚组差异；RWD（NCDB）海量但有混杂风险。 [0:05-0:06]

[0:06-0:12] 设定、假设与初步识别 * 设定：\(\delta\) 指示数据来源。定义 HTE 为 \(\tau(Z) = \mathbb{E}[Y(1)-Y(0)|Z]\)。为易于临床沟通，假定一个已知链接函数的参数模型（如线性或对数比值比模型）。 [0:06-0:08] * 核心假设：讲者明确提出了两套平行的假设。 * Assumption 1 (RCT)：HTE从RCT到目标人群可运输；随机化在RCT内给定X成立；积极性。RCT被视为“金标准”，这些假设贯穿始终。 [0:08-0:09] * Assumption 2, 3 (RWD "Comparability")：HTE从RWD到目标人群可运输；RWD中无未测量混杂 (NUC)；积极性。讲者反复强调这些是 “理想化假设” (idealistic assumption)，很可能被违反。 [0:09-0:10] * Q&A [0:10-0:12]：回答了关于RCT和RWD积极性不一致的问题。指出如果参数模型和运输性假设可靠，可在一定程度上放松积极性，但实践中危险。

[0:12-0:22] 方法一：当RWD兼容时的高效估计 * 识别：基于逆概率加权（IPW）的拟似结局 \( \frac{AY}{e_\delta(X)} - \frac{(1-A)Y}{1-e_\delta(X)}\) 的条件期望就是 \(\tau(Z)\)。但直接回归不稳定。 [0:12-0:14] * 半参数方法论： * 定义半参数模型（参数部分为 \(\tau_\psi(Z)\)，非参数部分为倾向性得分 \(e_\delta(X)\)、结果均值 \(\mu_\delta(X)\) 等）。 [0:12-0:14] * 推导出半参数有效得分函数 (SES) \(S_\psi\)。其形式为一个“残差乘积”：\(q^*(X,\delta) \times (H_\psi - \mu_\delta(X)) \times (A - e_\delta(X))\)。其中 \(H_\psi = Y - \tau_\psi(Z)A\) 是拟似潜在结局 (mimicking Y(0))。 [0:12-0:14] （字幕可能有误，公式结构以幻灯片为准） * 有效估计量 \(\hat{\psi}_{eff}\) 是求解联合数据的经验得分方程 \(\sum \hat{S}_\psi = 0\) 的解。其中 \(\hat{e}_\delta, \hat{\mu}_\delta\) 用非/半参数方法（如样条）估计。 [0:14-0:16] * 关键理论结果：率-双稳健性 (Rate-Double Robustness) [0:14-0:16] * Theorem：如果 \(\|\hat{e}_0 - e_0\| = o_P(1), \|\hat{\mu}_\delta - \mu_\delta\| = o_P(1)\)，并且它们的误差乘积 \(\|\hat{e}_0 - e_0\| \times \|\hat{\mu}_\delta - \mu_\delta\| = o_P(n^{-1/2})\)，则 \(\hat{\psi}_{eff}\) 是 \(\sqrt{n}\)-一致渐近正态的，且可达到半参数效率界。 * 直觉：只要工作模型的估计误差乘积足够小，即使每个模型单独不完美，最终估计量也是好的。这使得我们可以安全地使用灵活的ML方法。

[0:22-0:34] 方法二：测试RWD兼容性与预测试估计 * Motivation：用动画展示了“高效估计在RWD无偏时很棒，但一旦RWD有偏，它会变得最差（高偏差）”。因此，必须测试。 [0:22-0:23] （幻灯片上“Naive integration is dangerous”） * 假设检验 [0:23-0:25]： * Null H0：\(\mathbb{E}[S_{rw, \psi_0}(V)] = 0\) （RWD得分在真实参数下期望为零）。 * Alternative：不仅考虑固定备择，还特别引入了局部备择假设 \(H_{a,n}: \mathbb{E}[S_{rw, \psi_0}(V)] = n^{-1/2} \eta\)。这个参数 \(\eta\) 表征了RWD偏倚的“大小”，用于刻画“弱违反”下的有限样本行为，联系到弱工具变量问题。 [0:23] * 检验统计量构造 [0:25-0:26]： * 直觉：先用RCT数据得到一致估计量 \(\hat{\psi}_{rt}\)。如果H0成立，\( \sum_{i \in \text{RWD}} \hat{S}_{rw, \hat{\psi}_{rt}}(V_i) \) 应接近0；反之则远离。 * \(T = (\sum_{i\in B} \hat{S}_{rw, \hat{\psi}_{rt}})^\top \hat{\Sigma}^{-1}_{SS} (\sum_{i\in B} \hat{S}_{rw, \hat{\psi}_{rt}})\)，其渐近分布为 \(\chi^2_p\)。 * 测试整合估计量 (TBI) [0:26-0:27]：\(\hat{\psi}_{tbi}\) 定义为求解含有一个硬阈值的得分方程的解：

\[\sum_{i \in RCT} S_\psi(V_i) + \mathbb{I}(T < c_\gamma) \times \sum_{i \in RWD} S_\psi(V_i) = 0\]

其中 \(c_\gamma\) 是 \(\chi^2_p\) 的 \(1-\gamma\) 分位数。 \(\hat{\psi}_{tbi}\) 实际上是 \(\hat{\psi}_{rt}\) 和 \(\hat{\psi}_{eff}\) 的随机混合（混合概率取决于测试是否拒绝）。 * 渐近分布与自适应选择 [0:27-0:34]： * 非正则性：这是一个预测试估计量。由于决策依赖于同样数据，其极限分布是混合正态分布。在 \(H_0\) 下，它是非正则的（分布随局部参数 \(\eta\) 剧烈变化）。在固定备择下，退化为正态。 [0:27-0:29] * 自适应阈值 \(\gamma\)：推导了MSE作为 \((\gamma, \eta)\) 的函数，存在偏差-方差权衡。提出通过MSE最小化自适应选择 \(\gamma\)，用 \(\hat{\eta} = n^{-1/2}\sum \hat{S}_{rw, \hat{\psi}_{rt}}\) 代替未知的 \(\eta\)。 [0:33-0:34] * Q&A [0:31-0:38]：回答了两个问题。 1. 关于非参数HTE模型：讲者澄清其框架当前基于正确的参数模型，但提及前期有模型设定检验工作可以借鉴，并承认非参数HTE没有 \(\sqrt{n}\) 效率界。 [0:35-0:36] 2. 关于加权决策替代硬阈值：讨论了从“全有或全无”切换为连续权重（软阈值）的可能性，承认这可能有改进，但不能解决预测试估计量的非正则性本质。 [0:37-0:38]

[0:38-0:47] 挑战与应对：自适应推断 * Bootstrap不成立：由于估计量的非光滑性（硬阈值），标准非参数Bootstrap不一致。 [0:38-0:39] * 自适应置信区间 (ACI) [0:39-0:42]： * 第一步：再次使用检验统计量 \(T\) 来区分“强偏倚”（固定备择）和“弱偏倚/无偏倚”（局部/原假设）。选择膨胀序列 \(\kappa_n = \sqrt{\log n}\)。若 \(T > \kappa_n\)，认为是“强偏倚”情况，可用标准正态推断。 * 第二步（\(T \le \kappa_n\) 时）：对于“弱/无偏倚”情况，已知极限分布是混合正态。构造最小有利置信区间 (Least Favorable CI)：取 \(\eta\) 的一个高概率置信区域 \(B_{1-\tilde{\alpha}}\)（来自 \(\hat{\eta}\) 的分布），然后取所有 \(\eta \in B_{1-\tilde{\alpha}}\) 下得到的CI的下确界和上确界的区间。这保证了覆盖率的保守性。 * 模拟与真实数据 [0:42-0:47]： * 模拟：通过改变RWD中未测量混杂的强度（参数b），系统地比较了RCT估计量、高效估计量和TBI估计量的偏差、方差和MSE。结果清晰地展示了TBI在RWD无偏时效率接近高效，在RWD有偏时偏差较小，而高效估计量偏差急剧增长。CI覆盖率的模拟也支持了ACI的稳健性。 [0:42-0:43, 0:36-0:40的表格与图] * 真实数据：用NSCLC数据演示。测试统计量 \(T=1.9\)，未达到显著阈值。因此TBI估计量等于高效估计量，但标准误更大（反映了预测试的不确定性）。HTE图显示，RCT的置信带很宽，高效的置信带很窄但不可靠，TBI的置信带居中，为“对特定肿瘤大小患者有效”提供了更可信的证据。 [0:43-0:47]

[0:45-0:47] 总结与未来工作 * 总结：提出了一种测试驱动、自适应的整合分析框架，兼顾了精度与稳健性。 * 未来方向：扩展到删失生存结局；处理RWD中的测量误差、缺失、数据结构错配等问题。 [0:47]

[0:48-1:05] 讨论环节 (Issa Dahabreh) * 讨论的核心：Issa从流行病学家的视角，提出了一系列针对因果识别假设本身的尖锐问题，而非统计方法细节。 1. A是什么？：在RCT中是“分配”还是“接收”的治疗？在RWD中呢？当两个定义不同时，假设强度会变化。 [0:49-0:52] 2. Assumption 1 的强度：它包含两部分：可运输性（条件于X）和维度缩减（条件于Z而不是X）。后者在Z低维时很强。（Z只包含肿瘤大小，而X则有多个变量）。 [0:52-0:54] 3. 可检验性：Assumptions 1-3对观测数据有可检验吗？Issa指出在logically上，它们没有观测约束，但实践中两种数据的协变量分布通常有一定重叠，这种重叠本身是可检验的，为何不先检验它？ [0:54-0:56] 4. 非依从性：RCT中的非依从和RWD中的治疗选择有共同原因，破坏了Assumption 1和3的对称性。 [1:00-1:02] 5. 整体评估：Issa承认方法的精巧，但质疑其在实践中面对如此长链的、脆弱且不对称的假设时，能否真正发挥作用。 [1:02-1:03] * 讲者回应：承认问题重要，并回应在实例中A是“接收的治疗”，从而RCT的随机化假设变得更弱（与观察性研究类似）。这承认了两个问题的复杂性，并暗示了未来方向。 [1:03-1:05]

四、对应论文与开放问题¶

(a) 对应论文

主论文：
- 标题：Elastic Integrative Analysis of Randomized Trial and Real-World Data for Treatment Heterogeneity Estimation
- 作者：Shu Yang, Chenyin Gao, Donglin Zeng, Xiaofei Wang
- arXiv: 2005.10579
- 状态：这篇论文是报告的核心工作。建议研究者阅读论文获得更严谨的公式和证明细节。

(b) 开放问题 (基于转写与讨论)

每条问题扎根于转写具体内容或讨论中的观点，不判断可行性：

从“硬阈值”到“软阈值”或平滑权重：讨论了将测试的指示函数 \( \mathbb{I}(T < c_\gamma) \) 替换为某种平滑函数，作为连续整合权重。这能否改善有限样本性能？能否缓解非正则性？(来源：Q&A [0:37-0:38] 和 [0:50] 处Issa的类似问题)。这可以与研究者熟悉的HOIF理论及einsum复杂度联系起来吗？ 例如，一个依赖于局部参数 \(\eta\) 的平滑权重函数，其估计等价于求解一个高阶的、涉及多个模型复杂度的U-统计量方程。
模型设定与维度缩减：Issa质疑Assumption 1的第二部分（仅条件于Z而非X）。当Z是X的一个低维子集时，这个假设非常强。能否开发一个更灵活的非参数HTE模型，或者一个半参数模型，允许X对HTE有非参数影响，然后通过某种方式“降维”到Z？这会与研究者对非参数统计的兴趣高度相关。
处理非依从性与治疗定义：讨论暴露了在RCT中“治疗分配”和“治疗接受”的语义模糊性。如何在一个统一的框架下处理这两种数据中的非依从，使得RCT的随机化优势（基于分配）和RWD的观察性（基于接受）能更合理地融合？能否利用RCT的随机化作为工具变量来处理RWD中的非依从？
扩展到更复杂的内生性问题：转写中提到了测量误差、缺失数据和数据结构错配。研究者的兴趣包括代理变量因果推断 (Proximal Causal Inference)，这正是处理未测量混杂的利器。能否将当前的“测试-整合”框架与代理变量方法结合，使得对RWD的无偏性测试不依赖于其内部的无未测量混杂假设，而是依赖于代理变量结构的可用性？
高维效应修饰因子：当前假设Z是低维的。当效应修饰因子是高维的时候，报告中的卡方检验自由度会很大，功效会下降。如何将此框架扩展到高维Z？可以使用假设检验方法或对效应修饰项加惩罚（如Lasso）吗？这与研究者对高维统计的兴趣直接相关。

Maintained by 陈星宇 · Homepage · Source on GitHub