Statistical inference on the relative risk following covariate-adaptive randomization¶
作者: Fengyu Zhao, Yang Liu, Feifang Hu
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1093/biomtc/ujaf036
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究的是在协变量适应性随机化(Covariate-Adaptive Randomization, CAR)临床试验设计下,如何对相对风险(Relative Risk, RR)进行有效的统计推断。CAR 是一种在试验过程中动态调整分配概率,以使各治疗组在关键基线协变量(如年龄、性别、疾病严重度)的分布上尽可能平衡的随机化方法。其根本问题在于:CAR 引入的组间协变量相关性会改变标准推断理论,若忽略此效应,检验的 Type I error 会偏离名义水平,通常是变得保守(power 降低)。当前该子方向在 平均处理效应(ATE) 的推断上已有较成熟的理论,但针对 RR 这一临床常用比率度量的推断理论尚不完整,本文试图填补此缺口。
发展脉络(history)¶
根据论文引言与参考文献,该领域的发展脉络可梳理如下:
-
奠基工作:CAR 程序的提出与中后期分析的必要性
- Pocock & Simon (1975), Efron (1971):提出了经典的 CAR 程序(如分层区组随机化、偏硬币设计),但早期工作主要关注于程序本身的平衡性质,未深入探讨其如何影响后续的统计推断。
- Birhanu et al. (2011):在 Biometrics 上发文,最早提出了在 CAR 下对二分类结局的 相对风险 进行推断的问题。这是一个重要的转向:前人聚焦于连续型结局(通常是均值或 ATE),而临床中二分类结局更为常见(存活/死亡、有效/无效),RR 是更合适的效应度量。
-
主要进展:CAR 下 ATE 推断理论的成熟
- Bühlmann & van de Geer (2015), Bugni et al. (2018, 2019):这一系列工作系统性地建立了在 CAR 下(特别是分层区组随机化与最小化法)估计平均处理效应(ATE)的渐近分布理论。核心发现是:由于 CAR 导致的组间协变量相关性(残差相关性),治疗组样本均值不再是独立同分布的,其渐近方差较完全随机化下的方差更小。这直接促成了如何修正标准误、以避免检验过于保守的探讨。
- Ye et al. (2022) 引用了 Bugni et al. (2018) 的框架,将结果推广到了模型-辅助/模型-稳健 的方差估计器,为本文提供了直接的 “模型-稳健” 方法基础。
-
当前 frontier 与本文的位置
- 作者指出,大部分关于 CAR 下推断的研究集中在 ATE(连续型或二分类的均值差)。然而,对于二分类结局,RR 与优势比(Odds Ratio, OR)是更自然的参数,其推断性质与 ATE 有本质不同(例如,RR 的方差依赖于结局的发生率,且估计量是非线性的 log-link 模型)。
- 本文 直接填补了 Birhanu et al. (2011) 留下的缺口:该文虽提出 CAR 下 RR 的问题,但其方差估计方法依赖于特定模型假设且未完整推导渐近分布。本文在 一般性 CAR 程序(涵盖分层区组、最小化法及其变体)下,完整推导了 RR 协方差调整估计量的渐近分布,并据此提出了两种修正标准误的方法(model-based 和 model-robust),从理论上证明了修正后 Wald 检验的渐近有效性。
子线索聚类¶
这些被引文献大致落在三条子线索上:
- 线索 A:CAR 程序的设计与平衡性质(Pocock & Simon, 1975; Efron, 1971; Hu & Hu, 2012)。关注的是“如何做随机化”,是推断的基础。
- 线索 B:CAR 下连续型结局(ATE)的推断理论(Bühlmann & van de Geer, 2015; Bugni et al., 2018, 2019; Ye et al., 2022)。这是该领域最成熟、影响力最大的分支,建立了理论框架和技术工具(如从大样本角度,将 CAR 视为在治疗分配中引入了协变量与处理间的相关性,从而修正方差)。
- 线索 C:CAR 下非连续结局(二分类 / 计数 / 生存)的推断(Birhanu et al., 2011; 本文)。这是相对较新的分支,试图将线索 B 的成果推广到更适合临床实际情况的效应度量(RR, OR, HR)。
这个方向在追问的核心问题¶
- 推断的保守性:CAR 导致的协变量平衡效应,会如何具体影响标准检验统计量的渐近分布和 Type I error?保守是必然的(方差被低估?还是只是标准误被高估?),其程度如何依赖于 CAR 程序与协变量的解释力?
- 方差修正方法:对于不同的 estimand(ATE, RR, OR),是否存在统一的方差修正框架?是根植于 模型-辅助(认为模型是对的,但模型内部结构需调整),还是 模型-稳健(使用 sandwich estimator 或回归调整)?
- 不同 CAR 程序下的统一性:理论上,一个推断方法能否对所有常见的 CAR 程序(如 stratified permuted block, minimization-based procedures)都有效?现有结果(如 Bugni et al.)通常只对一类 CAR 程序严格成立(如 stratified block randomization with fixed blocks),而对更复杂、更随机化的程序(如最小化法)需要额外假设。
- 估计 vs. 检验:焦点是放在获得一个无偏、高效的估计量(与经典非参数 MLE 的比较),还是放在准确的推断(假设检验和置信区间)?当前的文献(包括本文)主要聚焦于后者——修复检验的 size 和 power,而非效率最优。
⚠️ 作者的 framing¶
- 作者把缺口 frame 成什么?:作者声称,现有文献 “大大忽略了与 RR 关联的 inferential 问题”,而 RR 是在二分类结局试验中“最广泛使用的效应度量”。因此,他们将本文定位为:在 CAR 下为 RR 推断提供第一个严格、系统、形式化的理论结果。他们特意把举证责任放在了 ATE 结果的“方法型构建”上,说“方法可能直接适用”,但没有说清楚为何 ATE 的方法不能直接套用到 RR(核心原因在于 RR 估计量是 log-link,其方差依赖于均值)。
- 那些竞争路线被他淡化或回避了?:作者选择了基于 log-binomial 回归模型的视角(covariate-adjusted RR)。他们淡化了直接使用非参数估计量的可能性(即直接使用治疗组与对照组的样本均值比率,然后手动调整标准误)。后者在操作上更简单,但作者认为“在调节协变量效应上不充分”。此外,他们未深入与 Lunceford & Davidian (2004) 等处理 IPTW 或双重稳健方法在 CAR 下的表现进行比较。
- 什么明显该被引 / 该存在、却没出现在 intro 里?:缺乏对 Efficient Influence Function (EIF) 与 Semi-Parametric Efficiency Bound 的讨论。由于研究者对效率理论(semiparametric efficiency bounds)感兴趣,一个显著的缺失是:在 CAR 试验设定下,RR 的 semiparametric efficiency bound 是否会因为协变量的加入而降低(这与完全随机化和观测研究不同)。作者完全避开了效率理论,只谈论“方差修正”以实现 name-type-I-error,不谈“是否达到半参效率界”。另外,未提及任何与 higher-order U-statistics 或 高维协变量 有关的挑战——后者对于一个统计学家的兴趣而言至关重要。
张力¶
未见明显对立引用。被引工作(如 Bugni et al. 与 Ye et al.)之间的关系是方法论的扩展(从 ATE 到 variance estimation),而非冲突或矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据¶
我们先立一套记号,这是读懂后续所有技术细节的基石。
-
下标与维度:
- \( i = 1, \dots, n \):受试者索引(样本量)。
- \( p \):纳入随机化的协变量个数(如年龄、性别等)。
-
可观测数据:对每个受试者 \( i \),我们观察到:
- \( Z_i \in \{0, 1\} \):处理分配(0 = 对照,1 = 治疗)。这是由 CAR 程序决定的,不是独立的。
- \( X_i \in \mathbb{R}^p \):基线协变量。假设是独立同分布(i.i.d.)采样自人群分布。
- \( Y_i \in \{0, 1\} \):二分类结局(0 = 无事件/死亡,1 = 有事件/存活/缓解)。这是 观测到的结局。
-
潜在结果 & 目标参量(estimand):
- 我们想估计 相对风险(RR)。在因果推断的潜在结果框架下:
- \( Y_i(1) \):若受试者 \( i \) 被分配到治疗组的潜在结局。
- \( Y_i(0) \):若受试者 \( i \) 被分配到对照组的潜在结局。
- 我们感兴趣的人群平均 RR:\[\text{RR} = \frac{\mathbb{E}[Y(1)]}{\mathbb{E}[Y(0)]}\]
- 关键假设:为了识别这个 RR,我们需要 条件可忽略性(Conditional Ignorability)(在给定协变量下,潜在结果与处理分配独立)和 一致性(Consistency)(观测结局等于分配处理下的潜在结果)。这里,CAR 程序在 \( (X_i, Z_i) \) 层面的设计保证了条件可忽略性(仅强于完全随机化)。
- 我们想估计 相对风险(RR)。在因果推断的潜在结果框架下:
-
参数模型:本文采用一个 对数二项(log-binomial)回归模型 来刻画 RR:
\[\log \mathbb{E}[Y_i \mid Z_i, X_i] = \beta_0 + \beta_1 Z_i + \gamma^\top X_i\]- \( \beta_1 \) 是 条件对数 RR(在给定 \(X\) 下)。如果模型是正确设定的,\( \exp(\beta_1) \) 就是人口水平 RR。
- \( \beta_1 \) 是我们要估计和检验的靶子。
- 在这里,\( (\beta_0, \beta_1, \gamma) \) 通过 最大似然估计(MLE) 得到,记作 \( \hat{\beta}_1 \)。
-
第一步小结:可观测数据是 \( (Y_i, Z_i, X_i)_{i=1}^n \)。我们用 log-binomial 模型的 MLE 来估计 条件对数 RR \( \beta_1 \),然后进行假设检验 \( H_0: \beta_1 = 0 \)(等价于 \( RR = 1 \))。
第二步:最小内核¶
为了看清核心困难,我们剥掉所有无关假设,看一个最简单的设定:只有一个协变量 \( X_i \in \{0, 1\} \)(比如,性别:0=女, 1=男)。且假设我们使用极简单的 分层区组随机化(Stratified Permuted Block Randomization):在每个 X 层内(即女性和男性组内),完全独立地进行区组大小为 2 的随机化(每个区组内恰好 1 个治疗、1 个对照)。
为什么这是最小内核?:这是最简单的非平凡 CAR 设定。它使得治疗分配 \( Z \) 在每一层内是 完美的平衡(50/50)。这使得组间(治疗 vs 对照)的协变量分布 在总体层面是相同的,但因为根据 \( X \) 分层,治疗组和对照组在 \( X \) 上的分布是完全匹配的。
问题还原:在这个最小设定下,传统(未调整的)对数二项模型的 MLE(也就是说,我们依旧拟合模型 \( \log \mathbb{E}[Y|Z] = \beta_0 + \beta_1 Z \),但是没用 X),估计出的 \( \hat{\beta}_1 \) 的渐近方差会如何被 CAR 程序影响?
- 标准教科书结果(完全随机化下):完全随机化下,治疗组与对照组是独立的随机样本。此时,\( \hat{\beta}_1 \) 的渐近方差由一个标准的 “sandwich” 形式给出,其标准误可以直接用 i.i.d. 假设估计。
- CAR 下的变化:在分层区组随机化下,由于组内 “治疗/对照” 对是通过区组形成的,治疗组与对照组在给定层内是负相关的(因为一个区组内,一个是治疗,一个是对照)。这种相关性加上分层内的完美匹配,会导致:
- 传统标准误(假设独立)高估了真实的方差?还是低估?
- 实际上,因为治疗组和对照组在 X 上的分布相同(由此,结局的潜在分布也相同),相比于完全随机化(允许 X 在组间分布有随机波动),处理组的总体均值 \( \bar{Y}_1 \) 和对照组的 \( \bar{Y}_0 \) 的 协方差是负的(因为有配对/区组效应)。
- 核心难题:在二分类结局下,这种相关性 + 平衡效应会导致常规的 MLE 标准误高估了真实方差(因为在 CAR 下,组间协方差为负,缩减了差值的方差)。因此,使用常规标准误进行的 Wald 检验会太过保守(Type I error 低于名义水平)。
本文的关键想法:作者不是通过改变随机化程序来解决问题,而是修正标准误的计算,使其正确反映 CAR 所引入的相关性结构。他们推导出在 CAR 下,估计量 \( \hat{\beta}_1 \) 的渐近协方差矩阵除了常规的 “information matrix” 部分外,还多了一项来自组间协变量平衡的修正项(记作 \( \Delta \))。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在 CAR 试验的设定下,研究对数二项回归模型下 RR 估计量的渐近性质,并解决常规推断方法过于 保守(Type I error 低于名义水平)的问题。
- 核心工具/方法:基于 M-估计理论(M-estimation theory)推导了 RR 估计量的渐近分布,发现标准误差忽视了 CAR 引入的组间协变量相关性。随后提出了 模型基础校正(model-based adjustment) 和 模型稳健校正(model-robust adjustment) 两种修正标准误的方法。
- 主要结论:传统 Wald 检验过于保守(Type I error 远低于 0.05);而本文提出的两种调整方法能够恢复正确的渐近 Type I error,并且模型稳健方法在所有模拟设定下均表现良好,同时不会降低对真实效应的检验效能。
关键设定与假设¶
- CAR 程序类:假设 CAR 程序是 “充分随机化的”(strongly regular),即分布 \( \Pr(Z_i = 1 \mid Z_{i-1}, X_i, \dots, X_1) \) 收敛到一个稳定极限。这排除了完全确定性的分配。实际上涵盖了分层区组随机化(带随机区组大小)、最小化法 等主流方法。
- 模型:
\[\log \frac{\mathbb{E}[Y_i \mid Z_i, X_i]}{1 - \mathbb{E}[Y_i \mid Z_i, X_i]} = \beta_0 + \beta_1 Z_i + \gamma^\top X_i\]这是一个标准的对数二项回归模型(或 logistic 回归模型,但本文聚焦于对数二项模型,因为 logit 模型处理的是 Odds Ratio,而非 RR)。假设模型是正确设定的(来自 Birhanu et al. 2011 的假设)。
-
主要假设:
- 平稳性:CAR 程序使得处理分配 \( Z_i \) 与协变量 \( X_i \) 的边际分布是稳健的,但存在序列依赖。
- 非退化模型:潜在结果的对数均值在可观测数据范围内有定义(\( \mathbb{E}[Y|Z,X] \) 不接近 0 或 1)。
- 正则性:与 M-估计所需的常规正则条件(如 score function 的可微性、期望 Hessian 的可逆性)。
-
与已有文献的比对:
- 相比 Bugni et al. (2018)(重点在 ATE 下的均值差),本文将推论逻辑扩展到了 广义线性模型的参数(对数RR)。
- 相比 Birhanu et al. (2011)(给出了方差估计但不完整),本文给出了完整的渐近方差公式,并讨论了如何修正标准误差。
主要结果¶
-
定理 1(渐近正态性):
- 陈述:在正则条件下,\( \sqrt{n}(\hat{\beta}_1 - \beta_1) \rightsquigarrow N(0, V_{\text{CAR}}) \)。其中 \( V_{\text{CAR}} \) 的表达式为:\[V_{\text{CAR}} = V_{\text{naive}} - \Gamma\]
- 直觉:\( V_{\text{naive}} \) 是 naive 的标准误(假设处理分配是 i.i.d. 完全随机化)。\( -\Gamma \) 是 CAR 导致的方差缩小项。这是因为组间协变量平衡(通过区组或最小化法)引入了负的组间协方差,从而降低了估计量的方差。如果使用 naive 标准误(即 \( V_{\text{naive}} \)),我们会高估真实方差(因为忽略了 \( -\Gamma \)),导致检验保守。
- 必要条件:CAR 程序要满足 “强正则” 条件,以保证 \( \Gamma \) 存在且为正定。
- 解决的技术难点:证明估计量的渐近方差中,处理分配与协变量之间的长期相关性(long-run correlation)可以分解为一个简洁的期望项 \( \Gamma = \text{Var}[\mathbb{E}[S(\theta_0)|Z_i,X_i]] \),其中 S 是 score function。这需要结合 M-估计理论和条件协方差公式。
- 陈述:在正则条件下,\( \sqrt{n}(\hat{\beta}_1 - \beta_1) \rightsquigarrow N(0, V_{\text{CAR}}) \)。其中 \( V_{\text{CAR}} \) 的表达式为:
-
定理 2 和 3(方差调整):
- 方法:
- Model-based Adjustment:直接根据 CAR 的已知中心随机化性质(例如,知道每个协变量 Z 和 X 之间的渐近相关系数 = -1/对称区组),显式地 \( \Gamma \) 估计出来,然后计算 \( \hat{V}_{\text{adjusted}} = \hat{V}_{\text{naive}} - \hat{\Gamma} \)。该方法需要知道 CAR 程序的具体结构。
- Model-robust Adjustment:使用 Huber-White sandwich estimator 的修正版本。具体地,直接估计样本的协方差结构,而不指定解析解。标准误差计算为:\[\widehat{\text{Var}}_{\text{robust}}(\hat{\beta}_1) = n^{-1} \hat{I}^{-1} \hat{\Omega}_{\text{CAR}} \hat{I}^{-1}\]其中 \( \hat{\Omega}_{\text{CAR}} \) 是经 CAR 序列相关性修正后的矩阵。
- 结论:两种调整方法都证明了渐近有效性(Type I error → 0.05)。模型稳健方法在 misspecification 下比模型基础方法更鲁棒。
- 方法:
证明路线与技术技巧¶
-
整体路线(3-5步):
- 用 M-估计框架写估计量:将 \( \hat{\beta}_1 \) 看作使 “工作分数方程” \( \sum_i W_i(\beta) = 0 \) 的解,其中 \( W_i(\beta) = X_i(Y_i - \mu_i(\beta)) \),\( \mu_i(\beta) = \text{logit}^{-1}(\tilde{\beta}^\top X_i) \)。
- 分解估计方程:\( \sum_i W_i(\beta_0) \) 可以分解为 uncertainty 项(来自 \( Y_i \) 的贝努利噪声)与 组间协变量平衡项(来自 CAR 程序导致的 \( X_i Z_i \) 相关性)。
- 计算渐近方差:在 CAR 下,\( \sum_i W_i(\beta_0) / \sqrt{n} \) 的方差渐近为 \( \Omega_{\text{naive}} - \Gamma \)。关键一步是证明 \( \Gamma = \lim_n n^{-1} \sum_{i,j} \text{Cov}(Z_i, Z_j) \mathbb{E}[\text{score contribution from } X_i, Y_i] \)。由于 CAR 导致 \( \text{Cov}(Z_i, Z_j) < 0 \)(因为强随机化),这一项为零负,导致了方差减小。
- 构造调整后的标准误:证明 \( \hat{V}_{\text{naive}} \rightarrow \) true variance + 2 * \( \Gamma \)等等,所以可以通过从 naive 估计量中减去 \( \hat{\Gamma} \) 得到修正的方差。
-
关键跳跃点:
- 最吃力的引理:引理 1(关于 CAR 的长期相关性)。要证明,虽然 \( Z_i \) 是序列相关的,但被协变量 \( X \) 调节后,其相关性结构可以用一个简单的克莱姆矩阵(Cramer-type structure)近似。作者引用了 Bugni et al. (2018) 中的一个引理,来证明对于大多数 CAR 程序,\( \text{E}[Z_i|X_i] \) 的渐近方差可以显式计算。
- 难点卡在哪:如何在不假设具体 CAR 程序的情况下,统一描述组间协方差结构?作者使用了 “平稳条件” 和 “鞅差” 分解来处理 \( Z_i \) 与 \( X_i \) 之间的动态依赖。
- 如何绕过去:他们没有直接处理一个单一的生成机制,而是假设 CAR 程序的条件分配概率趋于一个固定函数 \( \pi(X) \)(通常趋近于 1/2),然后证明在这个限制下,所有程序都共享相同的调整项结构(这与 Bugni et al. 的结论一致)。
-
技术技巧点名:
- M-估计理论:主要用于建立 \( \hat{\beta}_1 \) 的渐近正态性和推导其渐近方差。
- 鞅差序列(Martingale Difference Sequences):用于处理 CAR 下 \( Z_i \) 的序列依赖性,将其分解为鞅差序列和在给定 \( X_i \) 下的条件变异。
- Lindberg-Feller CLT 的修正:用于证明调整后的 Wald 统计量的渐近有效性。
真实例子与应用¶
本文提供了 大规模模拟实验,但未使用真实临床试验数据。这是纯理论性论文,作者在数值部分系统地展示了:
- 数据/场景:模拟一个包含 2-4 个分层协变量(如 Age(3层), Gender(2层))的二分类结局试验。CAR 程序使用了分层区组随机化和最小化法(Pocock & Simon 法)。
- 方法实施:模拟了四种方法:(i) 不用协变量调整的 naive RR 估计, (ii) 模型基础调整的 RR 估计, (iii) 模型稳健调整的 RR 估计, (iv) 一个备选方法(如无 CAR 修正的 Sandwich)。比较它们的 Type I error 和 Power。
- 结果:
- Type I error:Naive 估计量的 Type I error 极低(如 0.03),验证了 “保守性” 的结论。模型稳健调整使其恢复到名义水平(0.048-0.052)。
- Power:模型稳健调整的方法与 naive 方法相比,power 显著提升(如从 50% 提升至 70%)。模型基础调整在程序被正确指定时(分层区组随机化)表现良好,但在最小化法下(一个更复杂、随机化更强的程序)有轻微偏差。
- 这个例子想说明什么:第一,验证了 定理1 中 naive 方法保守性的预测。第二,证明了 模型稳健方法 是更安全、更普适的选择,因为它对 CAR 程序的细节不敏感,对模型设定也不敏感(稳健)。
🔎 结论是否比证明窄?¶
是的,存在一个明显的宽度差距:
- 模型设定假设:整个理论建立在 log-binomial 模型是正确设定的基础上。文中的结论只覆盖了 “模型正确” 的情况。在 “模型错误” 但依旧使用 log-binomial 模型作为工作模型时,虽然有 “model-robust” 的标签,但它的正确性依赖的是该工作模型得出的 \( \hat{\beta}_1 \) 仍能收敛到某个伪真值(Pseudo-true value)。这是一个重要的窄化假设。作者在 Section 5 “讨论” 中承认了这一点,指出 “在模型错误设定下的理论性质需要进一步研究”。
- CAR 程序的范围:虽然在理论上声称适用于“广泛类别的 CAR”,但模拟实验仅测试了分层区组和最小化法。对于更复杂的、带有倾向性权重的 CAR 程序(如方差最小化程序),其调整项的结构是否相同,是未被严格证明的,只是暗示了相似性。
- 缺失的效率理论:本文完全没有讨论 semiparametric efficiency bound。它只说“我们的调整标准误是渐近正确的”,但没有说“它是否达到了最优可达到的方差(efficient bound)”。考虑到作者在引文中提到了 Ye et al. (2022) 的模型稳健方法,而后者在 ATE 下的效率理论是已知的,作者回避了对 RR 的效率界的讨论,这实际上暗示了 本文的结果可能并未达到半参效率界,只是一种 “有效但非最优” 的修正。
四、开放问题¶
- 半参数效率界:在 CAR 试验设定下,对于 RR,其 semiparametric efficiency bound 是多少?本文的 model-robust 估计量是否达到此界?如果不,如何构建一个达到最优效率的估计量?(扎根于:Section 5 未讨论的 efficiency theory 与 引言中缺失相关引用)
- 模型错误设定下的推断:当 log-binomial 模型是错误指定的,但依旧作为工作模型使用时,本文的模型稳健调整的 Type I error 是否仍然渐近正确?这涉及对伪真值的渐近方差推导。(扎根于:Section 5, “Under model misspecification…”)
- 高维协变量与稀疏性:当 \( p \gg n \)(协变量维度高于样本量)时,在 CAR 试验下,RR 的估计与推断如何可行?能使用如 Lasso 在 CAR 下的修正理论吗?这直接连接了研究者对高维统计的兴趣。(扎根于:仅考虑低维 p 的设定)
- 非二元与有序结局:研究仅限 \( Y \in \{0,1\} \)。向多元、有序或计数结局(如泊松回归)的扩展,尤其是在 CAR 下如何调整标准误,是自然延伸。(扎根于:模型被限制为 log-binomial)
Maintained by 陈星宇 · Homepage · Source on GitHub