Statistical inference on the relative risk following covariate-adaptive randomization¶

作者: Fengyu Zhao, Yang Liu, Feifang Hu
来源: Biometrics
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://doi.org/10.1093/biomtc/ujaf036

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是在协变量适应性随机化（Covariate-Adaptive Randomization, CAR）临床试验设计下，如何对相对风险（Relative Risk, RR）进行有效的统计推断。CAR 是一种在试验过程中动态调整分配概率，以使各治疗组在关键基线协变量（如年龄、性别、疾病严重度）的分布上尽可能平衡的随机化方法。其根本问题在于：CAR 引入的组间协变量相关性会改变标准推断理论，若忽略此效应，检验的 Type I error 会偏离名义水平，通常是变得保守（power 降低）。当前该子方向在 平均处理效应（ATE） 的推断上已有较成熟的理论，但针对 RR 这一临床常用比率度量的推断理论尚不完整，本文试图填补此缺口。

发展脉络（history）¶

根据论文引言与参考文献，该领域的发展脉络可梳理如下：

奠基工作：CAR 程序的提出与中后期分析的必要性
- Pocock & Simon (1975), Efron (1971)：提出了经典的 CAR 程序（如分层区组随机化、偏硬币设计），但早期工作主要关注于程序本身的平衡性质，未深入探讨其如何影响后续的统计推断。
- Birhanu et al. (2011)：在 Biometrics 上发文，最早提出了在 CAR 下对二分类结局的 相对风险 进行推断的问题。这是一个重要的转向：前人聚焦于连续型结局（通常是均值或 ATE），而临床中二分类结局更为常见（存活/死亡、有效/无效），RR 是更合适的效应度量。
主要进展：CAR 下 ATE 推断理论的成熟
- Bühlmann & van de Geer (2015), Bugni et al. (2018, 2019)：这一系列工作系统性地建立了在 CAR 下（特别是分层区组随机化与最小化法）估计平均处理效应（ATE）的渐近分布理论。核心发现是：由于 CAR 导致的组间协变量相关性（残差相关性），治疗组样本均值不再是独立同分布的，其渐近方差较完全随机化下的方差更小。这直接促成了如何修正标准误、以避免检验过于保守的探讨。
- Ye et al. (2022) 引用了 Bugni et al. (2018) 的框架，将结果推广到了模型-辅助/模型-稳健 的方差估计器，为本文提供了直接的 “模型-稳健” 方法基础。
当前 frontier 与本文的位置
- 作者指出，大部分关于 CAR 下推断的研究集中在 ATE（连续型或二分类的均值差）。然而，对于二分类结局，RR 与优势比（Odds Ratio, OR）是更自然的参数，其推断性质与 ATE 有本质不同（例如，RR 的方差依赖于结局的发生率，且估计量是非线性的 log-link 模型）。
- 本文直接填补了 Birhanu et al. (2011) 留下的缺口：该文虽提出 CAR 下 RR 的问题，但其方差估计方法依赖于特定模型假设且未完整推导渐近分布。本文在 一般性 CAR 程序（涵盖分层区组、最小化法及其变体）下，完整推导了 RR 协方差调整估计量的渐近分布，并据此提出了两种修正标准误的方法（model-based 和 model-robust），从理论上证明了修正后 Wald 检验的渐近有效性。

子线索聚类¶

这些被引文献大致落在三条子线索上：

线索 A：CAR 程序的设计与平衡性质（Pocock & Simon, 1975; Efron, 1971; Hu & Hu, 2012）。关注的是“如何做随机化”，是推断的基础。
线索 B：CAR 下连续型结局（ATE）的推断理论（Bühlmann & van de Geer, 2015; Bugni et al., 2018, 2019; Ye et al., 2022）。这是该领域最成熟、影响力最大的分支，建立了理论框架和技术工具（如从大样本角度，将 CAR 视为在治疗分配中引入了协变量与处理间的相关性，从而修正方差）。
线索 C：CAR 下非连续结局（二分类 / 计数 / 生存）的推断（Birhanu et al., 2011; 本文）。这是相对较新的分支，试图将线索 B 的成果推广到更适合临床实际情况的效应度量（RR, OR, HR）。

这个方向在追问的核心问题¶

推断的保守性：CAR 导致的协变量平衡效应，会如何具体影响标准检验统计量的渐近分布和 Type I error？保守是必然的（方差被低估？还是只是标准误被高估？），其程度如何依赖于 CAR 程序与协变量的解释力？
方差修正方法：对于不同的 estimand（ATE, RR, OR），是否存在统一的方差修正框架？是根植于 模型-辅助（认为模型是对的，但模型内部结构需调整），还是 模型-稳健（使用 sandwich estimator 或回归调整）？
不同 CAR 程序下的统一性：理论上，一个推断方法能否对所有常见的 CAR 程序（如 stratified permuted block, minimization-based procedures）都有效？现有结果（如 Bugni et al.）通常只对一类 CAR 程序严格成立（如 stratified block randomization with fixed blocks），而对更复杂、更随机化的程序（如最小化法）需要额外假设。
估计 vs. 检验：焦点是放在获得一个无偏、高效的估计量（与经典非参数 MLE 的比较），还是放在准确的推断（假设检验和置信区间）？当前的文献（包括本文）主要聚焦于后者——修复检验的 size 和 power，而非效率最优。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么？：作者声称，现有文献 “大大忽略了与 RR 关联的 inferential 问题”，而 RR 是在二分类结局试验中“最广泛使用的效应度量”。因此，他们将本文定位为：在 CAR 下为 RR 推断提供第一个严格、系统、形式化的理论结果。他们特意把举证责任放在了 ATE 结果的“方法型构建”上，说“方法可能直接适用”，但没有说清楚为何 ATE 的方法不能直接套用到 RR（核心原因在于 RR 估计量是 log-link，其方差依赖于均值）。
那些竞争路线被他淡化或回避了？：作者选择了基于 log-binomial 回归模型的视角（covariate-adjusted RR）。他们淡化了直接使用非参数估计量的可能性（即直接使用治疗组与对照组的样本均值比率，然后手动调整标准误）。后者在操作上更简单，但作者认为“在调节协变量效应上不充分”。此外，他们未深入与 Lunceford & Davidian (2004) 等处理 IPTW 或双重稳健方法在 CAR 下的表现进行比较。
什么明显该被引 / 该存在、却没出现在 intro 里？：缺乏对 Efficient Influence Function (EIF) 与 Semi-Parametric Efficiency Bound 的讨论。由于研究者对效率理论（semiparametric efficiency bounds）感兴趣，一个显著的缺失是：在 CAR 试验设定下，RR 的 semiparametric efficiency bound 是否会因为协变量的加入而降低（这与完全随机化和观测研究不同）。作者完全避开了效率理论，只谈论“方差修正”以实现 name-type-I-error，不谈“是否达到半参效率界”。另外，未提及任何与 higher-order U-statistics 或 高维协变量 有关的挑战——后者对于一个统计学家的兴趣而言至关重要。

张力¶

未见明显对立引用。被引工作（如 Bugni et al. 与 Ye et al.）之间的关系是方法论的扩展（从 ATE 到 variance estimation），而非冲突或矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

我们先立一套记号，这是读懂后续所有技术细节的基石。

下标与维度：
- \( i = 1, \dots, n \)：受试者索引（样本量）。
- \( p \)：纳入随机化的协变量个数（如年龄、性别等）。
可观测数据：对每个受试者 \( i \)，我们观察到：
- \( Z_i \in \{0, 1\} \)：处理分配（0 = 对照，1 = 治疗）。这是由 CAR 程序决定的，不是独立的。
- \( X_i \in \mathbb{R}^p \)：基线协变量。假设是独立同分布（i.i.d.）采样自人群分布。
- \( Y_i \in \{0, 1\} \)：二分类结局（0 = 无事件/死亡，1 = 有事件/存活/缓解）。这是 观测到的结局。
潜在结果 & 目标参量（estimand）：
- 我们想估计 相对风险（RR）。在因果推断的潜在结果框架下：
  - \( Y_i(1) \)：若受试者 \( i \) 被分配到治疗组的潜在结局。
  - \( Y_i(0) \)：若受试者 \( i \) 被分配到对照组的潜在结局。
- 我们感兴趣的人群平均 RR：
  \[\text{RR} = \frac{\mathbb{E}[Y(1)]}{\mathbb{E}[Y(0)]}\]
- 关键假设：为了识别这个 RR，我们需要 条件可忽略性（Conditional Ignorability）（在给定协变量下，潜在结果与处理分配独立）和 一致性（Consistency）（观测结局等于分配处理下的潜在结果）。这里，CAR 程序在 \( (X_i, Z_i) \) 层面的设计保证了条件可忽略性（仅强于完全随机化）。
参数模型：本文采用一个 对数二项（log-binomial）回归模型 来刻画 RR：
\[\log \mathbb{E}[Y_i \mid Z_i, X_i] = \beta_0 + \beta_1 Z_i + \gamma^\top X_i\]
- \( \beta_1 \) 是 条件对数 RR（在给定 \(X\) 下）。如果模型是正确设定的，\( \exp(\beta_1) \) 就是人口水平 RR。
- \( \beta_1 \) 是我们要估计和检验的靶子。
- 在这里，\( (\beta_0, \beta_1, \gamma) \) 通过 最大似然估计（MLE） 得到，记作 \( \hat{\beta}_1 \)。
第一步小结：可观测数据是 \( (Y_i, Z_i, X_i)_{i=1}^n \)。我们用 log-binomial 模型的 MLE 来估计 条件对数 RR \( \beta_1 \)，然后进行假设检验 \( H_0: \beta_1 = 0 \)（等价于 \( RR = 1 \)）。

第二步：最小内核¶

为了看清核心困难，我们剥掉所有无关假设，看一个最简单的设定：只有一个协变量 \( X_i \in \{0, 1\} \)（比如，性别：0=女, 1=男）。且假设我们使用极简单的 分层区组随机化（Stratified Permuted Block Randomization）：在每个 X 层内（即女性和男性组内），完全独立地进行区组大小为 2 的随机化（每个区组内恰好 1 个治疗、1 个对照）。

为什么这是最小内核？：这是最简单的非平凡 CAR 设定。它使得治疗分配 \( Z \) 在每一层内是 完美的平衡（50/50）。这使得组间（治疗 vs 对照）的协变量分布 在总体层面是相同的，但因为根据 \( X \) 分层，治疗组和对照组在 \( X \) 上的分布是完全匹配的。

问题还原：在这个最小设定下，传统（未调整的）对数二项模型的 MLE（也就是说，我们依旧拟合模型 \( \log \mathbb{E}[Y|Z] = \beta_0 + \beta_1 Z \)，但是没用 X），估计出的 \( \hat{\beta}_1 \) 的渐近方差会如何被 CAR 程序影响？

标准教科书结果（完全随机化下）：完全随机化下，治疗组与对照组是独立的随机样本。此时，\( \hat{\beta}_1 \) 的渐近方差由一个标准的 “sandwich” 形式给出，其标准误可以直接用 i.i.d. 假设估计。
CAR 下的变化：在分层区组随机化下，由于组内 “治疗/对照” 对是通过区组形成的，治疗组与对照组在给定层内是负相关的（因为一个区组内，一个是治疗，一个是对照）。这种相关性加上分层内的完美匹配，会导致：
1. 传统标准误（假设独立）高估了真实的方差？还是低估？
2. 实际上，因为治疗组和对照组在 X 上的分布相同（由此，结局的潜在分布也相同），相比于完全随机化（允许 X 在组间分布有随机波动），处理组的总体均值 \( \bar{Y}_1 \) 和对照组的 \( \bar{Y}_0 \) 的 协方差是负的（因为有配对/区组效应）。
3. 核心难题：在二分类结局下，这种相关性 + 平衡效应会导致常规的 MLE 标准误高估了真实方差（因为在 CAR 下，组间协方差为负，缩减了差值的方差）。因此，使用常规标准误进行的 Wald 检验会太过保守（Type I error 低于名义水平）。

本文的关键想法：作者不是通过改变随机化程序来解决问题，而是修正标准误的计算，使其正确反映 CAR 所引入的相关性结构。他们推导出在 CAR 下，估计量 \( \hat{\beta}_1 \) 的渐近协方差矩阵除了常规的 “information matrix” 部分外，还多了一项来自组间协变量平衡的修正项（记作 \( \Delta \)）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 CAR 试验的设定下，研究对数二项回归模型下 RR 估计量的渐近性质，并解决常规推断方法过于保守（Type I error 低于名义水平）的问题。
核心工具/方法：基于 M-估计理论（M-estimation theory）推导了 RR 估计量的渐近分布，发现标准误差忽视了 CAR 引入的组间协变量相关性。随后提出了 模型基础校正（model-based adjustment） 和 模型稳健校正（model-robust adjustment） 两种修正标准误的方法。
主要结论：传统 Wald 检验过于保守（Type I error 远低于 0.05）；而本文提出的两种调整方法能够恢复正确的渐近 Type I error，并且模型稳健方法在所有模拟设定下均表现良好，同时不会降低对真实效应的检验效能。

关键设定与假设¶

CAR 程序类：假设 CAR 程序是 “充分随机化的”（strongly regular），即分布 \( \Pr(Z_i = 1 \mid Z_{i-1}, X_i, \dots, X_1) \) 收敛到一个稳定极限。这排除了完全确定性的分配。实际上涵盖了分层区组随机化（带随机区组大小）、最小化法 等主流方法。
模型：
\[\log \frac{\mathbb{E}[Y_i \mid Z_i, X_i]}{1 - \mathbb{E}[Y_i \mid Z_i, X_i]} = \beta_0 + \beta_1 Z_i + \gamma^\top X_i\]
这是一个标准的对数二项回归模型（或 logistic 回归模型，但本文聚焦于对数二项模型，因为 logit 模型处理的是 Odds Ratio，而非 RR）。假设模型是正确设定的（来自 Birhanu et al. 2011 的假设）。
主要假设：
1. 平稳性：CAR 程序使得处理分配 \( Z_i \) 与协变量 \( X_i \) 的边际分布是稳健的，但存在序列依赖。
2. 非退化模型：潜在结果的对数均值在可观测数据范围内有定义（\( \mathbb{E}[Y|Z,X] \) 不接近 0 或 1）。
3. 正则性：与 M-估计所需的常规正则条件（如 score function 的可微性、期望 Hessian 的可逆性）。
与已有文献的比对：
- 相比 Bugni et al. (2018)（重点在 ATE 下的均值差），本文将推论逻辑扩展到了 广义线性模型的参数（对数RR）。
- 相比 Birhanu et al. (2011)（给出了方差估计但不完整），本文给出了完整的渐近方差公式，并讨论了如何修正标准误差。

主要结果¶

定理 1（渐近正态性）：
- 陈述：在正则条件下，\( \sqrt{n}(\hat{\beta}_1 - \beta_1) \rightsquigarrow N(0, V_{\text{CAR}}) \)。其中 \( V_{\text{CAR}} \) 的表达式为：
  \[V_{\text{CAR}} = V_{\text{naive}} - \Gamma\]
- 直觉：\( V_{\text{naive}} \) 是 naive 的标准误（假设处理分配是 i.i.d. 完全随机化）。\( -\Gamma \) 是 CAR 导致的方差缩小项。这是因为组间协变量平衡（通过区组或最小化法）引入了负的组间协方差，从而降低了估计量的方差。如果使用 naive 标准误（即 \( V_{\text{naive}} \)），我们会高估真实方差（因为忽略了 \( -\Gamma \)），导致检验保守。
- 必要条件：CAR 程序要满足 “强正则” 条件，以保证 \( \Gamma \) 存在且为正定。
- 解决的技术难点：证明估计量的渐近方差中，处理分配与协变量之间的长期相关性（long-run correlation）可以分解为一个简洁的期望项 \( \Gamma = \text{Var}[\mathbb{E}[S(\theta_0)|Z_i,X_i]] \)，其中 S 是 score function。这需要结合 M-估计理论和条件协方差公式。
定理 2 和 3（方差调整）：
- 方法：
  1. Model-based Adjustment：直接根据 CAR 的已知中心随机化性质（例如，知道每个协变量 Z 和 X 之间的渐近相关系数 = -1/对称区组），显式地 \( \Gamma \) 估计出来，然后计算 \( \hat{V}_{\text{adjusted}} = \hat{V}_{\text{naive}} - \hat{\Gamma} \)。该方法需要知道 CAR 程序的具体结构。
  2. Model-robust Adjustment：使用 Huber-White sandwich estimator 的修正版本。具体地，直接估计样本的协方差结构，而不指定解析解。标准误差计算为：
    \[\widehat{\text{Var}}_{\text{robust}}(\hat{\beta}_1) = n^{-1} \hat{I}^{-1} \hat{\Omega}_{\text{CAR}} \hat{I}^{-1}\]
    其中 \( \hat{\Omega}_{\text{CAR}} \) 是经 CAR 序列相关性修正后的矩阵。
- 结论：两种调整方法都证明了渐近有效性（Type I error → 0.05）。模型稳健方法在 misspecification 下比模型基础方法更鲁棒。

证明路线与技术技巧¶

整体路线（3-5步）：
1. 用 M-估计框架写估计量：将 \( \hat{\beta}_1 \) 看作使 “工作分数方程” \( \sum_i W_i(\beta) = 0 \) 的解，其中 \( W_i(\beta) = X_i(Y_i - \mu_i(\beta)) \)，\( \mu_i(\beta) = \text{logit}^{-1}(\tilde{\beta}^\top X_i) \)。
2. 分解估计方程：\( \sum_i W_i(\beta_0) \) 可以分解为 uncertainty 项（来自 \( Y_i \) 的贝努利噪声）与 组间协变量平衡项（来自 CAR 程序导致的 \( X_i Z_i \) 相关性）。
3. 计算渐近方差：在 CAR 下，\( \sum_i W_i(\beta_0) / \sqrt{n} \) 的方差渐近为 \( \Omega_{\text{naive}} - \Gamma \)。关键一步是证明 \( \Gamma = \lim_n n^{-1} \sum_{i,j} \text{Cov}(Z_i, Z_j) \mathbb{E}[\text{score contribution from } X_i, Y_i] \)。由于 CAR 导致 \( \text{Cov}(Z_i, Z_j) < 0 \)（因为强随机化），这一项为零负，导致了方差减小。
4. 构造调整后的标准误：证明 \( \hat{V}_{\text{naive}} \rightarrow \) true variance + 2 * \( \Gamma \)等等，所以可以通过从 naive 估计量中减去 \( \hat{\Gamma} \) 得到修正的方差。
关键跳跃点：
- 最吃力的引理：引理 1（关于 CAR 的长期相关性）。要证明，虽然 \( Z_i \) 是序列相关的，但被协变量 \( X \) 调节后，其相关性结构可以用一个简单的克莱姆矩阵（Cramer-type structure）近似。作者引用了 Bugni et al. (2018) 中的一个引理，来证明对于大多数 CAR 程序，\( \text{E}[Z_i|X_i] \) 的渐近方差可以显式计算。
- 难点卡在哪：如何在不假设具体 CAR 程序的情况下，统一描述组间协方差结构？作者使用了 “平稳条件” 和 “鞅差” 分解来处理 \( Z_i \) 与 \( X_i \) 之间的动态依赖。
- 如何绕过去：他们没有直接处理一个单一的生成机制，而是假设 CAR 程序的条件分配概率趋于一个固定函数 \( \pi(X) \)（通常趋近于 1/2），然后证明在这个限制下，所有程序都共享相同的调整项结构（这与 Bugni et al. 的结论一致）。
技术技巧点名：
- M-估计理论：主要用于建立 \( \hat{\beta}_1 \) 的渐近正态性和推导其渐近方差。
- 鞅差序列（Martingale Difference Sequences）：用于处理 CAR 下 \( Z_i \) 的序列依赖性，将其分解为鞅差序列和在给定 \( X_i \) 下的条件变异。
- Lindberg-Feller CLT 的修正：用于证明调整后的 Wald 统计量的渐近有效性。

真实例子与应用¶

本文提供了 大规模模拟实验，但未使用真实临床试验数据。这是纯理论性论文，作者在数值部分系统地展示了：

数据/场景：模拟一个包含 2-4 个分层协变量（如 Age（3层）, Gender（2层））的二分类结局试验。CAR 程序使用了分层区组随机化和最小化法（Pocock & Simon 法）。
方法实施：模拟了四种方法：(i) 不用协变量调整的 naive RR 估计, (ii) 模型基础调整的 RR 估计, (iii) 模型稳健调整的 RR 估计, (iv) 一个备选方法（如无 CAR 修正的 Sandwich）。比较它们的 Type I error 和 Power。
结果：
- Type I error：Naive 估计量的 Type I error 极低（如 0.03），验证了 “保守性” 的结论。模型稳健调整使其恢复到名义水平（0.048-0.052）。
- Power：模型稳健调整的方法与 naive 方法相比，power 显著提升（如从 50% 提升至 70%）。模型基础调整在程序被正确指定时（分层区组随机化）表现良好，但在最小化法下（一个更复杂、随机化更强的程序）有轻微偏差。
这个例子想说明什么：第一，验证了 定理1 中 naive 方法保守性的预测。第二，证明了 模型稳健方法 是更安全、更普适的选择，因为它对 CAR 程序的细节不敏感，对模型设定也不敏感（稳健）。

🔎 结论是否比证明窄？¶

是的，存在一个明显的宽度差距：

模型设定假设：整个理论建立在 log-binomial 模型是正确设定的基础上。文中的结论只覆盖了 “模型正确” 的情况。在 “模型错误” 但依旧使用 log-binomial 模型作为工作模型时，虽然有 “model-robust” 的标签，但它的正确性依赖的是该工作模型得出的 \( \hat{\beta}_1 \) 仍能收敛到某个伪真值（Pseudo-true value）。这是一个重要的窄化假设。作者在 Section 5 “讨论” 中承认了这一点，指出 “在模型错误设定下的理论性质需要进一步研究”。
CAR 程序的范围：虽然在理论上声称适用于“广泛类别的 CAR”，但模拟实验仅测试了分层区组和最小化法。对于更复杂的、带有倾向性权重的 CAR 程序（如方差最小化程序），其调整项的结构是否相同，是未被严格证明的，只是暗示了相似性。
缺失的效率理论：本文完全没有讨论 semiparametric efficiency bound。它只说“我们的调整标准误是渐近正确的”，但没有说“它是否达到了最优可达到的方差（efficient bound）”。考虑到作者在引文中提到了 Ye et al. (2022) 的模型稳健方法，而后者在 ATE 下的效率理论是已知的，作者回避了对 RR 的效率界的讨论，这实际上暗示了 本文的结果可能并未达到半参效率界，只是一种 “有效但非最优” 的修正。

四、开放问题¶

半参数效率界：在 CAR 试验设定下，对于 RR，其 semiparametric efficiency bound 是多少？本文的 model-robust 估计量是否达到此界？如果不，如何构建一个达到最优效率的估计量？（扎根于：Section 5 未讨论的 efficiency theory 与 引言中缺失相关引用）
模型错误设定下的推断：当 log-binomial 模型是错误指定的，但依旧作为工作模型使用时，本文的模型稳健调整的 Type I error 是否仍然渐近正确？这涉及对伪真值的渐近方差推导。（扎根于：Section 5, “Under model misspecification…”）
高维协变量与稀疏性：当 \( p \gg n \)（协变量维度高于样本量）时，在 CAR 试验下，RR 的估计与推断如何可行？能使用如 Lasso 在 CAR 下的修正理论吗？这直接连接了研究者对高维统计的兴趣。（扎根于：仅考虑低维 p 的设定）
非二元与有序结局：研究仅限 \( Y \in \{0,1\} \)。向多元、有序或计数结局（如泊松回归）的扩展，尤其是在 CAR 下如何调整标准误，是自然延伸。（扎根于：模型被限制为 log-binomial）

Maintained by 陈星宇 · Homepage · Source on GitHub