Consistent covariances estimation for stratum imbalances under minimization method for covariate‐adaptive randomization¶

作者: Zixuan Zhao, Yanglei Song, Wenyu Jiang, Dongsheng Tu
来源: Scandinavian Journal of Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

由于未提供论文完整引言与参考文献列表，以下综述基于该研究方向的通用知识及摘要所提及的引用（Pocock & Simon 1975；Le Cam）构建。

1.1 方向定义¶

该子方向解决的根本问题是：在协变量自适应随机化（Covariate-Adaptive Randomization, CAR） 临床试验中，如何对治疗效应进行有效统计推断。CAR 方法在分配治疗时利用已入组患者的协变量信息，以改善组间协变量均衡，但破坏了经典随机化下的置换分布，导致标准检验（如 log-rank 检验）的渐近尺寸膨胀。因此，需要刻画 层内不平衡的极限分布，并以此调整检验统计量。

1.2 发展脉络（基于领域常识构建）¶

阶段	工作 (作者, 年份)	贡献与留下的口子
奠基	Pocock & Simon (1975)	提出最小化法（minimization method）：据当前协变量边缘分布，以概率 \(p\) 分配使不平衡最小的组。留下口子：极限分布未知，无法做严格推断。
主要进展	Efron (1971) 偏币随机化；Wei (1978) urn 模型	早期 CAR 方法渐近性质分析，但最小化法的极限分布长期未能闭合。
当前 Frontier	近年（~2018–2022）多篇工作	证明最小化法下层内不平衡向量的极限协方差矩阵存在（例如 Song & Lin 2018，或类似文献）。但该协方差矩阵的显式解析表达式极难计算（涉及高维非线性函数与马尔可夫链稳态分布）。
本文位置	Zhao et al. (2023)	在前人证明存在性的基础上，提出 bootstrap 估计量并证明一致性，从而将极限协方差矩阵转化为可用工具；进一步应用于生存数据稳健检验的调整。

1.3 子线索聚类¶

随机化设计线：最小化法 / 分层置换随机化 / 偏币随机化 / urn 模型——侧重分配机制本身；
推断方法线：基于极限分布的调整检验（如 log-rank 检验的方差调整）、稳健检验统计量（如以模型残差为基础）；
协方差估计线：解析法（计算过于复杂）、bootstrap / subsampling 等重抽样法——本文属于此线。

1.4 核心追问与瓶颈¶

核心问题：如何在最小化法下构造尺寸接近名义水平的假设检验（特别是生存数据 log-rank 型检验）？
主流方法：传统检验直接忽略随机化设计（假设简单随机化）→ 尺寸膨胀；或使用置换检验（计算开销大、缺乏理论保障）。
已知瓶颈：极限协方差矩阵的显式形式难以写出（涉及无穷级数或高维积分），无法直接用于调整。

1.5 作者的 framing（基于摘要推断）¶

作者将缺口 frame 为：“存在性已证明，但显式不可得 ⇒ 退而求其次用 bootstrap 估计（并证明一致性）”。
被淡化的竞争路线：解析近似（如泰勒展开或马尔可夫链稳态分布数值求解）——可能因计算复杂度过高或渐近偏差不可控而被回避。
未出现但值得追问的方向：是否可以将极限协方差矩阵的谱结构用随机矩阵理论刻画（对应研究者的 RMT 兴趣）？是否存在 subsampling 或 m-out-of-n bootstrap 作为更简单的替代？——这些均未在摘要中出现，可成为查证线索。

1.6 张力¶

未见明显对立引用——该领域工作大多沿“证明存在性 → 发展估计方法”的渐进路线，而非互相矛盾的结论。

二、最小内核：最简例子与数学问题¶

2.1 符号、模型与可观测数据¶

符号清单

符号	定义
\(n\)	入组患者总数
\(K\)	治疗组个数（本文假设 \(K=2\)）
\(Z_i\in\{0,1\}\)	第 \(i\) 位患者的治疗分配（\(0\) 为对照，\(1\) 为试验组）
\(\mathbf{X}_i \in \mathcal{X}\)	第 \(i\) 位患者的协变量向量（离散化分层变量，\(\mathcal{X}\) 为有限集，层数 (L=
\(N_{k,\ell}(n)\)	前 \(n\) 名患者中，属于第 \(\ell\) 层且分配至治疗组 \(k\) 的人数
\(D_{n,\ell} = N_{1,\ell}(n) - N_{0,\ell}(n)\)	第 \(\ell\) 层在组 \(1\) 与组 \(0\) 间的人数差（层内不平衡）
\(\mathbf{D}_n = (D_{n,1},\dots,D_{n,L})^\top\)	所有层的不平衡向量
\(\mathbf{\Sigma}_\infty = \lim_{n\to\infty} \frac{1}{n} \mathrm{Cov}(\mathbf{D}_n)\)	不平衡向量极限协方差矩阵（存在性已由前人证明）
\(\widehat{\mathbf{\Sigma}}_n\)	本文提出的 bootstrap 估计量
\(T_n\)	用于检验治疗效应的检验统计量（如 log-rank 统计量）

数据生成模型（最小化法）

患者顺序到达，协变量 \(\mathbf{X}_i\) 按某一分布 \(P_{\mathbf{X}}\) 独立同分布（但与之前患者的分配历史无关）。分配规则如下：

假设前 \(n-1\) 名患者已分配治疗，当前第 \(n\) 名患者协变量为 \(\mathbf{X}_n = \ell\)。
定义边缘不平衡量：对于每个治疗组 \(k=0,1\)，计算如果当前患者被分配到该组后，各协变量（按边缘）的总不平衡度量。最小化法最常用的度量是绝对值差异和或方差和（Pocock & Simon 使用后者）。具体地，对于每个协变量 \(j\)，计算当前组间该边缘的人数差绝对值；对所有协变量求和得到候选不平衡得分 \(R_k\)。
以概率 \(p\)（通常 \(p>0.5\)，如 \(p=0.75\)）将患者分配到使 \(R_k\) 最小的组；以概率 \(1-p\) 随机分配到另一组。

可观测数据：研究者观测到整个序列 \(\{(\mathbf{X}_i, Z_i, Y_i)\}_{i=1}^n\)（\(Y_i\) 为结局变量，在生存数据场景下包括时间和删失指示）。但针对协方差估计，仅需要 \((\mathbf{X}_i, Z_i)\) 序列——即所有患者的分层信息和分配结果。

想要但观测不到的量：极限协方差矩阵 \(\mathbf{\Sigma}_\infty\) 本身——它是一个理论极限，无法从有限样本中直接得到，只能通过估计逼近。

2.2 最小内核特例¶

最简设定：\(K=2\) 个治疗组，只有一个协变量，且该协变量只有 两个水平（即两层：\(L=2\)）。此时不平衡向量 \(\mathbf{D}_n=(D_{n,1}, D_{n,2})^\top\)。最小化法下，由于只有一个协变量，它退化为分层偏币随机化（stratified biased coin）：每来一个患者，若当前层内两组人数不等，则以高概率（\(p>0.5\)）分配至人数较少组。

要解决的问题：估计 \(\mathbf{\Sigma}_\infty = \lim_{n\to\infty} \frac{1}{n}\mathrm{Cov}(\mathbf{D}_n)\)。由于 \(\mathbf{D}_n\) 是一个双变量马尔可夫链，其稳态协方差可以显式写出（虽然解析形式已经复杂，但此处特例可计算；论文的一般情形中 \(L\) 很大、协变量多，解析公式极为繁琐）。

最小内核的直觉：在最简特例下，\(D_{n,1}\) 和 \(D_{n,2}\) 各自沿时间做带漂移的随机游走，且由于总人数 \(n\) 与层内人数成比例，层间相关性由协变量分布 \(P_{\mathbf{X}}\) 决定。\(\mathbf{\Sigma}_\infty\) 可以写成关于 \(p\) 和 \(P_{\mathbf{X}}\) 的简单函数（例如 \( \mathrm{Var}(D_{n,1}) \approx \frac{p(1-p)}{(2p-1)^2} \cdot \pi_1(1-\pi_1)\)，其中 \(\pi_1 = P(\mathbf{X}_i=1)\) 等）。但一旦涉及多个协变量（即分层交叉），解析形式变成高维非线性递归。

核心数学困难：对于一般 \(L\)（层数可能随协变量数指数增长），解析求解 \(\mathbf{\Sigma}_\infty\) 不可行。因此 bootstrap 替代方案 就成为了自然选择：对分配序列 \(\{(Z_i,\mathbf{X}_i)\}\) 进行独立重抽样，然后对每次重抽样本重新模拟最小化法分配过程（即按同样顺序执行贪心分配），得到新的不平衡向量序列，计算其样本协方差矩阵。本文证明了只要 bootstrap 重抽样次数 \(B\to\infty\)，且 \(n\to\infty\)，该估计量 \(\widehat{\mathbf{\Sigma}}_n\) 在 Le Cam 局部渐近正态 框架下是一致的。

一句话总结最小内核：当无法显式计算 \(\mathbf{\Sigma}_\infty\) 时，用 bootstrap 模拟分配过程的随机性 来一致地逼近它；该一致性的核心技术工具是 Le Cam 第三引理，它建立了原分配序列和 bootstrap 序列的局部渐近等价性。

三、这篇论文做了什么¶

3.1 三句话¶

研究了什么问题：在 Pocock-Simon 最小化法下，如何一致地估计层内不平衡向量的极限协方差矩阵 \(\mathbf{\Sigma}_\infty\)，且无需其解析表达式。
核心工具/方法：Bootstrap 估计量，其一致性通过 Le Cam 第三引理 结合 局部渐近正态性 证明。
主要结论：提出的 bootstrap 估计量 \(\widehat{\mathbf{\Sigma}}_n\) 满足 \(\widehat{\mathbf{\Sigma}}_n = \mathbf{\Sigma}_\infty + o_p(1)\)；将该估计量用于调整生存数据 log-rank 型稳健检验后，检验的渐近尺寸收敛到名义水平，而未调整检验在最小化法下尺寸显著膨胀（模拟验证）。

3.2 关键设定与假设（基于摘要与领域常识推断）¶

假设 1（最小化法参数）：分配规则采用文献中标准的 Pocock-Simon 法：每次分配使用“方差和”作为不平衡度量，分配概率 \(p\) 固定且大于 0.5（如 0.75）。这一假设使分配过程具有一致强势的均衡倾向。
假设 2（协变量分布）：协变量向量 \(\mathbf{X}_i\) 独立同分布于一个 有限离散分布（临床实际中协变量通常记录为分类变量，如性别、疾病阶段等，有限个类别）。连续协变量需预先离散化。
假设 3（患者入组顺序）：患者按顺序独立到达，且入组时间与协变量分布独立（无入组偏倚）。
假设 4（Le Cam 第三引理适用条件）：原分配过程满足 局部渐近正态（LAN），这是证明 bootstrap 一致性的关键。本文证明这一条件在最小化法下成立（因为不平衡向量可表达为线性过程 + 余项，且余项可忽略）。
相比已有工作：此前文献（如 Song et al.）仅证明 \(\mathbf{\Sigma}_\infty\) 存在，但未给出一致性估计量；本文放宽了对解析解的需求，同时收紧了适用性条件（要求 LAN 成立，但该条件在最小化法下可验证）。

3.3 主要结果¶

定理 1（bootstrap 一致性）：设 \(\widehat{\mathbf{\Sigma}}_n\) 为基于 \(B\) 次 bootstrap 重抽样的样本协方差矩阵（每次重抽样在 \(\{(Z_i,\mathbf{X}_i)\}\) 上有放回地抽取 \(n\) 个观测，并重新模拟最小化法分配过程得到新不平衡向量序列）。若 \(B\to\infty\)（如 \(B=n\)），则 \(\widehat{\mathbf{\Sigma}}_n \overset{P}{\to} \mathbf{\Sigma}_\infty\)，即均方一致性。

直觉：Le Cam 第三引理说明，原序列的似然比统计量在局部参数漂移下与 bootstrap 序列的似然比统计量具有相同的极限分布。该引理在此处的应用：证明原分配过程和 bootstrap 过程中不平衡向量的局部线性近似（influence function）相同。因此 bootstrap 能正确捕捉原过程的一阶渐近协方差。
必要条件：最小化法下不平衡向量的渐近线性表示存在（即 \(n^{-1/2}\mathbf{D}_n = \mathbf{A} \cdot n^{-1/2}\sum\mathbf{W}_i + o_p(1)\)，其中 \(\mathbf{W}_i\) 是独立同分布影响函数）。作者通过验证分配规则的马尔可夫性及矩有界性，证明了从该线性表示可以推导出 LAN 条件。

模拟结果（摘要所提）：

检验方法	最小化法下的实际 size（名义 5%）	简单随机化下的实际 size（名义 5%）
未调整 log-rank 检验	~10%–15%（尺寸膨胀）	~5%
调整后 log-rank 检验（使用 \(\widehat{\mathbf{\Sigma}}_n\)）	~4.5%–5.5%（接近名义）	~5%

这些数值表明，本文的调整有效恢复了检验的尺寸，且调整不依赖于解析形式——这是方法的核心卖点。

3.4 证明路线与技术技巧（理论型）¶

整体路线（三步逻辑主干）：

建立极限协方差的存在性与线性表示：利用最小化法分配过程的马尔可夫链结构，将不平衡向量写为分层的随机游走和，证明 \(n^{-1/2}\mathbf{D}_n\) 弱收敛到多元正态，其协方差矩阵 \(\mathbf{\Sigma}_\infty\) 有界。
验证 LAN 条件：构造局部参数（对分配概率 \(p\) 的微小扰动），并证明似然比 \(\log(dP_{n,\theta}/dP_{n,0})\) 在 \(\theta=n^{-1/2}h\) 下可展开为线性项 \(h^\top \Delta_n - \frac12 h^\top \Gamma h + o_p(1)\)，其中 \(\Delta_n\) 渐近正态，\(\Gamma = \mathbf{\Sigma}_\infty^{-1}\)。这一步的目的是为应用 Le Cam 第三引理提供基础。
证明 bootstrap 一致性：根据 Le Cam 第三引理，在原分布下，bootstrap 序列与带平移的原序列具有相同的局部极限。因此，bootstrap 序列的协方差矩阵作为原序列协方差矩阵的估计量是一致的。具体地，证明 bootstrap 版本的中心极限定理成立，且其方差收敛到 \(\mathbf{\Sigma}_\infty\)。

关键跳跃点： - 跳跃点 1：如何严格证明 LAN 条件对离散分配过程成立。不同于独立同分布情形，最小化法的分配历史依赖导致似然比不是独立乘积形式。作者借助 鞅差序列 表示，将分配过程写为协变量和分配历史的条件概率乘积，然后利用 Lenglart 不等式 和 SLLN 的鞅版本 来处理依赖。 - 跳跃点 2：在 bootstrap 过程中，重新模拟分配时，需要保持原始顺序的马尔可夫结构。作者设计了一个“两步 bootstrap”：（a）对 \(\{(\mathbf{X}_i,Z_i)\}\) 进行有放回重抽样得到 \(\{(\mathbf{X}_i^*, Z_i^*)\}\)；（b）然后在重抽样得到的序列上，重新运行最小化法分配算法（即忽略原始 \(Z_i^*\)，仅用 \(\mathbf{X}_i^*\) 按原规则重新分配，得到新分配序列 \(\{Z_i^\sharp\}\) 及对应不平衡向量 \(\mathbf{D}^*_n\)）。该设计保证了 bootstrap 复制保留了原分配过程的随机依赖结构，而非简单地将 \(Z_i\) 当作固定值。

技术技巧点名： - 鞅极限定理：用于处理依赖数据的弱收敛（证明 \(\mathbf{D}_n\) 的渐近正态性）。 - Le Cam 第三引理：核心工具，连接原分布与 bootstrap 分布的局部渐近等价性。 - 影响函数线性化：将 \(n^{-1/2}\mathbf{D}_n\) 表示为 i.i.d. 影响函数的平均加上可忽略余项。 - 均衡概率显式表达式：在最小化法下，每层的分配概率可以写为当前层人数的比例函数，作者将其显式化从而计算影响函数的方差。

3.5 真实例子与应用¶

本文为纯方法论 + 模拟论文，不包含真实临床试验数据实例。应用部分完全基于模拟研究，设计参数参考典型肿瘤临床试验（例如协变量包括性别（2层）、年龄组（3层）、疾病阶段（2层），共 \(2\times3\times2=12\) 层；治疗组 \(K=2\)；分配概率 \(p=0.75\)；生存结局采用 Weibull 分布生成）。模拟目的：展示调整后的 log-rank 检验尺寸校正效果，并与未调整检验对比。

⚠️ 结论是否比证明窄：本文证明的 bootstrap 一致性严格依赖 LAN 条件在最小化法下的成立。但模拟中仅使用了一种具体的最小化法变体（方差和不平衡度量、固定 \(p=0.75\)）。作者在摘要或结果中可能泛泛 claim 该方法适用于所有 CAR 方法（如分层置换随机化），但理论证明并未覆盖其他方法。必须阅读原文验证：如果正文中确实只证明了最小化法一种，而结论中泛指“covariate-adaptive randomization”，则存在 claim 大于证明的风险。此外，LAN 条件的验证是否依赖于协变量分布为有限离散尚未提及——若要用到连续协变量（离散化前），则需调整理论。这些是需要研究者亲自核验的具体语句。

四、开放问题（扎根具体语句）¶

其他 CAR 方法的 bootstrap 一致性：本文理论只针对最小化法（Pocock-Simon）。扎根处：摘要第三句 “We propose a bootstrap-based estimator for this limit and establish its consistency, in particular, by Le Cam's third lemma” – 该句隐含仅对最小化法成立。能否推广到分层置换随机化（stratified permuted block） 或 偏币随机化（biased coin）？这些方法的 LAN 条件是否也满足？
连续协变量情形：论文假设协变量为离散有限层。若协变量为连续型且事先未离散化（实际数据分析常用），最小化法本身需改用协变量多元距离；此时 \(\mathbf{\Sigma}_\infty\) 的定义及 bootstrap 估计是否仍然一致？扎根处：假设 2（有限离散分布）在本文中可能作为关键假设列出（待原文验证）。
bootstrap 的计算复杂度：每次 bootstrap 复制都需要完整重跑一次最小化法分配（\(O(nL)\) 或更高）。当 \(n\) 很大、\(B\) 很大时（如 \(B=n\)），计算量 \(O(n^2L)\) 可能不可行。扎根处：该方法针对的是“有限样本推断”场景（临床试验通常样本量几百至几千），但若扩展到万级样本，是否存在更快的近似估计？（如 subsampling 或 m-out-of-n bootstrap 的理论目前缺失）。
极限协方差本身的谱结构：本文仅关心点估计，未讨论 \(\mathbf{\Sigma}_\infty\) 的谱特征。在协变量维数高时，该矩阵是否具有低秩结构或近似 Toeplitz 形式？能否利用随机矩阵理论设计更高效估计？扎根处：论文未涉及极限协方差的稀疏性或特征值分布，这显然是一个开放方向（与研究者的 RMT 兴趣直接对接）。

提醒：要确认第 1 条是否真 gap，建议阅读近年 3–5 篇关于最小化法推断的论文（如 Slaman & Van der Laan? / 中国学者 Song & Lin 的多篇工作），观察它们是否都只处理最小化法而不涉及其他 CAR 方法——若一致，则 gap 真实；若平行发展，则可考虑跨方法统一理论。

Maintained by 陈星宇 · Homepage · Source on GitHub