Behavioral carry-over effect and power consideration in crossover trials¶

作者: Danni Shi, Ting Ye
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向关注的是交叉试验在存在遗留效应时的统计推断与设计选择问题。具体而言，当处理效应估计量因遗留效应而产生偏差时，假设检验的性质（第一类错误率与功效）如何变化，以及研究者应如何在交叉设计与平行组设计之间做出决策。当前该领域在生物统计与临床试验方法论中已相当成熟，但在潜在结果框架下对行为性遗留效应的系统分析仍处于起步阶段。

发展脉络：交叉设计作为经典方法，其核心难题始终是遗留效应的处理。作者在 introduction 中勾勒了如下线索：

奠基与经典观点：Senn (2002) 与 Araujo et al. (2016) 等工作确立了交叉设计的经典分析框架，核心是"洗脱期"概念——通过被动或主动洗脱来消除生物性遗留。作者引用指出："The washout can be passive... or active"（引用句 5），这代表了传统应对策略：设计层面解决。
遗留效应的不可消除性：随着比较效果研究（CER）的兴起，Hemming et al. (2020) 指出交叉设计在 CER 中有广泛应用，但遗留效应成为突出顾虑。作者引用 Diener et al. (2019) 指出，在某些场景下，"the opportunity to try multiple treatments in one study can make the crossover design more appealing"，但遗留效应的风险始终存在。这代表了应用层面的张力。
协变量调整的进展：在随机化试验的推断方面，Lin (2013)、Tsiatis et al. (2008)、Ye et al. (2020, 2022, 2023b) 建立了基于设计视角的协变量调整理论，证明了 ANHECOVA 方法可以在模型误设下仍保证效率提升。作者引用强调："covariate adjustment using an analysis of heterogeneous covariance (ANHECOVA) working model... can lead to guaranteed efficiency gain regardless of the model is misspecified or not"（引用句 2, 9, 13）。这是方法论的准备。
本文的位置：作者将本文定位为首次在潜在结果框架下系统分析行为性遗留效应的工作。与经典文献关注生物性遗留不同，本文聚焦于"behavioral carry-over effect"，并明确指出在如 MTN-034/REACH 这类开放标签交叉试验中，洗脱期可能无法消除行为性遗留。

子线索聚类：被引文献可归为三条子线索： - 交叉设计方法论：Senn (2002)、Araujo et al. (2016)、Hemming et al. (2020)——关注设计选择、洗脱策略与推断框架。 - 协变量调整理论：Lin (2013)、Tsiatis et al. (2008)、Ye et al. (2020, 2022, 2023b)、Zhao & Ding (2022)——关注随机化试验中的效率提升与稳健推断。 - HIV 预防与 REACH 研究：Celum et al. (2019)、Nair et al. (2023)、Minnis et al. (2018)——提供应用背景与真实数据。

核心追问： 1. 当遗留效应存在且无法通过洗脱期消除时，标准估计量的偏差如何影响假设检验？ 2. 在何种条件下，交叉设计仍然优于平行组设计？ 3. 如何通过协变量调整来弥补遗留效应带来的功效损失？

⚠️ 作者的 framing：作者将缺口 frame 为：现有文献主要关注生物性遗留效应，而行为性遗留效应（如产品偏好、使用习惯改变）在开放标签交叉试验中普遍存在却缺乏理论分析。作者强调："the carry-over effect remains an outstanding concern when a washout period is unethical or cannot sufficiently diminish the impact of the carry-over effect. The latter can occur in comparative effectiveness research, where the carry-over effect is often non-biological but behavioral."

被淡化或回避的竞争路线： - 作者未讨论贝叶斯方法处理遗留效应的路线。 - 未讨论序贯设计（sequential design）作为替代方案的可能性。 - 对于模型假设检验（如 Grizzle 检验）来检测遗留效应的经典路线，作者在 introduction 中未提及，这可能是值得研究者去查的缺口。

明显该被引却未出现的文献： - Grizzle (1965) 关于两阶段交叉设计分析的经典工作，该工作提出了检测遗留效应的标准方法。 - Freeman (1989) 关于"pre-testing"问题的工作——如果先检验遗留效应再决定用何种分析，会引入偏倚。

张力：未见明显对立引用。被引文献之间更多是互补关系：经典交叉设计文献提供框架，协变量调整文献提供工具，HIV 预防文献提供应用场景。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

符号定义： - \(N\)：总样本量。 - \(i = 1, \ldots, N\)：个体索引。 - \(A_i \in \{0, 1\}\)：处理分配变量。\(A_i = 1\) 表示个体 \(i\) 被分配到序列 1（先处理 D 后处理 T），\(A_i = 0\) 表示序列 2（先处理 T 后处理 D）。 - \(k \in \{1, 2\}\)：时期索引。 - \(Y_{i,k}^{\text{obs}}\)：个体 \(i\) 在时期 \(k\) 的观测结果。 - \(Y_i(a, k)\)：个体 \(i\) 在处理 \(a\)、时期 \(k\) 的潜在结果。这是因果推断的核心对象——我们想知道如果个体 \(i\) 在时期 \(k\) 接受处理 \(a\)，其结果会是什么。 - \(\tau\)：平均处理效应，定义为 \(\tau = E[Y_i(1, k) - Y_i(0, k)]\)。注意：在标准假设下，这个量在两个时期是相同的。 - \(\lambda\)：遗留效应参数。定义为 \(\lambda = E[Y_i(a, 2) - Y_i(a, 1)]\)，即同一处理在时期 2 与时期 1 的潜在结果之差的期望。这捕捉了时期效应与遗留效应的混合。

模型（数据生成机制）：考虑最简单的两阶段、两处理交叉设计： - 个体被随机分配到两个序列之一。 - 序列 1（\(A_i = 1\)）：时期 1 接受处理 D，时期 2 接受处理 T。 - 序列 2（\(A_i = 0\)）：时期 1 接受处理 T，时期 2 接受处理 D。

潜在结果框架下的关键假设： 1. 一致性：观测结果等于对应处理分配下的潜在结果。 2. 无遗留效应（标准假设）：\(Y_i(a, 2) = Y_i(a, 1)\)，即同一处理在两个时期的潜在结果相同。 3. 可忽略性：处理分配独立于潜在结果（由随机化保证）。

可观测数据：研究者实际能观测到的是： - 处理分配 \(A_i\)（由随机化决定）。 - 每个个体在两个时期的观测结果 \((Y_{i,1}^{\text{obs}}, Y_{i,2}^{\text{obs}})\)。 - 基线协变量 \(X_i\)（用于协变量调整）。

不可观测的潜在量： - 反事实结果：对于序列 1 的个体，我们观测到 \(Y_i(D, 1)\) 和 \(Y_i(T, 2)\)，但永远观测不到 \(Y_i(T, 1)\) 和 \(Y_i(D, 2)\)。 - 遗留效应的真实大小：无法直接观测，只能通过模型假设和识别策略来推断。

第二步：最小内核

最简特例：两阶段交叉设计中的基本估计量与符号条件

考虑 \(N\) 个个体，随机等分到两个序列。定义基本估计量：

\[\hat{\tau}_{\text{basic}} = \frac{1}{N/2} \sum_{i: A_i = 1} (Y_{i,2}^{\text{obs}} - Y_{i,1}^{\text{obs}}) - \frac{1}{N/2} \sum_{i: A_i = 0} (Y_{i,2}^{\text{obs}} - Y_{i,1}^{\text{obs}})\]

这个估计量的直觉是：计算每个个体在两个时期的差值，然后比较两个序列的平均差值。

在无遗留效应假设下：可以证明 \(\hat{\tau}_{\text{basic}}\) 是 \(\tau\) 的无偏估计量。这是经典交叉设计的核心优势——通过"个体内比较"消除个体异质性，提高效率。

当存在遗留效应时：作者引入关键假设——符号条件：

\[\text{sign}(\lambda_D) = \text{sign}(\lambda_T)\]

其中 \(\lambda_D\) 和 \(\lambda_T\) 分别是处理 D 和处理 T 的遗留效应参数。

核心命题（最小内核）：在符号条件下： 1. 估计偏差：\(\hat{\tau}_{\text{basic}}\) 低估真实处理效应 \(|\tau|\)。具体地，\(E[\hat{\tau}_{\text{basic}}] = \tau - (\lambda_D - \lambda_T)\)，当 \(\lambda_D\) 与 \(\lambda_T\) 同号时，偏差方向确定。 2. 第一类错误率：对于单侧检验 \(H_0: \tau = 0\) vs \(H_1: \tau > 0\)，第一类错误率不会膨胀。直觉是：在 \(H_0\) 下，\(\tau = 0\)，偏差项 \((\lambda_D - \lambda_T)\) 不会改变检验的方向性。 3. 功效损失：由于估计量低估真实效应，检验功效会下降。

为什么这个结果重要：它揭示了一个反直觉的现象：遗留效应不一定会导致假阳性，但会导致假阴性。这为交叉设计的实际应用提供了新的理论依据——即使在存在遗留效应的情况下，如果符号条件成立，交叉设计仍然是"安全"的（不会产生误导性的显著性结论），只是可能"保守"（功效降低）。

设计选择的核心权衡：作者进一步推导了交叉设计比平行组设计更有效的条件。设 \(\sigma^2\) 为结果方差，\(\rho\) 为个体内相关系数，\(n\) 为交叉设计每组样本量，\(m\) 为平行组设计每组样本量。则： - 交叉设计的功效取决于 \(\tau\)、\(\lambda\)、\(\sigma^2(1-\rho)\)。 - 平行组设计的功效取决于 \(\tau\)、\(\sigma^2\)。 - 当 \(\sigma^2(1-\rho) < \sigma^2\)（即 \(\rho > 0\)）且遗留效应不太大时，交叉设计仍优于平行组设计。

三、这篇论文做了什么¶

三句话： 1. 研究了交叉试验中存在行为性遗留效应时，处理效应估计与假设检验的性质。 2. 核心工具是潜在结果框架与符号条件假设。 3. 主要结论是：在符号条件下，基本估计量低估处理效应但不膨胀单侧检验的第一类错误率，并推导了交叉设计优于平行组设计的条件。

关键设定与假设：

潜在结果框架：
定义 \(Y_i(a, k)\) 为个体 \(i\) 在处理 \(a\)、时期 \(k\) 的潜在结果。
定义遗留效应参数 \(\lambda_a = E[Y_i(a, 2) - Y_i(a, 1)]\)，捕捉时期效应与处理遗留的混合。
定义处理效应 \(\tau = E[Y_i(1, k) - Y_i(0, k)]\)。
符号条件：
\[\text{sign}(\lambda_1) = \text{sign}(\lambda_0)\]
即两个处理的遗留效应方向相同。这是本文的核心假设。
统计含义：保证偏差方向确定，不会相互抵消或反转。
实际含义：在 HIV 预防试验中，如果两种产品（如阴道环和口服药）的使用都会导致行为改变（如依从性提高或降低），且改变方向相同，则符号条件成立。
其他假设：
随机化分配。
SUTVA（个体间无干扰）。
一致性。

主要结果：

定理 1（估计量的偏差与方差）：在符号条件下，基本估计量 \(\hat{\tau}_{\text{basic}}\) 的期望为：

\[E[\hat{\tau}_{\text{basic}}] = \tau - (\lambda_1 - \lambda_0)\]

方差为：

\[\text{Var}(\hat{\tau}_{\text{basic}}) = \frac{4\sigma^2(1-\rho)}{N}\]

其中 \(\sigma^2\) 为结果方差，\(\rho\) 为个体内相关系数。

定理 2（第一类错误率与功效）：对于单侧检验 \(H_0: \tau = 0\) vs \(H_1: \tau > 0\)： - 在 \(H_0\) 下，检验统计量的分布不受遗留效应影响，第一类错误率保持名义水平。 - 在 \(H_1\) 下，功效下降，下降幅度取决于 \(|\lambda_1 - \lambda_0|\) 与 \(\tau\) 的相对大小。

定理 3（设计选择条件）：设交叉设计每组样本量为 \(n\)，平行组设计每组样本量为 \(m\)。交叉设计比平行组设计功效更高的条件为：

\[\frac{\tau^2}{\sigma^2(1-\rho)} > \frac{(\tau - \Delta\lambda)^2}{\sigma^2} \cdot \frac{m}{n}\]

其中 \(\Delta\lambda = \lambda_1 - \lambda_0\)。

推论（样本量权衡）：当总样本量固定（\(N = 2n = 2m\)）时，交叉设计更优的条件简化为：

\[\rho > \frac{2\Delta\lambda \cdot \tau - \Delta\lambda^2}{\tau^2}\]

这给出了一个明确的设计决策边界：当个体内相关系数足够高、且遗留效应差异足够小时，交叉设计仍然值得采用。

证明路线与技术技巧：

整体路线：
Step 1：在潜在结果框架下分解观测结果为潜在结果与分配机制的函数。
Step 2：计算基本估计量的期望与方差，识别偏差来源。
Step 3：构建检验统计量，分析其在原假设与备择假设下的分布。
Step 4：比较交叉设计与平行组设计的功效函数，推导设计选择条件。
关键跳跃点：
符号条件的引入：这是本文最关键的建模选择。作者观察到在 HIV 预防试验中，行为性遗留效应往往同向（如两种产品都可能提高或降低依从性），从而提出这一条件。
偏差与第一类错误率的分离：证明偏差不等于第一类错误率膨胀。这需要仔细分析检验统计量在原假设下的分布——偏差项在 \(H_0\) 下消失。
技术技巧：
潜在结果框架：将交叉设计问题转化为因果推断问题，明确识别假设。
设计视角的推断：不依赖模型假设，基于随机化分布进行推断。
功效分析：使用非中心参数分析功效变化。

协变量调整方法：

作者进一步发展了协变量调整方法来提升估计精度。核心思想是利用 ANHECOVA（异质性协方差分析）工作模型：

\[Y_{i,k}^{\text{obs}} = \mu_k + A_i \cdot \tau + X_i^T \beta_k + A_i \cdot X_i^T \gamma + \epsilon_{i,k}\]

关键点： - 允许处理效应与协变量的交互作用（\(A_i \cdot X_i^T \gamma\) 项）。 - 即使工作模型误设，估计量仍保持一致性与渐近正态性。 - 方差估计使用三明治估计量，保证稳健性。

这继承了 Lin (2013) 与 Ye et al. (2020, 2022, 2023b) 的理论框架，将其推广到交叉设计场景。

真实例子与应用：

作者使用 MTN-034/REACH 研究数据验证方法性能： - 数据背景：247 名 16-21 岁非洲女性，随机分配到两个序列：DVR（阴道环）→ TDF/FTC（口服 PrEP）或反向序列。每个阶段 6 个月。 - 核心结果：HIV 阴性率（主要终点）与依从性指标。 - 方法应用： - 计算基本估计量与协变量调整估计量。 - 评估遗留效应的存在性（通过比较两个序列的结果差异）。 - 进行功效分析，比较交叉设计与假设的平行组设计。 - 发现： - 协变量调整显著降低标准误（约 15-20%）。 - 遗留效应估计值较小，符号条件在合理范围内成立。 - 交叉设计在此场景下比平行组设计更高效。

🔎 结论是否比证明窄：作者在讨论部分明确指出，符号条件是关键假设，若违反则结论不成立。作者承认："If the sign condition is violated, the type I error rate may be inflated." 这是一个诚实的局限性声明。此外，作者将结果推广到多阶段、多处理的设计时，仅提供了理论框架，未给出完整证明，这部分可视为 conjecture 或 future work。

四、开放问题¶

符号条件的检验与放松：本文假设符号条件成立，但实际中如何检验？若符号条件近似成立（如 \(\lambda_1\) 与 \(\lambda_0\) 方向相同但大小差异很大），结论如何变化？——扎根于 Section 5 的讨论："The sign condition is a key assumption... future work may consider sensitivity analysis when this condition is approximately violated."
多阶段、多处理设计的推广：本文聚焦于两阶段、两处理设计，但实际试验可能涉及更多阶段或处理。理论如何推广？——扎根于 Section 6："Extension to multi-period, multi-treatment crossover designs is an important direction."
贝叶斯方法与序贯设计：本文未讨论贝叶斯方法处理遗留效应的可能性，也未考虑序贯设计作为替代方案。这些路线是否可行？——扎根于 introduction 中对经典洗脱期方法的讨论，以及被淡化的"pre-testing"问题。
行为性遗留效应的建模：本文将行为性遗留效应参数化为 \(\lambda\)，但未深入建模其机制（如学习效应、疲劳效应、偏好改变）。更精细的机制模型是否能带来更好的估计与设计？——扎根于 Section 2 的潜在结果框架，以及作者对"behavioral carry-over"的定性描述。

Maintained by 陈星宇 · Homepage · Source on GitHub

Behavioral carry-over effect and power consideration in crossover trials¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论