As treated analyses of cluster randomized trials¶

作者: Ari I. F. Fogelson, Kirsten E. Landsiedel, Suzanne M. Dufault, Nicholas P. Jewell
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
机构绿灯: University of California, Berkeley（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/23-aoas1846

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是整群随机试验在"按实际处理分析"框架下的因果效应估计问题。其根本张力在于：随机化发生在 cluster 层面（如社区、学校），但研究者的目标 estimand 往往是个体层面实际接受暴露后的效应。当存在干预摄取不完全、个体跨 cluster 流动、暴露测量误差时，标准的意向治疗分析仅能估计随机化的"指派效应"，而"按实际处理分析"试图逼近真实的生物学/干预效应，但必须面对复杂的识别与推断挑战。该方向在因果推断框架下已相对成熟（IV、principal stratification、marginal structural models 均有标准工具），但在流行病学试验的实际数据分析实践中，GEE/GLMM 的误用、软件默认设置的陷阱、cluster structure 与测量误差的交互影响仍是常见问题。

发展脉络¶

奠基工作：整群随机试验的分析框架最早由 Donner 与 Klar 系统化（Donner & Klar, 2000），确立了 cluster-level 与 individual-level 两类分析策略，以及 ICC（intraclass correlation）在样本量计算与推断中的核心地位。ITT 作为金标准被广泛接受，其因果识别依赖于随机化机制。

主要进展——从 ITT 到 As-Treated：当干预 uptake 不完全时，ITT 估计的是"指派效应"（intention-to-treat effect），而非"处理效应"（treatment effect）。经典解决方案包括： - 工具变量（IV）框架：Sommer & Zeger (1991) 在疫苗试验中首次系统处理 compliance heterogeneity，提出 CACE（compiler average causal effect）的 IV 估计量；Angrist, Imbens & Rubin (1996) 用潜在结果语言形式化 principal stratification，确立了 IV 识别的核心假设（monotonicity + exclusion restriction）。 - 边际结构模型：Robins, Hernán, Brumback (2000) 引入 IPW 处理时依混杂，为 longitudinal as-treated 分析提供了识别框架。 - Test-negative design（TND）：Vandenbroucke & Pearce (2013) 系统化了 TND 作为一种高效的设计工具，用于疫苗效果监测；其核心优势在于减少寻求医疗行为带来的选择偏倚。

当前 frontier——Cluster structure 与测量误差的交互：当 cluster-level 干预（如环境干预）存在 uptake 测量误差、个体跨 cluster 流动时，标准 IV 与 MSM 方法面临新挑战： - Halloran & Struchiner (1995) 指出，对于 cluster-level 干预，个体暴露状态往往是潜在变量，测量误差与 cluster structure 交互产生复杂偏倚。 - Hudgens & Halloran (2008) 提出了 cluster randomized trials 中直接/间接效应的因果框架，但假设个体暴露状态可精确观测。 - Barkowski et al. (2021) 在 COVID-19 疫苗试验中讨论了 TND 与 cluster randomization 的结合，但未系统处理跨 cluster 流动问题。

本文的位置：本文填补的是 "cluster-level 干预 + TND 设计 + as-treated estimand + 跨 cluster 流动 + 暴露测量误差" 这一组合设定下的方法论空白。作者以 AWED 登革热试验为实例，系统比较了 marginal GEE 与 conditional GLMM 在此设定下的表现，揭示了常规软件与分析策略的陷阱。

子线索聚类¶

被引文献大致落在三条子线索上：

Test-negative design 的方法论发展：Vandenbroucke & Pearce (2013) 确立 TND 的设计逻辑；后续工作将其扩展至疫苗效果监测之外的领域。本文将 TND 扩展至 cluster-level 蚊虫干预，是设计层面的创新。
Cluster randomized trials 的因果推断框架：Donner & Klar (2000) 提供经典统计视角；Hudgens & Halloran (2008) 引入因果推断语言处理直接/间接效应；Halloran & Struchiner (1995) 指出 cluster-level 干预的测量误差问题。本文承接这一线索，但聚焦于 as-treated 设定下的估计问题。
GEE/GLMM 在 cluster data 中的比较与陷阱：这是生物统计学的经典议题，涉及 marginal vs conditional models 的 interpretability 差异、working correlation 选择的影响、random effect specification 的后果。本文揭示在 as-treated 设定下，这些常规问题被放大并产生新的偏倚来源。

这个方向在追问的核心问题¶

识别问题：在 cluster-level 随机化、个体层面暴露测量误差、跨 cluster 流动并存时，as-treated effect 的识别条件是什么？IV 框架能否直接套用？
估计问题：marginal GEE 与 conditional GLMM 何者更适合估计 as-treated effect？软件默认设置（如 working correlation、random effect structure）如何影响估计？
推断问题：cluster 数量有限时，标准误估计的可靠性如何？bootstrap vs robust variance vs model-based variance 的选择？
解释问题：marginal effect（population-averaged）与 conditional effect（subject-specific）在 as-treated 设定下的因果解释差异？

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将问题定位为"现有 cluster randomized trials 分析方法在 as-treated 设定下的适用性未被充分审视"，特别强调： - 常规软件（如 R、Stata、SAS 的 GEE/GLMM 实现）的默认设置可能掩盖问题； - 跨 cluster 流动与暴露测量误差的组合是 AWED 试验特有的挑战，现有文献未系统处理。

哪些竞争路线被淡化或回避： - IV / Principal Stratification 框架：intro 未提及 Angrist-Imbens-Rubin 的 IV 框架或 Frangakis-Rubin 的 principal stratification，而这些是处理 compliance heterogeneity 的标准因果推断工具。作者选择直接用 GEE/GLMM 建模暴露状态，而非形式化识别条件。 - Semiparametric efficiency / TMLE：未提及 influence function 或 double robustness 方法，而这些在处理 cluster structure 与测量误差时有理论优势。

什么明显该被引/该存在、却没出现在 intro 里： - Marginal Structural Models with IPW：处理时依混杂的标准工具，适用于个体跨 cluster 流动带来的暴露历史变化。 - Sensitivity analysis for measurement error：暴露测量误差的敏感性分析框架（如 Rothman et al., 2008 或 VanderWeele, 2019 的相关章节）。 - Small sample correction for cluster randomized trials：cluster 数量有限时的推断修正（如 Li & Redden, 2015 的小样本 t 分布修正）。

这是"值得研究者去查的问题"：作者选择的是"应用统计学家"路线（展示 GEE/GLMM 的陷阱与实用建议），而非"因果推断理论家"路线（形式化识别条件与效率界）。研究者需判断：这是否意味着理论层面仍有 gap？

张力¶

未见明显对立引用。被引文献之间更多是互补关系：TND 文献提供设计框架，cluster RCT 文献提供因果语言，GEE/GLMM 文献提供估计工具。本文的张力主要来自"标准方法在新设定下失效"这一实践问题，而非理论层面的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号约定： - \(i = 1, \ldots, N\)：个体下标。 - \(j = 1, \ldots, J\)：cluster 下标（\(J\) 为 cluster 总数，通常较小，如几十个）。 - \(Z_j \in \{0, 1\}\)：cluster \(j\) 的随机化分配（treatment assignment），这是可观测的、由实验设计决定。 - \(A_{ij}(t)\) 或 \(W_j(t)\)：cluster \(j\) 在时间 \(t\) 的实际干预 uptake（如蚊虫 Wolbachia 感染率）。这是可观测但带测量误差的 proxy。 - \(X_{ij}\)：个体 \(i\) 在 cluster \(j\) 的基线协变量（可观测）。 - \(Y_{ij}\)：个体 \(i\) 的结局（二值：检测阳性或阴性）。可观测。 - \(M_{ij}(t)\)：个体 \(i\) 在时间 \(t\) 的 cluster membership / mobility history。可观测（通过问卷追踪）。 - \(E_{ij}\)：个体 \(i\) 的"真实暴露状态"（实际暴露于干预的程度）。不可观测，只能通过 \(W_j(t)\) 和 \(M_{ij}(t)\) 的组合来 proxy。

模型（数据生成机制）： - 随机化：\(Z_j\) 由实验设计随机分配，\(Z_j \perp\!\!\!\perp (U_j, \text{cluster-level confounders})\)。 - 干预 uptake：\(W_j(t)\) 取决于 \(Z_j\) 但不完全由其决定（存在 uptake heterogeneity）。 - 个体流动：\(M_{ij}(t)\) 描述个体在发病前一段时间内跨 cluster 的移动轨迹。 - 真实暴露：\(E_{ij} = f(W_{j_1}(t_1), W_{j_2}(t_2), \ldots, M_{ij}(t))\)，即真实暴露是 cluster-level uptake 与个体流动历史的函数。这是潜在变量。 - 结局生成：\(Y_{ij} \mid E_{ij}, X_{ij}, U_{ij} \sim \text{Bernoulli}(\text{logit}^{-1}(\beta_0 + \beta_1 E_{ij} + \beta_2 X_{ij} + U_{ij}))\)，其中 \(U_{ij}\) 是 unobserved cluster-level random effect。

可观测数据：研究者实际能观测到的是 \(\{Z_j, W_j(t), M_{ij}(t), X_{ij}, Y_{ij}\}\)。想要但观测不到的是真实暴露 \(E_{ij}\)，只能用 proxy \(\tilde{E}_{ij} = g(W_j(t), M_{ij}(t))\) 来近似。

目标 estimand： - ITT effect：\(\tau_{ITT} = E[Y(Z=1) - Y(Z=0)]\)，其中 \(Y(Z)\) 是潜在结局。这是标准 estimand，可由随机化直接识别。 - As-treated effect：\(\tau_{AT} = E[Y(E=1) - Y(E=0)]\) 或 \(\tau_{AT}(e) = E[Y \mid E=e+1] - E[Y \mid E=e]\)。这是本文目标，但 \(E\) 不可观测。

第二步：最小内核¶

最简特例：假设 \(J=2\)（只有两个 cluster），\(Z_1=1, Z_2=0\)（完美随机化），无个体流动（\(M_{ij}(t) = j\) 恒定），但存在 uptake 测量误差。

在此设定下： - Cluster 1 被分配干预（\(Z_1=1\)），但实际 uptake \(W_1\) 可能小于 1（部分蚊虫未感染 Wolbachia）。 - Cluster 2 未被分配干预（\(Z_2=0\)），但 \(W_2\) 可能大于 0（Wolbachia 自然扩散）。 - 个体 \(i\) 在 cluster \(j\) 的真实暴露 \(E_{ij} = W_j\)（简化为 cluster-level 常数）。

问题退化成什么：如果我们用 \(Z_j\) 作为 \(E_{ij}\) 的 proxy（即假设 \(E_{ij} = Z_j\)），则估计的是 ITT effect \(\tau_{ITT}\)，而非 as-treated effect \(\tau_{AT}\)。

如果我们用观测到的 \(W_j\) 作为 \(E_{ij}\) 的 proxy（即 \(\tilde{E}_{ij} = W_j\)），则：

\[\hat{\tau}_{AT} = \bar{Y}_{W=1} - \bar{Y}_{W=0}\]

其中 \(\bar{Y}_{W=w}\) 是 uptake 水平为 \(w\) 的 cluster 中个体的平均结局。

核心数学困难： 1. 测量误差：\(W_j\) 是 \(E_{ij}\) 的 noisy proxy，存在 classical 或 non-classical measurement error，导致 \(\hat{\tau}_{AT}\) 有偏。 2. Cluster structure：\(W_j\) 在 cluster 内部完全共线性，导致 cluster-level 测量误差与 individual-level outcome 的关联结构复杂。 3. Confounding by cluster：如果 \(W_j\) 与 cluster-level unobservables \(U_j\) 相关（如卫生条件差的 cluster 既 uptake 低又 dengue 风险高），则 \(\hat{\tau}_{AT}\) 存在混杂偏倚。

本文的解决思路：作者不追求形式化识别（如 IV 或 measurement error model），而是采用工作模型策略： - Marginal GEE：建模 \(E[Y_{ij} \mid \tilde{E}_{ij}]\)，用 working correlation 处理 cluster structure，但假设 \(\tilde{E}_{ij}\) 是 \(E_{ij}\) 的无偏 proxy。 - Conditional GLMM：建模 \(E[Y_{ij} \mid \tilde{E}_{ij}, U_j]\)，用 random effect \(U_j\) 捕捉 cluster-level 混杂，但假设 \(U_j\) 与 \(\tilde{E}_{ij}\) 独立（强假设）。

最小内核的直觉：在 \(J=2\) 的最简设定下，GEE 退化为两个 cluster 的均值比较，GLMM 退化为带 random intercept 的 logistic 回归。当 \(W_1 \neq Z_1\) 或 \(W_2 \neq Z_2\) 时，GEE 与 GLMM 给出不同的 \(\hat{\tau}_{AT}\)，差异来源于： - GEE 是 marginal effect（population-averaged），GLMM 是 conditional effect（subject-specific）。 - GLMM 的 random effect 假设可能被违反（\(U_j\) 与 \(W_j\) 相关）。

三、这篇论文做了什么¶

三句话¶

研究了 cluster randomized trials 中"按实际处理分析"的估计问题，以 AWED 登革热试验为实例，处理 cluster-level 干预 uptake 测量误差与个体跨 cluster 流动的组合挑战。
核心方法是比较 marginal GEE 与 conditional GLMM 两种建模策略，系统揭示常规软件默认设置（working correlation 选择、random effect specification）在 as-treated 设定下的陷阱。
主要结论是 as-treated 分析估计的干预效应强于 ITT 分析，且 GEE 与 GLMM 的选择、working correlation 的设定、cluster 数量有限时的标准误估计均对结果有实质性影响。

关键设定与假设¶

设定： - Test-negative design（TND）：只纳入出现症状并寻求检测的个体，根据检测结果（阳性/阴性）分类。TND 的核心优势是控制"寻求医疗行为"这一混杂。 - Cluster randomization：AWED 试验中，cluster 是地理区域，随机分配到干预组（释放 Wolbachia 感染蚊）或对照组。 - As-treated estimand：目标估计的是实际暴露于 Wolbachia 的效应，而非随机化指派的效应。

关键假设： 1. Ignorability of treatment assignment（对 ITT 成立）：\(Z \perp\!\!\!\perp Y(z)\)，由随机化保证。 2. Ignorability of exposure（对 as-treated 不成立）：\(E \perp\!\!\!\perp Y(e) \mid Z, X\) 不成立，因为 uptake 取决于 cluster-level 因素，可能与 dengue 风险相关。 3. Measurement error structure：假设观测到的 uptake \(W_j(t)\) 是真实暴露 \(E_{ij}\) 的 proxy，但测量误差结构未明确建模。 4. Mobility measurement：假设个体流动历史 \(M_{ij}(t)\) 被准确测量（通过问卷），但可能存在 recall bias。

相比已有文献的放宽/强化： - 相比 Hudgens & Halloran (2008)，本文放宽了"暴露状态可精确观测"的假设，承认测量误差。 - 相比标准 IV 框架，本文未形式化 monotonicity 与 exclusion restriction 假设，而是采用工作模型策略。 - 相比标准 GEE/GLMM 文献，本文强化了对 cluster structure 与测量误差交互的关注，揭示常规软件的陷阱。

主要结果¶

结果 1：GEE 与 GLMM 给出不同的 as-treated effect 估计 - Marginal GEE 估计的是 population-averaged effect，conditional GLMM 估计的是 subject-specific effect。 - 在 as-treated 设定下，由于 \(E_{ij}\) 在 cluster 内部完全共线性，GEE 的 working correlation 选择对估计有实质性影响。 - 作者展示：使用 "independence" working correlation 的 GEE 与使用 "exchangeable" working correlation 的 GEE 给出不同的点估计与标准误。

结果 2：软件默认设置可能掩盖问题 - 常规软件（如 R 的 geepack、Stata 的 xtgee）在 cluster 数量有限时，默认的 robust variance 估计可能不可靠。 - GLMM 的 random effect specification（如 random intercept vs random slope）对估计有影响，但软件默认可能选择不当。

结果 3：As-treated effect 强于 ITT effect - 在 AWED 试验中，as-treated 分析估计的 Wolbachia 干预效应（降低 dengue 风险）强于 ITT 分析。 - 这符合预期：ITT 估计的是"指派效应"，被 uptake heterogeneity 稀释；as-treated 估计的是"处理效应"，更接近真实生物学效应。

结果 4：跨 cluster 流动的处理 - 作者提出用 mobility history \(M_{ij}(t)\) 构建个体层面的暴露 proxy \(\tilde{E}_{ij}\)，而非简单使用 cluster-level \(W_j\)。 - 这引入了个体层面的暴露变异，打破了 cluster 内部的完全共线性，但也增加了测量误差的复杂性。

证明路线与技术技巧¶

本文是应用/方法型论文，核心是数据分析策略的比较与陷阱揭示，而非纯理论证明。但作者在方法论层面有以下技术贡献：

技术技巧 1：GEE working correlation 的选择 - 作者指出：在 as-treated 设定下，\(E_{ij}\) 在 cluster 内部完全共线性，导致 working correlation 的选择对估计有实质性影响。 - 使用 "independence" working correlation 等价于忽略 cluster structure，可能导致标准误低估。 - 使用 "exchangeable" working correlation 假设 cluster 内部相关性可交换，但在 cluster 数量有限时，robust variance 估计可能不可靠。

技术技巧 2：GLMM random effect specification - 作者比较了 random intercept only vs random intercept + random slope 的模型设定。 - 指出：如果 random effect 与 exposure 相关（即 \(U_j \not\perp\!\!\!\perp W_j\)），GLMM 估计可能有偏。 - 这是 cluster-level 混杂的经典问题，但在 as-treated 设定下被放大。

技术技巧 3：Mobility-adjusted exposure proxy - 作者构建了个体层面的暴露 proxy：\(\tilde{E}_{ij} = \sum_t w_t \cdot W_{M_{ij}(t)}(t)\)，即根据个体流动历史对 cluster-level uptake 进行加权平均。 - 这打破了 cluster 内部的完全共线性，引入了个体层面的变异，但也增加了测量误差的复杂性。

技术技巧 4：Bootstrap 方差估计 - 由于 cluster 数量有限，作者建议使用 bootstrap（特别是 cluster-level bootstrap）来估计标准误。 - 这是对常规 robust variance 估计的修正，适用于 small number of clusters 的设定。

真实例子与应用¶

数据/场景：AWED（Applying Wolbachia to Eliminate Dengue）试验，在印度尼西亚日惹市进行。cluster 是地理区域，随机分配到干预组（释放 Wolbachia 感染蚊）或对照组。主要结局是 dengue 检测阳性（test-positive vs test-negative）。

方法应用： - ITT 分析：按随机化分配 \(Z_j\) 分组，比较干预组与对照组的 dengue 风险。 - As-treated 分析：用观测到的 Wolbachia uptake \(W_j(t)\) 和个体流动历史 \(M_{ij}(t)\) 构建暴露 proxy \(\tilde{E}_{ij}\)，比较不同暴露水平的 dengue 风险。 - 比较了 GEE（不同 working correlation）与 GLMM（不同 random effect specification）的结果。

结果： - ITT 分析：干预效应估计为 OR ≈ 0.7（保护效应，但置信区间较宽）。 - As-treated 分析：干预效应估计更强，OR ≈ 0.5-0.6（取决于模型设定）。 - GEE 与 GLMM 的点估计差异约为 10-20%，标准误估计差异更大（特别是在 cluster 数量有限的设定下）。

例子想说明什么： - 验证理论预期：as-treated effect 强于 ITT effect（因为 uptake heterogeneity 稀释了 ITT）。 - 展示方法陷阱：GEE working correlation 与 GLMM random effect specification 的选择对结果有实质性影响，常规软件默认设置可能不当。 - 强调实践意义：在 cluster randomized trials 中，as-treated 分析需要谨慎处理 cluster structure 与测量误差。

🔎 结论是否比证明窄¶

本文是应用/方法型论文，核心结论基于 AWED 试验的数据分析，而非一般性定理。作者在讨论部分承认： - As-treated effect 的识别依赖于"暴露 proxy 无测量误差"或"测量误差结构已知"的假设，但这些假设在现实中难以验证。 - GEE 与 GLMM 的比较结果可能依赖于 AWED 试验的特定设定（cluster 数量、uptake 分布、流动模式），不一定推广到其他试验。 - 作者未提供形式化的识别条件或效率界，这是理论层面的局限。

四、开放问题（点到为止）¶

形式化识别条件：在 cluster-level 干预、个体层面暴露测量误差、跨 cluster 流动并存时，as-treated effect 的非参数识别条件是什么？需要哪些排除限制？——扎根在本文讨论部分对"ignorability of exposure"假设的讨论。
IV 框架的适用性：cluster randomization 提供了潜在的工具变量 \(Z_j\)，能否用 IV 框架估计 LATE（local average treatment effect）？需要哪些假设？——扎根在 intro 对 ITT vs as-treated 的区分，以及未引用 Angrist-Imbens-Rubin 框架的空白。
Semiparametric efficiency：在 as-treated 设定下，GEE 与 GLMM 何者更接近 semiparametric efficiency bound？能否用 influence function / TMLE 框架构造 double robust 估计量？——扎根在本文未提及 semiparametric theory 的空白。
Sensitivity analysis for measurement error：暴露测量误差的敏感性分析框架是什么？如何量化测量误差对 as-treated effect 估计的影响？——扎根在本文对 mobility-adjusted exposure proxy 的构建，但未形式化测量误差结构的局限。

Maintained by 陈星宇 · Homepage · Source on GitHub