How to achieve model-robust inference in stepped wedge trials with model-based methods?¶

作者: Bingkai Wang, Xueqi Wang, Fan Li
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

阶梯楔形群随机试验（stepped wedge cluster randomized trial, SW-CRT）是一种单向交叉设计：各群（cluster）在同一时间段内从对照状态按随机决定的序列依次转向干预状态。由于干预引入时序与日历时序自然混叠，处理效应的估计和解释必须谨慎。本方向的核心统计问题是：在潜在结果框架下，如何（非参数地）定义一个可解释的边际处理效应（estimand），并设计出在模型误设下依然给出有效推断的分析流程——这点对实践尤其重要，因为 SW-CRT 常用的混合模型和广义估计方程（GEE）依赖于多个分布、相关结构和函数形式的假定，而实际数据分析中这些假定几乎肯定多少会错。

发展脉络（从被引文献和引用句构建）¶

奠基工作（2007–2018）：Hussey and Hughes (2007) 首次形式化 SW-CRT 的线性混合模型，设定立即且恒定的处理效应（immediate and constant treatment effect）。这一设定成为该领域的默认框架（Li et al., 2021; Nevins et al., 2023）。同期，Hughes et al. (2015) 提出三个关键议题——暴露时间效应（time-on-treatment effects）、处理效应异质性、以及队列设计——揭示了默认框架的不足。Li et al. (2018) 给出了连续和二元结局下 GEE 分析的样本量公式。
对处理效应结构的再审视（2021–2023）：Kenny et al. (2021) 证明了在存在暴露时间效应时，假设恒定处理效应的模型得到的估计量会收敛到各时点效应的加权和，且权重可为负值——这可能导致符号相反的误导性估计。Maleyeff et al. (2022) 提出用随机效应描述暴露时间效应异质性。这两篇工作开启了非恒定处理效应结构的研究。
模型误设下的推断（2018–2023）：Kasza and Forbes (2019) 和 Bowden et al. (2021) 通过解析推导显示，忽略处理效应异质性或因相关结构误设均会导致模型方差低估、type I error 膨胀。Voldal et al. (2022) 探讨了随机时间效应与随机处理效应误选的后果。Ouyang et al. (2023) 证明了 sandwich 方差估计在相关结构误设下可维持名义覆盖率。这些工作都集中在推断（方差）层面，并未系统研究估计量的一致性在模型误设下能否保持。
平行群试验的稳健性结果（2021–2022）：Wang et al. (2021) 证明了在平行群随机试验（parallel-arm CRT）中，即使线性混合模型的各项假定（正态、线性、随机截距）全部错误，处理效应估计量对非参数平均处理效应仍然一致。Su and Ding (2021) 从设计角度（有限总体、仅随机化作为概率来源）平行地得到了 GEE 独立性工作结构下的稳健性。
本文的位置：本文系统性地将 Wang et al. (2021) 的稳健性结论从平行臂推广到 SW-CRT 的各类复杂设计（日历时间/暴露时间依赖的处理效应），填补了“model-robust inferenc”在 SW-CRT 下的空白。它整合了两个已有线索：处理效应结构设定（Kenny et al.; Maleyeff et al.）和模型误设下的方差性质（Ouyang et al.），给出了一个统一的条件。

子线索聚类¶

子线索	代表工作	核心关注	当前状态
处理效应结构	Hussey & Hughes 2007, Kenny et al. 2021, Maleyeff et al. 2022, Roth & Sant'Anna 2021	如何用参数形式描述处理效应随日历时间/暴露时间的变化，定义相应的 estimand	已有多种结构（恒定、线性、分类暴露时间、饱和），但如何在模型误设下仍能正确估计这些 estimand 未系统解决
模型误设下的推断	Kasza & Forbes 2019, Bowden et al. 2021, Voldal et al. 2022, Ouyang et al. 2023	相关结构或随机效应误设对方差估计和推断的影响	主要结论：sandwich 方差可缓解问题，但模型方差不可靠；问题聚焦于方差而非点估计一致
基于设计的稳健方法	Su & Ding 2021, Chen & Li 2023, Tian & Li 2024	使用 ANCOVA 模型辅助估计（model-assisted），从有限总体随机化视角出发，对点估计达成稳健性	对特定 estimand（如时期别处理效应）给出了稳健估计，但默认假定处理效应结构正确，且未处理非恒等链接

本方向仍在追问的核心问题¶

在 SW-CRT 下，给定某种非参数边际 estimand，当工作模型误设时，点估计是否仍然一致？——本文给出了第一个系统回答（条件：处理效应结构正确）。
若处理效应结构本身误设（如真实为暴露时间依赖、模型却假定恒定），偏差有多大？——已有 Kenny et al. 和 Maleyeff et al. 的启示，但无通用理论。
在非恒等链接（logistic、泊松）或比率型 estimand 下，如何实现 model-robust inference？——本文通过 g-computation 提供了一条路径。
如何在有限群数量（小样本）下获得可靠的 sandwich 方差？——未解决，但 Ouyang et al. (2023) 有初步小样本校正比较。

⚠️ 作者的 framing（必须明确标注为作者的说法）¶

作者将其缺口 frame 为：“现有工作没有系统研究 SW-CRT 中模型误设对非参数边际处理效应估计的影响（尤其考虑暴露时间效应时）”。具体而言： - 作者指出，Wang et al. (2021) 的 model-robustness 在平行臂设计中成立，但 SW-CRT 的复杂相关性和时间趋势是否破坏这一性质“尚未明确”。 - 作者认为自己的核心贡献是“发现了保持 model-robustness 需要处理效应结构正确指定，但允许其他部分任意误设”，并称这是连接已有处理效应结构研究与模型方差研究的关键环节。 - 作者淡化/回避了以下路线：Roth & Sant'Anna (2021) 的动态差异中的差异方法（半参数效率）和 Chen & Li (2023) 的有限总体 ANCOVA 方法（基于设计）。但作者在 intro 中简要提到它们，并称本文的目标是“基于模型”的方法，而不是“基于设计”的方法。这个分类值得研究者注意：是否存在一种“model-assisted yet robust”的方法，能同时拥有设计稳健性和模型效率？本文未解决，但 Chen & Li (2023) 已迈出一步。 - 什么明显该被引 / 该存在、却没出现在 intro 里：作者没有引用或讨论当暴露时间效应结构无限维（非参数光滑）时的识别性。这在 Kenny et al. (2021) 的“effect curve”讨论中已有提及，但本文的所有处理效应结构都是有限维参数形式。这可能是作者有意限定的范围，但也可能是一个值得探索的 gap。

张力¶

未见明显对立引用。被引工作一致同意：处理效应结构误设会导致严重偏差（Kenny et al. 2021），且相关结构误设会破坏模型方差（Kasza & Forbes 2019），而 sandwich 方差可缓解后者。本文将这些整合为一套充分条件（处理效应结构正确 + sandwich 方差 = 稳健推断）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（全部以本文定义为准）： - \(i=1,\dots,I\)：群（cluster）索引；\(j=0,\dots,J\)：日历时期索引（\(j=0\) 为基准期）。 - \(d=0,\dots,D\)：暴露时间（exposure time），即从干预开始到结局测量的时间距离。若群在时期 \(s\) 首次接受干预，则暴露时间 \(d = j - s\)（当 \(j \ge s\) 时）；\(d=0\) 表示仍在对照。 - \(Y_{ijk}\)：群 \(i\) 在时期 \(j\) 中个体 \(k\) 的结局变量（可观测）。 - \(\text{Cov}_{ij}\)：可观测的协变量向量（可能随时间、群变化）。 - \(A_{ij}\)：群 \(i\) 在时期 \(j\) 的处理状态指示（1=干预，0=对照）。 - 潜在结局：\(Y_{ijk}(a, d)\)，当处理状态为 \(a\)、暴露时间为 \(d\) 时的潜在结局（\(d\) 在对照时设为 0）。 - 边际处理效应 estimand： - \(\Delta_j(0) = E[Y_{ijk}(1,0) - Y_{ijk}(0,0) \mid A_i(j)=1, \text{cluster }i]\)？需要更精确。本文定义四种： - \(\Delta_{j}(d) = E[Y_{ijk}(1,d) - Y_{ijk}(0,0)]\)（在时期 \(j\) 且暴露时间为 \(d\) 的群中，处理与对照的差异）。注意这里取期望于所有群和个体，但需在某一子群上定义？根据正文，\(\Delta_j(d)\) 定义为在恰好被处理了 \(d\) 期的群/时期上的平均处理效应。严格说：\(\Delta_j(d) = E[Y_{ijk} \mid A_{ij}=1, \text{covariates?}] - E[Y_{ijk} \mid A_{ij}=0,...]\)。但既然定义在潜在结局上，它是不依赖模型的。 - 作者考虑四种 estimand：常数（\(\Delta\)）、日历时间依赖、暴露时间依赖、以及饱和（\(\Delta_j(d)\)）。 - 工作模型（working model）： - LMM：\(Y_{ijk} = \alpha + \beta_j + \tau \cdot f(d) + X_{ijk}^\top \gamma + u_i + v_{ij} + \epsilon_{ijk}\)，其中 \(f(d)\) 是处理效应结构的预设函数形式（如 \(f(d)=1\) 对应恒定效应），\(\tau\) 是核心参数，\(u_i, v_{ij}\) 是随机效应，\(\epsilon_{ijk}\) 为误差。 - GEE：\(E[Y_{ijk}] = g^{-1}(\alpha + \beta_j + \tau \cdot f(d) + X_{ijk}^\top \gamma)\)，其中 \(g\) 为链接函数。相关结构可指定为独立、简单可交换、或嵌套可交换。 - 可观测数据：每个群在每个时期的结局 \(Y_{ijk}\)、协变量 \(X_{ijk}\)、处理状态 \(A_{ij}\)。不可观测的是潜在结局（反事实），以及群级别的随机效应（不是 estimand，只是模型工具）。 - 关键假定（识别）： - 完全嵌套的时间趋势：假设无处理-时间交互的处理效应结构已正确参数化。 - 个体间无干扰（SUTVA 的一部分）。 - 处理分配机制：因为是随机试验，处理和对照群在群水平上可比，但需要消去日历时间的影响。

第二步：讲最小内核¶

最简特例（整篇论文的核心思路在它身上可一览无余）：

设定： - \(J=2\) 个时期（\(j=0,1\)），\(D=1\)（暴露时间唯一：当群在时期 1 受到处理，暴露时间 \(d=1\)；否则为对照）。 - 忽略协变量（\(X=0\)）。 - 结局连续，使用线性混合模型（恒等链接）。 - 处理效应结构假设为依赖暴露时间，但正确指定为：\(\Delta(d) = \tau \cdot d\)（即与暴露时间线性相关）。在只有 \(d=1\) 时，这退化为一个常数 \(\tau\)。 - 工作模型：LMM 随机截距模型（\(Y_{ijk} = \alpha + \beta_j + \tau \cdot f(d) + u_i + \epsilon_{ijk}\)），其中 \(f(d)=d\)。这已经正确指定了处理效应结构（因为真实结构也是线性的）。 - 但作者允许工作模型在随机效应结构上有误：真实数据生成中可能存在随机斜率（逾期-个体相关），而模型只含随机截距。同时误差分布可能非正态。

问题：此时，LMM 通过 GLS 估计得到的 \(\hat{\tau}\) 是否仍能一致地估计非参数边际处理效应 \(\Delta(1)\)？

核心思路：将 LMM 估计量视为求解一个估计方程（score equation）的解。该估计方程是广义最小二乘的 \(X^\top V^{-1}(Y - X\beta)\)。可以证明，即使工作协方差矩阵 \(V\) 误设，只要均值模型中的处理效应部分正确，即 \(E[Y_{ijk} \mid A_{ij}]\) 关于 \(\tau\) 的模型形式正确，那么该估计方程的期望在真实 \(\tau\) 处为零。因此 M-估计量一致。方差则由 sandwich 公式给出。证明的障碍在于：SW-CRT 的时间趋势 \(\beta_j\) 与处理状态 \(A_{ij}\) 相关（混淆），所以即使处理效应结构正确，也需要模型包含日历时间固定效应（\(\beta_j\)）来消除混淆。而日历时间固定效应的形式（如线性/分类）若误设，会不会影响一致性？作者的核心定理指出：只要处理效应结构正确且日历时间固定效应以分类（饱和）形式纳入，其函数形式误设不会破坏一致性。这是因为 SW-CRT 的设计保证了在有饱和时间效应的前提下，处理效应可识别。

最小内核的结论：在这个两时期例子中，当处理效应结构正确指定时，即使随机效应结构和分布全部误设，LMM 对 \(\tau\) 的估计仍一致，sandwich 方差给出正确覆盖。一般情形（更多时期、复杂暴露时间）的证明只是这一逻辑的线性代数推广，需要处理更多的参数和权重，但无实质困难。

三、这篇论文做了什么¶

三句话¶

① 研究了阶梯楔形群随机试验（SW-CRT）中，基于线性混合模型（LMM）和广义估计方程（GEE）的估计方法在模型误设下，对四种非参数边际处理效应 estimand 的一致性和推断性质。② 核心工具是 M-估计理论和 sandwich 方差估计，对于非恒等链接的情形额外引入了 g-computation 步骤。③ 主要结论是：只要处理效应结构被正确参数化，工作模型的其余部分（协变量函数形式、随机效应结构、误差分布、相关矩阵）可以任意误设，点估计保持对非参数 estimand 的一致性，且基于 sandwich 方差得到的置信区间渐近有效。

关键设定与假设¶

四种 estimand（定义在潜在结局上，无模型依赖性）：
\(\Delta_{\text{const}}\)：恒定处理效应（假设不随时间/暴露变化）。
\(\Delta_{M\text{-avg}}\)：依暴露时间平均的处理效应。
\(\Delta_{C\text{-avg}}\)：依日历时间平均的处理效应。
\(\Delta_{S\text{-avg}}\)：饱和处理效应（每个 \([j,d]\) 单元格一个参数）。
可观测数据结构：群 \(i=1,\dots,I\)，时期 \(j=0,\dots,J\)，个体 \(k=1,\dots,n_{ij}\)。协变量 \(X_{ijk}\) 可纳入。
工作模型：
LMM：\(Y_{ijk} = \alpha + \beta_j + \tau^\top f(\text{exposure time}, \text{calendar time}) + X_{ijk}^\top \gamma + u_i + v_{ij} + \epsilon_{ijk}\)，其中 \(f(\cdot)\) 根据所选 estimand 构造（如常数则 \(f=1\)；依暴露时间则 \(f = (1\{d=1\}, \dots, 1\{d=D\})^\top\)）。
GEE：以 \(g\) 为链接函数，上述线性预测器，相关结构 \(R\)（独立/简单可交换/嵌套可交换）。
核心假设（用于一致性）：
处理效应结构正确：用于构造 \(f\) 的指示函数或多项式必须与真实处理效应的时间模式一致。这是充分条件，而非必要——但违反它，作者证明即使渐近 bias 也可能很大（数值举例）。
日历时间固定效应已饱和：模型必须包含 \(\beta_j\) 作为分类固定效应，以消除日历时间混淆。这在 SW-CRT 中是标准实践。
无个体间干扰，协变量外生（基线协变量，非后处理变量）。
相比已有文献：Wang et al. (2021) 曾证明平行臂 CRTs 中 LMM 在上述条件下稳健。本文推广到 SW-CRT，并且发现同样的角色由“处理效应结构正确”扮演。而与 Chen & Li (2023) 相比，后者通过设计（有限总体）达到类似稳健性，但仅限于时期别估计量且未覆盖非恒等链接。本文探索了更多种 estimand 和链接函数。

主要结果¶

定理 1（LMM）：假设 SW-CRT 使用饱和日历时间固定效应，且处理效应结构正确。则无论工作随机效应和误差分布如何误设，\(\hat{\tau}\) 到真实 \(\tau_0\) 一致，且 \(\sqrt{I}(\hat{\tau} - \tau_0) \to N(0, \Sigma)\)，其中 \(\Sigma\) 由 sandwich 方差一致估计。

直觉：LMM 的 GLS 估计方程在两个层级上等于一个经过转换的 OLS；由于均值的线性预测器在处理效应部分正确，且 \(A_{ij}\) 被饱和时间效应去混淆，方程期望为零。
技术必要条件：群数 \(I \to \infty\)，每个群至少有一些暴露和非暴露时期（这在 SW-CRT 设计中一般满足）。

定理 2（GEE，独立工作相关）：同上结论成立，无需正确指定相关结构。

定理 3（GEE，可交换工作相关）：同上结论成立，但需工作相关矩阵仅为关于群内相关的某个结构（简单可交换或嵌套可交换）——该条件在 SW-CRT 文献中较宽松。

定理 4（非恒等链接/比率 estimand）：当链接不是恒等（如 logit、log）、或目标 estimand 为比率（如风险比）和比值比（OR）时，直接解估计方程得到的估计量对非参数 estimand 一般不一致。解决方案：先拟合含饱和时间和正确处理效应结构的 GEE（用恒等链接或导出线性预测器），然后对每个群-时期做 g-computation（即用估计的线性预测器生成预测，再平均反事实），得到 point estimator，其后 sandwich 方差保持一致性。

直觉：非恒等链接下，估计方程的解是线性预测器上的条件矩参数，而非边际 estimand；g-computation 充当从条件参数到边际 estimand 的桥。

证明路线与技术技巧¶

整体路线（以 LMM 定理 1 为例）： 1. 写出 LMM 估计量 \(\hat{\theta} = (\hat{\alpha}, \hat{\beta}_j, \hat{\tau}, \hat{\gamma})^\top\) 作为广义最小二乘解：\(\hat{\theta} = (X^\top V^{-1}X)^{-1} X^\top V^{-1} Y\)，其中 \(V\) 是工作协方差矩阵。 2. 注意到 \(\hat{\tau}\) 是 \(\hat{\theta}\) 的一个分量。使用简单代数可将 \(\hat{\tau} - \tau_0\) 表达为 \(M(I\times 1)\) 型统计量：形如 \(\frac{\sum \text{weights} \times \text{residuals}}{\sum \text{weights}}\)。 3. 证明权重的渐近行为：由于处理效应结构正确且饱和时间效应存在，核心权重不随 \(I\) 萎缩，且可识别。 4. 利用大数定律和中心极限定理：残差部分的期望在正确 \(\tau_0\) 下为零；方差由 sandwich 公式给出。 5. 关键跳跃点：证明即使 \(V\) 误设，\(X^\top V^{-1}X/I\) 收敛到一个正定矩阵。这源于 SW-CRT 的设计可保证设计矩阵 \(X\) 有满秩（因饱和时间效应 + 处理效应结构线性独立）。 6. 技术技巧：此处依赖线性代数中的块矩阵运算（Cochran 定理变体），以解析表达式显式写出 \(\hat{\tau}\) 的权重。作者采用了一种“数据块加权”的视角，把每个群-时期-个体观测按工作协方差权重为不同；然后通过检查权重之和是否为 0 来论证一致性。

关键跳跃点（定理 4）：对非恒等链接，作者证明了直接 GEE 估计量一致地估计的是条件参数 \(\psi\)，而边际 estimand \(\theta = E[ g^{-1}(X\beta) ]\)，两者关系取决于协变量分布和链接函数。因此必须通过 g-computation 转化为边际尺度，再使用 delta method + sandwich 得到渐近方差。这个跳跃依赖于膨胀估计量的渐近线性表示。

技术技巧点名： - M-估计理论（用于所有证明的框架）。 - Sandwich方差（用于推断；在 GEE 中标准）。 - g-computation（从条件到边际的桥）。 - 对于定理 1–3，使用的主要是代数解析（而非 empirical process 或 chaining 等概率论工具），因为模型是线性回归类；唯一的随机性来自误差项的矩条件。 - 没有使用高阶 U-统计量、Stein method 或 coupling。

真实例子与应用¶

论文使用SMARThealth India（Peiris et al., 2019）试验数据进行了再分析。该试验是 SW-CRT，涉及 18 个初级卫生中心（群），随机分配到 3 个步骤。结局是收缩压达到 <140mmHg 的比例（二元结局）。本文： - 用 GEE（独立工作相关）配合饱和时间效应和不同的处理效应结构（恒定的、依暴露时间的、依日历时间的）重新估计。 - 核心发现：当使用恒定效应结构时，估计的处理效应为 OR=1.31（95% CI: 1.05–1.63），传统模型（不做 g-computation）结果相似；但当使用依暴露时间结构并做 g-computation 时，暴露时间最长（d≥2）的效应最大，而早期暴露时间（d=1）效应不显著。这验证了本文的警告：如果真实效应依暴露时间变化，简单使用恒定结构即使在工作模型下也可能得到误导性的平均估计（尽管这里方向一致，但数值有差别）。 - 该例子展示了：如何运用本文框架进行 estimand 选择（暴露时间平均 vs 常数），以及 g-computation 的必要性（二元结局下要得到边际 OR 必须后处理）。

🔎 结论是否比证明窄¶

论文的主要结论是：只要处理效应结构正确指定，即可获得 model-robust inference。但需要指出： - 证明中要求日历时间固定效应是饱和的（每个时期一个参数）。这一点可能被泛化为“任何足够丰富的固定效应”都行，但作者明确定格在饱和形式。在实践中，若时期数大，饱和效应会导致大量参数（J+1 个），可能降低效率，但作者未讨论。这是结论窄于通常理解的地方。 - 定理 4 中的 g-computation 步骤额外要求对每个群-时期做预测，这在大型数据中可能计算密集，但作者未强调。且其有效性依赖于处理效应结构正确+协变量模型正确，若协变量函数形式误设，g-computation 是否仍稳健？作者未证明，只声称线性预测器正确即可。这是潜在含混点。

四、开放问题（点到为止，扎根具体语句）¶

处理效应结构未知时的模型选择：本文充分条件是“处理效应结构正确指定”。当真实结构未知，如何从数据中估计/检验哪个结构正确？Kenny et al. (2021) 和 Maleyeff et al. (2022) 分别探讨了分类暴露时间和随机效应的方法，但尚未与本文的 model-robust 框架结合。具体扎根：作者在讨论中提到“如果处理效应结构被误设，偏差可能很大”（section 5.1），但未给出通用诊断或选择策略。
小样本下 sandwich 方差的校正：本文所有渐近结果要求群数 \(I \to \infty\)。Ouyang et al. (2023) 已经在小样本 SW-CRT 中比较了多种偏向校正 sandwich，本文直接使用了标准 sandwich 方差公式，未专门讨论小样本校正。扎根：作者在全文中使用“sandwich variance estimator”而未注明哪种更适用；在模拟中群数 \(I=12\)，可能足够大。但实践中 SW-CRT 常只有 6–12 个群，需要明确的推荐。
非连续结局的非恒等链接扩展：本文定理 4 对二元结局演示了 g-computation，但未涵盖计数或生存结局。计数结局使用泊松链接或负二项时，g-computation 的 delta method 方差是否仍然准确？作者在 intro 末尾提及“future work could extend to other outcome types”，但未具体化。
设计效益与模型稳健性的折中：本文默认使用饱和时间固定效应来控制混淆，这可能导致效率损失。是否存在一种更参数化时间趋势（如线性样条）同样能保持一致性？如果时间趋势误设，是否可用更灵活的模型同时保证稳健和效率？作者仅在第 5 节讨论了“线性时间趋势假设不一定成立”，但未给出正式条件。这可以作为半参数效率理论的一个切入点。举例：可以证明当处理效应结构正确且时间趋势用平滑样条估计（如 GAM）时，估计量在较弱的条件下仍一致吗？这需要 empirical process 工具，但研究者若熟悉非参数回归可探索。

提醒：要确认这些 gap 是否真实存在，建议读 Chen & Li (2023)、Roth & Sant’Anna (2021) 以及 Ouyang et al. (2023) 的 intro——看它们是否将“处理效应结构识别”视为已解或仍开放。

Maintained by 陈星宇 · Homepage · Source on GitHub