How to achieve model-robust inference in stepped wedge trials with model-based methods?¶

作者: Bingkai Wang, Xueqi Wang, Fan Li
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在阶梯楔形设计（Stepped Wedge Cluster Randomized Trial, SW-CRT） 中，当使用基于模型的方法（如线性混合模型 LMM 或广义估计方程 GEE）进行数据分析时，如果模型被误设（例如，协变量函数形式、随机效应结构、误差分布等设定错误），对边际处理效应的估计和推断是否仍然有效？这个子方向旨在为 SW-CRT 这种日益流行的纵向整群随机试验设计，建立一套模型稳健（model-robust） 的推断理论，确保即使分析模型不完全正确，也能得到关于目标 estimand 的一致估计和有效的方差估计。

当前该方向的成熟度：正在从“默认使用简单模型”向“理解模型误设后果并建立稳健方法”过渡。大量实践仍采用 Hussey & Hughes (2007) 提出的常数处理效应模型，但学界已开始系统性地研究模型误设带来的偏倚和推断失效问题。

发展脉络¶

奠基工作： - Hussey & Hughes (2007)：首次正式提出 SW-CRT 的统计模型，奠定了使用线性混合模型进行分析的范式。其默认设定是常数处理效应（immediate and constant treatment effect），即处理效应不随时间或暴露时长变化。这篇工作被本文及几乎所有后续工作引用为起点。 - Li et al. (2021) 和 Nevins et al. (2023)：进一步巩固了常数处理效应结构作为 SW-CRT 文献和实践中的默认设定。Nevins et al. (2023) 的综述表明，截至 2022 年，大多数已发表的 SW-CRT 仍采用这一默认设定。

主要进展（处理效应结构异质性）： - Kenny et al. (2022) 和 Maleyeff et al. (2022)：系统性地揭示了当真实处理效应随时间（暴露时长）变化时，错误地假设常数处理效应会导致严重的估计偏倚。Kenny et al. (2022) 甚至发现，估计量可能收敛到与真实 TATE（时间平均处理效应）符号相反的值。这些工作迫使研究者正视处理效应结构的设定问题。 - Roth & Sant’Anna (2021)：在 staggered rollout designs（与 SW-CRT 密切相关）的因果推断框架下，提出了饱和处理效应结构（saturated treatment effect structure），即允许每个日历时间-暴露时长组合有独立的处理效应。这为定义更灵活的 estimand 提供了基础。

主要进展（模型误设的后果）： - Kasza & Forbes (2019)、Bowden et al. (2021)、Voldal et al. (2022)：一系列工作指出，在 LMM 下，误设相关结构（如随机效应）会导致模型方差估计量产生实质性偏倚，进而影响推断的有效性。 - Ouyang et al. (2023)：正面回应了相关结构误设问题，证明了 sandwich 方差估计量可以在相关结构误设下为 LMM 提供名义覆盖概率，为稳健推断提供了工具。

当前 Frontier 与本文位置： - Wang et al. (2021)：在平行臂设计（parallel-arm design）中证明了 LMM 在任意模型误设下对 ATE 的估计仍具有一致性。本文作者指出，这一性质并不直接推广到 SW-CRT，因为 SW-CRT 的时间趋势与处理效应存在更复杂的纠缠。 - Chen & Li (2023) 和 Su & Ding (2021)：从有限总体（finite-population）视角，证明了独立性 GEE 在 SW-CRT 和平行臂设计中的模型稳健性。本文则从超总体（super-population）视角，系统性地研究了 LMM 和 GEE（多种工作相关结构）在 SW-CRT 下的模型稳健性，并特别关注了处理效应结构的正确设定这一核心条件。

本文的位置：本文是第一个系统性地回答“在 SW-CRT 中，基于模型的方法需要正确设定哪些部分才能对非参数定义的边际处理效应 estimand 进行稳健推断”的工作。它统一了 LMM 和 GEE 的分析框架，并明确了处理效应结构是唯一必须正确设定的部分。

子线索聚类¶

处理效应结构异质性：关注真实处理效应如何随暴露时间或日历时间变化，以及错误假设常数效应带来的后果。代表工作：Kenny et al. (2022), Maleyeff et al. (2022), Roth & Sant’Anna (2021), Hughes et al. (2015)。
相关结构误设与方差估计：研究 LMM 或 GEE 中随机效应或工作相关结构误设对点估计和方差估计的影响。代表工作：Kasza & Forbes (2019), Bowden et al. (2021), Voldal et al. (2022), Ouyang et al. (2023), Li et al. (2018)。
模型稳健推断与 estimand 对齐：从设计或模型辅助的角度，发展对模型误设不敏感的估计方法，并确保估计量对应到有意义的非参数 estimand。代表工作：Wang et al. (2021), Wang et al. (2022), Su & Ding (2021), Chen & Li (2023), 本文。

这个方向在追问的核心问题¶

一致性条件：在模型误设下，基于 LMM/GEE 的估计量何时仍能一致地估计目标非参数 estimand？需要正确设定模型的哪一部分？
方差估计有效性：当模型误设时，模型方差估计量（model-based variance）和 sandwich 方差估计量（robust variance）的表现如何？哪个能提供有效的推断？
Estimand 定义与对齐：如何明确定义 SW-CRT 中有意义的边际处理效应 estimand（如个体平均、整群平均、随时间变化的效应），并确保分析方法能正确估计它？
有限样本性质：在 SW-CRT 常见的少量整群（如 8-18 个）情况下，渐近理论是否仍然可靠？小样本校正方法（如 bias-corrected sandwich variance）的表现如何？

当前主流方法与已知瓶颈：主流方法仍是使用 LMM 或 GEE 并假设常数处理效应。已知瓶颈是，当处理效应结构异质时，这种方法会产生严重偏倚；即使处理效应结构正确，其他部分的误设（如相关结构）也可能导致方差估计偏倚，影响推断。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“尽管已有大量关于 SW-CRT 模型误设后果的研究，但缺乏一个统一的、系统性的理论来回答‘基于模型的方法需要正确设定哪些部分才能对非参数 estimand 进行稳健推断’。” 作者将本文定位为填补这一空白的“显然的下一步”。

被淡化或回避的竞争路线： - 设计-基于（design-based）或有限总体（finite-population）视角：作者在引言中提到了 Su & Ding (2021) 和 Chen & Li (2023) 的工作，但将其定位为“有限总体视角”，而本文采用“超总体视角”。作者没有深入讨论两种视角在结论上的本质差异或优劣，而是将其作为不同的框架并列。这暗示作者认为超总体视角下的结论更具普遍性或更贴近实际应用。 - 非参数或半参数方法：作者聚焦于“基于模型的方法”（LMM, GEE），没有讨论使用非参数或半参数方法（如 g-computation 结合机器学习）来直接估计 estimand 的可能性。这可能是为了保持论文的焦点，但也回避了“是否必须依赖参数模型”这一更根本的问题。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 没有发现明显缺失的关键引用。作者引用了该领域几乎所有重要的、近期的综述和方法论文献。这可能是因为 SW-CRT 的模型稳健推断是一个相对聚焦的子领域，文献脉络清晰。

张力¶

未见明显对立引用。被引工作之间更多是互补关系：有的揭示问题（如 Kenny et al. 揭示常数效应假设的偏倚），有的提供解决方案（如 Ouyang et al. 验证 sandwich 方差的有效性），有的提供不同视角（如 Su & Ding 的有限总体视角）。它们共同指向“模型误设是 SW-CRT 分析中必须正视的问题”这一共识。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( i = 1, \dots, I \)：整群（cluster）索引。
\( j = 1, \dots, J \)：日历时间（calendar time period）索引。
\( k = 1, \dots, N_{ij} \)：在整群 \( i \)、时间 \( j \) 内的个体索引。
\( Y_{ijk} \)：个体 \( k \) 在整群 \( i \)、时间 \( j \) 的可观测结果（连续型或二值）。
\( A_{ij} \)：整群 \( i \) 在时间 \( j \) 的处理指示变量（0 = 对照，1 = 处理）。这是由 SW-CRT 设计决定的已知量。
\( X_{ijk} \)：个体 \( k \) 在整群 \( i \)、时间 \( j \) 的协变量向量（可观测）。
\( Y_{ijk}(a) \)：潜在结果（potential outcome），即整群 \( i \) 在时间 \( j \) 被分配处理 \( a \) 时，个体 \( k \) 的结果。这是不可观测的，是因果推断的核心反事实量。
\( \tau \)：暴露时间（exposure time），即整群从开始接受处理到当前时间 \( j \) 的时长。\( \tau = j - j_0 \)，其中 \( j_0 \) 是该整群开始接受处理的时间点。
\( \Delta_j(d) \)：处理效应 estimand，定义为在日历时间 \( j \)、暴露时间 \( d \) 下的边际平均处理效应。例如，\( \Delta_j(d) = E[Y_{ijk}(1) - Y_{ijk}(0) | \text{在时间 } j \text{ 已暴露 } d \text{ 个周期}] \)。
\( \Delta_{D\text{-avg}} \)：暴露时间平均处理效应，对所有可能的 \( (j, d) \) 组合的 \( \Delta_j(d) \) 进行平均。
\( \Delta_{S\text{-avg}} \)：饱和平均处理效应，对所有 \( (j, d) \) 组合的 \( \Delta_j(d) \) 进行简单平均（如 Roth & Sant’Anna 2021 中的定义）。
模型：
本文考虑一个超总体模型（super-population model），即 \( (Y_{ijk}(0), Y_{ijk}(1), X_{ijk}) \) 是从某个无限总体中独立同分布（i.i.d.）抽取的。整群 \( i \) 的随机化序列是固定的设计特征。
可观测数据由一致性假设（consistency）连接：\( Y_{ijk} = Y_{ijk}(A_{ij}) \)。
分析模型是工作模型（working model），例如一个线性混合模型：
\[Y_{ijk} = \beta_0 + \beta_1 j + \beta_2 A_{ij} + \beta_3 (A_{ij} \times j) + \gamma_i + \epsilon_{ijk}\]
其中 \( \gamma_i \) 是随机截距，\( \epsilon_{ijk} \) 是误差项。这个模型可能被误设（例如，真实关系是非线性的，或随机效应结构更复杂）。
目标 estimand 是非参数定义的边际处理效应，不依赖于任何工作模型。
可观测数据：
研究者实际能观测到的是：\( \{Y_{ijk}, A_{ij}, X_{ijk}\} \) 对于所有 \( i, j, k \)。
研究者想要但观测不到的是：潜在结果 \( Y_{ijk}(0) \) 和 \( Y_{ijk}(1) \) 的完整联合分布。识别依赖于 SW-CRT 的随机化设计（处理分配时间随机）和一致性假设。

第二步：讲最小内核¶

最简特例：考虑一个最简单的 SW-CRT，只有 \( I=2 \) 个整群，\( J=2 \) 个时间周期。整群 1 在时间 1 接受处理（\( A_{11}=1 \)），整群 2 在时间 2 接受处理（\( A_{21}=0, A_{22}=1 \)）。每个整群-时间组合只有一个个体（\( N_{ij}=1 \)），且没有协变量。结果 \( Y_{ij} \) 是连续的。目标 estimand 是常数处理效应 \( \Delta \)，即 \( E[Y_{ij}(1) - Y_{ij}(0)] \)。

在这个特例下，核心问题退化成什么？

我们使用一个错误的工作模型：假设一个没有时间趋势的简单线性模型：

\[Y_{ij} = \beta_0 + \beta_1 A_{ij} + \epsilon_{ij}\]

其中 \( \epsilon_{ij} \) 是独立同分布的误差。这个模型是误设的，因为它忽略了可能存在的日历时间趋势。

可观测数据： - 整群 1，时间 1：\( Y_{11} = Y_{11}(1) \) （处理） - 整群 1，时间 2：\( Y_{12} = Y_{12}(1) \) （处理，因为整群 1 在时间 1 后一直处于处理状态） - 整群 2，时间 1：\( Y_{21} = Y_{21}(0) \) （对照） - 整群 2，时间 2：\( Y_{22} = Y_{22}(1) \) （处理）

要证的命题：即使工作模型误设，OLS 估计量 \( \hat{\beta}_1 \) 是否仍能一致地估计 \( \Delta \)？

证明怎么走： 1. OLS 估计量 \( \hat{\beta}_1 \) 的表达式是：

\[\hat{\beta}_1 = \frac{\sum_{i,j} (A_{ij} - \bar{A})(Y_{ij} - \bar{Y})}{\sum_{i,j} (A_{ij} - \bar{A})^2}\]

其中 \( \bar{A} \) 和 \( \bar{Y} \) 是样本均值。 2. 代入可观测数据（\( Y_{11}=Y_{11}(1), Y_{12}=Y_{12}(1), Y_{21}=Y_{21}(0), Y_{22}=Y_{22}(1) \)）和 \( A \) 值（1, 1, 0, 1），计算 \( \bar{A} = 3/4 \)。 3. 计算分子：

\[\begin{aligned} \text{分子} &= (1 - 3/4)Y_{11}(1) + (1 - 3/4)Y_{12}(1) + (0 - 3/4)Y_{21}(0) + (1 - 3/4)Y_{22}(1) \\ &= \frac{1}{4}[Y_{11}(1) + Y_{12}(1) + Y_{22}(1)] - \frac{3}{4}Y_{21}(0) \end{aligned}\]

4. 计算分母：\( \sum (A_{ij} - \bar{A})^2 = 3 \times (1/4)^2 + 1 \times (3/4)^2 = 3/16 + 9/16 = 12/16 = 3/4 \)。 5. 因此：

\[\hat{\beta}_1 = \frac{ \frac{1}{4}[Y_{11}(1) + Y_{12}(1) + Y_{22}(1)] - \frac{3}{4}Y_{21}(0) }{3/4} = \frac{1}{3}[Y_{11}(1) + Y_{12}(1) + Y_{22}(1)] - Y_{21}(0)\]

6. 取期望（在超总体下）：

\[E[\hat{\beta}_1] = \frac{1}{3} [E[Y(1)] + E[Y(1)] + E[Y(1)]] - E[Y(0)] = E[Y(1)] - E[Y(0)] = \Delta\]

这里我们假设了潜在结果的期望不依赖于时间或整群（即没有时间趋势，也没有整群异质性），这是为了简化。如果存在时间趋势，这个期望就不再等于 \( \Delta \)。

为什么成立？ 在这个特例中，即使工作模型错误地忽略了时间趋势，OLS 估计量仍然一致地估计了常数处理效应 \( \Delta \)，因为处理效应结构（常数）被正确指定了。OLS 本质上是在计算处理组和对照组均值的差异，而 SW-CRT 的设计（所有整群最终都接受处理）确保了处理组和对照组在时间上的某种平衡。这个特例直观地展示了本文的核心论点：只要处理效应结构正确，点估计的一致性可以容忍模型其他部分的误设。

论文的一般情形：本文的一般情形将这个直觉推广到更复杂的设定：多个整群、多个时间点、存在时间趋势、处理效应随暴露时间变化、存在协变量、使用 GEE 或 LMM 等。核心数学困难在于，当处理效应结构复杂（如饱和结构）时，需要证明在模型误设下，GEE 或 LMM 的估计方程的解仍然收敛到目标 estimand。这需要更精细的代数操作和渐近理论。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在阶梯楔形设计（SW-CRT）中，当使用线性混合模型（LMM）或广义估计方程（GEE）时，在模型误设下，这些方法能否对非参数定义的边际处理效应 estimand 进行一致估计和有效推断。
核心工具/方法：利用 M-估计理论（sandwich 方差估计量）和 g-computation 步骤，系统性地分析了 LMM 和 GEE（独立性、简单可交换、嵌套可交换工作相关结构）在模型误设下的渐近性质。
主要结论：要实现模型稳健推断，通常只需正确指定处理效应结构（如常数、随时间变化、饱和结构），而协变量函数形式、随机效应结构、误差分布等其余部分可以误设；方差估计通过 sandwich 估计量获得稳健性。对于非恒等链接函数或比率 estimand，还需额外进行 g-computation 步骤。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

Estimand 定义：本文定义了三种主要的边际处理效应 estimand：
\( \Delta_j(d) \)：在日历时间 \( j \)、暴露时间 \( d \) 下的处理效应。
\( \Delta_{D\text{-avg}} \)：暴露时间平均处理效应，对 \( \Delta_j(d) \) 按暴露时间 \( d \) 进行加权平均。
\( \Delta_{S\text{-avg}} \)：饱和平均处理效应，对所有 \( (j, d) \) 组合的 \( \Delta_j(d) \) 进行简单平均。这些 estimand 都是通过潜在结果非参数定义的，不依赖于任何模型。
处理效应结构：本文考虑了三种处理效应结构：
常数结构：\( \Delta_j(d) = \Delta \)，对所有 \( j, d \)。
暴露时间结构：\( \Delta_j(d) = \Delta(d) \)，只依赖于暴露时间 \( d \)。
饱和结构：\( \Delta_j(d) \) 对每个 \( (j, d) \) 组合都不同。
工作模型：本文考虑的工作模型包括：
线性混合模型 (LMM)：\( Y_{ijk} = \text{固定效应部分} + \text{随机效应部分} + \epsilon_{ijk} \)。固定效应部分包含处理效应结构（如 \( \beta A_{ij} \) 或 \( \sum_d \beta_d I(\text{exposure time}=d) \)）和日历时间效应（如 \( \gamma_j \)）。随机效应部分可以是随机截距、随机时间斜率等。
广义估计方程 (GEE)：\( E[Y_{ijk}] = g^{-1}(\text{线性预测器}) \)，其中 \( g \) 是链接函数（如恒等、logit）。工作相关结构可以是独立性、简单可交换、嵌套可交换。
关键假设：
一致性假设：\( Y_{ijk} = Y_{ijk}(A_{ij}) \)。
随机化：处理分配时间 \( A_{ij} \) 由 SW-CRT 设计决定，是随机的。
无干扰假设 (SUTVA)：一个整群的处理状态不影响其他整群的结果。
模型误设：工作模型是“工作”的，即它可能不是真实数据生成机制的正确描述。本文不假设工作模型正确。
相比已有文献的强化/放宽：
强化：本文是第一个系统性地将“处理效应结构正确设定”作为模型稳健性的核心条件提出，并给出了严格的证明。之前的工作（如 Kenny et al. 2022）更多是揭示问题，而非给出充分条件。
放宽：本文放宽了对协变量函数形式、随机效应结构、误差分布等部分的正确设定要求。这与 Wang et al. (2021) 在平行臂设计中的结论类似，但本文证明了在 SW-CRT 中，这一性质依赖于处理效应结构的正确设定，而平行臂设计则不需要。

主要结果¶

定理 1（核心结果，非正式陈述）：对于连续结果，使用恒等链接函数的 LMM 或 GEE，如果工作模型中的处理效应结构（如常数、暴露时间、饱和）与目标 estimand 的定义一致，那么即使协变量函数形式、随机效应结构、误差分布被误设，点估计量仍然是目标 estimand 的一致估计。此外，使用 sandwich 方差估计量可以得到渐近有效的推断。

直觉：这个定理的核心在于，SW-CRT 的设计（所有整群最终都接受处理）和正确的处理效应结构共同确保了估计方程的解收敛到目标 estimand。模型的其他部分（如随机效应）主要影响方差，而不影响点估计的一致性。Sandwich 方差估计量则能正确反映模型误设带来的额外变异性。
必要条件：处理效应结构必须正确指定。例如，如果真实处理效应随暴露时间变化，但工作模型假设常数效应，则估计量会有偏。
解决的技术难点：证明需要处理模型误设下估计方程的解的渐近行为。作者使用了 M-估计理论，证明了即使工作模型错误，估计方程的解仍然收敛到某个“伪真值”（pseudo-true value），然后证明这个伪真值在正确的处理效应结构下等于目标 estimand。

定理 2（g-computation 的必要性）：对于非恒等链接函数（如 logit）或比率 estimand（如风险比），即使处理效应结构正确，直接使用 GEE 的系数估计量也可能不一致。需要额外进行 g-computation 步骤：首先用工作模型估计每个个体的潜在结果均值，然后对这些预测值进行平均，才能得到目标 estimand 的一致估计。

直觉：对于非线性链接函数，模型系数（如 log-OR）的边际效应不等于边际效应（如 risk difference）的对数。GEE 直接估计的是模型系数，而目标 estimand 是边际效应。g-computation 通过预测和平均，将模型系数转化为边际效应，从而绕过了非线性的问题。
解决的技术难点：证明 g-computation 估计量在模型误设下的一致性。这需要证明，即使工作模型误设，只要处理效应结构正确，对潜在结果均值的预测仍然是正确的（在某种平均意义上）。

证明路线与技术技巧¶

整体路线： 1. 定义估计量：将 LMM 或 GEE 的估计量定义为某个估计方程（estimating equation）的解 \( \hat{\theta} \)。 2. 建立渐近线性表示：在正则条件下，证明 \( \hat{\theta} \) 是渐近正态的，并且可以表示为 \( \sqrt{n}(\hat{\theta} - \theta^*) = \frac{1}{\sqrt{n}} \sum_i \psi_i + o_p(1) \)，其中 \( \theta^* \) 是估计方程解的“伪真值”，\( \psi_i \) 是影响函数（influence function）。 3. 识别伪真值：证明在正确的处理效应结构下，伪真值 \( \theta^* \) 中的处理效应参数恰好等于目标非参数 estimand。这一步是关键，需要利用 SW-CRT 的设计特性和处理效应结构的正确性。 4. 方差估计：证明 sandwich 方差估计量 \( \hat{V} = \hat{A}^{-1} \hat{B} \hat{A}^{-1} \) 是渐近方差的一致估计，其中 \( \hat{A} \) 是估计方程的导数矩阵，\( \hat{B} \) 是影响函数的样本协方差矩阵。 5. g-computation 扩展：对于非线性链接函数，证明直接估计的系数 \( \hat{\beta} \) 的伪真值不等于目标 estimand。然后定义 g-computation 估计量 \( \hat{\Delta}_{GC} = \frac{1}{n} \sum_{i,j,k} [g^{-1}(X_{ijk}^T \hat{\beta}_1) - g^{-1}(X_{ijk}^T \hat{\beta}_0)] \)，并证明它的一致性和渐近正态性。

关键跳跃点： - 从“模型正确”到“模型误设”的跳跃：传统证明假设模型正确，因此伪真值就是真实参数。本文的关键跳跃在于，在模型误设下，仍然能证明伪真值中的处理效应参数等于目标 estimand。这依赖于对 SW-CRT 设计矩阵的代数操作和对处理效应结构正确性的利用。 - g-computation 的 Delta 方法：证明 g-computation 估计量的渐近方差需要应用 Delta 方法，并处理模型系数估计的不确定性。这需要推导出 g-computation 估计量的影响函数，并证明 sandwich 方差估计量仍然有效。

技术技巧点名： - M-估计理论：用于建立估计量的渐近正态性和 sandwich 方差估计量的有效性。这是整个证明的骨架。 - 影响函数（Influence Function）：用于推导估计量的渐近方差，并证明 g-computation 估计量的渐近性质。 - Delta 方法：用于处理 g-computation 中非线性变换（\( g^{-1} \)）带来的不确定性。 - 代数操作：用于在模型误设下，将估计方程的解与目标 estimand 联系起来。这涉及到对 SW-CRT 设计矩阵的秩、投影等性质的利用。

真实例子与应用¶

SMARThealth India 试验 (Peiris et al., 2019)： - 数据/场景：这是一个在印度农村进行的 SW-CRT，评估由社区卫生工作者管理的移动健康干预对降低心血管疾病风险的效果。试验有 18 个初级卫生中心（PHC）整群，随机分配到 3 个步骤（6 个月一步），共 4 个时间周期。主要结局是收缩压（SBP）达标率（<140mmHg）的二值变量。 - 如何应用本文方法：作者使用 GEE 和 LMM 重新分析了该试验数据。他们考虑了不同的处理效应结构（常数、暴露时间、饱和）和不同的工作相关结构（独立性、可交换）。对于二值结局，他们使用了 logit 链接函数，并应用了 g-computation 步骤来估计风险差（risk difference）和风险比（risk ratio）等边际 estimand。 - 结果：分析结果展示了不同处理效应结构假设下估计值的差异。例如，常数效应假设可能掩盖了处理效应随时间变化的模式。Sandwich 方差估计量提供了比模型方差估计量更稳健的置信区间。g-computation 步骤使得估计的边际效应（如风险差）在不同模型设定下更加稳健。 - 这个例子想说明什么：这个真实数据例子旨在验证本文的理论结果，并展示在实践中，选择正确的处理效应结构和应用 g-computation 步骤对于获得可靠且可解释的因果推断至关重要。它说明了本文的理论不是空洞的，而是有直接的实际指导意义。

🔎 结论是否比证明窄¶

是。本文的主要结论（处理效应结构正确是模型稳健性的核心条件）在证明中得到了严格的支持。然而，有几个地方结论可能比证明窄： - 有限样本性质：本文的证明是渐近的（\( I \to \infty \)）。在 SW-CRT 常见的少量整群（如 \( I=8 \)）情况下，渐近理论可能不准确。作者在模拟实验中考虑了少量整群的情况，并使用了小样本校正的 sandwich 方差估计量，但没有给出有限样本下的严格理论保证。结论中关于“有效推断”的说法，在严格意义上只适用于渐近情况。 - g-computation 的效率：本文证明了 g-computation 估计量的一致性，但没有证明其半参数效率（semiparametric efficiency）。即，它可能不是达到半参数效率界的最优估计量。作者在结论中提到了“模型稳健”，但没有声称“高效”。这是一个值得注意的窄化。 - 协变量调整：本文的结论主要针对处理效应结构。对于协变量调整，结论是“可以误设”，但没有给出在协变量误设下，估计量的方差如何变化。例如，如果协变量函数形式严重误设，虽然点估计可能仍然一致，但方差可能会增大，导致效率损失。结论没有量化这种效率损失。

四、开放问题¶

有限样本下的精确推断：本文的结论基于渐近理论。对于 SW-CRT 常见的少量整群（如 \( I < 20 \)），sandwich 方差估计量的有限样本覆盖概率如何？是否存在更精确的有限样本校正方法（如基于 bootstrap 或 t 分布的自由度校正）？扎根点：模拟实验中使用了小样本校正，但理论部分未涉及。
半参数效率估计量：本文证明了 g-computation 估计量的一致性，但未证明其效率。是否存在一个达到半参数效率界的估计量，既能保持模型稳健性，又能实现最优方差？扎根点：结论中未提及效率，只提及稳健性。
协变量误设下的效率损失：本文证明了协变量函数形式可以误设而不影响一致性，但未量化这种误设带来的效率损失。在什么条件下，协变量误设会导致严重的效率损失？是否存在一种“最优”的协变量调整方式，能在模型误设下仍然保持高效率？扎根点：结论中“协变量函数形式可以误设”的陈述，没有附带效率分析。
处理效应结构的选择与检验：本文假设研究者知道正确的处理效应结构。在实践中，如何从数据中检验处理效应结构（如常数 vs. 暴露时间）？是否存在一种模型选择或假设检验方法，能在模型误设下仍然有效？扎根点：作者在引言中提到了检验 \( H_0: \) 常数 vs. 暴露时间效应（Maleyeff et al., 2022），但本文未发展此类检验。

Maintained by 陈星宇 · Homepage · Source on GitHub