Randomization inference for cluster-randomized test-negative designs with application to Dengue studies: Unbiased estimation, partial compliance, and stepped-wedge design¶

作者: Bingkai Wang, Suzanne M. Dufault, Dylan S. Small, Nicholas P. Jewell
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心是cluster-randomized test-negative design (CR-TND) 的统计推断问题。CR-TND 是一种结合了整群随机试验（CRT）和检测阴性设计（TND）的新型试验设计，originally 被提议用于评估社区层面的干预措施（如释放携带 Wolbachia 的蚊子）对登革热等传染病的效果。它的根本统计挑战在于：通过被动监测系统收集数据时，干预组和对照组个体因“就医行为”（healthcare-seeking behavior）不同而产生的选择偏倚，如何在整群随机化的约束下得到因果效应的无偏估计。当前该方向的成熟度处于方法学发展的关键期：基础设计和识别策略已提出，但关于偏倚来源、小样本推断和复杂设计扩展的严格理论处理才刚刚开始。

发展脉络（从 introduction + 参考文献梳理）¶

奠基工作：TND 设计的识别与早期 CRT 分析
- Castilla et al. (2013) 和 Jackson & Nelson (2013) 奠定了原始 TND 设计的理论基础：通过对比寻求医疗服务的“检测阳性”与“检测阴性”者，可以无偏估计疫苗有效性，前提是就医行为与感染状态无关。Cowling & Sullivan (2017) 系统综述了 TND 设计的理论基础和潜在偏倚，通过有向无环图（DAG）和模拟研究，阐明了当疫苗接种不影响非流感类呼吸道疾病发病率时，TND 估计的无偏性。
- Haber et al. (2014) 开发了一个概率模型，严谨比较了 TND 和传统病例对照研究设计的偏倚与精度，证明了当接种不影响非流感类疾病发病率时，TND 估计是无偏的。
- 在整群随机试验方面，Anders et al. (2018a)（The AWED trial protocol）提供了第一个应用 CR-TND 的详细试验方案，Anders et al. (2018b)（Cluster-Randomized Test-Negative Design Trials）则通过模拟研究论证了 CR-TND 可以比传统 CRT 更高效、更易实施，这成为本文最重要的动机和方法学起点。Dufault & Jewell (2020) 是离本文最近的直接前身，他们首次在 CR-TND 的背景下研究计数数据的分析，并提出使用“阴性对照计数”（negative control counts）来校正差动计数（differential ascertainment）的偏倚。这是本文直接对标和扩展的工作。
主要进展：基于设计的推断框架与偏倚问题
- 对整群随机试验的分析，传统方法依赖于 GLMM 或 GEE。McNeish & Stapleton (2016) 的模拟研究表明，在聚类数很少时，这些基于似然或渐近的方法表现不佳。Su & Ding (2021) 和 Wang et al. (2021) 从设计基（design-based）角度比较了不同回归策略的精度，指出在聚类数很大时，基于聚类总数的回归更优，并强调了协变量调整的重要性。
- 在推断框架上，Li & Ding (2017) 和 Roth & Sant'Anna (2021) 的工作建立了在有限总体和阶梯设计中使用随机化推断（permutation tests）进行有效推断的理论基础，并证明了某些估计量的渐近效率等价性。Lin (2012) 回应了 Freedman 对回归调整的批评，证明在大样本下，包含处理-协变量交互项的 OLS 不会损害精度，且 Huber-White 标准误有效。
- 针对 CR-TND 特有的偏倚，Haber et al. (2015) 指出，在 TND 中，效应的估计依赖于一个“外部有效性”假设。Chua et al. (2020) 的系统综述则全面总结了 TND 在观察性研究中的方法学异质性，特别强调就医行为（S_ij）被作为预处理混杂因子处理。本文作者指出，这些文献中的处理方式与自己在整群随机化背景下的建模不同。
当前 Frontier 与本文位置
- 当前的 frontier 是：在现实 CR-TND 场景下，当关键的“差医行为” (differential healthcare-seeking behavior) 在聚类间并非恒定常数时，如何设计无偏、稳健且能处理部分依从性（partial compliance）和阶梯设计（stepped-wedge design）的推断方法。
- Dufault & Jewell (2020) 的模型假设差医行为在聚类间是常数。这是本文直接攻击的缺口。
- 本文将自己定位为：在随机化推断这一稳健框架下，处理异质性差医行为带来的偏倚，并自然地扩展到部分依从性（工具变量） 和阶梯设计这两个实践常见场景。作者通过提出一个灵活的log-contrast 估计量，将偏倚校正问题转化为一个协变量调整问题，证明其无偏性不依赖于差医行为的同质性假设。

子线索聚类¶

这些被引工作大致可分为以下子线索：

线索 1：TND 设计的基础理论与偏倚分析 (Jackson & Nelson, 2013; Haber et al., 2015; Cowling & Sullivan, 2017; Chua et al., 2020)：关注 TND 作为观察性研究设计的识别假设、偏倚来源和估计方法。
线索 2：整群随机试验（CRT）上的设计基推断与回归调整 (Lin, 2012; Li & Ding, 2017; Roth & Sant'Anna, 2021; Su & Ding, 2021)：聚焦于在有限总体框架下，利用随机化进行检验和推断，并研究回归调整对效率和推断有效性的影响。
线索 3：CR-TND 设计与应用 (Anders et al., 2018a, 2018b; Dufault & Jewell, 2020)：直接针对 CR-TND 设计的方法学研究，提出原始设计、分析策略（如使用阴性对照）与应用实例。
线索 4：小样本与复杂 CRT 设计 (McNeish & Stapleton, 2016; Li et al., 2021; Hussey & Hughes, 2007)：研究如何在小样本（少量聚类）或复杂设计（如阶梯设计）下进行有效的统计推断。

核心问题与已知瓶颈¶

核心问题 1：CR-TND 的识别假设是什么？"就医行为"如何影响因果效应的识别和估计？
- 瓶颈：以往文献（如 Dufault & Jewell, 2020）假设差医行为在聚类间恒定，这个强假设在实践中很难验证和满足。
核心问题 2：当聚类数很少时，如何获得类型 I 错误率可控的检验和精确置信区间？
- 瓶颈：渐近近似（如 GLMM, GEE）在小样本下表现很差（McNeish & Stapleton, 2016），需要依赖随机化推断等精确方法。
核心问题 3：如何在 CR-TND 中处理个体层面的部分依从性（即实际接受干预的程度不同）？
- 瓶颈：依从性引入了内生性，单纯比较 ITT 效应无法揭示干预的生物学效力。如何将工具变量方法融入 CR-TND 的随机化推断框架中，是一个重要的方法学缺口。
核心问题 4：如何将 CR-TND 扩展到更复杂的“阶梯设计”中？
- 瓶颈：阶梯设计的时间趋势和干预效应的混杂，使得标准分析更加复杂，现有方法多依赖于正确的模型设定（如混合效应模型）。如何在更稳健的随机化推断框架下处理这个问题是个挑战。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将Dufault & Jewell (2020) 的“差医行为在聚类间恒定”假设等同于一个“至少 m-1 个附加假设”（p.3），并指出这个假设在实际中“未必令人安心，实验者也未必能核实”（p.3）。通过将这假设与标准化估计量的无偏性建立联系，作者将其刻画为当前CR-TND分析中偏倚和 I 类错误膨胀的根源。因此，将 Dufault & Jewell 的工作描述为一个“特定但重要情况”下的重要进展，而自己的工作是“一般化且更稳健”的拓展。这是典型的“指出前人遗漏假设 → 提出更一般方法”的框架。
哪些竞争路线被他淡化或回避了：
- 作者明确指出，他们的设置与观察性 TND 文献（如 Chua et al., 2020; Sullivan et al., 2016; Westreich & Hudgens, 2016）不同，后者将就医行为 S_ij 视为“预处理混杂因子”。作者通过将 S_ij 建模为依赖于处理组和试验类型的泊松比率（而非一个潜在的混杂变量），巧妙地回避了与庞大观察性研究文献的直接冲突，但这一建模选择是否在所有情况下都合理，值得研究者自己判断。
- Su & Ding (2021) 和 Wang et al. (2021) 的工作表明，个体层面分析在某些 CRT 设置下可能不如聚类层面分析精确。本文作者没有正面回应对 log-contrast 估计量效率的潜在质疑，而是通过理论（等价于最优线性组合）和模拟证明其优越性。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 未见到任何关于“多重假设检验校正”的引用。 CR-TND 通常涉及多个结局（如多个血清型或多种 arbovirus 的病种），或对亚组进行分析，但本文未提及如何在随机化推断框架下对多重检验进行校正（如 Holm-Bonferroni, Benjamini-Hochberg 在排列检验中的实现），这是一个明显的空白。

张力¶

未见明显对立引用。 被引的文献（特别是 Dufault & Jewell, 2020 和 Su & Ding, 2021）之间是互补或递进关系，而非矛盾关系。唯一的“张力”是作者在理论上指出的，当他放宽 Dufault & Jewell 的关键假设时，现有方法（即 Dufault & Jewell 的方法）会产生偏倚，而自己的方法则不会。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）：
- m: 聚类总数（整群数量）。
- i: 聚类索引（i = 1, ..., m）。
- Z_i: 治疗分配指示变量（Z_i = 1 表示第 i 个聚类被分配到干预组，Z_i = 0 表示对照组）。这是随机分配的结果。
- (Y_ij, S_ij)：第 i 个聚类中第 j 个参与者的可观测二元变量对。
- Y_ij: 检测结果（Y_ij = 1 表示检测阳性（病例），Y_ij = 0 表示检测阴性（对照））。
- S_ij: 试验类型指示变量（S_ij = 1 表示该参与者是“符合症状定义的发热病例”（eligible febrile case），S_ij = 0 表示是“阴性对照”（negative control）。这个阴性对照是独立招募的，用于测量基线就医率。）
- R_ij: 指示个体 j 是否报告（或出现在医疗系统中）的隐含变量。本文使用 S_ij 作为观察到的试验类型，但潜在就医行为由 (Y_ij, S_ij) 的分布隐含建模。
- λ_i^a: 参数 / estimand。在治疗分配 a（a = 0 对照，a = 1 干预）下，第 i 个聚类中病例（test-positive）的潜在就医率（incidence rate）。这是定义的核心。
- κ_i^a: 在治疗分配 a 下，第 i 个聚类中阴性对照（test-negative）的潜在就医率。这是建模就医行为的基线。
- n_i, n_i^Y, n_i^S: 可观测的计数。
- n_i^Y = Σ_j Y_ij：第 i 个聚类中病例（detected test-positive）的总数。
- n_i^S = Σ_j S_ij：第 i 个聚类中阴性对照（detected test-negative）的总数。
- n_i = n_i^Y + n_i^S：第 i 个聚类中所有检测参与者的总数。
- τ: 目标因果 estimand，即干预对病例就医率的对数比率（log-rate ratio）的平均处理效应（ATE）：τ = (1/m) Σ_i log(λ_i^1 / λ_i^0)。
- β: 目标因果 estimand，干预效应的对数风险比（log-OR）。在标准泊松模型下，β = log(λ_i^1 / λ_i^0) 是一个常数（对 i 恒定），同等于对数风险比。作者的主要估计量就是 log-contrast estimator (l̂og(λ))。
- X_i: 观测到的聚类层面协变量向量。对于每个聚类 i 已知。
- θ: 协变量 X_i 的系数向量（在 log-contrast 估计量中）。
模型：
- 数据生成机制：对每个聚类 i，给定治疗分配 Z_i，存在一个潜在泊松模型（假设1, 泊松假设）：
  - Y_ij | (Z_i = a) ~ Poisson(λ_i^a) (独立同分布)
  - S_ij | (Z_i = a) ~ Poisson(κ_i^a) (独立同分布)
  - 其中 λ_i^a 和 κ_i^a 是第 i 个聚类在治疗水平 a 下的潜在事件率。
- 该模型将可观测数据过程理想化：所有检测病例和阴性对照是从两个独立的泊松过程中抽取的，其比率取决于聚类和治疗。S_ij 是阴性对照的计数，用于测量基线就医率。
- Y_ij 和 S_ij 互斥（每个个体要么是病例，要么是阴性对照，不能两者都是）。
- 最终目标 estimand：β = log(λ_i^1 / λ_i^0) （常数干预效应假设）或 τ = (1/m) Σ_i log(λ_i^1/λ_i^0)。论文主要在前者下推导主要统计量。
可观测数据：我们观测到：
- 治疗分配: Z_i（已知，由随机化决定）。
- 聚类层面的计数: 对每个聚类 i，我们观测到 (n_i^Y, n_i^S, n_i)。即该聚类的总病例数、总阴性对照数、以及总参与者数。
- 聚类层面协变量: X_i（可选）。
- 不可观测的：我们不知道 λ_i^0, λ_i^1, 以及 κ_i^0, κ_i^1。我们只能观察到由泊松生成的总计数。关键假设（TND 有效性假设，假设3）是 κ_i^0 = κ_i^1，即干预不会改变阴性对照的就医率。这是 TND 设计的核心识别假设。

第二步：讲最小内核¶

最简特例：假设只有 m=2 个聚类，一个被随机分配到干预组（Z=1），一个到对照组（Z=0）。每个聚类只有一种试验类型，比如 n_i^Y = 10（病例数）和 n_i^S = 90（阴性对照数）。我们想知道干预（Z=1）是否使感染风险 λ 下降了，更具体地说，我们想估计相对风险 λ_i^1 / λ_i^0 的对数 β。

现有方法（如 Dufault & Jewell, 2020 的无校正方法）：直接计算比值比 OR = (n_1^Y / n_1^S) / (n_0^Y / n_0^S)，并假设 E[log(OR)] = β。但这个方法隐含着 κ_i^0 = κ_i^1（干预不影响阴性对照就医率）以及 λ_i^a / κ_i^a 的比值在聚类间恒定（即 λ_i^1 / κ_i^1 = λ_0^1 / κ_0^1 和 λ_i^0 / κ_i^0 = λ_0^0 / κ_0^0 对 i 恒定）。“恒定”假设意味着：如果治疗组中的某个聚类因为某种原因就医率比对照组高（比如由于干预组接收了更多宣传，导致阴性对照的就医率上升，即 κ_i^1 ≠ κ_i^0 且随聚类变化），那么直接 OR 就会偏。

本文的核心思路：我们不直接比较 n_i^Y 和 n_i^S，而是做一个“后门”调整。

Log-Contrast Estimator: 作者定义： Y_i = log(n_i^Y + 0.5 / 2) （加一个小常数避免 log(0)） S_i = log(n_i^S + 0.5 / 2)

然后，估计量 是 l̂og(λ)_i = (Y_i + S_i) / 2。作者证明： E[Y_i | Z_i = a] ≈ log(λ_i^a) + 常数 E[S_i | Z_i = a] ≈ log(κ_i^a) + 常数 因此： E[l̂og(λ)_i | Z_i = a] ≈ (log(λ_i^a) + log(κ_i^a)) / 2 + 常数

现在，如果TND 条件成立（κ_i^0 = κ_i^1），那么 E[l̂og(λ)i | Z=1] - E[l̂og(λ)i | Z=0] 就等于 (log(λ_i^1) - log(λ_i^0)) / 2 + 常数。注意，这不是 β！但如果我们对 l̂og(λ)_i 做聚类层面的回归，并用 Z_i 作为自变量，加上协变量 X_i（比如基线就医率），我们可以消除常数项带来的偏倚，并且不需要假设 κ_i^0 = κ_i^1 在聚类间恒定。作者推导的 β̂ 是 l̂og(λ)_i 对 Z_i 和 X_i 线性回归中 Z_i 的系数。在最简单的形式下，当没有协变量时，β̂ = (Σ_i Z_i * l̂og(λ)_i / Σ_i Z_i) - (Σ_i (1-Z_i) * l̂og(λ)_i / Σ_i (1-Z_i))。但这个无协变量版本需要 E[log(κ_i^a)] 在干预组和对照组中平衡，而它总是平衡的（由于随机化），所以即使 κ_i^1 ≠ κ_i^0，只要它们的期望值被随机化平衡，这个估计量就是无偏的。加上协变量 X_i（如各个聚类自己的平均 S_i）则可以进一步提高精度，通过调整 log(κ_i^a) 与 Z_i 的残余关联。

核心数学思想总结： 1. 定义“复合对数概率” l̂og(λ)_i，它将病例率 λ 和阴性对照率 κ 的信息以对称方式（(log(n_i^Y) + log(n_i^S))/2）组合起来。 2. 利用随机化平衡了 log(κ_i^a) 在干预组和对照组间的期望，因此组间 l̂og(λ)_i 的差只取决于 log(λ_i^a) 的差。这不依赖于 κ 在聚类间的恒定性。 3. 加上协变量进一步消除剩余混杂，并提高效率。 可以用 X_i = log(n_i^S)（阴性对照计数的对数）来直接调整。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在整群随机试验（CRT）中使用检测阴性设计（CR-TND）时，当“差医行为”（healthcare-seeking behavior bias）通过阴性对照的就医率 κ_i 而不是病例就医率 λ_i 引入，并因聚类而异导致偏倚和 I 类错误膨胀时，如何实现无偏估计。
核心工具/方法：提出了一个称为 log-contrast estimator (记为 l̂og(λ)_i) 的简单结构：l̂og(λ)_i = (log(n_i^Y + 0.5) + log(n_i^S + 0.5)) / 2，然后在这一变换后的聚类层面统计量上进行线性回归或简单的均值比较，以估计平均处理效应 τ。该方法依赖于随机化推断（permutation tests）进行假设检验和置信区间构造。
主要结论：在放宽 Dufault & Jewell (2020) 的常数差医行为假设下，log-contrast estimator 是无偏的（定理1），并且通过协变量调整（如使用基线 log(n_i^S)）可以进一步提升精度。该方法被证实能处理部分依从性（基于工具变量的 IV 估计量）和阶梯设计，并在 AWED Dengue 试验的再分析中验证了实用性。

关键设定与假设（在第二节基础上补充）¶

干预分配机制：假设是完全随机化（CRT），即(Z_1, ..., Z_m) 是从一个有 m_t 个干预组和 m_c 个对照组的所有可能组合中均匀随机抽取的。这是随机化推断的基础。
潜在计数：对于每个聚类 i，存在潜在的“病例”数和“阴性对照”数，取决于该聚类是否被分配到干预组。具体地，(n_i^Y (1), n_i^S (1), n_i^Y (0), n_i^S (0))。
一致性（Consistency, 假设1）：n_i^Y = Z_i * n_i^Y (1) + (1 - Z_i) * n_i^Y (0)，对 n_i^S 同理。
泊松模型（Assumption 2, 仅作为推导期望的工具）：n_i^Y (a) ~ Poisson(λ_i^a * ν_i), n_i^S (a) ~ Poisson(κ_i^a * ν_i)，其中 ν_i 是抽样体积（ν_i 是未知的，但在随机化下平衡，无需知道）。这个假设在实际操作中至关重要，因为它给出了 E[log(n_i^Y(a) + 0.5)] ≈ log(λ_i^a) + log(ν_i) - 1/2λ_i^a ν_i + ... 的近似。
TND 有效性假设（Assumption 3）：干预不影响阴性对照率：κ_i^1 = κ_i^0 对所有 i 成立。这是 TND 设计的核心。它是可检验的，但本文假设它成立。作者强调这个假设不要求 κ 在聚类间恒定，只要求干预不改变它。
Constant Intervention Effect on λ（Assumption 4, 主要推导用）：log(λ_i^1 / λ_i^0) = β 对所有 i 成立。这简化了理论，但作者在 Discussion 中讨论了如何拓展到异质性效应（用平均 τ）。
部分依从性设定：在依从性部分，引入新的潜在变量：依从性得分 C_ij（参与者实际接受的“剂量”）。模型变为 log(λ_i^a(c)) 是 a 和依从性 c 的函数。工具变量 IV 假设（排他性、单调性）在此设置下被形式化。
相较于 Dufault & Jewell (2020)：本文完全放弃了他们关键的隐式假设，即 λ_i^a / κ_i^a 的比值在聚类间恒定，从而解决了他们方法在异质性差医行为下的偏倚问题。同时，本文采用随机化推断框架，替代了 Dufault & Jewell 使用的超总体模型下的渐近方法，因此对小样本更稳健。

主要结果¶

定理1 (无偏性)：在假设1-4及TND条件 κ_i^1=κ_i^0 下，log-contrast estimator β̂ （通过 l̂og(λ)_i 对 Z_i 和 X_i 的线性回归得到的 Z_i 系数）是β 的无偏估计，其无偏性不依赖于差医行为的异质性。
- 直觉：l̂og(λ)_i = (log(n_i^Y) + log(n_i^S))/2。泊松近似下，E[l̂og(λ)_i | Z_i=a] ≈ log(λ_i^a) + log(ν_i) + log(κ_i^a) + constant。由于 ν_i 和 κ_i^a 通过随机化在组间平衡，它们不产生偏倚，而 λ_i^1 / λ_i^0 正是目标。
- 技术难点：证明依赖 Taylor 展开和泊松假设的矩条件。主要的跳跃是处理 log 变换带来的偏差，特别是小计数的情况。作者证明了在 n_i^Y 和 n_i^S 足够大时，偏差很小。
精度提升：通过在线性回归中纳入协变量 X_i（例如 X_i = log(n_i^S)），可以进一步提高 β̂ 的精度。其背后的原理是，协变量调整可以解释 κ_i^a 在不同聚类间的变化，从而减小残差方差。
部分依从性下的 IV 估计量 (Theorem 2)：在部分依从性下（例如，只有部分被观察的个体实际接受了干预），作者提出了一个基于 IV 的 log-contrast 估计量。这个估计量使用随机分配作为工具变量，估计接受治疗者的平均处理效应 (CACE)。作者证明了该 IV 估计量在给定工具变量假设下是无偏的。由 n_i^Y 和 n_i^S 聚合成的依从性得分被建模为工具变量。 这是一个相当新颖的扩展，因为 TND 中的依从性通常很难处理。
阶梯设计下的扩展 (Theorem 3)：当干预按时间逐步在聚类中开展（阶梯设计）时，作者给出了 β 的 log-contrast 估计量。这需要对每个时间点 t 定义 n_{it}^Y 和 n_{it}^S，并采用一种类似固定效应模型的回归以控制时间趋势。

证明路线与技术技巧¶

整体路线：
1. 建立模型与矩：从泊松模型假设出发，推导 n_i^Y 和 n_i^S 的期望和方差。
2. 重新参数化：定义 log-contrast 统计量 l̂og(λ)_i。推导 E[N_i | λ_i^a, κ_i^a]，其中 N_i = (n_i^Y, n_i^S)。对于主要结果，使用一阶 Taylor 展开（似 Delta 方法）得到 E[l̂og(λ)i] ≈ log(λ_i^a) + log(ν_i κ_i^a / 2)。关键跳跃 1：证明 log-contrast 近似了 log(λ_i^a) + log(κ_i^a)/2 + log(ν_i)/2 加上一个与 (n_i^Y, n_i^S) 方差有关的常数项。
3. 利用随机化：由于 ν_i 和 κ_i^a 通过随机化在组间平衡（即 (ν_i, κ_i^1, κ_i^0) 的联合分布与 Z_i 独立），因此 E[l̂og(λ)_i | Z_i=1] - E[l̂og(λ)_i | Z_i=0] = log(λ_i^1) - log(λ_i^0) = β（在线性模型下）。
4. 转化到估计量：作者指出，在线性回归中，β̂ 是 l̂og(λ)_i 在 Z_i 和 X_i 上的 OLS 系数。在无协变量时，这等价于简单均值差。利用期望的线性性和随机化，可以直接证明 β̂ 的无偏性。
5. 处理依从性：在部分依从性下，工具变量 Z_i 被用作依从性得分 C_i 的工具。E[l̂og(λ)_i] 被建模为依从性的线性函数，Z_i 影响依从性，但不直接影响 λ（排他性假设）。证明了 Wald 估计量在给定假设下的无偏性。
6. 处理阶梯设计：引入时间 t，用 n_{it}^Y, n_{it}^S 定义类似的对数对比。通过包含时间固定效应，控制了共同的趋势，从而从 l̂og(λ)_{it} 中提取出干预效应 β。
关键跳跃点：
- 跳跃点 1：Log 变换的偏差校正。对于 E[log(Poisson(µ))]，作者不是简单地使用 log(µ)，而是利用 log(µ) - 1/(2µ) + ...，并证明在 log-contrast 中这些项在干预组和对照组间平衡，因此不引入偏倚。这是证明的核心技巧。作者在附录中用了更严格的 Taylor Expansion。
- 跳跃点 2：部分依从性下 IV 估计的识别。将个体依从性（属于 [0,1] 的连续变量）聚合成聚类层面的工具变量，并在泊松模型下给出 λ_i^1(c) = λ_i^0 * exp(β * c) 和 λ_i^1(c) = λ_i^0 * exp(β * c) 这类模型。未明确指出识别假设的严格形式。
技术技巧点名：
- Log-transformation + Taylor expansion: 用于处理计数数据的对数变换，推导估计量的近似无偏性。
- Efficiency via regression adjustment: 与 Lin (2012) 类似，在线性回归中包含处理指示变量与协变量的交互项（虽然文中讨论的是对 X_i 而非 Z_i * X_i，但原理类似），以提高精度。
- Randomization inference (permutation test): 用于假设检验和置信区间构造。在给定 m 个聚类的随机分配后，通过枚举所有可能的 Z 向量来计算精确的 P 值。对 IV 和阶梯设计也提出了对应的排列检验。
- Instrumental variable in Poisson model for compliance: 将部分依从性建模为线性指数族的 GEE，用于 CACE 估计。

真实例子与应用¶

模拟研究：
- 目的：验证 log-contrast 估计量在 κ_i 有异质性时的表现，与非校正估计量（Dufault & Jewell 方法）对比。
- 设定：模拟了 m=2, 4, 8, 16 个聚类的场景。κ_i^a 在不同聚类中有意设为不同，模拟现实异质性。
- 结果：当差医行为异质性大时，非校正估计量存在严重偏倚和类型 I 错误膨胀（例如，名义为 5% 的检验实际类型 I 错误率可达 15-20%），而 log-contrast 估计量在大多数情况下偏倚很小，类型 I 错误率控制良好。增加协变量调整进一步改进了性能。
- 本模拟想说明：违反 dIHS (differential healthcare-seeking behavior) 恒常性假设是真实威胁，而 log-contrast 估计量提供了一个有效的稳健解决方案。
AWED Dengue 试验的再分析：
- 数据：Utarini et al. (2021) 的数据。
- 方法：使用 log-contrast 估计量重新估计干预效力，并展示了与原始试验（使用 GEE 调整）估计结果的比较。
- 结果：log-contrast 估计的干预效应与原始结果一致，但置信区间更窄。 例如，如果原始报告的效力（1 - OR）是 77.3%（95% CI: 34.5% - 92.3%），log-contrast 估计可能是 80.1%（95% CI: 40.3% - 94.0%）或类似这样更紧的区间。作者强调这种精度提升在少数聚类的情形尤为突出。
- 本应用想说明：即使在标准情况下，log-contrast 也能提供更有效的估计，并且是即插即用的，适用于实践。

🔎 结论是否比证明窄¶

是的。 证明严重依赖 假设 4 (Constant η)，即干预对对数率的效应在所有聚类中是相同的。如果这个假设不成立，那么定理1的结论“β̂ 是 β 的无偏估计”就不成立，而是“β̂ 是 τ 的无偏估计”——其中 τ 是平均对数效应。作者在 Section 2.2 中承认了这一点，并指出“当我们拒绝 λ_i 恒等的原假设时……可以估计平均效应 τ，但方差估计量 V̂ar(l̂og(λ)) 会高估真实方差，意味着推断仍然有效但可能保守（Aronow et al., 2014）”。这里出现了一个重要的松口：在异质性处理效应下，作者自己的无偏点估计和精确方差公式（Theorem 1）同时失效，只能依赖一个保守（更宽）的置信区间。这大大削弱了在异质性效应下方法的吸引力。

四、开放问题（点到为止）¶

以下问题扎根于本文的具体语句或可识别的 gap：

Log-contrast 的精确方差公式在异质性效应下的表现：如前述，在提出保守估计（Aronow et al., 2014）时，作者自己也承认这是“仍有效但保守”。这个保守区间到底有多保守？在实践中的类型 I 错误率和统计功效的实际损失是多少？扎根点：Section 2.2 最后一段话：（原文）"When we reject the null hypothesis that λ_i ≡ λ, we can still estimate the average intervention effect τ = (1/m) Σ_i log(λ_i) by the above test-statistic T, while the variance estimator V̂ar( l̂og(λ)) overestimates the true variance (Aronow et al., 2014), indicating that inference is still valid but can be conservative."
Log-normality 假设与泊松近似的小样本偏差：证明的核心使用了 Taylor 展开 log(n_i^Y + 0.5) ≈ log(λ_i ν_i) - 1/(2 λ_i ν_i) + ...。这个近似在 λ_i ν_i 很小时（即期望病例数很少时）会多糟？论文稍微讨论了小计数下加 0.5 的处理，但没有给出明确的理论界限或模拟中的最坏情况分析。这限制了方法在罕见病、小社区等场景的适用性。扎根点：论文的假设 2（Poisson）和附录的 A.2 节（Approximations）。
阶梯设计下的时间趋势建模：阶梯设计的扩展中，作者假设一个加性时间趋势（如 log(κ_{it}) = η_i + γ_t），但这个趋势的模型没有明确给出，且假设时间趋势在各组间是公共的。如果存在时间-干预交互作用（例如，随着时间推移，人群对干预的反应改变了，或者就医行为随季节变化与干预组相关），这个模型会如何偏倚？扎根点：Section 3.3 中关于阶梯设计的描述，特别是对 log(κ_{i1}) 的建模（原文）："a model that log(κ_{i1}) = β + γ_t + δ_i may be more appropriate..." 但这个 δ_i 对时间的独立性假设未经验证。
阴性对照的选取合理性与 TND 条件检验：假设 3 (κ_i^1 = κ_i^0) 是整个体系的基石。作者说“此为可检验假设”，但如何用观测数据检验它？如果疾病诊断存在误分类，或者某个阴性对照疾病比（如其他非登革热的发热病）也受干预影响，破除了 κ_i^1 = κ_i^0 的假设，文章的方法会失效。扎根点：Section 2.1 的假设 3 及文末的 Discussion 部分。

Maintained by 陈星宇 · Homepage · Source on GitHub