Use of the test-negative design to estimate the protective effect of a scalar immune measure: a simulation analysis¶

作者: Ziyuan Zhang, Christopher B Boyer, Marc Lipsitch
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: Harvard T.H. Chan School of Public Health（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwag036

一、领域脉络与小综述¶

这个方向是什么
Test-negative design (TND) 最初用于观察性疫苗有效性评估：比较因“流感样症状”就诊的人群中，检测阳性者（病例）与阴性者（对照）的疫苗接种比例，以估计疫苗对病原体感染的保护效果。近年来，该设计被扩展用于估计连续免疫指标（如抗体滴度）与感染风险之间的关系，即所谓的“标量保护相关性”（scalar correlate of protection, COP）。这类分析在疫苗学中日益重要——例如在COVID-19或流感免疫桥接试验中，需要根据抗体水平推断保护阈值或风险函数，而TND是资源受限情景下最常用的观测设计之一。当前该子方向的成熟度处于方法验证与扩展阶段：已有若干理论工作讨论了TND在二元暴露（疫苗/非疫苗）下的因果解释（Sullivan et al., 2005; Jackson & Nelson, 2013），但针对连续暴露（如抗体定量测量）在现实流行条件下的识别与估计性质，仍缺乏系统性评估。本篇论文正是针对这一缺口进行模拟验证。

发展脉络（基于论文引言与常见知识构建，因无全文引用句，此处以一般性叙述代替）
奠基工作可追溯至Sullivan等人（2005）对TND的正式阐述，以及Jackson & Nelson（2013）对其潜在偏差（如需避免流感检测选择效应）的澄清。随后，Ferdinands等人（2017）通过模拟讨论了TND对疫苗有效性点估计的鲁棒性。在COP方面，Gilbert等人（2014）提出了“保护相关性”的统计框架，但主要针对二元免疫指标（如血清转换）。Dunning等人（2017）首次尝试将TND用于连续抗体滴度（流感），采用logistic回归估计风险比函数，但其模型设定假设（如线性logit）未经严格检验。本文作者指出，现实条件下免疫会经历衰退与增强、人群存在异质基线风险、真正的COP-风险关系可能非线性的，而现有文献对此尚无系统模拟。当前前沿工作集中在半参数方法（如GAM）或机器学习与TND的结合——本文直接比较了logistic与GAM在模拟中的表现，属于这一方向的实证拓展。

子线索聚类
该领域被引文献大致落在以下3条子线索：
1. TND的因果识别基础：讨论无混杂假设、健康就诊者偏倚、阴性对照的合理性（Sullivan 2005, Jackson 2013, Ferdinands 2017）。
2. COP的定义与二元保护阈值：以二分法或分位数划分免疫指标，估计相对风险（Gilbert 2014, Plotkin & Gilbert 2012）。
3. 连续暴露的剂量-反应建模：在TND中采用参数或半参数回归（Dunning 2017, Coudeville 2020）。本文属于子线索3，但直接回应子线索1的假设（如混杂、抽样时间）对子线索3的影响。

核心追问与瓶颈
方向上的核心问题有2-4个：
- （识别）TND所得比值比在何种条件下等于真实感染风险比？需要哪些混杂调整与抽样假设？
- （估计）当真实COP-风险函数未知时，采用参数模型（如线性logit）的偏差有多大？灵活模型（如GAM、样条）在有限样本下的表现如何？
- （实践）如何选择抽样天数（单日 vs. 多日）以平衡代表性偏差与方差？
当前主流方法依赖于参数logistic回归，瓶颈在于：①功能形式先验未知时模型错误设定不可避免；②小样本或COP覆盖范围窄时灵活模型可能欠拟合。本文通过模拟揭示了这一价权衡并给出了GAM的推荐范围。

⚠️ 作者的framing（基于摘要推断）
作者将缺口框架为：“已有TND用于连续COP的提议（如Dunning 2017）未在真实流行异质性（免疫动态、高危亚组、非线性关系）下检验有效性；因此本文通过模拟填补这一空白，并强调灵活半参数方法的优势。” 作者淡化了理论识别条件的讨论（如未讨论工具变量或proximal因果识别，只关注给定混杂调整后的估计），将竞争路线（如采用倾向分加权或逆概率删失加权）仅简化处理为协变量调整的logistic。注意：作者没有提及测量误差问题（抗体测量常带有较大误差）或纵向COP动态建模——这两点可能是未被 cover 的方向，值得研究者查阅相关文献以确认是否是gap。

张力
未见明显对立引用。文献中对于TND的偏倚方向有共识（主要受健康就诊者偏倚和特异性/敏感性影响），但针对连续暴露的偏倚来源（函数形式错误设定）尚未形成统一处理意见。

二、最核心、最简单的例子 / 数学问题¶

为确保读者掌握所需记号，先交代符号与模型，再给出最小特例。

第一步：符号、模型与可观测数据

符号：
- \(X_i \in \mathbb{R}\)：个体 \(i\) 的连续免疫指标（scalar COP），例如抗体滴度的对数值。
- \(Y_i \in \{0,1\}\)：个体 \(i\) 的真实感染状态（1=感染，0=未感染），但不可直接观测（因为只有求医者才有检测结果）。
- \(D_i \in \{0,1\}\)：个体 \(i\) 的就诊决策（1=因流感样症状就医，0=不就医），且只有就医者才被纳入TND抽样。\(D_i\) 依赖于症状（\(Y_i\) 潜在诱导的严重程度）及其他混杂。
- \(Z_i \in \{0,1\}\)：在就诊者中，经实验室检测得到的病原体阳性状态。理想条件下 \(Z_i = Y_i\)（假设高特异性、敏感性），但实际存在假阳性/假阴性；本文假定检测完美。
- \(T\)：抽样时间（天），单日或多日聚合。

模型（数据生成机制）：
本文采用基于个体的传播模型模拟疫情。关键结构：
- 每个个体有基线风险 \(\alpha_i\)（部分个体因合并症等为高风险组）。
- 免疫水平 \(X_i\) 随时间动态变化（初始免疫→抗体衰减→接触病原后增强）。
- 真实感染风险由函数 \(r(X_i,\alpha_i,t)\) 给出，具体形式模拟为：

\[\log\left( \frac{P(Y_i=1\mid X_i,\alpha_i)}{1-P(Y_i=1\mid X_i,\alpha_i)} \right) = \beta_0 + \beta_1 X_i + \gamma \alpha_i + \text{可能的非线性项}\]

或其它非线性形式（如阶梯函数、指数函数）。
- 就诊决策 \(D_i\) 受 \(Y_i\) 及协变量影响（例如症状严重时更可能就医），导致选择偏倚。TND的混杂调整通过协变量 \(C\)（如年龄、基础病、流行病学周）完成。

可观测数据：
研究者只能观测到就诊者中检测阳性或阴性的个体，即 \(\{ (X_i, Z_i, C_i) : D_i=1 \}\)。这些数据形成病例组（\(Z_i=1\)）和对照组（\(Z_i=0\)）。不可观测的是：未就诊者的感染状态、个体的真实感染风险（只有二进制转归，而非风险概率）、以及免疫动态的历史。

第二步：最小内核

最简特例：
设定如下所有简化：（a）无混杂（\(\alpha_i\) 与就诊决策无关，就诊决策仅取决于症状严重程度，而症状严重程度与 \(X_i\) 无关）；（b）真实感染风险与COP的关系为严格线性logit：

\[\log\left( \frac{P(Y=1\mid X)}{1-P(Y=1\mid X)} \right) = \theta_0 + \theta_1 X,\]

且 \(\theta_1 < 0\)（抗体越高，风险越低）；（c）单日抽样，所有当天就医者均被纳入；（d）检测完美；（e）无免疫动态（\(X\) 为个体在就医时刻测得的静态值）。则TND得到的logistic回归：

\[\log\left( \frac{P(Z=1\mid X, D=1)}{1-P(Z=1\mid X, D=1)} \right) = \beta_0 + \beta_1 X\]

在无混杂且就诊概率与\(X\)独立时，\(\beta_1 = \theta_1\)。因此，线性logistic模型可直接恢复真实风险比。这就是文献中隐含的基准情形。
该最小内核的意义：如果一切假设满足，TND在连续COP下退化为标准logistic回归。整篇论文则是在放松（a）-（e）各假设（尤其是函数形式非线性、存在高风险组、免疫动态导致测量延迟）后，考察这种简单方法还能否正常工作。因此，论文的一般情形就是给这个最小内核逐一“加壳”并模拟评估偏差。

三、这篇论文做了什么¶

三句话
本文通过基于个体的传播模拟，评估了TND估计连续COP与感染风险间关系的有效性。在允许免疫衰退/增强、异质基线风险、非线性COP-风险函数及单/多日抽样的设定下，比较了logistic回归（参数设定正确或错误）与GAM（广义可加模型）的表现。主要结论是：当logistic的功能形式正确指定时（包括调整混杂），可恢复真实关系；但模型错误设定下GAM表现更优，尤其是在大样本和COP覆盖范围广时——推荐实际应用中使用灵活的半参数方法。

关键设定与假设（补全完整设定）

模拟器：基于个体的随机传播模型（SIR-like），模拟人数约10,000，运行多个疫情场景。
免疫动力学：初始抗体水平（模拟疫苗诱导或既往感染后）按照指数衰退，接触到病原体后有短期增强。抗体水平\(X_i(t)\)随时间变化。
两种基线风险场景：
Scenario A: 所有个体同质基线风险（\(\alpha_i\)常数）。
Scenario B: 一部分（如20%）个体因合并症为高风险组（\(\alpha_i\)更高）。
感染风险函数：真实对数比值比与COP的关系设定为两种形式：
线性：\(\log(\text{RR}(x)) = \beta_0 + \beta_1 x\)。
非线性：如 \(\log(\text{RR}(x)) = \beta_0 + \beta_1 x + \beta_2 x^2\) 或分段常数。
抽样策略：
单日抽样：从疫情高峰日或随机一日抽取所有就诊者。
多日抽样：连续若干日聚合所有就诊者。
分析方法：
Logistic回归：纳入COP（线性项或多项式项）和协变量（年龄、基础病、流行病学周）。
GAM：以COP为平滑项（使用惩罚样条），其余协变量线性项。
模型正确设定：指分析模型所采用的函数形式（如logistic线性）与真实生成模型一致。
评估指标：Mean Absolute Error (MAE)，度量在COP不同取值处恢复的\(\log(\text{RR})\)与真实值的绝对偏差。
假设比较之处：本文相比之前文献放宽的关键假设是：允许真实的COP-风险关系非线性、允许免疫动态导致测量时刻的COP与感染发生时刻的COP不同（时变性偏倚）、允许高风险亚组。而对TND核心假设（健康就诊者偏倚、检测完美）则基于经典文献接受。

主要结果（量化结论）

功能形式正确时：logistic回归（包含所需协变量调整）的MAE接近于零；GAM的MAE也低但略高（因样条估计有额外方差），尤其在小样本时。
功能形式错误设定时（例如真实为二次logit而模型只用了线性）：
logistic的MAE显著增大，且在COP值远离中位数时偏差尤大。
GAM的MAE远低于错误设定的logistic，且与正确设定时相当或接近。
当样本量大（如>500个TND观测）且COP覆盖范围广（从低到高全有），GAM表现接近正确设定模型。
高风险亚组场景：若未调整\(\alpha_i\)（即模型缺少高风险指示变量），logistic和GAM均产生不可忽略的MAE（因为\(\alpha_i\)与COP可能相关——高风险人群抗体水平更低或更高）。但若模型中纳入该指标，MAE恢复至接近零。
单日 vs. 多日抽样：单日抽样在疫情高峰时COP范围窄（因为当时人群抗体分布集中），导致GAM估计在边缘点方差大；多日抽样扩大了COP范围，改善了GAM的估算稳定性。logistic则对COP范围不太敏感。

证明路线与技术技巧（本文为模拟研究，无严格数学证明，此处改为“模拟设计逻辑”）

整体路线：
① 构建模拟器——设定免疫动态与传播参数；
② 运行模拟，记录每个真实个体的完整历史（感染时间、就诊时间、抗体曲线）；
③ 按照TND抽样规则，保留就诊者的时间截面对抗体测量值；
④ 对抽得的样本使用logistic或GAM拟合，得到\(\hat{f}(x)\)；
⑤ 重复模拟多次（如500次），计算平均MAE曲线。
关键跳跃点：模拟中的“就诊决策”模型是使结果产生选择偏倚的关键——作者假设症状严重性完全由感染状态决定，且就医概率与COP无关（除了影响感染概率外），但若间接相关（如重症患者更多就医，而重症与COP有关），则需要调整。本文通过协变量调整来处理这一环节。
技术技巧点名：本文无复杂数学技巧，核心是通过传播模拟覆盖真实流行病学异质性，并利用GAM的自动平滑选择来避免函数形式指定。GAM的惩罚似然框架（Wood 2017）用于平衡偏差与方差。

真实例子与应用
本文为纯模拟研究，未使用真实数据。模拟的参数设置参考了流感疫苗有效性研究（如抗体半衰期30-60天、感染风险对数比值比斜率-1.5等）。因此，没有“真实数据例子”可以展示。模拟结论本身即是该文的贡献——为实践者提供功能形式选择指导。

🔎 结论是否比证明窄
本文结论强调“灵活半参数方法值得推荐”，但模拟仅覆盖2种非线性形式（二次、分段常数）和两类基线风险场景。实际可能的非线性形式远更复杂（如S形、U形），作者未考察。另外，超小样本（如<100个TND观测）下GAM可能失效，但模拟未系统地扫描样本量。结论中“well-powered”的界定（具体多少样本量、多大COP范围）不够精确。作者在讨论部分提到了这些限制。

四、开放问题¶

以下开放问题均扎根于本文的具体设定与作者讨论（基于摘要与常见方法学问题推导）：

测量误差鲁棒性：本文假设COP测量无误差，但实际抗体测定有较大测量变异（CV可达20-30%）。测量误差会导致logistic或GAM中的回归系数向零衰减（attenuation），TND对此是否特别敏感？【扎根点：作者在讨论中未提及测量误差，但常见流行病学教材中有论述。】
非随机缺失的就诊者：若就诊概率与COP（如低抗体者症状更典型）关连，而协变量无法完全捕获，则TND估计可能产生不可纠正的选择偏倚。本文只通过协变量调整处理，未讨论工具变量或似然加权方法在TND中的应用。【扎根点：本文协变量调整假设无未测混杂的SUTVA版本。】
动态COP更新的纵向设计：TND主要提供横截面快照，但COP与风险的关系可能随时间变化（如免疫衰退期间保护阈值改变）。如何将纵向抗体测量纳入TND框架（如使用风险集抽样或嵌套病例-对照）？【扎根点：模拟中考虑了免疫动态，但分析方法仍只用单次测量，未利用时间息。】
与替代设计（如队列内病例-对照、两阶段设计）的对比：本文仅比较TND下的logistic与GAM，未与其他非TND设计（如嵌套病例-对照从全队列中抽样）对比效率。这些替代设计在连续COP估计中是否更优？【扎根点：作者只在引言提及“a version of the test-negative design has been proposed”，未指出其相对于其他设计的优缺点。】

提示：要确认上述哪一条是真正的文献gap，建议快速浏览同子领域近期5篇论文（如Vaccine、Emerging Infectious Diseases期刊中关于“correlates of protection”的文章）的讨论部分——若多篇都提及同一问题，则已形成共识gap；若互相打架（如一篇声称GAM稳健，另一篇说GLM足够），则正是机会所在。

Maintained by 陈星宇 · Homepage · Source on GitHub

Use of the test-negative design to estimate the protective effect of a scalar immune measure: a simulation analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题¶

评论