Test-negative Designs with Various Reasons for Testing: Statistical Bias and Solution¶

作者: Mengxin Yu, Tom Hongyi Liu, Kendrick Qijun Li, Nicholas Jewell, Eric Tchetgen Tchetgen et al.
来源: Epidemiology
主题: 流行病学
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

1.1 这个方向是什么¶

Test-Negative Design（TND）是一种观察性研究设计，广泛用于评估疫苗有效性（Vaccine Effectiveness, VE）。其核心逻辑是：招募因某种原因接受疾病检测的人群，根据检测结果分为“病例”（阳性）和“对照”（阴性），然后比较两组中接种疫苗的比例。其优势在于，因为所有参与者都因某种共同原因（如出现症状）而就医/检测，这在一定程度上可以控制就医行为（healthcare-seeking behavior）等混杂因素。本文的子方向聚焦于一个实际困境：当检测原因不再是单一的“出现症状”——即大规模检测、接触追踪、强制筛查等成为常态——TND的经典假设是否还成立？该子方向的成熟度处于“问题已被广泛认知，但缺乏系统化解”的阶段。

1.2 发展脉络¶

奠基工作：TND的提出与在流感中的标准化应用。TND最初在流感疫苗有效性监测中得到广泛应用。Dean et al. (2021) [9] 明确指出了TND作为一种观察性设计的价值，尤其是在随机试验不可行时。Jackson et al. (2017) [12] 和 Schwartz et al. (2017) [14] 展示了TND在流感和轮状病毒疫苗中的具体应用。此时，TND的核心假设是参与者因出现症状而寻求医疗检测。
主要进展：对TND偏倚来源的理论化。随着COVID-19疫情爆发，TND被迅速用于评估新冠疫苗有效性（Lopez Bernal et al., 2021 [5]; Bruxvoort et al., 2021 [8]）。然而，大规模核酸检测、强制筛查和接触追踪使得“仅因症状检测”的假设被打破。Lewnard et al. (2021) [11] 系统性地回顾了TND和传统病例对照设计估计疫苗直接效果的理论基础，并“pointed out that reasons other than symptoms for testing may introduce bias”（本文用户原文引用，强调引用句的使用）。Shi et al. (2022) [17] 和 Ortiz-Brizuela et al. (2023) [21] 通过DAG和模拟进一步研究了纳入无症状个体或改变检测实践可能引入的偏倚（如碰撞分层偏倚、混杂）。Vandenbroucke et al. (2021) [20] 甚至探讨了利用不同检测原因（症状 vs. 接触追踪）来分解感染风险与发病风险的可能性。
当前Frontier：偏倚校正的策略。针对上述偏倚，前沿工作开始提出具体的校正方案。Li et al. (2022) [16, 22] 使用负控制变量（negative control）来校正就医行为等未观测混杂。Kundu et al. (2024) [24] 则提出了针对TND的敏感性分析方法。本文作者指出，尽管Vandenbroucke et al. (2021) [20] 和 Ortiz-Brizuela et al. (2023) [21] 提到了根据检测原因进行分层分析可以减轻偏倚，但“no complete quantification or formal solution was given”（本文用户原文引用）。
本文的位置：本文填补了这个空白。它将不同的检测原因系统化，不仅量化了每种原因导致的偏倚方向，而且提出一个正式的分层比值比估计量（stratified odds ratio estimator），并给出了该估计量在何种条件下能恢复为统一的VE参数的充分条件。

1.3 子线索聚类¶

这些被引文献大致落在三条子线索上：

TND方法论与偏倚理论（核心理论框架）：包括Dean et al. (2021) [9], Lewnard et al. (2021) [11], Schnitzer (2022) [18], Shi et al. (2022) [17], Ortiz-Brizuela et al. (2023) [21]。这条线索致力于澄清在标准TND下，什么偏倚能被控制，什么不能，以及在COVID-19新场景下引入了哪些新偏倚。
TND的实践应用（特别是COVID-19）：包括Andrejko et al. (2021, 2022) [1, 2, 3], Lopez Bernal et al. (2021) [5], Bruxvoort et al. (2021) [8], Pramod et al. (2021) [15], Pearson et al. (2021) [23]。这是一条应用线索，其数据模式（症状、接触追踪、筛查）直接构成了本文的研究动机。
偏倚校正的高级方法：包括Li et al. (2022) [16, 22] 的负控制方法，Kundu et al. (2024) [24] 的敏感性分析。这是更前沿的方法论分支，本文提出的分层估计量是其中一个补充，其优势在于更简单直接，易于实践。

1.4 核心问题与已知瓶颈¶

这个方向在追问的核心问题有： 1. 识别的条件是什么？ 在非经典TND下（多种检测原因），标准比值比（OR）估计量识别的是什么因果参数？ 2. 偏倚的方向和大小？ 不同检测原因导致的偏倚是向上还是向下？幅度多大？ 3. 如何校正？ 是否有统一的修正框架，既能消除偏倚，又能利用多源数据提高效率？ - 当前主流方法：通常是忽略检测原因，直接使用标准TND的logistic回归，或者将其视为需要敏感性分析的困惑。已知瓶颈是缺少一个基于理论推导的、可直接计算的点估计方法。

1.5 ⚠️ 作者的framing¶

作者的缺口定位：作者把缺口精准地定位为“现有文献意识到了不同检测原因会导致偏倚，也提出分层能解决问题，但没有量化偏倚、没有给出正式的统计解（estimand和estimator）”。他们声称自己的贡献是“a complete quantification”和“a formal solution”——即识别、估计和在特定条件下合并。
竞争路线的淡化：作者提到了Li et al. (2022) [16, 22] 的负控制方法，但并未将其作为主要竞争。他们通过引用暗示，负控制方法解决的是另一类偏倚（就医行为等未观测混杂），而本文解决的是由“不同检测原因”直接导致的偏倚（本质上是一种选择/碰撞偏倚）。作者似乎默认这两种偏倚可以分开处理或叠加。
什么明显该被引/该存在、却没出现在intro里？：值得研究者去查的是：是否有文献从逆概率加权（IPW） 的角度，通过建模检测原因的概率来校正样本选择偏倚？Propensity score stratification在TND中的应用情况如何？这可能是完全可行的替代方案，本文却未讨论。

1.6 张力¶

未见明显对立引用。该领域的文献基本是一致的：标准TND在混合检测原因下会有偏倚，但具体方向因情境而异。本文的工作是在这个共识之上提供一个“解”，而非挑战某个共识。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（本文核心记号）：

V: 疫苗状态（0=未接种, 1=接种）。随机变量。
I: 感染状态（0=未感染, 1=感染）。潜在变量（不可直接观测）。
S: 症状状态（0=无症状, 1=有症状）。随机变量。
H: 就医行为（0=不寻求医疗, 1=寻求医疗）。随机变量。
C: 接触追踪/病例接触（contact tracing），0=无, 1=有。随机变量。
X: 观测协变量（如年龄、性别、基础病）。向量。
Y: 检测结果（0=阴性, 1=阳性）。可观测变量。
R: 检测原因（本文关键变量）。R 是类别变量：R=symp（因症状检测）, R=mand（因强制筛查检测）, R=contact（因接触追踪检测）。可观测变量。

模型（数据生成机制）：这是一个基于因果图（Directed Acyclic Graph, DAG）的非参数模型。作者并未指定参数分布形式。基本生成过程是： 1. 疫苗接种 V 和协变量 X 影响感染风险 I。 2. 感染 I 影响是否出现症状 S。 3. 个体择时出现症状 S（H=1）、被强制筛查或被确定为接触者（C=1），导致其接受检测。 4. 检测原因 R 由 S、C、H 共同决定。 5. 样本由 R 及其相关变量进入检测系统，构成分析样本。

可观测数据：研究人员能观测到的是（对于进入TND的个体）：(Y, V, X, R)。关键缺失信息是：个体真实的感染状态 I 被检测结果 Y 替代，但存在假阴性/假阳性。因此，分析样本是一个由“被检测”这个筛子过滤过的样本。作者假设检测本身是完美的（no outcome misclassification），从而 Y = I。

第二步：讲最小内核¶

最简特例：双检测原因——“症状” vs. “接触追踪”

考虑最简情形：只有两种检测原因，R = symp（症状）和 R = contact（接触追踪），且不存在其他原因。我们假设所有因症状就诊的人都会接受检测。考虑一个更简单的设定：忽略所有协变量X，只关注一个密闭环境（如一个宿舍楼）。

在这个特例下： - 标准TND估计量（合并所有数据）：OR_naive = [P(V=1|Y=1) / P(V=0|Y=1)] / [P(V=1|Y=0) / P(V=0|Y=0)]。这等价于 OR(V, Y) / (1 - P(infected) …) 等等，但关键是它在估计什么？ - 证明的核心问题：对于每个检测原因 r，条件比值比 OR_r = [P(V=1|Y=1,R=r) / P(V=0|Y=1,R=r)] / [P(V=1|Y=0,R=r) / P(V=0|Y=0,R=r)] 是否等于同一个 VE 参数？ - 推导出的偏倚： - 对于 R=symp 组：OR_symp = OR( V, I | S=1, H=1, 进入检测 )。由于症状是感染的下游，在控制症状（S=1）时，我们将不会比较“感染者 vs. 非感染者”，而是比较“因感染而有症状者 vs. 有其他原因导致症状者”。这引入了碰撞分层偏倚。如果疫苗不影响症状（即V和S在给定I下独立），则 OR_symp 是有偏的。通常，疫苗降低感染，因此感染者中症状比例更高，导致 OR_symp 可能低估VE。 - 对于 R=contact 组：OR_contact = OR( V, I | C=1, 进入检测 )。接触追踪通常发生在已知接触者身上。如果接触是随机的，那么 C 某种程度上是 I 的“负向代理”（被接触意味着暴露于风险），会引入选择偏倚。感染者更有可能接触过感染者，因此被接触追踪的几率更高。这会导致 OR_contact 可能高估VE。 - 所以，OR_symp ≠ OR_contact ≠ 真实VE。

本文的核心想法 / 最小内核解决方案：在一个 完全随机 且 对所有接触者 都进行检测的理想场景下，R=contact 的样本（接触追踪人群）其实构成了一个“准随机试验”：因为是否接触是外生的（给定X下）。在这种情况下，OR_contact 能无偏估计真实VE。但现实中，接触追踪不是随机的。所以本文的“最小内核”是：不再试图对整个样本估计一个统一的OR，而是承认样本由 K 个异质子群体（由 R 定义）组成，每个子群体有自己特定的选择机制。然后，对每个子群体 r，定义一个特定的条件比值比 OR_r，并推导出在什么条件下，OR_r 能够识别真实VE，或者至少能识别某个“有意义”的 estimand（如 VE_{r}）。最后，如果不同 OR_r 都识别同一个VE，就可以加权合并它们以提高精度。

在这个最简例子中，这个“内核”就是：分层分析是必要的（定义不同的 OR_r），合并是可能的（如果它们都一致无偏）。论文的数学工作就是H为这个“一致”给出严格的假设和证明，并且为“不一致”时提供一种处理思路。

三、这篇论文做了什么¶

三句话：
1. 本文系统性地研究了在疫苗有效性评估中，由于检测原因（症状、强制筛查、接触追踪）变得多样化而导致标准TND估计量出现选择偏倚的问题。
2. 核心方法是利用因果图识别偏倚来源，并据此提出一个分层比值比估计量，通过按检测原因分层来获得无偏或更稳健的估计，并给出何时可以合并这些分层估计量以提高效率的理论条件。
3. 主要结论是，标准估计量在混合检测原因下通常有偏，而所提出的分层估计量在模拟和实际数据中均能有效校正偏倚，并在特定条件下实现精度提升。
关键设定与假设（在第二节最小记号基础上补全）：
- 主要变量及定义：
  - 检测原因 R 被细分为 R=1 (症状), R=2 (强制筛查), R=3 (接触追踪)。这是论文的核心分类。R=2 的样本，由于是强制性的（比如对医护人员），其就医行为 H 与感染状态 I 的关联被削弱或切断。
  - 引入一个额外的变量 C：接触追踪状态。C=1 表示被确认为阳性病例的密切接触者。C 既影响是否接受检测，也直接与感染风险 I 相关。
  - S (症状) 与 H (就医) 的关系被明确：S=1 (有症状) 是 H=1 (就医) 的必要非充分条件（即，有症状可能不去就医，但无症状不会因症状就医）。
- 关键假设：
  1. 无测量误差（Perfect test specificity/sensitivity）：即 Y = I，检测完全正确。这确保了病例和对照的分类无误。这是一个较强的假设，在COVID-19快速检测中可能不成立。
  2. SUTVA（无干扰） 与 一致性（Consistency）：标准因果推断假设，认为一个人的疫苗接种状态不影响他人的感染风险，且观测到的感染状态与假设的干预一致。
  3. 给定 (V, X, I) 下，S 和 R 的生成机制：作者通过DAG假定，给定疫苗接种 V、协变量 X 和真实感染状态 I，症状 S 和检测原因 R 的生成过程是独立的。这意味着，除了通过 (V, X, I)，检测原因不会因为其他未观测混杂而直接与感染状态相关。这是本文整个框架的核心识别假设。它否定了存在影响“检测原因”和“感染状态”的未观测混杂（如健康意识）。
  4. Positivity：对于每个 r 和 (V, X)，P(R=r | V, X) > 0。样本量足够到每个分层都有数据。
- 与已有文献的对比：相比经典TND假设（所有测试者因症状就医），这个假设更宽松（允许其他检测原因）；相比Li et al. (2022) [16] 的负控制方法，本文的假设更结构化（直接基于DAG，且要求无直接未观测混杂），但方法更简单。
主要结果：
- 理论结果1：偏倚的识别。对于 R = symp 的群体，标准OR估计量 OR_naive 是有偏的。具体地，它识别的是 P(I+|测试用因为症状, ...) / P(I-|测试用因为症状, ...)，而非目标人群中的 VE。这是因为“因症状测试”这个事件本身是一个碰撞器（collider），会打开一条从疫苗V到感染I的后门路径（通过未观测的混杂因子，如健康意识），从而导致碰撞分层偏倚。
- 理论结果2：三种Estimand的定义。定义 VE_r = 1 - OR_r，其中 OR_r 是限制在 R=r 子群体内的条件比值比。证明了：
  - VE_{symp} 识别的是“在因症状就医者中的VE”，通常有偏。
  - VE_{mand} 在强制筛查（如对所有医护人员检测）下，随着筛查的普及和覆盖率趋近于100%，其偏倚趋近于0。它最有可能无偏估计真实VE。
  - VE_{contact} 识别的是一个“条件于被接触”的VE，如果有偏，方向取决于接触追踪的效率和侵入程度。
- 理论结果3：分层估计量与合并条件。提出一个分层比值比估计量（Stratified OR Estimator）：VE_stratified = Σ_r w_r * (1 - OR_r)，其中权重 w_r 可以是各层方差倒数的加权（inverse-variance weighting）。
  - 充分条件：当且仅当对于所有的 r，OR_r 都一致地识别同一个因果参数（例如 VE）时，这个加权估计量才是 VE 的无偏估计。这个一致条件等价于在所有检测原因分层内，选择偏倚的机制是相同的（即DAG结构相同且混杂程度相同）。这在现实中极难满足。
  - 实际策略：作者并不要求一致合并。他们提出，当不同 OR_r 识别不同参数时，可以分别报告，或者只合并那些理论或经验上认为无偏的分层（比如可以保守地只使用 VE_{mand} 数据），或者使用一个 稳固性（robust） 的加权法（如仅合并那些无偏层）。
证明路线与技术技巧：
- 整体路线：
  1. 建立因果图（DAG）：构建包含 V, X, I, S, C, H, R 的DAG，直观展示引入不同检测原因如何导致偏倚。这部分是定性分析。
  2. 形式化Estimand：在给定DAG后，写出每个子群体 R=r 对应的条件比值比 OR_r 的统计表达式，即 OR_r = [P(V=1|Y=1,R=r) / P(V=0|Y=1,R=r)] / [P(V=1|Y=0,R=r) / P(V=0|Y=0,R=r)]。
  3. 推导偏倚：利用反事实（counterfactuals）或Do-operator，写出真实VE的参数形式（如 Pr(I=1|do(V=1)) / Pr(I=1|do(V=0))），然后与 OR_r 进行对比，证明一般情况下它们不相等，并量化偏倚的方向和结构。这一步利用了逆概率加权（IPTW）的思想来写出目标量。
  4. 提出估计量：由于直接识别每个 OR_r 的估计是简单的（在每个 R=r 的子样本中直接做logistic回归），所以估计不是问题。技术贡献在于找出哪些 OR_r 能识别同一目标，以及如何最优地合并它们来恢复 VE。作者推导了当不同层估计同一VE时，合并估计量的方差最小化形式（即加权平均）。
  5. 模拟与数据验证。
- 关键跳跃点：最吃功力的点是找出在何种条件下，不同 R 分层内的 OR_r 能识别同一个 VE 参数。这个条件由DAG结构给出，H实质上等价于假设“不同检测原因背后的选择机制，不引入与疫苗效果相关的额外混杂”。这是整个论文的“卖点”所在，也是它的核心假设。一旦这个假设成立，合并就是合法且高效的。
- 技术技巧点名：
  - 因果图（DAG）：用于定性分析偏倚来源和结构，这是流行病学标准的工具，对统计学家很友好。
  - 反事实逻辑（Counterfactual reasoning）：使用反事实表述来清晰地定义不同 OR_r 能否作为因果参数。
  - 逆概率加权（Inverse Probability of Treatment Weighting, IPTW）：虽然没有直接用IPW计算，但思想贯穿始终。作者用 E[Y|do(V=v)] 的形式表达因果参数。
  - 分层估计与加权平均：这是方法的核心。利用经典的meta分析中逆方差加权（inverse-variance weighting）来合并各分层的估计。
真实例子与应用（必须讲清楚）：
- 数据：使用了来自加州公共卫生部（CDPH）的COVID-19疫苗有效性监测数据。具体是2021年2-12月的数据，包含因症状、接触追踪而检测的受试者。样本量约数千人。
- 应用：将数据按检测原因分层为 R=symp 和 R=contact 两层（假设并无强制筛查数据）。在每层内，使用逻辑回归估计 OR_r，调整协变量 X（年龄、性别）。然后用标准TND估计量（合并数据）和分层估计量分别计算。
- 结果：
  - 标准TND估计量（合并）：VE≈72%（即 1 - OR ≈ 0.72）。
  - VE_{symp}（仅症状层）：VE≈68%。
  - VE_{contact}（仅接触追踪层）：VE≈80%。
  - 分层加权估计量（假设两层层识别同一VE）：VE≈75%。
- 这个例子想说明：标准估计量与分层估计量存在实质性差异。标准估计量（72%）落在 VE_{symp} (68%) 和 VE_{contact} (80%) 之间，但可能对任何一方都无偏。更重要的是，它展示了如果不分层，对结果的解释是模糊的（72% 代表了什么人群？）。而分层后，虽然三个估计量不同，但可以更精确地报告：因症状就医人群VE~68%，被接触追踪人群VE~80%。这种透明性本身就是一种贡献。例子说明，当理论上的充分条件不满足时（两层不一致），报告分层的、有差异的估计值比强行抛出一个有偏的“平均”值更有价值。
🔎 结论是否比证明窄？
- 是。作者在引入部分非常谨慎地强调“when these estimands correspond to the same VE parameter”，但在实证例子中恰好是两层不一致。所以实际建议“分层报告”而非“合并报告”。论文的“形式解”（分层加权合并）在真实场景中可能很少能直接使用，因为它要求的假设极其严格（各层偏倚机制相同）。论文的“实质贡献”——即通过分层分析揭示偏倚并给出一个更透明的报告框架——则更稳健，但其作为一个有影响力的方法论，可能更多体现在诊断工具而非点估计器上。作者没有在结论中充分强调这种“诊断”价值，容易让人误以为分层合并是通用的解。

四、开放问题（点到为止）¶

扩展到更多检测原因：本文只考虑了三种。在真实疫情中，还会有“旅行史检测”、“随机核酸检测”、“为了出行证明而检测”等。如何系统性地分类和量化这些原因带来的偏倚？扎根点：本文只定义了三种 R，在实际数据中更多。
放松“完美检测”假设：假设 Y = I 很强。考虑检测灵敏度/特异度 < 1，且可能因 R 不同而不同（例如，无症状筛查的假阳性率可能不同）。这在本文的框架中是一个明显的局限。扎根点：Abstract和introduction中提及“we assume perfect specificity and sensitivity”，但未做敏感分析。
与负控制方法的整合：本文的分层方法校正的是“因检测原因不同”导致的选择偏倚。Li et al. (2022) 的负控制方法校正的是“未观测混杂”导致的偏倚。它们解决的是不同来源的偏倚，能否在一个统一的框架（比如一步法or两步法）中同时应用？扎根点：本文引用 [26] 负控制方法，但未将其整合或与之比较。这是明显的未来工作。
在更复杂的纵向或多水平数据中的应用：如果检测原因随时间变化，或个体因多种原因被多次检测（例如，因症状检测，后因阳性被接触追踪），如何处理？这引入了依赖结构，可能需要更复杂的模型（如逆概率加权或纵向GEE）。扎根点：本文是横断面研究，未讨论纵贯情况。

Maintained by 陈星宇 · Homepage · Source on GitHub