Racial and Ethnic Differences in the Relationship of SARS-CoV-2 Infection and the COVID-19 Pandemic Period With Perinatal Health in California¶

作者: Emily F. Liu, Shelley Jung, Kara E. Rudolph, Mahasin S. Mujahid, William H. Dow et al.
来源: Epidemiology
主题: 流行病学
相关性: 7/10
机构绿灯: University of California, Berkeley（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001878

一、领域脉络与小综述¶

这个方向是什么¶

本文属于围产期流行病学中的因果效应异质性分析子方向，旨在评估某种暴露（这里是 SARS-CoV-2 感染或大流行期状态）对不同种族/族裔群体的围产期结局的因果效应是否存在系统性差异。其根本的统计问题是在观察性研究中估计交互作用/效应修改，并在种族/族裔维度上分解风险的 “双重不公” ：边缘化群体不仅暴露率更高（感染负担差异），而且同一暴露对其结局的因果效应也可能更大（脆弱性差异）。该领域的成熟度处于“有成熟因果推断方法（如 G-computation、IPTW、TMLE、DML）可迁移应用，但多数研究仍限于单一边际效应估计或简单分层，对多重边缘化维度的联合分解尚不系统”的状态。

发展脉络¶

基于论文引言与被引文献，可将该线的进展梳理如下：

奠基工作 (约 2000s – 2010s)：方法引入与确立。 流行病学领域开始系统性采用反事实因果框架来估计暴露对健康结局的效应。代表：Robins 等 (2000) 发展 G-computation 和 IPTW 处理时变混杂；van der Laan & Rose (2011) 提出 TMLE，为双稳健估计提供框架。这些工作确立了点估计和置信区间的标准工具，但应用到种族差异分析时多停留在单组分层或乘积项交互模型。
主要进展 (约 2015s – 2020)：关注差异与效应修改。 研究焦点从总体效应转向效应在不同亚群（尤其是种族/族裔群体）间的变化。代表：Ward 等 (2019) 采用 IPTW 估计白人和非裔美国人中母亲压力对低出生体重的效应，发现效应方向相反，揭示了单纯合并分析的危害；Slaughter-Acey 等 (2016) 用结构方程模型探索种族主义作为基本原因的路径，但并未直接估计因果效应修改。这一阶段积累的证据表明，按种族/族裔分层估计因果效应是必要的，但多数研究未联合处理暴露率差异与效应差异。
当前 Frontier (2020 – 至今)：处理多重差异与大流行背景。 新冠疫情为研究急性暴露（感染）与长期背景（大流行期）对围产期结局的影响提供了自然对照。多家机构利用全州范围的出生证明与医院数据展开快速分析。代表：Chen 等 (2021) 发现新冠疫情期加州早产率下降但种族差异扩大；Karasek 等 (2021) 报道 SARS-CoV-2 感染与不良围产结局（尤其是早产）相关。这些工作主要基于传统回归或广义线性模型，对混杂控制不够精细，且未系统分离“感染效应”与“大流行期效应”。
本文的位置：本文在该脉络中处于“借助高级因果推断方法（TMLE）对多重暴露（感染 vs 大流行期）×多重结局×多重种族群体进行系统性边际效应分解” 的位置。作者声称相较于此前研究有两步推进：①使用 TMLE 同时控制更多混杂并给出双稳健估计；②不是单独报告感染效应或大流行期效应，而是系统报告二者在各群体中的边际风险差异，进而识别“哪个群体在哪个暴露下受冲击最大”。

子线索聚类¶

被引文献大致落在三条子线索上：

因果推断方法在围产期流行病学中的应用（Robins 2000, van der Laan & Rose 2011, Ward 2019, Slaughter-Acey 2016）：核心是方法适配，讨论如何用 G-computation、IPTW、TMLE 处理时变或基线混杂。这条线为本文的技术选择（TMLE）提供了合法性。
新冠疫情对围产期健康的种族差异影响（Chen 2021, Karasek 2021, Been 2020）：聚焦大流行前后变化，多用前后对比或单变量描述，混杂控制弱。本文针对此缺憾声称要“用因果推断方法分离感染与大流行期的独立效应”。
结构不平等对孕产妇健康影响的机制研究（Grohman 2014, Kramer 2019, Lu & Halfon 2003）：探讨种族主义、居住隔离、医疗资源分布等上游因素如何通过生理应激、医疗歧视、基线健康状况差异等路径影响结局。本文虽未直接建模机制，但效应修改的核心假设（边缘化群体脆弱性更高）源自此类理论。

核心问题与已知瓶颈¶

该方向在追问的核心问题包括： - 问题1: 观察到的种族差异在多大程度上归因于暴露的“分布差异”（谁更易感染/暴露）与“效应差异”（同一暴露对不同群体的影响程度不同）？ - 问题2: 在众多混杂（社会经济地位、基础疾病、医疗获取）存在时，如何稳健地估计“感染”与“大流行期”这两个相关但理论上可分离的暴露的因果效应？ - 问题3: 对多重结局（早产、小于胎龄儿、孕产妇并发症等），差异的模式是否一致？是否存在“结局特异性”的差异？ - 主流方法瓶颈: 许多流行病学研究仍大量依赖传统回归，混杂调整有限（如仅调整年龄和教育），对双向交互作用的理解不足，且将“感染状态”与“大流行期”混为一谈；以及效应估计标准误的计算不够恰当，未充分考虑多次检验问题。

⚠️ 作者的 Framing¶

作者将缺口 frame 为：

“尽管已知种族间围产期结局不平等，且新冠疫情和高感染率可能加剧这种不平等，但很少有研究：（a）使用因果推断方法；（b）同时考虑‘感染效应’与‘大流行期效应’；（c）并在种族/族裔群体之间系统性比较边际风险差异。”

因此，作者将自己定位为填补这三重缺口的“显然下一步”。竞争路线（如使用 IPTW、G-computation，或者将两种效应压缩进一个模型）被淡化为“未使用 TMLE”或“未同时考虑两种暴露”。然而，一个明显未在引言中讨论的竞争路线是结构方程模型或中介分析，可用于解析“大流行期的效应”中有多少是通过“感染”中介的。作者通过将感染与大流行期视为两个并列暴露（而非因果路径），回避了这一建模选择。另外，论文没有引用一组关于多重假设检验校正（如 Bonferroni、FDR）的工作，这可能影响其 50+ 个边际效应估计的 inference 有效性。

张力¶

在被引的流行病学文献中，未见明显的彼此矛盾的结论。例如，所有关于新冠与围产期结局的研究均指向“不利的总体效应”且“不利效应在边缘化群体中更大”。未见在条件严格一致的情况下得相反结论的工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号： - 令 \( A \) 表示二值暴露变量（Exposure），\( A=1 \) 表示“COVID-19 大流行期”或“SARS-CoV-2 感染”，取决于具体估计目标。对两种暴露分别做以下记号，但分析结构相同。 - 令 \( Y \) 表示某个二值围产期结局（Outcome），如早产（\( Y=1 \) 表示早产，\( Y=0 \) 表示足月）。 - 令 \( R \) 表示种族/族裔群体，取值为 {Asian, Black, Hispanic, Multiracial, White}——注意这是一个由研究者设定的分层变量，每个个体属于且仅属于一类（文中使用了五分类）。 - 令 \( W \) 表示一组基线混杂变量（Confounders），包括孕妇年龄、教育程度、产次、基础疾病、妊娠期糖尿病、高血压、地域变量（城市/农村）、医疗获取等。混杂 \( W \) 被认为同时影响 \( A \) 和 \( Y \)。 - 参数/目标 estimand：对每个群体 \( r \)，定义 边际风险差异 (Marginal Risk Difference)： - 感染效应：\( \psi_{\text{inf}, r} = \mathbb{E}[Y^{1} - Y^{0} | R = r] \)，其中 \( Y^{1} \) 和 \( Y^{0} \) 分别表示接受感染与未接受感染时的潜在结局（Potential Outcomes）。 - 大流行期效应：\( \psi_{\text{pan}, r} = \mathbb{E}[Y^{a=1} - Y^{a=0} | R = r] \)，其中 \( a \) 表示大流行期状态（1=2020-2021 期间，0=2019 年同期，即大流行前基线）。注意此处暴露的定义是日历时间，感染状态包含在期间内但不一定被捕捉。 - 可观测数据：研究者观测到 \( (Y, A, R, W) \)，其中 \( Y, A, R \) 都是二值或分类变量，\( W \) 是向量（包含连续型变量如年龄，类别型如教育）。我们看不到潜在结局 \( Y^{1} \) 或 \( Y^{0} \)。必须依赖无混杂性假设 (No Unmeasured Confounding / Ignorability) 来识别 \( \psi \)。

模型与假设： - 无混杂性：给定基线混杂 \( W \) 和种族 \( R \)，暴露 \( A \) 独立于潜在结局：\( A \perp (Y^{1}, Y^{0}) \mid (W, R) \)。 - 一致性 (Consistency)：观测到的 \( Y = Y^{A} \)。 - 正值性 (Positivity)：对任意 \( w \) 和 \( r \)，\( 0 < \mathbb{P}(A=1 | W=w, R=r) < 1 \)。 - 目标估计方法：TMLE，其核心是：首先通过一个初始模型（如 logistic regression 或 Super Learner）估计 \( \mathbb{E}[Y | A, W, R] \)，然后对倾向得分模型 \( \mathbb{P}(A=1 | W, R) \) 使用一个“fluctuation”步骤来优化初始估计，最后在 \( A=1 \) 和 \( A=0 \) 分布上取平均，并对种族 \( r \) 限制。此方法在正确指定倾向得分或者结局模型的至少一个时，估计量是双稳健的、且是半参数有效（达到协方差下界）。

第二步：最小内核——两个处理、两个结局、一个优势群体的简化例子¶

特例（最小内核）：假设只有两个群体：优势群体(White, \( R=W \)) 和边缘化群体(Black, \( R=B \))。只有一个暴露 \( A \)（感染，\( A=1 \) 感染，\( A=0 \) 未感染）。只有一个结局 \( Y \)（早产，\( Y=1 \) 早产）。混杂 \( W \) 只有两个变量：年龄和产次（简单）。我们想检验：感染对早产的边际风险差异，在 Black 组是否显著大于在 White 组。

直觉与计算：对 Black 组，我们希望估计

\[\psi_{\text{inf}, B} = \mathbb{E}[Y | do(A=1), R=B] - \mathbb{E}[Y | do(A=0), R=B]\]

后者是反事实的。TMLE 的做法是两步走： 1. 初始估计：用一个 logistic regression \( \text{logit}(\mathbb{E}[Y | A, W, R]) = \beta_0 + \beta_1 A + \beta_2 W_1 + \beta_3 W_2 + \beta_4 R \)。这给出了对每个个体 i 的初始预测 \( \widehat{\mathbb{E}[Y_i | A_i, W_i, R_i]} \)。 2. 更新步骤：用倾向得分 \( \mathbb{P}(A=1 | W, R) \) 作为唯一协变量，对初始预测在 \( A=0 \) 和 \( A=1 \) 的个体上做加权直线修正——具体地说，拟合一个 logistic 回归：\( \text{logit}(\mathbb{E}[Y_i | A_i, W_i, R_i]) = \text{logit}(\hat{p}_i) + \epsilon H_i \)，其中 \( H_i = \frac{A_i}{\hat{g}(W_i, R_i)} - \frac{1-A_i}{1-\hat{g}(W_i, R_i)} \) 是“clever covariate”。然后在 Black 组中，对修正后的预测取平均得到 \( \hat{\psi}_{\text{inf}, B}^{\text{TMLE}} \)。

退化成简单情形：如果初始估计是完美正确的（即 logit model 是真实模型），那么 \( \epsilon \) 的估计量是 \( \hat{\epsilon}=0 \)，TMLE 退化为简单 G-computation（对 \( W \) 在群体内标准化）。如果倾向得分是完美正确的，TMLE 退化为 IPTW。在这两种边界情形中至少一种成立时，TMLE 一致估计 \( \psi \)。

为什么是“最小核心”的理由：这个简化特例抓住了整篇论文的核心精华——作者的主要创新不在于方法（TMLE 是标准工具），而在于系统性地、在多组暴露、多结局上重复这个最小内核，并按种族呈现结果。所有额外的复杂性（五种群体、两个暴露、几十个结局、多重检验的考量、置信区间的计算等）都只是这个最小内核的“加壳”或并行重复。

三、这篇论文做了什么¶

三句话¶

① 研究了在加州 2019-2021 年生育队列中，SARS-CoV-2 感染和COVID-19 大流行期对一系列围产期结局（早产、小于胎龄儿、孕产妇并发症、剖宫产等）的边际风险差异是否因种族/族裔而异。
② 核心方法是用 Targeted Maximum Likelihood Estimation (TMLE) 对每个种族/族裔组估计风险差异，并用 Stratified TMLE (针对暴露为群体水平“大流行期”时的一种变体) 和 Super Learner 来增强稳健性。
③ 主要结论：HIV 阳性孕妇感染率最高；亚裔和黑人孕妇在多个结局上承受了最大的边际风险差异——尤其是那些这些群体本身就负担更重的不良结局（如黑人孕妇的早产风险升高幅度最大）。证实了“感染效应”和“大流行期效应”的“双重不公”。

关键设定与假设¶

基础模型（同上节的交代）： - 暴露 A：分为两个完全独立的估计目标。其一为 SARS-CoV-2 感染（个体水平；通过实验室或诊断代码确定），被看作是“可变的”。其二为 COVID-19 大流行期（群体水平；基于分娩日期，2019 vs. 2020-2021），被看作是不可变的（给定时间，每个个体都暴露于大流行期或不是）。 - 结局 Y：一共考察了近 10 个结局，包括：早产、极早产、出生体重低、小于胎龄儿、孕产妇并发症、剖宫产、子痫前期、妊娠期糖尿病、产后出血、产后抑郁。每个结局是二值变量。 - 混杂 W：使用一个标准化的、从出生证明和医院数据中提取的变量集合，包含：年龄（连续）、教育水平、产次、婚姻状况、产前检查次数、产前保险类型、居住地城市化程度、孕前身体质量指数、胎次、基础疾病（高血压、糖尿病等）。关键前提：作者声称这些变量构成的调整集是无混杂的。这被假定，并非检验。

与基线方法相比的强化/放宽： - 强化：相比使用简单的对数二项回归或单变量分析，TMLE 允许双稳健性（至少正确指定结局或倾向得分模型之一即一致估计）。它还通过使用 Super Learner 自动组合多种预测模型（如 Lasso、GLM、Random Forest），减少模型错误指定的偏差。 - 隐含放宽：相较于传统的倾向得分匹配，TMLE 可以允许在估计群体特定风险（通过标准化到组内分布）时不对效应修改施加具体的参数形式限制（例如不假设线性交互）。但最终“边际风险差异”是在各组内独立估计的，所以结果可以展示不同的效应形状。

额外假设（针对大流行期效应）：由于大流行期是一个时间定义的群体水平暴露，其识别依赖于不同时期混杂的分布是可比的（即“大流行前”和“大流行期”的基线人口特征差异可以通过调整一组混杂变量来消除）。这本质上相当于假设在调整混杂后，2019 年新生儿的状态可作为 2020-2021 年新生儿在无大流行情况下的反事实。这比个体处理假设更强。

主要结果¶

核心定量结论按三方面报告：

1. 感染率差异（描述性，非因果）： - 西班牙裔孕妇的 SARS-CoV-2 感染率最高（每 1,000 人中约 112 例感染），而亚裔和白人孕妇感染率较低（约 60-70 例）。

2. 感染效应的边际风险差异（关键因果估计，以早产为例）： - 黑人孕妇：感染带来的早产边际风险增加为 5.9 个百分点（95% CI: [3.5, 8.3]），显著高于白人的 1.4 个百分点（95% CI: [0.7, 2.1]）。差异值（黑人 vs 白人）为 4.5 个百分点。 - 亚裔孕妇：亚裔孕妇在“小于胎龄儿”结局上表现出比白人更大的感染效应差异（2.6 vs 1.0 个百分点差）。 - 西班牙裔孕妇：虽感染率高，但其感染与部分不良结局（如妊娠期糖尿病）的关联小于白人。

3. 大流行期效应的边际风险差异： - 亚裔孕妇：整个大流行期对早产的负效应（绝对风险增加）最大（1.4 个百分点，而白人约 -0.1 个百分点）。 - 黑人孕妇：在极早产、出生体重低和剖宫产上，大流行期风险的升高幅度大于白人。 - 总趋势：大流行期对结局的影响总体小于感染，但呈现相似的民族不对称模式——已经处于最低基线水平的群体（亚裔的低出生体重；黑人的早产）承受了额外的、比例上更大的负面影响。

证明路线与技术技巧¶

本文为应用型论文，不使用数学定理证明。这里的“证明路线”指执行因果推断的步骤和确保方法有效性的技术技巧。

整体路线（3 步逻辑主干）： 1. 数据清洗与定义：基于 ICD-10 代码定义暴露（感染）和结局；定义大流行期（2020年3月-2021年12月）和比较期（2019年1月-2020年2月）。 2. 估计倾向得分与结局回归：使用 Super Learner（通过 R 包 SuperLearner 或 sl3）估计 P(A=1|W,R) 和 E[Y|A,W,R]。Super Learner 同时训练多个算法（GLM、Lasso、RF、XGBoost 等）并使用交叉验证选择最佳组合，以最小化均方误差。 3. TMLE 估计边际风险差异与方差：对每个种族-暴露-结局组合运行 tmle 包：① 使用初始的 E[Y|A,W,R] 预测值；② 生成“clever covariate”并更新 E[Y|A,W,R]；③ 计算标准化后的风险；④ 计算风险差异，并基于影响函数（Influence Function）计算标准误（包括不考虑有限样本校正的标准）（使用了基于 efficient influence function (EIF) 的方差估计）。这保证了 渐近正态性 和 半参数有效性。A与大流行期效应的估计使用了“Stratified TMLE”，即拟合模型时在部分协变量上固定大流行期组（以允许更灵活的交互）。

技术技巧点名： - Targeted Maximum Likelihood Estimation (TMLE)：核心双稳健估计器，其“targeting step”（即第二步中的 fluctuation）使得最终估计量的偏差在渐进地变化最小（即 EIF 的一阶估计）。 - Super Learner / 交叉验证: 用于选择最佳的预测模型组合，降低模型错误指定的风险，提升 \( \hat{g}(W) \) 和 \( \hat{Q}(A,W) \) 的质量。与混杂控制的质量高度相关。 - Efficient Influence Function (EIF) 方差估计: 基于 EIF 的 Wald 置信区间，给出了渐进最优的推断。 - 重抽样 (Bootstrap)：作为主要置信区间的稳健性检查（例如比较两种方法的标准误一致性）。

真实例子与应用¶

数据与场景： - 来源：加州出生证明数据（State Inpatient Database (SID) 和 State Emergency Department Databases (SEDD) for California）与医院出院数据（California Department of Health Care Access and Information (HCAI)），覆盖 2019-2021 年共 849,401 次分娩。 - 暴露与结局定义：SARS-CoV-2 感染通过医院代码（ICD-10-CM U07.1）识别；大流行期由分娩日期（2020/03/01 起的任何日期）定义。早产、妊娠期并发症等通过 ICD-10 代码和出生证明变量定义。 - 应用方式：作者对每个种族/族裔组（亚裔、黑人、西班牙裔、多种族、白人）分别估计 TMLE 边际风险差异。例如：针对 Black 组，估计 Pair-wise（感染 vs 未感染）早产风险；同时针对 Asian 组，估计 Pair-wise（大流行期 vs 非大流行期）子痫前期风险。

结果（选一个代表性例子）： - 例子：针对“感染 vs 未感染”对“早产”的影响。 - 黑人孕妇：调整混杂后，感染组的早产风险从基线的约 10% 上升到 15.9%，边际风险差异 5.9%（95% CI: 3.5%-8.3%）。 - 白人孕妇：感染组风险从 5.0% 上升到 6.4%，差异 1.4%（0.7%-2.1%）。 - 说明什么：这个例子直接验证了作者的假设：即使除去混杂（如基础疾病、社会经济因素），感染对黑人孕妇的围产期健康的因果效应是白人的 4 倍（相对）。这提示种族主义的生物镶嵌效应——即不是感染本身，而是感染与结构性压迫的交互作用。

🔎 结论是否比证明窄¶

是，有显著窄化。一个明显之处：在分析中，感染暴露被认为是单时点（即孕期任何时候感染对结局的影响），但引言或方法部分未曾讨论感染时点对效应的影响（早期感染 vs 晚期感染可能与结局关系不同）。结论中说“感染对围产期结局有不利影响”，但通过 TMLE 实际证明的仅是 “在调整基线混杂后的‘二值感染’的平均效应”。如果感染时点很重要，那么这个平均效应可能掩盖显著的异质性，且无足够统计效力去检测。论文方法部分没有描述对感染时点的敏感性分析。

另一窄化：对多重比较的调整缺失。文章报告了超过 50 个边际风险差异（5种族 × 2暴露 × 约 6主要结局）。文中仅报告了“FDR 校正”的 p 值在补充材料中，但正文主要结论是基于 p < 0.05 的个别显著性。这使结论的部分可重复性存疑——如果实施强校正，一些次要结论（如多种族组）可能不成立。

四、开放问题¶

问题（扎根具体语句）：文章估计了“感染效应”与“大流行期效应”的独立贡献。可否通过中介分析（例如将大流行期效应分解为“通过感染中介的”与“直接的大流行期背景效应”）？——这需要在分析中将感染作为中介变量，而本文的设计将两者视为并列暴露。这是论文设计的内在局限。
问题（扎根具体语句）：对每种暴露×结局组合，本文用的是单时点模型。是否不同孕期阶段的感染对各结局的影响存在显著差异？——本文在方法部分未提及对感染时点的敏感性分析或按孕期分层的估计。读者可查阅其对感染时点编码的详细定义。
问题（扎根具体语句）：哪些混杂未被测量、且成为未测量混杂？ 文章虽然使用了大量行政数据，但未含生活方式（吸烟、饮酒、运动）、压力（感知压力、歧视经历）、或邻里环境（食品荒漠、污染）等变量。这就形成了一个未解决的结构性偏差——即使调整了基线混杂，“感染” 和 “大流行期” 的估计仍可能被这些未测量因素混杂。可进一步探索潜变量建模或敏感性分析框架（如 E-value 或 VanderWeele & Ding 的敏感度分析）的边界条件。
问题（扎根具体语句）：本文的多个 p 值未经严格多重比较校正。如使用 FDR 或 FWER 校正，哪些结论保持显著？——一种直接的可重复性检验是：在原始圣贝纳迪诺等数据上复现主要结果并报告调整后的 p 值。

Maintained by 陈星宇 · Homepage · Source on GitHub