Modeling racial/ethnic differences in COVID-19 incidence with covariates subject to nonrandom missingness¶

作者: Rob Trangucci, Yang Chen, Jon Zelner
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向位于 流行病学监测数据的偏差校正 与 缺失数据机制（Missing Data Mechanisms）识别与建模 的交汇点。其根本的统计/科学问题是：当公共健康监测数据中的关键人口学协变量（如种族/族裔）存在高比例缺失，且缺失机制很可能 非随机（NMAR, Not Missing At Random）——即缺失与否依赖于该变量本身的值——时，如何获得该人群中疾病负担（如发病率、死亡率）的无偏或至少是偏差更小的估计。这一问题的“成熟度”处于 应用驱动的理论-方法接合部：已有成熟的缺失数据理论（Little & Rubin, 2002），但将这些理论具体应用于空间流行病学和COVID-19数据，尤其是在NMAR假设下实现识别，仍是活跃且略有进展的前沿。

发展脉络¶

奠基工作：缺失数据理论的正式化与种族差异的“信号”发现
Little & Rubin (2002)（虽未被本文直接重点引用，但为领域基础）：建立了缺失数据的三种机制（MCAR, MAR, NMAR）的分类学。
Millett et al. (2020) 与 Zelner et al. (2021)：这两项工作（本文的引用语境①）是“问题发现者”。前者（Millett）比较了新冠疫情在美国黑人聚居县与其他县的发病率与死亡率，发现了显著的种族差异（黑人聚居县确诊率RR=1.24, 死亡率RR=1.18）。后者（Zelner，本文被引文献[20]）在密歇根州数据中发现了更两倍以上的种族发病率与死亡率差异。它们共同塑造了“种族差异存在且很大”这一认知，但处理缺失数据的方法较为原始（通常依赖完整病例分析或未提及缺失率），留下了 “如果缺失数据被考虑‘正确’处理，差异究竟有多大？” 这个根本问题。
主要进展：从“发现差异”到“意识到缺失数据是关键混淆”
Labgold et al. (2020)（本文引用语境③）：这是一个关键的“警醒”工作。它明确指出了“缺失率很高，且种族协变量的缺失很可能不是随机的”（NMAR）。该工作通过结合多重插补（假设MAR）与定量偏差分析（QBA，用于校正误分类）的方法，发现调整后，黑人与西语裔人群的通知率差异比完整病例分析增加了1.3倍和1.6倍。这清晰地建立了“缺失数据处理方法的选择会实质性影响种族差异的估计”。
Perkins et al. (2018)（被引文献[18]）与 Sidi & Harel (2018)（被引文献[8]）：综述并呼吁在流行病学中使用“有原则的”（principled）缺失数据处理方法，并警示不正确的处理会如何产生误导性结论（如在偏倚分析中SMOKE对流产的虚假保护作用）。它们为评判标准提供了参照。
Zhang et al. (2022)（被引文献[14]）：一个直接的竞争性操作。该文为CDC的COVID-19病例数据开发了多重插补（MI）模型来填补缺失的种族/族裔信息，但明确 假设缺失机制为MAR。本文指出这是其关键局限。
当前前沿与本文位置：挑战MAR假设，利用空间结构实现NMAR下识别
本文（Trangucci, Chen, & Zelner, 2024） 直接定位在前面的张力点上：即将NMAR识别理论（通过稀疏性、工具变量或空间结构）具体化为一个可操作的贝叶斯模型。它的核心策略是“联合建模”：同时建模疾病发病的空间变异过程（用条件自回归CAR模型）和种族/族裔协变量的缺失过程（用logistic回归），从而利用空间结构信息来锁定NMAR下的估计。作者声称这是首个在传染病监测数据中同时做到这一点的尝试（作者的framing）。

子线索聚类¶

这些被引文献大致落在三条子线索上： 1. 流行病学种族差异发现（全凭完整病例或简单分析）：Millett (2020), Zelner (2021). 2. 缺失数据处理的方法论： - MAR假设下的MI推广：Zhang (2022), Audigier (2017), Stavseth (2019). 这类工作力求在MAR假定下做出更好的插补，但回避了NMAR的挑战。本文通过模拟证明这些方法在NMAR下仍然会有偏差。 - NMAR建模与偏差分析：Clark & Houle (2014) 用Heckman选择模型校正HIV患病率（本文引用了这条文献）。Liublinska & Rubin (2014) 提出了“临界点”（tipping point）敏感性分析用于随机试验。Perkins (2018) 讨论了双稳健方法。本文的建模方法属于这一簇，但通过结合空间结构实现了更强（局部可识别）的识别。 3. 传染病空间时间建模（本文的“武器”来源）：Meyer & Held (2013, 2014), Wakefield et al. (2019), Held et al. (2019). 这套文献提供了用于传染病监测数据的经典空间时间模型框架（如Held的流行性/地方性模型）。本文借用了其中的空间自相关结构（CAR模型），但将其转到用于联合建模疾病风险和缺失过程。

核心追问的问题及其瓶颈¶

该领域在发展中对以下问题时刻保有追问： - 估计的稳健性差异：针对非随机缺失（NMAR）问题，当前的主流方法（MI、完整病例分析）为何仍被广泛使用？瓶颈在于：模型选择困难、实施门槛高、对贝叶斯推断的要求高、以及对模型假设的检验能力不足。 - 模型不能（轻易地被）验证：对于定量的结果，究竟怎样的模型才是“好”的，尤其是在缺乏验证数据来区分NMAR与MAR的情况下。 - 核心假设的复杂性：本文模型的“局部可识别性”需要对空间单元的人口构成和病例的空间聚集性做出准确建模。

⚠️ 作者的Framing¶

作者如何frame缺口：作者把缺口描述为“现有方法（MI/CCA）都假设MAR，但这在COVID-19数据中几乎肯定不成立，导致有偏估计”。他们把本文推举为“用NMAR模型解决这个具体、实践问题”，声称“我们的模型是第一个在传染病监测数据中联合建模空间变异和NMAR缺失过程的”。他们把对手（MI/CCA）置于“不可用”的位置。
淡化或回避的竞争路线：
- 多重插补（MI）与定量偏差分析（QBA）的结合：如Labgold的文章，这已被实践过，能得到合理的边界。作者在模拟中对比了MI，但未用本文的模型与一个“MAR-MI假设下的事后敏感性分析（如Liublinska & Rubin的方法）”进行直接比较。后者对实践者来说可能更容易操作。
- 其他类似NMAR模型（如Heckman转机模型）：虽然被引，作者批评其为“参数脆弱”。
什么可能被遗漏/值得去查？
- Missing Not at Random with Instrumental Variable：没有一条引用把“是否存在一个工具变量（如医院的类型或医师对于记录种族信息的偏好）能帮助校正缺失”作为显式假说来讨论。这是标准的计量经济学NMAR处理路径，但在空间流行病学里应用不广，值得作为潜在解放路径探究。

张力¶

在这些被引工作中，未见明显的对立引用。但存在一个高价值的公开不同意见，它在[14]（Zhang et al.）与本文之间：前者（CDC MI）明确假设MAR足以工作，后者认为这“无法证实”且将产生偏倚。两个方向的论文都存在，彼此没有在技术层面互相驳斥。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

先交代最简模型： - 可观测数据：对于密歇根州韦恩县的一个病例 \(i\)，我们能观测到它所在的 空间单元PUMA（Public Use Microdata Area，记为 \(g_i \in \{1,\dots, G\}\)）、它的种族 \(R_i\)（取值为 \(R \in \{\text{White}, \text{Black}, \text{Hispanic}, \text{Other}\}\)），或是全部缺失（记为 \(R_i = \text{NA}\)）。我们不能观测到该病例来自哪个区域的人口基数。我们能观测到完整病例在所有PUMA的分布，以及PUMA层面的人口构成（从ACS/人口普查得知）。 - 符号： - \(i=1,\dots,n_g\)：属于某个PUMA \(g\) 的病例序号（\(n_g\) 是PUMA \(g\) 的总病例数）。 - \(g_i \in \{1, \dots, G\}\)：空间单元（PUMA）的索引。 - \(R_i\)：种族/族裔，取值为 \(R \in \{\text{W}, \text{B}, \text{H}, \text{O}\}\)，部分病例可能缺失。 - \(M_i\)：缺失指示变量，\(M_i = 1\) 若 \(R_i\) 缺失，否则 \(M_i=0\)。 - \(\lambda_g\)：PUMA \(g\) 的基准发病率（基于泊松主模型的“例数”对数尺度截距）。 - \(\beta = (\beta^\text{B}, \beta^\text{H}, \beta^\text{O})\)：对数相对风险（相对于白人）。这是核心参数。 - \(\phi_g\)：空间随机效应（PUMA \(g\) 的“脆弱性”），来自CAR先验。 - \(\alpha\)：缺失模型系数，连接空间归因与疾病归因的差异。 - \(\theta\)：缺失模型中空间效应（用一个与基准病例空间结构相似的独立项表示 \(Z_g\)）。 - 模型：这是核心。发病过程是泊松：log(期望病例数 \(|\lambda_g, \beta\)) = \(\lambda_g + \beta^T \cdot \mathbb{1}[R_i = r] + \phi_g\)。缺失过程是一个Logistic模型，logit(\(P(M_i=1 | \cdot)\)) = \(Z_g \cdot \alpha\)（其中 \(Z_g\) 是PUMA层面的缺失空间模式）。 - 我们要估计什么？ 我们要估计的东西是对数相对风险 \(\beta\)（不同种族的人群相对于白人的发病率差异）。 - 可观测 vs 潜在的： - 可观测（已知）：\(g_i\)，\(n_g\)（每个PUMA的病例总数），区域人口构成分布\(p_r(g)\)（其中 \(p_r(g)\) = {PUMA \(g\) 中种族 \(r\) 的人口占比}）。 - 潜在的/观测不到的：每个病例的个别种族\(R_i\)（如果\(M_i=1\)它是未知的）。缺失机制：是族裔值本身影响它是否被记录。即 \(P(M_i=1 | g_i, R_i = r) \neq P(M_i=1 | g_i, R_i = r')\)。这就是NMAR。

第二步：最小内核（最简特例）¶

说明：这篇论文的本质是“用空间聚集模式来解开NMAR之谜”。我们可以将核心数学思想归结为下面这个二元空间（G=2）、二元种族（白-B）、无年龄结构的最简特例：

最简设定：
空间：只有两个PUMA，g=1和g=2。
种族：只有White和Black。
人口构成（已知）：PUMA1里 Black占比=80%, White=20%。PUMA2里 Black=10%, White=90%。
真实底数：Black的真实发病率是White的两倍（\(\beta=log(2)\)）。
病例总计数（可以观测到）：我们观测到PUMA1有100例，PUMA2有50例病例。
缺失问题：在很多病例中种族信息缺失。假设White病例更可能被记录，或Black病例的种族未被记录。
可观测到（最简）：PUMA1里，有20人有种族记录（其中10黑，10白），80人种族缺失。PUMA2里，有80人有种族记录（其中8黑，72白），20人种族缺失。
传统方法的问题：
完整病例分析（CCA）：只看有记录的。在PUMA1，看到的黑/白风险比= (10/0.8) / (10/0.2) = 0.25，严重低估Black的负担。
MAR假设的MI：它会假设缺失的病例，其种族分布与记录下来的病例分布（在该PUMA内）相同。PUMA1会让MI觉得剩下的80人里种族比为50/50，但这对吗？
核心思路（仅用空间欠位）： 如果在NMAR下没有结构，那无解。但这里有空间结构的两条信息：
PUMA1的总病例数极高（100例），且该区域有80%的Black居民。这意味着绝大多数病例一定发生在Black人群里。
病例是空间聚集的（这个例子里，PUMA1的空间效应 \(\phi_1\) 会是正的）。

我们让缺失率有空间变异。比若说，Black多的人口统计中心（PUMA1）记录失效也更高。 关键跳跃是：既然我们已知道每个PUMA里Black的人口基数，而且病例是半个Poisson生成，我们可以利用观察到的PUMA层面总病例数（而非个体种族信息）与PUMA的人口构成之间的 联合模式来反推 \(\beta\)。这就是 如果PUMA1病例很多，且该区域Black人多，那么病例更可能是Black的，这可以间接辨识缺失模式。该文最小内核的证明思路是：空间分布的总变异（\(\beta\)）与人口构成作用于识别缺失过程，使得在特定的结构假设下模型“局部可识别”。

三、这篇论文做了什么¶

一句话总结：作者开发了一个贝叶斯空间时间模型，直接对因变量（疾病）和缺失协变量（种族/族裔）的生成机制进行联合建模，以此校正缺失机制非随机（NMAR）导致的偏差，并应用在密歇根州韦恩县COVID-19早期数据上。
核心工具：贝叶斯推断（用Stan动态HMC做后验采样）；空间结构（用条件自回归CAR模型刻画PUMA层面的空间脆弱性）；联合缺失机制分模型（用logistic回归描述缺失）。
主要结论：1）理论证明模型在李雅普诺夫意义上局部可识别（当人口构成已知且有空间变异时）；2）模拟显示，在所有情况下，BNMP模型的负偏差比完整病例分析和标准多重插补都要小（在NMAR数据上，前者偏差可达90%，而本模型平均偏低15%-40%，取决于参数）；3）在真实数据中，如果仅依靠完整病例分析或多重插补，会明显低估黑人与其他少数族裔群体在疫情早期的发病率相对风险。（完整病例分析显示黑人的RR约为[2.5, 3.0]，而本模型得出的后验均值在[3.0, 4.5]）。

关键设定与假设¶

模型假设（全部写入了附录的细节）：
式(1)-(3)（似然）：在PUMA \(g\)，种族 \(r\) 的观测到的病例数遵循泊松分布，其\(\log(\text{期望率}) = \lambda_g + \beta^T \cdot 1_{[r]} + \phi_g\)；对缺失组（种族未知）的病例数则对所有\(r\)的期望求和。
式(4)（空间）：\(\phi_g\) 源自条件自回归（ICAR，用相邻关系重权）模型，它代表地方的空间风险依赖。
式(5)（缺失机制）：Logistic回归，\(\logit(P(\text{缺失}| \cdot)) = Z_g \cdot \alpha\)。\(\alpha\) 是NMAR参数，代表一个与疾病空间风险相似的模式与缺失强度之间的关联。核心假设：缺失过程可以总结为一种与疾病空间模式相关联（但不相同）的空间模式。且这种关联是已知的（通过空间重权编码落实）。
设定比已有文献放宽或强化了那些：
强化：相对于标准MI，本文放弃了MAR假设，改善了当数据为MNAR时的估计。
放宽：相对于之前少数几个严格的单一空间NMAR模型，本文模型内部包含了更多可为空间在整个识别问题中作用的解释（用一个独立于\(\phi\)项的\(Z\)来做缺失建模）。

主要结果——理论¶

该文的理论重心在局部可识别性（定理1和2）。简言之：我们无法得到一个全局唯一的完整参数向量，但是所有满足似然方程的解，其相应的相对风险\(\beta\)是唯一确定的（在给定的参数化约束下）。这是什么意思？这里给了关键条件：
人口构成已知（ACS数据）。
空间单元（PUMA）数量至少不低于种族组数+1。这相当于是空间维度条件。
作者明确界定，其理论不依赖特定先验（“prior不驱动此可识别性”）。技术难点：作者通过“信息矩阵的满秩条件”应归为典型参数雅可比条件。他们证明了当更多样本（病例）聚集在某个PUMA时，Fisher信息矩阵关于核心参数（\(\beta\)和\(\alpha\)）是正定的——这就可识别。

证明路线与技术技巧¶

整体路线（一个数据生成模型，然后证明它的反解是局部的）：
构建似然：写出完整数据集（包含缺失的潜在种族）和缺缺失机制的完全似然。
边际化：对不可观测的种族\(R_i\)进行求和积分，得到只基于可观测数据的似然。
计算Fisher信息：对该边际似然进行对数尺度的一阶与二阶偏微分。
检查信息阵满秩：当设计矩阵（状态X种族关于空间的聚合项）是满秩时，证明核的Jacobian条件成立。
关键跳跃点：证明应用于NMAR的尾部风险。一般NMAR模型需要有约束空间才能保识别。作者用的 “建立空间结构变量的相关性”。关键在于：只要缺失模式能被分到独立空间单位项（\(Z_g\)）中，且\(Z_g\)与疾病模式（\(\phi_g\)）的相关系数在-1到1之间但有足够的变化，这就为两个结构提供了不同的“标签资源”。
技术技巧点名：
使用的核心工具：贝叶斯多层建模、ICAR随机效应（借用传染病空间时间领域）、马尔可夫链蒙特卡洛（HMC）。
实际分析工具：Stan的Alpha开发分支（用于设先验和采样）。
缺失机制模型：潜变量Logistic回归。

真实例子与应用¶

数据：密歇根州韦恩县（包括底特律市）的COVID-19病例库（截止2020.07）。
如何应用：首先将病例按PUMA归总。个体期种族数据缺失率>40%。然后用MAP给模型的先验和似然设值，在此基础上运行2-4条HMC链（共4000步），利用潜在文件对种族缺失的后验估值进行“干预”。
结果：
定性（示意）606：韦恩县的下半部（地盘美国）交错：有的PUMA以黑人为多但记录缺失巨高。补上了空间项后，这一扭曲被缓解。传统方法（CCA, MI）给出的黑人相对发病率为“3倍于白人”，而本模型贝叶斯得到的后验区间落到了“近四倍于白人”的外围。
想说明什么：案例说，若你在NMAR下不处理，你会严重低估非白人群体的早期风险；空间刚刚的“真实解决”，亲，促成大分差异。

🔎 结论是否比证明窄¶

是的。理论（局部可识别）证明的是一种非常广的情况，但实际应用只演进到了一个特定的空间结构（CAR且\(Z\)由经PUMA人口密度导出的孔数分组编码）。作者 完全避免了空间时间序列（像TSIR模型那样动）的证明，但这在真实传染病传播框架里很显然更可能真；本文只做静态累积截止报告。模型对“时间”的假设（累积的一条）——而什么当时用长面板时会很脆弱，这文章中没提。

四、开放问题¶

模型的可扩展性（扎根：作者在Limitations段说的“我们在本文中只考虑了...单时间点...”）：将当前位置（空间-种族）模型扩展为空间-时间-种族完整动态模型，需要退化为实际感染人数，与受流行病学（TSIR）规范兼容。是否可以不依靠强假设下进行局部可识别检验，这一点较难但仍可办到？
弱化“空间结构已知”假设（扎根：作者理论推论依赖的“人口构成已知的确切空间分布”来自ACS普查）：人口普查本身有样本误差。本研究中的先验亦未承接ACS标准误。研究点：从半参数失真和矛盾角度考虑，若ACS的PUMA人口比例存在（小）测量误差（0-3%均沾所有种族），严重失真是怎么假损害局部可识别的证明的基数？
两阶段计算-统计权衡（成本政略）比较与推导（扎根：当前使用MCMC的巨大时间开支）：既然该模型的似然显然会是典型的潜归（踪）模型，可拆为两步：先由算法有效降固（如用空间交叉组与支持向量机快速推断缺失）。研究者研究（使用高阶U-统计中的张量收缩成本（einsum复杂度））可否应用到这类具有空间点标注、并可观观测（病例数）归入内部积结构的缺失模型？

Maintained by 陈星宇 · Homepage · Source on GitHub