Modeling racial/ethnic differences in COVID-19 incidence with covariates subject to nonrandom missingness¶
作者: Rob Trangucci, Yang Chen, Jon Zelner
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
机构绿灯: University of Michigan(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
这个子方向位于 流行病学监测数据的偏差校正 与 缺失数据机制(Missing Data Mechanisms)识别与建模 的交汇点。其根本的统计/科学问题是:当公共健康监测数据中的关键人口学协变量(如种族/族裔)存在高比例缺失,且缺失机制很可能 非随机(NMAR, Not Missing At Random)——即缺失与否依赖于该变量本身的值——时,如何获得该人群中疾病负担(如发病率、死亡率)的无偏或至少是偏差更小的估计。这一问题的“成熟度”处于 应用驱动的理论-方法接合部:已有成熟的缺失数据理论(Little & Rubin, 2002),但将这些理论具体应用于空间流行病学和COVID-19数据,尤其是在NMAR假设下实现识别,仍是活跃且略有进展的前沿。
发展脉络¶
- 奠基工作:缺失数据理论的正式化与种族差异的“信号”发现
- Little & Rubin (2002)(虽未被本文直接重点引用,但为领域基础):建立了缺失数据的三种机制(MCAR, MAR, NMAR)的分类学。
-
Millett et al. (2020) 与 Zelner et al. (2021):这两项工作(本文的引用语境①)是“问题发现者”。前者(Millett)比较了新冠疫情在美国黑人聚居县与其他县的发病率与死亡率,发现了显著的种族差异(黑人聚居县确诊率RR=1.24, 死亡率RR=1.18)。后者(Zelner,本文被引文献[20])在密歇根州数据中发现了更两倍以上的种族发病率与死亡率差异。它们共同塑造了“种族差异存在且很大”这一认知,但处理缺失数据的方法较为原始(通常依赖完整病例分析或未提及缺失率),留下了 “如果缺失数据被考虑‘正确’处理,差异究竟有多大?” 这个根本问题。
-
主要进展:从“发现差异”到“意识到缺失数据是关键混淆”
- Labgold et al. (2020)(本文引用语境③):这是一个关键的“警醒”工作。它明确指出了“缺失率很高,且种族协变量的缺失很可能不是随机的”(NMAR)。该工作通过结合多重插补(假设MAR)与定量偏差分析(QBA,用于校正误分类)的方法,发现调整后,黑人与西语裔人群的通知率差异比完整病例分析增加了1.3倍和1.6倍。这清晰地建立了“缺失数据处理方法的选择会实质性影响种族差异的估计”。
- Perkins et al. (2018)(被引文献[18])与 Sidi & Harel (2018)(被引文献[8]):综述并呼吁在流行病学中使用“有原则的”(principled)缺失数据处理方法,并警示不正确的处理会如何产生误导性结论(如在偏倚分析中SMOKE对流产的虚假保护作用)。它们为评判标准提供了参照。
-
Zhang et al. (2022)(被引文献[14]):一个直接的竞争性操作。该文为CDC的COVID-19病例数据开发了多重插补(MI)模型来填补缺失的种族/族裔信息,但明确 假设缺失机制为MAR。本文指出这是其关键局限。
-
当前前沿与本文位置:挑战MAR假设,利用空间结构实现NMAR下识别
- 本文(Trangucci, Chen, & Zelner, 2024) 直接定位在前面的张力点上:即将NMAR识别理论(通过稀疏性、工具变量或空间结构)具体化为一个可操作的贝叶斯模型。它的核心策略是“联合建模”:同时建模疾病发病的空间变异过程(用条件自回归CAR模型)和种族/族裔协变量的缺失过程(用logistic回归),从而利用空间结构信息来锁定NMAR下的估计。作者声称这是首个在传染病监测数据中同时做到这一点的尝试(作者的framing)。
子线索聚类¶
这些被引文献大致落在三条子线索上: 1. 流行病学种族差异发现(全凭完整病例或简单分析):Millett (2020), Zelner (2021). 2. 缺失数据处理的方法论: - MAR假设下的MI推广:Zhang (2022), Audigier (2017), Stavseth (2019). 这类工作力求在MAR假定下做出更好的插补,但回避了NMAR的挑战。本文通过模拟证明这些方法在NMAR下仍然会有偏差。 - NMAR建模与偏差分析:Clark & Houle (2014) 用Heckman选择模型校正HIV患病率(本文引用了这条文献)。Liublinska & Rubin (2014) 提出了“临界点”(tipping point)敏感性分析用于随机试验。Perkins (2018) 讨论了双稳健方法。本文的建模方法属于这一簇,但通过结合空间结构实现了更强(局部可识别)的识别。 3. 传染病空间时间建模(本文的“武器”来源):Meyer & Held (2013, 2014), Wakefield et al. (2019), Held et al. (2019). 这套文献提供了用于传染病监测数据的经典空间时间模型框架(如Held的流行性/地方性模型)。本文借用了其中的空间自相关结构(CAR模型),但将其转到用于联合建模疾病风险和缺失过程。
核心追问的问题及其瓶颈¶
该领域在发展中对以下问题时刻保有追问: - 估计的稳健性差异:针对非随机缺失(NMAR)问题,当前的主流方法(MI、完整病例分析)为何仍被广泛使用?瓶颈在于:模型选择困难、实施门槛高、对贝叶斯推断的要求高、以及对模型假设的检验能力不足。 - 模型不能(轻易地被)验证:对于定量的结果,究竟怎样的模型才是“好”的,尤其是在缺乏验证数据来区分NMAR与MAR的情况下。 - 核心假设的复杂性:本文模型的“局部可识别性”需要对空间单元的人口构成和病例的空间聚集性做出准确建模。
⚠️ 作者的Framing¶
- 作者如何frame缺口:作者把缺口描述为“现有方法(MI/CCA)都假设MAR,但这在COVID-19数据中几乎肯定不成立,导致有偏估计”。他们把本文推举为“用NMAR模型解决这个具体、实践问题”,声称“我们的模型是第一个在传染病监测数据中联合建模空间变异和NMAR缺失过程的”。他们把对手(MI/CCA)置于“不可用”的位置。
- 淡化或回避的竞争路线:
- 多重插补(MI)与定量偏差分析(QBA)的结合:如Labgold的文章,这已被实践过,能得到合理的边界。作者在模拟中对比了MI,但未用本文的模型与一个“MAR-MI假设下的事后敏感性分析(如Liublinska & Rubin的方法)”进行直接比较。后者对实践者来说可能更容易操作。
- 其他类似NMAR模型(如Heckman转机模型):虽然被引,作者批评其为“参数脆弱”。
- 什么可能被遗漏/值得去查?
- Missing Not at Random with Instrumental Variable:没有一条引用把“是否存在一个工具变量(如医院的类型或医师对于记录种族信息的偏好)能帮助校正缺失”作为显式假说来讨论。这是标准的计量经济学NMAR处理路径,但在空间流行病学里应用不广,值得作为潜在解放路径探究。
张力¶
在这些被引工作中,未见明显的对立引用。但存在一个高价值的公开不同意见,它在[14](Zhang et al.)与本文之间:前者(CDC MI)明确假设MAR足以工作,后者认为这“无法证实”且将产生偏倚。两个方向的论文都存在,彼此没有在技术层面互相驳斥。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据¶
先交代最简模型: - 可观测数据:对于密歇根州韦恩县的一个病例 \(i\),我们能观测到它所在的 空间单元PUMA(Public Use Microdata Area,记为 \(g_i \in \{1,\dots, G\}\))、它的 种族 \(R_i\)(取值为 \(R \in \{\text{White}, \text{Black}, \text{Hispanic}, \text{Other}\}\)),或是全部缺失(记为 \(R_i = \text{NA}\))。我们不能观测到该病例来自哪个区域的人口基数。我们能观测到完整病例在所有PUMA的分布,以及PUMA层面的人口构成(从ACS/人口普查得知)。 - 符号: - \(i=1,\dots,n_g\):属于某个PUMA \(g\) 的病例序号(\(n_g\) 是PUMA \(g\) 的总病例数)。 - \(g_i \in \{1, \dots, G\}\):空间单元(PUMA)的索引。 - \(R_i\):种族/族裔,取值为 \(R \in \{\text{W}, \text{B}, \text{H}, \text{O}\}\),部分病例可能缺失。 - \(M_i\):缺失指示变量,\(M_i = 1\) 若 \(R_i\) 缺失,否则 \(M_i=0\)。 - \(\lambda_g\):PUMA \(g\) 的基准发病率(基于泊松主模型的“例数”对数尺度截距)。 - \(\beta = (\beta^\text{B}, \beta^\text{H}, \beta^\text{O})\):对数相对风险(相对于白人)。这是核心参数。 - \(\phi_g\):空间随机效应(PUMA \(g\) 的“脆弱性”),来自CAR先验。 - \(\alpha\):缺失模型系数,连接空间归因与疾病归因的差异。 - \(\theta\):缺失模型中空间效应(用一个与基准病例空间结构相似的独立项表示 \(Z_g\))。 - 模型:这是核心。发病过程是泊松:log(期望病例数 \(|\lambda_g, \beta\)) = \(\lambda_g + \beta^T \cdot \mathbb{1}[R_i = r] + \phi_g\)。缺失过程是一个Logistic模型,logit(\(P(M_i=1 | \cdot)\)) = \(Z_g \cdot \alpha\)(其中 \(Z_g\) 是PUMA层面的缺失空间模式)。 - 我们要估计什么? 我们要估计的东西是对数相对风险 \(\beta\)(不同种族的人群相对于白人的发病率差异)。 - 可观测 vs 潜在的: - 可观测(已知):\(g_i\),\(n_g\)(每个PUMA的病例总数),区域人口构成分布\(p_r(g)\)(其中 \(p_r(g)\) = {PUMA \(g\) 中种族 \(r\) 的人口占比})。 - 潜在的/观测不到的:每个病例的个别种族\(R_i\)(如果\(M_i=1\)它是未知的)。缺失机制:是族裔值本身影响它是否被记录。即 \(P(M_i=1 | g_i, R_i = r) \neq P(M_i=1 | g_i, R_i = r')\)。这就是NMAR。
第二步:最小内核(最简特例)¶
说明:这篇论文的本质是“用空间聚集模式来解开NMAR之谜”。我们可以将核心数学思想归结为下面这个二元空间(G=2)、二元种族(白-B)、无年龄结构的最简特例:
- 最简设定:
- 空间:只有两个PUMA,g=1和g=2。
- 种族:只有White和Black。
- 人口构成(已知):PUMA1里 Black占比=80%, White=20%。PUMA2里 Black=10%, White=90%。
- 真实底数:Black的真实发病率是White的两倍(\(\beta=log(2)\))。
- 病例总计数(可以观测到):我们观测到PUMA1有100例,PUMA2有50例病例。
- 缺失问题:在很多病例中种族信息缺失。假设White病例更可能被记录,或Black病例的种族未被记录。
-
可观测到(最简):PUMA1里,有20人有种族记录(其中10黑,10白),80人种族缺失。PUMA2里,有80人有种族记录(其中8黑,72白),20人种族缺失。
-
传统方法的问题:
- 完整病例分析(CCA):只看有记录的。在PUMA1,看到的黑/白风险比= (10/0.8) / (10/0.2) = 0.25,严重低估Black的负担。
-
MAR假设的MI:它会假设缺失的病例,其种族分布与记录下来的病例分布(在该PUMA内)相同。PUMA1会让MI觉得剩下的80人里种族比为50/50,但这对吗?
-
核心思路(仅用空间欠位): 如果在NMAR下没有结构,那无解。但这里有空间结构的两条信息:
- PUMA1的总病例数极高(100例),且该区域有80%的Black居民。这意味着绝大多数病例一定发生在Black人群里。
- 病例是空间聚集的(这个例子里,PUMA1的空间效应 \(\phi_1\) 会是正的)。
我们让缺失率有空间变异。比若说,Black多的人口统计中心(PUMA1)记录失效也更高。 关键跳跃是:既然我们已知道每个PUMA里Black的人口基数,而且病例是半个Poisson生成,我们可以利用观察到的PUMA层面总病例数(而非个体种族信息)与PUMA的人口构成之间的 联合模式来反推 \(\beta\)。这就是 如果PUMA1病例很多,且该区域Black人多,那么病例更可能是Black的,这可以间接辨识缺失模式。该文最小内核的证明思路是:空间分布的总变异(\(\beta\))与人口构成作用于识别缺失过程,使得在特定的结构假设下模型“局部可识别”。
三、这篇论文做了什么¶
- 一句话总结:作者开发了一个贝叶斯空间时间模型,直接对因变量(疾病)和缺失协变量(种族/族裔)的生成机制进行联合建模,以此校正缺失机制非随机(NMAR)导致的偏差,并应用在密歇根州韦恩县COVID-19早期数据上。
- 核心工具:贝叶斯推断(用Stan动态HMC做后验采样);空间结构(用条件自回归CAR模型刻画PUMA层面的空间脆弱性);联合缺失机制分模型(用logistic回归描述缺失)。
- 主要结论:1)理论证明模型在李雅普诺夫意义上局部可识别(当人口构成已知且有空间变异时);2)模拟显示,在所有情况下,BNMP模型的负偏差比完整病例分析和标准多重插补都要小(在NMAR数据上,前者偏差可达90%,而本模型平均偏低15%-40%,取决于参数);3)在真实数据中,如果仅依靠完整病例分析或多重插补,会明显低估黑人与其他少数族裔群体在疫情早期的发病率相对风险。(完整病例分析显示黑人的RR约为[2.5, 3.0],而本模型得出的后验均值在[3.0, 4.5])。
关键设定与假设¶
- 模型假设(全部写入了附录的细节):
- 式(1)-(3)(似然):在PUMA \(g\),种族 \(r\) 的观测到的病例数遵循泊松分布,其\(\log(\text{期望率}) = \lambda_g + \beta^T \cdot 1_{[r]} + \phi_g\);对缺失组(种族未知)的病例数则对所有\(r\)的期望求和。
- 式(4)(空间):\(\phi_g\) 源自条件自回归(ICAR,用相邻关系重权)模型,它代表地方的空间风险依赖。
- 式(5)(缺失机制):Logistic回归,\(\logit(P(\text{缺失}| \cdot)) = Z_g \cdot \alpha\)。\(\alpha\) 是NMAR参数,代表一个与疾病空间风险相似的模式与缺失强度之间的关联。核心假设:缺失过程可以总结为一种与疾病空间模式相关联(但不相同)的空间模式。且这种关联是已知的(通过空间重权编码落实)。
- 设定比已有文献放宽或强化了那些:
- 强化:相对于标准MI,本文放弃了MAR假设,改善了当数据为MNAR时的估计。
- 放宽:相对于之前少数几个严格的单一空间NMAR模型,本文模型内部包含了更多可为空间在整个识别问题中作用的解释(用一个独立于\(\phi\)项的\(Z\)来做缺失建模)。
主要结果——理论¶
- 该文的理论重心在局部可识别性(定理1和2)。简言之:我们无法得到一个全局唯一的完整参数向量,但是所有满足似然方程的解,其相应的相对风险\(\beta\)是唯一确定的(在给定的参数化约束下)。这是什么意思?这里给了关键条件:
- 人口构成已知(ACS数据)。
-
空间单元(PUMA)数量至少不低于种族组数+1。这相当于是空间维度条件。
-
作者明确界定,其理论不依赖特定先验(“prior不驱动此可识别性”)。技术难点:作者通过“信息矩阵的满秩条件”应归为典型参数雅可比条件。他们证明了当更多样本(病例)聚集在某个PUMA时,Fisher信息矩阵关于核心参数(\(\beta\)和\(\alpha\))是正定的——这就可识别。
证明路线与技术技巧¶
- 整体路线(一个数据生成模型,然后证明它的反解是局部的):
- 构建似然:写出完整数据集(包含缺失的潜在种族)和缺缺失机制的完全似然。
- 边际化:对不可观测的种族\(R_i\)进行求和积分,得到只基于可观测数据的似然。
- 计算Fisher信息:对该边际似然进行对数尺度的一阶与二阶偏微分。
- 检查信息阵满秩:当设计矩阵(状态X种族关于空间的聚合项)是满秩时,证明核的Jacobian条件成立。
- 关键跳跃点:证明应用于NMAR的尾部风险。一般NMAR模型需要有约束空间才能保识别。作者用的 “建立空间结构变量的相关性”。关键在于:只要缺失模式能被分到独立空间单位项(\(Z_g\))中,且\(Z_g\)与疾病模式(\(\phi_g\))的相关系数在-1到1之间但有足够的变化,这就为两个结构提供了不同的“标签资源”。
- 技术技巧点名:
- 使用的核心工具:贝叶斯多层建模、ICAR随机效应(借用传染病空间时间领域)、马尔可夫链蒙特卡洛(HMC)。
- 实际分析工具:Stan的Alpha开发分支(用于设先验和采样)。
- 缺失机制模型:潜变量Logistic回归。
真实例子与应用¶
- 数据:密歇根州韦恩县(包括底特律市)的COVID-19病例库(截止2020.07)。
- 如何应用:首先将病例按PUMA归总。个体期种族数据缺失率>40%。然后用MAP给模型的先验和似然设值,在此基础上运行2-4条HMC链(共4000步),利用潜在文件对种族缺失的后验估值进行“干预”。
- 结果:
- 定性(示意)606:韦恩县的下半部(地盘美国)交错:有的PUMA以黑人为多但记录缺失巨高。补上了空间项后,这一扭曲被缓解。传统方法(CCA, MI)给出的黑人相对发病率为“3倍于白人”,而本模型贝叶斯得到的后验区间落到了“近四倍于白人”的外围。
- 想说明什么:案例说,若你在NMAR下不处理,你会严重低估非白人群体的早期风险;空间刚刚的“真实解决”,亲,促成大分差异。
🔎 结论是否比证明窄¶
- 是的。理论(局部可识别)证明的是一种非常广的情况,但实际应用只演进到了一个特定的空间结构(CAR且\(Z\)由经PUMA人口密度导出的孔数分组编码)。作者 完全避免了空间时间序列(像TSIR模型那样动)的证明,但这在真实传染病传播框架里很显然更可能真;本文只做静态累积截止报告。模型对“时间”的假设(累积的一条)——而什么当时用长面板时会很脆弱,这文章中没提。
四、开放问题¶
- 模型的可扩展性(扎根:作者在Limitations段说的“我们在本文中只考虑了...单时间点...”):将当前位置(空间-种族)模型扩展为空间-时间-种族完整动态模型,需要退化为实际感染人数,与受流行病学(TSIR)规范兼容。是否可以不依靠强假设下进行局部可识别检验,这一点较难但仍可办到?
- 弱化“空间结构已知”假设(扎根:作者理论推论依赖的“人口构成已知的确切空间分布”来自ACS普查):人口普查本身有样本误差。本研究中的先验亦未承接ACS标准误。研究点:从半参数失真和矛盾角度考虑,若ACS的PUMA人口比例存在(小)测量误差(0-3%均沾所有种族),严重失真是怎么假损害局部可识别的证明的基数?
- 两阶段计算-统计权衡(成本政略)比较与推导(扎根:当前使用MCMC的巨大时间开支):既然该模型的似然显然会是典型的潜归(踪)模型,可拆为两步:先由算法有效降固(如用空间交叉组与支持向量机快速推断缺失)。研究者研究(使用高阶U-统计中的张量收缩成本(einsum复杂度))可否应用到这类具有空间点标注、并可观观测(病例数)归入内部积结构的缺失模型?
Maintained by 陈星宇 · Homepage · Source on GitHub