跳转至

A Bayesian model of underreporting for sexual assault on college campuses

作者: Casey Bradshaw, David M. Blei
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:当观测到的计数数据(如疾病报告数、犯罪报案数)仅是某个潜在真实发生数的一个未知比例(漏报/低报告率,underreporting)时,如何仅从被压缩的观测数据中,同时识别并估计“真实发生率”与“报告率”这两个不可观测的潜在量。当前该方向的成熟度属于“应用方法成熟、理论识别仍有硬约束”的阶段:贝叶斯层次模型已成为处理此类问题的主流计算框架,但核心的识别性瓶颈(数据只提供两者乘积的信息,如何拆解乘积)依然存在,且主要依赖外部先验信息而非数据内部结构来打破。

发展脉络(history): - 奠基与早期框架:Jeffreys (1946) 提出了参数先验的不变微分形式,为后续贝叶斯层次模型中处理尺度/位置参数的先验设定提供了准则(本文直接引用其作为先验构造的基石)。 - 主要进展(贝叶斯层次框架的成型):Stoner & Economou (2018) 提出了针对计数数据漏报的贝叶斯层次框架,核心思路是“仅依赖对平均报告率的先验分布来补充数据中的部分信息”,并引入协变量与时空结构。本文作者在 intro 中明确将其定位为本文模型的“直接前身与核心参考”,指出其框架适用于“完全漏报的数据”。 - 主要进展(时间序列与频率主义路线):Fernández-Fontelo et al. (2019) 针对性别暴力数据提出了基于隐马尔可夫(INAR(1) + 隐二值状态)的时间序列漏报模型,用矩法与极大似然估计参数;Bracher & Held (2020) 则在传染病监测中提出基于边际矩匹配的近似极大似然法,并证明了忽略漏报会导致有效再生数估计的向下偏差。这两条路线构成了频率主义/时间序列方向的代表。 - 当前 frontier(模型检验与特定领域的漏报校正):Ranganath & Blei (2019) 提出 Population Predictive Checks,Li & Huggins (2022) 提出 Split Predictive Checks,为贝叶斯模型检验提供了避免“数据双重使用”的新工具。de Oliveira et al. (2020) 将贝叶斯层次模型应用于巴西麻风病漏报估计,使用 2级残疾作为代理变量解释发病率。Cuellar (2018) 则在自报告调查中尝试用域估计探索报告率的时间趋势,指出固定乘数因子(如1.3)无法捕捉时间变化。 - 本文的位置:本文将 Stoner & Economou (2018) 的通用贝叶斯漏报框架移植到“美国校园性侵数据”这一具体场景,并引入基于全国犯罪统计的先验作为“破局工具”,同时采用 HMC 进行后验推断,用 Pop-PC 与 SPC 进行模型检验。

子线索聚类: 1. 贝叶斯层次建模路线(Stoner 2018; de Oliveira 2020; 本文):假设真实计数服从 Poisson/Negative Binomial,报告率服从 Beta/Logit-Normal,通过层次结构共享超参数,核心瓶颈是报告率先验的设定。 2. 时间序列/频率主义路线(Fernández-Fontelo 2019; Bracher 2020):将漏报视为隐状态或衰减过程,利用时间序列的自相关结构或边际矩匹配来提供识别信息,依赖参数的动态演化而非外部先验。 3. 模型检验与诊断(Ranganath 2019; Li 2022):针对贝叶斯漏报模型这类“潜在变量多、观测信息少”的模型,如何检验其拟合优度而不陷入“用生成数据检验自身”的陷阱。

这个方向在追问的核心问题: 1. 识别性破局:在 \(Y = N \times \theta\)(观测=真实×报告率)的结构下,数据仅提供 \(E[N\theta]\) 的信息,如何引入外部信息或结构假设使得 \((N, \theta)\) 可识别?当前主流方法是引入 informative prior,瓶颈在于先验的客观性与敏感性。 2. 异质性刻画:报告率 \(\theta\) 是否随时间、空间、个体特征变化?如何在不引入过多参数(导致后验散漫)的前提下刻画这种异质性? 3. 模型检验的可靠性:当模型本身包含大量潜在变量时,传统的后验预测检验(PPC)容易过度乐观,如何构造对潜在变量假设敏感且校准良好的检验?

⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:校园性侵的漏报问题缺乏专门的统计模型,且现有官方数据“无法区分报告率与真实发生率”,因此引入基于全国犯罪统计的先验是“显然的下一步”。 - 被淡化或回避的竞争路线:intro 完全未提及频率主义的矩匹配/极大似然路线(如 Bracher 2020),也未讨论是否可以通过引入代理变量或工具变量(如 de Oliveira 2020 用残疾等级作 proxy)来从数据内部获得识别性,而非完全依赖外部先验。 - 明显该被引却未出现的:因果推断中的测量误差/误分类文献——漏报本质上是二值处理/事件的 misclassification,因果推断中有大量基于外部验证数据或排除约束的识别策略,intro 中完全缺席。这是一个值得研究者去查的缺口:是否有因果测量误差的文献能提供不依赖强先验的识别思路?

张力: 未见明显对立引用。Stoner (2018) 与 Bracher (2020) 分别走贝叶斯先验与频率矩匹配路线,两者在“识别信息从哪来”上有哲学分歧,但未在同一设定下得出相反的定量结论。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 符号与参数
  • \(s \in \{1, \dots, S\}\):学校索引,\(S\) 为学校总数。
  • \(t \in \{1, \dots, T\}\):年份索引,\(T\) 为年数(本文数据 \(T=6\),2014-2019)。
  • \(N_{st}\)潜在真实发生数(不可观测的 estimand),假设服从 Poisson 分布。
  • \(\lambda_{st}\):学校 \(s\) 在年份 \(t\)真实性侵发生率参数(Poisson 的均值参数),\(\lambda_{st} > 0\)
  • \(\theta_{st}\):学校 \(s\) 在年份 \(t\)报告率(不可观测的 estimand),\(0 < \theta_{st} \le 1\),假设服从 Beta 分布。
  • \(Y_{st}\)观测到的报告案件数(可观测的随机变量/数据),\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)
  • \(\mu_\theta, \kappa_\theta\):报告率 \(\theta_{st}\) 的 Beta 先验超参数(均值与浓度),由外部全国犯罪统计设定。
  • \(\mu_\lambda, \kappa_\lambda\):发生率 \(\lambda_{st}\) 的先验超参数。

  • 模型(数据生成机制)

  • 真实发生数生成:\(N_{st} \sim \text{Poisson}(\lambda_{st})\)
  • 报告率生成:\(\theta_{st} \sim \text{Beta}(\mu_\theta \kappa_\theta, (1-\mu_\theta)\kappa_\theta)\)
  • 观测生成:给定 \(N_{st}\)\(\theta_{st}\)\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)
  • 层次结构:\(\lambda_{st}\) 的 log 变换服从正态层次先验;\(\mu_\theta\) 的先验由外部全国数据(如 NCVS 调查)的均值与置信区间转化而来。

  • 可观测数据

  • 研究者实际能观测到的是矩阵 \(\{Y_{st}\}_{S \times T}\)(各校各年的报告案件数),以及各校的注册人数(作为 Poisson 发生率的 offset)。
  • 想要但观测不到的\(N_{st}\)(真实性侵总数)和 \(\theta_{st}\)(真实报告率)。这两个量只能靠模型假设与外部先验去识别。关键在于:单看 \(Y_{st}\) 的边际分布,\(E[Y_{st}] = E[N_{st}\theta_{st}] = E[\lambda_{st}] E[\theta_{st}]\)(若 \(N, \theta\) 独立),数据只提供两者乘积的信息,无法单独拆解。

第二步:最小内核

剥掉所有层次结构、时间趋势、协变量和 HMC 细节,支撑整篇论文的最小内核是一个乘积结构的识别问题

最简特例(单学校、单时间点,\(S=1, T=1\): - 假设只有一所学校一年的数据。观测到 \(Y \sim \text{Binomial}(N, \theta)\),其中 \(N \sim \text{Poisson}(\lambda)\)\(\theta \sim \text{Beta}(a, b)\),且 \(N\)\(\theta\) 独立。 - 此时 \(Y\) 的边际分布是 Poisson-Binomial 混合,其均值为 \(E[Y] = \lambda \cdot \frac{a}{a+b}\)。 - 核心数学困难:数据只给了一个数字 \(Y\),却要估计两个参数 \(\lambda\)\(\theta\) 的均值。在频率主义框架下,这个模型是不可识别的(无数 \((\lambda, \mu_\theta)\) 组合能给出相同的 \(E[Y]\))。 - 本文的破局想法:把 \((a, b)\) 中至少一个参数固定为“已知外部常数”(基于全国调查的先验),从而把二维不可识别问题降维为一维可识别问题。例如,若外部数据告诉你全国平均报告率约为 0.2 且标准差为 0.05,则你把 \(\mu_\theta = a/(a+b)\) 设为 0.2,\(\kappa_\theta = a+b\) 设为使得 Beta 分布标准差为 0.05 的值。此时,\(E[Y] = \lambda \cdot 0.2\)\(\lambda\) 可由 \(Y/0.2\) 估计,进而 \(\theta\) 的后验由 Beta-Binomial 更新得到。 - 为什么成立:贝叶斯框架下,informative prior 提供了额外的“伪观测”,打破了乘积结构的对称性。先验越强(\(\kappa_\theta\) 越大),识别性越强,但代价是对先验设定的敏感性越高。


三、这篇论文做了什么

三句话: ①研究了美国校园性侵报告中“观测数=真实发生数×报告率”的不可识别问题;②核心工具是层次贝叶斯模型,并引入基于全国犯罪受害者调查(NCVS)的 informative prior 作为识别破局手段;③主要结论是 2014-2019 年间总体报告率呈上升趋势,但各校间报告率异质性极大,官方数字不能直接反映真实性侵规模。

关键设定与假设: 在第二节最小记号基础上补全: 1. Poisson-Binomial 漏报假设\(N_{st} \sim \text{Poisson}(\lambda_{st})\)\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)。统计含义:假设性侵发生是独立稀有事件(Poisson),每起事件是否被报告是独立 Bernoulli 试验(Binomial)。相比 Stoner (2018) 的更一般设定,本文保留了这一核心结构。 2. 报告率的 Beta 先验与时间趋势\(\theta_{st} \sim \text{Beta}(\mu_{\theta_t} \kappa_\theta, (1-\mu_{\theta_t})\kappa_\theta)\),其中 \(\mu_{\theta_t}\) 随年份 \(t\) 变化(通过 logit 变换与线性时间趋势相连),\(\kappa_\theta\) 跨学校跨时间共享。统计含义:允许总体报告率有趋势,但控制异质性的散布程度。 3. 发生率的层次先验\(\log \lambda_{st} \sim \text{Normal}(\mu_\lambda + \beta \log(\text{enrollment}_s), \sigma_\lambda^2)\)。统计含义:真实性侵发生率与学校注册人数对数成线性关系,残差服从正态。 4. Informative prior 设定(最关键的假设)\(\mu_{\theta_1}\)(起始年报告率均值)的先验由 NCVS(全国犯罪受害者调查)数据转化而来,具体为 Beta 分布,其均值与方差匹配 NCVS 的估计值及其置信区间。相比已有文献(如 Stoner 2018 仅给出先验设定的通用框架),本文明确展示了如何从一个具体的外部数据源构造先验,这是其方法学贡献的核心。

主要结果: - 理论/方法结果:本文无定理形式的数学结果,属于应用方法型论文。其核心量化结论是后验推断结果: 1. 总体报告率 \(\mu_{\theta_t}\) 的后验均值在 2014-2019 年间从约 0.15 上升至约 0.25(具体数值依赖模型变体)。 2. 各校报告率 \(\theta_{st}\) 的后验标准差极大,表明异质性远超全国平均水平所能解释的范围。 3. 真实发生率 \(\lambda_{st}\) 的后验均值普遍是官方报告数的 4-6 倍。 - 与 baseline 对比:本文对比了“无时间趋势模型”与“有时间趋势模型”,以及不同先验设定(基于 NCVS vs 基于其他调查)下的后验敏感性。结果显示,时间趋势假设对结论有显著影响,但先验均值的大致量级对最终估计的倍数关系影响有限。 - 稳健性:通过 Pop-PC(Ranganath & Blei 2019)和 SPC(Li & Huggins 2022)进行模型检验,发现模型在总体趋势上拟合良好,但在极端学校(报告数极高或极低)的尾部预测上有偏差。

证明路线与技术技巧(本文为应用方法型,无传统证明,但后验推断路线需拆解): - 整体路线(后验推断): 1. 构造联合似然:\(P(Y | N, \theta) \times P(N | \lambda) \times P(\theta | \mu_\theta, \kappa_\theta) \times P(\lambda | \mu_\lambda, \sigma_\lambda) \times P(\text{超参数})\)。 2. 引入 NCVS 外部数据构造 \(\mu_\theta\) 的 informative prior,打破 \(\lambda\)\(\theta\) 的乘积不可识别性。 3. 由于 \(N_{st}\) 是整数潜在变量且维度极高(\(S \times T\)),直接 Gibbs 采样会陷入高维离散空间的低效移动;本文采用 ** marginalized 似然:将 \(N_{st}\) 从似然中积分掉,得到 \(Y_{st} \sim \text{Poisson}(\lambda_{st} \theta_{st})\)(利用 Poisson-Binomial 混合的闭式边际性质),再对连续参数 \((\lambda, \theta, \text{超参数})\) 进行 HMC 采样。 4. 采样完成后,通过条件分布 \(P(N_{st} | Y_{st}, \theta_{st})\) 回溯重构 \(N_{st}\) 的后验样本。 - 关键跳跃点:Poisson-Binomial 混合边际化为 Poisson 这一步是计算上的关键。若 \(N \sim \text{Poisson}(\lambda)\)\(Y|N \sim \text{Binomial}(N, \theta)\),则边际上 \(Y \sim \text{Poisson}(\lambda \theta)\)(前提是 \(N\)\(\theta\) 独立)。这使得 HMC 可以避开离散空间,只在连续空间操作。 - 技术技巧点名: 1. 边际化潜在离散变量:用于将高维离散采样转化为连续采样,是贝叶斯漏报模型计算的标准技巧。 2. Hamiltonian Monte Carlo (HMC):用于在边际化后的连续参数空间高效采样,利用梯度信息避免随机游走行为。 3. Informative prior elicitation:从外部调查数据的均值与置信区间反推 Beta 先验的超参数,是本文区别于通用框架的具体贡献。 4. Population Predictive Checks (Pop-PC) & Split Predictive Checks (SPC)**:用于模型检验,避免传统 PPC 的过度乐观。

真实例子与应用: - 用的什么数据:2014-2019 年美国校园性侵报告数据(Clery Act 公开数据),包含数百所学校的年度报告数与注册人数。 - 怎么把本文方法用上去:将各校各年报告数作为 \(Y_{st}\),注册人数作为 Poisson offset,NCVS 的全国性侵报告率估计(约 0.2-0.25)作为 \(\mu_\theta\) 的先验均值,运行 HMC 得到后验。 - 得到什么结果:总体报告率后验均值从 2014 年的约 0.15 上升至 2019 年的约 0.25;各校真实性侵发生数估计普遍是报告数的 4-6 倍;异质性极大,部分学校的报告率后验估计低于 0.05。 - 这个例子想说明什么:验证模型在真实数据上的可行性,展示“官方报告数不能直接反映真实性侵规模”这一实际结论,并强调先验设定对识别的必要性。

🔎 结论是否比证明窄: 本文无严格数学证明,但有一个关键的隐性 claim:模型在 informative prior 下是可识别的。这一 claim 依赖于先验的支撑集不与似然退化方向重合,但文中未给出可识别性的严格定义或定理(如后验是否在样本量增大时收缩到真值)。文中仅通过模拟实验展示了先验对估计的影响,但未证明“先验破局”在理论上的收敛性。这是一个“在条件下实际操作可行,但被泛泛 claim 为解决了识别问题”的地方。


四、开放问题(点到为止,扎根具体语句)

  1. 可识别性的严格理论:本文依赖 informative prior 打破乘积不可识别性,但未给出后验一致性或收敛速率的定理。要证什么:在先验支撑集满足何种条件下,\((\lambda, \theta)\) 的后验在 \(T \to \infty\)\(S \to \infty\) 时收缩到真值?扎根点:文中“we use informative priors... to act as a tiebreaker”一句,将先验视为计算技巧,未讨论其理论极限。
  2. 不依赖强先验的识别策略:是否可以通过引入代理变量(如 de Oliveira 2020 用残疾等级)或排除约束(类似因果测量误差中的 exclusion restriction)来从数据内部获得识别性,而非完全依赖外部先验?扎根点:intro 中完全未提及因果测量误差文献,这是一个明显的缺席。
  3. 报告率与发生率的内生相关:模型假设 \(N_{st}\)\(\theta_{st}\) 独立,但现实中“性侵发生率高的学校可能报告率也不同”(如文化氛围同时影响两者)。若引入相关结构,边际分布不再是 Poisson,HMC 边际化技巧失效,如何计算?扎根点:文中假设 \(N \perp \theta\) 以获得 Poisson 边际,但未讨论这一假设的敏感性。
  4. 模型检验对先验设定的敏感性:Pop-PC 与 SPC 检验了模型的拟合优度,但未检验“先验设定本身是否合理”。要估什么:先验超参数 \(\kappa_\theta\) 对后验异质性估计的影响有多大?扎根点:文中做了部分敏感性分析,但未将其与模型检验框架结合。

提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论