A Bayesian model of underreporting for sexual assault on college campuses¶

作者: Casey Bradshaw, David M. Blei
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当观测到的计数数据（如疾病报告数、犯罪报案数）仅是某个潜在真实发生数的一个未知比例（漏报/低报告率，underreporting）时，如何仅从被压缩的观测数据中，同时识别并估计“真实发生率”与“报告率”这两个不可观测的潜在量。当前该方向的成熟度属于“应用方法成熟、理论识别仍有硬约束”的阶段：贝叶斯层次模型已成为处理此类问题的主流计算框架，但核心的识别性瓶颈（数据只提供两者乘积的信息，如何拆解乘积）依然存在，且主要依赖外部先验信息而非数据内部结构来打破。

发展脉络（history）： - 奠基与早期框架：Jeffreys (1946) 提出了参数先验的不变微分形式，为后续贝叶斯层次模型中处理尺度/位置参数的先验设定提供了准则（本文直接引用其作为先验构造的基石）。 - 主要进展（贝叶斯层次框架的成型）：Stoner & Economou (2018) 提出了针对计数数据漏报的贝叶斯层次框架，核心思路是“仅依赖对平均报告率的先验分布来补充数据中的部分信息”，并引入协变量与时空结构。本文作者在 intro 中明确将其定位为本文模型的“直接前身与核心参考”，指出其框架适用于“完全漏报的数据”。 - 主要进展（时间序列与频率主义路线）：Fernández-Fontelo et al. (2019) 针对性别暴力数据提出了基于隐马尔可夫（INAR(1) + 隐二值状态）的时间序列漏报模型，用矩法与极大似然估计参数；Bracher & Held (2020) 则在传染病监测中提出基于边际矩匹配的近似极大似然法，并证明了忽略漏报会导致有效再生数估计的向下偏差。这两条路线构成了频率主义/时间序列方向的代表。 - 当前 frontier（模型检验与特定领域的漏报校正）：Ranganath & Blei (2019) 提出 Population Predictive Checks，Li & Huggins (2022) 提出 Split Predictive Checks，为贝叶斯模型检验提供了避免“数据双重使用”的新工具。de Oliveira et al. (2020) 将贝叶斯层次模型应用于巴西麻风病漏报估计，使用 2级残疾作为代理变量解释发病率。Cuellar (2018) 则在自报告调查中尝试用域估计探索报告率的时间趋势，指出固定乘数因子（如1.3）无法捕捉时间变化。 - 本文的位置：本文将 Stoner & Economou (2018) 的通用贝叶斯漏报框架移植到“美国校园性侵数据”这一具体场景，并引入基于全国犯罪统计的先验作为“破局工具”，同时采用 HMC 进行后验推断，用 Pop-PC 与 SPC 进行模型检验。

子线索聚类： 1. 贝叶斯层次建模路线（Stoner 2018; de Oliveira 2020; 本文）：假设真实计数服从 Poisson/Negative Binomial，报告率服从 Beta/Logit-Normal，通过层次结构共享超参数，核心瓶颈是报告率先验的设定。 2. 时间序列/频率主义路线（Fernández-Fontelo 2019; Bracher 2020）：将漏报视为隐状态或衰减过程，利用时间序列的自相关结构或边际矩匹配来提供识别信息，依赖参数的动态演化而非外部先验。 3. 模型检验与诊断（Ranganath 2019; Li 2022）：针对贝叶斯漏报模型这类“潜在变量多、观测信息少”的模型，如何检验其拟合优度而不陷入“用生成数据检验自身”的陷阱。

这个方向在追问的核心问题： 1. 识别性破局：在 \(Y = N \times \theta\)（观测=真实×报告率）的结构下，数据仅提供 \(E[N\theta]\) 的信息，如何引入外部信息或结构假设使得 \((N, \theta)\) 可识别？当前主流方法是引入 informative prior，瓶颈在于先验的客观性与敏感性。 2. 异质性刻画：报告率 \(\theta\) 是否随时间、空间、个体特征变化？如何在不引入过多参数（导致后验散漫）的前提下刻画这种异质性？ 3. 模型检验的可靠性：当模型本身包含大量潜在变量时，传统的后验预测检验（PPC）容易过度乐观，如何构造对潜在变量假设敏感且校准良好的检验？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：校园性侵的漏报问题缺乏专门的统计模型，且现有官方数据“无法区分报告率与真实发生率”，因此引入基于全国犯罪统计的先验是“显然的下一步”。 - 被淡化或回避的竞争路线：intro 完全未提及频率主义的矩匹配/极大似然路线（如 Bracher 2020），也未讨论是否可以通过引入代理变量或工具变量（如 de Oliveira 2020 用残疾等级作 proxy）来从数据内部获得识别性，而非完全依赖外部先验。 - 明显该被引却未出现的：因果推断中的测量误差/误分类文献——漏报本质上是二值处理/事件的 misclassification，因果推断中有大量基于外部验证数据或排除约束的识别策略，intro 中完全缺席。这是一个值得研究者去查的缺口：是否有因果测量误差的文献能提供不依赖强先验的识别思路？

张力：未见明显对立引用。Stoner (2018) 与 Bracher (2020) 分别走贝叶斯先验与频率矩匹配路线，两者在“识别信息从哪来”上有哲学分歧，但未在同一设定下得出相反的定量结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与参数：
\(s \in \{1, \dots, S\}\)：学校索引，\(S\) 为学校总数。
\(t \in \{1, \dots, T\}\)：年份索引，\(T\) 为年数（本文数据 \(T=6\)，2014-2019）。
\(N_{st}\)：潜在真实发生数（不可观测的 estimand），假设服从 Poisson 分布。
\(\lambda_{st}\)：学校 \(s\) 在年份 \(t\) 的真实性侵发生率参数（Poisson 的均值参数），\(\lambda_{st} > 0\)。
\(\theta_{st}\)：学校 \(s\) 在年份 \(t\) 的报告率（不可观测的 estimand），\(0 < \theta_{st} \le 1\)，假设服从 Beta 分布。
\(Y_{st}\)：观测到的报告案件数（可观测的随机变量/数据），\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)。
\(\mu_\theta, \kappa_\theta\)：报告率 \(\theta_{st}\) 的 Beta 先验超参数（均值与浓度），由外部全国犯罪统计设定。
\(\mu_\lambda, \kappa_\lambda\)：发生率 \(\lambda_{st}\) 的先验超参数。
模型（数据生成机制）：
真实发生数生成：\(N_{st} \sim \text{Poisson}(\lambda_{st})\)。
报告率生成：\(\theta_{st} \sim \text{Beta}(\mu_\theta \kappa_\theta, (1-\mu_\theta)\kappa_\theta)\)。
观测生成：给定 \(N_{st}\) 和 \(\theta_{st}\)，\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)。
层次结构：\(\lambda_{st}\) 的 log 变换服从正态层次先验；\(\mu_\theta\) 的先验由外部全国数据（如 NCVS 调查）的均值与置信区间转化而来。
可观测数据：
研究者实际能观测到的是矩阵 \(\{Y_{st}\}_{S \times T}\)（各校各年的报告案件数），以及各校的注册人数（作为 Poisson 发生率的 offset）。
想要但观测不到的：\(N_{st}\)（真实性侵总数）和 \(\theta_{st}\)（真实报告率）。这两个量只能靠模型假设与外部先验去识别。关键在于：单看 \(Y_{st}\) 的边际分布，\(E[Y_{st}] = E[N_{st}\theta_{st}] = E[\lambda_{st}] E[\theta_{st}]\)（若 \(N, \theta\) 独立），数据只提供两者乘积的信息，无法单独拆解。

第二步：最小内核

剥掉所有层次结构、时间趋势、协变量和 HMC 细节，支撑整篇论文的最小内核是一个乘积结构的识别问题：

最简特例（单学校、单时间点，\(S=1, T=1\)）： - 假设只有一所学校一年的数据。观测到 \(Y \sim \text{Binomial}(N, \theta)\)，其中 \(N \sim \text{Poisson}(\lambda)\)，\(\theta \sim \text{Beta}(a, b)\)，且 \(N\) 与 \(\theta\) 独立。 - 此时 \(Y\) 的边际分布是 Poisson-Binomial 混合，其均值为 \(E[Y] = \lambda \cdot \frac{a}{a+b}\)。 - 核心数学困难：数据只给了一个数字 \(Y\)，却要估计两个参数 \(\lambda\) 和 \(\theta\) 的均值。在频率主义框架下，这个模型是不可识别的（无数 \((\lambda, \mu_\theta)\) 组合能给出相同的 \(E[Y]\)）。 - 本文的破局想法：把 \((a, b)\) 中至少一个参数固定为“已知外部常数”（基于全国调查的先验），从而把二维不可识别问题降维为一维可识别问题。例如，若外部数据告诉你全国平均报告率约为 0.2 且标准差为 0.05，则你把 \(\mu_\theta = a/(a+b)\) 设为 0.2，\(\kappa_\theta = a+b\) 设为使得 Beta 分布标准差为 0.05 的值。此时，\(E[Y] = \lambda \cdot 0.2\)，\(\lambda\) 可由 \(Y/0.2\) 估计，进而 \(\theta\) 的后验由 Beta-Binomial 更新得到。 - 为什么成立：贝叶斯框架下，informative prior 提供了额外的“伪观测”，打破了乘积结构的对称性。先验越强（\(\kappa_\theta\) 越大），识别性越强，但代价是对先验设定的敏感性越高。

三、这篇论文做了什么¶

三句话： ①研究了美国校园性侵报告中“观测数=真实发生数×报告率”的不可识别问题；②核心工具是层次贝叶斯模型，并引入基于全国犯罪受害者调查（NCVS）的 informative prior 作为识别破局手段；③主要结论是 2014-2019 年间总体报告率呈上升趋势，但各校间报告率异质性极大，官方数字不能直接反映真实性侵规模。

关键设定与假设：在第二节最小记号基础上补全： 1. Poisson-Binomial 漏报假设：\(N_{st} \sim \text{Poisson}(\lambda_{st})\)，\(Y_{st} \sim \text{Binomial}(N_{st}, \theta_{st})\)。统计含义：假设性侵发生是独立稀有事件（Poisson），每起事件是否被报告是独立 Bernoulli 试验（Binomial）。相比 Stoner (2018) 的更一般设定，本文保留了这一核心结构。 2. 报告率的 Beta 先验与时间趋势：\(\theta_{st} \sim \text{Beta}(\mu_{\theta_t} \kappa_\theta, (1-\mu_{\theta_t})\kappa_\theta)\)，其中 \(\mu_{\theta_t}\) 随年份 \(t\) 变化（通过 logit 变换与线性时间趋势相连），\(\kappa_\theta\) 跨学校跨时间共享。统计含义：允许总体报告率有趋势，但控制异质性的散布程度。 3. 发生率的层次先验：\(\log \lambda_{st} \sim \text{Normal}(\mu_\lambda + \beta \log(\text{enrollment}_s), \sigma_\lambda^2)\)。统计含义：真实性侵发生率与学校注册人数对数成线性关系，残差服从正态。 4. Informative prior 设定（最关键的假设）：\(\mu_{\theta_1}\)（起始年报告率均值）的先验由 NCVS（全国犯罪受害者调查）数据转化而来，具体为 Beta 分布，其均值与方差匹配 NCVS 的估计值及其置信区间。相比已有文献（如 Stoner 2018 仅给出先验设定的通用框架），本文明确展示了如何从一个具体的外部数据源构造先验，这是其方法学贡献的核心。

主要结果： - 理论/方法结果：本文无定理形式的数学结果，属于应用方法型论文。其核心量化结论是后验推断结果： 1. 总体报告率 \(\mu_{\theta_t}\) 的后验均值在 2014-2019 年间从约 0.15 上升至约 0.25（具体数值依赖模型变体）。 2. 各校报告率 \(\theta_{st}\) 的后验标准差极大，表明异质性远超全国平均水平所能解释的范围。 3. 真实发生率 \(\lambda_{st}\) 的后验均值普遍是官方报告数的 4-6 倍。 - 与 baseline 对比：本文对比了“无时间趋势模型”与“有时间趋势模型”，以及不同先验设定（基于 NCVS vs 基于其他调查）下的后验敏感性。结果显示，时间趋势假设对结论有显著影响，但先验均值的大致量级对最终估计的倍数关系影响有限。 - 稳健性：通过 Pop-PC（Ranganath & Blei 2019）和 SPC（Li & Huggins 2022）进行模型检验，发现模型在总体趋势上拟合良好，但在极端学校（报告数极高或极低）的尾部预测上有偏差。

证明路线与技术技巧（本文为应用方法型，无传统证明，但后验推断路线需拆解）： - 整体路线（后验推断）： 1. 构造联合似然：\(P(Y | N, \theta) \times P(N | \lambda) \times P(\theta | \mu_\theta, \kappa_\theta) \times P(\lambda | \mu_\lambda, \sigma_\lambda) \times P(\text{超参数})\)。 2. 引入 NCVS 外部数据构造 \(\mu_\theta\) 的 informative prior，打破 \(\lambda\) 与 \(\theta\) 的乘积不可识别性。 3. 由于 \(N_{st}\) 是整数潜在变量且维度极高（\(S \times T\)），直接 Gibbs 采样会陷入高维离散空间的低效移动；本文采用 ** marginalized 似然：将 \(N_{st}\) 从似然中积分掉，得到 \(Y_{st} \sim \text{Poisson}(\lambda_{st} \theta_{st})\)（利用 Poisson-Binomial 混合的闭式边际性质），再对连续参数 \((\lambda, \theta, \text{超参数})\) 进行 HMC 采样。 4. 采样完成后，通过条件分布 \(P(N_{st} | Y_{st}, \theta_{st})\) 回溯重构 \(N_{st}\) 的后验样本。 - 关键跳跃点：Poisson-Binomial 混合边际化为 Poisson 这一步是计算上的关键。若 \(N \sim \text{Poisson}(\lambda)\) 且 \(Y|N \sim \text{Binomial}(N, \theta)\)，则边际上 \(Y \sim \text{Poisson}(\lambda \theta)\)（前提是 \(N\) 与 \(\theta\) 独立）。这使得 HMC 可以避开离散空间，只在连续空间操作。 - 技术技巧点名： 1. 边际化潜在离散变量：用于将高维离散采样转化为连续采样，是贝叶斯漏报模型计算的标准技巧。 2. Hamiltonian Monte Carlo (HMC)：用于在边际化后的连续参数空间高效采样，利用梯度信息避免随机游走行为。 3. Informative prior elicitation：从外部调查数据的均值与置信区间反推 Beta 先验的超参数，是本文区别于通用框架的具体贡献。 4. Population Predictive Checks (Pop-PC) & Split Predictive Checks (SPC)**：用于模型检验，避免传统 PPC 的过度乐观。

真实例子与应用： - 用的什么数据：2014-2019 年美国校园性侵报告数据（Clery Act 公开数据），包含数百所学校的年度报告数与注册人数。 - 怎么把本文方法用上去：将各校各年报告数作为 \(Y_{st}\)，注册人数作为 Poisson offset，NCVS 的全国性侵报告率估计（约 0.2-0.25）作为 \(\mu_\theta\) 的先验均值，运行 HMC 得到后验。 - 得到什么结果：总体报告率后验均值从 2014 年的约 0.15 上升至 2019 年的约 0.25；各校真实性侵发生数估计普遍是报告数的 4-6 倍；异质性极大，部分学校的报告率后验估计低于 0.05。 - 这个例子想说明什么：验证模型在真实数据上的可行性，展示“官方报告数不能直接反映真实性侵规模”这一实际结论，并强调先验设定对识别的必要性。

🔎 结论是否比证明窄：本文无严格数学证明，但有一个关键的隐性 claim：模型在 informative prior 下是可识别的。这一 claim 依赖于先验的支撑集不与似然退化方向重合，但文中未给出可识别性的严格定义或定理（如后验是否在样本量增大时收缩到真值）。文中仅通过模拟实验展示了先验对估计的影响，但未证明“先验破局”在理论上的收敛性。这是一个“在条件下实际操作可行，但被泛泛 claim 为解决了识别问题”的地方。

四、开放问题（点到为止，扎根具体语句）¶

可识别性的严格理论：本文依赖 informative prior 打破乘积不可识别性，但未给出后验一致性或收敛速率的定理。要证什么：在先验支撑集满足何种条件下，\((\lambda, \theta)\) 的后验在 \(T \to \infty\) 或 \(S \to \infty\) 时收缩到真值？扎根点：文中“we use informative priors... to act as a tiebreaker”一句，将先验视为计算技巧，未讨论其理论极限。
不依赖强先验的识别策略：是否可以通过引入代理变量（如 de Oliveira 2020 用残疾等级）或排除约束（类似因果测量误差中的 exclusion restriction）来从数据内部获得识别性，而非完全依赖外部先验？扎根点：intro 中完全未提及因果测量误差文献，这是一个明显的缺席。
报告率与发生率的内生相关：模型假设 \(N_{st}\) 与 \(\theta_{st}\) 独立，但现实中“性侵发生率高的学校可能报告率也不同”（如文化氛围同时影响两者）。若引入相关结构，边际分布不再是 Poisson，HMC 边际化技巧失效，如何计算？扎根点：文中假设 \(N \perp \theta\) 以获得 Poisson 边际，但未讨论这一假设的敏感性。
模型检验对先验设定的敏感性：Pop-PC 与 SPC 检验了模型的拟合优度，但未检验“先验设定本身是否合理”。要估什么：先验超参数 \(\kappa_\theta\) 对后验异质性估计的影响有多大？扎根点：文中做了部分敏感性分析，但未将其与模型检验框架结合。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

A Bayesian model of underreporting for sexual assault on college campuses¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论