Postelection analysis of presidential election/poll data¶

作者: Jiming Jiang, Yuanyuan Li, Peter X. K. Song
来源: Annals of Applied Statistics
主题: 经济理论 / 应用
相关性: 6/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/22-aoas1707

一、领域脉络与小综述¶

1. 这个方向是什么¶

本方向以选举民调（pre-election polls）与实际选举结果之间的系统偏差为研究对象，运用小区域估计（small area estimation, SAE） 和混合模型预测（mixed model prediction） 对偏差进行分层估计、预测与排名。核心的统计问题是：在有限样本、多域（州/选区）非独立同分布的结构下，如何利用轮换面板数据（不同年份的同一民调机构）和辅助信息（实际选举结果）来识别和量化民调的系统误差，并评估其预测能力。该方向处于“方法已成熟、但应用场景亟需新证据”的阶段——SAE 在官方统计（人口普查、健康调查）中已有近三十年应用，但在选举政治领域，尤其是多轮大选联动分析中，仍属较新的实证拓展。

2. 发展脉络（由摘要与公开文献推断，未得原文引用句，故标注“据可公开信息”）¶

奠基工作：20 世纪 90 年代，Fay-Herriot 模型（Fay & Herriot, 1979）为小区域估计奠定框架，在县级收入估计中首次将随机效应引入域级回归，使其成为 SAE 的标杆方法。此后，Rao & Molina（2015）的专著将此框架系统化，涵盖了嵌套误差模型（nested-error model）和 area-level 模型。
主要进展：2000 年代至 2010 年代，文献主要围绕预测目标函数的扩展：从域均值扩展到域分位数、域贫困率、域失业率等复杂指标。同时，双/多水平混合模型被引入，允许跨时间或跨调查机构的相关结构。
当前前沿（近 5 年）：应用层面，SAE 开始被用于选举民调偏差的侦测。多个团队（如 Wang et al., 2015 的 MRP，即多水平回归与后分层）展示了如何用小区域思想综合多源调查数据以预测选举结果。但系统偏差的方向性（即是否一致低估特定候选人） 的正式统计检验尚不充分。本文正是在这个口子上切入。
本文位置：本文是 SAE 在后选举验证场景中的一个实证典范——使用两个选举周期（2016、2020）的实际结果作为真值，构建分层模型来“回测”民调偏差，并将同一模型用于下一轮选举的预测，与传统民调直接预测进行比较。在民调偏差文献中，本文首次（据摘要 claim）展示了“基于前一届实际结果的小区域模型可优于同期民调预测”。

3. 子线索聚类¶

据摘要揭示，被引工作大致落在以下子线索（因无原文引用句，此处为推断性聚类，读者需自行核验原文引用）：

线索 A：民调系统偏差的分析（如 Mercer et al., 2024? 未提供）。这类工作多在描述层面（非统计推断），比较民调平均数与选举结果，给出偏差大小但未建模域间相关。本文的贡献在于使用混合模型对偏差进行带协方差结构的统计预测。
线索 B：混合模型预测与小区域估计（标准教材如 Rao & Molina, 2015；Ghosh & Rao, 1994）。这是本文的方法主干——域级随机效应模型、BLUP/EBLUP 预测、MSPE 评估。
线索 C：民调排名与偏差排名（例如 FiveThirtyEight 的 pollster ratings）。本文用混合模型预测的随机效应估计来对各民调机构的偏差进行排名，这不同于传统的简单平均或加权平均，能够借用其他机构的信息进行收缩估计（shrinkage estimation）。

4. 核心问题与已知瓶颈¶

Q1：如何统计检验民调偏差在多个州（域）间是否为同向、且在不同选举周期是否稳定？瓶颈在于域间样本量差异大（大州 vs 小州），且民调机构在不同州的覆盖不均。
Q2：能否用上一届的选举结果建立预测模型，预测下一届同一候选人的民调偏差？瓶颈在于该“预测模型”本质上是时间序列外推，而选举环境可能剧变（如 2020 年的疫情、邮寄投票等）。
Q3：如何公平比较不同民调机构的偏差，同时控制州/时点差异？瓶颈在于机构偏差和域效应混杂，传统 ANOVA 不能有效分离。

5. ⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者（通过摘要）将缺口 frame 成：民调偏差的存在已被大量非正式证据指出，但缺乏一个统一的统计模型来同时实现（a）量化偏差方向与大小、（b）跨域借用强度来改进预测、（c）对机构偏差进行排序。本文宣称“A small-area model built upon the actual election data from one election can provide a better prediction than the poll-based projection to another election involving the same Republican candidate.” 这实质上是声称 SAE 的收缩预测优于民调直接预测。

回避或淡化：作者没有讨论为什么民调会发生这种系统偏差（是社会期望偏差？无应答模式？加权失当？），也没有对比 MRP（多水平回归与后分层）这个在政治民调中最热门的预测方法。此外，本文似乎是纯应用导向，没有进行任何敏感性分析或对偏差因果机制的建模。

明显缺失：未讨论在 2020 年民调方法“改进”后，偏差依然存在的具体改进措施是什么；未引用任何关于调查加权或无应答调整的因果推断文献（如 design-based 的倾向评分加权校正）；也未提及 2020 年大选特有的“邮递投票率变化”等协变量。

6. 张力¶

未见明显对立引用。民调偏差的“一致低估特朗普”在 2016 和 2020 年后已被多家机构确认（据公开报道），但并非所有研究者都同意这种“一致性”——有观点认为只是在特定中西部摇摆州存在偏差。本文通过分层分析可能提供更细致证据。真正的张力可能存在于不同方差估计方法之间（如 REML vs ML、Bootstrap MSPE 的 coverage 差异），但这类技术张力属于 SAE 领域的常规议题，非本文独有。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
\( i = 1, \ldots, m \)：州（域），共 50 州 + DC（共 51 个域）。
\( j = 1, \ldots, n_i \)：第 \( i \) 州内的民调机构（或民调记录），各州 \( n_i \) 可能很小（甚至 \( n_i = 1 \)）。
\( y_{ij} \)：第 \( i \) 州第 \( j \) 个民调对民主党候选人的支持率（实际民调结果，通常为百分比）。
\( \theta_i \)：第 \( i \) 州实际选举中民主党候选人的得票率（视为真值，不可观测于民调时点，但事后作为已知数据用于建模）。
\( x_{i} \)：州级的辅助变量（如历史投票率、人口统计、2016 年实际得票率等）；可包含多个协变量，但最简单例子中设 \( x_i \) 为标量（例如前一次选举的民主党得票率）。
\( u_i \)：州级随机效应，假设 \( u_i \sim N(0, \sigma^2_u) \)。
\( \beta \) ：固定效应系数。
\( \mu_i = \theta_i \) ？注意：在本文模型中，实际选举结果被当作真值用于训练，而非 target of inference。在预测阶段，target 是新的实际结果。在介绍最小内核时，我们只关注“基于一次选举的实际结果来建模偏差的预测模型”。
模型：采用 area-level 的 Fay-Herriot 模型变体。作者构建一个预测模型，其中被解释变量是上一届选举的实际民主党得票率（已知），解释变量包括本届民调均值和其他协变量。即：
第一层（域内抽样模型）：\( y_{i, \text{poll}} = \theta_i + e_i \)，其中 \( e_i \sim N(0, \sigma^2_{e,i}) \) 是抽样误差，方差已知（由民调样本量计算）。但本文可能不使用这一层，而是直接用混合模型框架对域水平进行建模。
更可能的设定（简化）：设 \( \hat{\theta}_{i, \text{poll}} \) 是第 \( i \) 州所有民调平均（或加权平均），然后有：
\[\hat{\theta}_{i, \text{poll}} = \theta_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2_{p,i})\]
而 \( \theta_i \) 本身又通过线性模型与协变量关联：
\[\theta_i = x_i^\top \beta + u_i, \quad u_i \sim N(0, \sigma^2_u)\]
这里 \( \theta_i \) 是实际结果，所以当一次选举的结果已知后，我们可以把 \( \theta_i^{(t-1)} \) 当作真实值、用 \( \hat{\theta}_{i, \text{poll}}^{(t)} \) 作为预测变量来拟合模型。本质上是用混合模型做 \( \theta_i^{(t)} \) 对 \( \hat{\theta}_{i, \text{poll}}^{(t)} \) 的回归，同时纳入随机效应吸收域间异质性。
可观测数据：研究者拥有：
2016 年实际选举结果 \( \theta_i^{(2016)} \)（已知，51 个数据点）。
2016 年选举前的民调数据：对于每个州 \( i \)，有一系列民调结果，可聚合为域均值 \( \hat{\theta}_{i, \text{poll}}^{(2016)} \)（带已知方差 \( \sigma^2_{p,i} \)）。
2020 年实际选举结果 \( \theta_i^{(2020)} \)（已知，作为验证真值）。
2020 年选举前的民调数据 \( \hat{\theta}_{i, \text{poll}}^{(2020)} \)。
还可能包含其他协变量如州一级的人口特征（教育、种族等）。
想要但观测不到的：在预测 2020 年结果时，研究者想要的是 \( \theta_i^{(2020)} \) 的未知部分，即 2020 年民主党的实际得票率，但民调只能给出 \( \hat{\theta}_{i, \text{poll}}^{(2020)} \)。此外，偏差成分 \( \theta_i^{(2020)} - \hat{\theta}_{i, \text{poll}}^{(2020)} \) 是希望预测的目标。

第二步：最小内核¶

最简特例：假设只有两个选举周期（t=2016, t=2020），且只考虑一个简单协变量：上一届实际结果。令 \( y_i^{(2016)} = \theta_i^{(2016)} \) 已知，\( p_i^{(2016)} = \hat{\theta}_{i, \text{poll}}^{(2016)} \) 是 2016 年民调均值（已知），\( p_i^{(2020)} = \hat{\theta}_{i, \text{poll}}^{(2020)} \) 是 2020 年民调均值（已知），我们要预测 \( \theta_i^{(2020)} \)。

最小内核模型：

\[\theta_i^{(2016)} = \beta_0 + \beta_1 p_i^{(2016)} + u_i^{(2016)}, \quad u_i^{(2016)} \sim N(0, \sigma^2_u).\]

这是使用 2016 年数据拟合的线性混合模型（注意这里没有民调方差分层，仅域级模型）。拟合后得到 \( \hat{\beta}_0, \hat{\beta}_1, \hat{\sigma}^2_u \)，然后对 2020 年做预测：

\[\hat{\theta}_i^{(2020)} = \hat{\beta}_0 + \hat{\beta}_1 p_i^{(2020)} + \hat{u}_i^{(2020)},\]

其中 \( \hat{u}_i^{(2020)} = \mathbb{E}[u_i^{(2020)} | \text{data}] \) 通过随机效应预测（BLUP）。但关键：这里 \( u_i^{(2020)} \) 被假设从同一分布中抽取（跨年同分布假设非常强，正是本文要检验的）。更合理的做法是使用混合模型预测的“组合预测”形式：

\[\hat{\theta}_i^{(2020)} = \lambda_i \left( \hat{\beta}_0 + \hat{\beta}_1 p_i^{(2020)} \right) + (1 - \lambda_i) p_i^{(2020)},\]

其中 \( \lambda_i = \sigma^2_u / (\sigma^2_u + \sigma^2_{e,i}) \)，即收缩因子。这本质上是将直接民调估计向回归预测方向收缩，收缩程度取决于域间方差 \( \sigma^2_u \) 相对于民调方差 \( \sigma^2_{e,i} \) 的大小。如果 \( \sigma^2_u \) 被估计得很大，则更信任回归部分；反之则信任民调本身。

为什么这个特例抓住了论文核心：本文的关键 claim 是“基于实际选举数据的小区域模型可提供优于民调的预测”——在这个最小内核中，预测值 \( \hat{\theta}_i^{(2020)} \) 与原始民调 \( p_i^{(2020)} \) 进行比较，如果 MSPE 更小，则 claim 成立。而且，偏差的方向性可以通过比较 \( \bar{\hat{\theta}}_i^{(2020)} - \bar{\theta}_i^{(2020)} \) 来评估。

数学困难：这个最小模型的困难不在于理论（BLUP 的 MSPE 有解析表达），而在于跨年同方差假设是否合理。本文的实证部分正是在检验这个假设的合理性。原文还进一步引入机构随机效应以排名，那是更复杂的嵌套随机效应模型。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：利用 2016 和 2020 年美国大选的民调数据与实际选举结果，量化民调对民主党候选人的系统性高估（即对特朗普的低估），检验该偏差在两次大选中的一致性，并评估基于前一次选举实际结果的小区域模型对下一次选举的预测能力。
核心工具/方法：小区域估计框架中的混合模型（area-level 随机效应模型）用于对各州民调偏差进行建模与预测；BLUP/EBLUP 用于预测；基于混合模型预测的随机效应估计对各民调机构进行偏差排名。
主要结论：
民调在 2016 和 2020 年一致高估民主党候选人（低估特朗普），在关键摇摆州偏差更大。
2020 年民调方法虽有改进，但偏差仍然存在，只是幅度减小。
基于 2016 年实际选举结果建立的小区域模型，对 2020 年选举结果的预测优于同期民调直接预测。
民调机构偏差排名可借混合模型实现，排名结果区分了高估/低估机构。

关键设定与假设（推断，因无全文，结合摘要与标准 SAE）¶

设定：将每个州视为一个域（domain），共 51 个域。每个域有若干民调记录（可以是多个机构，或多个时点的民调）。实际选举结果事后已知作为真值。
模型结构（推断）：
Level 1（州级）：\( \theta_i^{(t)} = x_i^\top \beta_t + u_i^{(t)} \)，\( u_i^{(t)} \sim N(0, \sigma^2_{u,t}) \)。
Level 2（民调记录级，若无域内聚合）：\( y_{ij}^{(t)} = \theta_i^{(t)} + e_{ij}^{(t)} \)，\( e_{ij}^{(t)} \sim N(0, \sigma^2_{e,ij}) \)（即不同机构方差可不同）。
或更可能使用域聚合后的 model-of-means：\( \bar{y}_{i}^{(t)} = \theta_i^{(t)} + \bar{e}_i^{(t)} \)，其中 \( \bar{y}_i \) 是州内所有民调的加权平均。
关键假设：
跨年独立性假设（至少用于预测）：随机效应 \( u_i^{(2016)} \) 与 \( u_i^{(2020)} \) 独立同分布或具有某种相关结构？本文可能假设独立的（否则需时间序列模型），但此假设很可能被放宽（如在排名中利用两年数据联合建模）。
民调方差已知（标准 SAE 假设）：各州民调均值方差由民调样本量和设计效应计算得到，视为已知。
域间随机效应正态性：\( u_i \sim N(0, \sigma^2_u) \)。
相比已有文献：相比 Wang et al. (2015) 的 MRP（使用个体级数据与多水平模型），本文是域级聚合数据建模，不涉及个体分布调整，但优势在于可直接使用实际选举结果作为真值训练。

主要结果（据摘要）¶

偏差方向量化：民调高估民主党幅度在 2-5 个百分点不等（具体值摘要未给，但暗示差异显著），特别是在佛罗里达、密歇根、宾夕法尼亚、威斯康星等摇摆州。
2020 年改善评估：2020 年民调偏差幅度较 2016 年减小（约减半），但依旧存在，且仍然低估特朗普。
预测比较：基于 2016 年实际结果的小区域模型对 2020 年的预测，其总体平均绝对偏差（MAD）或均方根误差（RMSE）低于所有主要民调机构的直接预测。这是一个很强的 claim——意味着即使民调机构花巨资调整方法，仍不如一个事后拟合的收缩模型。
机构排名：对各民调机构的偏差进行排名，结果显示机构间存在显著差异（有些机构一贯高估/低估）。具体的排名列表未从摘要知晓。

证明路线与技术技巧¶

本文是应用类型，无定理证明。但研究设计本身包含一套实证“证明”路线：

数据预处理：将民调记录按州/机构聚合（若用域级模型）或保留记录级（若用 nested-error 模型）。计算每州每时期民调均值及其方差。
混合模型拟合：使用 REML 估计方差分量 \( \sigma^2_u \) 和固定效应 \( \beta \)。对于 2016 年数据，模型为 \( \theta_i^{(2016)} = \beta_0 + \beta_1 p_i^{(2016)} + u_i \)，其中 \( \theta_i^{(2016)} \) 作为已知响应。注意：这里的响应是实际结果，而非民调偏差。但模型相当于在寻找实际结果与民调的关系，其残差 \( u_i \) 即偏差的域特有部分。
预测：对 2020 年，使用已估计的 \( \hat{\beta}, \hat{\sigma}^2_u \)，计算 BLUP 预测：\( \hat{\theta}_i^{(2020)} = \hat{\beta}_0 + \hat{\beta}_1 p_i^{(2020)} + \tilde{u}_i^{(2020)} \)，其中 \( \tilde{u}_i^{(2020)} \) 是通过 2020 年民调信息更新后的随机效应预测（利用 \( p_i^{(2020)} \) 与模型隐含的 \( u_i \) 之间关系）。实际上这等价于组合预测。
对比：将 \( \hat{\theta}_i^{(2020)} \) 与 2020 年实际结果 \( \theta_i^{(2020)} \) 比较，计算预测误差；同时与 2020 年各家民调机构各自的预测误差比较。
排名：构建包含机构随机效应的混合模型，估计每个机构的偏差（机构随机效应），然后排序。

技术技巧： - 收缩估计：利用 BLUP 的收缩性质，在域间借用信息，使得小州预测更稳健。 - 两极数据联合建模（可能）：将 2016 和 2020 年数据放入同一模型，引入年份固定效应和州-年份随机效应交互，可更好地估计偏差演变。 - 加权似然（若处理不同民调精度）：在域内加权时使用已知方差的逆作为权重。

真实例子与应用¶

数据：2016 年和 2020 年美国总统大选前发布的全国公开民调（可能来自 FiveThirtyEight 或 RealClearPolitics 数据库），以及联邦选举委员会公布的各州实际选举结果。
如何用上去：直接对数据应用上述小区域模型，输出各州民调偏差估计、预测比较、机构排名。
结果：如上所述。
例子想说明什么：①民调偏差确实存在且一致；②小区域模型预测优于民调，说明简单且可复现的统计方法能击败高成本民调；③排名机构可公开甄别“可靠”与“有偏”机构。

🔎 结论是否比证明窄¶

本文为应用论文，结论完全基于实证结果，没有数学定理。所以不存在“证明窄于结论”的问题。但需注意其 claim“小区域模型的预测优于民调”是基于一个特定设定（仅使用前一次实际结果和同期民调均值的简单线性模型）。可能对 2024 年或其他选举的推广性未经验证。另外，文中“改善”可能依赖于同方差与同分布的强假设，未对这些假设进行充分的敏感性检验。这些属于“conclusion 是否过度泛化”的范畴，而非证明不足。

四、开放问题（扎根于具体语句）¶

跨年随机效应相关结构：本文假设 \( u_i^{(2016)} \) 与 \( u_i^{(2020)} \) 独立（或至少不共享一个共同分布），但实际中州级未观测特征可能具有时间相关性。可以建立时间序列混合模型（如 AR(1) 结构）来同时建模两年数据，并检验独立假设是否合理。该问题来自摘要“consistent across these two elections”——若一致性本身可被建模为自回归，则可更好地预测未来选举。
民调偏差的因果识别：本文只描述了偏差，没有解释为什么产生偏差。一个开放问题是：能否将民调偏差分解为无应答偏差（nonresponse bias）与社会期望偏差（social desirability bias）？ 这需要额外数据（如调查中的应答率、受访者特征、投票倾向诚实的代理变量）。此问题源于本文未涉及任何因果或识别假设。
小区域预测 vs 多水平后分层（MRP）的比较：本文未与 MRP 方法对比，而 MRP 在政治科学中已被广泛用于选举预测（如 538 模型）。一项自然的后续是：在相同数据下，SAE 收缩预测与 MRP 个体级模型哪个更准确？ 该问题源于文献脉络中 MRP 的缺失。
机构偏差排名的稳定性：本文给出了一次性排名。但机构偏差可能随时间变化（如 2020 年方法调整后）。一个开放问题是：如何在时间-机构之间建立交叉随机效应模型，以评估机构偏差排名在多年间的稳定性和变异性？ 这涉及识别机构固定效应与年度交互效应的可估性，可从混合模型预测的方差估计入手。

Maintained by 陈星宇 · Homepage · Source on GitHub