Fair Coins Tend to Land on the Same Side They Started: Evidence from 350,757 Flips¶

作者: František Bartoš, Alexandra Sarafoglou, Henrik R. Godmann, Amir Sahrani, David Klein Leunk et al.
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 1/10
机构绿灯: University of Amsterdam（US News 前 50，免分进入精读）
链接: https://doi.org/10.1080/01621459.2025.2516210

一、领域脉络与小综述¶

这个方向是什么¶

本子方向可称为“物理模型驱动的统计预测验证”——用大规模随机实验检验一个源自经典力学（抛硬币）的微观物理预言，并借助贝叶斯统计框架量化证据强度。当前成熟度：物理模型本身已有严格的力学推导（DHM 2007），但实验验证规模不足；本文是已知最大规模（35万次）的人为抛掷实验，主结论是支持该预言，但个体异质性也被系统分析。

发展脉络（基于已知文献重建）¶

奠基工作：Keller (1986) 最早建立理想抛硬币（无角动量）的概率模型，指出在完全对称假设下正反面概率各1/2。该工作被Diaconis等视为起点。
主要进展：Diaconis, Holmes, Montgomery (2007, SIAM Review) 建立了包含角动量（wobble）的物理模型，预言人为抛掷的硬币因进动（precession）而有约51%的概率落在起始面同侧。该模型引入一个关键参数：硬币滞空时间、翻转数与进动率的函数关系。但当时仅用小样本（约1000次）加以初步印证。
当前frontier：本文（Bartoš et al., 2024, JASA）通过大规模众包实验（46人，每人数百至数千次）直接检验DHM预言，提供贝叶斯因子（2359）和可信区间，证实同侧偏倚（0.508, 95% CI [0.506, 0.509]）。同时首次发现个体间偏倚异质性，以及练习效应（偏倚随实践次数下降）。这是作者的说法：作者把缺口 frame 成“物理模型预测虽已存在17年，但缺乏大规模、多受试者、控制起始面随机化的严格检验”；竞争路线（如机械抛掷机、无起始面记录的抛掷）被淡化，强调“人为抛掷”是模型原设定。一个值得核查的问题：是否引用了任何高机械控制实验（如机器人抛掷）的结果？该类实验可能给出不同的偏倚量（更接近0.5），但本文intro（未提供）可能未提及。此外，关于抛掷速度分布、手指释放角度等协变量的测量缺失，本文也未提及——这可能影响异质性解释。

子线索聚类（基于本文已知）¶

物理模型的统计检验：DHM直接预言→本文验证。此类工作常使用贝叶斯或频率学派二项检验。
人类行为实验的效应量估计：关注个体偏倚差异、练习效应，使用层次贝叶斯模型（如Beta-Binomial）或混合效应模型。
“公平”与“偏倚”的界定和谐：同侧偏倚 ≠ 正反面整体概率偏倚；本文用贝叶斯因子0.182支持整体公平假说，与同侧偏倚共存——这是方法学上区分“条件概率”与“边际概率”的典型例子。

核心追问与已知瓶颈¶

核心问题1：DHM模型的预测（约0.51）在多大程度上依赖于抛掷参数（高度、角速度、起始面分布）？本文的0.508接近但低于0.51，且CI窄；是否存在未测量的混杂（如抛掷习惯）？
核心问题2：个体异质性如何用统计学模型解释？本文用层次模型捕捉随机效应，但缺乏对个体特征的协变量（如手部长度、抛掷风格），导致异质性来源未解析。
已知瓶颈：大规模人工抛掷实验难以标准化，且受试者练习效应不可控；纯机械抛掷虽然标准化，却不满足DHM的人为过程假设——存在内在张力。

张力¶

未见明显对立引用。但理论上，若DHM预言仅适用于特定抛掷手法（如拇指弹动而非手腕翻），则本文的“稳定偏倚”可能是手法混合的结果——本文未细分手法，此为一隐含假设。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号：
对每位受试者 \(i = 1,\dots, n\)，进行 \(N_i\) 次抛掷（总次数 \(N = \sum_i N_i = 350757\)）。
每次抛掷的起始面记为 \(S_{ij} \in \{H, T\}\)（随机化确定，受试者不知），落地正面记为 \(Y_{ij} \in \{H, T\}\)。
定义二元指标 \(X_{ij} = 1\{ Y_{ij} = S_{ij} \}\)（即同侧事件）。
参数 \(\theta = \Pr(X_{ij} = 1)\)，即任意一次抛掷同侧概率（假设所有抛掷独立同分布？需注意：个体异质性使此假设不成立，故层次模型引入 \(\theta_i\)）。
另设 \(\psi = \Pr(Y_{ij} = H)\)，即边际正面概率（本文预期为0.5）。
模型（本文使用的简化贝叶斯模型）：
第一层：对每个个体，\(N_i\) 次抛掷中同侧次数 \(k_i \sim \text{Binomial}(N_i, \theta_i)\)，其中 \(\theta_i\) 为个体同侧概率。
第二层：\(\theta_i\) 来自一个共同的分布，本文假定 \(\theta_i \sim \text{Beta}(\alpha, \beta)\)（与作者模型形式一致，但实际分析使用了更灵活的层次模型细节）。
超先验：\(\alpha, \beta\) 采用弱信息先验（如伽马分布）。最终感兴趣的总体平均 \(\bar{\theta} = \text{E}[\theta_i]\) 可通过后验积分得到。
对于边际正面概率模型类似：\(m_i \sim \text{Binomial}(N_i, \psi_i)\)，且 \(\psi_i \sim \text{Beta}(\alpha_\psi, \beta_\psi)\)。
可观测数据：对每个受试者，记录每一次抛掷的起始面（由随机化确定）和落地结果。因此可观测到二元响应序列 \(\{ (S_{ij}, Y_{ij}) \}\)。想要但观测不到的：抛掷过程中的角速度、高度、手指释放角度等力学量；这些是DHM模型的关键参数，本文未直接测量，只能通过统计偏倚推知平均效果。

第二步：最小内核¶

本文的核心数学问题是：检验二项比例 \(\theta = \Pr(\text{same side})\) 是否等于 \(0.5\)，基于大规模独立重复观测，同时允许个体间异质性。

最简特例：假设所有受试者同质（即 \(\theta_i \equiv \theta\)），且每次抛掷独立，则我们只需观测到 \(N\) 次伯努利试验中同侧事件总次数 \(K = \sum_{i,j} X_{ij}\)。在 \(N\) 足够大时，检验 \(H_0: \theta = 0.5\) 等价于计算 \(K\) 的二项后验或计算贝叶斯因子（贝叶斯因子公式：若先验取Beta(1,1)，则后验Beta(K+1, N-K+1)，BF = [Beta(K+1, N-K+1) 在0.5的似然比值]/[先验预测似然]）。但本文数据支持 \(\theta \approx 0.508\)，且由于 \(N\) 极大，贝叶斯因子极大（2359），拒绝 \(H_0\) 是确定的。这个最小内核说明：即便不考虑异质性，结论已成立。然而本文的额外贡献是发现异质性——即个体间\(\theta_i\)散在0.45-0.55之间——这需要对层次模型进行更复杂的贝叶斯计算。因此，论文在数学上干了两件事：(1) 沿用最简单的二项检验拒绝 \(H_0\)；(2) 通过层次模型量化异质性效应及其与练习次数的关系。

三、这篇论文做了什么¶

三句话¶

研究了人为抛掷普通硬币是否倾向于落回起始面（DHM预言，0.51同侧概率），通过350757次抛掷实验进行验证。
核心工具：贝叶斯层次模型（Beta-Binomial）、贝叶斯因子、后验可信区间；辅以混合效应逻辑回归分析个体异质性和练习效应。
主要结论：同侧概率为0.508（95% CI [0.506, 0.509]），贝叶斯因子2359强支持偏倚存在；个体间存在显著异质性；练习导致偏倚下降；整体正反面概率仍为0.5。

关键设定与假设¶

核心假设：DHM物理模型成立（即抛掷过程中角动量是偏倚来源）；实验设计保证起始面随机化且受试者不知起始面；每次抛掷之间独立（受试者不刻意调整）。
与已有文献比较：相比DHM (2007) 小样本验证（约1000次），本文大幅扩大样本量，并首次系统性分析个体异质性；但本文未测量物理参数（角速度、高度），而仅统计结果——因此无法直接解构偏倚的物理机制，保留了“黑箱”性质。
统计假设：贝叶斯分析使用弱先验（Beta(1,1)或更宽的参数化），后验推断对先验选择鲁棒性已在附录说明（未提供全文但可推断）。层次模型假设\(\theta_i\)来自某种连续分布（Beta或logit-normal），该分布的尾部行为影响个体偏倚估计，但样本量大使得该假设影响小。

主要结果¶

理论型指贝叶斯因子和可信区间，此处无严格定理，但有量化结论： - 同侧偏倚：后验均值 \(\hat{\theta} = 0.508\)，95% HD可信区间 [0.506, 0.509]，贝叶斯因子 \(BF = 2359\)（相对于无偏模型 \(H_0: \theta=0.5\)）。此效应虽小（0.8%偏倚）但极其显著。 - 整体正面概率：后验均值 \(\hat{\psi} = 0.500\)，95% CI [0.498, 0.502]，贝叶斯因子0.182（支持无偏模型），证明整体公平性。 - 个体异质性：29%的个体在95%后验区间内排除0.5；练习次数增加后，同侧偏倚整体递减——作者使用“练习次数的对数”作为预测变量，用逻辑混合模型估计斜率为负（-0.045，95% CI [-0.080, -0.011]）。

证明路线与技术技巧（本文无复杂证明，主要为数据分析流程）¶

整体路线：
实验设计：通过众包应用（YADDA）招募46名志愿者，每人在随机化双盲条件下抛掷指定次数，记录起始面和结果。
贝叶斯建模：(a) 简单模型：忽略个体差异，直接对总同侧计数做Beta-Binomial后验。(b) 层次模型：个体水平的二项参数\(\theta_i\)先验来自群体分布，使用Stan实现MCMC采样。
假设检验：对\(\theta\)的后验evaluate HPD区间是否包含0.5；计算贝叶斯因子（Savage-Dickey密度比法）。
异质性分析：计算个体后验概率\(\Pr(\theta_i > 0.5)\)，以及个体间方差的后验分布。
练习效应分析：将练习次数作为协变量加入逻辑层次模型，估计系数。
关键跳跃点：无。统计工具为标准方法。
技术技巧点名：使用Bayes factor (Savage-Dickey ratio) 和放宽模型为Beta-Binomial；层次建模用HMC（Stan）避免解析不便；未使用高阶推理技巧。因此本文的技术含量对统计计算研究者较低，但实验设计（大规模、双盲、随机化起始面）值得借鉴。

真实例子与应用¶

数据：46名志愿者，每人200-10000次抛掷不等（总350757次），每位受试者独立执行程序化流程（手机应用记录）。
方法应用：直接套用层次贝叶斯模型到每人的同侧计数序列。也按时间顺序分块分析练习效应。
结果：上已述。
例子想说明：①物理模型预测可被大规模实证支持；②贝叶斯因子对极大数据集依然有效（不出现p值灾难）；③人类行为有异质性，统计分析不能假设同质。

🔎 结论是否比证明窄¶

本文没有泛泛 claim “所有人为抛掷都如此”——明确指出“some (but not all) people”及练习效应。结论范围严格基于人的抛掷行为，未机械推广。唯一可能过宽的叙述是“people flip coins”限定于该实验使用的特定抛掷方式（拇指弹动，记录为“为满足DHM模型，规定抛掷方法为拇指弹起而非手腕甩动”），但未必写入public abstract中。

四、开放问题¶

个体异质性的物理来源：本文未测量角速度、高度、释放角度等力学变量，这些变量如何影响同侧偏倚的大小？能否通过影像分析或运动传感器验证DHM模型更精细的预测（如偏倚与滞空时间的关系）？（扎根于：文中“between-people variation”和“practice effect”部分，未给出机制解释。）
先验敏感性：虽然作者称鲁棒性检验已做（未展示），但贝叶斯因子在极大样本下对先验形状敏感度如何？特别地，若采用更宽的\(\theta\)先验（如Beta(0.5,0.5)），BF是否仍保持数量级？是否可能出现对H0支持？这是一个检验贝叶斯因子行为的基本问题。（扎根于：方法部分“We used weakly informative priors”的未声明具体敏感性分析结果。）
非独立抛掷建模：有些人可能连续抛掷时出现序列相关（如手臂肌肉记忆），但本文假设独立。若存在短期记忆效应，模型应推广为隐马尔可夫或自回归过程。可检验DHM模型在非独立抛掷序列下的预测。（扎根于：模型假设“each flip is independent”未在数据中验证。）
更高阶交互：练习效应是否与个体基线偏倚大小交互？即偏倚大者练习改善更明显？可用分层交互模型检验。（扎根于：文中“practice effect”斜率在所有个体上固定，未允许异质性斜率。）

Maintained by 陈星宇 · Homepage · Source on GitHub