Fair Coins Tend to Land on the Same Side They Started: Evidence from 350,757 Flips¶
作者: František Bartoš, Alexandra Sarafoglou, Henrik R. Godmann, Amir Sahrani, David Klein Leunk et al.
来源: Journal of the American Statistical Association
主题: 数理统计 / 假设检验
相关性: 1/10
机构绿灯: University of Amsterdam(US News 前 50,免分进入精读)
链接: https://doi.org/10.1080/01621459.2025.2516210
一、领域脉络与小综述¶
这个方向是什么¶
本子方向可称为“物理模型驱动的统计预测验证”——用大规模随机实验检验一个源自经典力学(抛硬币)的微观物理预言,并借助贝叶斯统计框架量化证据强度。当前成熟度:物理模型本身已有严格的力学推导(DHM 2007),但实验验证规模不足;本文是已知最大规模(35万次)的人为抛掷实验,主结论是支持该预言,但个体异质性也被系统分析。
发展脉络(基于已知文献重建)¶
- 奠基工作:Keller (1986) 最早建立理想抛硬币(无角动量)的概率模型,指出在完全对称假设下正反面概率各1/2。该工作被Diaconis等视为起点。
- 主要进展:Diaconis, Holmes, Montgomery (2007, SIAM Review) 建立了包含角动量(wobble)的物理模型,预言人为抛掷的硬币因进动(precession)而有约51%的概率落在起始面同侧。该模型引入一个关键参数:硬币滞空时间、翻转数与进动率的函数关系。但当时仅用小样本(约1000次)加以初步印证。
- 当前frontier:本文(Bartoš et al., 2024, JASA)通过大规模众包实验(46人,每人数百至数千次)直接检验DHM预言,提供贝叶斯因子(2359)和可信区间,证实同侧偏倚(0.508, 95% CI [0.506, 0.509])。同时首次发现个体间偏倚异质性,以及练习效应(偏倚随实践次数下降)。这是作者的说法:作者把缺口 frame 成“物理模型预测虽已存在17年,但缺乏大规模、多受试者、控制起始面随机化的严格检验”;竞争路线(如机械抛掷机、无起始面记录的抛掷)被淡化,强调“人为抛掷”是模型原设定。一个值得核查的问题:是否引用了任何高机械控制实验(如机器人抛掷)的结果?该类实验可能给出不同的偏倚量(更接近0.5),但本文intro(未提供)可能未提及。此外,关于抛掷速度分布、手指释放角度等协变量的测量缺失,本文也未提及——这可能影响异质性解释。
子线索聚类(基于本文已知)¶
- 物理模型的统计检验:DHM直接预言→本文验证。此类工作常使用贝叶斯或频率学派二项检验。
- 人类行为实验的效应量估计:关注个体偏倚差异、练习效应,使用层次贝叶斯模型(如Beta-Binomial)或混合效应模型。
- “公平”与“偏倚”的界定和谐:同侧偏倚 ≠ 正反面整体概率偏倚;本文用贝叶斯因子0.182支持整体公平假说,与同侧偏倚共存——这是方法学上区分“条件概率”与“边际概率”的典型例子。
核心追问与已知瓶颈¶
- 核心问题1:DHM模型的预测(约0.51)在多大程度上依赖于抛掷参数(高度、角速度、起始面分布)?本文的0.508接近但低于0.51,且CI窄;是否存在未测量的混杂(如抛掷习惯)?
- 核心问题2:个体异质性如何用统计学模型解释?本文用层次模型捕捉随机效应,但缺乏对个体特征的协变量(如手部长度、抛掷风格),导致异质性来源未解析。
- 已知瓶颈:大规模人工抛掷实验难以标准化,且受试者练习效应不可控;纯机械抛掷虽然标准化,却不满足DHM的人为过程假设——存在内在张力。
张力¶
未见明显对立引用。但理论上,若DHM预言仅适用于特定抛掷手法(如拇指弹动而非手腕翻),则本文的“稳定偏倚”可能是手法混合的结果——本文未细分手法,此为一隐含假设。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据¶
- 符号:
- 对每位受试者 \(i = 1,\dots, n\),进行 \(N_i\) 次抛掷(总次数 \(N = \sum_i N_i = 350757\))。
- 每次抛掷的起始面记为 \(S_{ij} \in \{H, T\}\)(随机化确定,受试者不知),落地正面记为 \(Y_{ij} \in \{H, T\}\)。
- 定义二元指标 \(X_{ij} = 1\{ Y_{ij} = S_{ij} \}\)(即同侧事件)。
- 参数 \(\theta = \Pr(X_{ij} = 1)\),即任意一次抛掷同侧概率(假设所有抛掷独立同分布?需注意:个体异质性使此假设不成立,故层次模型引入 \(\theta_i\))。
-
另设 \(\psi = \Pr(Y_{ij} = H)\),即边际正面概率(本文预期为0.5)。
-
模型(本文使用的简化贝叶斯模型):
- 第一层:对每个个体,\(N_i\) 次抛掷中同侧次数 \(k_i \sim \text{Binomial}(N_i, \theta_i)\),其中 \(\theta_i\) 为个体同侧概率。
- 第二层:\(\theta_i\) 来自一个共同的分布,本文假定 \(\theta_i \sim \text{Beta}(\alpha, \beta)\)(与作者模型形式一致,但实际分析使用了更灵活的层次模型细节)。
- 超先验:\(\alpha, \beta\) 采用弱信息先验(如伽马分布)。最终感兴趣的总体平均 \(\bar{\theta} = \text{E}[\theta_i]\) 可通过后验积分得到。
-
对于边际正面概率模型类似:\(m_i \sim \text{Binomial}(N_i, \psi_i)\),且 \(\psi_i \sim \text{Beta}(\alpha_\psi, \beta_\psi)\)。
-
可观测数据:对每个受试者,记录每一次抛掷的起始面(由随机化确定)和落地结果。因此可观测到二元响应序列 \(\{ (S_{ij}, Y_{ij}) \}\)。想要但观测不到的:抛掷过程中的角速度、高度、手指释放角度等力学量;这些是DHM模型的关键参数,本文未直接测量,只能通过统计偏倚推知平均效果。
第二步:最小内核¶
本文的核心数学问题是:检验二项比例 \(\theta = \Pr(\text{same side})\) 是否等于 \(0.5\),基于大规模独立重复观测,同时允许个体间异质性。
最简特例:假设所有受试者同质(即 \(\theta_i \equiv \theta\)),且每次抛掷独立,则我们只需观测到 \(N\) 次伯努利试验中同侧事件总次数 \(K = \sum_{i,j} X_{ij}\)。在 \(N\) 足够大时,检验 \(H_0: \theta = 0.5\) 等价于计算 \(K\) 的二项后验或计算贝叶斯因子(贝叶斯因子公式:若先验取Beta(1,1),则后验Beta(K+1, N-K+1),BF = [Beta(K+1, N-K+1) 在0.5的似然比值]/[先验预测似然])。但本文数据支持 \(\theta \approx 0.508\),且由于 \(N\) 极大,贝叶斯因子极大(2359),拒绝 \(H_0\) 是确定的。这个最小内核说明:即便不考虑异质性,结论已成立。然而本文的额外贡献是发现异质性——即个体间\(\theta_i\)散在0.45-0.55之间——这需要对层次模型进行更复杂的贝叶斯计算。因此,论文在数学上干了两件事:(1) 沿用最简单的二项检验拒绝 \(H_0\);(2) 通过层次模型量化异质性效应及其与练习次数的关系。
三、这篇论文做了什么¶
三句话¶
- 研究了人为抛掷普通硬币是否倾向于落回起始面(DHM预言,0.51同侧概率),通过350757次抛掷实验进行验证。
- 核心工具:贝叶斯层次模型(Beta-Binomial)、贝叶斯因子、后验可信区间;辅以混合效应逻辑回归分析个体异质性和练习效应。
- 主要结论:同侧概率为0.508(95% CI [0.506, 0.509]),贝叶斯因子2359强支持偏倚存在;个体间存在显著异质性;练习导致偏倚下降;整体正反面概率仍为0.5。
关键设定与假设¶
- 核心假设:DHM物理模型成立(即抛掷过程中角动量是偏倚来源);实验设计保证起始面随机化且受试者不知起始面;每次抛掷之间独立(受试者不刻意调整)。
- 与已有文献比较:相比DHM (2007) 小样本验证(约1000次),本文大幅扩大样本量,并首次系统性分析个体异质性;但本文未测量物理参数(角速度、高度),而仅统计结果——因此无法直接解构偏倚的物理机制,保留了“黑箱”性质。
- 统计假设:贝叶斯分析使用弱先验(Beta(1,1)或更宽的参数化),后验推断对先验选择鲁棒性已在附录说明(未提供全文但可推断)。层次模型假设\(\theta_i\)来自某种连续分布(Beta或logit-normal),该分布的尾部行为影响个体偏倚估计,但样本量大使得该假设影响小。
主要结果¶
理论型指贝叶斯因子和可信区间,此处无严格定理,但有量化结论: - 同侧偏倚:后验均值 \(\hat{\theta} = 0.508\),95% HD可信区间 [0.506, 0.509],贝叶斯因子 \(BF = 2359\)(相对于无偏模型 \(H_0: \theta=0.5\))。此效应虽小(0.8%偏倚)但极其显著。 - 整体正面概率:后验均值 \(\hat{\psi} = 0.500\),95% CI [0.498, 0.502],贝叶斯因子0.182(支持无偏模型),证明整体公平性。 - 个体异质性:29%的个体在95%后验区间内排除0.5;练习次数增加后,同侧偏倚整体递减——作者使用“练习次数的对数”作为预测变量,用逻辑混合模型估计斜率为负(-0.045,95% CI [-0.080, -0.011])。
证明路线与技术技巧(本文无复杂证明,主要为数据分析流程)¶
- 整体路线:
- 实验设计:通过众包应用(YADDA)招募46名志愿者,每人在随机化双盲条件下抛掷指定次数,记录起始面和结果。
- 贝叶斯建模:(a) 简单模型:忽略个体差异,直接对总同侧计数做Beta-Binomial后验。(b) 层次模型:个体水平的二项参数\(\theta_i\)先验来自群体分布,使用Stan实现MCMC采样。
- 假设检验:对\(\theta\)的后验evaluate HPD区间是否包含0.5;计算贝叶斯因子(Savage-Dickey密度比法)。
- 异质性分析:计算个体后验概率\(\Pr(\theta_i > 0.5)\),以及个体间方差的后验分布。
- 练习效应分析:将练习次数作为协变量加入逻辑层次模型,估计系数。
- 关键跳跃点:无。统计工具为标准方法。
- 技术技巧点名:使用Bayes factor (Savage-Dickey ratio) 和放宽模型为Beta-Binomial;层次建模用HMC(Stan)避免解析不便;未使用高阶推理技巧。因此本文的技术含量对统计计算研究者较低,但实验设计(大规模、双盲、随机化起始面)值得借鉴。
真实例子与应用¶
- 数据:46名志愿者,每人200-10000次抛掷不等(总350757次),每位受试者独立执行程序化流程(手机应用记录)。
- 方法应用:直接套用层次贝叶斯模型到每人的同侧计数序列。也按时间顺序分块分析练习效应。
- 结果:上已述。
- 例子想说明:①物理模型预测可被大规模实证支持;②贝叶斯因子对极大数据集依然有效(不出现p值灾难);③人类行为有异质性,统计分析不能假设同质。
🔎 结论是否比证明窄¶
本文没有泛泛 claim “所有人为抛掷都如此”——明确指出“some (but not all) people”及练习效应。结论范围严格基于人的抛掷行为,未机械推广。唯一可能过宽的叙述是“people flip coins”限定于该实验使用的特定抛掷方式(拇指弹动,记录为“为满足DHM模型,规定抛掷方法为拇指弹起而非手腕甩动”),但未必写入public abstract中。
四、开放问题¶
-
个体异质性的物理来源:本文未测量角速度、高度、释放角度等力学变量,这些变量如何影响同侧偏倚的大小?能否通过影像分析或运动传感器验证DHM模型更精细的预测(如偏倚与滞空时间的关系)?(扎根于:文中“between-people variation”和“practice effect”部分,未给出机制解释。)
-
先验敏感性:虽然作者称鲁棒性检验已做(未展示),但贝叶斯因子在极大样本下对先验形状敏感度如何?特别地,若采用更宽的\(\theta\)先验(如Beta(0.5,0.5)),BF是否仍保持数量级?是否可能出现对H0支持?这是一个检验贝叶斯因子行为的基本问题。(扎根于:方法部分“We used weakly informative priors”的未声明具体敏感性分析结果。)
-
非独立抛掷建模:有些人可能连续抛掷时出现序列相关(如手臂肌肉记忆),但本文假设独立。若存在短期记忆效应,模型应推广为隐马尔可夫或自回归过程。可检验DHM模型在非独立抛掷序列下的预测。(扎根于:模型假设“each flip is independent”未在数据中验证。)
-
更高阶交互:练习效应是否与个体基线偏倚大小交互?即偏倚大者练习改善更明显?可用分层交互模型检验。(扎根于:文中“practice effect”斜率在所有个体上固定,未允许异质性斜率。)
Maintained by 陈星宇 · Homepage · Source on GitHub