Two fully specified Bayes factors for hypothesis testing and sensitivity analysis in process tracing¶

作者: Matias L\'opez, Jake Bowers, Daniel Gajardo Cooper
主题: 数理统计 / 假设检验
相关性: 7/10
链接: https://arxiv.org/abs/2606.16683

一、领域脉络与小综述¶

这个方向是什么¶

该子方向致力于解决政治科学中定性过程追踪（Process Tracing） 研究的假设检验与证据量化问题。其根本的统计问题是：在只有一个或少量案例的定性研究中，研究者如何用概率语言定量地比较两个相互竞争的因果假设（工作理论 H1 与竞争理论 HR）对同一组定性证据（如访谈记录、档案文件）的解释力度？当前该领域的成熟度较低，核心争议集中在如何避免人工赋值的偏差。

发展脉络¶

奠基工作——引入量化框架：定性过程追踪的传统运用比喻性的证据测试类型学（如“吸烟枪测试”，Van Evera 1997; Collier 2011）。Fairfield and Charman（2022） 提出用贝叶斯因子来总结过程追踪中的定性证据。他们要求研究者手动指定每个证据相对于某个假设的似然比（通过分贝值量化），然后把乘积作为总贝叶斯因子。这是一个标志性进展，将概率推理引入定性研究。
主要进展——识别主观偏差的危险：Zaks（2021） 尖锐批评认为，Fairfield and Charman 的方法允许研究者通过操纵“手动赋值”（如高估吸烟枪证据的分贝值）来人为地膨胀贝叶斯因子，从而夸大结论的确定性。她呼应了统计学的经典批评：贝叶斯因子对先验的选择极其敏感（Jeffreys-Lindley 悖论，Lindley 1957）。Bennett, Charman, and Fairfield（2022） 与 Zaks（2022） 就变种方案进行了辩论，但核心问题——缺乏正式的概率模型——并未解决。
当前 Frontier——走向正式生成模型：为了彻底代替人工赋值，本论文的作者提出，从完全指定的生成模型出发，直接推导出证据在某个假设下的概率。这种思路在应用统计中有先例，但在政治科学定性分析中属于创新。同时，Humphreys and Jacobs（2023） 采用了不同的路线：他们通过整合对案例背后因果结构的不确定性来进行贝叶斯推理，而非像作者一样专注于“数据生成过程”。
本文的位置：本文自称是解决“缺乏完全指定概率模型”这一核心缺口的“显然下一步”。它以Fairfield and Charman的框架为出发点和主要批评靶子，提出两个具体的生成模型（二项式和超几何分布），并强调其保守性构造（尽可能有利于竞争理论），从而使贝叶斯因子成为敏感性分析的起点而非终点。

子线索聚类¶

线索 A：定性研究中的贝叶斯推理（Bayesianism in Qualitative Research） 该簇工作共同关注如何将贝叶斯逻辑引入过程追踪。核心工作包括 Fairfield and Charman（2022）、Zaks（2021， 2022）、Bennett（2008）、和Barrenechea and Mahoney（2019）。该簇主要辩论“如何”以及“是否应该”使用贝叶斯因子，争论焦点在概率的赋值方式和潜在偏差。本文直接从这个辩论生长出来。
线索 B：贝叶斯因子的正式理论与模型设定 该簇来自统计文献，探讨贝叶斯因子的数学性质及其对模型和先验的敏感性。代表是 Jeffreys（1961） 和 Kass and Raftery（1995）。本文的二项式贝叶斯因子直接复用Kass和Raftery的复合假设贝叶斯因子定义。
线索 C：过程追踪中的证据加权与测试类型 Fairfield and Charman（2022） 和 Van Evera（1997） 讨论了如何为“吸烟枪”这类高权重证据赋值。本文的加权方案（将权重视为有效重复）是对该传统的量化回应。
线索 D：案例研究与因果推断的其他统计方法 Humphreys and Jacobs（2023）、Glynn and Ichino（2015） 代表另一种路径：将定性信息与因果推断的结构方程模型或反事实框架结合。本文宣称自己与他们的不同在于关注数据生成过程，而非案例本身的知识。

这个方向在追问的核心问题¶

如何避免“人工赋值”带来的操控与偏差？ （Zaks 2021 的核心关切）
如何对定性证据的“概率”做形式化定义，使其同时包含先验信息和观测信息？ （从Fairfield & Charman的手动似然比到本文的生成模型）
在定性研究的设定下（非重复抽样、证据可能相关），哪些基本的概率模型是合理的？ （二项式和超几何模型是作者的选择，但独立性假设是关键争议）
如何确保结论的稳健性，而非仅仅依赖贝叶斯因子的数值？

⚠️ 作者的 Framing¶

作者把缺口 frame 成：Fairfield和Charman要求研究者手动指定概率导致了严重的偏见和不可仲裁的争议。因此，他们的方法不是概率建模，而是“比照力度”。本文填补的缺口是“缺乏完全指定概率模型”，所以“推出两个显式生成模型”就是“显然的下一步”。
被淡化或回避的竞争路线：
1. Humphreys and Jacobs（2023）的集成推理。作者只提了一句“我们与他们不同”，但没有详细讨论他们的“因果结构模型”路线。该路线可能更符合因果推断的主流（如DAGs、结构方程），而作者选择完全避开因果识别问题，只处理纯粹的概率比较。这是一个重要的回避：作者把因果效应问题简化为一个符号化的“证据-假设”匹配问题，不涉及潜在结果或结构因果方程。
2. 非贝叶斯方法。作者没有讨论p值、Frequentist假设检验、或E-values作为敏感性分析的工具。尽管他们提到了Lindley悖论，但没有比较贝叶斯因子与p值的实践差异。
3. 机器学习赋能的自动化编码。尽管其实验用了AI，但论文框架完全没有涉及如何使用自然语言处理或更复杂的统计模型来自动、客观地编码证据。这是未来可能的一个重要竞争方向。
明显该被引/存在却没被引入的：无。intro涵盖的文献比较全，是该子领域的标准主题（Bayesian process tracing + 一般批评）。

张力¶

未见明显对立引用。不存在两篇论文在类似条件下得出相反结论的情况。主要张力存在于 Fairfield and Charman（2022）（支持贝叶斯因子）与 Zaks（2021）（批评操作中的偏差）之间，但这不是统计结论的矛盾，而是对方法论规范的不同看法。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- 𝐻1：工作理论（working theory），即研究者偏好的假设（例如：精英选择导致了民主崩溃）。
- 𝐻𝑅：竞争理论（rival theory），要与之比较的另一个假设（例如：制度失败导致了民主崩溃）。
- 𝐸：观测到的证据集合（例如：12个由访谈、档案文件构成的观测）。
- 𝜃：二项式模型中的一个连续参数，代表支持工作理论 𝐻1 的证据在可能证据池中的比例。它是该模型要估的对象（实际被积分掉的随机变量）。
- 𝑁：总观测数（例如12）。
- 𝑘：支持𝐻1的观测数（例如9）。
- 𝑟：支持𝐻𝑅的观测数（例如3）。满足 𝑁 = 𝑘 + 𝑟。
- (𝑘， 𝑟)：证据计数（论文中最核心的随机观测）。
- 𝜔 > 1：观测偏差乘子。表示在搜索过程中，发现一个支持 𝐻1 的观测比发现一个支持 𝐻𝑅 的观测容易多少倍。
- 𝑤𝑖：给第 i 个观测的证据权重，论文限定为正整数。处理吸烟枪证据。
- 𝑊：加权后的“虚拟观测”数，若一个吸烟枪权重为10，它算10个支持𝐻1的虚拟观测。
- 𝐻𝑒1和𝐸𝐻𝑒𝑅分布：不引入，纯符号逻辑。
模型：
- 二项式（Binomial）模型：适用于开放式证据池（如通过持续采访可能获得大量证据）。模型假设每个观测都是独立的，以概率 𝜃 支持 𝐻1，以概率 1-𝜃 支持 𝐻𝑅。未知参数 𝜃 上施加了均匀先验 𝜃 ~ Uniform(0， 1)。
- 超几何（Hypergeometric）模型：适用于封闭式证据池（如一次性查完的一个有限档案）。模型假设整个证据池包含 𝑀 个单位的证据，其中 𝑎 个支持 𝐻1，𝑏 个支持 𝐻𝑅。研究者不重复抽取地观测了 𝑁 个证据。超几何分布描述这种“不放回抽样”下的计数概率。
可观测数据：研究者实际能观测到的是一个被手动编码并分类好的证据列表。每个证据（一份文件、一个访谈记录）被研究者标记为“支持 𝐻1”或“支持 𝐻𝑅”。所以可观测到的量就是计数 (𝑘， 𝑟)。然而，研究者无法直接观测到：
1. 证据池的真实大小和真实组成（即 𝜃 或 (𝑎， 𝑏)）。
2. 搜索过程是否有偏差（即 𝜔 的大小）。
3. 每个证据的“真实”概率，研究者只有赋值（对概率的信念）。论文认为，赋值不等于概率，而模型可以产出概率。

第二步：讲最小内核¶

支撑整篇论文的核心是所有检验的定性理论竞争性解释的最简例子，本质上是一个 单一特例推广：它把“手算似然比”的Fairfield-Charman框架推广到“从概率模型导贝叶斯因子”，并用二项式模型的积分作为展示。

最简特例：二项式模型下的“单一案例，简单计数”

设定：假设一个政治学者正在研究“国家A的民主崩溃”。她有两个竞争理论：
- 𝐻1：是精英们的自我保护行为（通过阴谋推举独裁者）导致了民主崩溃。
- 𝐻𝑅：是制度的脆弱性导致了民主崩溃。
观测数据：她从采访和档案中收集了12个证据。她手动将这些证据分类：认为9个支持 𝐻1（k=9），3个支持 𝐻𝑅（r=3）。所以可观测数据为 (N=12， k=9)。
模型：她认为证据池是开放式的（她可以在未来进行更多采访），故使用二项式模型。她在 𝜃 上施加均匀先验。
核心计算：贝叶斯因子 = p(证据 | H1) / p(证据 | HR)。但 𝐻1 和 𝐻𝑅 不是单个值，而是 𝜃 的区域：
- 𝐻1 对应于 𝜃 > 0.5 （支持精英的证据多于支持制度的证据）。
- 𝐻𝑅 对应于 𝜃 ≤ 0.5。
- 所以，论文核心计算的是 BF = p(𝜃 > 0.5 | 证据) / p(𝜃 ≤ 0.5 | 证据)。在有均匀先验的条件下，这个比值等于先验的后验比，且后验密度是 Beta(k+1， N-k+1) = Beta(10， 4) 分布。
在这个特例下的结果：
- 计算 p(θ > 0.5 | 证据) 是Beta(10,4)密度函数在区间(0.5, 1]下的积分。
- 与 p(θ ≤ 0.5 | 证据) 在区间[0, 0.5]下的积分相比。
- 结果为：后验概率： p(H1 | Evidence) ≈ 0.95， p(HR | Evidence) ≈ 0.05， BF ≈ 21。（见论文Fig. 3）
为什么成立：因为从观测的 k=9/12 推断，数据的最大似然值大约在 θ̂ = 0.75。均匀先验加上这个观测，后验密度自然集中到 θ > 0.5一侧，导致比值远大于1。
核心困难：这一特例的关键数学困难在于，如何为“证据概率”建立一个数学上闭合、合理且不自欺欺人的生成模型。如果像Fairfield和Charman那样手动给每个证据定一个似然比，则必然面临Zaks所批评的偏差。本文的突破口是：放弃为每个证据手动赋值，改为为一个“证据池”或“证据生成过程”建立显式数学假设，从而将证据概率计算标准化。

这个特例清晰地展示了本文的核心思路： ① 指定一个生成模型（这里是二项式 + 均匀先验）；② 将竞争的假设（H1 vs HR）转化为模型参数（θ）的不同区域；③ 通过积分计算后验概率，得到贝叶斯因子；④ 引入观测偏差、权重、编码错误等参数，将这个贝叶斯因子变成一个可以做敏感性分析的工具。

三、这篇论文做了什么¶

三句话¶

研究问题：针对定性过程追踪研究的假设检验问题，提出两种基于完全指定生成模型的贝叶斯因子（二项式型和超几何型），以替代传统手动赋值的贝叶斯因子。
核心方法：通过将工作理论与竞争理论分别表示为生成模型（二项式模型的θ区间与超几何模型的特定组成），并统一引入观测偏差（ω）和证据权重（w）作为敏感性分析的参数，从而使贝叶斯因子从“结论”变成了“鲁棒性测试工具”。
主要结论：在6个已发表的案例上的应用表明，最终结论主要由敏感性分析的阈值（如“需要多少观测偏差才能翻转结论”）驱动，而非贝叶斯因子的绝对值。结论的稳健性因案例而异：有些结论在微小编码错误下就会翻转，有些则有很大余量。

关键设定与假设¶

标记：在第二节最小记号的基础上补全：
- 可观测数据的假设：论文假定研究者已经辛苦地把定性证据编码成了二分类计数（支持H1 vs 支持HR）。这是论文几乎唯一的“人工”输入，并且作者通过保守的双人编码合并规则（仅当两编码者均同意时才计入计数）来应对该输入的不确定性。
- 生成模型的关键假设：
  - 独立性：所有证据被假设为相互独立。“独立性是一个工作理想化，在定性的许多设定下，这是一个合理的近似”（引自Fairfield和Charman， 2022， p. 116）。作者在本文中也承认这是一个限制。
  - 无观测偏差（原假设）：搜索过程不偏向任何一方，即支持H1和HR的证据有相同概率被发现。这个用数学语言表示就是ω=1。
  - 无权重偏差（原假设）：所有证据权重为1（wi=1）。
- 关键参数的定义：
  - 观测偏差 (ω)：一个乘子，作用于支持H1证据被发现与支持HR证据被发现的基本几率的比值上。当 ω > 1时，意味着更容易发现支持H1的证据（可能源于选择性存档、研究者的确认偏差等）。
  - 证据权重 (w)：正整数值，将一条证据视为w个标准证据，用于处理“吸烟枪证据”。
- 相比已有文献的放宽与强化：
  - 相比 Fairfield & Charman (2022)：强加了“正式概率模型”的结构，减少了研究者手动赋值的主观性，是更严格的设定。同时，引入了观测偏差参数化 ω，将敏感性分析从讨论手段变为定量工具。
  - 相比 Zaks (2021)：承认并定量化了“偏差”——Zaks的攻击点不再是模糊的担忧，而是ω的精确数值。这是重要的进步：将定性问题转化为定量问题。

主要结果¶

论文的核心结果是两个数学模型（二项式和超几何）以及一套敏感性分析框架。

定理 1 (二项式模型的后验密度)：给定均匀先验和观测 (N， k)，θ的后验密度是 Beta(k+1， N-k+1)。这个结果在教科书级别，但论文此处做了一个显式推导来支持其论证。
- 直觉：这一步为后验概率的计算提供了封闭形式（积分表达）。难点被消除——Beta分布的后验分位数很容易通过 pbeta() 函数得到。
- 必要条件：独立性假设 + 均匀先验。
- 解决的技术难点：将“复合假设”（θ > 0.5）的后验概率转化为一个对一个已知分布（Beta）做积分的问题。
定理 2 (二项式模型的先验敏感性-加法性)：任何 Beta(α， β) 先验都等价于在观察数据前加入了 (α+β - 2) 个伪观测，其中 (α-1) 个支持H1。
- 直觉：先验敏感性分析变成了一种“伪观测”的附加观测。这使得判断委托更直观；研究者可以问“哪个方向的背景案例数量偏差大到足以改变结论？”。
- 必要条件：先验是Beta分布族（共轭先验）。
- 解决的技术难点：将抽象的“先验敏感性”线性化为易于理解的“再添加x个支持HR的伪观察之后再编译贝叶斯因子”。
定理 3 (超几何模型的保守性)：在竞争理论占据主导的组成 (k， k+c) 中， c=1（即支持H1和HR的计数刚好持平时，且给竞争者一方多一个支持H1的观测）是贝叶斯因子最小的设定。这意味着在所有“竞争者假设，且竞争者理论至少略微优胜于工作理论”的模型家族中，本论文构造的那个最有利于竞争者的模型给出了最小的贝叶斯因子，因此是最保守的结论。
- 直觉：这保证了报告的超几何贝叶斯因子是一个下界，对于工作理论来说是极端不利的假设。假设任何让竞争理论优势更明显的模型（c>1，竞争者手中的“H1”证据更多），虚假设观测到的证据（更多支持H1的观测）就会显得更不寻常，观察到这些数据的竞争理论的概率就会更低，从而导致更大的贝叶斯因子（更有利于H1）。
- 必要条件：竞争理论的组成必须是 (k， k+c) 形式，即“支持竞争理论”的证据恰好比“支持工作理论”多 c个。这依赖于假设1（固定观测到的计数）。
- 解决的技术难点：为一个有限证据池中“竞争理论有利”到底意味着什么提供了精确的数学定义，并证明了论文所选构造的保守性。

证明路线与技术技巧¶

整体路线：
1. 模型构建：依据证据池的开放性（二项式）或封闭性（超几何）构建两个生成模型。
2. 后验推导：利用贝叶斯公式和共轭先验，引导出参数（θ或 (a, b)）的后验分布。
3. 保守性论证：对超几何模型，通过假设3（固定观测计数）和定理3（在给定结论下，选择一个使得竞争理论看起来最有利的临界值c=1，从而得到贝叶斯因子的反复验证性下界）来证明其构造的保守性。对二项式模型，通过均匀先验和分位数积分保证了一定的保守性，但不保证最坏情况下的保守。
4. 敏感性分析的扩展：将观测偏差、证据权重、编码错误的参数化引入后验/边际似然计算，形成一个敏感性分析泵。
关键跳跃点：
- 跳跃1：从“手动似然比”到“生成模型” 这是论证该论文的数学跳跃。困难在于激励生成模型的假设（独立性、信息观）。论文通过强调“模型使得偏差可量化”来克服这个跳跃。它用观测误差bias参数ω体现。
- 跳跃2：在超几何模型中确定最佳构造 (k, k+1)。这里的困难在于定义竞争理论的“合理区间”。论文通过定理3和Diaconis & Freedman的“有限可交换性定理”来跨越这个跳跃，论证c=1是最合理的定义，这要求竞争理论不是保持中立（c=0，持平等怀疑立场），而是做出一个“至少略优”的微小肯定声明。
技术技巧点名：
- Beta-Binomial 共轭性：利用二项式似然和Beta先验的共轭性，解析得到后验Beta分布，从而避免数值积分中的困难。
- 伪观测 / 先验加法性：利用Beta族的加法性打通先验敏感性分析和观察数据的差异，使得先验越强，效应越量化。
- 超几何分布的临界值分析：通过构造 (k, k+c) 系列并证明 c=1 使竞争理论最可能来建立保守下界，不需整体优化。
- 有限可交换性（Diaconis & Freedman）：证明超几何模型下贝叶斯因子不依赖于竞争理论中的先验分布，只要对观测计数条件。
- 非中心超几何分布（Fisher）：将观测偏差参数 ω 显式地引入概率计算（似然函数），从而将敏感性分析从定性讨论变成数值查询。

真实例子与应用¶

论文使用6个已发表的、来自顶级政治科学期刊的过程追踪研究作为真实数据应用。

数据/场景：
1. Winward (2021)：1960年代印尼的大规模暴力。封闭档案。同位比较。
2. Steinsson (2024)：Wikipedia的内部治理与信息信任危机。开放案例，继续产生记录。
3. Mor (2022)：19世纪普鲁士的选举政治。封闭档案。
4. Andersen (2024)：斯堪的纳维亚和平农业改革。封闭档案。
5. Hammoud-Gallego and Freier (2023)：拉丁美洲难民法的自由化。开放案例（跨国研究，定性部分）。
6. Pavone and Stiansen (2022)：挪威2019年社会福利改革——法官的阴影效应。封闭档案（一个案例，两种竞争解释）。
如何运用：
- 研究者独立用AI编码者给所有证据分类。
- 一个“偏慈善的编码者”按作者原意编码，一个“疑心的编码者”寻找证据反对H1。
- 仅当两编码者都同意时才记入计数（k， r）。
- 为每个案例匹配上适当的模型（二项式或超几何）。
- 计算基本贝叶斯因子，并做敏感性分析（ω，编码错误，权重）。
得到什么结果：
- 所有6个案例在对应的模型下，加权/未加权的原始贝叶斯因子均高于阈值20（至少有一个颇有优势）。
- 然而，当一个案例（Pavone & Stiansen）若不加上吸烟枪证据（此处是一封信），其贝叶斯因子仅有4.16，低于阈值。敏感分析显示：“这封信至少权重4.51”才能达到结论的阈值。
- 最终的ω⋆（观察偏差翻转量）差异很大，从1.01到6.55不等；例如，Pavone & Stiansen只有权重w=10后才经得起ω=3.08的检验，而Winward的结果需ω=6.55才翻倍。
这个例子想说明：
- 框架的应用性：能被广泛应用于不同定性研究设计（单案例、小N比较、混合方法）。
- 结论由敏感性驱动：一个看似“强烈”的贝叶斯因子（比如 P&R 的 4.16 太小）会揭示哪些结论需要证据权重或能经受更强偏差。相反，稳健的案例（如 Winward， ω=6.55）大篇幅的检验才奏效。
- 框架的实用性：为定性研究的同行评审提供了新的对话议题。以前是“你觉得这个证据多强？”，现在是“你的结论在多大偏差下会反转？”

🔎 结论是否比证明窄¶

是，论文的结论有被夸大的嫌疑。
- 文中结论：作者在结论（Discussion and Conclusion）第六段开篇就说：“框架没有提供类型错误率保证……保守性限制在特定模型家族，而非所有规格，……独立性是假设……框架不处理依赖……”。
- 更窄的具体限制：
  - “下界保证”仅限于超几何：作者在结果部分结为“我们报告的是超几何贝叶斯因子下的保守性下界”。但二项式模型（分析师在证据池大型时才用）并没有这样的下界保证。作者的挪用表现在文中声称“两种模型都使我们对结果有保守解读”，但二项式模型的统一先验根本不是最坏的——它只是“默认”而非“下界”。在二项式模型的敏感度分析中，参数 c 没有被论证为“下界”。
  - 排除随机抽样：作者在超几何模型部分假设“观测是固定的，未考虑随机抽取概率模型”。“观测是不可复现的”这一假设确保了它的“保守”，但这是以放弃频率学派推断（p值、置信区间）为代价的。这是对结论的狭窄化。
  - “吸烟枪”权重的局限：写作展现了“吸烟枪”一封信无法用统计意义判断其是否为实。在 Pavone & Stiansen 的应用里，到 w=4.51 阈值才成立，而加该权重没有理论推导的支持——它是由研究者人工制定的。这在Zaks的批评中被重新注入了主观性。
  - 排除多重竞争理论：论文在结论中承认了，他们的设定要求选择一个竞争理论，而过程追踪往往涉及一系列竞争。但例子如Steinsson（2024）有4个竞争理论，但他们被分别对待吗？不，似乎被压缩成简报：只取其中之一与H1比。这在正式讨论中被掩盖了。
- 总结性声明：相较于论文干净利落的“用完全指定模型替代了手动赋值”的初印象，它的实际结论更窄：它只是在特定模型家族、固定编码与权重假设下，讨论观测偏差的敏感度。当存在竞争理论的群、依赖结构，作者就“指出一个未来论文”解决。

四、开放问题（点到为止，扎根具体语句）¶

如何处理证据之间的依赖性？ （§6: “依赖可以像观测偏差一样起作用……一个建立依赖观测过程模型的模型是另一篇论文的主题。”）。扎根处：独立性假设是整个框架的弱点，尤其对于同一个档案的多份文件。
如何将框架扩展到多个竞争理论？ （§6 “……过程追踪常常使用一系列竞争理论，” 但他们没有处理。对 Steinsson （2024）的4个竞争者的代码似乎简单地上按“一个”来处理。扎根处：§6最后一句结尾的限定：“……系列竞争理论” 可能被回避了。
超几何模型的“保守下界”是否真的全局保守？ （§6： “保守性是在特定模型家族内，不是全局下界。” ）。换句话说，一个对竞争理论更有利的c值（如c=0）虽然不被假设1所禁止，但可能是更合理的保守选择？论文论证了c=1是“竞争者理论略优于”的最小正要求（“最弱的积极声明”）。但Strict Null（严谨/竞争无知状态）也许同样合理——它的c=0（完全持平），却给出更大的贝叶斯因子。该假设在统计上可以通过官方给出的 S = 2k+1 和本文Lemma 1中 R <= W+1 的限制来回避，但对定性研究使用者很难。这个问题是论文以“零假设”的方式回避的一个令人不快的人口统计。
贝叶斯因子与p值或E值的比较（Lindley悖论）。论文写“a Bayesian posterior probability of H_R ... is a different quantity from a frequentist Type I error rate, even when the two coincide in numerical value”（§3.4第1条注释。但他们并没有处理何时这两种量值得出矛盾结论。如果数据在 p=0.04（支持H1）但BF=10，何如？Lindley悖论可类比于此。对统计密集的行动者（如你）来说，这种细微但潜在的自相矛盾是正是Gelman（2013）评级的核心，是隐含的弱点——论文没有展开）。扎根处：§3.4脚注10只把它标为一个“门”，并未解决。

Maintained by 陈星宇 · Homepage · Source on GitHub