A historical overview of textbook presentations of statistical science¶

作者: Alan Agresti
来源: Scandinavian Journal of Statistics
主题: 其他
相关性: 1/10
机构绿灯: University of Florida（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12641

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的是统计学教科书呈现方式的历史演化——具体来说，是在 1900–1970 年间，英语统计学教材如何从"手把手教科学家做实验/分析数据"的实用指南型，转变为以数学定理和严格推导为核心的理论学科型，并在后期迎来了贝叶斯学派的教科书法理介入。这个子方向是科学史/学术史而非方法论研究，及其成熟度：已有大量独立传记、分主题回顾，本文的特点是将教科书本身作为载体，通过哪本书何时出现、用了什么符号、安排了什么章节结构、被谁读、被谁续写来刻画学科结构的变迁。不是 counting citations，而是 counting textbooks and their table of contents。

发展脉络（history）¶

奠基工作：George Udny Yule (1911, An Introduction to the Theory of Statistics)——第一本真正系统性覆盖描述统计、相关、回归与生命表的英语教材。Yule 本人是 Karl Pearson 的学生，书中大量采用 Pearson 的符号（矩母函数、四分位差、χ² 检验），但相比 Pearson 的艰深原作，Yule 的书写得更清晰、可传授，经过 14 版延续到 M.G. Kendall 手中。

主要进展（1920s–1940s）——两个并行分支：

教师 / 科学家手册：R.A. Fisher (1925, Statistical Methods for Research Workers) 与 George Snedecor (1937, Statistical Methods)——前者定义了"教科书应该教 t-检验、F-检验、方差分析、实验设计"的范式，后者则把 Fisher 的数学语言转化成农业科学家的日常指导。Agresti 引用 Fisher 原版序言："The practical man has been compelled to pay attention to them [statistical methods]... but those who have desired to study them have found themselves faced with a body of mathematical theory which is too formidable in appearance." ——Fisher 的替代方案就是写一本没有公式推导、只有工作流程的实用书。
理论数学统计：Maurice Kendall (1943, The Advanced Theory of Statistics)、Samuel Wilks (1944, Mathematical Statistics)、Harald Cramér (1946, Mathematical Methods of Statistics) 几乎在二战同期爆发，把统计学从"指导手册"变成"理论学科"。Cramér 的书尤其关键：它首次在教科书中系统使用测度论基础、概率论的 Kolmogorov 公理、大样本渐近理论来组织统计推断。Agresti 引 Cramér 原话："The theory of statistics is a branch of applied mathematics."

当前 frontier / 本文位置：1970s 后，贝叶斯学派教材（Jeffreys 1939 / 1961；Savage 1954；Box & Tiao 1973）崛起；David Cox 从 1958 起跨越多种专题（实验设计、生存分析、因果、逻辑回归）写系列专著。Agresti 把本文定位在"对 1900-1970 之间的英语教材做一次梳理和分类，并以 Cox 的专题书作为这个时代之后的结束——不是理论创新，而是为后续研究（比如数据科学时代教科书设计）提供历史参照"。作者没有制造"缺口"或"不足"，而是直接说："关于贝叶斯 / 数据科学对教材的影响，已有更专门的文献——本文不打算替代它们。"

子线索聚类¶

线索 1. "实践导向"教科书—— Fisher、Snedecor、后续的 Cochran & Cox (1957)、Steel & Torrie (1960) 等，目标用户是农业 / 生物 / 心理学者。内容围绕实验设计、方差分析、多重比较，几乎不给收敛性证明。多数书有大量数值例子和手工计算表格。
线索 2. "理论数学统计"教科书—— Cramér、Wilks、Lehmann (1959, Testing Statistical Hypotheses)、Fraser (1957, Nonparametric Methods in Statistics) 等，以 Wald 决策理论 + Neyman-Pearson 引理 + 渐近理论 为主线，大量采用极限分布、连续校正、Cramér–von Mises 等理论工具。目标读者是数学系研究生。
线索 3. "贝叶斯教科书"—— Jeffreys (1939/1961)、Savage (1954/1972)、Box & Tiao (1973) ——在理论数学统计之外另立一脉，以主观概率、先验分布、后验分布为框架，与频率学派在假设检验与区间估计立场上有根本分歧。但 1970 年之前，贝叶斯教科书数量极少、影响力集中在理论层面，到 Box & Tiao 才真正用于数据分析。
线索 4. "应用专题"教科书—— David Cox 在 1958–2000 年间写的约 15 本书：每本针对一个特定应用域（生存分析、二分类数据、时间序列、因果、等），风格是在数学推导与算例之间维持平衡，不刻意全面，而是"足够使读者能在自己研究中使用"。Agresti 特别指出 Cox 经常采用"example–data analysis–mathematical justification"的递进结构，与纯理论书的"theorem–proof"相反。

这个方向在追问的核心问题¶

统计学应当作为「数学分支学科」还是「交叉科学研究方法论」来呈现？——Cramér (1946) 与 Fisher (1925) 给出了根本不同的答案。教科书的选择塑造了后代研究者对学科本质的看法。
贝叶斯方法何时、如何进入主流教材？——频率学派在 1930–1960 年占据绝对主导，Jeffreys 和 Savage 的早期贝叶斯书几乎被忽视，直到 1980s 后 Markov chain Monte Carlo 成熟才被大规模吸收。教科书滞后于研究文献约 15-20 年。
数据科学时代，传统统计基础教科书的 chapter structure 应该保留什么、调整什么？——Agresti 在文末提出但没有展开，只说"想想哪些章节是历史遗产、哪些是死活不能删的"。

⚠️ 作者的 framing¶

作者明确是什么：这是一个学科史叙事，不是方法论文献综述，也不是教科书比较评价。作者说"我关心的是 what was presented, not whether it was good"。
作者回避了什么：完全没有讨论日本、德国、俄语等其他语言的教科书生态（比如 Kolmogorov 本人的教材、Efron 在斯坦福的非课程教材）。也没有讨论教科书 vs 学期论文 / 讲义手稿的界限——许多统计课程的基本内容是口传而非成书的。
什么明显该存在、却没出现：Karl Pearson 本人的《Grammar of Science》(1892)，作为早期统计哲学教科书，却完全没有被列入。Pearson 对"统计是什么"的哲学框架（变异是自然常态、概率是长期频率、科学只能做描述性概括）在 Fisher 和 Neyman 之前就有极大的学科影响。Yule 的书从 Pearson 出发，但教科书史里没有专门讨论这本 Grammar。这是一个值得研究者去查的问题——作者是刻意忽略，还是认为它属于哲学而非统计学？

张力¶

鉴于本文是历史综述而非对立引用展示，被引文献间不存在"在相同设定下得到相反结论"的冲突。但有一处可视为隐性张力：Fisher 与 Neyman 在假设检验的立场（Fisher: P-value 仅作为证据强度，无 accept/reject；Neyman: 固定显著性水平、行为决策）。在教科书呈现中，1940–1960 间的所有频率学派教科书几乎都采用了 Neyman-Pearson 的形式框架（两类错误、检验功效），但多数书（如 Snedecor、Cochran & Cox）仍然保留了 Fisher 的"显著性水平"表述而无严格的 accept/reject 结构。这两套话语在同一个书里共存——这到底是一种智识上的折衷还是作者本人没意识到冲突？值得研究。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号与模型的交代

本文是历史综述，非技术论文，没有统计模型、记号体系或可观测数据定义。因此我们在这里只需建立"最小化的观察单元"：

研究对象：一本统计教科书 \( B \)。
可观测维度：
出版年份 \( t \)
主题分类（实践/理论/贝叶斯/应用专题）
章节结构（是否有测度论基础、是否引入决策理论、是否有真实数据算例）
被引频次（在本领域内的引用模式）
再版次数、翻译情况
无法直接观测的东西：
作者在写书时的教学 / 职业意图
实际使用这本书的教师如何理解 / 调整书中内容
学生/读者的真实理解程度

第二步：最小内核——"一本书的改变意味着什么？"

把"统计教科书演进"理解为这样一个最简过程：

在时间轴上放置两本代表性书：\( B_1 = \text{Yule (1911)} \)，\( B_2 = \text{Cramér (1946)} \)。
问一个精简问题：如果 Yule 本人看到 Cramér 的书，他会不会认为两人写的是同一个学科？
提示观察：Yule 的书从"相关、回归、偏相关、χ²检验"开始，先给画图，再给公式，然后直接给例子；章节之间没有严格的定理-证明结构。Cramér 的书从"概率空间、σ-代数、分布函数、特征函数"开始，用新的一套符号和推理体系把整个统计推断组织成"概率论的特例"。
核心变化究竟是什么：教科书从 "如何做" 转换为 "在什么假设下做是合法的，其渐近优度是什么"。Cramér 把"一个检验在有限样本中不总是精确"这件事正式化，引入了渐近相对效率（Asymptotic Relative Efficiency, ARE）的概念。这就回了 Neyman-Pearson 引理之后的一步——教科书从"这个检验效果好吗？"变成"这个检验的 ARE 相对于最优检验是多少？"

这就是整篇综述的核心观察：在 1940s 的几条线同时交汇——Kolmogorov 公理化概率论、Neyman-Pearson 假设检验的决策化、Cramér 大样本理论——使得统计教科书的底层语言在 1946 年 Cramér 的书出版后彻底改变。后面的书（Lehmann、Ferguson、Bickel & Doksum）只是在这个新地基上盖房间。

三、这篇论文做了什么¶

三句话：① 本文梳理并分类了 1900–1970 年间英语统计教材的演化，聚焦 Yule–Fisher–Snedecor 的实践线、Cramér–Wilks–Kendall 的理论数学线、Jeffreys–Savage 的贝叶斯线、以及 Cox 的应用专题线。② 核心方法是历史学/文献分类的笛卡尔式归纳——按出版时间线 + 书的结构特征 + 作者学派归属来组织叙事，不采用任何定量统计方法、建模或假设检验。③ 核心结论：1940–1946 年间 Cramér、Kendall、Wilks 三本书同时出现标志着统计学教科书从"科学家手册"正式转变为"应用数学分支"；这个转变至今仍塑造着当前统计系的研究生课程结构。

关键设定与假设¶

由于本文是史述，其"假设"完全是史料处理上的： - 语言限定：只讨论英语教材，不讨论翻译、非母语作者写的英语教材（如 Cramér 是瑞典人，但书原本就是英文写的）。 - 时期选择：1900–1970 是教科书格局形成期；1970s 之后的贝叶斯 / 数据科学书被放在 "后续发展" 一节略述，不作为主体。 - 定义："教科书"指自成系统的独立著作，不包括会议录、讲义、百科全书。 - 叙事边界：作者在第一节就说了："This article is not a review of the changing content of statistics or of the major research contributions. It is about how the subject has been presented in textbooks." ——这意味着作者不判断某一本教科书是否"正确"，只判断它的教学表征是否有代表性。

主要结果¶

本文没有定理、证明、公式；"主要结果"体现为可陈述的趋势性观察：

Yule–Fisher–Snedecor 构成了一个持续传播链：Yule (1911) → Fisher (1925) 增加了小样本 t 检验和方差分析 → Snedecor (1937) 将 Fisher 的数学放大为农业工作者可读的表格与下拉菜单式的计算公式。Snedecor 的书是美国农部/大学统计教学的实际标准，持续到 1970s。
Cramér (1946) 在教科书中引入概率论公理化：Cramér 是第一个在教科书中正面处理 Kolmogorov 公理、大数律、中心极限定理的英语作者。书中甚至有测度论附录（但是现在也被认为是"过于数学化的桎梏"）。此后的 Lehmann、Ferguson 等书全部在 Cramér 的地基上。
贝叶斯教科书在 1970 年之前基本无影响：Jeffreys 的书 (1939) 在应用领域被大量引用（尤其是频率学派的反驳文），但作为教科书几乎没有大学采用；Savage (1954) 更是极其理论化（全是主观概率公理和博弈论等价性论证），直到 De Finetti 和 Lindley 的后续工作才让贝叶斯教材能够作为可教学材料出现。
Cox 的书覆盖专题极广但极精简：Agresti 分别列了几本（Planning of Experiments, Analysis of Binary Data, Survival Analysis, Applied Statistics 等），指出 Cox 风格的共同特性：每本书 200 页左右、几乎没有长的证明、大量用"technical appendix"处理复杂推导、其他内容全是直觉+例子+数据分析。
教科书章节结构在 1970s 后开始趋同："概率论基础—抽样分布—点估计—区间估计—假设检验—回归/ANOVA—非参数"这条主线被几乎所有数学统计教材继承，直到数据科学引入新章节（机器学习、高维、因果推断等）。

证明路线与技术技巧¶

本文将统计教科书演化视为一种集体智力事件，其"路线"是叙事线而不是证明线：

步骤 1. 划定时间轴：纵向分断（1900–1918, 1919–1939, 1940–1970），每段选择 2-3 本标志性书。
步骤 2. 分类维度：横向按三条线（实践手册 / 理论数学 / 贝叶斯）展开，再在每条线中按时间顺序连接。
步骤 3. 关键转折点：指出 Cramér (1946) 出版的时机——二战结束不久、数学家开始统计理论教材的需求增加、美国 NSF 资助项目的早期阶段——使这本书被大规模采用。Wilks 和 Kendall 的书在同一时期也抢占市场，但 Cramér 的覆盖面和数学组织最完整。
步骤 4. 对比分析：对于每一本主要教科书，Agresti 都大致给出了：章节目录、与先前书的符号/假设改变、作为教材的受欢迎程度（印次和翻译数据）。
步骤 5. 画地标：Cox 的专题书被选为全文的"结束点"——因为 Cox 的书更强调应用与理论的交汇，作为 1970s 之后各种专题教科书的典范。Agresti 说："Cox's books mark the transition from general-purpose textbooks to focused monographs for specific fields."

关键跳跃点：本文没有需要绕过去的数学难点。它的"跳跃"是从单个教科书描述跳跃到学科叙事——这本质上是一个叙事建构（narrative construction）问题，而非数学问题。

真实例子与应用¶

本文是纯史述，无真实例子或模拟实验。但 Agresti 自身是 Categorical Data Analysis (1990/2002/2012) 的作者——他把自己放在最后一节作为"当代教科书作者的反思"。他说："Writing a textbook in the 21st century requires a balance between depth and breadth, theory and application, which is harder than ever."

🔎 结论是否比证明窄¶

因为本文没有具体的数学结论，所以不存在"证明比结论窄"的问题。但值得指出一点：Agresti 做出的一个claim是"1946 年前后教科书结构发生了根本转变"。这个 claim 有大量例证（Cramér 的书与 Yule 的书对比），但没有定量证据（比如用自然语言处理分析 10 本教科书的内容相似度、或在大学课程大纲中的出现频率）。所以这个 claim 虽然看起来可信，但它不是一个被严格检验的假说，而是一个史学家叙事工作。如果有人想做更严谨的"教科书变迁计量分析"，那么 Agresti 这篇文章相当于提供了一个 list of source candidates 和 claim outline，但非证明。

四、开放问题（点到为止，扎根具体语句）¶

可检验一个命题： 被引经典教材（如 Cramér 1946）是否真的改变了教科书实践，还是只是被少数强大学术机构采用、其余地方仍在使用 Snedecor 或 Fisher？——Agresti 说"these books guided the subsequent development of mathematical statistics teaching"（§4），但没有给出教科书使用覆盖率的证据。去查各大学 1950–1970 年的课程阅读清单是一种验证方式。
地标转换： 谁把教科书"假设检验"一节从 Fisher 的"显著性水平加 P 值"转变为 Neyman-Pearson 的"两类错误和功效函数"？——Agresti 明确说战后教科书都采用了 Neyman-Pearson 框架但保留 Fisher 的 "speak"（§5），但没有确定哪本是第一本完全采用 Neyman-Pearson 符号的。查 Lehmann (1959) 序言 + 其他教材序言可以找到线索。
贝叶斯教科书的真正传播方式： 是 Jeffreys/Savage 的直接作品起的作用大，还是 1960s–1970s 的 De Finetti 与 Lindley 的讲座/翻译起的作用大？——Agresti 说"Box & Tiao (1973) was the first Bayesian book that could be used in a standard statistics curriculum."（§6），那 Jeffreys (1939) 失败在何处？去读 Jeffreys 序言 + 当时几篇书评可以验证。
数据科学时代的基础教材结构： Agresti 在结语（§8）说"Maybe the introductory statistics course should start with exploration and visualization, not with probability."——但他没有展开手动。这是一个开放议题，适合统计教育研究者而非数学研究者。

所有四点建议的共同建议：如果要去确认第一、第三、第四是否真是值得做的 gap，去读同方向最近 5 年出版的 3-4 篇统计教育史论文或相关 Editorial，看它们是否都指向同一个未解决的问题。如果一致，则真 gap；如果互相打架，则是机会。

Maintained by 陈星宇 · Homepage · Source on GitHub