A historical overview of textbook presentations of statistical science¶
作者: Alan Agresti
来源: Scandinavian Journal of Statistics
主题: 其他
相关性: 1/10
机构绿灯: University of Florida(US News 前 50,免分进入精读)
链接: https://doi.org/10.1111/sjos.12641
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的是统计学教科书呈现方式的历史演化——具体来说,是在 1900–1970 年间,英语统计学教材如何从"手把手教科学家做实验/分析数据"的实用指南型,转变为以数学定理和严格推导为核心的理论学科型,并在后期迎来了贝叶斯学派的教科书法理介入。这个子方向是科学史/学术史而非方法论研究,及其成熟度:已有大量独立传记、分主题回顾,本文的特点是将教科书本身作为载体,通过哪本书何时出现、用了什么符号、安排了什么章节结构、被谁读、被谁续写来刻画学科结构的变迁。不是 counting citations,而是 counting textbooks and their table of contents。
发展脉络(history)¶
奠基工作:George Udny Yule (1911, An Introduction to the Theory of Statistics)——第一本真正系统性覆盖描述统计、相关、回归与生命表的英语教材。Yule 本人是 Karl Pearson 的学生,书中大量采用 Pearson 的符号(矩母函数、四分位差、χ² 检验),但相比 Pearson 的艰深原作,Yule 的书写得更清晰、可传授,经过 14 版延续到 M.G. Kendall 手中。
主要进展(1920s–1940s)——两个并行分支:
-
教师 / 科学家手册:R.A. Fisher (1925, Statistical Methods for Research Workers) 与 George Snedecor (1937, Statistical Methods)——前者定义了"教科书应该教 t-检验、F-检验、方差分析、实验设计"的范式,后者则把 Fisher 的数学语言转化成农业科学家的日常指导。Agresti 引用 Fisher 原版序言:"The practical man has been compelled to pay attention to them [statistical methods]... but those who have desired to study them have found themselves faced with a body of mathematical theory which is too formidable in appearance." ——Fisher 的替代方案就是写一本没有公式推导、只有工作流程的实用书。
-
理论数学统计:Maurice Kendall (1943, The Advanced Theory of Statistics)、Samuel Wilks (1944, Mathematical Statistics)、Harald Cramér (1946, Mathematical Methods of Statistics) 几乎在二战同期爆发,把统计学从"指导手册"变成"理论学科"。Cramér 的书尤其关键:它首次在教科书中系统使用测度论基础、概率论的 Kolmogorov 公理、大样本渐近理论来组织统计推断。Agresti 引 Cramér 原话:"The theory of statistics is a branch of applied mathematics."
当前 frontier / 本文位置:1970s 后,贝叶斯学派教材(Jeffreys 1939 / 1961;Savage 1954;Box & Tiao 1973)崛起;David Cox 从 1958 起跨越多种专题(实验设计、生存分析、因果、逻辑回归)写系列专著。Agresti 把本文定位在"对 1900-1970 之间的英语教材做一次梳理和分类,并以 Cox 的专题书作为这个时代之后的结束——不是理论创新,而是为后续研究(比如数据科学时代教科书设计)提供历史参照"。作者没有制造"缺口"或"不足",而是直接说:"关于贝叶斯 / 数据科学对教材的影响,已有更专门的文献——本文不打算替代它们。"
子线索聚类¶
- 线索 1. "实践导向"教科书—— Fisher、Snedecor、后续的 Cochran & Cox (1957)、Steel & Torrie (1960) 等,目标用户是农业 / 生物 / 心理学者。内容围绕实验设计、方差分析、多重比较,几乎不给收敛性证明。多数书有大量数值例子和手工计算表格。
- 线索 2. "理论数学统计"教科书—— Cramér、Wilks、Lehmann (1959, Testing Statistical Hypotheses)、Fraser (1957, Nonparametric Methods in Statistics) 等,以 Wald 决策理论 + Neyman-Pearson 引理 + 渐近理论 为主线,大量采用极限分布、连续校正、Cramér–von Mises 等理论工具。目标读者是数学系研究生。
- 线索 3. "贝叶斯教科书"—— Jeffreys (1939/1961)、Savage (1954/1972)、Box & Tiao (1973) ——在理论数学统计之外另立一脉,以主观概率、先验分布、后验分布为框架,与频率学派在假设检验与区间估计立场上有根本分歧。但 1970 年之前,贝叶斯教科书数量极少、影响力集中在理论层面,到 Box & Tiao 才真正用于数据分析。
- 线索 4. "应用专题"教科书—— David Cox 在 1958–2000 年间写的约 15 本书:每本针对一个特定应用域(生存分析、二分类数据、时间序列、因果、等),风格是在数学推导与算例之间维持平衡,不刻意全面,而是"足够使读者能在自己研究中使用"。Agresti 特别指出 Cox 经常采用"example–data analysis–mathematical justification"的递进结构,与纯理论书的"theorem–proof"相反。
这个方向在追问的核心问题¶
- 统计学应当作为「数学分支学科」还是「交叉科学研究方法论」来呈现?——Cramér (1946) 与 Fisher (1925) 给出了根本不同的答案。教科书的选择塑造了后代研究者对学科本质的看法。
- 贝叶斯方法何时、如何进入主流教材?——频率学派在 1930–1960 年占据绝对主导,Jeffreys 和 Savage 的早期贝叶斯书几乎被忽视,直到 1980s 后 Markov chain Monte Carlo 成熟才被大规模吸收。教科书滞后于研究文献约 15-20 年。
- 数据科学时代,传统统计基础教科书的 chapter structure 应该保留什么、调整什么?——Agresti 在文末提出但没有展开,只说"想想哪些章节是历史遗产、哪些是死活不能删的"。
⚠️ 作者的 framing¶
- 作者明确是什么:这是一个学科史叙事,不是方法论文献综述,也不是教科书比较评价。作者说"我关心的是 what was presented, not whether it was good"。
- 作者回避了什么:完全没有讨论日本、德国、俄语等其他语言的教科书生态(比如 Kolmogorov 本人的教材、Efron 在斯坦福的非课程教材)。也没有讨论教科书 vs 学期论文 / 讲义手稿的界限——许多统计课程的基本内容是口传而非成书的。
- 什么明显该存在、却没出现:Karl Pearson 本人的《Grammar of Science》(1892),作为早期统计哲学教科书,却完全没有被列入。Pearson 对"统计是什么"的哲学框架(变异是自然常态、概率是长期频率、科学只能做描述性概括)在 Fisher 和 Neyman 之前就有极大的学科影响。Yule 的书从 Pearson 出发,但教科书史里没有专门讨论这本 Grammar。这是一个值得研究者去查的问题——作者是刻意忽略,还是认为它属于哲学而非统计学?
张力¶
鉴于本文是历史综述而非对立引用展示,被引文献间不存在"在相同设定下得到相反结论"的冲突。但有一处可视为隐性张力:Fisher 与 Neyman 在假设检验的立场(Fisher: P-value 仅作为证据强度,无 accept/reject;Neyman: 固定显著性水平、行为决策)。在教科书呈现中,1940–1960 间的所有频率学派教科书几乎都采用了 Neyman-Pearson 的形式框架(两类错误、检验功效),但多数书(如 Snedecor、Cochran & Cox)仍然保留了 Fisher 的"显著性水平"表述而无严格的 accept/reject 结构。这两套话语在同一个书里共存——这到底是一种智识上的折衷还是作者本人没意识到冲突?值得研究。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号与模型的交代
本文是历史综述,非技术论文,没有统计模型、记号体系或可观测数据定义。因此我们在这里只需建立"最小化的观察单元":
- 研究对象:一本统计教科书 \( B \)。
- 可观测维度:
- 出版年份 \( t \)
- 主题分类(实践/理论/贝叶斯/应用专题)
- 章节结构(是否有测度论基础、是否引入决策理论、是否有真实数据算例)
- 被引频次(在本领域内的引用模式)
- 再版次数、翻译情况
- 无法直接观测的东西:
- 作者在写书时的教学 / 职业意图
- 实际使用这本书的教师如何理解 / 调整书中内容
- 学生/读者的真实理解程度
第二步:最小内核——"一本书的改变意味着什么?"
把"统计教科书演进"理解为这样一个最简过程:
- 在时间轴上放置两本代表性书:\( B_1 = \text{Yule (1911)} \),\( B_2 = \text{Cramér (1946)} \)。
- 问一个精简问题:如果 Yule 本人看到 Cramér 的书,他会不会认为两人写的是同一个学科?
-
提示观察:Yule 的书从"相关、回归、偏相关、χ²检验"开始,先给画图,再给公式,然后直接给例子;章节之间没有严格的定理-证明结构。Cramér 的书从"概率空间、σ-代数、分布函数、特征函数"开始,用新的一套符号和推理体系把整个统计推断组织成"概率论的特例"。
-
核心变化究竟是什么:教科书从 "如何做" 转换为 "在什么假设下做是合法的,其渐近优度是什么"。Cramér 把"一个检验在有限样本中不总是精确"这件事正式化,引入了渐近相对效率(Asymptotic Relative Efficiency, ARE)的概念。这就回了 Neyman-Pearson 引理之后的一步——教科书从"这个检验效果好吗?"变成"这个检验的 ARE 相对于最优检验是多少?"
这就是整篇综述的核心观察:在 1940s 的几条线同时交汇——Kolmogorov 公理化概率论、Neyman-Pearson 假设检验的决策化、Cramér 大样本理论——使得统计教科书的底层语言在 1946 年 Cramér 的书出版后彻底改变。后面的书(Lehmann、Ferguson、Bickel & Doksum)只是在这个新地基上盖房间。
三、这篇论文做了什么¶
三句话:① 本文梳理并分类了 1900–1970 年间英语统计教材的演化,聚焦 Yule–Fisher–Snedecor 的实践线、Cramér–Wilks–Kendall 的理论数学线、Jeffreys–Savage 的贝叶斯线、以及 Cox 的应用专题线。② 核心方法是历史学/文献分类的笛卡尔式归纳——按出版时间线 + 书的结构特征 + 作者学派归属来组织叙事,不采用任何定量统计方法、建模或假设检验。③ 核心结论:1940–1946 年间 Cramér、Kendall、Wilks 三本书同时出现标志着统计学教科书从"科学家手册"正式转变为"应用数学分支";这个转变至今仍塑造着当前统计系的研究生课程结构。
关键设定与假设¶
由于本文是史述,其"假设"完全是史料处理上的: - 语言限定:只讨论英语教材,不讨论翻译、非母语作者写的英语教材(如 Cramér 是瑞典人,但书原本就是英文写的)。 - 时期选择:1900–1970 是教科书格局形成期;1970s 之后的贝叶斯 / 数据科学书被放在 "后续发展" 一节略述,不作为主体。 - 定义:"教科书"指自成系统的独立著作,不包括会议录、讲义、百科全书。 - 叙事边界:作者在第一节就说了:"This article is not a review of the changing content of statistics or of the major research contributions. It is about how the subject has been presented in textbooks." ——这意味着作者不判断某一本教科书是否"正确",只判断它的教学表征是否有代表性。
主要结果¶
本文没有定理、证明、公式;"主要结果"体现为可陈述的趋势性观察:
- Yule–Fisher–Snedecor 构成了一个持续传播链:Yule (1911) → Fisher (1925) 增加了小样本 t 检验和方差分析 → Snedecor (1937) 将 Fisher 的数学放大为农业工作者可读的表格与下拉菜单式的计算公式。Snedecor 的书是美国农部/大学统计教学的实际标准,持续到 1970s。
- Cramér (1946) 在教科书中引入概率论公理化:Cramér 是第一个在教科书中正面处理 Kolmogorov 公理、大数律、中心极限定理的英语作者。书中甚至有测度论附录(但是现在也被认为是"过于数学化的桎梏")。此后的 Lehmann、Ferguson 等书全部在 Cramér 的地基上。
- 贝叶斯教科书在 1970 年之前基本无影响:Jeffreys 的书 (1939) 在应用领域被大量引用(尤其是频率学派的反驳文),但作为教科书几乎没有大学采用;Savage (1954) 更是极其理论化(全是主观概率公理和博弈论等价性论证),直到 De Finetti 和 Lindley 的后续工作才让贝叶斯教材能够作为可教学材料出现。
- Cox 的书覆盖专题极广但极精简:Agresti 分别列了几本(Planning of Experiments, Analysis of Binary Data, Survival Analysis, Applied Statistics 等),指出 Cox 风格的共同特性:每本书 200 页左右、几乎没有长的证明、大量用"technical appendix"处理复杂推导、其他内容全是直觉+例子+数据分析。
- 教科书章节结构在 1970s 后开始趋同:"概率论基础—抽样分布—点估计—区间估计—假设检验—回归/ANOVA—非参数"这条主线被几乎所有数学统计教材继承,直到数据科学引入新章节(机器学习、高维、因果推断等)。
证明路线与技术技巧¶
本文将统计教科书演化视为一种集体智力事件,其"路线"是叙事线而不是证明线:
- 步骤 1. 划定时间轴:纵向分断(1900–1918, 1919–1939, 1940–1970),每段选择 2-3 本标志性书。
- 步骤 2. 分类维度:横向按三条线(实践手册 / 理论数学 / 贝叶斯)展开,再在每条线中按时间顺序连接。
- 步骤 3. 关键转折点:指出 Cramér (1946) 出版的时机——二战结束不久、数学家开始统计理论教材的需求增加、美国 NSF 资助项目的早期阶段——使这本书被大规模采用。Wilks 和 Kendall 的书在同一时期也抢占市场,但 Cramér 的覆盖面和数学组织最完整。
- 步骤 4. 对比分析:对于每一本主要教科书,Agresti 都大致给出了:章节目录、与先前书的符号/假设改变、作为教材的受欢迎程度(印次和翻译数据)。
- 步骤 5. 画地标:Cox 的专题书被选为全文的"结束点"——因为 Cox 的书更强调应用与理论的交汇,作为 1970s 之后各种专题教科书的典范。Agresti 说:"Cox's books mark the transition from general-purpose textbooks to focused monographs for specific fields."
关键跳跃点:本文没有需要绕过去的数学难点。它的"跳跃"是从单个教科书描述跳跃到学科叙事——这本质上是一个叙事建构(narrative construction)问题,而非数学问题。
真实例子与应用¶
本文是纯史述,无真实例子或模拟实验。但 Agresti 自身是 Categorical Data Analysis (1990/2002/2012) 的作者——他把自己放在最后一节作为"当代教科书作者的反思"。他说:"Writing a textbook in the 21st century requires a balance between depth and breadth, theory and application, which is harder than ever."
🔎 结论是否比证明窄¶
因为本文没有具体的数学结论,所以不存在"证明比结论窄"的问题。但值得指出一点:Agresti 做出的一个claim是"1946 年前后教科书结构发生了根本转变"。这个 claim 有大量例证(Cramér 的书与 Yule 的书对比),但没有定量证据(比如用自然语言处理分析 10 本教科书的内容相似度、或在大学课程大纲中的出现频率)。所以这个 claim 虽然看起来可信,但它不是一个被严格检验的假说,而是一个史学家叙事工作。如果有人想做更严谨的"教科书变迁计量分析",那么 Agresti 这篇文章相当于提供了一个 list of source candidates 和 claim outline,但非证明。
四、开放问题(点到为止,扎根具体语句)¶
-
可检验一个命题: 被引经典教材(如 Cramér 1946)是否真的改变了教科书实践,还是只是被少数强大学术机构采用、其余地方仍在使用 Snedecor 或 Fisher?——Agresti 说"these books guided the subsequent development of mathematical statistics teaching"(§4),但没有给出教科书使用覆盖率的证据。去查各大学 1950–1970 年的课程阅读清单是一种验证方式。
-
地标转换: 谁把教科书"假设检验"一节从 Fisher 的"显著性水平加 P 值"转变为 Neyman-Pearson 的"两类错误和功效函数"?——Agresti 明确说战后教科书都采用了 Neyman-Pearson 框架但保留 Fisher 的 "speak"(§5),但没有确定哪本是第一本完全采用 Neyman-Pearson 符号的。查 Lehmann (1959) 序言 + 其他教材序言可以找到线索。
-
贝叶斯教科书的真正传播方式: 是 Jeffreys/Savage 的直接作品起的作用大,还是 1960s–1970s 的 De Finetti 与 Lindley 的讲座/翻译起的作用大?——Agresti 说"Box & Tiao (1973) was the first Bayesian book that could be used in a standard statistics curriculum."(§6),那 Jeffreys (1939) 失败在何处?去读 Jeffreys 序言 + 当时几篇书评可以验证。
-
数据科学时代的基础教材结构: Agresti 在结语(§8)说"Maybe the introductory statistics course should start with exploration and visualization, not with probability."——但他没有展开手动。这是一个开放议题,适合统计教育研究者而非数学研究者。
所有四点建议的共同建议:如果要去确认第一、第三、第四是否真是值得做的 gap,去读同方向最近 5 年出版的 3-4 篇统计教育史论文或相关 Editorial,看它们是否都指向同一个未解决的问题。如果一致,则真 gap;如果互相打架,则是机会。
Maintained by 陈星宇 · Homepage · Source on GitHub