聚合：从表格和均值到最小二乘 | 统计学七支柱( 四 ) _统计

这块泥板代表的内容相当于一个2 × 3的列联表，显示了两种类型的商品计数，可能是两种作物3年内的产量（加上了现代的数字）。顶上一行显示了6个单元格，商品符号显示在相应的计数之上。第二行是年份或者列的总计，第三行是两种作物行的总计，底部是全体的合计值。今天我们会以不同方式重列这些数字，如表1-1所示。

文章插图

表1-1　苏美尔人泥板文书数字记录的列联表形式
统计分析没有保存下来，但可以确定其中不包括卡方检验。我们能说的是，这块泥板展现了那个时代的高水平统计智慧，但它没有离个别数据值走得太远：不仅表格主体展现了每年所有作物的计数，泥板背面还给出了这些计数依赖的原始数据、个体生产者的个数。甚至5000年前就有人认为公开原始数据是有用的！
数据统计的科学分析始于何时呢？算术平均值的使用是什么时候变为统计分析的一个正式组成部分的？真的没有在17世纪以前很久吗？为什么更早的时代没有用均值对天文、调查和经济进行组合观测？古代的均值数学是众所周知的。毕达哥拉斯学派在公元前280年已经了解均值的3种类型：算术平均值、几何平均值和调和平均值。公元1000年时，哲学家波伊修斯将均值数量提高到了至少10种，包括毕达哥拉斯的3种在内。不可否认，这些均值是在哲学意义下展开的，主要用于讨论线段的比例，以及音乐，而非用于数据总结。
我们当然可以期待，古希腊人、古罗马人或者古埃及人早在2000多年前日复一日的生活中，就已经摸索出对数据取均值。又或者他们并没有这样做，但可以肯定的是，早在1000年前的阿拉伯科学的杰出天文研究中，就可以找到均值。但是，哪怕只是想在这些来源中找到一个证据充分的例子，费尽心血广泛搜索之后，也总是免不了落空。
针对早期使用均值的历史，最坚定的搜索者是不屈不挠的研究者邱吉尔·艾森哈特，他在国家标准局度过了大部分职业生涯。数十年间，艾森哈特一直追踪均值的历史应用，并在1971年美国统计学会的主席演讲中总结了自己的研究。他热情洋溢地演讲了近2小时，但他发现的对于所有均值的相关使用工作、有证据表明使用均值的最早工作等，就是我前面提到过的由D. B. 和盖里布兰德做出的。艾森哈特发现，希帕克（大约公元前150年）以及托勒密（大约公元150年）对自己的统计方法默不作声，而阿尔-比鲁尼（大约公元1000年）则使用通过二分最小值和最大值之差产生的数——并不接近均值。均值很早就出现在印度的应用几何中，婆罗摩及多在公元628年写的一本关于测量的小册子中有这样的建议：处理挖掘问题时，要使用与挖掘平均规模相一致的长方体当作不规则挖掘量的近似值。
所有这些年代的历史证据表明，人们收集了许多类型的数据。某些情况下，不可避免需要概括。如果不使用平均值，人们需要做什么以进行总结呢？选定单个数字进行报告吗？我们先看几个例子，其中运用了类似于均值的概念，看完之后也许会更好地理解前统计时代人们是怎样看这些问题的。
修昔底德讲过一个关于攻城梯的故事，发生在公元前428年：

文章插图

修昔底德描述了所谓“众数”（mode ，最频繁报告的值）的使用。因为计数过程缺失独立性的预期，众数并不非常精确。但如果报告非常接近，那它就和任何其他概括一样好。修昔底德并没有给出数据。
另一个很晚的例子来自16世纪早期，由雅各布·科贝尔在一本关于测量的图文并茂的书中提到。科贝尔说，那个时代土地测量的基本单位用一根16英尺长的木棒来确定。而且，当时的1英尺（foot）真的表示一只脚长，但是谁的脚呢？肯定不是国王的脚，也不是每次上台都会要求重新商定土地合约的新君主的脚。科贝尔说到的解决方案简单而优雅：在教堂礼拜之后留下16位市民代表（那时都是男性），他们鞋头对着鞋跟，站成一条线，这条线的长度就是那根16英尺木棒的长度。科贝尔的图片由他自己蚀刻，是一幅解释艺术的杰作（如图1-7所示）。