聚合:从表格和均值到最小二乘 | 统计学七支柱( 三 )


半个多世纪之后的1634年 , 格雷山姆学院天文学教授盖里布兰德重温了这个问题(如图1-3所示) 。12年前 , 他在格雷山姆学院的前任埃德蒙·甘特在莱姆豪斯重复了布劳的实验 , 得到磁针变化的8个测定值 。结果范围大约是6° , 与布劳的11又1/4°相去甚远 。甘特是一位杰出的观测者 , 但他缺乏将这个结果推广成一项发现的想象力 , 而将这个矛盾之处归结为布劳的错误 。盖里布兰德对布劳极为尊敬 , 因此并不支持这种观点 , 他遗憾地写道:“这种巨大的差异使得我们当中某些人过早地中伤了布劳先生的观测(虽然某些仅仅是借口) 。”盖里布兰德试着调整布劳关于太阳视差的数字 , 使用了第谷·布拉赫的一个方法 , 布劳时代还没有这个方法 , 但是发现影响可以忽略(比如 , 布劳对于20°高度角的值是11°22又1/2′ , 变成了大约11°32又1/2′) 。于是 , 盖里布兰德开始使用昂贵的新设备(包括一个代替星盘的六英尺四分仪)在德特福德进行观测 , 这里是泰晤士河南岸 , 与莱姆豪斯隔河相望 , 并位于同一经度 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-3 盖里布兰德小册子的封面(参见Gellibrand 1635)
1634年6月12日 , 盖里布兰德采用基于第谷表格的方法 , 分别做出了磁针变化的11个测定:5个在上午 , 6个在下午(如图1-4所示) 。最大的是4°12' , 最小的是3°55' 。他总结说:

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-4 盖里布兰德的数据和“算术平均值”的出现(参见Gellibrand 1635)
那么 , 盖里布兰德报告的“均值”并不是所有11个观测的算术平均值——4°5' 。相反 , 他给出了最大值和最小值的平均值 , 也就是后世统计学家们所说的“中点” , 所以并不引人注目 。尽管这是两个观测值的算术平均 , 但好像也没有其他方式可以生成两个数中间的数值了 。事实上 , 早年的天文学家们面对两个值只需要取一个时 , 已经使用了算术平均或者类似的计算 。可以确定 , 第谷和开普勒在17世纪早期 , 甚至阿尔-比鲁尼可能在公元1000年前后就使用了算术平均或者类似的计算 。不过 , 盖里布兰德给所用的方法起了一个名字 , 这个术语是他工作的新颖之处 。古人其实也了解这个名词 , 但看来没有人认为真有必要把它用于自己的著作中 。
观测的统计分析确已进入新阶段 , 一个标志是1668年英国《皇家学会会刊》中的一个简短注记 , 其内容还是与磁针的变化有关 。编辑亨利·奥尔登伯格刊登了某位姓名简写为D. B. 的人的信件摘录 , 其中给出了布里斯托尔附近的某个位置磁针变化产生的5个值(如图1-5所示) 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

【聚合:从表格和均值到最小二乘 | 统计学七支柱】图1-5 D. B. 信件公开的部分(参见D. B. 1668)
D. B. 报告了斯特米船长的总结:“采用这张表格的时候 , 他注意到最大距离或差异是14′ 。因此 , 他对真正的变化取均值 , 并推断在当时当地 , 即1666年6月13日的变化 , 仅为1°27′ 。”尽管真实的均值是1°27.8' , 并且斯特米船长(或者数学家斯特恩莱德)做了向下舍去 , 但无论如何都很明显 , 到17世纪的最后三十多年 , 算术平均值已经受到正式认可 , 成为组合观测的一种方法 。它的诞生时间也许永远是个谜 , 但其诞生事实似乎无可辩驳 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

1.2 古代的聚合统计概括与书写一样拥有悠久的历史 。图1-6是一块大约公元前3000年(与书写的起源时间很接近)的苏美尔人的泥板文书复原品 , 由芝加哥大学东方研究所的同事克里斯·伍兹向我展示 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-6 一块大约公元前3000年的苏美尔人泥板文书重现 , 添加了现代的数字(由罗伯特·英格伦复原 , 参见Englund 1998, 第63页)