聚合:从表格和均值到最小二乘 | 统计学七支柱

第一根支柱——聚合 , 不仅最古老 , 也最激进 。在19世纪 , 它被称为“观测的组合” 。这种说法表达的思想是:把数据集中的个体值进行统计汇总 , 概括出的信息可以超越个体 。统计学的整体概括大于各部分的加总 。样本均值就是这样一个例子 , 它是较早就被大家重视的一门技术 , 同样的思想也反映在其他一些汇总指标上 , 比如加权均值 , 甚至最小二乘在本质上也是一种基于个体数据值的特征进行加权或调整的平均值 。
在分析中 , 对数据以任何形式取均值都是一个相当激进的步骤 , 因为取均值会丢弃数据中的信息 , 让每个观测值失去个性:测量的顺序和不同的产生环境 , 包括观测者的身份 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

1874年曾有一次万众瞩目的“金星凌日” , 是1769年以来的第一次 , 因此许多国家都向最佳观测位置派遣了远征队 。获知凌日开始与结束的确切时间 , 可以帮助精准确定太阳系的规模 。不同城市的观测人员提供的观测报告能相似到使均值有意义吗?这些观测是由技术水平不同的人 , 使用不同的设备 , 在不同的地点和稍有不同的凌日发生时间做出的 。就此而言 , 如果单个观测者连续观测一颗恒星的位置 , 切实感受每次抖动、停顿和心烦意乱 , 是否足以拿来取均值呢?在古代甚至现代 , 对每个观测环境过于熟悉会打消组合观测的意愿 , 人们忍不住要去选择那个认为是最好的观测 , 而不会用其他疑为较差的观测值来跟它求均值 。
即便在取均值的方法变得司空见惯之后 , 人们也不见得总能接受“信息少即是多”的想法 。19世纪60年代 , 威廉姆·斯坦利·杰文斯提出 , 通过价格指数来测量价格水平的变动 , 也就是采用不同商品价格变动的百分比的均值 , 就有批评人士认为 , 把生铁和胡椒的价格放在一起取均值非常荒谬 。并且 , 一旦讨论到某个商品 , 这些历史知识渊博的研究者们总会认为 , 他们可以借助某个特定事件发生的缘由故事“解释”这个商品的每个变动和波动 。1869年 , 杰文斯强烈谴责了这种理由:“如果每个波动都需要复杂的解释 , 那么不仅这个主题的所有相关探索都没有希望 , 而且还得放弃那些依赖数值事实的完整统计和社会科学 。”这并不是说讲述数据的故事错了 , 而是说数据(以及单独观测的个体特点)需要置于背景之中 。如果需要揭示一般性的趋势 , 那么必须将观测视为一个集合 , 必须把它们组合起来 。
豪尔赫·路易斯·博尔赫斯理解这一点 。他于1942年出版了奇幻短篇小说《博闻强识的富内斯》 , 其中描述了一个叫作伊雷内奥·富内斯的人 。一次事故后 , 富内斯发现自己几乎能记住所有事情 。他能以最微小的细节重新建构每一天 , 甚至以后能再重复这次重构 , 但他缺乏理解能力 。博尔赫斯写道:“思维是忘却差异 , 是归纳 , 是抽象化 。而富内斯的拥塞世界中仅仅充斥着触手可及的细节 。”汇总产生的益处大于个体 。富内斯正是没有经过统计处理的大数据 。
算术均值是什么时候开始用于概括数据集的?又是在什么时候受到广泛采用的?这两个问题相当不同 。第一个问题也许没有答案 , 理由随后会讲 。第二个问题似乎在17世纪的某段时间得到了答案 , 但无法确定精准日期 。为了更好地理解测量和涉及的这种报告问题 , 我们来看一个有趣的例子 , 它的内容包括了可能最早使用“算术平均”这种说法的出版例子 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

1.1 指针的变化到1500年 , 热爱冒险的水手日益增多 , 他们把磁罗盘或“指针”当作必备工具 。无论在任何地方和任何天气情况下 , 指南针都可以读出“磁北” 。更早的一个世纪以前 , 人们就已经公认“磁北”与真正的北方有差异;而1500年 , 人们还认识到 , 真正的北方和“磁北”之间的差异会随着地点变动 。差异数量通常比较可观——10° , 也许偏东 , 也许偏西 。当时 , 人们相信原因是海边缺乏磁引力 , 所以指南针的偏差指向大陆而偏离海洋 。因此 , 需要通过指南针的修正找到真正的北方 , 这称为“指针的变化” 。那时 , 一些航行地图会在关键位置 , 比如通航的海峡或者海上可见的显著标志 , 标注这种修正的已知大小 , 水手们信任这些记录的偏差 。威廉·吉尔伯特1600年出版了地磁学经典著作《论磁》 , 其中给出报告:只要地球稳定 , 就可以信赖每个位置的变化的恒定性 , “因为磁针总是偏向东或者偏向西 , 所以即使在今天 , 无论在任何地点或区域 , 无论是海洋或陆地 , 变化弧度都保持相同 。因此 , 除非发生大陆崩塌和国家湮灭 , 就像柏拉图和其他古代作家所讲的亚特兰蒂斯地区那样 , 否则它将永远不变” 。