聚合:从表格和均值到最小二乘 | 统计学七支柱( 七 )



聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-10 博斯科维奇的5个弧长数据 。各列(用我们的记号)对 i = 1~5的每个弧给出了维度Li(用°表示)、sin2 Li [ = 1/2·(1 - cosLi ) = 1/2·versin Li ]、Ai(hexapedae , 用突阿斯表示的长度)、Ai - A1的差、使用弧1和5的解的差 , 以及这些差之间的差 。好望角的sin2 L值应该是3014 , 而不是2987(参见Boscovich 1757)

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-11 博斯科维奇计算的10对弧 , 对应每对弧都给出极地超额y以及椭圆率e = 3y/z 。(2, 4)和(1, 3)的椭圆率印刷有误 , 应该是1/1282和1/178 。(1, 4)的数字有误 , 应该是560和1/304(Boscovich 1757)
博斯科维奇现在进退两难 。5个测量的弧不一致 , 他应该随便选择其中一对并接受这个结果吗?恰恰相反 , 他创造了一种真正新颖的聚合方法 , 给出了综合5种结果后的客观答案 。博斯科维奇认为 , 数据中最不可靠的要素就是弧的测量 。这些弧需要在极端困难的环境下仔细测量 , 从巴黎和罗马附近的森林到非洲之角 , 再到拉普兰的冰冻苔原 , 以及世界另一端的厄瓜多尔平原 。而且 , 几乎不可能为了进行检查而重复这些测量 。根据方程A = z + ysin2L , 博斯科维奇进行了如下推理:z 和y 的每个选择都隐含着A的一个对应值 , 并且这个值和观测值的差可以认为是一种调整 , 需要对观测的A进行这种调整以使测量匹配方程 。所有可能的z 和y中 , 隐含着“寻找调整绝对值总和的最小值”的目的 , 还假定选出的z 和y 与各个A的均值和各个L 的均值相一致 。博斯科维奇给出了一种聪明的算法求解最佳值 , 就是现在所谓“线性规划问题”的早期实例 。对于这5个弧 , 根据他的方法求出的答案为:z = 56 751、y = 692、e = 1/246 。
接下来的半个世纪 , 人们提出了多种方法 , 通过某种聚合形式整合不同条件下不一致的测量 。最成功的方法是最小二乘法 , 它在形式上是观测的加权平均 , 而优势是很容易扩展为其他更复杂的形式 , 从而决定多个未知量 。1805年 , 阿德里安-玛丽·勒让德首次公布了这种方法——在一本解释如何确定彗星轨道的书中 。勒让德给出了说明测定地球椭圆率的例子 , 采用的测量是法国大革命之后定义“米”的长度的方法 。这些数据给出的椭圆率是1/148 , 这个数值很大 。但由于弧的范围更短(只有10°的纬度 , 全在法国之内) , 并且与其他值不一致 , 因此人们认为它还不如早期从赤道到拉普兰范围内的测量 。所以 , 最终的“米”是基于不同考察的混合值而决定的 。
聚合具有多种形式——从简单的加总到不透明抽检的现代算法 。但是 , 使用概括取代完全枚举个体观测的原则 , 和通过选择性地丢弃信息以获取信息的原则 , 都是一脉相承的 。