聚合:从表格和均值到最小二乘 | 统计学七支柱( 五 )



聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

图1-7 科贝尔关于确定一根合法木棒的描述(Kobel 1522)
这真是一根“社区的”木棒!而且 , 这根木棒确定以后 , 又细分为16个相等的部分 , 每个部分都表示这根公共木棒中单只脚(即1英尺)的度量 。从功能角度讲 , 这就是16个人的脚长的算术平均值 , 但“均值”这个术语在任何地方都未提及 。
这两个例子相隔大约2000年 , 但它们都涉及一个共同问题:如何概括一组相似但不完全相同的测量 。每种情况中 , 解决问题的方式反映了组合涉及的智力困难 , 这种困难到今天依然存在 。在古代和中世纪 , 每当需要概括不同数据时 , 人们便选择个别的例子 。修昔底德的故事中 , 被选中的个别例子是最主流的情形——众数 。而在其他示例中 , 也可以选择那个最突出的例子;对数值数据而言 , 甚至可以选择最大的那个记录值 。每个社会都希望宣扬它们最好的部分以代表整体社会 , 或者选择的情形也可以是基于不明确的理由而选择的“最佳”个体或值 。天文学中 , “最佳”值的选择可能反映了观测者的个人知识或观测的天文条件 。但无论做了什么 , 这意味着要保持至少一个数据值的个别特征 。科贝尔的记述中 , 重点是16只个体的脚 , 甚至可以在图片中认出那时的人们 。无论如何 , “由个体共同决定木棒长度” , 这种思想是一个强有力的观点 , 因为这没有抛弃它们的个性 。这是木棒合法性的关键 , 甚至也决定了单独的英尺标志是真正意义的平均 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

1.3 平均人到了19世纪 , 均值已经广泛运用于天文学与测地学 。19世纪30年代 , 它还在社会中开辟了更广阔的应用空间 。那时 , 比利时统计学家阿道夫·凯特勒开创了他所谓的“社会物理学” 。为了可以在不同人群之间进行比较 , 他引入了“平均人”的概念 。最初 , 凯特勒将这个概念当作人类种群之间的比较工具 , 或用来刻画单个种群随时间发生变化的情况 。有了这一工具 , 便可以比较英国人和法国人的平均身高;也可以随着时间的变化记录某一年龄的平均身高 , 由此导出一条种群生长曲线 。社会中不存在单个的“平均人” , 每个种群都有自己的“平均人” 。另外 , 凯特勒只关注男性 , 女性不在考虑之内 。
19世纪40年代 , 一位批评家开始攻击这种思想 。安东尼·奥古斯丁·库尔诺认为 , “平均人”必然身体畸形:任何一个种群中 , 真正出现具有平均身高、体重和年龄的人的可能性非常低 。库尔诺指出 , 对一组直角三角形相应的边进行平均再组成新的三角形 , 得到的图形不会是直角三角形(除非这些三角形都是彼此成比例的) 。
另一位批评家是生理学家克劳德·伯纳德 , 他在1865年写下这样一段话:

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图

这种批评没有吓倒凯特勒 , 他坚称“平均人”可以作为一组人中的一个“典型”样本 。这个样本抓住了“类型” , 可以作为一组人的代表用于比较分析 。因此 , 这个概念高度成功并经常受到滥用 。“平均人”及其衍生概念发展出一套理论体系 , 使一些物理科学方法得以运用于社会科学 。
19世纪70年代 , 弗朗西斯·高尔顿分析非定量数据时进一步采用了均值的思想 。他花费大把时间和精力 , 根据肖像的组合构建所谓的“一般性肖像” 。其中 , 通过叠加一组中若干成员的图像 , 本质上生成了这一组中男士或女士的平均图像(如图1-8所示) 。高尔顿发现 , 从姐妹和其他家庭成员之间的面容相似之处可以提取家族特征 。他也用了其他群组进行实验 , 生成了亚历山大大帝的勋章组合(希望能揭示出更逼真的画像) , 以及罪犯群组和相同疾病的患者群组 。

聚合:从表格和均值到最小二乘 | 统计学七支柱

文章插图