数据洪流中的科学方法( 三 )


如果我们稍稍深入地思考一下,就会发现谷歌的思路人们在其它场合也曾用过 。举个例子来说,密码学中有一种简单的密码叫做置换密码(substitutioncipher),它是通过对字母或其它文字单元进行置换来达到加密的目的 。破译这种密码的主要途径就是统计分析 。比如在英文中字母e是出现频率最高的,假如我们截获了一份经过字母置换加密的文件,我们就可以对文件中各符号的使用频率进行统计,其中使用频率最高的符号就很可能代表字母e 。对其它字母也可如法炮制,这种方法类似于谷歌翻译 。但密码学上的经验告诉我们,单纯使用统计方法是很难完全破译一份密码的,通常你会碰对一些字母或文字单元,就象谷歌翻译会碰对一些单词一样,但完整的破译往往需要辅以更仔细的分析和微调 。更重要的是,这种方法只能破译象置换密码那样初级的密码,对于更复杂的密码则完全无济于事 。
科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码,但这种密码显然不象置换密码那样简单,因而绝不可能通过单纯的统计分析来破译 。积累足够多有关行星运动的数据,我们也许能发现开普勒定律,但无论积累多少数据,我们也不可能依靠单纯的统计分析得到象爱因斯坦的广义相对论那样的理论 。事实上,单纯的统计分析至多能够知其然,却无法知其所以然,它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动 。科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的,这就好比用破译置换密码的方法永远也破译不了更高级的密码 。
四.数据洪流中的灯塔
谷歌新思路的另一个问题,是不可避免地受到大量无效信息的干扰 。这一点想必每位网民都有自己的切身体会,互联网既是信息库,也是垃圾场,数据洪流必然携带泥沙 。怎么办呢?让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案 。那答案就是他那篇文章的标题:忘掉它!忘掉什么呢?忘掉那些无效信息 。这位智商高达160的著名作家认为,只要我们能足够有效地忘掉所有的无效信息,信息爆炸就远没有人们想象的那样可怕 。
如果数据洪流真的如安德森设想的那样成为未来科学研究的主战场,那么对未来的研究者来说至关重要的一点就是阿西莫夫所说的忘掉无效信息,或者说去除数据洪流中的泥沙 。要想做到这一点,首先要能识别无效信息,而这种识别离不开模型或理论,甚至它本身就有可能是一种模型或理论 。如果未来的科学研究真的摒弃了模型或理论,而只关心数据之间的关联,那它在泥沙俱下的数据洪流中不仅会遇到谷歌翻译与谷歌广告已经遇到过的问题,甚至还可能产生出一些荒谬的结果,比如象很多伪科学人士所热衷的那样把金字塔的高度(曾经为147米)与日地距离(1.49亿公里)联系起来,把金字塔的底边周长(36560英寸)与一年的天数(365.2)联系在一起 。这种纯粹的数值巧合在科学研究单纯依赖于数据分析的情形下将能够轻易地登堂入室,混淆于科学成果之中 。
我们曾经提到,安德森在文章开头引用了博克斯的话:“所有模型都是错误的,但有些是有用的”,他引用这句话显然是要为自己的观点作注解 。可惜他张冠李戴了,博克斯是一位统计学家,他所说的模型并非泛指科学理论或科学模型,而是特指统计模型 。因此博克斯的话与其说是能为安德森的观点作注解,不如说恰恰是拆了他的台 。
不过另一方面,统计分析虽绝不可能如安德森预言的那样成为一统天下的科学方法,但它作为科学方法的一种,在过去、现在及将来都将发挥积极的作用,这一点任何人也不会否认 。正如博克斯的后半句话所说的:有些模型是有用的 。在数据总量空前膨胀的信息时代,统计分析的作用有可能得到局部的加强;在某些理论性不很强的领域中,它甚至有可能成为主要方法,从这些意义上讲,安德森的观点虽失之偏颇,却并非完全脱靶 。不过我们可以肯定的是,面对滚滚而来的数字洪流,科学方法绝不是即将被冲离视野的竹筏,相反,它是帮助我们在洪流中辨明方向,看清未来的灯塔 。