数据洪流中的科学方法

小编来今天给同学们带来的趣味数学故事是:数据洪流中的科学方法 。
每天10分钟头脑大风暴,开发智力,培养探索能力,让你成为学习小天才 。
故事适合年级:小学【数据洪流中的科学方法】趣味小故事: 一.信息爆炸的时代
我最喜爱的作家之一是美国科幻及科普作家阿西莫夫(I.Asimov),他一生出版过约500本书——恐怕比我一生将会发表的文章数还多 。我念中学时曾读过他的很多书,其中有一本叫作《数的趣谈》[注一],而那其中有篇文章叫做“忘掉它!”(ForgetIt!),我到现在还没忘掉 。
阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片断,大意是说我们的科学知识每隔一代就会增加五倍,以生物学为例,2000年的知识将是1900年的100倍 。这段话让阿西莫夫深感不安,甚至感到“世界好象在我身边崩溃了” 。为什么呢?因为在阿西莫夫看来,象他这样快速写作的科普作家,几乎是在职业性地追逐着科学的发展,可在一个信息爆炸的时代里,他有可能追得上形势吗?
阿西莫夫在那篇文章中为自己的问题找到了答案 。不过,我们先不去看他的答案 。阿西莫夫那篇文章发表于1964年,在那之前的1961年,“信息爆炸”(informationexplosion)这一用语首次出现在了IBM公司的一则广告中 。自那以后,信息爆炸一直拨动着人们的心弦 。也许很多人都会产生与阿西莫夫同样的担忧:在一个信息爆炸的时代里,我有可能追得上形势吗?
如果我们把阿西莫夫时代的信息爆炸比作常规爆炸,那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了 。因为常规的信息爆炸只是书本知识的爆炸,而能在书本上占据一席之地的人毕竟是不多的 。但互联网时代几乎让每个人都拥有了发布信息的能力,由此带来信息爆炸无疑要惊人得多 。据一家美国研究机构统计[注二],截至2007年,人类拥有的数字化信息(文字和音像都算在内)约有225000亿亿比特(2.25×1021bits),约合15000亿亿个汉字,而且这一数字几乎每隔5年就增加一个数量级 。在这些信息中,约百分之七十是个人创造的 。以时下最流行的博客来说,其数量在过去几年里几乎每6个月就翻一番 。到2008年底,仅中国网民开设博客者就超过了1.6亿人[注三] 。
二.谷歌的新思路
信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化,也使越来越多的人对信息爆炸的前景进行着思考 。不过与阿西莫夫当年那种忧虑性的思考不同,当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代,且对其前景作出了与前人截然不同的设想 。2008年6月,美国的一位技术杂志主编发表了一篇标新立异的文章,题目为“理论的终结:数据洪流让科学方法过时”(TheEndofTheory:TheDataDelugeMakestheScientificMethodObsolete) 。
这份杂志名为《连线》(Wired),是一份以探讨技术影响力为主题的杂志,创刊于1993年,订阅人数约在50万到100万之间 。而撰写那篇文章的主编名叫安德森(ChrisAnderson),是一位经验丰富的传媒人士,曾在《自然》(Nature)、《科学》(Science)及《经济学家》(TheEconomist)等著名刊物任职 。安德森担任主编期间,《连线》杂志曾多次获奖,而安德森本人也在2005年获得过一项年度最佳主编奖 。
安德森这篇文章的观点标新立异不说,就连标题也相当耸人听闻,不仅预言科学理论将会终结,而且宣称科学方法将会过时 。他的这一奇异想法从何而来呢?我们来简单介绍一下他那篇文章的思路 。安德森的文章以著名统计学家博克斯(GeorgeBox)的一句引文作为开篇,那句引文是:“所有模型都是错误的,但有些是有用的” 。安德森提出,虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象,但最近这些年里,象谷歌(Google)这样扎根于信息时代最前沿的公司已经采用了新的思路 。
安德森举了谷歌翻译及谷歌广告作为例子 。我们知道,常规的机器翻译是通过一系列静态的规则,比如字典及语法规则,来把握文章的内容 。但谷歌翻译另辟蹊径,借助数以亿计来自不同语言的语句之间的统计关联来做翻译 。这种翻译的最大特点是无需知道被翻译文字的含义,而只关心两种语言之间的统计关联 。类似地,使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的 。谷歌既不在乎你搜索的东西的含义,也不关心它所显示的广告是什么,它之所以列出那些广告,完全是因为统计关联表明它们与你搜索的东西有关 。