从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?

不断出现的“大数据杀熟”新闻总是在刺激着人们的神经。但另一方面,在进入到大数据时代以后,人人、处处、时时都在讲“大数据”。那么,对于大数据,我们究竟有多少了解呢?到底什么是大数据,它究竟有什么用?
有关商家和平台利用大数据杀熟(指商家对新老客户、不同地区的客户,实行不同的价格,或者利用掌握的大数据,采用十分复杂的计算方法,对消费者进行价格歧视)的消息屡有发生,而更多与大数据有关的新闻也不断挑动着人们的神经,让大家觉得自己在大数据面前似乎“无所遁形“。
从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?】对于普通人而言,大数据是一个近在眼前,却又不甚了解的事物。大数据究竟是什么?它和我们熟知的数字、数学又有着什么样的联系?大数据究竟给我们的生活带来了哪些改变?作为中国大数据倡始之人,大数据专家涂子沛通过回溯数的发展、数据在中外历史重大事件的全方位应用,清晰、直观地解释了与大数据有关的知识。以下内容节选自《给孩子讲大数据》,已获得出版社授权刊发。
从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?
文章插图
《给孩子讲大数据》,涂子沛著,童趣出版有限公司编,人民邮电出版社2020年7月版。
大数据的出现,让统计科学和数据科学重新洗牌
这是一个关于零售帝国沃尔玛的故事。
沃尔玛,全世界最大的零售商,拥有11000多家分店、200多万名雇员。它的销售收入在2018年突破了5000亿美元,超过了很多国家的GDP(国内生产总值)。
沃尔玛的数据库是世界上最庞大的商业数据库之一。沃尔玛也是最早一批大规模使用数据挖掘技术的企业之一。它的首席信息官叫罗林·福特,数据分析是他的核心工作。罗林曾经感叹:“每天早上一醒来,我就要问自己,怎么才能让数据流动得更好、管理得更好、分析得更好?”
在一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配卖得最多的商品竟然有啤酒!尿布和啤酒,听起来风马牛不相及啊!任何一个人都很难将两者联系在一起,但这却是对历史数据进行挖掘的结果,反映的是数据层面的规律。这实在令人费解,这是一个真正的规律吗?答案,还是在数据里。
经过跟踪调查,研究人员终于发现事出有因:一些年轻的爸爸经常要到超市购买婴儿尿布,有30%~40%的“奶爸”会顺便买点儿啤酒犒劳自己。再有想象力的人恐怕也很难想到,事实的真相居然是这个样子的。沃尔玛随即对尿布和啤酒进行了捆绑销售。果然,销量双双增长。这是数据科学应用的经典案例。
从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?
文章插图
电影《白金数据》(2013)剧照。
沃尔玛到底是怎样发现这个规律的呢?这就要进入数据科学的核心:数据挖掘。数据挖掘,是指通过特定的算法对大量的数据进行分析,在大量的数据当中发现新知识,供人参考。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就像开矿凿金一样困难。你可以这样理解,数据挖掘是一台由算法控制的挖掘机,而数据库就像是一座矿山。
1989年之前,数据挖掘不叫数据挖掘,而是叫一个很长的名字:基于数据库的知识发现。作为挖掘基础的数据库也不是和计算机同步产生的,它是在计算机出现之后,慢慢从软件当中成长、独立出来的。
1948年,杜鲁门和杜威竞选美国总统,盖洛普通过抽样调查预测杜威将会当选。新闻界对这个预测深信不疑,《纽约时报》等报纸提前一天印好了杜威当选美国总统的版面,准备抢占先机。结果却令所有的人都大跌眼镜,最后当选的是杜鲁门!那些印有杜威当选消息的报纸只好全部销毁。
盖洛普失败的原因就在于,抽样调查需要经过问卷设计、信息收集、数据分析等多个步骤,这导致它掌握的数据有滞后性,而真实的情况是瞬息万变的。在竞选结果出来前的最后的两周里,盖洛普不得不停止调查,而杜鲁门却恰恰在这最后的关头扭转了战局。
在大数据时代,对总统竞选的预测出现了新的方法:在投票的前后,对社交媒体上的数据进行观点的挖掘,可以较为准确地预测出谁能当选。2008年和2012年两届美国总统选举,都有人通过挖掘推特、脸书上的数据,准确预测出了结果。
这种对互联网数据的挖掘不需要设计问卷,也不需要挨个儿调查,成本很低;这样的数据分析,一个人就可以完成,而不像问卷那样要出动大量的人马;更重要的是,这种分析是实时的,没有滞后性。