从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?( 二 )


所以,有越来越多的科学家相信,因为大数据的出现,统计科学和数据科学将重新洗牌,进入一个新的时代。在这个新的时代,数据挖掘将成为越来越重要的分析预测工具;抽样技术的重要性将下降,这种技术将成为辅助工具。虽然数据挖掘如日中天,但也有抢风头的,这就是机器学习。打遍天下无敌手的国际象棋机器人“深蓝”,还有把众多围棋名将下得没有脾气的机器人阿尔法狗(AlphaGo),用的都是机器学习技术。
从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?
文章插图
电影《白金数据》(2013)剧照。
机器学习凭借的也是计算机算法。和数据挖掘不同的是,其算法并不是固定的,它能够随着计算、挖掘次数的增多,自动调整算法的参数,使挖掘和预测的结果更为准确。
大数据刺激了数据可视化专业市场的形成
1855年,克里米亚战争爆发了。这场战争导致50多万人死亡,异常惨烈。作为交战一方的英国当然是伤亡惨重。
弗罗伦斯·南丁格尔(1820—1910)是英国的一名战地护士,也是一名自学成才的统计学家。她在考察了英国士兵的伤亡情况之后,发现由于医疗卫生条件恶劣而导致的死亡人数,大大超出了在前线直接阵亡的人数。
南丁格尔将她的统计结果制成了一张图表。图表清晰地反映了“战斗死亡”和“非战斗死亡”两种情况下死亡人数的悬殊对比。强烈的视觉效果引发了英国整个社会的激烈讨论,促成了英国政府出台成立野战医院的决策。由此,人类历史上第一所正式的野战医院建立起来了。
南丁格尔后来被誉为现代护理学之母。她的这张图表更是历史上第一份“极区图”,也是统计学家对利用图形来展示数据进行的早期探索。
一张图表改变了一个制度,这并不夸张。人类天生就是感性的生物,视觉冲击对人的震撼要远远强过单纯的联想。
南丁格尔的这种做法被称为数据可视化。它是指以图形、图像、地图、动画等更为生动和易于理解的方式,展现数据的大小,诠释数据之间的关系和发展的趋势,以更好地理解并使用数据分析的结果。
南丁格尔的事例充分地证明了数据可视化的价值,特别是在公共领域的价值。生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。而且,人的创造力不仅仅取决于逻辑思维,还取决于形象思维。数据可视化的技术,可以通过图像进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。
20世纪70年代,由于计算机技术的兴起,一批有远见卓识的学者看到了这个领域巨大的潜力。有人认为:“未来的计算机不仅要能计算,还要能将计算结果转变为直观的图形。我们应该研究这两种结果,因为每一种都有助于我们理解问题。”
1983年,耶鲁大学的教授爱德华·塔夫特成了数据可视化这门学科的掌门人。塔夫特系统考证了人类用“图形”表达“数据”和“思想”的渊源,整理了历史古籍中的图形瑰宝,并结合计算机的发展给统计领域带来的革命,出版了《定量信息的视觉展示》一书。这本书后来被公认为是“数据可视化”作为一门学科的开山之作。
塔夫特强调,数据可视化的关键在于“设计”,“信息过载这回事并不存在,问题出在糟糕的设计,如果你用来表达数据的图形让人感觉杂乱不解,那就要修改你的设计”。美国总统每年公布政府预算都是美国的一件大事。在塔夫特的领导下,美国白宫曾经用一张图对奥巴马公布的年度预算进行了可视化处理。如下图,图形以线条的粗细表明各项收支金额的大小,左边是收,右边是支,中间的红色部分是赤字缺口,形象贴切。奥巴马收了多少钱,要办哪些事,各项收入和支出一目了然。
从救助空巢老人到资助贫困生,看似冰冷的大数据如何温暖人心?
文章插图
奥巴马在2010年预算开支的可视化展示。(数据来源:《华盛顿邮报》,2010年2月1日)
进入21世纪之后,大数据的爆炸使人们更加需要展示数据、理解数据、演绎数据的工具。这种需求,刺激了数据可视化专业市场的形成,其产品迅速增多,可谓绚丽多彩、百花齐放。从最早的点线图、直方图、饼图、网状图等简单图形,发展到以监控商务绩效为主的仪表盘、记分板,再到交互式的三维地图、动态模拟、动画技术等。
作为一个新兴的行业,数据可视化的发展潜力不容小觑。数据可视化工程师既懂数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,通过把复杂的数据转化为直观的图形,他们把数据分析的结果推向了普通大众,可谓是大数据时代的导航员。