案例|数据可视化探索方案案例——Smartbi大数据分析工具
随着大数据时代的来临,海量数据的分析和处理显得越来越重要。要从海量数据中发现有价值的信息往往需要借助于人们的经验和分析能力,而结合了可视化技术的数据探索系统能快速准确的根据用户需求生成可视化图表,帮助用户验证推测和猜想,更快更好的对数据集进行探索和分析,挖掘出其中蕴藏的有价值信息。另一方面,随着数据显示终端不断增大,屏幕内显示的图元数量不断增加,这对可视化探索系统的性能提出了挑战。
下面基于Smartbi大数据分析工具的专家诊病模型,给大家讲数据可视化探索解决方案
专家系统是典型的大数据和人工智能结合的计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。也就是说,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题,简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。
本案例使用Smartbi Mining敏捷挖掘桌面版,以决策树算法为背景,通过生动有趣的过程讲解,帮助读者了解如何通过可视化探索数据,实现决策树同样的计算结果!
Smartbi数据可视化探索解决方案案例的工作流如下:
文章插图
Smartbi数据可视化探索
文章插图
数据探索最核心的一项工作就是探索输入变量与目标变量的相关性。分析变量的相关性可以使用相关性计算,也可以使用图形化分析,而后者最直观常用。分析两个分类型变量可以使用条形图、网络图或者交叉表。分析两个数值型变量可以使用散点图。分析一个数值型变量和一个分类型变量可以使用直方图。通过分析,血压和药物字段有着强相关性,因为从图中可以看出使用药物B和药物A的人都是高血压(3表示高血压,2表示正常,1表示低血压),使用药物C的人都是低血压,这种很明细的规律反映出两个字段间存在很强的相关关系,如下图所示:
文章插图
同理,胆固醇和选择药物之间也有一定相关性,而性别和选择药物相关性不大,如下图所示:
文章插图
接下来分析数值型字段的相关性,从图中可以看出血液中的钠和钾相关性很弱或者没有。从图形化的方式判断相关性强弱的方法就是看图形中的规律,规律越明显,相关性就越强,否则越弱。
文章插图
就此图来说,散点图中的每一个点表示一个病例,而我们最想知道的还不是钠和钾的相关性,而是两者与药物的相关性,因为药物才是我们分析的目标。所以我们还想知道散点图中的每个病例使用的什么药物。因此,我们使用药物作为颜色区分,重新修正散点图。如下:
文章插图
从图中可见,上三角区都是浅红色,说明这部分病例使用的都是Y药物。这是很明显的规律,说明这里面有一种很强的关联。用数学的语言来描述,就是钠和钾的比例与药物有很强的相关性。因此,我们发现了一个很重要的变量就是钠和钾的比例。因此,我们可以派生一个变量:钠钾比例。
【 案例|数据可视化探索方案案例——Smartbi大数据分析工具】
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”