讲透|这篇文章把数据讲透了(一):数据来源
编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的。因内容颇多,我将分几期为大家进行讲解。
文章插图
一、前言我们日常生活中经常会听到这样的问题:你有数据支撑吗?你的数据来源是哪儿?数据噪声大吗?
那么这里的“数据”究竟是怎样的存在?
百度百科对数据定义很简单:数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
而仔细想想,我们日常中所指的数据真的是data吗?其实,我们更多指的是已经形成体系、有逻辑结构和实用性的“数据知识”。
所以,我们也不能把数据当作一个简单的概念,但其实“数据”里面还有很多学问。
下面先给大家引出四个“数据”相关的名词概念,后面我会分别阐述它们“价值变现”的方法论。
你真的了解data、information、kownledge、insight是什么吗?
文章插图
- data(菜市场买来的菜):简单的事实,未处理的,无组织的,原始的。
- information(折菜、洗菜):经过结构化组织、处理的数据,要根据“情景和语境”使其具有相关性和实用性。
- kownledge(下锅炒菜):是通过学习和经验联系在一起的信息地图,具有预测和决策和概括的能力。
- insight(已经到能教别人做菜的程度):准确而深刻地理解复杂问题或情况的能力(是可以借助工具实现的)。
二、数据来源(菜市场)如果说,data是我们烹饪所需的原材料,那么确定数据来源就好比我们出去买菜之前要先确定去哪家菜市场买菜一样;而且“菜市场”也是术业有专攻的!买海鲜去海鲜市场、买家禽要去禽类市场…数据也是一个道理,要通过你所需的领域,具体筛选数据来源,毕竟保证数据质量是烹饪佳肴的第一步~
就像前面所述,数据是一个庞大的概念,我们想要利用好,首先要知道数据的类型,根据类型再去判断来源和收集数据。
1. 按照结构化程度区分数据来源1)非结构化数据
非结构化数据,是数据的最简形式;我们身边时时刻刻都有非结构化数据的身影且几乎唾手可得,文字、图片、声音或视频都属于非结构化数据,这类数据通常存储在文件存储库中(小白们,可以把它看作是计算机硬盘驱动器上一个组织良好的目录)。
但,从这种形状的数据中提取价值通常是最困难的;因为我们首先需要从描述或抽象数据中提取结构化特性(例如,要使用文本,我们可能需要提取主题以及文本对主题的正面或负面评价,而一千个读者就会有一千个哈姆雷特,这类信息是极具主观色彩的)。
目前,非常流行的文本挖掘技术,它的数据来源就是我们此处所说的非结构化数据。
文章插图
2)结构化数据
结构化数据,顾名思义,是定义良好的表格数据(行和列),这意味着我们知道有哪些列以及它们包含什么类型的数据;这些数据通常存储在数据库中,在数据库中,我们可以使用SQL语言进行结构化数据的筛选,并轻松创建数据集用于我们的数据科学解决方案。
文章插图
3)半结构化数据
半结构化数据,介于非结构化和结构化数据之间,它虽然定义了一致的格式,但是结构不是很严格,比如数据的一部分可能是不完整的或者是不同的类型;半结构化数据通常存储为文件,但是,某些类型的半结构化数据(如JSON或XML)可以存储在面向文档的数据库中。
文章插图
2. 按照数据私密性区分数据来源1)组织内的数据源(封闭数据源)
查找数据的第一个地方是组织内部,大多数企业目前都有ERP、CRM、工作流管理等系统在运行,这类系统通常使用数据库以结构化的方式存储数据;这些数据库包含大量的数据,您可以很容易地从中提取价值;例如,通过工作流管理系统,您可以轻松地了解业务流程中的瓶颈,或者通过使用来自ERP系统的数据,您可以进行销售预测。
- 占营收|华为值多少钱
- 商品|问道自有品牌,山姆多方博弈
- 公式|?有人把 5G 讲得这么简单明了
- 责令|1336款APP被责令整改,三大问题突出
- 长庚君|向小米公司致歉
- “天河优创”放榜
- 广东移动OTN精智专网,助力千行百业数字化转型
- 快的秒回,慢的等了近一天
- 制药领域|为什么AI制药这么火,为什么是现在?
- 介绍|5分钟介绍各种类型的人工智能技术