数据清洗 , 将不符合规范的数据进行特定处理 , 使得数据达到准确完整一致等要求 。 数据建模 , 定义满足业务所需要的数据要求的过程 , 一般需要业务建模师参与 。 数据处理 , 对数据的采集、存储、检索、加工、变换、传输等操作 , 从海量数据中抽取提取有价值的数据 。 数据分析 , 使用数据挖掘技术从海量数据中获取有价值的信息 。 数据可视化 , 将数据以直观的可视化方式展示给用户 。 常用大数据工具
【大数据和人工智能工程上的一些点】hadoop受谷歌MapReduce论文启发而实现的经典的开源大数据处理工具 , 现在的大数据工具主要包括以下 。
- HDFS , 分布式文件系统 。
- HBase , 分布式数据库 。
- MapReduce , 由用户编写的运行在hadoop集群上的并行程序 。
- zookeeper , 作为分布式程序的协调中心 。
- hive , 基于hadoop的数据仓库管理工具 。
- pig , 大数据分析工具 。
- yarn , hadoop集群资源管理系统 。
- sqoop , hadoop与传统数据库之间进行数据交换的工具 。
- chukawa , 分布式数据收集分析系统 。
- hcatalog , 管理hadoop产生的数据表存储管理系统 。
- redis , 分布式缓存系统 。
- kafka , 分布式消息系统 。
- Cassandra , 分布式结构和数据存储 。
- neo4j , nosql图数据库 。
- spark , 分布式计算引擎 。
- storm , 分布式实时计算系统 。
- elasticsearch , 分布式全文搜索 。
- flume , 分布式日志采集系统 。
- flink , 分布式流处理引擎 。