大数据和人工智能工程上的一些点( 二 )

  • 数据清洗 , 将不符合规范的数据进行特定处理 , 使得数据达到准确完整一致等要求 。
  • 数据建模 , 定义满足业务所需要的数据要求的过程 , 一般需要业务建模师参与 。
  • 数据处理 , 对数据的采集、存储、检索、加工、变换、传输等操作 , 从海量数据中抽取提取有价值的数据 。
  • 数据分析 , 使用数据挖掘技术从海量数据中获取有价值的信息 。
  • 数据可视化 , 将数据以直观的可视化方式展示给用户 。
  • 常用大数据工具【大数据和人工智能工程上的一些点】hadoop受谷歌MapReduce论文启发而实现的经典的开源大数据处理工具 , 现在的大数据工具主要包括以下 。
    • HDFS , 分布式文件系统 。
    • HBase , 分布式数据库 。
    • MapReduce , 由用户编写的运行在hadoop集群上的并行程序 。
    • zookeeper , 作为分布式程序的协调中心 。
    • hive , 基于hadoop的数据仓库管理工具 。
    • pig , 大数据分析工具 。
    • yarn , hadoop集群资源管理系统 。
    • sqoop , hadoop与传统数据库之间进行数据交换的工具 。
    • chukawa , 分布式数据收集分析系统 。
    • hcatalog , 管理hadoop产生的数据表存储管理系统 。
    • redis , 分布式缓存系统 。
    • kafka , 分布式消息系统 。
    • Cassandra , 分布式结构和数据存储 。
    • neo4j , nosql图数据库 。
    • spark , 分布式计算引擎 。
    • storm , 分布式实时计算系统 。
    • elasticsearch , 分布式全文搜索 。
    • flume , 分布式日志采集系统 。
    • flink , 分布式流处理引擎 。