大数据学习之了解开发工具

众所周知 , 大数据的数据量很大 , 但是并不是所有的数据都是有用的 , 所以大数据开发师们每天要需使用大量的大数据工具来完成日常的工作 , 大数据开发工具一般有以下几种:
1.Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构 。 用户可以在不了解分布式底层细节的情况下 , 开发分布式程序 。 充分利用集群的威力进行高速运算和存储 。 Hadoop是一个能够对大量数据进行分布式处理的软件框架 。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 。
大数据学习之了解开发工具文章插图
2.Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施 , 通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等 。Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便 。
3. Apache Spark
Apache Spark是Hadoop开源生态系统的新成员 。 它提供了一个比Hive更快的查询引擎 , 因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务 。 同时 , 它还用于事件流处理、实时查询和机器学习等方面 。
大数据学习之了解开发工具文章插图
4. Keen IO
Keen IO是个强大的移动应用分析工具 。 开发者只需要简单到一行代码 ,就可以跟踪他们想要的关于他们应用的任何信息 。 开发者接下来只需要做一些Dashboard或者查询的工作就可以了 。
5. Ambari
Apache Ambari是一种基于Web的工具 , 支持Apache Hadoop集群的供应、管理和监控 。 Ambari已支持大多数Hadoop组件 , 包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等 。
6. Flume
【大数据学习之了解开发工具】Flume是Cloudera提供的一个高可用的 , 高可靠的 , 分布式的海量日志采集、聚合和传输的系统 , Flume支持在日志系统中定制各类数据发送方 , 用于收集数据;同时 , Flume提供对数据进行简单处理 , 并写到各种数据接受方(可定制)的能力 。
7.MapReduce
MapReduce是一种编程模型 , 用于大规模数据集(大于1TB)的并行运算 。 概念"Map(映射)"和"Reduce(归约)" , 是它们的主要思想 , 都是从函数式编程语言里借来的 , 还有从矢量编程语言里借来的特性 。 它极大地方便了编程人员在不会分布式并行编程的情况下 , 将自己的程序运行在分布式系统上 。
大数据学习之了解开发工具文章插图
以上 , 就是常见的大数据开发工具的一部分 , 其实还有很多很多 , 就如:Mahout、Pig等等 , 这些工具的功能各不相同 , 但对开发人员的用处都是功不可没的 , 所以 , 想要学好大数据 , 还要了解一些常用工具 , 以及他们的用途哟!