OLAP大数据查询引擎( 二 )
· Solr:这是一个基于Apache Lucene的流行 , 快速 , 开放源代码的企业搜索平台 。Solr是可靠的 , 可伸缩的和容错的 , 提供分布式索引 , 复制和负载平衡查询 , 自动故障转移和恢复 , 集中式配置等 。它非常适合于文本搜索 , 但是与ElasticSearch相比 , 它的用例有限 。
· ElasticSearch:它也是一种非常流行的分布式索引 , 但是已经发展成为自己的生态系统 , 涵盖了许多用例 , 例如APM , 搜索 , 文本存储 , 分析 , 仪表板 , 机器学习等 。它绝对是一种非常有用的工具 , 可用于DevOps或数据管道 , 因为它非常通用 。它还可以存储和搜索视频和图像 。
ElasticSearch可用作数据湖的快速存储层 , 以提供高级搜索功能 。如果将数据存储在HBase或Cassandra之类的键值大型数据库中 , 由于缺少联接 , 它们提供的搜索功能非常有限; 您可以将ElasticSearch放在前面以执行查询 , 返回ID , 然后对数据库进行快速查找 。
它也可以用于分析 。您可以导出数据 , 对其进行索引 , 然后使用Kibana对其进行查询 , 创建仪表板 , 报告等等 , 还可以添加直方图 , 复杂的聚合甚至在数据之上运行机器学习算法 。弹性生态系统非常庞大 , 值得探索 。
文章插图
OLAP数据库在此类别中 , 我们有数据库 , 该数据库还可以提供用于模式和查询功能的元数据存储 。与查询引擎相比 , 这些工具还提供存储 , 并且在数据仓库的情况下可以强制执行某些架构(星型架构) 。这些工具使用SQL语法 , Spark和其他框架可以与它们进行交互 。
· Apache Hive:我们已经讨论过Hive作为Spark和其他工具的中央模式存储库 , 以便它们可以使用SQL , 但是Hive也可以存储数据 , 因此您可以将其用作数据仓库 。它可以访问HDFS或HBase 。查询Hive时 , 它会利用Apache Tez , Apache Spark或MapReduce , 而Tez或Spark的速度要快得多 。它还具有一种称为HPL-SQL的过程语言 。蜂巢它是Spark SQL极为流行的元存储 。
· Apache Impala:这是Hadoop的本地分析数据库 , 您可以使用它来存储数据并以有效的方式查询它 。它可以使用Hcatalog连接到Hive获取元数据 。Impala为Hadoop上的BI /分析查询提供了低延迟和高并发性(不是由批处理框架(如Apache Hive)提供的) 。即使在多租户环境中 , Impala也会线性扩展 , 比Hive更好地替代查询 。Impala与本机Hadoop安全性和Kerberos集成在一起以进行身份验证 , 因此您可以安全地管理数据访问 。它使用HBase和HDFS进行数据存储 。
文章插图
· Apache Tajo:这是Hadoop的另一个数据仓库 。Tajo专为针对HDFS和其他数据源上存储的大数据集的低延迟和可扩展的即席查询 , 在线聚合和ETL而设计 。它与Hive Metastore集成在一起以访问通用模式 。它具有许多查询优化功能 , 具有可扩展性 , 容错能力 , 并提供JDBC接口 。
· Apache Kylin:Apache Kylin是更新的分布式分析数据仓库 。Kylin的运行速度非常快 , 因此对于仪表盘或交互式报表等性能很重要的用例 , 它可以用于补充Hive等其他一些数据库 , 它可能是最好的OLAP数据仓库 , 但使用起来比较困难 。问题在于 , 由于维数高 , 您需要更多的存储空间 。这个想法是 , 如果查询引擎或Hive不够快 , 您可以在Kylin中创建一个"多维数据集" , 这是针对OLAP优化的多维表 , 具有可从仪表板或交互式报表中查询的预先计算的值 。它可以直接从Spark生成多维数据集 , 甚至可以从Kafka实时生成多维数据集 。
文章插图
OLAP引擎在此类别中 , 我包括较新的引擎 , 这些引擎是对以前的OLAP数据库的改进 , 这些数据库提供了创建多合一分析平台的更多功能 。实际上 , 它们是前两种类别的混合 , 为您的OLAP数据库添加了索引 。它们位于Hadoop平台之外 , 但紧密集成 。在这种情况下 , 您通常会跳过处理阶段并直接使用这些工具进行提取 。
他们试图解决以统一的方式查询实时和历史数据的问题 , 以便您可以在查询到实时数据以及低延迟的历史数据后立即立即查询实时数据 , 从而构建交互式应用程序和仪表板 。这些工具在许多情况下允许以ELT方式进行几乎没有任何转换的原始数据查询 , 但性能却优于常规OLAP数据库 。
它们的共同点是它们提供了数据的统一视图 , 实时和批处理数据的接收 , 分布式索引 , 其自己的数据格式 , SQL支持 , JDBC接口 , 热冷数据支持 , 多种集成和元数据存储 。
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 同比|亚马逊公布“剁手节”创纪录战绩:第三方卖家全球销售额超48亿美元 同比大增60%
- 人民币|天猫国际新增“服务大类”,知舟集团提醒入驻这些类目的要注意
- 痛点|首个OTA智能社区诞生 解决行业四大痛点
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 长安|长安傍上华为这个大腿,市值暴涨500亿!可见华为影响力之大?
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 程序|2020全景生态流量秋季大报告:TOP100APP超半数布局小程序,全景流量重塑行业竞争新格局
- 操盘|中兴统一操盘中兴、努比亚、红魔三大品牌