拓源讲堂(八) | 大数据技术介绍与应用(实践篇)###
“拓源讲堂”第八讲来了!本期内容的主题是“大数据技术介绍与应用(实践篇)” 。诸多对此感兴趣的同事通过线上视频/线下讲堂方式集结,认真学习 。
随着互联网的发展和云时代的到来,大数据成为了很多人关注的方面 。之前拓源讲堂第五讲为大家简单介绍过大数据技术的内容,那这次我们就继续带大家一同探索大数据技术的魅力吧!
课程分为三个部分展开介绍——
文章插图
08
大数据技术介绍与应用
实践篇
o Hadoop 技术体系
下图是比较经典的 Hadoop 技术体系,一些老技术已经被新的技术所取代 。
文章插图
数据湖是融合了大数据及数仓概念的新概念,各厂商对数据湖的定义都有些差异,但整体来说还是大数据+数仓 。
阿里定义:数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据 。数据湖可无缝对接多种计算分析平台,根据业务场景不同,可以选择相应的计算引擎对数据湖中存储的数据进行数据处理与分析,从而打破孤岛,挖掘业务价值 。
主要功能特点:
- 统一的数据存储,存放原始的数据 。
- 支持任意结构的数据存储,包括结构化、半结构化、非结构化 。
- 支持多种计算分析,适用多种应用场景 。
- 支持任意规模的数据存储与计算能力 。
- 目标都是为了更好,更快的发现数据价值 。
文章插图
o 大数据应用案例
1)运价魔方大数据系统
文章插图
一款航空运价数据产品,通过实时的全市场数据和丰富的历史数据,帮助航空公司分析历史的运价走势、把握当前的运价动态、预测未来的运价趋势,实现横向的竞争对手监控分析及纵向的代理人监控分析,为航空公司整体的收益管理和产品设计提供数据支撑和决策依据 。
文章插图
2)航司运行大数据中心
o 业务需求及痛点:
- 现在拥有大量的数据资源,这些数据有较大的业务价值
- 分别存储在各自的系统中,数据孤岛化情况严重,得不到充分利用
- 数据资源的综合利用工作由于缺乏必要技术手段,数据化分析进程推进缓慢,大数据价值无法得到体现
- 数据口径未标准化,数据质量未经全局检验
- 建立数据中心,以存储大数据
- 对数据及模型标准化管理
- 采用恒拓大数据平台,对系统数据进行采集、存储、计算及应用
- 通过恒拓大数据平台,提供数据服务,为应用系统提供大数据辅助
文章插图
o 数据中心架构
文章插图
o 大数据应用实践
本次实践采用:Hadoop+Hive+Presto+SuperSet,包括大数据(Hadoop)、数据库(Hive)、SQL 聚合运算(Presto/Trino)、报表(SuperSet)等作演示,展示从大数据存储到大数据运算到大数据应用等功能 。下面架构采用单节点构架,相对简单明了:
文章插图
1)Presto 简介
PrestoDB 是 Facebook 推出的一个大数据的分布式 SQL 查询引擎 。可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别 。除了性能出色外,还可以跨不同(类型)的数据库进行基于 SQL 的聚合运算 。其创始团队出走后,创立 Trino 。
文章插图
2)SuperSet 简介
Superset 是一款由 Airbnb 开源的,托管在 Apache 的现代化的企业级 BI(商业智能)Web 应用程序,通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案 。
自带 SQLite 数据库并支持连接 Hive、Impala、MySql、Oracle 等几乎所有主流的数据源;支持和弦图、事件流图、热力图、视图表等及其它常规的可视化展示图表;支持可控的数据展示,能自定义展示字段、数据源等;支持权限控制,以满足不同使用人员对数据和数据库的权限要求;同时内含 SQL 查询面板模块、具有较美观友好的操作界面等 。
- 女人梦见好大一堆饼是什么意思
- 十大治便秘食物
- 避开使用电脑的5大误区,拯救你的钱包 键盘膜对电脑的危害有哪些
- 朋友圈式友谊是什么梗 大家都是点赞之交吧
- 洗牙会让牙缝变大吗 洗牙会让牙齿变白吗
- 鲈鱼是发物吗?
- 玉米萝卜大骨汤功效及其做法
- 白果老鸭汤的功效有什么
- 放弃一个喜欢的人的心情说说 伤感朋友圈语录大全
- 转基因大米好不好