强者恒强,华为云是如何走出自己的硬核大数据之路?

?最近 , 随着“双十一”大幕如火如荼地开启、手机厂商争先恐后地发新机 , 笔者身边不少人的见面问候语变成了:“?这个双十一 , 你换手机了吗?”而无论你换什么手机 , 想必都要考虑“5G时代的数据激增 , 选手机该从多大内存起步”的问题 。
??如果说每个人都已经开始意识到个人数据激增和数据管理的重要性 , 在To?B端 , 数据激增的趋势更加明显 , 随着5G、AI、IoT等技术的广泛应用 , PB级的数据早已见怪不怪 , 据预测 。 全球每天产生的数据量更将从2018年的33ZB快速增长到2025年的180ZB 。 数据种类也越来越多 , 实时性要求更高 , 大数据不断在部门、行业之间流动将成为趋势 , 广大政企用户也意识到 , 数据将成为“生产力” , 为它们在数字世界与现实世界的融合提供全面的竞争力 。 大数据技术和应用已经进入到了“落地”期 , 越来越多的政企从尝试性部署进入到了规模部署的阶段 。
??在现实世界中 , 需求侧觉醒的同时 , 在平行的赛博世界中 , 技术的进化也一直在持续 。 自从2006年Apache?Hadoop架构发布以来 , 到2011年 , 企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件 , 开启了离线计算时代;2012年 , 以Spark等为核心的流式计算开启了实时计算时代 , 在线分析和实时计算的场景也开始逐渐应用 , 但这一阶段的使用者主要是开发人员;2013年至今 , 随着数据的激增 , 大数据平台演进成了融合大数据平台 , 而随着AI等技术的突飞猛进 , 数据分析到数据挖掘 , 大数据平台向着智能化进行演进 。
??我们知道 , 每个应用会产生、存储大量的数据 , 一般情况下这些数据并不能被其他应用所使用 , 所以就形成了“数据孤岛” 。 随着数据集市的兴起 , 应用的数据存储在一个集中的数据仓库中 , 可根据需要导出 。 但数据集市只解决了部分的问题 , 数据管理、数据所有权与安全性等问题亟需解决 。
??自2009?年开始投入研究 , 最早于2014年推出商用产品 , 秉承开源开放的心态 , 践行“平台+生态”战略 , 华为云踩对了历史的进程 , 围绕政企大数据全生命周期 , 华为云FusionInsight智能数据湖是一个混合负载的、开放的、统一的大数据平台 。 在近日发布的《IDC?MarketScape:?中国大数据管理平台厂商评估 , 2020》(以下简称IDC大数据报告)报告中 , 对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估 , 华为云位居领导者象限领先位置 , 并在技术实力和市场份额两大维度双领先 。
?
强者恒强,华为云是如何走出自己的硬核大数据之路?文章插图
??华为云?FusionInsight?的“硬核”之路
??可以看到 , 在IDC大数据报告中 , 有云服务厂商、传统ICT?厂商 , 以及大数据时代的创企等三类“玩家” 。 为何华为云能够脱颖而出?据了解 , 在技术创新方面 , 华为云FusionInsight智能数据湖具备了五大硬核能力:
??硬核能力之一:让政企客户在一个大、快、融、稳的数据湖架构下可持续演进
??大:传统的大数据单集群扩容受限 , 往往扩容到2000节点就难以突破 , 华为云FusionInsight通过大集群突破扩展性瓶颈 , 支持最大2万+节点大集群 , 还可集群联邦无限扩容 。 此大规模特性已在华为内部获得了实践 , 华为云流程IT通过FusionInsight构建OneData大数据集群 , 其规模已至1万+节点 , 支撑各部门运营分析、即席查询等大数据分析 , 每日新增数据近100TB , 10万张表 , 即席查询任务日均1万+ , 批处理作业每日10万+ 。 华为流程IT?OneData大集群历经两次滚动升级 , 业务0中断 , 已稳定运行六年 。
??快:因数据量仍在不断指数级增长 , 人们对大数据高效处理的极致追求永无止境!传统大数据存在分析链路长 , 以T+1事后报表为主 。 华为云FusionInsight?MRS可T+0实时增量更新和实时OLAP , 让大数据越用越”快“!华为集团IT基于FusionInsight , 实现了CDC+FLINK的实时集成方案 , 支撑了主干交易、财经、供应等交易数据的增量整合模型落地 , 相对于传统数仓的ETL+调度方案 , 数据供给效率提升了10倍 。
??融:传统大数据分析面临类型多、分布散、协同难等问题;FusionInsight通过HetuEngine实现五大融合 , 统一SQL接口仅用简单的SQL就可操作PB级数据 , 全民BI , 让大数据越用越简单 。 某行基于FusionInsight构建金融大数据 , 通过HetuEngine统一SQL接口 , 解决数据分散 , 组件多、语言多等难题 , 降低技术开发门槛 , 跨源跨域跨引擎融合分析 , 数据免搬迁 , 降低整体TCO 。