智能湖仓|从"智能湖仓"升级看数据平台架构未来方向

在2021年初全年技术趋势展望中,数据湖与数据仓库的融合,成为大数据领域的趋势重点。直至年末,关于二者的讨论依然热烈,行业内的主要分歧点在于数据湖、数据仓库对存储系统访问、权限管理等方面的把控;行业内的主要共识点则是二者结合必能降低大数据分析的成本,提高易用性。
而此类争论,又反映了行业在大数据处理领域的核心诉求:如何通过数据湖、数据仓库的设计,有效满足现代化应用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库融合相关的“智能湖仓”。为什么“智能湖仓”可以更智能地集成数据湖、数据仓库和其他数据处理服务?“智能湖仓”架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,我们看到了“智能湖仓”架构的现在和未来构想。
1.被广泛关注的“智能湖仓”架构理解“智能湖仓”架构的现在和未来,需要先了解它的过去。早在 2017 年,“智能湖仓”架构就已初具雏形。当时,亚马逊云科技发布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了打通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查询。
智能湖仓|从"智能湖仓"升级看数据平台架构未来方向】这件事情启发了“智能湖仓”架构的形成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式发布“智能湖仓”。如果从早期的技术探索开始算起,在 2021 亚马逊云科技 re:Invent 大会上发布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。如今,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具可以实现数据的自由流动与统一治理。

智能湖仓|从"智能湖仓"升级看数据平台架构未来方向
文章插图

具体而言,“智能湖仓”架构下,首先需要打破数据孤岛形成一个数据湖;其次,需要围绕着数据湖,在不同应用场景为用户提供相应的分析工具;另外,需要确保数据在湖、仓以及专门的服务之间能够自由移动;此外,需要确保用统一的方式去管理湖里面数据的安全性、访问控制和审计;最终,需要能够采用低成本的方法将湖、仓各自的优势有效利用起来,并利用人工智能等创新手段进行创新。
就像 Amazon Redshift 在 2012 年发布时,引导了云原生数仓的发展方向一样,“智能湖仓”架构一经发布就引发业内广泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业地位,另一方面是因为此架构在技术上的创新思路能够为行业带来一些新的思考。
“智能湖仓”更强调“架构”而非“产品”,更强调数据的自由流动与统一治理,以及基于湖仓的“智能创新”。如今,“智能湖仓”架构不是简单地将湖与仓打通,而是将湖、仓与专门构建的数据服务连接成为一个整体,让数据在其间无缝移动。面对向 TB 级、PB 级,甚至 EB 级增长的数据,“如何存”和“如何用”不再是相对孤立的话题。“智能湖仓”向行业传递了一个信号:企业需要统一数据分析工具,实现数据在整个数据平台的自由流转。
不管是企业数据管理理念的视角,还是在技术视角下,“智能湖仓”架构被广泛关注也意味着,随着数据湖和数据仓库的边界在逐渐淡化,基于两者的大数据处理体系的架构正在被重构。
2.“智能湖仓”架构下,重构中的大数据基础设施这种重构大概可以分为几个维度来理解,其中最重要的是更强的数据安全、治理和数据共享能力,更敏捷的构建方式,更智能的创新手段。
数据安全、治理和共享,重点聚焦跨湖、跨仓库甚至跨企业的数据流通和治理,致力于实现真正意义上的数据跨域互通;更敏捷的构建方式则要将企业的敏态追求提升到极致,Serverless 能力的应用是其关键;更智能的创新手段则把 AI/ML 能力和大数据治理并入统一范畴,避免走入“为了大数据而大数据”的误区。
在 2022 年,当我们再次谈起数据湖和数据仓库的融合问题时,包含以上关键点的“智能湖仓”架构,很可能成为被业内重点参考的构建思路之一。
更强的数据安全、治理和数据共享能力
数据的安全、治理和共享,原是大数据的本职任务,但当数据达到 PB 乃至 EB 级,需要跨多个区域、组织、账户进行数据共享或数据交互时,企业有些时候并非不想细颗粒度管理数据,而是无法管理。这种颗粒度的权限控制往往比单机系统设计或者单一的分布式系统要复杂得多。所以,数据治理成为了“智能湖仓”重要的发力点。