「观察」云原生数仓,破茧而出

近期参加墨天轮社区活动 , 介绍数据分析(仓库)领域的一些变化趋势及新一代(基于云原生架构)数仓的出现如何解决现有数仓痛点 。 就在前两天 , 相信很多数据圈的朋友都被一条消息刷屏 。 云原生数仓的代表性企业-snowflake上市 , 市值高达700亿美金 , 惊爆眼球 。 其市值甚至达到老牌数仓领导性企业-Teradata的近30倍 。 缘何“云原生”概念如此火爆?正是人们看到这种新形态的巨大前景 。 下文根据分享内容整理而成 , 仅代表个人观点 。
01 数据趋势变化分析
「观察」云原生数仓,破茧而出文章插图
新时期下 , 数据的存储计算上正悄然发生一些变化 。 从近期IDC、Gartner披露的数据来看 , 整体呈现出下列几个特点:

  • 数据规模爆炸性增长
这一特点主要是由几方面原因造成 , 一是越来越多的数据被利用起来 , 包括之前已存在的但没被认为是无价值或低价值的数据正在不断被挖掘出来 , 例如用户访问网站的行为数据 , 过去仅仅留存作为审计等方面的要求被归档存储 , 但现在行为类数据正在被广泛地运用在运营、营销等领域;二是新业务形态也在催生很多数据 , 例如比较典型的IOT领域 , 大量的传感器数据被保存使用;三是已有应用对数据的使用程度也在加深 , 数据在企业经营中正在发挥更大的作用 。 正是随着不断膨胀扩大的数据规模 , 对数据的存储计算也提出了更高的要求 。
  • 数据处理实时性增强
数据价值会随着其实时性而不断衰减 。 新鲜、活跃的数据会为用户带来更大的价值 。 当数据经加工处理变为信息 , 进而汇聚为知识 , 指导企业的经营决策 。 先人一步 , 带来的优势不言自明 。 过去受限于底层平台的限制 , 数据往往需要采用批量离线方式进行处理 , 实时性要求无从谈起 。 在随着技术的演进发展 , 对数据实时性要求已能更好地得到满足 , 越来越多的业务会基于实时数据去构建 。
  • 非结构化数据被更广泛运用
如果说我们常见的结构化数据是露出水面的冰山的话 , 那大量的、隐蔽的非结构化数据就是冰山水面下隐藏的部分 。 非结构化数据一直是存在的 , 甚至是信息描述的主要方式 。 过去受限于数据处理技术的限制 , 非结构化的数据很难被加工处理 , 因而往往被人们所忽视 。 但随着技术发展 , 非结构化数据正在被更多利用到 , 过去被忽视的部分正在被不断挖掘出来 。 从数据也可见 , 非结构化数据的使用占比增长 , 是要远远高于结构化数据 。
  • 数据正呈现加速上云的趋势
过去的数据往往被保存在企业内部平台 , 随着IT基础设施上云的节奏加快 , 数据也逐步迁移至云端 。 数据从保存在企业内部到云端 , 不仅仅是数据存储位置的变化 , 而更多的是数据使用的特点的诉求所致 。 云端天然为数据带来的存储、计算的弹性能力 , 丰富的上下游生态集成能力 , 更灵活的共享使用方式 , 有保障的安全能力 , 均决定了数据上云这一趋势的必然 。 从简单的数据存储 , 到数据库无不呈现这一态势 。
总结一下 , 新时期下数据的存储、计算正在朝着海量、实时、智能、云化的方向发展 。
「观察」云原生数仓,破茧而出文章插图
从另一角度 , 也可以印证上面第4个观点 。 此图是同样来自第三方机构 , 数据的存储位置在公有云 , 还是传统的数据中心方式的占比分析 。 从图中可见 , 数据存储在IDC的占比不断下降 , 存储在公有云端的比例不断提升 , 两者在2020年达到一个拐点 , 并预测在此之后会差距会不断增大 。 也就是说 , 未来数据存储在云端是一种常见的方式 。
02 数据仓库产品发展对比
「观察」云原生数仓,破茧而出文章插图