InfoQApache Kafka 迎来了“后浪”( 三 )


未来企业数据量只会越来越大 , 当超过 EB 级别以后 , 现有开源的存储产品都会有一些基本设计上的问题 , 即使它们的架构图是那么“完美” 。 而商业存储产品在 2013-2014 年就已经达到 2-3EB 单个系统的体量 , 这种积累其实是开源存储产品很难在短时间跟上的 。 所以当数据量达到一定程度后 , 所有企业都需要去平衡技术和商业 。
这也是 Pravega 被推出的一个重要原因 , 用开源技术连接底层存储和开源计算 , 解决“成本”问题 。 在项目启动早期 , 仍然可以使用 HDFS/Ceph/ 公有云去“试水” ,正式进入商业以后 , 可以使用商业分布式存储和公有云存储混布的架构 , 在满足上层计算完全通过 Pravega 的抽象访问数据无需更改的前提下 , 用户可以根据自己数字资产特性去自由地在公有云和商业云原生存储平台之间动态迁移 , 毕竟公有云存储对于绝大部分企业用户来说实在太昂贵了 。
“技术当然很重要 , 但更重要的是顺应技术趋势去思考未来发展 。 ”
从 2012 年开始 , Mesos 的流行、Docker 的兴起 , 然后 Kubernetes 出现并一举打败 Yarn 和 Mesos , 到现在整个基础架构正在全面往云原生方向发展 。
另一方面 , 虽然公有云厂商总是宣传让大家“全面上云” , 但是除了对公有云存储成本的担忧之外 , 企业用户更加担心的是数据锁定(Lockdown)隐患 。 尤其是没有人能保证公有云厂商不会进入自己的商业领域 , 企业必须选择将自己最看重的数据资产放到自己能掌控的硬件环境下或者是更靠近数据产生的边缘端 。 所以未来的大趋势必然以混合云多云的方式为主 。 这也是为什么云原生存储对企业用户有吸引力 , 因为它和上面的趋势是契合的 。
云原生最重要的一个隐含意义就是做到端到端的存储计算动态可伸缩性 。 当负载增大时 , 负责这条流水线的底层架构可以自动感知变化并进行合理调度 , 并且是在没有 DevOps 人为干预的前提下 。 而当负载变小后 , 又可以动态释放多余资源给系统中其他流水线使用 , 如下图所示 。 这样可以在最大程度上榨干硬件资源每一份能力 。
InfoQApache Kafka 迎来了“后浪”
本文插图
面向传统企业 , 开源需做出改变
“一切人类活动都是经济活动 , 软件开发也不例外” 。
AWS 曾表示:公有云至今只转移了世界上 3% 的 Workload , 另外 97% 仍然还是传统的企业开发 。
这 97% 的存量 ToB 市场跟互联网企业有着很不一样的商业模式 , 主要表现在以下几点:
第一 , 这不是一个“从 0 到 1”的市场 。 这些传统企业往往在本领域已经是头部 , 它们的营收一般在百亿美元以上 , 每年的增长可能只有 10%-20% 。 在它们选择新技术时候 , 一个 3-4 年的 TCO(Total Cost of Ownership 总拥有成本)往往是其 COO 首先考虑的指标 。 那么他 / 她必然要在公有云的“弹性”和“昂贵”中作出取舍 , 更不说上面提到的 Lockdown 的商业风险 。
一般互联网企业喜欢的是全新的颠覆性的市场 , 用全新打法来追求爆炸性的增长率 。 对比互联网企业 , 传统企业自然在技术上取舍上会不一致 。 “先有再演化”的开源软件自然是不二选择 。 只是随着整体的经济形式变化 , 每个今天的新兴企业都有可能成为明天的成熟行业 。 他们同样会面临技术使用上对成本的整体考虑 , 比如最近两年就出现了从 AWS 等公有云存储回归私有商业存储的“归队”趋势 。
第二 , 垂直细分领域在企业开发中相当常见 。 不同领域有不同的需求 , 比如在远洋运输和石油钻井平台行业中 , 网络连接甚至都不是一个“必选项” , 那么其实也就不存在一个能满足所有行业的开源项目 。 更多是需要在理解这些领域挑战得前提下 , 有商业化支持的云原生存储计算的混合云方案 。