商汤为什么要建 AI 计算中心


商汤为什么要建 AI 计算中心
文章插图
如何持续做技术产业化和商业化?这是属于商汤的「过程性资产」。
作者 | 凌梓郡
虽然「通用人工智能」到来尚远,但 AI 为各行业提供颠覆性「工具」的能力已经毋庸置疑。提供「工具」的前提是基础设施。
以 2021 年最引人瞩目的科学突破 AlphaFold2 为例,AI 用「暴力计算」的方式,准确预测了蛋白质的三维结构,解决了困扰结构生物学家 50 多年的难题。在这项突破背后,离不开谷歌提供的算力资源:128 块 TPU V3(大约相当于 100-200 个 GPU),运行了数周。
1 月 24 日,落座在上海临港新片区的「商汤科技人工智能计算中心」(AIDC)正式启动运营。其建筑面积 13 万平方米、项目总投资约 56 亿元、一期机柜数量 5000 个。设计算力为每秒 3740 Petaflops(1 Petaflops 为每秒千万亿次浮点运算)。与之相比,目前国内已知最大的人工智能的算力中心是鹏城实验室的鹏城云脑 II,输出 1000 Petaflops 算力。
商汤为什么要建 AI 计算中心】作为亚洲最大的 AI 软件平台公司,商汤科技很早就开始思考「基础设施」。对于商汤来说,面对的是复杂多样的场景,要源源不断提供各种算法,对基础设施的思考自然更为全面:它不仅仅是一个数据中心,高性能计算平台,也是为更多行业提供 AI 服务的物理基础。
算力仅仅是一个指标的维度。更大的算力,意味着能够处理更大量的数据。但是更关键在于「怎么能让这么大量的数据,进入到同一个算法网络中。」商汤科技联合创始人、副总裁杨帆解释说。

商汤为什么要建 AI 计算中心
文章插图
01
通用的 AI 基础设施
商汤对 AI 基础设施的探索从 2018 年就开始了。
2018 年,商汤进行了原型机的预研项目,将 1000 块 GPU 卡连在同一个网络上,加载数据,并进行运算。在同一个网络上运行的难点在于,存储、计算、内部网络传输,这几个子系统之间需要形成紧密的耦合关系。
那时,商汤在没有任何可供参照的案例经验和实验场地条件下,进行项目预研。到了 2020 年 3 月,AIDC 立项启动,7 月在上海临港新片区正式启动建设。仅仅用了 168 天,就完成了从开工建设到结顶的过程,刷新了临港建设的新纪录。杨帆表示,「我自己作为一个程序员出身的软件公司的负责人,头一次去干土建项目,真的是感慨万千。」
目前,商汤的业务主要分为智慧商业、智慧城市、智慧生活,以及智能汽车四个板块。在这个四个板块之下的「底座」,就是「SenseCore 商汤 AI 大装置」。而 AIDC 则是「底座的底座」。
SenseCore 商汤 AI 大装置是软硬一体的超大型通用 AI 基础设施。AIDC 是 AI 大装置的物理承载。在这个物理基础上,运行着深度学习平台、以及超过 22000 个商用模型形成的模型层。
AIDC 的能力体现在「算力真正可以被连接在一个大的网络里,去做共同训练」。
技术亮点上,AIDC 拥有「大规模数据处理及高性能计算能力」。分布式的任务调度系统,可以在成千上万个 GPU 上动态调度数以万计的计算任务。与之匹配,数据的输入/输出(IO)也会面临巨大压力。存储和 IO 系统必须要支持数据的快速随机访问。商汤 AIDC 允许训练任务每秒加载超过两百万张图片,保证训练任务可以全速运行,不必等待数据。
数据是重要的生产资料,基础设施搭建的是一套系统。系统搭建得好,就能让系统内的数据发挥更大价值。
有了 AIDC 作为底层支撑,商汤提供服务的模式也随之优化。在过去,商汤以售卖软件的形式向客户服务。而有了 AIDC 之后,服务模式将更加接近云计算,直接提供端到端的服务。在使用过程中,像系统升级、迭代算法更新,可以在后台自动化实现。

商汤为什么要建 AI 计算中心
文章插图
「商汤科技人工智能计算中心」(AIDC)
02
用大模型,降低创新成本
作为 AI 领域的头部企业,商汤一路走来历时 7 年多。杨帆表示,AI 产业经历了五、六年发展,新的趋势是产业链的分化。当 AI 进入不同的场景落地,经过了初期,面对更多分化的场景、中深度的需求。「创新的成本高」,成为了新阶段遇到的问题。其它行业期待以更低的成本获得匹配的算法,以解决问题。
从这个角度理解,AIDC 便是商汤在新阶段,降低创新成本,提高服务能力的「解法」:解决对多任务、多长尾场景覆盖的核心瓶颈问题。