为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”

Meta 不仅是全球最大的社交网络公司,和当下最热门技术概念“元宇宙”的推行者,它同时也是人工智能(AI)研究的全球顶级公司之一。
该公司在 AI 方面卓越研究成果的背后,必然有强大的算力支持。不过一直以来,Facebook 从未对外界公开展示过其算力究竟有多厉害。
而在今天,Meta 公司突然对外宣布了其在打造 AI 超级计算机方面的最新进展。
根据 Meta 此次公开透露的结果,其打造的超级计算机 AI RSC,目前算力在全球应该已经排到了前四的水平。
这个情况已经足以令人非常震惊。毕竟,在算力方面能够和 RSC 相提并论的其它超级计算机,均由中国、美国、日本的国有研究机构运作——而 RSC 是前五里唯一来自于私营机构的超算系统。
这还没完:这台超级计算机,还在以惊人的速度,变得更快、更强。
Meta 预测,到今年7月,也即半年之内,RSC 的算力将实现2.5倍的增长。另据专业机构 HPCwire 估计,Meta 的 RSC 超级计算机,其运行 Linpack benchmark 的算力将有望达到220 PFlops。
如无意外,RSC 将成为名副其实的“全球最快 AI 超级计算机”。

为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
AI 研发进入“超算”时代首先需要回答一个问题:
什么样的 AI 研究,需要如此强大的超级计算机?
一般的模型,或许可以在一般的电脑或普通的数据中心里,用一块或是几块显卡就可以完成训练。而 Meta 正在研究的,是比目前的模型参数量要大得多,性能要求更高、更严格,训练花费时间更久的——超大模型。
以识别有害内容为例:CV 算法需要能够以更高的采样率,处理更大、更长的视频;语音识别算法需要在极大噪音的复杂背景下达到更高的识别准确度;NLP 模型要能够同时理解多种语言、方言和口音,等等……
在过去,许多算法在跑分数据集上都得到了不错的成绩。然而,Meta 是一家几大洲十亿级别用户量的公司,它必须确保同一个模型投放到生产环境中能够最大限度保证普适性。所以,一般模型不够用了,现在要训练大模型。
训练大模型,需要大算力——问任何一个从事大模型研究的人,你都会得到这样的答案。毕竟过去的训练任务用几周能够完成,可在今后,面对新的大模型,我们可等不起几年……
“在今天,包括识别有害内容等在内的许多重要的工作,都对于超大模型产生了极大的需要,”Meta 在其新闻稿中写道,“而高性能计算系统是训练这些超大模型的重要组件。”
Meta 此次发布的超级计算机 AI RSC,全称为 AI Research SuperCluster(人工智能研究超级计算集群)。
虽然 Meta 在今天首次公开宣布推出这一系统,实际上 RSC 的前身版本最早在2017年就已经在 Facebook 公司内部投入生产使用了。当时,Facebook 团队采用了2.2万张英伟达 V100 Tensor GPU 组成了首个单一集群。该系统每天可以运行大约3.5万个训练任务。
据 HPCwire 预计,这个基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮点计算性能应该已经达到了135 PFlops。这个水平在全球超算排行榜 Top500 的2021年11月排名中,已经足以排到第三名了,也即其算力可能已经超越了美国能源部在加州 Livermore 运作的“山脊”(Sierra) 超级计算机。
不过,对于 Meta 来说,这还远远不够。他们想要的,是世界上最大、最快、最强的 AI 超级计算机。
这台超算还必须要达到生产环境的数据安全级别,毕竟在未来,Meta 的生产系统所用的模型可能直接在它上面训练甚至运行。
并且,这台超算还需要为用户——Meta 公司的 AI 研究员——提供不亚于一般训练机/显卡的使用便利性,和流畅的开发者体验。

为迎接超大模型时代,Meta 想要打造“全球最快 AI 超算”
文章插图
2020年初,Facebook 团队认为当时公司的超算集群难以跟上未来大模型训练的需要,决定“重新出发”,采用最顶尖的 GPU 和数据传输网络技术,打造一个全新的集群。
这台新的超算,必须能够在大小以 EB(超过10亿GB)为单位的数据集上,训练具有超过万亿参数量的超大神经网络模型。
(例如,中国科研机构智源 BAAI 开发的“悟道”,以及谷歌去年用 Switch Transformer 技术训练的混合专家系统模型,都是参数量达到万亿级别的大模型;相比来看,此前在业界非常著名的 OpenAI GPT-3 语言模型,性能和泛用性已经非常令人惊讶,参数量为1750亿左右。)
Meta 团队选择了三家在 AI 计算和数据中心组件方面最知名的公司:英伟达、Penguin Computing,和 Pure Storage。