为迎接超大模型时代，Meta 想要打造“全球最快 AI 超算” 链接|工信部|淘口令|火星文|电

Meta 不仅是全球最大的社交网络公司，和当下最热门技术概念“元宇宙”的推行者，它同时也是人工智能（AI）研究的全球顶级公司之一。
该公司在 AI 方面卓越研究成果的背后，必然有强大的算力支持。不过一直以来，Facebook 从未对外界公开展示过其算力究竟有多厉害。
而在今天，Meta 公司突然对外宣布了其在打造 AI 超级计算机方面的最新进展。
根据 Meta 此次公开透露的结果，其打造的超级计算机 AI RSC，目前算力在全球应该已经排到了前四的水平。
这个情况已经足以令人非常震惊。毕竟，在算力方面能够和 RSC 相提并论的其它超级计算机，均由中国、美国、日本的国有研究机构运作——而 RSC 是前五里唯一来自于私营机构的超算系统。
这还没完：这台超级计算机，还在以惊人的速度，变得更快、更强。
Meta 预测，到今年7月，也即半年之内，RSC 的算力将实现2.5倍的增长。另据专业机构 HPCwire 估计，Meta 的 RSC 超级计算机，其运行 Linpack benchmark 的算力将有望达到220 PFlops。
如无意外，RSC 将成为名副其实的“全球最快 AI 超级计算机”。

文章插图
AI 研发进入“超算”时代首先需要回答一个问题：
什么样的 AI 研究，需要如此强大的超级计算机？
一般的模型，或许可以在一般的电脑或普通的数据中心里，用一块或是几块显卡就可以完成训练。而 Meta 正在研究的，是比目前的模型参数量要大得多，性能要求更高、更严格，训练花费时间更久的——超大模型。
以识别有害内容为例：CV 算法需要能够以更高的采样率，处理更大、更长的视频；语音识别算法需要在极大噪音的复杂背景下达到更高的识别准确度；NLP 模型要能够同时理解多种语言、方言和口音，等等……
在过去，许多算法在跑分数据集上都得到了不错的成绩。然而，Meta 是一家几大洲十亿级别用户量的公司，它必须确保同一个模型投放到生产环境中能够最大限度保证普适性。所以，一般模型不够用了，现在要训练大模型。
训练大模型，需要大算力——问任何一个从事大模型研究的人，你都会得到这样的答案。毕竟过去的训练任务用几周能够完成，可在今后，面对新的大模型，我们可等不起几年……
“在今天，包括识别有害内容等在内的许多重要的工作，都对于超大模型产生了极大的需要，”Meta 在其新闻稿中写道，“而高性能计算系统是训练这些超大模型的重要组件。”
Meta 此次发布的超级计算机 AI RSC，全称为 AI Research SuperCluster（人工智能研究超级计算集群）。
虽然 Meta 在今天首次公开宣布推出这一系统，实际上 RSC 的前身版本最早在2017年就已经在 Facebook 公司内部投入生产使用了。当时，Facebook 团队采用了2.2万张英伟达 V100 Tensor GPU 组成了首个单一集群。该系统每天可以运行大约3.5万个训练任务。
据 HPCwire 预计，这个基于 V100 GPU 的前身版本，按照 Linpack benchmark 的浮点计算性能应该已经达到了135 PFlops。这个水平在全球超算排行榜 Top500 的2021年11月排名中，已经足以排到第三名了，也即其算力可能已经超越了美国能源部在加州 Livermore 运作的“山脊”(Sierra) 超级计算机。
不过，对于 Meta 来说，这还远远不够。他们想要的，是世界上最大、最快、最强的 AI 超级计算机。
这台超算还必须要达到生产环境的数据安全级别，毕竟在未来，Meta 的生产系统所用的模型可能直接在它上面训练甚至运行。
并且，这台超算还需要为用户——Meta 公司的 AI 研究员——提供不亚于一般训练机/显卡的使用便利性，和流畅的开发者体验。

文章插图
2020年初，Facebook 团队认为当时公司的超算集群难以跟上未来大模型训练的需要，决定“重新出发”，采用最顶尖的 GPU 和数据传输网络技术，打造一个全新的集群。
这台新的超算，必须能够在大小以 EB（超过10亿GB）为单位的数据集上，训练具有超过万亿参数量的超大神经网络模型。
（例如，中国科研机构智源 BAAI 开发的“悟道”，以及谷歌去年用 Switch Transformer 技术训练的混合专家系统模型，都是参数量达到万亿级别的大模型；相比来看，此前在业界非常著名的 OpenAI GPT-3 语言模型，性能和泛用性已经非常令人惊讶，参数量为1750亿左右。）
Meta 团队选择了三家在 AI 计算和数据中心组件方面最知名的公司：英伟达、Penguin Computing，和 Pure Storage。