IT之家 10 月 12 日消息 语言模型(Language Model)简单来说就是一串词序列的概率分布,主要作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。
大家之前可能或多或少听说过 GPT-3,OpenAI 最新的语言模型,堪称地表最强语言模型,也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品,而且业内其他企业也在努力推出自家的模型。
微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的最大和最强大的解码语言模型。
文章插图
IT之家了解到,作为 Turing NLG 17B 和 Megatron-LM 的继任者,这个模型包括 5300 亿个参数,而且 MT-NLG 的参数数量是同类现有最大模型 GPT-3 的 3 倍,并在一系列广泛的自然语言任务中展示了无与伦比的准确性,例如:
- 完成预测
- 阅读理解
- 常识推理
- 自然语言推理
- 词义消歧
据悉,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的,该超级计算机由 560 个 DGX A100 服务器提供支持,这些服务器以完整的胖树配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,通过 NVLink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。
文章插图
更多内容可查看微软和英伟达官方说明:
微软
英伟达
- 微距镜头|国产光学老蛙正式发布85mm F5.6 全画幅微距镜头
- 微单|摄影大大们,帮推荐个全画幅微单吧?
- 自动化|微软自带“神器”,可让系统自动化!你让它做啥就做啥
- 微单|动辄10999元!12GB运存+512GB+微单技术,索尼的定价只能服
- 量子处理器|微软联手毕马威 借助Azure Quantum提供优化解决方案
- 量子计算|从微商到直播,一个顶流江湖的兴衰
- 卡尔蔡司镜头|vivoX60Pro评测:蔡司+二代微云台,好看的照片信手拈来!
- 微信|私域引爆实体门店的增长——帮助门店打造立体的营销,拿下私域的市场
- 11|黑客公开Windows 11高危漏洞 只因微软赏金打折幅度过大
- 微信|引流私域流量