moe是什么意思(moe是什么意思中文人名)( 二 )


12.00
1.90
22.80
(事实)
3.00
3.40
10.20
相当于
499.00
292.15
MT-NLG使用了15个数据集,总共包含3390亿个令牌 。

相比之下,中国的训练数据要少得多 。
更大的开源项目CLUECorpus2020仅包含100GB的高质量数据集 。

https://github.com/CLUEbenchmark/CLUECorpus2020
为了获得高质量的数据集,源码1.0的团队开发了一套大数据过滤系统(MDFS),包括数据采集、粗过滤和精过滤三个部分 。

数据预处理流程图
数据主要来源于普通爬虫、搜狗新闻、搜狗互联网语料库版(SogouT,2016)、百科数据和图书数据 。

要清理的原始数据
在对原始语料进行粗略筛选后,团队训练了一个基于Bert的模型,对高质量、低质量和广告内容进行分类,并辅以人工筛选 。

精细过滤后的高质量语料库规模
最后得到了一个5TB的高质量中文数据集,包含了中国互联网过去五年的所有内容,近2000亿字 。

计算效率up!
有了数据集和模型,现在就可以谈训练了 。
最新的MT-NLG搭载560台DGX A100服务器,每台服务器有8个NVIDIA A100 80GB张量核心图形处理器,即4480块A100显卡 。每个GPU的计算能力直接飙升到每秒113万亿次浮点运算 。
GPT-3的训练是在超过285000个CPU核和超过10000个GPU上完成的 。在训练过程中,GPU达到每秒2733亿次浮点运算 。
“源码1.0”只用了2128个GPU,仅用了16天就完成了训练 。
这是怎么做到的?
源码1.0团队创新性地采用了张量并行、流水线并行、数据并行的三维并行策略 。

平行张量
在张量并行策略中,模型的层在节点中的设备之间划分 。当变换器结构进行正向计算和反向传播时,注意层和多层感知器层的张量会按行或列拆分 。输入张量首先被发送到每个加速器,在那里每个张量被独立地向前计算 。

并行流水线
Pipeline将LM的层序列并行划分在多个节点中,解决存储不足空的问题 。每个节点都是管道中的一个阶段,它接受前一阶段的输出,并将结果发送到下一阶段 。如果前一个相邻节点的输出没有准备好,则当前节点将处于空空闲状态 。

数据并行性
当采用数据并行时,根据流水线分组来划分全局批处理大小 。每个管线组包含一个模型副本,数据根据本地批处理比例发送到组中的模型副本 。
从结果来看,“源1.0”的训练总共消耗了约4095PD(PetaFlop/s-day),相比“GPT-3”的3640PD大大提高了计算效率 。
零样本和小样本学习“忽略列表”
为什么说大款的时候会提到这两个货?
原因很简单,人类只通过一个或几个例子就可以很容易地建立对新事物的认知,而机器学习算法通常需要成千上万的监督样本才能保证其泛化能力 。
是否具备从少量样本中学习和总结的能力,是区分人工智能和人类智能的一个明显分界点 。其中,零样本学习可以判断计算机是否具有人类推理和知识传递的能力,可以在没有任何训练数据的情况下识别一个从未见过的新事物 。
简单来说,零样本学习就是训练好的分类器不仅能识别训练集中已有的数据类别,还能区分未知类别的数据 。小样本学习就是用远小于深度学习所需的数据样本,达到接近甚至超越大数据深度学习的效果 。

“GPT-3”和“MT-NLG”都强调这两方面的学习能力 。
当然,两者的区别在于,作为SOTA前身的“GPT-3”是被“NLG山”以微弱优势“干掉”的 。

“GPT-3”在LAMBDA和PIQA测试集上的成就

MT-NLG在LAMBDA和PIQA测试集上的成就
《源码1.0》虽然不能直接与两者相提并论,但它在中文更大的语言评测基准——CLUE上的评分还是很有说服力的 。
在ZeroCLUE的零样本学习榜单中,“源码1.0”以超过行业更好成绩18.3%的绝对优势遥遥领先 。在文献分类、新闻分类、商品分类、母语汉语推理、成语阅读理解空和名词代词关系六项任务中获得冠军 。

在FewCLUE的小样本学习清单中,“源1.0”获得了文档分类、商品分类、文档摘要识别和名词代词关系四个任务的冠军 。

毕竟刷榜就是刷榜 。虽然成绩很好,但在实战中还是很容易被人类“看穿” 。

但其实从成绩单上的分数可以看出,英中模特和人类还是有很大差距的 。
尤其是在情感理解和话题表达没有具体规律的情况下,比如诗歌、故事写作等等 。
大模型,去哪里?