moe是什么意思(moe是什么意思中文人名)

艺术经纬:我太困了,桃子 。
【新智元简介】AI大模型环球影城正式开业!汽车和霸天虎聚集在一起 。这一次,不是为了塞伯坦,也不是为了元宇宙,而是为了“火种源”的疯狂争夺 。在现实世界中,AI巨头们也在为这个大模型,生命之源,无休止地争斗 。
AI大模型领域的环球影城正式开业!

汽车和霸天虎云集,这次不是为了赛博坦,而是为了“火种源”的疯狂争夺 。

在现实世界中,AI巨头们也在为这个“生命之源”——大模型而战,为登顶而战 。
300亿参数,烧4480个NVIDIA GPUs,威震天-图灵(MT-NLG)可以说是目前更大的语言模型 。此外,GPT-3拥有1750亿个参数,浪潮“源10”拥有2457亿个参数 。...
自2018年Google推出BERT模型以来,语言模型越做越大,仿佛没有尽头 。短短几年,模型参数从最初的3亿扩展到万亿量级 。
然而,这并不是结束,对“火种源”的争夺还在继续 。
那么,这些AI巨头到底在争什么,在探索什么呢?
大模型是正确的 吗?
下一个模型有多大?∞
从国外来看,2018年Google提出了3亿参数的BERT模型,将自然语言处理提升到了前所未有的新高度 。
可以说是谷歌先掀起了一股大模特热潮 。

【moe是什么意思(moe是什么意思中文人名)】紧接着,2019年初,OpenAI推出了GPT-2150亿参数,可以生成连贯的文本段落,实现初步的阅读理解和机器翻译 。
有英伟达威震天-LM的83亿个参数,谷歌T5模型的110亿个参数,微软图灵-NLG模型的170亿个参数 。
这些模型一次次不断刷新参数尺度的数量级,但2020年将成为这个数量级的分界线 。
GPT-31750亿参数的大火,其规模达到了1000亿的水平,几乎与人类神经元的数量相匹配 。
会写诗,会聊天,会生成代码之类的,什么都会 。

近日,微软和英伟达联合发布了拥有5300亿个参数的威震天-图灵自然语言生成模型(MT-NLG) 。
同时号称获得了单个Transformer语言模型领域的“更大”和“最强”两个称号 。

除了千亿级的稠密单体模型,还有万亿级的稀疏混合模型 。
如果把单一模式比作珠穆朗玛峰,那么混合模式就是喜马拉雅山的其他小峰 。
今年年初,谷歌推出了1.6万亿参数的Switch Transformer 。致远《悟道2.0》1.75万亿参数再次刷新万亿参数规模纪录 。
多么“百家争鸣”的趋势 。
为什么会这样?总之,大模式是大势所趋,是必须要争取的高地!
现在这个大模型的盛世,很像深度学习的时代 。
就像十几年前深度学习的兴起一样,国内外的AI巨头看到了这项技术的未来,于是纷纷来到这里,各种深度学习的模型不断涌现 。
现在,大模式只会变得越来越快 。
NLP单体模型大PK
那么,为什么要对比这些模型呢?
在讨论这个问题之前,我们需要知道大模型都有哪些种类 。
比如从模型架构的角度:单体和混合;功能:NLP,CV,对话等 。

其中,Google“Switch Transformer”使用混合专家(MoE)模型对模型进行分割,结果是一个稀疏激活模型 。虽然节省了计算资源,但是很难提高精度 。


目前自然语言处理领域单个大模型的顶级流有“GPT-3”、“MT-NLG”和“Source 1.0” 。

https://arxiv.org/pdf/2110.04725.pdf
但是中英文模式还是有很大区别的 。
在自然语言理解方面,汉语的训练难度更大,因为分词 不同,同一短语歧义不同,生词歧义不同 。
比如分词难度:中国科学技术大学;中国科学技术大学;中国科技大学 。这三种不同的分词形式所表达的意思大相径庭 。这只是其中之一 。
所以中国NPL模型的训练难度要高于同量级的英文模型 。
想做就做更大 。
英语高质量文本数据集可谓五花八门 。
那堆东西;配有HackerNews、Github、Stack Exchange、ArXiv甚至YouTube字幕;普通爬行;,一个包含超过50亿条网页元数据的数据平台;你甚至可以使用Reddit论坛的内容进行培训 。
以The Pile为例,它包含825GB的多样化开源语言建模数据,由22个小而高质量的数据集组成 。

GPT-3采用了规模超过292TB和499亿令牌的数据集 。

代币(十亿)
纪元
有效规模(TB)
通用爬网(www)
410.00
0.44
180.40
文本(Reddit链接)
19.00
2.90
55.10
书籍2 (Libgen或类似产品)
55.00
0.43
23.65
Books1/BookCorpus (Smashwords)