同行|这家不到三岁的中国AI研究院,要和世界最牛同行同台竞技?

本文来自微信公众号“硅星人”(guixingren123),作者:光谱 杜晨
要论 AI 基础科研哪家强,相信业内人士都会想到谷歌、OpenAI、DeepMind,以及那几家由深度学习三剑客领衔的顶级大学和研究院。
特别是 OpenAI,最近几年进展突飞猛进,去年发布了文本生成模型 GPT-3,有着天文数字级别的1,750亿参数量,应用在各种场景下的效果之优秀,令人震惊。OpenAI 汇集了许多AI大神,还锁定了10亿美元投资承诺,是当之无愧的全球 AI 基础科研领域领头羊。
然而,就在这周,在太平洋的彼岸,一家创立至今还不足三年的中国研究院,居然想要和 OpenAI 同台竞技。
北京智源人工智能研究院(以下简称 BAAI),一家2018年成立的新型研发机构,本周发布了“悟道2.0”——中国首个+世界最大超大规模预训练模型,达到了前所未有的1.75万亿参数。

  • 悟道2.0训练的1.75亿参数量,达到了此前最优的 GPT-3 的足足十倍,也超越了今年年初谷歌1.6万亿参数量的超大模型 Switch Transformers。
  • 在国际公认的9项的机器学习任务“跑分”项目上,悟道2.0都取得了优异成绩,超过了 GPT-3、Google ALIGN 等领域内同类技术。

同行|这家不到三岁的中国AI研究院,要和世界最牛同行同台竞技?
文章插图
  • 悟道2.0不仅能够像 GPT-3 那样生成各种形态的文本,还可以完成多种图像生成的任务。
  • 更重要的是,由于训练参数量极大,悟道2.0已经体现出对多种任务的适应能力,可以比其它模型更加轻松地“迁移”到新的任务上,而不仅限于文本和图像生成——朝着通用人工智能迈出了一大步。
这个模型到底有多神奇?BAAI 又是一家怎样的机构?让我们来深入了解一下:
巨模型、快算法、大数据集:中文版AI“全家桶”悟道2.0是一个多模态模型,多个子模型在算法、训练数据上同源,但在不同方向上取得了优秀的成绩,推动着深度学习技术和通用人工智能这一终极目标之间的边界。
“传统”的深度学习神经网络模型,往往只适合做同一类型的任务,比如图像识别、语音识别、文字生成等,在跨“专业”上的表现一般不会太理想;而悟道2.0可以同时处理文字生成和图像生成这两种方向完全不同、内在原理迥异的困难任务。
在本周举办的年度学术和行业大会上,BAAI 方面演示了悟道2.0已经具备了写诗、对联、策论、图生文、文生图等多种生成式能力,并且透露,模型在一些困难任务上已经接近于击败图灵测试的水平。
硅星人采访人员在现场体验了三项测试,每项5道题,题目的格式是区分出两段文字或者两张生成的图片当中,谁的作者是真人,谁的是机器——我们的成绩是5/5(诗词)、1/5(策论)和 1/5(文生图)。
图灵测试更偏主观,而在各项 Benchmark 上击败此前最优模型,确实是悟道2.0取得的客观成就。
目前,悟道2.0已经在 ImageNet 图像零样本上取得了最优成绩,超越OpenAI 的 CLIP 技术;在 MSCOCO 数据集上文字生成图片任务中,悟道2.0的40亿参数量子模型 CogView,攻克了“上下溢收敛”这一关键难题,性能超越了具有130亿参数量,被誉为第三代深度学习技术代表的 OpenAI DALL-E 模型。
在多语言图文检索、完形填空、知识探索其它多项任务的 benchmark 当中,悟道2.0也击败了 Google、微软、加州大学等顶尖机构开发的当前性能最优模型。
同行|这家不到三岁的中国AI研究院,要和世界最牛同行同台竞技?
文章插图
悟道2.0强大的能力,源自于史无前例般巨大的训练参数量。1.75万亿参数这个级别,即使采用最新的专门深度学习计算硬件和分布式计算方法,也非常艰难。而悟道2.0实现壮举的背后有两大功勋:1)独创式的训练算法 FastMoE,2)中国超级计算机的计算力量。
FastMoE 是 BAAI 团队自主开发的高性能混合专家层系统 (Mixture of Experts, MoE) ,包含480个专家层,从而实现了1.75万亿参数量。
简单来说,MoE 是谷歌2017年提出的,一种能够让神经网络训练参数量显著增长的核心技术,也是也是今年年初谷歌发布的 Switch Transformers 模型——第一个万亿级参数量神经网络模型——的核心。
但是谷歌的 MoE 技术依赖谷歌自己的 TPU 硬件和训练框架,对于外部机构来说使用起来门槛颇高。
所以 BAAI 团队开发并开源了 FastMoE 算法,支持目前最为主流的 PyTorch 框架,并且包含专门优化的 CUDA 代码,让 AI 研究者和开发者用 GPU 也可以借助 MoE 的力量训练模型。
同行|这家不到三岁的中国AI研究院,要和世界最牛同行同台竞技?
文章插图
另外,悟道2.0本身的训练过程,也获得了中国超级计算机项目的帮助。事实上,它也是中国团队首次在100%国产的超级计算机上训练出来的深度神经网络模型。