openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷


openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
openai|人类算力天花板?1750 亿参数的 AI 模型 GPT-3 引爆硅谷
文章图片
这几天轰动硅谷的GPT-3是什么来头?
相信不太了解 AI 的朋友这几天也或多或少看到了一些关于 GPT-3 的重磅消息 , 甚至有媒体称其为 “继比特币之后又一个轰动全球的现象级新技术” 。
请注意 , 现在站在你面前的是:互联网原子弹 , 人工智能界的卡丽熙 , 算力吞噬者 , 黄仁勋的新 KPI, 下岗工人制造机 , 幼年期的天网 —— 最先进的 AI 语言模型 GPT-3 。
1750 亿参数组成的训练模型言归正传 , OpenAI 的研究人员在上个月发表了一篇论文 , 描述了 GPT-3 的开发 , 正式发布了这个由 1750 亿个参数组成的 AI 语言模型 。
在 NLP 领域中 , 通常采用 ELMo 算法的思想 , 即通过在大量的语料上预训练语言模型 , 然后再将预训练好的模型迁移到具体的下游NLP任务 , 从而提高模型的能力 。 GPT 模型是 OpenAI 在 2018 年提出的一种新的 ELMo 算法模型 , 该模型在预训练模型的基础上 , 只需要做一些微调即可直接迁移到各种 NLP 任务中 , 因此具有很强的业务迁移能力 。
GPT 模型主要包含两个阶段 。 第一个阶段 , 先利用大量未标注的语料预训练一个语言模型 , 接着 , 在第二个阶段对预训练好的语言模型进行微改 , 将其迁移到各种有监督的 NLP 任务 , 并对参数进行 fine-tuning 。
简而言之 , 在算法固定的情况下 , 预训练模型使用的训练材料越多 , 则训练好的模型任务完成准确率也就越高 。
那么 1750 亿是什么概念?曾有人开玩笑说 , “要想提高 AI 的准确率 , 让它把所有的测试数据都记下来不就行了?” 没想到如今真有人奔着这个目标去做了……
在 GPT-3 之前 , 最大的 AI 语言模型是微软在今年 2 月推出的 Turing NLG , 当时拥有 170 亿参数的 Turing NLG 已经标榜是第二名 Megatron-LM 的两倍 。 没错 , 仅短短 5 个月的时间 , GPT-3 就将头号玩家的参数提高了 10 倍!Nivdia 的黄老板看了看年初刚画的产品算力曲线 , 发现事情并不简单 。
OpenAI 曾于 2019 年初发布 GPT-2 , 这一基于 Transformer 的大型语言模型共包含 15 亿参数、在一个 800 万网页数据集上训练而成组成 , 这在当时就已经引起了不小的轰动 。 整个 2019 年 , GPT-2 都是 NLP 界最耀眼的明星之一 , 与 BERT、Transformer XL、XLNet 等大型自然语言处理模型轮番在各大自然语言处理任务排行榜上刷新最佳纪录 。 而 GPT-2 得益于其稳定、优异的性能在业界独领风骚 。
而 GPT-3 的参数量足足是 GPT-2 的 116 倍 , 实现了对整个 2019 年的所有大型自然语言处理模型的降维打击 。
算力杀手GPT-3 的论文长达 72 页 , 作者多达 31 人 。 来自 OpenAI、约翰霍普金斯大学的 Dario Amodei 等研究人员证明了在 GPT-3 中 , 对于所有任务 , 模型无需进行任何梯度更新或微调 , 而仅通过与模型的文本交互指定任务和少量示例即可获得很好的效果 。