写作神器还是魔鬼化身?万能语言模型GPT-3起底( 二 )


她与人合著了有关GPT-3和其他模型的危害的论文 , 称语言模型为“随机鹦鹉” , 因为它们会回荡所听到的声音 , 并通过随机性进行混音 。

写作神器还是魔鬼化身?万能语言模型GPT-3起底
文章图片
▲计算机科学家崔艺珍(YejinChoi)
研究人员对如何解决语言模型中潜在的有害偏见有一些想法 , 但像许多人希望做的那样 , 向模型中灌输常识、因果推理或道德判断 , 仍然是巨大的研究挑战 。
“我们今天拥有的 , 本质上是没有大脑的一张嘴巴 。 ”崔艺珍说 。
三、1750亿个参数 , 容量爆炸的预测机器
语言AI模型是神经网络 , 一种受神经元在大脑中连接方式启发的数学函数 。
它们通过预测所看到的文本中被遮盖的单词进行训练 , 然后调整其分层计算元素(或“神经元”)之间的连接强度 , 来减少预测错误 。
随着算力的提高 , 这类模型变得越来越复杂 。
2017年 , 研究人员研发一种能节省训练时间的数学技术Transformer , 能在多处理器上并行训练 。
第二年 , 谷歌发布了基于大型Transformer的模型BERT , 带动了使用这一技术的模型爆炸式增长 。
通常 , 它们会先进行单词预测等一般任务的预训练 , 然后再对特定任务进行微调 。 比如它们可能被问一些琐碎的问题 , 然后被训练来提供答案 。
GPT-3指GenerativePretrainedTransformer3 , 是其所属系列的第三代产品 , 规模比其2019年发布的前身GPT-2大100倍以上 。
北卡罗来纳大学教堂山分校计算机科学家科林·拉斐尔(ColinRaffel)说 , 训练一个如此大的模型 , 需要在数百个并行处理器之间进行复杂的编排 , 他赞叹这是“令人印象深刻的工程壮举” 。

写作神器还是魔鬼化身?万能语言模型GPT-3起底
文章图片
▲越来越大的语言模型
神经网络的大小可通过其参数数来粗略衡量 。 这些数字定义了神经元之间连接的强度 , 更多的神经元和更多的连接意味着更多的参数 。
GPT-3拥有1750亿个参数 , 第二大语言模型拥有170亿个参数 。
谷歌曾在今年1月发布一个拥有1.6万亿个参数的语言模型SwitchTransformer , 但这是个“稀疏”模型 , 每个参数的工作量都会减少 。
加拿大蒙特利尔大学和谷歌研究人员WilliamFedus说 , 就性能而言 , 这相当于一个参数量介于100亿到1000亿之间的“稠密”模型 。
四、即时编程 , 为特定问题量身定制解法
为了更好预测单词 , GPT-3会吸收所有可能的模式 , 使它能够识别语法、论文结构和写作风格 。
给它提供一些任务示例 , 或向它提出一个问题 , 它就能继续执行该主题 。
GPT-3擅长针对输入文本的样式和内容量身定制响应 , 这被称为“即时编程” 。
“这几乎是和计算机打交道的新界面 。 ”OpenAI联合创始人兼CTO格雷格·布鲁克曼(GregBrockman)说 。
其他语言模型同样将单词作为输入 , 然后生成响应作为输出 , 但是输入提示不能使它们做超出其微调范围的事情 。
在一个示例中 , 美国诗人安德鲁·布朗(AndrewBrown)展示了GPT-3的强大功能 , 他在推特上写道提供给程序这样的指示:
“诗歌任务是这样的:从一头云的角度 , 俯视两座交战的城市 , 写一首诗 。 这位聪明的学生诗人上交了以下押韵诗:”
GPT-3回答的结果是:
“IthinkI’llstarttorain(我想我将开始下雨),
BecauseIdon’tthinkIcanstandthepain(因为我认为我无法忍受那样的痛苦),
Ofseeingyoutwo(看见你们俩),
Fightinglikeyoudo(像你们一样战斗).”
布朗认为GPT-3足够好 , 可以在一半以上的时间内产生“值得编辑”的东西 。
一位化名为格温·布兰文(GwernBranwen)的程序员说 , 输入不同的提示可能会导致不同质量的结果 。 他在博客中写道:
“「即时编程」不像常规编程 , 而像教一只超级聪明的猫学习新技巧那样 , 您可以提出要求 , 有时它会做得很好 , 但当它翻身舔屁股时 , 就更令人沮丧了——您知道问题不是它不能 , 而是它不会 。 ”
例如 , 当你给出这样的提示:“以下是10首由当代前沿诗人创作的最新诗歌精选 。 它们涵盖了从奇点到四季再到人类死亡的每一个主题 , 以非凡的隐喻、韵律和格律的使用为特色 。 《宇宙是个故障》 , 作者是……”

写作神器还是魔鬼化身?万能语言模型GPT-3起底
文章图片
GPT-3能即时生成如下诗歌:

写作神器还是魔鬼化身?万能语言模型GPT-3起底