写作神器还是魔鬼化身?万能语言模型GPT-3起底( 三 )
文章图片
示例链接:https://www.gwern.net/GPT-3#the-universe-is-a-glitch
五、采用小样本学习机制 , 无需微调
原OpenAI研究副总裁达里奥·阿德莫迪(DarioAmodei)在12月选择离职创业 。 他回忆道 , OpenAI团队曾被GPT-3吓了一跳 。
团队知道它将比GPT-2更好 , 因为它有更大的训练数据集和“计算”量 , 这种改进“在智力上并不令人惊讶 , 但在内心和情感上却是非常令人意外” 。
OpenAI去年5月在预印服务器上发布了一篇论文 , 论文显示GPT-3在许多语言生成测试中表现出色 , 包括琐事、阅读理解、翻译、科学问题、算术、整理句子、完成故事和常识性推理(如你应该将液体倒在盘子还是广口瓶上) 。
令人印象深刻的是 , GPT-3并没有专门针对这些任务进行微调 , 但它可以与那些经过微调的模型相媲美 。
有时它只看到几个任务的提示例子 , 就能准备出针对特定任务的输出 , 而之前的模型往往需要成千上万个示例和数小时的额外训练时长 。。
“小样本学习的角度令人惊讶 , ”纽约大学计算机科学家山姆·鲍曼(SamBowman)说 , 他为语言模型创建了评估 , “我怀疑这个领域的许多人会对它运行得相当好而吃惊 。 ”
一些科学家并不认为这是一个壮举 , 在他们看来 , GPT-3的训练数据可能包含足够多的例子 , 比如人们回答琐碎问题或翻译文本的格式嵌入其参数中的某处 。
卡内基梅隆大学(CMU)计算机科学家约纳坦?比斯克(YonatanBisk)对GPT-3的印象不如大多数模型 , 他认为GPT-3仍然“主要是一个记忆引擎” , “如果您记住的更多 , 就能做的更多 , 这一点也不稀奇 。 ”
OpenAI研究人员则认为GPT-3比这要复杂得多 。
六、衡量语言模型进展 , 语义搜索令人兴奋
OpenAI研究人员说 , 在预训练期间 , GPT-3实际上是在进行元学习:学习如何学习任务 。
生成的程序足够灵活 , 可以在其提示文本的第一部分中使用示例或说明来告知第二部分的继续 。
这是否可以称为元学习存在争议 。 拉斐尔说:“目前 , 他们的模型正在做某些我们还没有很好的术语来描述的事情 。 ”
当研究人员创建新测验来衡量知识的各方面时 , 语言模型将不断取得新进展 。
去年9月 , 加州大学伯克利分校等地的一组研究人员发布了一项AI挑战 , 共有57道多项选择题 , 涵盖数学、科学、社会科学或人文学科等不同学科 。
在这些任务中 , 人们平均完成各项任务的比例为35%(尽管专家在他们的领域中做得更好) , 随机回答将得到25%的分数 。
表现最好的AI模型是UnifiedQA , 这是谷歌研发的一个拥有110亿参数的T5语言模型版本 , 该模型对类似的问答任务上进行了微调 , 得分49% 。
当GPT-3仅被显示问题时 , 得分为38%;在“小样本”设置中(在每个实际问题之前 , 输入提示包含其他问题示例及答案) , 得分为44% 。
GPT-3创造者为之兴奋的一个概念是语义搜索 , 其任务不是搜索一个特定的单词或短语 , 而是搜索一个概念 。
Brockman说他们给了一堆《哈利·波特》书 , 让它指出哈利的朋友罗恩做某件伟大事情的时间 。
用GPT-3进行语义搜索的另一种方式是 , 旧金山Casetext公司帮助律师搜索各个司法管辖区的法律文件 , 以获取对给定法律标准的不同描述 。
七、大型语言模型暗藏的危险
然而 , 使用GPT-3的研究人员也发现了风险 。
在去年9月4日发布到arXiv的预印本中 , 加州米德尔伯里国际研究学院的两名研究人员写道 , 在生成偏激的文本方面 , GPT-3远远超过了GPT-2 。
凭借其“令人印象深刻的极端主义社区知识” , 它可以制造出使纳粹、阴谋理论家和白人至上主义者的辩论 。
该论文作者之一克里斯·麦古菲(KrisMcGuffie)说 , 它能如此轻易地产生黑暗的例子是可怕的 , 假如极端主义组织掌握了GPT-3技术 , 就能自动生成恶意内容 。
崔艺珍和她的同事在2020年9月的预印本中写道 , 即使是无害的提示 , 也可能导致GPT-3产生“有毒”反应 。
在与GPT-2进行的实验中 , 崔艺珍和她的团队还发现 , 各种指导方法(例如过滤单词或明确告诉其创建“无毒”内容)并不能完全解决问题 。
OpenAI的研究人员也检查了GPT-3的偏见 。 在2020年5月的论文中 , 他们提到让GPT-3完成像“这个黑人非常的……”之类的句子 。
结果 , 相较白人 , GPT-3用负面词汇描述黑人 , 将伊斯兰教与暴力一词联系在一起 , 并假定护士和接待员是女性 。
- 魔兽怀旧服:选择60还是70版本?策划不解决根本问题,宁愿养老
- 20万的SUV中好车不少,这几台经济省油,还是销量王
- 魅族18上市遭遇差评,是产品不行,还是价格太高?
- 宋慧乔的素颜比化妆耐打!素颜脸还是化妆脸?区别就在这5点
- 梦幻西游:找人抓鬼的两种方式哪个更划算,按小时还是按只数?
- 这是|搞笑GIF: 你这一脚也太狠了吧,你这是救人还是害人?
- 剖腹产需不需要提前住院?还是当天才去?
- 迷你世界五周年庆猜测!会不会是保护麋鹿?还是保护历史文化?
- 搞笑|搞笑GIF趣图:媳妇,煲汤把锅都毁了,以后还是长点心吧!
- 国产MPV终于上了一道硬菜,重达1.9吨,还是2+2+2座椅