人工智能|Yoshua Bengio 、吴恩达等AI大牛预见2022年人工智能趋势


人工智能|Yoshua Bengio 、吴恩达等AI大牛预见2022年人工智能趋势
文章插图
图片来源@视觉中国
文 | AI商业评论
2021年AI技术变革的步伐加快,这一势能势不可挡,2022年将继续加速。
IDC报告预测,2021年~2025年期间,全球人工智能年复合年增长率接近24.5%。
从技术维度看,根据全球知名编程语言社区TIOBE指数,人工智能主编程语言Python在2021年可谓“轰轰烈烈”,它超过Java成为世界上最受欢迎的语言。全球知名数据科学平台Anaconda分析师表示,“Python将继续滑入我们的生活”。
2022年,硬科技时代拉开帷幕,一起看看图领奖获得者Yoshua Bengio、前百度AI研究院院长吴恩达、Meta AI研究中心主任Joelle Pineau等专家们认为人工智能世界接下来会发生什么:
吴恩达看2022年AI趋势:多模态AI起飞、参数破万亿模型会更多AI专家吴恩达日前在DeepLearning.AI平台分享了2022年AI趋势预测,第一就是多模态AI将起飞。
多模态是指不同类型的数据资料,比如文字、影像、音讯、影片等。在过去,AI模型几乎只能处理单一模态任务,比如只限于文字或视觉。但2021年出现不少多模态AI成果,比如OpenAI发表的CLIP和DALL·E模型,能同时处理文字和影像,靠输入文字就能产生图片;DeepMind的Perceiver IO对文本、图像、视频及点云进行分类;斯坦福大学的ConVIRT尝试为医学X射线影像添加文本标签。
虽然这些新的多模态系统大多处于实验阶段,但也已经在实际应用中取得突破。
例如开源社区将CLIP与生成对抗网络(GAN)相结合,开发出引人注目的数字艺术作品。艺术家Martin O’Leary使用Samuel Coleridge的史诗作品《忽必烈大汗》为输入,生成了充满迷幻色彩的“Sinuous Rills”。
Facebook表示,它的多模态言论检测器能够标记并删除社交网络中97%的辱骂和有害内容,该系统能够根据文本、图像和视频在内的10种数据类型将图像-文本配对分类为良性或有害。
谷歌也表示,将为其搜索引擎添加多模态功能。它的多任务统一模型可以处理文本、音频、图像和视频内容,用户可以通过75种语言中的任何一种语言使用。
在GTC 2021期间,英伟达宣布推出NVIDIA Omniverse Avatar,一个用于生成交互式AI化身的技术平台。Omniverse Avatar集合了英伟达在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术,为创建人工智能助手打开了大门,可以帮助处理数十亿的日常客户服务互动。
多模态研究可追溯至数十年前,1989年约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员开发了一种系统,可以根据人们说话的音频和视觉数据对元音进行分类。在接下来的二十年里,研究团队尝试了多模态应用,例如搜索数字视频库和基于视听数据对人类情感进行分类。
因为图像与文本均非常复杂,研究人员在很长一段时间内只能专注于其中一种。但过去十年中,计算机视觉与自然语言处理已经在神经网络中得到有效融合,这让二者的最终合璧成为可能。
过去一年,我们还见证了大型语言模型的巨大进步,而且这场军备竞赛将在2022年继续进行。
早在2019年,OpenAI的GPT-2成为第一个拥有超过10亿个参数的模型(其15亿个参数在当时看起来大得令人难以置信)。2020年,GPT-3风靡AI社区,它拥有1750亿个参数,让之前的一切相形见绌。但GPT-3作为最大的AI模型的统治并没有持续多久,2021年,谷歌Switch Transformer模型(1.6万亿参数)和北京智源研究院“悟道”(1.75万亿参数)模型打破万亿参数壁垒。
市场预计明年大型语言模型的规模将继续增长。2022年最大的模型很有可能来自 OpenAI:GPT-4。
吴恩达认为,2022年将出现更多参数破万亿的模型,过去一年,模型从大型往更大型发展。单纯增加参数并无好处,但随着算力和数据资源的增长,深度学习发展出“越大越好”的原则。于是,财力雄厚的AI大厂们奋力斥资研发超大模型,特别是NLP领域模型。但是,构建越来越大的模型也带来挑战,开发者必须克服四个巨大的障碍:
数据:大模型需要大量数据,网络或者公开数据集等大型来源缺乏高质量数据。例如,BookCorpus是一个包含11000本电子书的数据集,已被用于训练30多个大型语言模型,但它缺乏讨论基督教和伊斯兰教以外信仰的文本,可能会传播对某些宗教的偏见。行业越来越意识到数据质量至关重要,但尚未就编译大规模、高质量数据集的有效方法达成共识。
速度:今天的硬件难以处理庞大的模型,当Bit反复进出内存时,这些模型可能会陷入困境。为了减少延迟,Switch Transformer背后的Google团队开发了一种方法,可以为每个Token处理选定模型层子集。他们最佳模型预测速度比参数数量只有其1/30的模型快66%。同时,微软开发了DeepSpeed库,它可并行处理数据、单个层和层组,并通过在CPU和GPU之间划分任务来减少冗余处理。