框架|百度要为中国AI的黄金十年搭好桥造好路
改革开放之初,有一句脍炙人口的口号叫作“要致富先修路”。
这句话很好理解,简单来说,人们想要致富,需要把本地的资源变成财富,这就需要和外界交流沟通,外界的资金、人才能通过一条条路走进来,本地的资源、商品也能通过一条条路运输出去,所以要打通本地与外界联系的关键就在于修路。
过去全国还没有高速公路,普通的公路也通行条件不足,一直到八十年代道路基建才在全国各地大规模展开,我国的经济也随之迅猛增长,将城市、乡村相互连接起来的万千道路使得各区域间互联互通,商品流通更加便捷,大大推动了地方经济的发展和群众生活的改善。
如果说一条条公路的建成是经济腾飞的大动脉,那么在信息化时代,互联网技术则是数字经济发展的重要枢纽。如今,随着移动互联红利的消退,元宇宙、Web3.0、人工智能、量子信息等各类新老概念提法涌出,人们迫切想抢先一步抓住下一个世代技术发展的关键要素,换一句话说,面向未来的技术发展中,“路”是什么呢?
知识增强大模型让AI走向通用性
《奇点临近》的作者雷·库兹韦尔曾在书中表示:“2045年左右,人工智能将会来到一个'奇点',跨越这个临界点,人工智能将超越人类智慧,人类历史将会彻底改变。”12月27日,百度创始人、董事长兼CEO李彦宏在百度Create 2021(百度AI开发者大会)演讲中表示,“人机共生”时代,中国将迎来AI黄金十年。
人工智能的“奇点”将给人类带来什么现在不得而知,但人工智能确实在当今人类社会扮演的角色愈加重要,其背后的关键原因正是人工智能正变得越来越“聪明”,这种“聪明”不仅指的是AI背后的模型更加智能,而且代表AI具备了一定的自主学习和推算功能,能在更广阔的范围内得到应用。
简单来说,决定一个人工智能模型是否“聪明”好用的关键一个在于算法本身,另一个则是算法背后用于训练算法的数据广度和深度。这就客观要求如今的AI模型有着更广的数据来进行训练,同时通过系列知识图谱来保证单纯追求参数量基础上模型的学习效率和质量。
AI过去在各行各业落地周期长的的一个原因就在于,传统AI模型泛化性差、依赖昂贵的人工标注数据、落地成本高等问题,如果想要扩大一个模型的应用范围,时常会出现如A模型往往专用于特定A领域,将A模型应用到领域B时效果并不好这样的问题。
大模型的出现提供了一种“预训练大模型+下游任务微调”的方式,来有效扩展模型的通用性。这也是为何大型模型近年来越来越受欢迎,如OpenAI就推出1750亿参数的AI模型GPT-3,GPT-3耗费了千万美元对人类的诗歌、小说、新闻等海量自然语言进行训练(主要是英语),也因此GPT-3对自然语言具备了一定程度的理解能力。
不久前,百度发布文心系列产业级知识增强大模型,并联合鹏城实验室重磅发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心,该模型参数规模达到2600亿,相比GPT-3的参数量提升50%。是目前全球最大中文单体模型,在60多项NLP任务中取得世界领先效果。
文章插图
除了在中文世界首屈一指高达2600亿的参数训练规模,“知识增强”是文心大模型的核心特色。如今的AI在某些领域上获取知识的速度和广度都已远超人类,但这是否代表着AI能如同人类一样认识世界、感知世界并能举一反三对世界做出反馈呢?这是人工智能领域数十年来一直在争论的问题。
如果想让计算机像人类一样理解和认知世界,首先需要让计算机具备获取、运用知识的能力。传统的大模型虽然参数量很大,但只是死记硬背海量文本的规律,这些模型并不能从本质上理解世界是怎样运行的,仅仅解决了一些文本表象上的问题。
百度知识增强大模型能够从大规模知识和海量无结构数据中融合学习,学习效率更高、效果更好,具有良好的可解释性。某种意义上来说,通过知识增强,使模型能够在一定程度上更好地理解世界是怎么运行的,也就更加智能。
这背后,是百度在知识图谱领域的十余年积累。百度早在2011年就开始研发知识图谱技术。截至目前,构建了包含5500亿知识的大规模知识图谱,覆盖生活的方方面面,也包括制造、医疗、法律、 金融、科技、媒体等领域的专业知识。
此外,人类的历史上有成千上万种语言,机器要想理解真实世界,也需要学习和理解多种语言的能力。人类是通过语言、语音、视觉等多种模态获得对真实世界的统一认知,机器如果想要理解真实世界也需要听懂语音、看懂图像视频,这就需要突破不同模态、异构信息的语义融合统一难题。可以简单理解为,机器需要综合理解文字、语言、图像、视频等不同媒介的信息。
- CPU|Intel要推CPU氪金:花钱解锁额外功能、Linux内核率先支持
- 全面屏|春季打造12代酷睿主机要注意,机电散你知道该怎么选择吗?
- CPU|别只看跑分和处理器,买手机搞清这几点,要少花冤枉钱
- 小钢炮|等等党再坚持一下:RTX40显卡10月上市,但价格要涨一波
- 心跳|吴京代言后中兴爆发,也要自研芯片了?红魔红芯1号将亮相
- 程序员|为什么程序员会有代码能跑就不要动的观点?是有毒吗?还是怎样?
- 一加科技|不是网友恶搞,一加还注册了这些商标?2022要做到游戏体验第一
- iPad|你的下一台 iPad,要变 MacBook 了
- 小米科技|小米10到底要不要尝鲜MIUI13?看了用户更新体验后,建议等等
- iPhone|爆iPhone13mini元器件继续追加,难道苹果要继续更新mini系列?