百度|十年增长700亿,数字人赛道如何转动增长飞轮?( 二 )


另一种是同时掌握技术和场景的大厂。
4月,随着中国首次火星探测任务的执行,百度联合航天发布全球首个火星车数字人“祝融号”,该数字人将被应用于知识科普、虚拟主持等多个场景来传递航天知识;
9月,华为发布了首个数字人“云笙”,参与到为华为云内部员工提供技术内容宣讲、答疑解惑等工作。并随后又推出了一款数字人开放平台;
10月,OPPO推出了小布虚拟人和小布虚拟人定制平台;
11月4日,腾讯发布了5款数智人产品,拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能,可提供定制化角色服务;
11月29日,百度代言人龚俊的虚拟数字人“俊俊”正式在百度APP上线,可以在APP内实现与用户的互动;
12月2日,网易云音乐上市现场,29岁的数字人“丁磊”和真实的丁磊,通过网易伏羲开发的沉浸式活动系统“瑶台”共同敲锣。
虽然同是掌握技术的公司,与大厂相比,AI技术公司缺乏C端入口和客户渠道的劣势依旧明显。大厂拥有更多的资源和资金,采取的打法一般是一边推出基于自身优势场景的数字人来打造应用标杆,一边推出数字人平台将产品继续落地到更细化的场景中,点、线互相推进。
面对众多玩家纷纷布局的现状,百度李士岩也向钛媒体APP阐述了选择平台化打法的思考:当下国内数字人发展存在着产业链效率较低、上下游生态未完全打通、缺乏标准化体系、缺乏平台等痛点,这也造成应用门槛居高不下。
百度智能云曦灵以平台为切入口,一方面通过平台化的方式让越来越多的数字人进入平台来均摊前期的投入成本;另一方面基于平台打造完整的生态链服务,助力破解行业痛点,将数字人的高门槛、高投入真正降下来。
四大AI引擎、三大平台目前基于曦灵平台的数字人已经在民生银行、交通银行,中国联通、央视网、中国航天局等多场景落地。在众多竞争者中,各家为什么会选择曦灵平台?
在回答这个问题之前,我们要先弄清楚什么才是数字人的本质?从最开始通过音频合成软件生成数字人到利用中之人驱动数字人再到现在的AI驱动,纵观数字人的发展路径不难发现:数字人的每一次迭代,本质上都是技术驱动的。
因此,更多落地场景和更逼真形象的背后是对技术更高的要求:
首先,在交互维度上,要保证数字人在真实环境下能听能说能交互。
这也就揭开了曦灵的第一层优势:四大AI引擎。通过人像驱动引擎、自然对话引擎、语音交互引擎、智能推荐引擎实现数字人能听能说能理解能互动。
能听能说。目前百度语音识别ASR(Automatic Speech Recognition)的准确性能够达到98%以上,语音合成TTS(Text To Speech)方面既支持用20句话定义一个新的声音,还支持用更多的数据来进行更精细化的训练,这样既可以轻量化的满足需求,又能保证声音还原度。李士岩透露,今年百度还最新研发了人工智能变声器,可以将一个人的声音音色特征保留下来,这样就可以发挥更多“人”的创造性。
能理解。百度基于多年的搜索及知识图谱积累研发了基于百亿级训练参数的开放域对话平台PLATO-XL。这是当前最大规模的中英文对话模型,并再次刷新了开放域对话效果。
能互动。在传统的动画生产流程中,最难做的就是说话的部分,尤其是3D人像说话。但曦灵平台基于面部4D数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达98.5%。比如a和e这样发音非常接近的字母,都可以有细致的区分。
这些能力就像一个强大的底座,为百度数字人快速发展提供了底层支撑。
第二层优势,在于人像资产的生产维度。由于每一个人说话的样子跟表情是不一样的,如果依旧通过传统流程,即每一个面目表情都通过艺术家手雕或者线下扫描流程来做,既费人力也费物力,因此如何实现低成本、个性化且丰富的还原至关重要。
对此,百度在AI技术底座上,创建了3D写实、2D写实、3D卡通三条资产生产线,让曦灵较其它竞争者可以“多快好省”地支持更多风格的数字人。
客户可以根据需求快速选择不同的脸型、五官、发型、服装,通过组合搭配,在一定程度上解决3D资产创建成本较高的问题。现在曦灵平台上以AI驱动的2D数字人的生产周期已经从一个星期降到了几个小时,而AI驱动的3D虚拟偶像也从原来的两三个月缩短到一两个星期。
百度在2019年开始布局数字人业务,初期主要以金融、政务类客户为主,因此产品主要是服务型数字人,包括数字客服、数字理财专员、数字大堂经理、数字展厅讲解员等。