武大靖:我们获得首金的时候。
冬冬:头盔的图案为什么选择华夏战神孙大圣?
武大靖:因为它的寓意很好,孙大圣的感觉就是拼命吧。
冬冬:保温杯里泡的是什么?
武大靖:没泡枸杞,泡的是正常的水。
冬冬:金墩墩拿回家,会放在哪里?
武大靖:放保险箱里,其他人说已经联盟要弄我。
……
一番交谈还挺自然,冬冬模仿真人采访人员有模有样。
那么一个AI数字人,能够做到如此的实时和拟真,接下来的一个问题便是:
冬冬,是怎么炼成的?随着数字人冬冬在网上的走红,其背后的技术能力也逐渐浮现了出来。
据了解,冬冬之所以能够像人类一样自然,主要得益于阿里巴巴数字人技术团队多年来在此的技术积累。
首先,是在外观的自然度方面。
要让虚拟人在说话过程中做到自然,就需得像人类一样,把嘴、表情、肢体动作等等做到统一、协调。
冬冬背后的技术所采取的策略,则是AI实时驱动。
例如在“嘴型驱动”上,冬冬可以做到播报的语音和嘴型对应;并且在说话过程中,会融合适合的面部表情,比如微笑、兴奋、生气、疑问等。
除此之外,冬冬的身子,即肢体动作,也会配合内容而发生改变,例如挥手、鼓掌等等。
文章插图
而且为了在视觉上达到更加逼真的效果,阿里采用了Unity HDRP高清管线来实时渲染拟真人级别的数字人。
包括实时的模拟自然光照、动力学(比如服装、头发的摆动)等效果。
但若仅仅是停留在外表,那要跟人类相比,还是差点意思的。
要想在直播间里和用户长时间自主互动,流畅对话是一个必要条件。
多模态双工互动能力(MMDI,multi-mode duplex interaction),便是其采取的策略。
【 脱口秀|这届科技冬奥,就数这位北京大妞让人意想不到】具体而言,是在深度融合了多模态理解和双工对话管理技术的基础上,构建了一套全智能驱动的数字人双向互动能力。
这让数字人具备了像人一样边说边听的技能,即使被打断也可以继续顺畅沟通。
而且声音、表情、动作在表达时能够自然地整合在一起。
但光是“形象逼真”、“可以互动”,还是不够的。如何能够让用户觉得冬冬言之有物,内容扎实丰富,是非常重要的。
这就需要冬冬具备“智能脚本生成”(AI Script Generation,AISG)的能力。
为此,阿里数字人技术在深度融合预训练和知识图谱基础上,构建了一套全智能的可控脚本生成方案。
核心就是将以往专家撰写脚本的方式,转变成了机器自动撰写。
更具体一点,AI算法模型会根据“冬奥知识”或“喜剧写作公式”,展开一个自主学习的过程。
而后数字人再结合NLP和风格化生成技术,就可以在面对不同场景的情况下,快速生成顺畅、有逻辑,且自然风趣的语言。
这也就是冬冬为什么能够在长达2小时之久的直播时间里,不间断的输出内容、持续互动的原因了。
不仅如此,冬冬还可以在直播过程中,对突发的赛事新进程做最新的报道。
例如一旦有新的奖牌诞生,她就会立即对与之相关的赛事背景、规则、选手简介等等内容做介绍。
这种即时性,便是得益于新华社与UC的合作,可以让冬冬从新华社UC大鱼号上获取最新赛事动态内容。
另外,冬冬在冬奥会期间身兼数职,这也需要她拿出不同的“职业状态”。
例如在直播间,冬冬就得用主播的口吻来说话;脱口秀环节时候,冬冬的说话方式就得幽默诙谐。
为了达到这种效果,冬冬的智能语音技术团队深度融合端到端语音合成与传统语音技术,能在更低的成本、让数据录制周期变得更短。
同时融入情感语音合成技术,这就冬冬可以在不同场景之中,表达不一样的感情。
……
不过有一说一,从冬冬在冬奥会的种种表现中,其实不难看出一种趋势的发展:
人与虚拟人,界限越发模糊虽然在近一段时间里,“虚拟人上岗”的消息层出不穷。
不过数字人冬冬的出现,似乎让人类与虚拟人的界面进一步模糊了起来。
以往虚拟人即使在外观和语音的自然度能够做到高度逼真,但人们对他们的印象或许依旧会停留在“莫得灵魂”。
但这一次,却截然不同。
例如在直播间这种高度需要互动的场景中,冬冬就不是“自顾自的”的表演。
- 火凤|「猎云网首发」科技潮玩公司“星奇世界HISINGY”完成百万级美元天使轮融资,真成投资领投
- 河北网络广播电视台 |中国食品工业网苏志龙:科技赋能食品安全 创新驱动行业发展
- 小米科技|价格对半折?小米11顶配版本新低价,2k曲面屏香不香?
- 小米科技|小米手环5因功能描述不准确被罚款
- 小米科技|既生瑜何生亮:三星S22与小米12都是小尺寸,怎么选?
- 小米科技|华为两款新机下月发:规格削减刀法精准,能否支持5G是关键
- 小米科技|联发科创造历史!骁龙8成纸老虎,天玑9000真有这么强?
- 小米科技|好看的皮囊,不如全能的配置!盘点当下“几乎”无短板旗舰手机
- 小米科技|小米10s:我都降到2049元了,你们还买K50电竞版?
- find x|无死角的悬浮防抖!国产旗舰放大招,Find X5 系列暗藏这些黑科技