天极网|AI虚拟人类背后是谁在让产品变得更惊艳,第八代小冰年度发布会( 二 )


至于套件中最后一款XPresenter , 则能够帮助用户选择或创造的人工智能实体3D模型 , 并配合X套件其他应用 , 实现AI对演示文档的演讲及交互 。
当然 , 这些产品已足够艳惊四座 , 但鲜为人知的是 , 在这些产品炼成的背后 , 赋予其“灵魂”的根源 , 便在于起到决定性支撑的小冰框架 。
小冰框架的出彩之处
小冰框架作为一个已经积累多年的完整系统 , 在各个技术方面均取得了长足进步 。 以小冰看家本领开放域对话引擎为例 , 该引擎目前支撑着全球超过60%以上的交互总量 。 目前市面上诸多第三方人工智能产品 , 之所以能够拥有各自的性格 , 包括此次发布的AI虚拟人类 , 全部得益于这个框架的功劳 。
在对话引擎的设计中 , 小冰是第一个提出预测、保持、诱导技术的 。 过去数年小冰团队通过生成模型、共感模型以及主导对话模型等技术 , 不断迭代和升级着自家对话引领能力 。 今年2月分层话题图谱的引入 , 更让对话体验得到了进一步提升 。
小冰团队技术负责人周力表示:“当小冰决定应用一套策略去引导对话的时候 , 这个对话最终能达到小冰目的的平均完成率是42.7% , 我们尚未研究过人类的平均完成率 , 但是我们相信这个水平已经相当于我们之中非常懂得套路的人类了 。 ”
换句话说 , 小冰就好似一个庞大的数据原型 , 而每一个人都是其中的一个子集 。 以往若想打造一个风格原型时 , 必须基于至少5亿句的语料库进行过滤和筛选 , 现今通过锁定这些子集 , 便可使用3000句具有鲜明风格的语料 , 去精细训练风格模型 。 正是因为有了这样一项技术 , 小冰框架才能迅速的生产非常大量的虚拟人类 。
周力认为 , 在真实的产品中 , 人工智能往往要承担着一个非常复杂的、综合的交互感官 , 而人工智能价值也不仅仅是被动的去等待回答用户的问题 。 在新形式人人交互的概念中 , 若想实现更高的转化率 , 人工智能就必须有主动的意识 , 它能积极去预测、保持以及诱导对话进行的方向 。
再以此次发布的XStudio主播为例 , 其实TTS文字转语音技术成型已多年 , 但TTS技术最大的问题便在于前端系统和后端系统都有犯错的可能 , 最终致使机器发音特征过于明显 。
而在小冰框架模块中 , 涵盖了文本过滤、对白/旁边检测、对白角色抽取、角色Mapping、发音处理、免检检测模块、开头结尾定制等一整套完整体系 , 其中TTS只是其中一环 。 也正因如此 , 才让XStudio拥有了自动分析段落、自动匹配背景音乐、自动分析角色等多项能力 。
小冰公司董事长 , 原微软全球执行副总裁沈向洋表示 , 相信未来人工智能这样的竞争一定会对整个框架的完整性、技术的先进性有巨大的要求 。 单纯一项技术出彩已不足以支撑未来无处不在的新交互需求 , 如计算机技术人脸识别的好便足以 , 未来要面对的是人和AI之间长时间交互的问题 。
当然 , 技术永远隐藏在产品的背后 , 但就交互这个感性的场景而言 , 过于极端的赛博朋克风格 , 只会让技术愈发显得冰冷 。