翻译|日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播( 二 )


研发过程中也有很多困难 。 第一是跨团队协作 , 研发团队分布在美国、中国、新加坡三个国家 。 另外 , 60 多位研发人员几乎从未见过面 , 如何让他们快速建立信任、并快速推下去是一大难题 。
第二是训练集的收集 。 跨境直播业务在全球都很少见 , 市面上没有现存训练集可以直接复用 。 好在阿里本身拥有较强的商家生态 , 很多商家都积极帮忙收集训练集 。
第三是并发承载点 。 如果只做一场翻译 , 根本不会有压力 。 但是直播每天有上千场 , 翻译几国语言 , 这就需要几千个翻译 , 因此服务器的并发压力非常大 。 后来 , 阿里云对此做了改造 , 使得服务器得以承载得住 。
第四个难题是自动化展示 。 多译多功能可自动识别用户种类 , 并展示出相应的语言 , 比如它能识别你是中国人 , 从而用中文展示主播说的话 。 之前大家看到同传效果都是在 PC 端上面 , 但是移动端很复杂 , 为此研发人员在其中做了不少自适应的工作 。
自研更高效算法模型 , 可 “听懂” 主播口音达摩院研发的统一多语言多领域融合模型 , 可把上百个语言 , 以及每个语言的多个领域压缩到一个神经网络模型中进行翻译 , 且翻译质量不变 。 据达摩院骆卫华介绍 , 达摩院 AI 翻译技术已创下多项业界第一 , 日均调用量超过 13 亿次 , 累计 3000 亿单词 , 可提供 214 种语言的高质量翻译 。
据速卖通直播实时翻译产品负责人赵文倩介绍 , 速卖通上有上亿件商品、数百亿个商品相关的专业名词 , 对直播实时翻译技术的要求极高 , 需要克服口音不标准、直播环境复杂、商品专业名词多、新品新词更迭快等问题 。
主要负责该难题的是阿里达摩院自然语言处理实验室的研究员樊楷 , 他表示为解决 AI 听不清、听不懂的问题 , 达摩院研发出更高效的语音算法模型 , 它不仅能在嘈杂环境中 “听清” 直播内容 , 还能 “听懂” 主播的口音 。 通过将多领域的知识融入翻译模型 , 该算法模型还能举一反三 , 无需重新训练便能快速学习不同场景里不断更迭的专业名词 。
现在 , 速卖通平台支持 18 种语言 , 可以保证设计出来的频道和商品定位 , 能够符合当地文化 , 这种 “入乡随俗” 主要体现在以下三方面 。
心有灵犀 。 速卖通上有大量多元的商品 , 除了给它们做分类 , 还得容易被搜到 。 因此平台得根据用户输入的词 , 马上就能获悉他的搜索目的 。 在多语言混合下 , 这种挑战会更大 。 以 “Case” 为例 , 它具有箱子和案子的双重意思 , 用户输入该词语时 , 到底想买什么 , 就需要结合具体情景 。 此外 , 同样的词在不同语言里的意思也不同 , 例如 “Basket” 在英语里有 “篮子” 的意思 , 在法语里还有 “球鞋” 的意思 。
可面对数以亿计的商品搜索 , 全程由人工解决会很慢 。 为此 , 速卖通采用人工智能来解决 , 当然人工智能的初步训练是由算法工程师来解决 。 训练结束后 , 速卖通最终可做到无论用户输入什么 , 都能根据他前后搜索的词语 , 来知晓其购买意图 。
了如指掌 。 速卖通希望用户能对商品了如指掌 , 因此商品标题需要承载很多内容 。 比如 , 这个商品是什么?怎么找到?为什么买?但是一些商家的标题 , 有的没有标点符号 , 标题手法上也没有特别规则 。 这一问题也可被人工智能解决 , 它会给标题加上标点符号 , 并可整理成当地用户熟悉的表达方式 。
深信不疑 。 速卖通是跨境平台 , 很多商家位于海外 , 商品需要飘洋过海才能到用户手中 。 所以 , 用户对平台信用、商家信用和商品质量都有很高要求 。 而购买前想知道商品到底好不好?就只能通过用户评价去了解 。 但是用户评价非常多 , 涉及的语言种类也非常多 。 另外 , 用户会用各种不规范的语言来评价 , 比如 “Very gooooood” 这样的短语 , 有的评价还会用到表情符号 。 而采用 “多到多” 翻译引擎 , 上述问题也可得到解决 。