DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%


【DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%】近年来 , 随着深度学习的迅速发展和广泛的潜在应用 , 基于计算机视觉的唇读技术受到越来越多的关注 , 它在实践中有许多重要的应用 , 如辅助语音识别、生物认证、帮助听障人士等 。
但是唇读任务的难度非常高 , 一个关键点是如何有效地获取唇部的运动信息 , 同时抵抗由姿势、光线变化引起的识别困难 , 讲话人的外貌、讲话速度变化等干扰因素 , 此外 , 如何把唇语图像特征与词汇文本进行精确关联或者区分同音词也挑战重重 。
来自浙江工业大学、中国科学院智能信息处理重点实验室以及中国科学院计算技术研究所的研究人员针对这些问题 , 提出在局部特征层和全局序列层引入互信息约束 , 以增强唇部视觉特征与语音内容的关系 。
通过在一些主流数据集上测试 , 该团队提出的方法有望同时具有较好的鉴别能力和鲁棒性 , 以实现有效的唇读 。
DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%
本文插图
图|单词级唇读是一项挑战性的任务 。 (a) 实际的注释词 “ABOUT” 的框架在当时仅包括框架步骤 T=12~19 。 (b) 同一个词标签总是有着千变万化的外观变化 。 (来源:arxiv)
唇读领域有一个重要技术分支即词汇级唇读 , 对于该任务 , 需要用单个单词标签对每个输入视频进行注释 , 尽管在同一视频中也存在其他单词 , 如上图所示:(a)中的视频样本总共包括 29 帧 , 被注释为 “ABOUT” , 但是单词“ABOUT” 的实际帧仅包括时间步骤 T=12~19 的帧 , 这个间隔前后的帧分别对应于单词是 “JUST” 和“TEN” , 而不是“ABOUT” 。 在基于唇语视觉的研究中 , 我们总是很难划分一个单词的确切边界 。
这种特性要求一个好的唇读模型能够学习到同一个词标签下不同视频中反映的潜在但一致的特性 , 从而能够更多地关注有效的关键帧 , 而较少关注其他无关帧 。
除了不精确的词汇边界挑战外 , 对应于同一个词标签的视频样本总是具有极大的多样化和外观变化 , 如(b)所示 , 所有这些特性都要求唇读模型能够抵抗序列中的噪声 , 从而在不同的语音条件下捕获一致的潜在模式 。
同时 , 由于唇部动作的有效面积有限 , 不同的词在说话过程中可能表现出相似的现象 。 特别是 , 同音词的存在 , 不同的词看起来可能相同或非常相似 , 增加了许多额外的困难 , 这些属性要求模型能够发现与帧级别中不同单词相关的细粒度差异 , 以便区分每个单词 。
为了解决上述问题 , 研究人员在不同层次上引入了互信息最大化(MIM) , 以帮助该模型学习鲁棒性和区分性表示 , 从而实现有效的唇读 。
一方面 , 通过施加局部互信息最大化约束(LMIM)来约束每个时间步产生的特征 , 使其与语音内容之间具有很强的相关性 , 从而提高了模型发现精细的嘴唇动作的能力 , 以及发音相似的单词之间的细微差别 , 比如 “spend” 和“spending”;另一方面 , 引入了全局序列水平上的互信息最大化约束(GMIM) , 使得模型能够更加注意区分与语音内容相关的关键帧 , 而且在说话过程中出现的各种噪音也较少 。
图|基本架构(来源:arxiv)
此外 , GMIM 迫使模型学习不同样本中同一个词标签的潜在一致全局模式 , 同时对姿势、光照和其他不相关条件的变化具有鲁棒性;LMIM 可增强每个时间步与单词相关的细粒度运动 , 进一步增强不同单词之间的差异 。 通过将这两类约束结合起来 , 模型可以自动发现和区分目标词的有效重要帧 , 而忽略其他无关帧 , 进一步提高了识别的精准度 。
DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%
本文插图