DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%( 二 )


图|对发音相似词的识别改进(来源:arxiv)
最后 , 团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估 , 这两个数据集的样本都是从各种不同的电视节目中收集的 , 并且演讲条件也有很大的变化 , 涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件 。
LRW 于 2016 年发布 , 包括 500 个单词的唇形样本 , 1000 多个演讲者 , 训练集中的实例数达到 488766 个 , 验证和测试集中的每个实例数为 25000 个;LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集 , 总共有 1000 个中文词汇 , 总计大约 718018 个样本实例 , 持续时间约 57 小时 , 不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化 , 以纳入实际应用中遇到的挑战 。
DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%
本文插图
图|与此前领域中最先进的方法模型比较测试结果(来源:arxiv)
在 LRW 数据集上 , 引入 LMIM 之后 , 在基线准确率基础上提高了约 1.19% , LMIM 有望为主要任务捕获更具区分性和细粒度的特征 , 同时引入 GMIM 则把精度提高到了 84.41% , 主要得益于其对不同帧的不同关注 。
不过 , 在 LRW-1000 数据集上因其语音条件变化较大 , 包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等 , 此前行业最佳测试结果仅为 38.19% 。 在这个数据集上获得良好的识别效果仍是一个挑战 , 新的模型方式获得了 38.79% 的识别精度 , 略微优于现有的最新结果 。
结果表明 , 该团队提出的方法在不使用额外数据或额外的预训练模型的情况下 , 在两个具有挑战性的数据集上相比其他唇语识别模型 , 呈现出一种新的实时性能状态 。 此外 , 团队表示 , 该方法还可以很容易地修改为其他任务的模型 , 从而为其他任务的研究提供一些有意义的见解 。
-End-
参考:
https://arxiv.org/pdf/2003.06439.pdf