DeepTech深科技：中国团队最新研究，把计算机“词汇级唇读”精度提高到84.41％( 二 )

图｜对发音相似词的识别改进（来源：arxiv）
最后，团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估，这两个数据集的样本都是从各种不同的电视节目中收集的，并且演讲条件也有很大的变化，涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件。
LRW 于 2016 年发布，包括 500 个单词的唇形样本， 1000 多个演讲者，训练集中的实例数达到 488766 个，验证和测试集中的每个实例数为 25000 个；LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集，总共有 1000 个中文词汇，总计大约 718018 个样本实例，持续时间约 57 小时，不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化，以纳入实际应用中遇到的挑战。

本文插图
图｜与此前领域中最先进的方法模型比较测试结果（来源：arxiv）
在 LRW 数据集上，引入 LMIM 之后，在基线准确率基础上提高了约 1.19% ， LMIM 有望为主要任务捕获更具区分性和细粒度的特征，同时引入 GMIM 则把精度提高到了 84.41% ，主要得益于其对不同帧的不同关注。
不过，在 LRW-1000 数据集上因其语音条件变化较大，包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等，此前行业最佳测试结果仅为 38.19% 。在这个数据集上获得良好的识别效果仍是一个挑战，新的模型方式获得了 38.79% 的识别精度，略微优于现有的最新结果。
结果表明，该团队提出的方法在不使用额外数据或额外的预训练模型的情况下，在两个具有挑战性的数据集上相比其他唇语识别模型，呈现出一种新的实时性能状态。此外，团队表示，该方法还可以很容易地修改为其他任务的模型，从而为其他任务的研究提供一些有意义的见解。
-End-
参考：
https://arxiv.org/pdf/2003.06439.pdf