DeepTech深科技:中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%( 二 )
图|对发音相似词的识别改进(来源:arxiv)
最后 , 团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估 , 这两个数据集的样本都是从各种不同的电视节目中收集的 , 并且演讲条件也有很大的变化 , 涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件 。
LRW 于 2016 年发布 , 包括 500 个单词的唇形样本 , 1000 多个演讲者 , 训练集中的实例数达到 488766 个 , 验证和测试集中的每个实例数为 25000 个;LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集 , 总共有 1000 个中文词汇 , 总计大约 718018 个样本实例 , 持续时间约 57 小时 , 不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化 , 以纳入实际应用中遇到的挑战 。
本文插图
图|与此前领域中最先进的方法模型比较测试结果(来源:arxiv)
在 LRW 数据集上 , 引入 LMIM 之后 , 在基线准确率基础上提高了约 1.19% , LMIM 有望为主要任务捕获更具区分性和细粒度的特征 , 同时引入 GMIM 则把精度提高到了 84.41% , 主要得益于其对不同帧的不同关注 。
不过 , 在 LRW-1000 数据集上因其语音条件变化较大 , 包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等 , 此前行业最佳测试结果仅为 38.19% 。 在这个数据集上获得良好的识别效果仍是一个挑战 , 新的模型方式获得了 38.79% 的识别精度 , 略微优于现有的最新结果 。
结果表明 , 该团队提出的方法在不使用额外数据或额外的预训练模型的情况下 , 在两个具有挑战性的数据集上相比其他唇语识别模型 , 呈现出一种新的实时性能状态 。 此外 , 团队表示 , 该方法还可以很容易地修改为其他任务的模型 , 从而为其他任务的研究提供一些有意义的见解 。
-End-
参考:
https://arxiv.org/pdf/2003.06439.pdf
- 『老谭世界百态』西方不说话了,中国战胜新冠投入了多少资金?专家说出一组数字
- 中国网科技@撤出液晶面板生产,三星将关闭两座工厂
- 「小飞猪的防务观察」蛟龙600需加快研制,西昌大火表明中国急缺灭火飞机
- 『强国兵器』中方协同美方开发AI工具,英国人:只有中国能做到,抗疫强力辅助
- #即科技#107国赞同票作废!,想“加入”联合国?中国使用一票否决
- 【腾讯科技】全球应用市场第一季度大爆发:花费达234亿美元创纪录 时长增20%
- 【台海网】美官员攻击中国成瘾!华春莹强势回应:这锅你甩不掉
- 「万域」晨光文具陈湖雄:造一支中国人自己的好笔
- 「晓卫双」泰国转身就卖给了美国?官方终于出面回应,中国捐的口罩刚落地
- 即科技■决定权掌握在中国手,?联合国五常将变六常?此国获美俄一致力挺