阿尔法蛋大蛋2.0指读关键技术夺冠,“指哪读哪”的秘密是?

说起阿尔法蛋大蛋2.0机器人 , 有不少家长和孩子最感兴趣的就是TA的指读功能:只要把小学语文英语课本放在TA面前 , 再用手指着课本上的词句 , 大蛋2.0马上就能声情并茂地朗读出来 , 屏幕上也会同步显示所指的内容 , 还可以点击进行跟读评测 。


阿尔法蛋大蛋2.0指读关键技术夺冠,“指哪读哪”的秘密是?

----阿尔法蛋大蛋2.0指读关键技术夺冠 , “指哪读哪”的秘密是?//----

除此之外 , 指尖查词也同样实用 。 任意的中英纸质读物放在TA面前 , 用手指一指纸上的字、词 , 中文的有笔顺笔画、部首结构、释义组词 , 英文的则有音标、词性词义、例句和发音评测等 。

其实 , 阿尔法蛋大蛋2.0的指读功能的实现集合了许多种技术 , 其中有一项关键技术叫做手势识别——在科大讯飞的手势识别技术基础上 , 淘云科技针对儿童使用的场景进行了深度优化 , 才能让大蛋2.0“看到”孩子手指的内容、帮助孩子学习字词、课文等 。

就在今年1月17日 , 科大讯飞在德国The20BN-JesterDataset手势识别评测中以97.26%的准确率斩获冠军 , 并刷新世界纪录 。 阿尔法蛋大蛋2.0“指哪读哪”的秘诀之一 , 这回在世界级的赛场上大放异彩啦!


阿尔法蛋大蛋2.0指读关键技术夺冠,“指哪读哪”的秘密是?

----阿尔法蛋大蛋2.0指读关键技术夺冠 , “指哪读哪”的秘密是?//----

科大讯飞刷新德国The20BN-JesterDataset手势识别评测世界纪录

阿尔法蛋大蛋2.0指读关键技术夺冠,“指哪读哪”的秘密是?。(截图来源:The20BN-JesterDataset官方网站https://20bn.com/datasets/jester)

什么是The20BN-JesterDataset手势识别评测?

The20BN-JesterDataset评测集由德国TwentyBN公司发起 , 拥有全球最大规模动态手势识别数据集 , 在线实时滚动排名的竞赛方式吸引了华为、斯坦福大学、福特等众多国内外优秀创新企业和顶尖学术机构的参与 。 该测评从海量的视频资源选取了1376名被采集者的动态手势 , 包含“向左或向右重击”、“两个手指向上或向下滑动”、“向前或向后摆手”在内的27种手势类别 , 涵盖大部分常见手势类别 。 为了让参赛者提供的识别方案具有更大的应用价值 , 在该评测集中 , 针对不同的被采集者 , 选用风格迥异的背景对其做出的手势进行采集 , 最终用于评测的手势视频具有“持续时间短、手势动作复杂”的特点 , 这要求识别模型对时空信息具备很强的理解能力 。

如何刷新世界记录?

在这次测评中 , 科大讯飞成功借鉴复杂版本分析中文本检测以及驾驶场景中图像语义分割技术 , 并结合手势识别任务对算法进行针对性地迁移和改进 。 在识别模型设计上 , 为实现动态手势识别效率与准确率的均衡 , 团队摒弃了计算量复杂的3D卷积神经网络方案 , 采用更为轻量化的2D卷积神经网络模型对视频进行逐帧分析 , 同时为了进一步提升性能 , 团队设计相邻帧特征交互模块和自注意力机制相结合的方案 , 实现短时长时特征信息的交互 , 提升模型对时空信息的理解能力 , 大幅提升模型识别性能 , 最终取得了97.26%的识别准确率 。 “低功耗 , 更精准”是团队在设计方案时遵循的原则 , 也是相关技术实现应用落地的前提和保障 。 得益于此 , 这次评测所采用的方案可以直接应用在移动端在线手势识别 , 从而让人机交互的方式更灵活便捷 。