“指哪读哪”的阿尔法蛋大蛋2.0,背后的技术竟然这样牛!
说起阿尔法蛋大蛋2.0机器人 , 有不少家长和孩子最感兴趣的就是TA的指读功能:只要把小学语文英语课本放在TA面前 , 再用手指着课本上的词句 , 大蛋2.0马上就能声情并茂地朗读出来 , 屏幕上也会同步显示所指的内容 , 还可以点击进行跟读评测 。
----“指哪读哪”的阿尔法蛋大蛋2.0 , 背后的技术竟然这样牛!//----
除此之外 , 指尖查词也同样实用 。 任意的中英纸质读物放在TA面前 , 用手指一指纸上的字、词 , 中文的有笔顺笔画、部首结构、释义组词 , 英文的则有音标、词性词义、例句和发音评测等 。
其实 , 阿尔法蛋大蛋2.0的指读功能的实现集合了许多种技术 , 其中有一项关键技术叫做手势识别——在科大讯飞的手势识别技术基础上 , 淘云科技针对儿童使用的场景进行了深度优化 , 才能让大蛋2.0“看到”孩子手指的内容、帮助孩子学习字词、课文等 。
就在今年1月17日 , 科大讯飞在德国The20BN-JesterDataset手势识别评测中以97.26%的准确率斩获冠军 , 并刷新世界纪录 。 阿尔法蛋大蛋2.0“指哪读哪”的秘诀之一 , 这回在世界级的赛场上大放异彩啦!
“指哪读哪”的阿尔法蛋大蛋2.0,背后的技术竟然这样牛!。
----“指哪读哪”的阿尔法蛋大蛋2.0 , 背后的技术竟然这样牛!//----
“指哪读哪”的阿尔法蛋大蛋2.0,背后的技术竟然这样牛!。科大讯飞刷新德国The20BN-JesterDataset手势识别评测世界纪录
(截图来源:The20BN-JesterDataset)
什么是The20BN-JesterDataset手势识别评测?
The20BN-JesterDataset评测集由德国TwentyBN公司发起 , 拥有全球最大规模动态手势识别数据集 , 在线实时滚动排名的竞赛方式吸引了华为、斯坦福大学、福特等众多国内外优秀创新企业和顶尖学术机构的参与 。 该测评从海量的视频资源选取了1376名被采集者的动态手势 , 包含“向左或向右重击”、“两个手指向上或向下滑动”、“向前或向后摆手”在内的27种手势类别 , 涵盖大部分常见手势类别 。 为了让参赛者提供的识别方案具有更大的应用价值 , 在该评测集中 , 针对不同的被采集者 , 选用风格迥异的背景对其做出的手势进行采集 , 最终用于评测的手势视频具有“持续时间短、手势动作复杂”的特点 , 这要求识别模型对时空信息具备很强的理解能力 。
如何刷新世界记录?
在这次测评中 , 科大讯飞成功借鉴复杂版本分析中文本检测以及驾驶场景中图像语义分割技术 , 并结合手势识别任务对算法进行针对性地迁移和改进 。 在识别模型设计上 , 为实现动态手势识别效率与准确率的均衡 , 团队摒弃了计算量复杂的3D卷积神经网络方案 , 采用更为轻量化的2D卷积神经网络模型对视频进行逐帧分析 , 同时为了进一步提升性能 , 团队设计相邻帧特征交互模块和自注意力机制相结合的方案 , 实现短时长时特征信息的交互 , 提升模型对时空信息的理解能力 , 大幅提升模型识别性能 , 最终取得了97.26%的识别准确率 。 “低功耗 , 更精准”是团队在设计方案时遵循的原则 , 也是相关技术实现应用落地的前提和保障 。 得益于此 , 这次评测所采用的方案可以直接应用在移动端在线手势识别 , 从而让人机交互的方式更灵活便捷 。
- 阿尔法军视降职后马上炮轰总统!早发出疫情预警,遭选择性忽视,白宫吹哨人
- 阿尔法军视19名士兵遇袭身亡,政府全力阻止美军撤离,大批武装人员下山开火
- 阿尔法军视机上人员全部遇难,联合国要求彻查,满载医疗物资飞机遭击落
- 阿尔法军视伊朗在边境猛烈开火,歼灭一股美械地面部队,遭北约战机突然偷袭
- 纵横陆家嘴 中南建设:阿尔法逻辑下的优质房企标的
- 阿尔法军视 俄军装甲部队出手相救,埃尔多安感慨差距大,土耳其军队紧急求援
- 「阿尔法军视」全球目光转向沙特,卡塔尔王宫爆发激烈枪声?俄情报部门火速出手
- 【阿尔法军视】5万多人连夜撤离,俄:天灾还是人祸?,美国本土午夜传出2声巨响
- 「财闻汇评」靠“务农”让企业40年增值40000倍!,他是马来西亚“鱼蛋大王”
- 阿尔法军视■巴铁此举令伊朗愤慨,呼吁俄方调停,耗资1860万美元造边境墙