cnBeta 谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”

_本文原题:谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”
据外媒报道 , 在视频通话来说 , 系统是可以通过切换的方式以突出谁在说话 , 然而不幸的是 , 对于像手语这样的无声语言其则无法触发这些算法 , 但现在谷歌的一项研究可能会改变这一点 。 这是是一个实时手语检测引擎 , 它可以分辨出某人何时在做手语以及何时结束 。
谷歌研究人员一篇在ECCV上发表的新论文描述了如何高效、几乎没有延迟地完成这项工作 。 如果手语检测成功了但却导致视频延迟或降级那就无法达到目的 , 所以他们的目标是确保模型既轻便又可靠 。
据了解 , 该系统首先会通过一个名为PoseNet的模型来运行视频 , 该模型会估计每一帧中身体和四肢的位置 。 这个简化的视觉信息会被发送给一个模型 , 而该模型能根据使用GermanSignLanguage(德国手语)的视频中的姿势数据进行训练 , 然后它将现场图像跟其认为的手语的样子进行比较 。
cnBeta 谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”
文章图片
这个简单的过程已经在预测一个人是否在做手语方面实现了80%的准确率 , 另外再加上一些额外优化的话 , 准确率则达到了91.5% 。
为了不向现有电话添加新的“某人正在做手语”的信号 , 该系统采用了一个巧妙的小技巧 。 其使用一个虚拟音源来产生20kHz的音调 , 这虽然超出了人类的听觉范围但却能被计算机音频系统注意到 。 这个信号在人们做手语的时候就会产生从而使语音检测算法认为他们是在大声说话 。
【cnBeta 谷歌新系统:能在视频电话中检测到正在做手语的“讲话者”】目前 , 该系统还只是一个演示 。