康奈尔大学|不出声也能命令Siri!清华校友开发「无声语言识别」项链
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
这,或许是现在跟Siri交流最潮的方式了——
只需要动动嘴皮子,就能让它under你的control。
文章插图
没错,就是不需要出任何声音的那种。
这就是来自康奈尔华人团队的最新研究成果 SpeeChin,无声语音识别。
像这样:
文章插图
在没有声音的情况下,你能猜出来他在说什么吗(文末揭晓答案)?
但在SpeeChin的加持下,现在的Siri、Alexa等就已经可以识别,而且还支持普通话和英文!
【 康奈尔大学|不出声也能命令Siri!清华校友开发「无声语言识别」项链】是有种“此时无声胜似有声”的感觉了。
不说话,怎么控制语音助手?康奈尔团队研发的SpeeChin,其实是一条神奇的项链。
文章插图
戴上这条项链,就能开启无声语音控制的大门了。
例如对着电脑默念一句“Next”,音乐就会自动切换成下一首歌:
文章插图
或许你会说一个单词过于简单了,别急,现在就来加大难度:
“Switch to Taylor Swift.”
文章插图
可见,SpeeChin即便是面对一句完整的话术,也可以做到精准识别。
而这条“无声识别”项链的关键,就在于安装在项链下方的红外摄像机。
它可以捕捉到人物颈部和面部皮肤的变形图像,从而进行分析识别工作,确定从“嘴皮子”传达的是什么命令。
而且这条项链不仅能无声识别英文,连中文 (普通话)也能够hold住。
在最初的实验中,有20人参与到了测试中,其中10人讲英文,另外10人说普通话。
研究人员让测试者分别用英文和中文发出数十条指令,包括数字、互动指令、语音辅助指令、标点指令和导航指令。
最后的实验结果,“无声识别”的准确率分别达到了90.5%和91.6%。
文章插图
来自康奈尔大学的华人团队这项研究来自康奈尔大学,一作是Ruidong Zhang。
文章插图
其中,Cheng Zhang是这项研究的通讯作者。
文章插图
他是康奈尔大学信息科学系的助理教授,他的研究聚焦在如何获取人体及其周围的信息,以应对各种应用领域中的现实世界挑战,如交互、健康感知和活动识别。
研究的一作Ruidong Zhang,他是Cheng Zhang教授的一名博士生,本科毕业于清华大学。
文章插图
他的研究兴趣在于人机交互和普适计算(ubiquitous computing),特别是建立新型的可穿戴设备,用来促进互动体验并加深我们对人类行为的理解。
至于为什么他们要做SpeeChin这项工作,据Ruidong Zhang解释:
主要是考虑到在某些特定场合中,人们可能不适合发出声音;还考虑到一些不能说话的人群。
最后,来揭晓一下开头GIF的答案:
文章插图
你猜对了吗?
参考链接:
[1]https://techxplore.com/news/2022-02-smart-necklace-silent-english-mandarin.html
[2]https://www.youtube.com/watch?v=pDf86dSPYYI
[3]https://infosci.cornell.edu/content/zhang-0
[4]https://infosci.cornell.edu/content/zhang-1
— 完 —
量子位 QbitAI · 头条号签约
- c语言|这个不开颅的脑机,能让患者用「意念」发推特!
- 机器|没拆封就是全新机?怕是不知道后封机这种东西吧
- 快递|纽约市议员晒电动三轮车喊“纽约快递的未来”,中国网友:这不是三蹦子么?
- 阿里巴巴|利润世界第1,年净收入5700亿,超阿里2.8倍,中国烟草也不敌
- |不懂就问,一千多块的手机和六七千的手机有什么区别?
- 键盘|开学季游戏本推荐,大气外观,强悍性能,一定不要错过
- 小米科技|各品牌目前最值得买的手机推荐,iPhone华为无悬念,小米选不出来
- 不法分子|个人二维码收款要补税?微信支付宝回应
- oled|RedmiK50电竞版体验一天后,不吹不黑,说说真实使用感受
- 天猫|天猫自营,横空出世;京东小店,不甘示弱;风云再起,鹿死谁手?