语音|从“耳听手写”到“语音识别”，“轻办公”时代悄然来临时代|来临|深度学习|语音识别

人手一个电脑或者笔记本，早已成为新时代办公的标配，那么，办公的效率也在不断提高。开会做记录，还在用纸笔吗？当然，我们可以用。但是当开会录音需要全部记录下来，并转写成文字的时候，你还是用纸笔在记录吗？
有人会说，我可以用电脑快速敲字啊，或者回头听会议录音，然后听写下来啊。这些都没错，不过真正这么做过的人都知道，这种痛苦不堪回首！听一遍，敲几个字，没记住，再回放，再听一遍，往往一个小时的录音，连听和写，要至少三个小时。所以，在职场上，这样的工作大多给了“实习生”。
值得庆幸的是，随着科技的不断发展，语音识别技术也在不断进步，语音转文字的准确率也越来越高，类似浮云识音这样的产品受到消费者的喜爱。
告别“耳听手写”
语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的沟通方式。
语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术。
然而，语音识别自诞生以来的半个多世纪，一直没有在实际应用过程得到普遍认可，主要是与语音识别的技术缺陷有关，其识别精度和速度都达不到实际应用的要求。
2009年之后，深度学习技术得以兴起，使得语音识别技术的精度和准确度有了很大的提升，甚至识别率能达到95%以上，可以说具备了与人类相仿的语言识别能力，这意味着人们告别“耳听手写”成为可能。
拥抱“语音识别”
曾经科幻电影中人与机器人之间进行互动交流，如今随着语音识别技术的发展，梦想已经照进了现实。
根据专业的解释，语音识别技术，也被称为自动语音识别Automatic Speech RecogniTIon，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。也就是说，让机器人能听懂我们的意思。
也可以说，它是将一段语音信号转换成相应的文本信息。在这个过程中，语音识别会提取音频信号进行滤波、分帧等预处理，然后应用声学模型、语言模型等计算出该声音对应词组序列的概率，最后根据字典、词组序列进行解码，得出最后的文本。
一般来说，在声音平稳、普通话标准其环境是安静的情况下，语音识别的转换准确率能达到95%以上。浮云识音就是应用这种技术进行转文字、转文本的，它支持比如MP3、M4A、WAV等多种格式的音频文件的转文字，同时也支持MP4、MPEG和AVI等多种格式的视频文件转文字。
【 语音|从“耳听手写”到“语音识别”，“轻办公”时代悄然来临】类似的语音转文字类办公软件的不断普及和应用，使得一个“轻办公”时代正在悄然来临。人与数字世界的连接，也变得越来越紧密。