DeepTech深科技|基于深度学习的OCR已成主流，中国首份OCR白皮书出炉扫一扫就能识别文字

扫一扫就能识别文字，这是近年来出现在很多应用中的新功能。比如，输入银行卡号时，直接用手机摄像头扫一扫，软件就能提取银行卡信息。这里用到的技术正是光学字符识别技术（OpticalCharacterRecognition）。
OCR是光学字符识别（OpticalCharacterRecognition）的缩写，指利用机器将图像中手写体或印刷体的文本转换为计算机可以直接处理的格式。作为计算机视觉领域的重要分支， OCR典型应用是通过图像文字识别实现信息录入。同时，由于文字和符号包含丰富的语义信息，基于OCR提取文字信息继而进行分析，能够帮助机器更好地理解图像。
9月28日，在工业和信息化部、北京市人民政府、国际电信联盟ITU-T指导的2020AIIA人工智能开发者大会上，主办方正式发布国内首份智能文字识别（OCR）能力测评与应用白皮书。
白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度，对当前国内OCR产业进行了一次详细梳理，全面助推OCR技术产业化加速落地及可持续发展。
【DeepTech深科技|基于深度学习的OCR已成主流，中国首份OCR白皮书出炉】据了解，白皮书由中国信息通信研究院、中国人工智能产业发展联盟、腾讯公司相关部门联合起草。
新基建带来新机遇， OCR技术发展三大趋势
借助人工智能技术，近年来OCR性能的不断提升为产业数字化催生出的更复杂的OCR应用场景提供了坚实支撑。同时，覆盖手机、电子产品以及云服务在内的更加多样化的服务载体，进一步加快了OCR的普及，持续向社会生产生活的更多领域渗透。
尤其是2020年4月，发改委明确将人工智能基础设施列入“新基建”范围，作为人工智能应用中最接“地气” ，商业推广较为成熟的领域， OCR产业在“新基建”背景下无疑将迎来新的发展机遇，相关技术也将迎来新一轮的变革。
报告指出， OCR技术未来发展的三大方向主要包括一体化的端到端OCR模型、兼具高性能高效率的OCR、从感知到认知的智能OCR 。
详细来说，构建一体化的端到端网络，同时对文字检测和识别进行训练，将成为OCR技术发展的重要趋势之一。端到端的网络设计不仅能够减少重复计算，又能够提高特征的质量，促进任务性能的改善。
同时，大量的OCR应用需要在资源受限的移动端设备上运行，当前移动端OCR算法大多以牺牲一定的算法精度来换取运行速度，针对移动设备设计兼顾性能和效率的轻量OCR模型将是未来发展的重要方向。
另外，从感知到认知的智能OCR来说， OCR技术通常从计算机视觉领域出发，未来与自然语言处理技术、知识图谱等更广领域的交叉融合，通过语义及知识的深度挖掘提升OCR性能是重要趋势。
此外，在OCR中引入强化学习和元学习等新的学习范式，让机器自主学习如何识别文字，也将成为研究热点。
市场规模达133.81亿美元， OCR成科技巨头标配
目前， OCR技术已在金融、保险、医疗、交通、教育等诸多行业有了深入成熟的应用。未来随着传统行业的数字化转型， OCR应用范围和场景将进一步扩展，市场规模将进一步增大。有权威机构预测， 2025年全球OCR市场规模将达到133.81亿美元。
早期受限于技术发展水平， OCR厂商通常从特定应用切入，例如车牌识别系统等，形成了一系列专用设备。近年来，越来越多的终端设备及应用均嵌入了OCR技术，并逐渐形成了从基础设施、基础能力到终端应用的完整产业链生态，也衍生出了卡证、票据等一系列细分OCR能力，通过组合的方式服务于各个行业。

文章图片
图|OCR产业生态图
不难看出， OCR技术逐渐“下沉”为一项基本的能力，为上层不同的业务应用提供底层技术支撑。科技巨头和云计算厂商正在纷纷加速布局OCR ，在满足自身内部业务需求的同时，不断对外开放先进的OCR能力， OCR已然成为科技巨头能力标配。