人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

2017年上半年,在一年一度的Google I/O开发者大会上,谷歌重磅地推出了其在人工智能领域的新产品——下一代识别技术:Google Lens。这款产品可以理解为一个强大的视觉搜索引擎,它依赖于强大的计算机视觉算法,并融入了物体识别、文字识别和场景识别等技术,能实时地识别智能手机相机上所拍摄的物品,并根据图片或相机识别出的文本,提供与之相关的内容,进而实现所见即所得的理解整个视觉世界。

比如,当你来到陌生的城市,人生地不熟,不知道上哪吃饭好。看到路边有一家还不错?扫一下,Google Lens 就自动调出餐厅的评价信息和地图信息;来到餐厅准备点餐,别急着问服务员店里的 Wi-Fi 密码,扫一下路由器上的用户名或者条形码,手机就能自动破译获取密码并成功连接上网。

看上去似乎很牛逼,但这项AI识别的技术背景,背后其实离不开的是基于图像识别和OCR(光学字符识别)技术的集合。图像识别技术,估计大家接触的不少,但关于OCR技术,了解的人可能就未必多了。

简单科普下OCR,其实就是一项将图片上的文字内容,智能识别成为可编辑的文本的技术。很多时候,当我们在报纸杂志上看到的文字或图片都想记下来的时候,虽然手机可以拍摄,但是要想自己在手机上进行编辑,你就需要用到有OCR技术接入的产品了。



01

OCR的行业前景及应用

在大数据时代下,如何高效地处理海量的图片和文字数据,使它们能通过识别转化为可编辑的文本信息和数据,方便数据库的采集、管理、分析和决策,毫无疑问已成为下阶段大数据发展的大方向。

 

而作为快速数据采集的手段,OCR技术不仅已在越来越多贴近消费端需求的真实场景中实现应用的落地,同时还得到广泛用户的认可。无论是在银行金融、保险、公安、税务等行业,如证件、银行卡、车牌、名片、票据信息的采集,还是在网络直播、电竞等需要身份实名认证的网络场景,OCR技术均已贴心地填补这些细节的需求空缺,从而提高了人们生活的品质和工作的效率。

尽管在OCR这条赛道上,其抢跑的参与者仍有不少。但在国内,涉足OCR的企业且能形成分立局势的主要有汉王、文通、腾讯优图、百度等几家。

基于国内领先深度学习技术的百度OCR,在识别技术上也拥有了整图文字检测、整图文字识别、整图文字行定位和单字图像识别等能力,并成功应用于多个应用场景,如文档图片录入和检索、自然场景输入和翻译、拍照读卡、网图推荐和反作弊等,同时也在二代居民身份证、银行卡识别、表格文字识别、驾驶证识别和行驶证识别也得到了诸多的机构接入应用。

 

论技术水平及应用场景的落地,花边sir不得不介绍腾讯优图。据了解,目前优图的OCR技术除了印刷文档识别、翻译文字识别等通用自然场景,还可应用于物流行业手写体快递单识别、互联网内容审核管理等,如识别广告图中的文字、用户上传的照片或视频中的违规文字等,方便平台进行违规处理和风险管控,大大地提高了审查、识别工作的效率。同时,花边sir也注意到,在强社交时代,优图在识别场景的落地上,也同样已在手Q与微信平台实现应用。

 

在手Q上,优图提供的图片中文字提取功能支持,不仅能识别并提取图片中的文字内容,同时还可以对提取的文字内容进行编辑、中英文翻译、转发等操作;而在微信上,优图为企业微信提供了营业执照OCR识别技术:APP提交执照自动识别、客服审核辅助,免去了繁琐易错的输入过程和人工核对公司名称、执照号的流程。如今,优图的OCR技术也已经通过腾讯云对外开放。

而作为老牌OCR识别技术提供商,文通翔云虽然在表格、票据、发票和单证识别领域具有明显的技术优势,但是在通用OCR、身份证识别等证件识别领域,在识别速度、精度,以及产品体验上都稍有逊色,但这却不妨碍其在银行、保险、证券、第三方支付等行业对银行卡号识别上的功底和成绩斐然。除了拿下了某四大国有银行的OCR应用项目外,还被宜信宜人贷、国金证券、拉卡拉、支付通等金融机构所引用。在即将步入的人工智能时代,OCR技术作为重要的信息输入手段,为金融、证券等不同领域提供先进的技术解决方案,受到市场和企业用户的青睐可谓是必然。



02

巨头光环加持下的OCR产品,识别技术体验孰优孰劣?



下面,我们就分别从他们都共有的相关产品——OCR云识别平台中,一起来体验和感受下它们在对应的OCR识别技术上的优劣。

 

由于汉王没有在线的云识别平台可供体验,花边君便只能分别选择腾讯优图、文通翔云和百度这三家企业在通用OCR以及身份证OCR信息认证上的识别效果,以供对比。具体操作如下:

 

首先,第一场景我选择了光线较为微弱的夜晚,通过相机闪光灯补光拍下的身份证正面图,分别在百度、腾讯优图和文通翔云三个人工智能平台上进行OCR识别体验。从下图三种识别结果可以了解到:在弱光环境下,虽然百度人工智能平台能够识别大部分身份信息,但在关键的姓名一栏却仍是存在着信息的识别遗漏,而在地址栏上更是出现错误的信息提示,将浙江省的地址信息识别成为北京市某处的地址。而反观在同样的弱光环境下,腾讯优图不仅在信息识别上能够做到完整地识别并呈现,在识别技术的表现上则略胜一筹外,其识别界面的简洁和直观性,也是另其增分不少,而对于识别失败的翔云而言,技术瓶颈则明显地显现。(ps:为保护个人身份信息,花边sir对识别结果的截图均进行了特殊处理。)

 

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

百度识别结果

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

腾讯优图识别结果

 

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

翔云识别结果

为了得到更全方位的对比效果,我们还通过多样化图片样式进行取样,在图片倾斜摆放,图片稍微模糊、图片稍显复杂的背景等条件下,可以看到身份证OCR识别体验排行分别为“优图>百度>翔云”;在某些较为复杂的识别环境下,百度与腾讯优图还能勉强争个一二,但翔云均以失败告终的战绩明显已是被另外二者远甩几条大街,下面就不贴了。

 

以下图片序列分别为经过模糊处理后的原图、腾讯优图识别结果和百度识别结果:

  

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

腾讯优图识别结果

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

 百度识别结果

 

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

腾讯优图识别结果

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

百度识别结果

而在通用OCR的平台识别比对中,我在整个过程又采用了近50张图作为数据集进行识别体验,从通用OCR对比组中来看,腾讯优图和百度两者在识别的精确度上,其实相差无几,都能很好地将图片内容识别转换成文字,但当遇到复杂的情景识别状况时,在识别精确度上便可以明显地看出差距性,接下来,我们从其中选取三组存在着较为明显识别差异性的结果样张来进行比对。

 

由于日常生活场景的复杂性和多变性,自然场景的文本检测也更具有挑战性,如文本的多样性会受到不同的语言、字体、颜色、字形畸变、模糊断裂等现象的影响,除此外,还需要面临各种不确定性问题,如自然场景中与文字相似度极高的logo、复杂背景等要素影响。在极其复杂的场景下,技术的比对最终拼的仍是对文本识别的准确率。

通过下面三组图片样张的对比可以发现,当文本遇到复杂背景因素的影响情况下,无论是腾讯优图还是百度,两者都难免会出现文本识别上的差错;但相对而言,通过在近50张图片文本的比对中可以发现:在特定的数据集范畴内,腾讯优图的文本识别准确率对比百度要略胜一筹。 

 

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

对比图组一

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

对比图组二

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎

对比图组三

通过上述对比,综合来说,腾讯优图在OCR识别技术上相对更为成熟与稳定。据资料所示,目前优图OCR技术还可支持英文和数字识别,以及超过9000个常用汉字的简繁体识别,单字识别准确率可达到中文98%以上,数字99%以上,这个识别准确率的级别放在业界作对比,已是达到了国内首屈一指的水平了。

随着OCR技术的发展和成熟,未来势必将对诸多行业与业务的效率提升带来巨大的帮助,因此该技术成果的进展,一直以来均成为学术界和工业界重点关注和研究的图像技术之一。而文本检测作为OCR技术中的关键环节,更是成为各大人工智能团队重兵布局的所在之地。毕竟,人工智能之火已经烧得如火如荼,面对如此庞大的市场和明确的趋势,谁能不会野心勃勃呢?

人工智能枪响,大前锋OCR抢跑,智能识图的“奶酪”正遭巨头觊觎