「互联科技圏」华为OCR技术到底厉害在哪?,文本提取一秒搞定

在生活和工作中 , 你是不是经常会遇到这样的情况:培训时 , 手机里拍了一堆PPT资料 , 回去一个字一个字手动录入 。 浏览网页时 , 找到了想要的资料 , 但是发现"Ctrl+C、Ctrl+V"不起作用 , 只能截图先保存着 。
而想要把图片或纸质文件上的内容变成电子文档 , 其实不需那么繁琐 。 华为手机上的文本提取功能可以快速提取屏幕上的文字 , 且支持电话号码、邮件、网站一步跳转 , 助力高效办公 。
智慧视觉神操作,分分钟搞定文本提取
那么 , 这么好用的文本提取功能到底怎么用?其实这就要从我们的手机摄像头说起 , 可别小瞧了这个摄像头 , 它可是隐藏在手机里的智慧眼 。 卡路里、翻译、识物……一扫便知 。 文字提取功能只是属于智慧视觉的一小部分 , 想要文本提取 , 就要先打开智慧视觉 。
那么如何进入智慧视觉呢?
一是通过手机桌面空白处下拉进入全局搜索 , 点击右上角"智慧视觉"图标;二是打开手机相机 , 点击左上角"智慧视觉"图标 , 三是直接唤醒华为智慧助手小艺说"打开智慧视觉"即可 。
「互联科技圏」华为OCR技术到底厉害在哪?,文本提取一秒搞定
文章图片
配图为EMUI10版本界面图 , 不同机型、版本请以实物为准
进入智慧视觉后 , 在"识物"模式下 , 对着需要提取文字的图片扫一扫 , 点击文字区域 , 出现蓝色光标后 , 根据自己的需要拖选文字 , 点击"复制文字"即可提取相关文字 。
「互联科技圏」华为OCR技术到底厉害在哪?,文本提取一秒搞定
文章图片
配图为EMUI10版本界面图 , 不同机型、版本请以实物为准
文本提取变简单的神器是TA
文本提取功能不仅操作方法简单 , 而且能够快速且准确地录入一些纸质文档 , 也能够提取图片中需要的文字信息 , 方便大家的工作和生活 。 对于能把图片上的文字一字不漏地提取下来 , 究竟依赖的是什么秘密武器?其实秘密就在OCR技术 。
OCR的秘密都在这里
很多小伙伴会问OCR是什么?其实OCR即光学字符识别(OpticalCharacterRecognition) , 是一种对图片中存在文字的区域进行定位 , 再将定位的区域进行识别 , 并将其转换成计算机文字的过程 。 在这里的应用 , 就是在智能镜头的AR场景里 , 对镜头所拍摄到画面中的文本进行定位(检测)和识别,最后借助NLP(NaturalLanguageProcessing)输出文本识别结果 。 那么 , 技术实现要经过哪些流程呢?
「互联科技圏」华为OCR技术到底厉害在哪?,文本提取一秒搞定
文章图片
Step1:检测+识别 , OCR检测模型作用凸显
当我们的镜头对准需要提取文本的材料时 , 当前的画面会以图片形式送入OCR检测模型 。 在检测模型中 , 图片首先会经过负责检测的卷积神经网 , 像人眼睛一样的卷积神经网会把图片中的文字信息提取出来变成特征图 。 检测模型根据这些特征图 , 预测图片中的哪些区域是文本区域 , 并输出相应坐标 , 以便从原图中截取出来作为识别模型输入 。
接下来 , 负责识别的卷积神经网会对这些识别模型进行特征提取 , 提取到的特征信息被送入循环神经网 , 循环神经网就像我们的大脑 , 会处理、加工、判断、推理所获得的信息 , 最终得到图片中的文字信息 。
当我们的镜头对准需要提取文本的材料时 , 当前的画面会以图片形式送入OCR检测模型 。 在检测模型中 , 图片会经过检测和识别两个环节 , 最终得到图片中的文字信息
Step2:校正+优化 , OCR是个完美主义
通常情况下 , 检测和识别出的文本通常需要再次核对以保证其正确性 。 这是由于在AR场景中 , 通过OCR技术检测到镜头画面的文字 , 将文本区域高亮后展示给用户 , 得到的文档往往都不是很完美 , 很可能带有倾斜或重影;而文字追踪功能保证当镜头移动导致拍摄画面抖动时 , 检测到的文本区域保持在原来的位置不变 。