傻大方


首页 > 人文 >

@文本提取一秒搞定 华为OCR技术到底厉害在哪?



按关键词阅读:

【@文本提取一秒搞定 华为OCR技术到底厉害在哪?】在生活和工作中 , 你是不是经常会遇到这样的情况:培训时 , 手机里拍了一堆PPT资料 , 回去一个字一个字手动录入 。浏览网页时 , 找到了想要的资料 , 但是发现"Ctrl+C、Ctrl+V"不起作用 , 只能截图先保存着 。
而想要把图片或纸质文件上的内容变成电子文档 , 其实不需那么繁琐 。华为手机上的文本提取功能可以快速提取屏幕上的文字 , 且支持电话号码、邮件、网站一步跳转 , 助力高效办公 。
智慧视觉神操作,分分钟搞定文本提取
那么 , 这么好用的文本提取功能到底怎么用?其实这就要从我们的手机摄像头说起 , 可别小瞧了这个摄像头 , 它可是隐藏在手机里的智慧眼 。卡路里、翻译、识物……一扫便知 。文字提取功能只是属于智慧视觉的一小部分 ,想要文本提取 , 就要先打开智慧视觉 。
那么如何进入智慧视觉呢?
一是通过手机桌面空白处下拉进入全局搜索 , 点击右上角"智慧视觉"图标;二是打开手机相机 , 点击左上角"智慧视觉"图标 , 三是直接唤醒华为智慧助手小艺说"打开智慧视觉"即可 。
@文本提取一秒搞定 华为OCR技术到底厉害在哪?
文章图片

文章图片

配图为EMUI10版本界面图 , 不同机型、版本请以实物为准
进入智慧视觉后 , 在"识物"模式下 , 对着需要提取文字的图片扫一扫 , 点击文字区域 , 出现蓝色光标后 , 根据自己的需要拖选文字 , 点击"复制文字"即可提取相关文字 。
@文本提取一秒搞定 华为OCR技术到底厉害在哪?
文章图片

文章图片

配图为EMUI10版本界面图 , 不同机型、版本请以实物为准
文本提取变简单的神器是TA
文本提取功能不仅操作方法简单 , 而且能够快速且准确地录入一些纸质文档 , 也能够提取图片中需要的文字信息 , 方便大家的工作和生活 。对于能把图片上的文字一字不漏地提取下来 , 究竟依赖的是什么秘密武器?其实秘密就在OCR技术 。
OCR的秘密都在这里
很多小伙伴会问OCR是什么?其实OCR即光学字符识别(Optical Character Recognition) , 是一种对图片中存在文字的区域进行定位 , 再将定位的区域进行识别 , 并将其转换成计算机文字的过程 。在这里的应用 , 就是在智能镜头的AR场景里 , 对镜头所拍摄到画面中的文本进行定位(检测)和识别,最后借助NLP(Natural Language Processing)输出文本识别结果 。那么 , 技术实现要经过哪些流程呢?
@文本提取一秒搞定 华为OCR技术到底厉害在哪?
文章图片

文章图片

Step1:检测+识别 , OCR检测模型作用凸显
当我们的镜头对准需要提取文本的材料时 , 当前的画面会以图片形式送入OCR检测模型 。在检测模型中 , 图片首先会经过负责检测的卷积神经网 , 像人眼睛一样的卷积神经网会把图片中的文字信息提取出来变成特征图 。检测模型根据这些特征图 , 预测图片中的哪些区域是文本区域 , 并输出相应坐标 , 以便从原图中截取出来作为识别模型输入 。
接下来 , 负责识别的卷积神经网会对这些识别模型进行特征提取 , 提取到的特征信息被送入循环神经网 , 循环神经网就像我们的大脑 , 会处理、加工、判断、推理所获得的信息 , 最终得到图片中的文字信息 。
当我们的镜头对准需要提取文本的材料时 , 当前的画面会以图片形式送入OCR检测模型 。在检测模型中 , 图片会经过检测和识别两个环节 , 最终得到图片中的文字信息分页标题
Step2:校正+优化 , OCR是个完美主义
通常情况下 , 检测和识别出的文本通常需要再次核对以保证其正确性 。这是由于在AR场景中 , 通过OCR技术检测到镜头画面的文字 , 将文本区域高亮后展示给用户 , 得到的文档往往都不是很完美 , 很可能带有倾斜或重影;而文字追踪功能保证当镜头移动导致拍摄画面抖动时 , 检测到的文本区域保持在原来的位置不变 。
在这基础上 , 需先进行图像预处理 , 做角度矫正和去噪 , 接着对文档版面进行分析 , 将各个字符送入训练好的OCR识别模型进行字符识别 , 得到结果 , 最后还需要对其进行识别结果的校正和优化 。
Step3:定帧后 , 拖一拖 , 复制文字轻松搞定
当用户希望屏幕画面固定不动 , 可以点击检测到的文本行 , 这时屏幕会定帧 , 用户可手动选择对检测和识别到的文字内容进行拖选 , 其效果类似于在文本文档里 , 用鼠标对文本内容进行拖选 。
要实现文本区域内拖选的功能 , 就需要用到整行拖选技术 。文字整行拖选技术主要是根据OCR检测模型输出文本区域的坐标 , 通过识别用户的点击事件 , 实时记录用户点击的位置 , 并通过上层UX对用户拖选到的区域进行高亮 。经历一系列的操作 , 最后把可复制的文字呈现在用户面前 。
@文本提取一秒搞定 华为OCR技术到底厉害在哪?
文章图片

文章图片

文本提取有哪些难点与挑战?
看似简单操作的文本提取 , 实际要克服的困难可不少 。文字的字体、字号、颜色等不统一 , 容易被误识别;语言种类繁多 , 中文、英文、数字等多种语言混合出现 , 识别难度大;识别时,不可预测光线变化、图片不清、背景复杂干扰等等 , 这些都给文本提取带来了不小的困难 。
对于上述的困难 , 基于华为OCR技术于业内领先的深度学习文字定位功能和文字识别技术 , 无论是生活中复杂多变场景 , 还是不同光照条件 , 华为OCR技术能支持多场景、任意版面的文字识别提取 , 具备英文和数字、多语种(包括中文、日文、韩语、阿拉伯语、英语和欧洲五国语言等)、以及超过7000个常用汉字的简繁体识别能力 , 同时还具有多种垂直场景的识别能力 , 支持识别如身份证、银行卡、名片、驾驶证等 ,满足生活中大部分场景的文本提取需求 。
OCR技术作为AI技术的支撑 , 是一种强有力的识别方式 。文字提取、识别物品、扫描习题、翻译外文时大多都需要依靠OCR技术 , 使用方法简单方便 。如果你正好有华为手机 , 不妨体验一下 。


    来源:(互联科技圏)

    【】网址:/a/2020/0409/1586386536.html

    标题:@文本提取一秒搞定 华为OCR技术到底厉害在哪?


    上一篇:第一军武@必须供应特效药,不然实施严厉制裁,美国警告印度

    下一篇:「确保」多举措确保学生复学 海门悦来交警


    人文

    不合格商品,谋财害命

    阅读(11)

    海外新冠肺炎,今日新增确诊54416例,累计确诊高达655003人,而新增逝世亡为2941人,累计逝世亡为31691人。如许的新增数据显示出,新冠肺炎在海外已经无法控制了。或许如许的说法,有点悲哀,不过,大年夜各类国内报道来看,如今的海外说是悲凉世界,也确确切...

    人文

    @不完全通讯简史

    阅读(40)

    在赓续的研究和实现中那就和小编一路浏览这跨越百年的“不完全通信简史”吧不是我不明白,是这个世界变得太快通信行业的成长更是进入快车道我们无法想象一百年前简陋的通信方法我们同样无法想象一百年后先辈的通信方法...

    人文

    恍然大悟:过程导致结果还是结果为了过程?

    阅读(10)

    王建平:每日一文:《感知论纲领》(102)《无目标的生活》如不雅我们把所有具体的生活目标都去除,人们会没有办法生活,无目标的生活是弗成想象的。仁攀类大年夜未经历过如许的生活,生活不在别处,就在此处;生活没有结不雅,就在当下;生活不是过程,就是...

    人文

    庚子赔款,谁都没注意到的一个亮点

    阅读(46)

    今天一直看晚清的各种赔款 , 教科书上都有 。 诸位甚至知道的更多 。 有一个赔款细则 , 估计无人知道:从1901年8月起 , 禁止进口武器两年 。 如果有需要 , 再次延期进口武器 。...

    人文

    青春:王太利女儿参加选秀节目 肖央转发力挺帮拉票

    阅读(48)

    文章图片 【青春:王太利女儿参加选秀节目 肖央转发力挺帮拉票】 文章图片 3月21日晚 , "筷子兄弟"成员王太利在微博发文为自己参加了《青春有你2》的女儿王婉辰打CALL 。 作为叔叔的肖央马上转发王太利的微博 , 并配文:"我们是筷子 , 这是"婉"@青春有你2...

    人文

    []口述实录 | 结束隔离病房工作后,我又去了工厂,帮助复工复产

    阅读(38)

    如今,我已经在这个全封闭的工厂工作了11天。自2月2日分开家,将近40天没回过家了。马晓飞此前在隔离病区大年夜诊疗病人,到赞助工人我叫马晓飞,是湖北荆州中医病院骨科的一位副主任医师。此前,因为疫情暴发,我作为一名骨科大夫,也接到了前去抗疫一线的通...