技术|OCR技术、智能家居或将帮助视障人群体验数字时代

来源:环球网
【环球网科技报道 采访人员 勃潺】将JPG、PDF等格式文件以及社交、影音等软件应用的信息转化语音 , 降低视障人群使用电脑的门槛 , 有助其理解更多复杂页面与场景 。 这是达摩院视觉实验室与浙江大学合研的OCR技术取得的重大突破 , 实现了复杂排版下段落及表格顺序的识别 , 使整体识别准确率达99%以上 。
这一技术是“读光计划”成果的一部分 。 12月3日 , 在“智慧智能 助力视障文化服务研讨会”会上 , 中国盲文图书馆、浙江大学、阿里巴巴携手发起“读光计划” , 旨在促进数字化能力与社会应用场景相结合 , 为1732万视障人群创造更友好的数字生存环境 。
技术|OCR技术、智能家居或将帮助视障人群体验数字时代文章插图
据介绍 , “读光计划”的首批成果包括:阿里云、浙江大学与中国盲文图书馆联合共建“智能家居馆” , 并计划一起向视觉障碍人士捐赠5000台天猫精灵智能音箱;优酷依托技术积累和内容资源 , 与中盲图共建无障碍影视网络视听平台 , 未来三年将推出100部无障碍电影;阿里达摩院联合浙江大学 , 向中国盲文图书馆输出最新的OCR读屏技术方案;钉钉协助中国盲文图书馆完成基于信息无障碍的智慧办公系统升级 。
OCR技术实现信息化阅读
OCR , OpticalCharacter Recognition , 光学字符识别 , 是指利用光学技术和计算机技术 , 对文本资料的图像文件进行分析识别处理 , 获取文字及版面信息的过程 。
文字识别是计算机视觉研究领域的分支之一 , 也是人工智能的基本课题之一 。 OCR技术最初用于印刷体文字识别 , 比如邮政系统的邮编数字识别 , 以实现邮件自动分拣功能 。 随着光学成像设备(扫描仪、数码相机、手机等)的飞速发展 , OCR应用领域日益广泛 , 覆盖车牌识别、证件识别、票据识别等众多场景 。
2018年 , 一个“听图购物”程序“读光OCR”在淘宝天猫上线 , 它能精准地把图片中的信息转成语音 , 让视障用户靠耳朵购物 。 同时 , 熟练使用淘宝的视障用户正在快速增长 , 据估算 , 视障人群平均每天在淘宝购物超过8000单 。
而阿里的OCR技术 , 让手机淘宝具备了自动识别图片的能力 。 阿里达摩院资深算法专家、阿里OCR技术负责人王永攀介绍 , 阿里的技术团队从2010年就开始致力于解决图像中的文字问题,在深度学习技术还未成熟时 , 主要采用MQDF等传统OCR技术 , 识别淘宝商品页的详情图 , 但早期的中文识别率仅有70%左右 , 所能适应的场景有限 。
目前 , 阿里达摩院将这一技术成果进行了“输出” 。 中国盲文图书馆的自研软件“阳光读屏”可将JPG、PDF等格式文件以及社交、影音等软件应用的信息转化语音 , 大为降低视障人群使用电脑的门槛 , 有助其理解更多复杂页面与场景 。
智能家居成为视障人士的“眼镜”
位于中国盲文图书馆5层的“智能家居馆” , 是由中国盲文图书馆联合浙江大学、阿里巴巴联合共建的 , 以“居家无障碍”为理念 , 打造一个以智能家居为核心 , 提供视障人士体验无障碍居家生活体验 , 是国内首个面向残障人士的智能家居体验中心 。
技术|OCR技术、智能家居或将帮助视障人群体验数字时代文章插图
目前 , “智能家居馆”以天猫精灵智能音箱为控制中心 , 与传感器、护眼灯、扫地机器人等30多款智能家居硬件连接 , 在安防、照明、娱乐、循环控制等方面实现无障碍优化 , 未来将常设于图书馆内 , 对外展示智能家居产品如何切实应用至残障人士的生活场景 , 促进智能家居产品更广泛地服务于残障人群 。
例如 , 对于视障人士来说 , 寻找和操作遥控器可能经常会发生 , 当有了语音控制和智能家电 , 只需要动口说一说 , “把客厅空调调整到26度” , “打开扫地机器人” , “家电就会按指令运行” , 这样的居家生活环境对于对视障用户会更为友好 。。