半路出家OCR后成领域专家,白翔:计算机视觉科研没有捷径( 三 )
对于一个场景文本研究者而言 , 若想取得一定的学术成就 , 您认为与其他细分领域相比 , 会有哪些侧重?
白翔:研究没有捷径可走 , 但有方法规律可循 , 这和做什么细分领域没有太大关系 。 无论哪个细分领域 , 没有明显的难易之分 , 都会面临极大的挑战 。 那么对于如何做好计算机视觉相关研究 , 我个人比较注重是否真正的尝试去解决所在方向的瓶颈问题?
打个比方 , 场景文字往往是多方向排列的 , 但传统文档文字识别方法一般只关注水平排列的文字 , 这就要求我们对检测算法的适用性提出了更高的要求;做文字识别时 , 发现适合于英文的方法不适用于中文 , 如何设计一套方法 , 同时适用于拉丁文(英文)和非拉丁文(例如中文)?因此 , 需要找到现阶段限制该技术发展的瓶颈问题 , 并围绕这些瓶颈问题去突破技术的上限 。
通过技术的创新可以解决很多问题 , 但这个问题是不是重要的?是不是卡脖子的问题?当你在做研究的时候 , 你需要给自己定的一个目标 。 目标导向正确了 , 剩下来要做的事情就是如何去解决它 。 这个过程你会经过反复的验证 , 大胆的尝试 , 甚至可能经历无数次的失败 , 但不要害怕失败 , 因为失败本身就是经验的积累 , 是提高自身水平的过程 , 是成功之路上必须经过的环节 。
无论做什么样的研究 , 对于年轻学者而言比较困难的是如何做到不忘初心 , 在研究过程中需要反复思考你的研究是什么?解决的这个问题是什么?要把它做到什么程度?是不是能给这个领域或者子领域带来技术上的突破?这是关键 。
3关于产业:“计算机视觉离全面落地还有50步要走”
作为场景文本领域的集大成者 , 您认为这个领域还有哪些值得研究的课题与应用?是否还存在一些被人们忽视的方向?您最近正在以及未来打算继续深入研究什么课题?
白翔:虽然计算机视觉热度非常高 , 但其中很多技术和方法在实际应用中存在非常大的限制 。 比如手机端的OCR识别程序 , 在应对夜间街景图片时会错漏百出 。 对此 , 我的看法时 , 要实现计算机视觉全面落地 , 深度学习与传统视觉方法可能已经带我们走完了前50步 , 后面仍然还有50步要走 。
在这种情况下 , 我觉得目前有这么几个方面可以值得去尝试 。 首先是图像合成技术 。 目前基于生成的方法 , 已经取得了一些非常逼真的效果 。 在一些特定领域会有一些实际用途 , 包括图像数据生成与扩增 , 人的服饰搭配 , 动画制作 , 视频剪辑等 。
另外还有多模态融合与感知 。 人类在识别物体时候 , 其实是有其3D或其它先验的 , 将图像信息与点云或来自其它传感设备得到的信息相融合 , 可以取得更加可靠的识别效果 。 例如 , 国内有些研究组结合红外成像在视频监控中取得了理想的应用效果;我们最近将临床数据与CT影像相结合 , 在新冠重症预测任务中获得了更鲁棒的测评性能 。 再举一个例子 , 要获得更准确的视频行为识别(例如电影片段)需要结合图像和文字甚至语音的方式 。
第三 , 我认为计算机视觉在对地观测领域的应用基础研究将有较大潜力 。 现有的视觉研究大多面向监控视频图像或日常生活图像 , 而航拍图像存在目标尺度变化大、方向性强、形状和分布更复杂的特点 , 从事该方向的研究能够给更多潜在实际应用带来想象空间 。
最后 , 从行业应用来看 , 计算机视觉在智慧教育和工业质检中将大有可为 。 随着文字识别与语音识别技术不断进步 , 已经可以看到计算机视觉在教育领域展露头角 , 比如公式识别在自动阅卷的应用 。 而工业缺陷的自动检测能大大减少工业产品质量检测过程的人力成本并且显著提升效率 。 无论是智慧教育还是工业质检中的视觉技术都存在着较多科学问题和应用问题亟待解决 。
在计算机视觉研究领域中 , 精度和速度一直是两个很重要的要素 , 那么您认为 , 应当如何取舍模型的精度和速度?
- 小兔警事|她被郑爽“打脸”,22岁自称身家78亿,被“揭穿”后成了现在这样
- 上游新闻58同城发布家政消费报告:90后成家政消费主力军
- 消费|“双11” 黑龙江购买力大数据来了!80后成主力!
- 医美智慧场|电影推荐,肥胖土妞整容后成当红歌星?逆袭之路太精彩!
- 天天聊游戏|“吃鸡”猝不及防,这个道具倒计时2天后成绝版,没有任何提示!
- 周到|第33届金鸡奖提名公布,周冬雨能否凭《少年的你》再度封后成最大悬念
- 避雨的港湾|她是日本最美体操女神,因一组知性写真走红,退役后成时尚宠儿!
- 自媒体人李奥Procreate零基础教程第一课 Procreate入门之使用基础(下)
- 蒙古|蒙牛成立“可牛了“公司,伊利随后成立“伊知牛”牧业
- 犯罪|他在监狱拜燕子李三为师,后成功越狱,建国后任最高法院副院长