半路出家OCR后成领域专家,白翔:计算机视觉科研没有捷径


华中科技大学白翔教授是计算机视觉领域的优秀学者 , 也是场景文字领域的知名大牛 。 在访谈中 , 白翔教授不仅分享了他对于人工智能行业、场景文字检测与识别技术发展的前沿观点 , 还为当下的计算机视觉科研者们分享了他非常宝贵的科研经历与心得 。
每一位科研者都走过一条属于他自己的科研路 。 那么白翔教授的科研路是什么样的?下文即答案 。
半路出家OCR后成领域专家,白翔:计算机视觉科研没有捷径
本文插图
白翔 , 教授 , IAPR Fellow 。 研究领域为计算机视觉与模式识别 , 文档分析与识别 。 已在国内外刊物和学术会议上发表论文180余篇 , 谷歌学术显示引用15000余次 , h指数63 ……
这是白翔教授目前的学术成就 。 可以说在国内计算机视觉研究领域 , 白翔教授所处的位置是比较高的 。 而这份成就的取得 , 可以从他的学生时代说起 。
白翔教授于2003年、2005年和2009年在华中科技大学取得本科、硕士及博士学位 , 2007年获“微软学者”奖 , 读博期间以第一作者在计算机视觉最具影响力的期刊PAMI上发表了3篇论文 , 并于2011年获湖北省优秀博士论文 。 可以说 , 他在学生时代就是出类拔萃的 。
但即便如此 , 白翔教授也有过被拒稿的经历:
在硕士研究生求学期间 , 他写了一篇论文投到《软件学报》这个权威期刊上 , 该文章在投稿前在导师的帮助下至少修改了15遍 , 最后被拒稿 。 后来 , 经过不到两年的努力 , 白翔教授就在PAMI上发表了2篇论文 , 同时为SCI核心源杂志Pattern Recognition担任审稿人 。
当时的他将这一成功简单地概括为两点:坚持+兴趣 。
白翔教授说:“硕士阶段的积累很重要 , 它为后面出成果打下了基础 。 学习的收获 , 不能仅仅用发了多少论文来衡量 。 其次 , 计算机视觉研究确实是我的兴趣所在 , 我是在享受这个过程 , 名利并不是做研究的目的 。 ”
作为年少成名的科研者 , 让人意想不到的是 , 白翔教授也有过找工作被拒的经历 。 硕士毕业后 , 他曾进入某国际知名企业的最后一轮面试 , 但没有获得Offer 。
短暂的动摇之后 , 他坚守了自己的信念:“在找工作的时候 , 我发现我更喜欢研究我自己感兴趣的东西 。 我选择了继续攻读博士 , 因为我觉得前面的研究工作没有完成 , 这时候放弃比较可惜 。 ”
后来 , 事实也证明 , 留在学校继续做研究 , 是他正确的选择 。
在这次访谈中 , 白翔教授非常耐心地为我们答疑解惑 , 在分享他在计算机视觉领域的科研经历的同时 , 表达了他对于深度学习学业与产业的思考 。 相信下文的访谈实录能为你的科研工作与生活带来不少启发 。
1关于科研:“坚持的力量”
您在计算机视觉领域造诣深厚 , 能否分享一段您印象最深的科研经历?
白翔:印象比较深的是2011年到2013年间 , 我面临着选择新研究课题的问题 。 因为我在博士阶段做的是形状表述与图匹配相关的工作 , 相对来说比较基础 。 当时的我特别想尝试一下应用基础研究 。 研究方向的选择是比较重要的 , 我花了相当一段时间去思考后 , 选择场景文字检测与识别这个研究课题 。 我认为该课题具备较高的应用潜力 。
进入该领域前期是一个非常困难的阶段 。 当时的场景文字检测和识别是非常繁琐的问题 , 它涉及到很多算法 , 要实现一套有效的解决方案 , 需要花大量时间去摸索 。 具体来说 , 文本不同于一般目标 , 是由多个非连通的字符组成 , 这就要求在算法实现中增加较多经验式的操作 。 在传统的区域特征提取方法之上 , 需要完成字符之间的关联 , 同时需要克服虚景或非文字部分带来的干扰 。 此外 , 当时可供参考的开源代码非常稀少 , 导致在前期摸索中走了不少弯路(这也是之后我们开源了多篇论文源码的重要原因) 。