半路出家OCR后成领域专家,白翔:计算机视觉科研没有捷径( 二 )


尽管困难重重 , 我跟学生更多强调的是不要着急写论文 , 要静下心来解决实际问题 。 我们花了大量时间去反复论证 , 这一过程也积累了对该研究领域的深刻认识 。 后来大家看到的这些论文其实跟这段时间的积累是分不开的 。
当时 , 我们观察到许多照片中的文字并不是呈水平方向排列 , 很多是倾斜甚至是弯曲的 。 因此 , 我们希望做一套方案 , 能克服当时场景文本检测方法的局限性 , 通用于各种形状的文本 。 回头来看 , 现在多方向文本检测技术已经很普遍 , 并且这种方式在遥感目标检测领域也被普遍采纳 , 但这些都离不开当时做研究的这股韧性和坚持 。
您在计算机视觉领域少年成名 , 在读博期间就以第一作者发表了3篇计算机视觉顶级期刊TPAMI论文 , 那么您认为对于一个计算机视觉博士而言 , 什么是完整、全面的博士科研训练?
白翔:我觉得首先要有兴趣 , 兴趣才是最好的老师 。 按照王国维人生三种境界 , 初入领域的研究生需经过从第一阶段“独上高楼 , 忘尽天涯路”通往第二阶段“衣带渐宽终不悔 , 为伊消得人憔悴”的过程 。 如果仅仅是把科研做为完成学业的任务去完成 , 而不是发自内心的喜欢这项工作 , 是很难在所从事的研究课题上获得突破的 。
当然 , 兴趣也是可以培养的 , 但必须建立在对计算机视觉研究有一定的了解之上 。 另外 , 需要具备一定的程序设计基础 , 毕竟这是一个偏应用的学科 , 对实际动手能力有一定的要求 。 良好的数学基础也是必要的 , 例如概率论、线行代数有关基础知识 。 但最重要的不是具备多少基础 , 而是怎么去做这个事 。
对于初入研究的学生 , 我一般会建议他们去参加一些学术竞赛或实战项目 。 这种方式能让学生深入了解实际问题 , 清楚该领域的真正瓶颈所在 。 阅读文献或者听他人的报告 , 这虽然有助于快速获得一些经验 , 但对研究入门者而言 , 它更多只会带来感性的认识 。 要获得理性的认识 , 就需要接触实际的数据、实际的算法和系统 。 对研究问题的认识越深刻 , 就越有可能突破其瓶颈 。
2探讨OCR领域相关研究
OCR在实际应用中经常碰到这样的情形:不同语种、不同形式的文字同时存在 , 在这种情况下 , 学术界是否能有较为通用的方法 , 来解决这一问题?
白翔:对于文字的多样性的问题 , 学术界的考虑其实是不够的 。 为什么这样说?首先 , 文字数据与其他数据相比不是那么丰富 , 开源的数据规模和种类相对偏少 。 基于这种情况 , 我们也在考虑组织构建大规模文字数据集 。 另外 , 文字数据很多时候是涉及到隐私的 , 比如手写字、发票等 , 都是不宜对外公开的 。 第三 , 文字的标注也比较复杂 。 对于一般物体 , 只需一个包围盒即可;而对文字进行词或行级别的包围盒标注不一定足够 , 例如汉字 , 字符级别的标注往往是需要的 。 特别是对于连写的手写字 , 标注起来更加繁琐 。
我们之前的算法基本都是出于使检测和识别过程简易化的目的 , 对文本行或单词直接处理 。 但如果要把它做得更加的鲁棒和通用 , 字符级别的定位与识别也是有较明显的提升作用的 , 这也体现在最近一些新的研究工作中 , 例如Mask TextSpotter , CRAFT等 。 但不管怎样 , 要解决通用OCR这一难题 , 学术界缺乏数据类型丰富且标注精细的大规模数据集 。 从另外一个方面看 , 小样本或者无监督条件下的文字检测识别方法目前鲜有学者对此展开研究 , 这可能是解决通用文字识别的一个途径 。
总体而言 , 要实现通用OCR , 还要有很多工作需要做 。 这不能靠一个人来做 , 它需要工业界和学术界的紧密合作 , 通过制定有关的标准 , 以及基本数据集和评价方法 , 才有希望解决这个问题 。 就现阶段来看 , 文字识别技术泛化性尚可 , 因为它使用合成数据来进行训练就可以取得稳定的识别精度 , 而文字检测技术的泛化性还存在较大问题 , 易受环境的影响 。 但如果遇到版式或结构极其复杂的情况 , 两者都会遇到极大的困难 。