CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽，交互到共生 ThismonkeyonthebackofhorseDisneymade

　　编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如“道生一,一生二,二生三,三生万物”一般,赋予模型在各种视觉与语言任务上的生命力。

----CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽，交互到共生//----

　　This monkey on the back of horse

----CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽，交互到共生//----

　　Disney made the best cake of all time using projection

----CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽，交互到共生//----

　　Tiny squid flopping around on the rocky bottom of fish tank

　　注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在GitHub上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!

CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽，交互到共生。　　》》缘起:

　　视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域。然而在2014年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和NLP领域的后继者同时打开了一个不同模态交叉融合的新世界。

　　与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换。现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)和语言解码器(Language Decoder) 。前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述。

　　》》自洽:

　　各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling) 。