CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生
编者按:纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融 。 这里每一种文化最初的进化都是自洽的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的交互,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的共生,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如“道生一,一生二,二生三,三生万物”一般,赋予模型在各种视觉与语言任务上的生命力 。
----CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽 , 交互到共生//----
This monkey on the back of horse
----CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽 , 交互到共生//----
Disney made the best cake of all time using projection
----CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽 , 交互到共生//----
Tiny squid flopping around on the rocky bottom of fish tank
注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在GitHub上陆续公开(https://github.com/JDAI-CV/image-captioning),敬请关注!
CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽,交互到共生。 》》缘起:
视觉与语言,即视觉内容理解和自然语言表达,原本分属于计算机视觉(CV)和自然语言处理(NLP)两个不同的研究领域 。 然而在2014年,图像描述生成(Image Captioning)猛然打破了两者间的壁垒,凭借着机器翻译中经典的encoder-decoder模型一下贯通了从视觉内容到语言表达的转换,为CV和NLP领域的后继者同时打开了一个不同模态交叉融合的新世界 。
与机器翻译中不同自然语言间的转化相仿,图像描述生成任务可以提炼为从一种视觉语言(图像特征表达)到自然语言(描述语句)的转换 。 现今主流的图像描述生成算法的原型都可概括为两个模块:视觉编码器(Visual Encoder)和语言解码器(Language Decoder) 。 前者负责对视觉内容的理解,将视觉语言编码为富含语义信息的特征表达,后者则依据编码后的特征表达来解码出相应的语言描述 。
》》自洽:
各自文化的起点都是从蹒跚学步的孩童开始,渐渐形成一个完备自洽的体系 。 对于视觉和语言也是如此 。 身处深度学习的浪潮之中,视觉和语言各自也都在不断地往前进步,譬如由底层纹理到高层语义的视觉内容理解(Visual Understanding),亦或是由单个词出发演化至整个词序列的语言建模(Language Modeling) 。
- 标志情报局TB发布全新品牌字体,2020真蓝!魅族更新LOGO品牌色
- 娱乐大爆料康崇利:2020年5月十大金股及市场展望
- 『中国』相约云上!省发改委牵头召开云上2020年中国品牌日活动福建分会场新闻通气会
- 缓缓静水流深不语中科大、北大、南京大学进入前三,2020中国一流大学排行榜出炉
- [教育局]实锤了!教育局发布了2020年暑假放假的通知
- 爵士浩南2020年5月装机配置推荐,4000元科学装机,性价比巨高
- 『深圳市』最新!吉林省疫情通报来了
- 「临床医学」2020广州一模理科数学试题及答案
- 『阿里』万科阿里京东扎堆养猪,养猪成了大厂们的新希望?
- 爵士浩南4000元科学装机,性价比巨高,2020年5月装机配置推荐