【云从科技&上海交大的跨模态技术成果：探索多层关系的REMNLP 2021

按关键词阅读：

文章插图

让机器实现多感官同步进化，做到像人类一样同时看懂、听懂、读懂。

近日，国际NLP领域顶级会议EMNLP 2021拉开帷幕。云从科技与上海交通大学联合研究团队的《Relation-aware Network：探索视频片段定位任务中的多种层面关系》成功入选会议论文，并于大会进行线上宣讲。
EMNLP（Conference on Empirical Methods in Natural Language Processing）是计算语言学和自然语言处理领域的顶级国际会议之一，由国际语言学会(ACL)旗下SIGDAT组织。EMNLP论文入选标准十分严格，今年论文录取率仅23.3%，相比去年略有下降。EMNLP学术会议上展示的研究成果，被认为代表着自然语言处理领域的前沿水平与未来发展方向。
本次入选论文，围绕“基于语言查询的视频片段定位”这一视觉-文本的跨模态任务，将NLP与视觉技术结合，技术让机器同时具备“理解文字”和“看懂视频”的能力：能够更精准地读懂文字，并理解视频内容，在整段视频中找出与给定文字相对应的视频片段。该项成果在多个数据集上，都取得了优于过去研究的表现。
这一成果在技术研究与实践领域都具有十分重要的意义：
在技术上让机器实现“多感官进化”：如今视觉、听觉等单点AI技术，将越来越难以满足多样的应用需求。该项技术旨在让机器向完成“跨模态任务”进化：让机器能够同时掌握视觉、文字等多种模态的信息，做到像人类一样看懂、听懂、读懂，拥有全面的能力。近年来在学界，跨模态任务已成为一大研究热点，为AI领域注入新的活力。
突破单点技术，扩大跨模态应用场景：在实战场景中，随着高清摄像头的普及以及网络媒体的快速发展，各式各样的视频呈海量增长态势，自动化视频处理AI技术也迎来巨大的需求。本项成果基于语言查询的视频片段定位技术，能够有效解决治理、出行等多领域的难点问题，例如公共场合下的安全监控、社交媒体视频内容的审核等等，突破以往的单点技术应用瓶颈，带来数量级的效率提升。
NLP等决策技术被认为是AI领域下一个技术突破口，使机器拥有理解、思考、分析决策的能力，为人机交互、行业应用等带来颠覆式改变。云从科技、上海交通大学提出Relation-aware Network，探索视频片段定位任务中的多种层面关系。

简介

基于语言查询的视频片段定位任务（Temporal Language Grounding）：该任务是给定一个视频和一段描述语句，通过融合视觉和语言两种模态的信息，在视频中定位出语言所描述内容的视频片段。随着高清摄像头的普及以及网络媒体的快速发展，每天都会出现大量各式各样的视频，自动化的视频处理技术就被广泛应用在公共场合下的安全监控、社交媒体上视频内容的审核中，作为视觉-文本的跨模态任务，基于语言查询的视频片段定位也受到了越来越多的关注。
云从科技&上海交大的跨模态技术成果：探索多层关系的REMNLP 2021 | 研究者们

文章插图

一方面，已有的视频片段定位方法通常只考虑了视频片段和整个句子的关系，而忽略了视频片段和句子中每个词语这种更加细致的关系，这样就不能全面地交互视觉和语言的信息，云从和上交联合团队的研究者们提出了一种coarse-and-fine的交互方式，从粗粒度和细粒度的角度同时考虑了视频片段-句子层面和关系和视频片段-词语层面的关系。
另一方面，现有的工作往往忽视了不同视频片段之间的关系，或者仅仅采用了几层卷积网络的堆叠，存在计算量大、有噪声影响等缺点，本文的研究者们提出了一种稀疏连接的图网络，仅仅考虑了起始或者终止时间相同的视频片段，高效地建模了不同视频片段之间的关系，帮助模型更好地区分视觉上相似的视频片段。

方法

文章插图

论文地址：https://arxiv.org/abs/2110.05717

代码地址：https://github.com/Huntersxsx/RaNet

研究者们认为，基于语言查询的视频片段定位任务（Temporal Language Grounding），在某种程度上和自然语言理解中的多项选择阅读理解任务（Multi-choice Reading Comprehension）类似，可以把给定的视频、查询语言以及候选的视频片段分别类比为阅读理解中的文章、问题和候选答案。在将问题转化为阅读理解任务之后，研究者们提出了RaNet来解决该问题。

稿源：(雷锋网)

【傻大方】网址：http://www.shadafang.com/c/11159612A2021.html

标题：云从科技&上海交大的跨模态技术成果：探索多层关系的REMNLP 2021 | 研究者们

傻大方

云从科技&上海交大的跨模态技术成果：探索多层关系的REMNLP 2021 | 研究者们

研究所|拒绝赛博朋克：斯坦福HAI报告警示“科技巨头垄断AI研究已成威胁”，力挺「国家安全云」计划

云从科技&上海交大的跨模态技术成果：探索多层关系的REMNLP 2021 | 研究者们

双十一|汽车圈的双十一，为何热不起来？

漫画|日漫《转生成为史莱姆》竟然还有“社畜”版，你别说还挺好看的

灵感|国外艺术家灵感爆发，将流行文化角色绘成日漫画风，这画风爱了

我妻善逸|鬼灭之刃十大呼吸法排名，第一毋庸置疑，水之呼吸居然排不上前五

游戏|《鬼灭之刃：火之神血风谭》全新游戏截图公开

同人|伽古拉的3款奥特曼形态，月牙元素被保留，还是黑田笔下的最优质

乔巴|海贼王981话：尾田公然开车，连兔子都不放过，娜美罕见正经一回

读书|孩子，我不欠你的吃不吃读书苦，决定你以后靠脑子还是靠力气吃饭