傻大方

云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

RaNet一共包含5个部分:(1)多模态的特征编码模块;(2)候选视频片段的生成模块;(3)候选视频片段和查询语句的交互模块;(4)不同视频片段的关系构建模块;(5)结果选择模块。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

最后,研究者们使用了alignment loss对模型进行了训练:

3

实验结果
研究者们通过大量的实验验证了RaNet对于基于语言查询的视频片段定位任务的有效性。
1.与SOTA模型的比较
本文在3个常见数据集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m评价指标,与以往的工作进行了对比,在3个数据集上基本都取得了SOTA的表现。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

2.模型中每个模块带来的效益
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们】为了突显出模型中每个模块的重要性,研究者们做了消融实验,从结果来看,同时考虑视频片段和句子的关系,以及视频片段和单词的关系,比单独考虑这两者带来的收益要多。当同时构建不同视频片段之间的关系时,模型能够更加精准地对视频片段进行定位。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

3.在不同IoUs上带来的提升
研究者们还与之前SOTA模型2D-TAN比较了在不同IoU上的相对提升率,可以发现,在越高的IoU上,本文的RaNet提升得更加明显。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

4.视频片段特征的不同生成方式的影响
研究者们比较了Pooling、Sampling、Addition、Concatenation这四种不同的视频片段特征的生成方式,实验发现更加关注边界特征的Concatenation操作表现更好。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

不同word embeddings的影响:
为了探寻不同的词向量编码对实验结果对的影响,研究者们还比较了不同word embeddings的表现,发现越强的语言表征更有益于模型精准地定位视频片段。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们
文章插图

5.模型的效率
研究者们还展示了模型在TACoS数据集上的参数量和FLOPs,并和之前的2D-TAN模型进行了对比,由于在构建视频片段关系的模块中本文采用的是稀疏连接的图网络模型,所以参数量大大减小,效率得到了提升。
云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们


稿源:(雷锋网)

【傻大方】网址:http://www.shadafang.com/c/11159612A2021.html

标题:云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们( 二 )


上一篇:双十一|汽车圈的双十一,为何热不起来?

下一篇:研究所|拒绝赛博朋克:斯坦福HAI报告警示“科技巨头垄断AI研究已成威胁”,力挺「国家安全云」计划


研究所|拒绝赛博朋克:斯坦福HAI报告警示“科技巨头垄断AI研究已成威胁”,力挺「国家安全云」计划

云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们

双十一|汽车圈的双十一,为何热不起来?

漫画|日漫《转生成为史莱姆》竟然还有“社畜”版,你别说还挺好看的

灵感|国外艺术家灵感爆发,将流行文化角色绘成日漫画风,这画风爱了

我妻善逸|鬼灭之刃十大呼吸法排名,第一毋庸置疑,水之呼吸居然排不上前五

游戏|《鬼灭之刃:火之神血风谭》全新游戏截图公开

同人|伽古拉的3款奥特曼形态,月牙元素被保留,还是黑田笔下的最优质

乔巴|海贼王981话:尾田公然开车,连兔子都不放过,娜美罕见正经一回

读书|孩子,我不欠你的吃不吃读书苦,决定你以后靠脑子还是靠力气吃饭