按关键词阅读:
文章插图
最后,研究者们还通过可视化的例子展现了模型的能力。
文章插图
针对基于语言查询的视频片段定位这个任务,云从-上交的联合研究团队提出了,将视频片段定位类比为自然语言处理中的多项选择阅读理解,同时建模了视频片段-句子层面和视频片段-单词层面的关系,并且提出了一种稀疏连接的图网络高效地建模了不同视频片段之间的关系,在公开数据集上取得了SOTA表现。
更多的技术细节请参考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。
[1] Songyang Zhang, Houwen Peng, Jianlong Fu, and Jiebo Luo. 2020b. Learning 2d temporal adjacent networks for moment localization with natural language.In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 12870–12877.[2] Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, and Bernard Ghanem. 2020. G-tad: Sub-graph localization for temporal action detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[3] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. 2019. Ccnet: Criss-cross attention for semantic segmentation. In2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.
文章插图
雷锋网
稿源:(雷锋网)
【傻大方】网址:http://www.shadafang.com/c/11159612A2021.html
标题:云从科技&上海交大的跨模态技术成果:探索多层关系的REMNLP 2021 | 研究者们( 三 )