【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
在WSDM 2020国际网络搜索与数据挖掘会议上 , 由微软研究院发起了一项学术评测任务Citation Intent Recognition , 要求参赛者根据论文中对某项科研工作的描述 , 从论文库中找出与该描述最匹配的Top3论文 , 本次评测属于经典的文本检索排序任务 。
美团搜索与NLP部与国内两所高校组队 , 提出了一种基于BERT和LightGBM的多模融合检索排序解决方案 , 拿下了WSDM Cup 2020 Task 1榜单的第一名 。 本文系获奖作者的经验总结文章 。
1. 背景 第13届“国际网络搜索与数据挖掘会议”(WSDM 2020)于2月3日在美国休斯敦召开 , 该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办 , 在互联网搜索、数据挖掘领域享有很高学术声誉 。 本届会议论文录用率仅约15% , 并且WSDM历来注重前沿技术的落地应用 , 每届大会设有的WSDM Cup环节提供工业界真实场景中的数据和任务用以研究和评测 。
今年的WSDM Cup设有3个评测任务 , 吸引了微软、华为、腾讯、京东、中国科学院、清华大学、台湾大学等众多国内外知名机构的参与 。 美团搜索与NLP部继去年获得了WSDM Cup 2019第二名后 , 今年继续发力 , 拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜单的第一名 。
本次参与的是由微软研究院提出的Citation Intent Recognition评测任务 , 该任务共吸引了全球近600名研究者的参与 。 本次评测中我们引入高校合作 , 参评团队Ferryman由搜索与NLP部-NLP中心的刘帅朋、江会星及电子科技大学、东南大学的两位科研人员共同组建 。 团队提出了一种基于BERT和LightGBM的多模融合检索排序解决方案 , 该方案同时被WSDM Cup 2020录用为专栏论文 。
【【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结】
本文插图
2. 任务简介
任务要求参赛者根据论文中对某项科研工作的描述 , 从论文库中找出与该描述最匹配的Top3论文 。 举例说明如下 。
某论文中对科研工作[1]和[2]的描述如下:
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
参赛者需要根据这段科研描述从论文库中检索与[1][2]相关工作最匹配论文 。
在本例中:
与工作[1]最匹配的论文题目应该是:
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.
与工作[2]最匹配的论文题目应该是:
[2] Relational inductive biases, deep learning, and graph networks.
由上述分析可知 , 该任务是经典的检索排序任务 , 即根据文本Query从候选Documents中找出Top N个最相关的Documents , 核心技术包括文本语义理解和搜索排序 。
2.1 评测数据
本次评测数据分为论文候选集、训练集、验证集和测试集四个部分 , 各部分数据的表述如表1所示:
本文插图
表1 评测数据分析表
对本次评测任务及数据分析可以发现本次评测存在以下特点:
- 与工业界的实际场景类似 , 本次任务数据量规模比较大 , 要求制定方案时需要同时考虑算法性能和效果 , 因此相关评测方案可以直接落地应用或有间接参考的价值;
- 为了保证方案具有一定落地实用价值 , 本任务要求测试集的结果需要在48小时内提交 , 这也对解决方案的整体效率提出了更高的要求 , 像常见的使用非常多模型的融合提升方案 , 在本评测中就不太适用;
- 跟自然语言处理领域的一般任务不同 , 本次评测任务中数据多来源于生命科学领域 , 存在较多的专有词汇和固定表述模式 , 因此一些常见的方法模型(例如在通用语料上预训练的BERT、ELMo等预训练模型)在该任务上的直接应用是不合适的 , 这也是本次任务的难点之一 。
- [Python爬虫与数据挖掘]一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件
- 与非网■在消费类相机、监控摄像头等大展身手,信骅科技选用芯片IP用于其Cupola360
- [技术]信骅科技选用芯片IP用于其Cupola360,在消费类相机、监控摄像头等大展身手
- 华为云夺得国际权威大赛WSDM Cup 2020金牌
- 今日头条联合WSDM发起反谣言挑战赛 三强队伍谣言识别率超88%