【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结


在WSDM 2020国际网络搜索与数据挖掘会议上 , 由微软研究院发起了一项学术评测任务Citation Intent Recognition , 要求参赛者根据论文中对某项科研工作的描述 , 从论文库中找出与该描述最匹配的Top3论文 , 本次评测属于经典的文本检索排序任务 。
美团搜索与NLP部与国内两所高校组队 , 提出了一种基于BERT和LightGBM的多模融合检索排序解决方案 , 拿下了WSDM Cup 2020 Task 1榜单的第一名 。 本文系获奖作者的经验总结文章 。
1. 背景 第13届“国际网络搜索与数据挖掘会议”(WSDM 2020)于2月3日在美国休斯敦召开 , 该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办 , 在互联网搜索、数据挖掘领域享有很高学术声誉 。 本届会议论文录用率仅约15% , 并且WSDM历来注重前沿技术的落地应用 , 每届大会设有的WSDM Cup环节提供工业界真实场景中的数据和任务用以研究和评测 。
今年的WSDM Cup设有3个评测任务 , 吸引了微软、华为、腾讯、京东、中国科学院、清华大学、台湾大学等众多国内外知名机构的参与 。 美团搜索与NLP部继去年获得了WSDM Cup 2019第二名后 , 今年继续发力 , 拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜单的第一名 。
本次参与的是由微软研究院提出的Citation Intent Recognition评测任务 , 该任务共吸引了全球近600名研究者的参与 。 本次评测中我们引入高校合作 , 参评团队Ferryman由搜索与NLP部-NLP中心的刘帅朋、江会星及电子科技大学、东南大学的两位科研人员共同组建 。 团队提出了一种基于BERT和LightGBM的多模融合检索排序解决方案 , 该方案同时被WSDM Cup 2020录用为专栏论文 。
【【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结】
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
2. 任务简介
任务要求参赛者根据论文中对某项科研工作的描述 , 从论文库中找出与该描述最匹配的Top3论文 。 举例说明如下 。
某论文中对科研工作[1]和[2]的描述如下:
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
参赛者需要根据这段科研描述从论文库中检索与[1][2]相关工作最匹配论文 。
在本例中:
与工作[1]最匹配的论文题目应该是:
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.
与工作[2]最匹配的论文题目应该是:
[2] Relational inductive biases, deep learning, and graph networks.
由上述分析可知 , 该任务是经典的检索排序任务 , 即根据文本Query从候选Documents中找出Top N个最相关的Documents , 核心技术包括文本语义理解和搜索排序 。
2.1 评测数据
本次评测数据分为论文候选集、训练集、验证集和测试集四个部分 , 各部分数据的表述如表1所示:
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
表1 评测数据分析表
对本次评测任务及数据分析可以发现本次评测存在以下特点: