【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结( 二 )

2.2 评测指标
本次评测使用的评价指标为Mean Average Precision @3 (MAP@3), 形式如下:
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
其中 , |U|是需要预测的description总个数 , P(k)是在k处的精度 , n是paper个数 。 举例来说 , 如果在第一个位置预测正确 , 得分为1;第二个位置预测正确 , 得分为1/2;第三个位置预测正确 , 得分为1/3 。
3. 模型方法 通过对评测数据、任务和评价指标等分析 , 综合考量方案的效率和精准性后 , 本次评测中使用的算法架构包括“检索召回”和“精准排序”两个阶段 。 其中 , 检索召回阶段负责从候选集中高效快速地召回候选Documents , 从而缩减问题规模 , 降低排序阶段的复杂度 , 此阶段注重召回算法的效率和召回率;精准排序阶段负责对召回数据进行重排序 , 采用Learning to Rank相关策略进行排序最优解求解 。

【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
3.1 检索召回

  • 目标任务:使用高效的匹配算法对候选集进行粗筛 , 为后续精排阶段缩减候选排序的数据规模 。
  • 性能要求:召回阶段的方案需要权衡召回覆盖率和算法效率两个指标 , 一方面召回覆盖率决定了后续精排算法的效果上限 , 另一方面单纯追求覆盖率而忽视算法效率则不能满足评测时效性的要求 。
  • 检索召回方案:比赛过程中对比实验了两种召回方案 , 基于“文本语义向量表征“和“基于空间向量模型 + Bag-of-Ngram” 。 由于本任务文本普遍较长且专有名词较多等数据特点 , 实验表明“基于空间向量模型 + Bag-of-Ngram”的召回方案效果更好 , 下表中列出了使用的相关模型及其实验结果(recall@200) 。 可以看到相比于传统的BM25和TFIDF等算法 , F1EXP、F2EXP等公理检索模型(Axiomatic Retrieval Models)可以取得更高的召回覆盖率 , 该类模型增加了一些公理约束条件 , 例如基本术语频率约束 , 术语区分约束和文档长度归一化约束等等 。
F2EXP定义如下:
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
其中 , Q表示查询query ,D表示候选文档 , C(t, Q)是词t在Q中的频次 , |D|表示文档长度 , avdl为文档的平均长度 , N为文档总数 , df(t)为词t的文档频率 。
为了提升召回算法的效果 , 我们使用倒排索引技术对数据进行建模 , 然后在此基础上实现了F1EXP、DFR、F2EXP、BM25、TFIDF等多种检索算法 , 极大了提升了召回部分的运行效率 。 为了平衡召回率和计算成本 , 最后使用F1EXP、BM25、TFIDF 3种算法各召回50条结果融合作为后续精排候选数据 , 在验证集上测试 , 召回覆盖率可以到70% 。
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
3.2 精准排序
精排阶段基于Learning to Rank的思想进行方案设计 , 提出了两种解决方案 , 一种是基于Pairwise-BERT的方案 , 另一种是基于LightGBM的方案 , 下面分别进行介绍:
1) 基于BERT的排序模型
BERT是近年来NLP领域最重大的研究进展之一 , 本次评测中 , 我们也尝试引入BERT并对原始模型使用Pointwise Approach的模式进行改进 , 引入Pairwise Approach模式 , 在排序任务上取得了一定的效果提升 。 原始BERT 使用Pointwise模式把排序问题看做单文档分类问题 , Pointwise优化的目标是单条Query与Document之间的相关性 , 即回归的目标是label 。 而Pairwise方法的优化目标是两个候选文档之间的排序位次(匹配程度) , 更适合排序任务的场景 。 具体来说 , 对原始BERT主要有两点改进 , 如下图中所示: