【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结( 三 ) |搜索引擎|算法|微软|

改进训练样本构造形式：Pointwise模式下样本是按照形式构造输入， Pairwise模式下样本按照形式进行构造，其中Query与Doc1的匹配程度大于与Doc2的匹配程度。
改进模型优化目标：Pointwise模式下模型使用的Cross Entropy Loss作为损失函数，优化目标是提升分类效果，而Pairwise模式下模型使用Hing Loss作为损失函数，优化目标是加大正例和负例在语义空间的区分度。

本文插图
在基于BERT进行排序的过程中，由于评测数据多为生命科学领域的论文，我们还使用了SciBERT和BioBERT等基于特定领域语料的预训练BERT模型，相比Google的通用BERT较大的效果提升。
2) 基于LightGBM的排序模型
不过，上面介绍的基于BERT的方案构建的端到端的排序学习框架，仍然存在一些不足。首先， BERT模型的输入最大为512个字符，对于数据中的部分长语料需要进行截断处理，这就损失了文本中的部分语义信息；其次，本任务中语料多来自科学论文，跟已有的预训练模型还是存在偏差，这也在一定程度上限制了模型对数据的表征能力。此外， BERT模型网络结构较为复杂，在运行效率上不占优势。综合上述三方面的原因，我们提出了基于LightGBM的排序解决方案。
LightGBM是微软2017年提出，比Xgboost更强大、速度更快的模型。 LightGBM在传统的GBDT基础上有如下创新和改进：

采用Gradient-based One-Side Sampling(GOSS)技术去掉很大部分梯度很小的数据，只使用剩下的去估计信息增益，避免低梯度长尾部分的影响；
采用Exclusive Feature Bundling(EFB)技术以减少特征的数量；
传统GBDT算法最耗时的步骤是使用Pre-Sorted方式找到最优划分点，其会在排好序的特征值上枚举所有可能的特征点，而LightGBM中会使用histogram算法替换了GBDT传统的Pre-Sorted ，牺牲一定精度换取了速度；
LightGBM采用Leaf-Wise生长策略，每次从当前所有叶子中找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-Wise相比，在分裂次数相同的情况下， Leaf-Wise可以降低更多的误差，得到更好的精度。

基于Light GBM的方案需要特征工程的配合。在我们实践中，特征主要包括Statistic Semantic Features（包括F1EXP、F2EXP、TFIDF、BM25等）、Distributed Semantic Features（包括Glove、Doc2vec等）和Ranking Features（召回阶段的排序序列特征），并且这些特征分别从标题、摘要、关键词等多个维度进行抽取，最终构建成特征集合，配合LightGBM的pairwise模式进行训练。该方法的优点是运行效率高，可解释性强，缺点是特征工程阶段比较依赖人工对数据的理解和分析。

本文插图
4. 实验结果我们分别对比实验了不同方案的效果，可以发现无论是基于BERT的排序方案还是基于LightGBM的排序方案， Pairwise的模式都会优于Pointwise的模式，具体实验数据如表2所示：

本文插图
表2 不同方案实验结果
5. 总结与展望本文主要介绍了美团搜索与NLP部在WSDM Cup 2020 Task 1评测中的实践方案，我们构建了召回+排序的整体技术框架。在召回阶段引入多种召回策略和倒排索引保证召回的速度和覆盖率；在排序阶段提出了基于Pairwise模式的BERT排序模型和基于LightGBM的排序模型。最终，美团也非常荣幸地取得了榜单第一名的成绩。