【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结( 三 )


  • 改进训练样本构造形式:Pointwise模式下样本是按照形式构造输入 , Pairwise模式下样本按照形式进行构造 , 其中Query与Doc1的匹配程度大于与Doc2的匹配程度 。
  • 改进模型优化目标:Pointwise模式下模型使用的Cross Entropy Loss作为损失函数 , 优化目标是提升分类效果 , 而Pairwise模式下模型使用Hing Loss作为损失函数 , 优化目标是加大正例和负例在语义空间的区分度 。

【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
在基于BERT进行排序的过程中 , 由于评测数据多为生命科学领域的论文 , 我们还使用了SciBERT和BioBERT等基于特定领域语料的预训练BERT模型 , 相比Google的通用BERT较大的效果提升 。
2) 基于LightGBM的排序模型
不过 , 上面介绍的基于BERT的方案构建的端到端的排序学习框架 , 仍然存在一些不足 。 首先 , BERT模型的输入最大为512个字符 , 对于数据中的部分长语料需要进行截断处理 , 这就损失了文本中的部分语义信息;其次 , 本任务中语料多来自科学论文 , 跟已有的预训练模型还是存在偏差 , 这也在一定程度上限制了模型对数据的表征能力 。 此外 , BERT模型网络结构较为复杂 , 在运行效率上不占优势 。 综合上述三方面的原因 , 我们提出了基于LightGBM的排序解决方案 。
LightGBM是微软2017年提出 , 比Xgboost更强大、速度更快的模型 。 LightGBM在传统的GBDT基础上有如下创新和改进:
  • 采用Gradient-based One-Side Sampling(GOSS)技术去掉很大部分梯度很小的数据 , 只使用剩下的去估计信息增益 , 避免低梯度长尾部分的影响;
  • 采用Exclusive Feature Bundling(EFB)技术以减少特征的数量;
  • 传统GBDT算法最耗时的步骤是使用Pre-Sorted方式找到最优划分点 , 其会在排好序的特征值上枚举所有可能的特征点 , 而LightGBM中会使用histogram算法替换了GBDT传统的Pre-Sorted , 牺牲一定精度换取了速度;
  • LightGBM采用Leaf-Wise生长策略 , 每次从当前所有叶子中找到分裂增益最大的一个叶子 , 然后分裂 , 如此循环 。 因此同Level-Wise相比 , 在分裂次数相同的情况下 , Leaf-Wise可以降低更多的误差 , 得到更好的精度 。
基于Light GBM的方案需要特征工程的配合 。 在我们实践中 , 特征主要包括Statistic Semantic Features(包括F1EXP、F2EXP、TFIDF、BM25等)、Distributed Semantic Features(包括Glove、Doc2vec等)和Ranking Features(召回阶段的排序序列特征) , 并且这些特征分别从标题、摘要、关键词等多个维度进行抽取 , 最终构建成特征集合 , 配合LightGBM的pairwise模式进行训练 。 该方法的优点是运行效率高 , 可解释性强 , 缺点是特征工程阶段比较依赖人工对数据的理解和分析 。
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
4. 实验结果 我们分别对比实验了不同方案的效果 , 可以发现无论是基于BERT的排序方案还是基于LightGBM的排序方案 , Pairwise的模式都会优于Pointwise的模式 , 具体实验数据如表2所示:
【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结
本文插图
表2 不同方案实验结果
5. 总结与展望 本文主要介绍了美团搜索与NLP部在WSDM Cup 2020 Task 1评测中的实践方案 , 我们构建了召回+排序的整体技术框架 。 在召回阶段引入多种召回策略和倒排索引保证召回的速度和覆盖率;在排序阶段提出了基于Pairwise模式的BERT排序模型和基于LightGBM的排序模型 。 最终 , 美团也非常荣幸地取得了榜单第一名的成绩 。