【数据挖掘】WSDM Cup 2020检索排序评测任务第一名经验总结( 三 )
- 改进训练样本构造形式:Pointwise模式下样本是按照形式构造输入 , Pairwise模式下样本按照形式进行构造 , 其中Query与Doc1的匹配程度大于与Doc2的匹配程度 。
- 改进模型优化目标:Pointwise模式下模型使用的Cross Entropy Loss作为损失函数 , 优化目标是提升分类效果 , 而Pairwise模式下模型使用Hing Loss作为损失函数 , 优化目标是加大正例和负例在语义空间的区分度 。
本文插图
在基于BERT进行排序的过程中 , 由于评测数据多为生命科学领域的论文 , 我们还使用了SciBERT和BioBERT等基于特定领域语料的预训练BERT模型 , 相比Google的通用BERT较大的效果提升 。
2) 基于LightGBM的排序模型
不过 , 上面介绍的基于BERT的方案构建的端到端的排序学习框架 , 仍然存在一些不足 。 首先 , BERT模型的输入最大为512个字符 , 对于数据中的部分长语料需要进行截断处理 , 这就损失了文本中的部分语义信息;其次 , 本任务中语料多来自科学论文 , 跟已有的预训练模型还是存在偏差 , 这也在一定程度上限制了模型对数据的表征能力 。 此外 , BERT模型网络结构较为复杂 , 在运行效率上不占优势 。 综合上述三方面的原因 , 我们提出了基于LightGBM的排序解决方案 。
LightGBM是微软2017年提出 , 比Xgboost更强大、速度更快的模型 。 LightGBM在传统的GBDT基础上有如下创新和改进:
- 采用Gradient-based One-Side Sampling(GOSS)技术去掉很大部分梯度很小的数据 , 只使用剩下的去估计信息增益 , 避免低梯度长尾部分的影响;
- 采用Exclusive Feature Bundling(EFB)技术以减少特征的数量;
- 传统GBDT算法最耗时的步骤是使用Pre-Sorted方式找到最优划分点 , 其会在排好序的特征值上枚举所有可能的特征点 , 而LightGBM中会使用histogram算法替换了GBDT传统的Pre-Sorted , 牺牲一定精度换取了速度;
- LightGBM采用Leaf-Wise生长策略 , 每次从当前所有叶子中找到分裂增益最大的一个叶子 , 然后分裂 , 如此循环 。 因此同Level-Wise相比 , 在分裂次数相同的情况下 , Leaf-Wise可以降低更多的误差 , 得到更好的精度 。
本文插图
4. 实验结果 我们分别对比实验了不同方案的效果 , 可以发现无论是基于BERT的排序方案还是基于LightGBM的排序方案 , Pairwise的模式都会优于Pointwise的模式 , 具体实验数据如表2所示:
本文插图
表2 不同方案实验结果
5. 总结与展望 本文主要介绍了美团搜索与NLP部在WSDM Cup 2020 Task 1评测中的实践方案 , 我们构建了召回+排序的整体技术框架 。 在召回阶段引入多种召回策略和倒排索引保证召回的速度和覆盖率;在排序阶段提出了基于Pairwise模式的BERT排序模型和基于LightGBM的排序模型 。 最终 , 美团也非常荣幸地取得了榜单第一名的成绩 。
- [Python爬虫与数据挖掘]一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件
- 与非网■在消费类相机、监控摄像头等大展身手,信骅科技选用芯片IP用于其Cupola360
- [技术]信骅科技选用芯片IP用于其Cupola360,在消费类相机、监控摄像头等大展身手
- 华为云夺得国际权威大赛WSDM Cup 2020金牌
- 今日头条联合WSDM发起反谣言挑战赛 三强队伍谣言识别率超88%