3月28日 , 阿里巴巴团队以0.450的得分 , 刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录 。 据悉 , 该团队最新研发的文本检索及排序技术已通过阿里云智能搜索产品OpenSearch对外输出 。
【阿里巴巴|阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO】文本检索排序任务需根据指定查询词 , 检索数据集中所有文档并进行排序 。 相关技术在机器阅读理解、智能问答、搜索引擎等领域应用广泛 , 一直是NLP领域重要的研究课题 。 由于候选文档数量巨大 , 文本检索排序通常包括粗排(召回)和精排两个阶段 , 其核心是在每个阶段建模查询词和候选文档的语义相关性 。 近两年基于大规模预训练语言模型训练的文本检索排序模型 , 较传统的统计模型效果提升显著 , 但业界在针对该任务设计适用工业实践的预训练语言模型底座及下游模型上仍有待突破 。
MS MARCO是文本检索排序领域最具代表性的数据集 , 收录了微软Bing搜索引擎和Cortana智能助手近百万查询词与800万文档在内的真实搜索场景数据 。 自2018年MS MACRO短文本检索排序任务发布以来 , 在全球范围内吸引了包括谷歌、Facebook、卡内基梅隆大学等上百个研究团队竞相挑战 , 促进了文本检索排序技术的发展 。
3月28日 , 阿里巴巴团队采用全新研发的文本检索与排序技术 , 登上MS MARCO短文本检索排序榜单榜首较第二名得分提升2.5% 。
据了解 , 阿里达摩院语言技术实验室与智能引擎团队提出了针对文本检索排序任务的新型预训练语言模型解决方案 , 即Search Language Model (SLM) + Hybird List Aware Reranking (HLAR) 。 在粗排阶段 , 团队针对文本召回任务的特征设计了新的预训练语言模型SLM在保证召回效率的同时将召回阶段的效果提升了3.9% 。 在精排阶段 , 以StructRobertaLarge模型为底座 , 团队提出了以Transformer结构为基础、组合粗排与精排特征的重排序模型HLAR 进一步提升了文本排序的效果 。
上述解决方案已通过阿里云智能搜索产品OpenSearch对外输出 , 在电商、教育、游戏等多个行业搜索应用中对比通用模型效果提升10%以上 。
为推动中文领域文本检索与排序技术的发展 , 近期阿里也公开了基于阿里巴巴真实搜索场景数据构建的多领域文本搜索数据集Multi-CPR(论文: https://arxiv.org/abs/2203.03367 ;数据: https://github.com/Alibaba-NLP/Multi-CPR) 。 未来团队将逐步推进相关文本排序模型的开源 。
- 小米科技|小米推出多看电纸书Pro II,搭载7.8寸墨水屏,1199元值得买吗
- 阿里巴巴|最后一次!阿里第九版Java系统架构师+应用架构师面试突击宝典
- 阿里巴巴|轻薄机身颜值高,vivo Pad即将到来,出色配置带来畅快体验
- 手机维修|俄罗斯将推出一个名为Rossgram的新社交平台替代被禁的Instagram
- 折叠屏|折叠屏手机2.0时代来了!vivo将推出折叠手机:80W充电+屏下镜头
- 钉钉|钉钉——阿里“打入”产业互联网的尖兵连
- 阿里巴巴|老头环不称手?系统延迟了解下
- 阿里巴巴|阿里女员工,辞职到沙特干快递,4年拓展10国,赚了几十亿?
- 裁员|腾讯、阿里裁员的真相终于大白!网友:还是这家科技企业更稳定
- iPad Pro|新款iPad Pro带有 M2和 MagSafe可能会在 2022 年秋季推出