如何斩获KDD Cup两冠一季?美团广告团队公开解决方案
机器之心发布
机器之心编辑部
在不久前结束的 KDD Cup 2020 竞赛中 , 美团到店广告平台搜索广告算法团队在 Debiasing、AutoGraph、Multimodalities Recall 三道赛题中获得了两冠一季的成绩 。 本文将介绍该队伍的解决方案 。
ACM SIGKDD (国际数据挖掘与知识发现大会 , 简称 KDD)是数据挖掘领域的国际顶级会议 。 KDD Cup 比赛是由 SIGKDD 主办的数据挖掘领域顶级赛事 , 该赛事自 1997 年开始 , 每年举办一次 , 是目前数据挖掘领域最具影响力的赛事 。
KDD Cup 2020 共设置五道赛题(四个赛道) , 分别涉及 Debiasing(数据偏差问题)、Multimodalities Recall(多模态召回问题)、AutoGraph(自动化图表示学习)、对抗学习问题和强化学习问题 。
本文插图
图 1:KDD 2020 会议
美团到店广告平台搜索广告算法团队的黄坚强、胡可、漆毅、曲檀、陈明健、郑博航、雷军与中科院大学唐兴元共同组建参赛队伍 aister , 参加了 Debiasing、AutoGraph、Multimodalities Recall 三道赛题 , 并最终在 Debiasing、AutoGraph 赛道中获得冠军(1/1895、1/149) , 在 Multimodalities Recall 赛道中获得季军(3/1433) 。
本文插图
图 2:KDD Cup 2020 Debiasing、AutoGraph、Multimodalities Recall 赛题榜单
本文将分别介绍 aister 团队针对 Debiasing、AutoGraph 和 Multimodalities Recall 三道赛题的解决方案 。
Debiasing 赛题
赛题介绍与问题分析
KDD Cup Debiasing 赛题是电子商务用户下一次点击商品预测(Next-Item Prediction)问题 , 核心关注点在于如何解决推荐系统偏差 。
推荐系统面临的一个严峻挑战是公平性(Fairness)问题 , 即如果机器学习系统配备了短期目标(例如短期的点击、交易) , 单纯朝短期目标进行优化将会导致严重的「马太效应」 , 热门商品容易受到更多的关注 , 冷门商品愈发被遗忘 , 从而造成系统中的流行度偏差 。 并且大多数模型和系统的迭代依赖于页面浏览(Pageview)数据 , 而曝光数据是实际候选中经过模型选择的一个子集 , 不断地依赖模型选择的数据与反馈再进行训练 , 将形成选择性偏差 。
上述流行度偏差与选择性偏差不断积累 , 就会导致系统中的「马太效应」越来越严重 。 因此 , 人工智能公平性问题对于推荐系统的不断优化至关重要 , 这将对推荐系统的发展以及生态环境产生深远的影响 。
赛题提供了用户点击数据与商品多模态数据 , 但用户特征数据大量缺失 。 为了聚焦消除偏差问题 , 赛题提供的评测指标包括 NDCG@50_full、NDCG@50_half、hitrate@50_full、hitrate@50_half 。
NDCG@50_full、NDCG@50_half 这两项指标用于排名评估 。 首先通过 NDCG@50_full 筛选出前 10% 的队伍 , 然后在这些队伍中使用 NDCG@50_half 进行最终排名 。 NDCG@50_half 是在长尾商品数据上进行评测 , 能够更好地评估选手们对数据偏差的优化 。
NDCG@50_full:与常规推荐系统评价指标 NDCG 一致 , 该指标在整个评测数据集上评估每次用户请求所推荐的前 50 个商品列表的平均排序效果 。 该评测集被称为 full 评测集 。
NDCG@50_half:关注偏差问题 。 从整个 full 评测数据集中取出一半历史曝光少的点击商品 , 对这些商品的推荐列表进行 NDCG 指标评估 。 该评测集被称为 half 评测集 。
为了更好地理解赛题 , 该团队对提供的数据进行了分析 。
商品多模态数据分析:商品多模态数据包含文本向量及图片向量 , 覆盖率高达 92.52% , 我们可以根据向量来计算商品间的文本相似度及图片相似度 。 由于用户信息及商品信息的缺少 , 如何利用好这些仅有的商品多模态向量对于整个任务而言是极其重要的 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做
- 没蜡笔的小新|“整容脸”应该被鄙视吗?医生告诉你千篇一律的好看皮囊如何而来
- 绅士老司机|多重身份加身,一人拖垮9部剧,赵立新是如何作糊的?