如何斩获KDD Cup两冠一季?美团广告团队公开解决方案( 八 )
为方便理解 , 主办方提供了少量真实图片及其对应的原始数据 , 如图 15 所示 。 该图例是一个正样例 , 其 query 为 sweet french dress;图片主体部分是一名身着甜美裙装的女性 , 主体部分以外 , 则有大量杂乱信息 , 包括一个手提包、一些气球以及一些商标和促销文字信息 。 赛题本身不提供原始图片 , 提供的是 faster rcnn 基于图片提取出的特征向量 , 即图片中被框出的几个部分 。 可见 , 一方面 faster rcnn 提取了图片中有明显语义的内容 , 有助于模型学习;另一方面 , faster rcnn 的提取会包含较多的框 , 这些框体现不出主次之分;此外 , faster rcnn 也并非完美无缺 , 因而多模态召回问题还有赖进一步地挖掘 。
本文插图
图 15:搜索短语与图片的匹配示例
本次赛题设置的评价指标为 NDCG@5 , 计算逻辑如下:在给定的测试集里 , 每条 query 会给出约 30 个样本 , 其中大约 6 条为正样本 , 其余为负样本;赛题需要选手设计匹配算法 , 召回出任意 5 条正样本 , 即可获得该 query 的全部分数 , 否则 , 按照召回的正样本条数来计算 NDCG 指标作为该 query 的分数 。 全部 query 的分数进行平均 , 即为最终得分 。
主办方提供了三份数据集 , 分别是训练集、验证集和测试集 。 各个数据集的基本信息如表 7 所示 。
本文插图
表 7:数据集概况
为进一步探索数据特征 , 该团队将验证集给出的原始图片和特征信息做了聚合展现 , 表 8 是一组示例 。
本文插图
表 8:搜索短语与图片的匹配正负例
根据如上基本信息 , 该团队总结了数据集的三个重要特点:
训练集和验证集 / 测试集的数据特点大不相同 。 训练集量级显著高于验证集 / 测试集 , 足有三百万条 query-image 对 , 是验证集 / 测试集的一百倍以上 。 同时 , 训练集的每条 query-image 对均被视为正样本 , 这和验证集给出的一条 query 下挂多个有正有负的 image 截然不同 。 而通过对验证集原始图片和 query 进行可视化探索 , 可以发现验证集数据质量很高 , 应该为人工标注 。 考虑人工标注成本和负样本的缺失 , 训练集极大可能描述的是点击关系 , 而非人工标准的语义匹配关系 。 该团队的解决方案必须考虑「训练集和测试集并不匹配」这一基本特点 。
图片信息复杂 , 常常包含多个物体 。 这些物体均被框出作为给定特征 , 但各个框之间的语义信息并不平等;某些是噪音 , 如 query (men's high collar sweater) 下的墨镜、围巾、相机等框图 , 某些又因商品展示需要而重复 , 如 query (breathable and comfortable children's shoes) 下重复鞋的框图 。 平均来说 , 一张图片有 4 个框 , 怎么将多个框包含的语义信息去噪、综合 , 得到图片的语义 , 是建模的重点 。
query 作为给定的原始文本 , 有着与常用语料截然不同的构造和分布情况 。 从示例表可见 , query 并非自然语句 , 而是一些属性和商品实体连缀成的短语 。 经过统计发现 , 90% 的 query 由 3-4 个单词组成;训练集有约 150 万不同的 query , 其词表大小在 15000 左右;通过最后一个单词 , 可将全部 query 归约为大约 2000 类 , 每一类是一个具体的商品名词 。 我们需要考虑文本数据的这些特质 , 进行针对性处理 。
从上述数据集的三个特点出发 , 该团队总结了此竞赛的两大主要挑战 。
分布不一致问题:经典统计机器学习的基础假设是训练集和测试集分布一致 , 不一致的分布通常会导致模型学偏 , 训练集和验证集效果难以对齐 。 我们必须依赖已有大规模训练集中的点击信号和和测试集同分布的小规模验证集 , 设计可行的数据构建方法和模型训练流程 , 采取诸如迁移学习等技术 , 来处理这一问题 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做
- 没蜡笔的小新|“整容脸”应该被鄙视吗?医生告诉你千篇一律的好看皮囊如何而来
- 绅士老司机|多重身份加身,一人拖垮9部剧,赵立新是如何作糊的?