如何斩获KDD Cup两冠一季?美团广告团队公开解决方案( 二 )


选择性偏差分析:如表 1 所示 , 该团队对基于 i2i(item2item)点击共现以及基于 i2i 向量相似度两种 Item-Based 协同过滤方法所召回的商品候选集进行对比 , 发现两种召回方法在评测集上都有一个较低的 hitrate 。 不管使用哪种方法 , 系统都存在较大的选择性偏差 , 即推荐给用户的样本是根据系统来选择的 , 真实的候选集合大大超过了推荐给用户的样本 , 导致训练数据带有选择性偏差 。 进一步地 , 该团队发现基于 i2i 点击共现在 full 评测集上相对于 half 评测集有更高的 hitrate , 说明其更偏好于流行商品;相反 , 基于 i2i 向量相似度的召回方法对于流行度无偏好 。 同时两种方式召回的候选集只有 4% 的重复率 , 因此我们需要结合点击共现和向量相似度两种商品关系来生成更大的训练集 , 从而缓解选择性偏差 。
如何斩获KDD Cup两冠一季?美团广告团队公开解决方案
本文插图
表 1:i2i 点击共现与 i2i 向量相似度的召回 hitrate
流行度偏差分析:如图 3 所示 , 该团队对商品的流行度进行了分析 , 其中横坐标为商品点击频数 , 即商品流行度 , 纵坐标为商品个数 。 图中对流行度做了截断 , 横坐标最大值本应为 228 。 可以看出 , 大部分商品的流行度较低 , 符合长尾分布 。
图中的两个箱型图分别是 full 评测数据集商品流行度的分布 , 以及 half 评测数据集商品流行度的分布 。 从这两个箱型图可以看出 , 流行度偏差存在于数据集中 。 整个 full 评测集中有一半评测数据是基于流行度较低的商品 , 而另一半评测数据商品的流行度较高 , 直接通过点击商品去构建样本 , 会导致数据中拥有较多流行度高的正例商品 , 从而形成流行度偏差 。

如何斩获KDD Cup两冠一季?美团广告团队公开解决方案
本文插图
图 3:商品的流行度偏差
不同于传统的封闭数据集点击率预估问题(CTR 预估) , 上述数据特点与评测方式更关注偏差优化 。 赛题中主要存在两种偏差:选择性偏差(Selection Bias)和流行度偏差(Popularity Bias) 。
选择性偏差:曝光数据是由模型和系统选择的 , 与系统中的全部候选集不一致 。
流行度偏差:商品历史点击次数呈现长尾分布 , 因此流行度偏差存在于头部商品和尾部商品之间 。 如何解决流行度偏差是赛题的核心挑战之一 。
冠军解决方案
针对选择性偏差和流行度偏差这两项挑战 , aister 团队进行了建模设计 , 有效地优化了上述偏差 。 已有的 CTR 建模方法可以理解为 u2i 建模 , 通常刻画用户在特定请求上下文中对候选商品的偏好 , 而该团队的建模方式是学习用户的每个历史点击商品和候选商品的关系 , 可以理解为 u2i2i 的建模 。 这种建模方法更有助于学习多种 i2i 关系 , 并且轻松地将 i2i 图中的一跳关系拓展到多跳关系 。 多种 i2i 关系可以探索更多无偏数据 , 进而增大商品候选集和训练集 , 达到缓解选择性偏差的目的 。
同时 , 考虑到流行商品引起的流行度偏差 , 该团队在构图过程中对边权引入流行度惩罚 , 使得多跳游走时更有机会探索到低流行度的商品 , 同时在建模过程以及后处理过程中引入了流行度惩罚 , 缓解流行度偏差 。
最终 , 该团队形成了一个基于 i2i 建模的排序框架 , 框架图如图 4 所示 。 在此框架中商品推荐过程被分为三个阶段 , 分别是:基于多跳游走的 i2i 候选样本生成、基于流行度偏差优化的 i2i 建模 , 以及用户偏好排序 。

如何斩获KDD Cup两冠一季?美团广告团队公开解决方案
本文插图
图 4:基于 i2i 建模的排序框架
1. 基于多跳游走的 i2i 候选样本生成
为了探索更多的 i2i 无偏候选样本来进行 i2i 建模 , 从而缓解选择性偏差 , 该团队构建了一个具有多种边关系的 i2i 图 , 并在构边过程中引入了流行度惩罚来消除流行度偏差 。