如何斩获KDD Cup两冠一季?美团广告团队公开解决方案( 三 )
如图 5 所示 , i2i 图的构建与多跳游走 i2i 候选样本的生成过程被分为三个步骤:i2i 图的构建、i2i 多跳游走以及 i2i 候选样本生成 。
本文插图
图 5:基于多跳游走的 i2i 候选样本生成
i2i 图的构建:i2i 图中存在一种结点即商品结点 , 两种边关系即点击共现边和多模态向量边 。 点击共现边基于用户的历史商品点击序列而构建 , 边的权重通过以下公式得到 , 其在两个商品间的用户历史点击共现频数的基础上 , 考虑了每次点击共现的时间间隔因子 , 并加入了用户活跃度惩罚以及商品流行度惩罚(用户活跃度即用户的历史点击次数 , 商品流行度即商品的被点击次数) , 通过惩罚它们来缓解流行度偏差 。
本文插图
i2i 多跳游走:该团队通过枚举不同的一跳 i2i 关系 , 组合构成不同类型的二跳 i2i 关系 , 并在构建好二跳 i2i 关系之后删除原本的一跳 i2i 关系来避免冗余 , 这样就形成了图 5 中的五种多跳 i2i 关系 。 多跳 i2i 关系得分由以下公式得来 , 即对每条路径的边权相乘得到路径分 , 并对所有路径分求平均 。 通过不同边类型多跳游走的方式 , 更多商品有更多的机会和其他商品构建多跳关系 , 从而扩大了商品候选集 , 缓解了选择性偏差 。
i2i 候选样本生成:每种 i2i 关系根据 i2i 得分对所有商品的候选商品集合分别进行排序和截断 , 每种 i2i 关系间的相似度热图如图 6 所示 。 相似度是通过两种 i2i 关系构造的候选集重复度计算得出 , 我们可以根据不同 i2i 关系之间的相似度来确定候选商品集合的数量截断 , 以得到每种 i2i 关系中每个商品的 i2i 候选集 , 供后续 i2i 建模使用 。
本文插图
图 6:i2i 关系相似度热图
2. 基于流行度偏差优化的 i2i 建模
该团队通过 u2i2i 建模转换 , 将传统的基于 u2i 的 CTR 预估建模方式转换为 i2i 建模方式 。 它可以轻松使用多跳 i2i 关系 , 同时该团队引入带流行度惩罚的损失函数 , 使 i2i 模型朝着缓解流行度偏差的方向学习 。
如图 7 所示 , 该团队拆分用户前置点击行为序列 , 将每一个点击的商品作为 source item , 从 i2i graph 中的多跳游走候选集中抽取 target item , 形成 i2i 样本集 。 对于 target item 集合 , 该团队基于用户下一次点击的商品与 target item 是否一致来引入该样本的标签 。 这样 , 就可以将基于用户选择的序列建模转变为基于 i2i 的建模 , 通过两个商品点击的时间差以及点击次数间隔 , 从侧面引入用户的序列信息 , 强调 i2i 的学习 , 从而达到消除选择性偏差的目的 。 最终用户的推荐商品排序列表可以基于用户下的 i2i 打分进行 target item 排序 。
本文插图
图 7:i2i 训练样本生成
如图 8 所示 , 该团队利用自动化特征工程思想探索高阶特征组合 , 缓解了偏差问题业务含义抽象的问题 。 他们通过人工构造一些基础特征(如频数特征、图特征、行为特征和时间相关特征等) , 将基础特征类型划分为 3 种:类别特征、数值特征以及时间特征 。 然后 , 基于这些特征做高阶特征组合 , 每一次组合形成的特征都会加入下一次组合的迭代之中 , 以此降低高阶组合的复杂度 。 该团队基于特征重要性和 NDCG@50_half 进行快速的特征选择 , 从而挖掘到更深层次的模式 , 同时节省了大量的人力成本 。
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 想好好做医生的胖子|五十岁女性经常有周身无力和疼痛的困扰!该如何应对?医生告诉您
- 儿童饮食|秋冬季如何让宝宝爱上吃水果?稍微蒸一下美味翻倍,营养价值更高
- 队员|北极科考中“遭遇”北极熊,看科考队员如何与它们和谐相处
- 中国历史发展过程|中国历史发展过程!中国游戏外挂发展史:“辅助工具”是如何成长为“苍
- 金色年华录|都是男扮女装谈恋爱,《少女大人》比《女世子》如何?
- 上海市嘉定区人民政府网站|每年消耗3350吨蔬菜150吨肉,嘉定这家中央厨房如何践行“光盘行动”?
- 上海嘉定|如何让《民法典》走进群众心里?嘉定这些街镇和单位这样做
- 没蜡笔的小新|“整容脸”应该被鄙视吗?医生告诉你千篇一律的好看皮囊如何而来
- 绅士老司机|多重身份加身,一人拖垮9部剧,赵立新是如何作糊的?