内容推荐算法:异构行为序列建模探索

杜易初(逸初) 淘系技术
内容推荐算法:异构行为序列建模探索文章插图
很多秃头小可爱沉迷熬夜逛淘宝 , 以下是来自宇宙洪荒之力的最新线报:

  • 男生比女生多
  • 天蝎座多
  • 夜间小裙子搜索量位居第一
  • ......
尤其 , 每晚有1700万人在淘宝只逛不买 , 他们到底在干什么?
看完视频和下方文章 , 你就知道为什么上头了 。
前言
来洋淘 ,更有young! 洋淘轻应用的内容均是手淘用户的真实购后分享 ,在这里 , 你可以个性化地浏览他人的美好生活 ,并鼓励自我表达与分享 。
内容推荐算法:异构行为序列建模探索文章插图
图1. 洋淘轻应用截图 ,左) 为双列流 ,右) 为详情页
在推荐任务上 , 同导购产品相比 , 洋淘场景有着自身的特性:
  • 新用户冷启严峻 , 六成以上的用户无洋淘场景内的历史内容点击;
  • 老用户内容兴趣也稀少 , 历史内容点击数不超过10 , 反观商品点击数却高达数倍;
  • 用户在电商与内容两个domain的兴趣差异较大 。 统计日志发现 , 电商兴趣对洋淘场景下内容点击样本的覆盖度仅为 30%。
于是 , 如何把跨域的异构行为用好 , 提升用户的浏览深度就显得弥足珍贵 。 我们从 召回 , ctr预估 两大关键环节均作了探索与创新 ,大幅提升了推荐效果 ,取得了显著的业务收益 。
向量召回模型In_Match前文提到内容兴趣不够用 , 我们首先基于i2i尝试了商品与内容的混合协同 , 取得了一定的收益 。 然后基于电商兴趣的标题作相关内容的严格相似召回 , 却收益为负 , 这说明跨域的兴趣不可生搬硬套 , 也与前文的兴趣差异统计相吻合 。
所以一个能胜任的召回模型 , 应满足以下期望:
  • {电商 , 内容}两个domain的历史行为都能用上;
  • 交互序列是刻画用户精确意图的关键 ,要能对序列建模而非孤立的交互单元;
  • 既然两个domain兴趣差异存在 ,就要能学到 电商兴趣到内容兴趣 的迁移规律 。
基于以上理念 ,我们设计了兴趣迁移 Interest Transfer Matching Model (In_Match for short) , 取得了以下显著收益(业务指标为内部数据 , 此处只列ab实验的相对提升)
  • 推荐综合指标上 , 人均点击提升+11.17% , pv_ctr提升+12.16%;
  • 大幅缓解推荐过于集中的状况 , top内容的曝光占比下降25%;
  • 该路向量召回大幅超越content-based feature对应的几路召回 , 甚至高于内容协同召回 。
? 模型架构及主要贡献
内容推荐算法:异构行为序列建模探索文章插图
图1-1.In_Match 的模型架构
内容推荐算法:异构行为序列建模探索文章插图
图1-2.encoder-decoder 内部细节示例
主要贡献有:
  • multi modality
    • 考虑到稀疏性 , 引入多模态性能提升+5%
  • semantic projection
    • 填补 商品/内容 语义空间上的gap
  • 基于decoder来学习[整个session]点击
    • 学习session点击 , 相较next one, SDM有对比收益
    • decoder架构更适合序列生成任务 ,GPT vs. BERT
    • beam-search 进一步提升多样性 ,在 page 推荐下更友好

内容推荐算法:异构行为序列建模探索文章插图
图1-3.(beam-search)序列预测工作图示 , 多样性与兴趣演化
下文会分章节阐述我们的设计思想 。