内容推荐算法:异构行为序列建模探索
杜易初(逸初) 淘系技术
文章插图
很多秃头小可爱沉迷熬夜逛淘宝 , 以下是来自宇宙洪荒之力的最新线报:
- 男生比女生多
- 天蝎座多
- 夜间小裙子搜索量位居第一
- ......
看完视频和下方文章 , 你就知道为什么上头了 。
前言
来洋淘 ,更有young! 洋淘轻应用的内容均是手淘用户的真实购后分享 ,在这里 , 你可以个性化地浏览他人的美好生活 ,并鼓励自我表达与分享 。
文章插图
图1. 洋淘轻应用截图 ,左) 为双列流 ,右) 为详情页
在推荐任务上 , 同导购产品相比 , 洋淘场景有着自身的特性:
- 新用户冷启严峻 , 六成以上的用户无洋淘场景内的历史内容点击;
- 老用户内容兴趣也稀少 , 历史内容点击数不超过10 , 反观商品点击数却高达数倍;
- 用户在电商与内容两个domain的兴趣差异较大 。 统计日志发现 , 电商兴趣对洋淘场景下内容点击样本的覆盖度仅为 30%。
向量召回模型In_Match前文提到内容兴趣不够用 , 我们首先基于i2i尝试了商品与内容的混合协同 , 取得了一定的收益 。 然后基于电商兴趣的标题作相关内容的严格相似召回 , 却收益为负 , 这说明跨域的兴趣不可生搬硬套 , 也与前文的兴趣差异统计相吻合 。
所以一个能胜任的召回模型 , 应满足以下期望:
- {电商 , 内容}两个domain的历史行为都能用上;
- 交互序列是刻画用户精确意图的关键 ,要能对序列建模而非孤立的交互单元;
- 既然两个domain兴趣差异存在 ,就要能学到 电商兴趣到内容兴趣 的迁移规律 。
- 推荐综合指标上 , 人均点击提升+11.17% , pv_ctr提升+12.16%;
- 大幅缓解推荐过于集中的状况 , top内容的曝光占比下降25%;
- 该路向量召回大幅超越content-based feature对应的几路召回 , 甚至高于内容协同召回 。
文章插图
图1-1.In_Match 的模型架构
文章插图
图1-2.encoder-decoder 内部细节示例
主要贡献有:
- multi modality
- 考虑到稀疏性 , 引入多模态性能提升+5%
- semantic projection
- 填补 商品/内容 语义空间上的gap
- 基于decoder来学习[整个session]点击
- 学习session点击 , 相较next one, SDM有对比收益
- decoder架构更适合序列生成任务 ,GPT vs. BERT
- beam-search 进一步提升多样性 ,在 page 推荐下更友好
文章插图
图1-3.(beam-search)序列预测工作图示 , 多样性与兴趣演化
下文会分章节阐述我们的设计思想 。
- 微软调侃WhatsApp隐私策略调整 并推荐用户迁移至Skype
- 玩转光追大作最低需要什么配置?快来看小狮子的推荐
- 身边噪音烟消云散 三款颈挂式降噪蓝牙耳机推荐
- 爽玩光追大作,RTX 3060Ti性价比电脑推荐
- 多多|拼多多:知乎账号内容系供应商员工自行发布,不代表公司态度
- “记”兴之作 智能手写本推荐——柔宇RoWrite 2
- 小米11再开售,小米有品推荐这3款手机配件
- 小米 11 官方保护壳被吐槽 后摄无保护根本不值得推荐
- 在谷歌算法更新之后2020年盗版网站流量锐减三分之一
- 内容|喜马拉雅与小米达成战略合作,打造AIOT场景新体验