「」一文梳理主流的排序模型,浅谈深度学习在花椒直播排序算法中的应用( 六 )
本文插图
生产好用户、主播画像后 , 还要生产一个基于用户主播交互数据的标签集 , 可以是多标签以便于多任务模型使用 , 比如用户浏览过哪些主播 , 是否发生了观看、打赏、评论、关注等行为 , 如果发生了 , 还可以把如看播时长等程度数据作为权重 , 以便后面进行加权训练时使用 。
之后将标签集和画像join起来 , 就形成了一天的数据集 , 可以用多天的训练集共同组成最终的整体数据集来满足数据量和覆盖度的要求 , 这里要小心不要发生数据穿透 。 最终的数据集是T级别的 , 存储在HDFS上 。 在训练阶段 , 单机多卡的配置也满足不了速度上的要求 , 因此我们采用了360私有云的hbox分布式训练平台 , 来完成日常深度模型的训练 。
下面是我们的模型结构图:
本文插图
下面是我们部分模型的效果:
离线:
本文插图
线上:热门频道接入个性化推荐后人均观看时长涨幅>80%
后 记
本文只是对业内近年来常用的模型进行的简单的介绍和总结 , 实际上每个模型除了其典型的结构外 , 还有许多非常珍贵的细节 , 比如公式推导 , 参数的选择 , 工程上的trick等等 , 这些建议大家还是要精读下相关模型论文 。
并且要注意的是 , 没有“最好的模型” , 只有“最适合的模型” , 并不是说模型越fancy越复杂 , 线上效果就会越好 。 比如阿里提出了DIN模型 , 是因为工程师们首先发现了数据中的现象:
用户在浏览电商网站的过程中显示出的兴趣是十分多样性的 , 并且只有部分历史数据会影响到当次推荐的物品是否被点击 , 而不是所有的历史记录 , 即“多峰分布”、“部分激活” 。
正是这种特定场景的需要 , 才使得阿里研发了DIN模型 , 来捕获用户兴趣的进化 , 取得了突破的效果 。
所以做推荐正确的顺序应该是先有特定的“场景” , 然后再基于用户行为和数据的特点 , 对应地开发适用于这个场景的模型;而不是先拍板一个模型 , 再去数据中进行试验 , 就本末倒置了 。
关于我门
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构 , 旗下涵盖将门创新服务、将门技术社群以及将门创投基金 。 将门成立于2015年底 , 创始团队由微软创投在中国的创始团队原班人马构建而成 , 曾为微软优选和深度孵化了126家创新的技术型创业公司 。
将门创新服务专注于使创新的技术落地于真正的应用场景 , 激活和实现全新的商业价值 , 服务于行业领先企业和技术创新型创业公司 。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容 , 使创新成为持续的核心竞争力 。
将门创投基金专注于投资通过技术创新激活商业场景 , 实现商业价值的初创企业 , 关注技术领域包括机器智能、物联网、自然人机交互、企业计算 。 在近四年的时间里 , 将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司 。
如果您是技术领域的初创企业 , 不仅想获得投资 , 还希望获得一系列持续性、有价值的投后服务 , 欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
本文插图
- [悠家娱乐]三年负债降至4000亿!一文读懂恒大战略转型的深层逻辑
- 海外网@美国疫情为何大面积暴发?美智库梳理3个月来政府应对失误
- 中商情报网:一文了解石墨烯是什么?我国口罩产能有多大?,新型石墨烯口罩面世
- 【腾讯】一文读懂腾讯会议在复杂网络下如何保证高清音频
- 【掘金企服】一文看懂,阿里京东的“共享员工”怎么玩?点进来
- 『跨境电商』跨境物流的几种模式|跨境电商全球开店
- 跳槽那些事儿@阿里京东的“共享员工”怎么玩?点进来,一文看懂
- 【物理】自然界中湍流无处不在,但现在才终于揭示:主动湍流的普遍性质!
- Wind资讯@全面梳理细分领域新风向,新基建5年
- 万得资讯■全面梳理细分领域新风向,新基建5年