仅少量视频观看数据,即可精准推断用户习惯:迁移学习架构PeterRec( 二 )
本文插图
图 1: PeterRec 进行用户画像预测示意图 。 注意:PeterRec 不需要借助于任何图像和文本特征 , 仅需要用户点击物品 ID 即可 。 中间网络为大量堆叠的空洞卷积网络 。
为了达到以上目标 , 研究者提出采用空洞卷积神经网络构建大型的预训练模型 , 采用一定空洞率设置的多层卷积网络可以实现可视域指数级增长 , 从而捕获和建模超长的用户点击行为 , 这一优势是目前很多时序网络难以达到的 , 例如经典的 RNN 网络建模长序列时通常会遇到梯度消失和爆炸问题 , 并且并行训练低效 , Transformer 等知名 NLP 网络对显存需求和复杂度也会随着序列长度以二次方的级别增加 。 同时为了实现对预训练网络参数的最大化共享 , 论文提出了一种模型补丁方式 , 类似于植物嫁接技术 , 只需要在预训练网络插入数个的模型补丁网络 , 既可以实现预训练网络的快速迁移 , 效果甚至好于对整个模型全部微调 。
这篇论文值得关注的研究贡献有:
提出了一种通用用户表征学习架构 , 首次证实采用无监督或者自监督的预训练网路学习用户点击行为可以内用来推测用户的属性信息 。 这一发现将有望改进很多公共服务 , 带来更大的商业利润 , 同时也会引发甚至推动对于隐私保护的相关问题的研究;
提出了一种非常有效的模型补丁网络 , 网络相对于原来的空洞卷积层参数量更小 , 但是具有同等表达能力;
提出了两种模型补丁的插入方式 , 并行插入和串行插入;
提出了很多趋势洞察 , 可能会成为该领域未来的一些研究方向;
后续将会开源代码和一些高质量的数据集 , 从而推动推荐系统领域迁移学习的研究 , 建立相关基准 。
方法介绍
本文插图
图 1: PeterRec 预训练网络(a)和微调网络(b)的参数分布 。
本研究预训练网络采用空洞卷积网络 , 每层空洞因子以 2^n 增加 , 通过叠加空洞卷积层达到可视域指数级的增加 , 这一设计主要遵循时序模型 NextItNet [1] , 如图 1 所示 。 在预训练优化方式上 , 本文采用了两种自监督方式 , 分别是单向自回归方式 [1] 以及双向遮掩法 [2] , 分别对应因果卷积和非因果卷积网络 , 如图 2 所示 。
本文插图
图 2: 采用空洞卷积网络的几种微调策略 。 (a)(b) 为因果卷机 , (c)(d) 为非因果卷积 。
本文的微调方式非常简单 , 采用直接移除预训练 softmax 层 , 然后添加新任务的分类层 , 另外 , 本文的主要贡献是在预训练的残差块(图 3(a))插入了模型补丁网络 , 每个模型补丁有一个瓶颈结构的残差块构成 , 如图 3(f)所示 。 本研究提出了几种可选择的插入方式 , 如图 3(b)(c)(d) 。 注意(e)的设计效果非常差 , 文章分析很可能是因为模型补丁的和操作 , 并行插入的和操作与原始残差网络的和操作夹杂在一起 , 影响最终优化效果 。 另外文中给出分析 , 通常模型补丁的参数量仅有原始空洞卷积的不到十分之一 , 但是可以达到与所有参数一起优化类似或者更好的效果 。
本文插图
图 3:(a)为原始残差块;(b)(c)(d)(e)为插入模型补丁后的微调残差块;(f)为模型补丁 。
实验
这项研究包含了大量的实验 , 代码和相关脱敏后的数据集后续将会开源 。
实验 1
论文首次证实采用无监督预训练方式非常有效 , 论文对比 PeterRec 的两种设置 , 有无预训练下的实验效果 , 如图 4 中所示 PeterRec 大幅度超越 PeterZero , 证实了本研究预训练的有效性 。
- 科技小布丁宅家看视频,何不捧个平板电脑?,原创
- 操作原创 宅家看视频,何不捧个平板电脑?
- 21世纪商业评论我为什么看好微信视频号?
- 爆款爱帝鹅短视频MCN机构,炒热了各种互联网新概念,真风口还是新忽悠?
- 衡水中学@衡水中学学霸2分钟视频泄露秘密:不要和凌晨5点起床的人做朋友
- 太平洋电脑网“中杯”也不缩水,三星S20完整体验120Hz+8K视频
- 央视网低风险城市将开放学校,伊朗最高领袖参加抗击疫情视频会议
- c114通信网MPEG-5 EVC 视频编码标准获得批准,华为高通三星率先支持
- 好莱坞进军视频技术圈,含着金汤匙出生的新产品Quibi厉害在哪
- 移动中移动推“5G消息”App覆盖iOS、安卓:支持发送视频、图片