连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT( 二 )


冠军团队:我用 BERT
创新升级的赛题 , 需要参赛者们找到全新解法 。 在2020腾讯广告算法大赛中 , Transformer 和 BERT 成为了高频词 。
要说近年来人工智能 NLP 领域里最高频的热词 , 预训练模型 BERT 当之无愧 , 但在数据竞赛的环境下 , 由于算力的限制 , 使用新方法的思路往往只能停留在 PPT 最后的「远期规划」阶段 , 在实践中往往让位于 LightGBM、LSTM 等传统方法 。 但令人惊喜的是 , 本次腾讯广告算法大赛的冠亚军团队都通过结构优化的方法 , 在方案中都成功使用了 BERT, 并凭此获得了绝对领先的分数 。
本届比赛的冠军团队 DYG 战队最终捧走了 7 万美金(近 50 万人民币)的高额大奖 。 团队成员包括武汉大学计算机科学硕士、算法工程师王贺 , 中山大学 - 微软亚洲研究院联合培养博士生郭达雅 , 以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强 。 值得一提的是 , 前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主 , 某种程度上 , 该战队也算是卫冕成功 。

连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT
本文插图
左起:腾讯广告副总裁蒋杰 , 「DYG」战队王贺、郭达雅、梁少强 。
在 BERT 部分 , 假设每个广告为一个单词 , 将用户点击序列看作一句话 , 这样就可以将问题转为 NLP 文本分类问题 。 「我们使用 BERT 作为 Encoder 进行编码 , 在这里使用 12 层 Transformer 。 每层 Transformer 将上一层的隐变量作为输入 , 经过 Multi-Head Self Attention 和 Layer Norm 等 , 最后输出交互更高的隐变量 。 」王贺介绍道 。
不过 , 预训练方虽然在 NLP 领域里获得成功 , 但在广告任务中词表高达七八百万的场景下 , 存在因数据稀疏而存在参数量过大且难以训练的问题 。 针对这些挑战 , DYG 团队使用了两阶段预训练的方法对 BERT 进行训练 , 其中第一阶段使用 word2vec 预训练广告的 embedding , 目标是将类似的广告进行聚类 。 在第二阶段 , 这一团队采取了很关键的策略:把词表缩小到 10 万(提取 top10w , 其余为 unk) , 从而使得 BERT 可以在四块 Tesla V100 上运行起来 。
最后 , DYG 战队把点击广告的受众人群性别年龄分布融入到网络之中:通过将训练集分成五个部分(其中四个部分有标签) , 假设用户点击 n 个广告并来自第一个人群 , 那么就可以把剩下的作为种子人群 , 计算出每个广告点击者的性别年龄分布 , 用四层 transformer 进行融合 。

连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT
本文插图
DYG 战队在决赛答辩环节分享解题思路 。
通过引入 BERT 模型 , DYG 战队在初赛中很快就锁定了第一名的位置 , 在初赛和复赛成绩一直大幅领先 。 他们获得最终的冠军 , 可以说是实至名归 。
而由算法工程师林有夕、广东工业大学计算机硕士孙泽勇、同济大学计算机硕士唐静组成的「山有木兮」战队也凭借出色的表现获得了亚军 , 由南京大学在读硕士刘冀、算法从业者周宏、哈尔滨工业大学在读硕士王志昊三人组成的「微醺」战队获得了季军 。
改进 BERT 并将其应用到用户属性预测场景 , 为业界广告推荐算法找到了新的解题思路 , DYG 战队也收获了价值 50 万元的头奖 。 「这是我第三年参加腾讯广告算法大赛 , 能感觉赛题一年比一年具有挑战性 , 而比赛的收获也越来越多 。 我希望能够把这些技术运用到工程实践当中 , 也希望明年能够继续参加这一比赛 。 」王贺在颁奖现场如是说 。
腾讯广告副总裁蒋杰也对本次所有获奖团队表达了祝贺 , 并展望了下一年的赛事:「欢迎各位选手明年持续关注腾讯广告算法大赛 , 新一年我们也将带来更多的赛事升级和更丰厚的奖金池」 。