连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT( 二 )

冠军团队：我用 BERT
创新升级的赛题，需要参赛者们找到全新解法。在2020腾讯广告算法大赛中， Transformer 和 BERT 成为了高频词。
要说近年来人工智能 NLP 领域里最高频的热词，预训练模型 BERT 当之无愧，但在数据竞赛的环境下，由于算力的限制，使用新方法的思路往往只能停留在 PPT 最后的「远期规划」阶段，在实践中往往让位于 LightGBM、LSTM 等传统方法。但令人惊喜的是，本次腾讯广告算法大赛的冠亚军团队都通过结构优化的方法，在方案中都成功使用了 BERT，并凭此获得了绝对领先的分数。
本届比赛的冠军团队 DYG 战队最终捧走了 7 万美金（近 50 万人民币）的高额大奖。团队成员包括武汉大学计算机科学硕士、算法工程师王贺，中山大学 - 微软亚洲研究院联合培养博士生郭达雅，以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强。值得一提的是，前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主，某种程度上，该战队也算是卫冕成功。

本文插图
左起：腾讯广告副总裁蒋杰，「DYG」战队王贺、郭达雅、梁少强。
在 BERT 部分，假设每个广告为一个单词，将用户点击序列看作一句话，这样就可以将问题转为 NLP 文本分类问题。「我们使用 BERT 作为 Encoder 进行编码，在这里使用 12 层 Transformer 。每层 Transformer 将上一层的隐变量作为输入，经过 Multi-Head Self Attention 和 Layer Norm 等，最后输出交互更高的隐变量。」王贺介绍道。
不过，预训练方虽然在 NLP 领域里获得成功，但在广告任务中词表高达七八百万的场景下，存在因数据稀疏而存在参数量过大且难以训练的问题。针对这些挑战， DYG 团队使用了两阶段预训练的方法对 BERT 进行训练，其中第一阶段使用 word2vec 预训练广告的 embedding ，目标是将类似的广告进行聚类。在第二阶段，这一团队采取了很关键的策略：把词表缩小到 10 万（提取 top10w ，其余为 unk），从而使得 BERT 可以在四块 Tesla V100 上运行起来。
最后， DYG 战队把点击广告的受众人群性别年龄分布融入到网络之中：通过将训练集分成五个部分（其中四个部分有标签），假设用户点击 n 个广告并来自第一个人群，那么就可以把剩下的作为种子人群，计算出每个广告点击者的性别年龄分布，用四层 transformer 进行融合。

本文插图
DYG 战队在决赛答辩环节分享解题思路。
通过引入 BERT 模型， DYG 战队在初赛中很快就锁定了第一名的位置，在初赛和复赛成绩一直大幅领先。他们获得最终的冠军，可以说是实至名归。
而由算法工程师林有夕、广东工业大学计算机硕士孙泽勇、同济大学计算机硕士唐静组成的「山有木兮」战队也凭借出色的表现获得了亚军，由南京大学在读硕士刘冀、算法从业者周宏、哈尔滨工业大学在读硕士王志昊三人组成的「微醺」战队获得了季军。
改进 BERT 并将其应用到用户属性预测场景，为业界广告推荐算法找到了新的解题思路， DYG 战队也收获了价值 50 万元的头奖。「这是我第三年参加腾讯广告算法大赛，能感觉赛题一年比一年具有挑战性，而比赛的收获也越来越多。我希望能够把这些技术运用到工程实践当中，也希望明年能够继续参加这一比赛。」王贺在颁奖现场如是说。
腾讯广告副总裁蒋杰也对本次所有获奖团队表达了祝贺，并展望了下一年的赛事：「欢迎各位选手明年持续关注腾讯广告算法大赛，新一年我们也将带来更多的赛事升级和更丰厚的奖金池」。