广告系统位置偏差的CTR模型优化方案( 二 )


CTR预估 , 作为质量预估的一个环节 , 是计算广告中最核心的算法之一 。 在每次点击付费(CPC)计费模式下 , 机制设计可以简单地按每千次展示收入(eCPM)来对广告进行排序以取得广告收入最大化 。 由于eCPM正比于CTR和广告出价(bid)的乘积 。 因此 , CTR预估会直接影响到广告的最终收入和用户体验 。 为了有更高的CTR预估精度 , CTR预估从早期的LR[5]、FM[6]、FFM[7]等支持大规模稀疏特征的模型 , 到XGBoost[8]、LightGBM[9]等树模型的结合 , 再到Wide&Deep[10]、Deep&Cross[11]、DeepFM[12]、xDeepFM[13]等支持高阶特征交叉的深度学习模型 , 进一步演化到DIN[14]、DIEN[15]、DSIN[16]等结合用户行为序列的深度学习模型 , 一直作为工业界以及学术界研究的热点领域之一 , 被不断探索和不断创新 。
由于CTR预估模型的训练通常采用曝光点击数据 , 该数据是一种隐式反馈数据 , 所以会不可避免地产生各种偏差问题 。 其中 , 位置偏差因对CTR影响极大而备受关注 。 如图2所示 , 随机流量上不同位置的CTR分布反应了用户通常倾向于点击靠前位置的广告 , 并且CTR会随着曝光位置的增大而迅速下降 。 因此 , 直接在曝光点击数据上进行训练 , 模型不可避免地会偏向于靠前位置的广告集合 , 造成位置偏差问题 。 图2显示正常流量相比随机流量CTR分布更加集中在高位置广告上 , 通过反馈环路 , 这一问题将不断地放大 , 并且进一步损害模型的性能 。 因此 , 解决好位置偏差问题不仅能够提升广告系统的效果 , 而且还能平衡广告系统的生态 , 促进系统的公平性 。
广告系统位置偏差的CTR模型优化方案
本文插图
图2 美团广告正常流量和随机流量在不同位置上的CTR分布
广告最终的真实曝光位置信息在线上预估时是未知的 , 这无疑进一步增大了位置偏差问题的解决难度 。 现有的解决位置偏差的方法可以大致分为以下两种:

  • 神经网络位置特征建模:该方法将位置建模为神经网络中的特征 , 由于在预估过程中并不知道真实位置信息 , 故而有些方法[17-19]把位置信息放于网络的Wide部分 , 在线下训练时使用真实位置 , 在线上预估时使用固定位置 , 这种方法由于其简单性和有效性 , 在工业界被广泛应用 。 为了在线上预估时无需使用位置信息 , 如图3所示 , PAL[20]将样本的CTR建模为ProbSeen乘以pCTR , 其中ProbSeen仅使用位置特征建模 , 而pCTR使用其他信息建模 , 在线上只使用pCTR作为CTR预估值 。

广告系统位置偏差的CTR模型优化方案
本文插图
图3 PAL框架