广告系统位置偏差的CTR模型优化方案( 二 )

CTR预估，作为质量预估的一个环节，是计算广告中最核心的算法之一。在每次点击付费（CPC）计费模式下，机制设计可以简单地按每千次展示收入（eCPM）来对广告进行排序以取得广告收入最大化。由于eCPM正比于CTR和广告出价（bid）的乘积。因此， CTR预估会直接影响到广告的最终收入和用户体验。为了有更高的CTR预估精度， CTR预估从早期的LR[5]、FM[6]、FFM[7]等支持大规模稀疏特征的模型，到XGBoost[8]、LightGBM[9]等树模型的结合，再到Wide&Deep[10]、Deep&Cross[11]、DeepFM[12]、xDeepFM[13]等支持高阶特征交叉的深度学习模型，进一步演化到DIN[14]、DIEN[15]、DSIN[16]等结合用户行为序列的深度学习模型，一直作为工业界以及学术界研究的热点领域之一，被不断探索和不断创新。
由于CTR预估模型的训练通常采用曝光点击数据，该数据是一种隐式反馈数据，所以会不可避免地产生各种偏差问题。其中，位置偏差因对CTR影响极大而备受关注。如图2所示，随机流量上不同位置的CTR分布反应了用户通常倾向于点击靠前位置的广告，并且CTR会随着曝光位置的增大而迅速下降。因此，直接在曝光点击数据上进行训练，模型不可避免地会偏向于靠前位置的广告集合，造成位置偏差问题。图2显示正常流量相比随机流量CTR分布更加集中在高位置广告上，通过反馈环路，这一问题将不断地放大，并且进一步损害模型的性能。因此，解决好位置偏差问题不仅能够提升广告系统的效果，而且还能平衡广告系统的生态，促进系统的公平性。

本文插图
图2 美团广告正常流量和随机流量在不同位置上的CTR分布
广告最终的真实曝光位置信息在线上预估时是未知的，这无疑进一步增大了位置偏差问题的解决难度。现有的解决位置偏差的方法可以大致分为以下两种：

神经网络位置特征建模：该方法将位置建模为神经网络中的特征，由于在预估过程中并不知道真实位置信息，故而有些方法[17-19]把位置信息放于网络的Wide部分，在线下训练时使用真实位置，在线上预估时使用固定位置，这种方法由于其简单性和有效性，在工业界被广泛应用。为了在线上预估时无需使用位置信息，如图3所示， PAL[20]将样本的CTR建模为ProbSeen乘以pCTR ，其中ProbSeen仅使用位置特征建模，而pCTR使用其他信息建模，在线上只使用pCTR作为CTR预估值。

本文插图
图3 PAL框架

Inverse Propensity Weighting（IPW）：该方法被学术界广泛研究[21-29] ，其在模型训练时给不同曝光位置的样本赋予不同的样本权重，直观地看，应该将具有较低接收反馈倾向的广告样本（曝光位置靠后的广告）分配较高的权重。因此，这种方法的难点就在于不同位置的样本权重如何确定，一个简单的方法是使用广告随机展示的流量来准确地计算位置CTR偏差，但不可避免地损害用户体验。故而，许多方法致力于在有偏的流量上来准确地预估位置偏差。
- 上一页
- 1
- 2
- 3
- 4
- 5
- 6
- 下一页