广告系统位置偏差的CTR模型优化方案( 二 )
CTR预估 , 作为质量预估的一个环节 , 是计算广告中最核心的算法之一 。 在每次点击付费(CPC)计费模式下 , 机制设计可以简单地按每千次展示收入(eCPM)来对广告进行排序以取得广告收入最大化 。 由于eCPM正比于CTR和广告出价(bid)的乘积 。 因此 , CTR预估会直接影响到广告的最终收入和用户体验 。 为了有更高的CTR预估精度 , CTR预估从早期的LR[5]、FM[6]、FFM[7]等支持大规模稀疏特征的模型 , 到XGBoost[8]、LightGBM[9]等树模型的结合 , 再到Wide&Deep[10]、Deep&Cross[11]、DeepFM[12]、xDeepFM[13]等支持高阶特征交叉的深度学习模型 , 进一步演化到DIN[14]、DIEN[15]、DSIN[16]等结合用户行为序列的深度学习模型 , 一直作为工业界以及学术界研究的热点领域之一 , 被不断探索和不断创新 。
由于CTR预估模型的训练通常采用曝光点击数据 , 该数据是一种隐式反馈数据 , 所以会不可避免地产生各种偏差问题 。 其中 , 位置偏差因对CTR影响极大而备受关注 。 如图2所示 , 随机流量上不同位置的CTR分布反应了用户通常倾向于点击靠前位置的广告 , 并且CTR会随着曝光位置的增大而迅速下降 。 因此 , 直接在曝光点击数据上进行训练 , 模型不可避免地会偏向于靠前位置的广告集合 , 造成位置偏差问题 。 图2显示正常流量相比随机流量CTR分布更加集中在高位置广告上 , 通过反馈环路 , 这一问题将不断地放大 , 并且进一步损害模型的性能 。 因此 , 解决好位置偏差问题不仅能够提升广告系统的效果 , 而且还能平衡广告系统的生态 , 促进系统的公平性 。
本文插图
图2 美团广告正常流量和随机流量在不同位置上的CTR分布
广告最终的真实曝光位置信息在线上预估时是未知的 , 这无疑进一步增大了位置偏差问题的解决难度 。 现有的解决位置偏差的方法可以大致分为以下两种:
- 神经网络位置特征建模:该方法将位置建模为神经网络中的特征 , 由于在预估过程中并不知道真实位置信息 , 故而有些方法[17-19]把位置信息放于网络的Wide部分 , 在线下训练时使用真实位置 , 在线上预估时使用固定位置 , 这种方法由于其简单性和有效性 , 在工业界被广泛应用 。 为了在线上预估时无需使用位置信息 , 如图3所示 , PAL[20]将样本的CTR建模为ProbSeen乘以pCTR , 其中ProbSeen仅使用位置特征建模 , 而pCTR使用其他信息建模 , 在线上只使用pCTR作为CTR预估值 。
本文插图
图3 PAL框架
- Inverse Propensity Weighting(IPW):该方法被学术界广泛研究[21-29] , 其在模型训练时给不同曝光位置的样本赋予不同的样本权重 , 直观地看 , 应该将具有较低接收反馈倾向的广告样本(曝光位置靠后的广告)分配较高的权重 。 因此 , 这种方法的难点就在于不同位置的样本权重如何确定 , 一个简单的方法是使用广告随机展示的流量来准确地计算位置CTR偏差 , 但不可避免地损害用户体验 。 故而 , 许多方法致力于在有偏的流量上来准确地预估位置偏差 。
- MIUI|国人最期待安卓系统曝光:MIUI 13增加新功能,强化互联功能
- 免疫系统|新冠最新毒株!比德尔塔还厉害,疫苗还管用吗?
- 互联网广告|市场监管总局:互联网广告不得倒计时结束才能关闭
- 机器|激光粉末床熔合中成分和相图特征对适印性和微观结构的影响:合金系统加工图的开发和比较 (一)
- Windows|New Windows 11操作系统壁纸灵感来源,新的视角,一个新的时代
- 物理学家|实验表明:量子系统中,时间是“不存在”的,因为无法分辨流向
- 双十二|鸿蒙系统2.0正式版又开始推送了,这次包括荣耀8X等9款机型
- 免疫系统|新冠新毒株这次进化出32个突变
- 拉丁美洲|互联网广告大退潮,大厂集体失速
- 太阳系|假如太阳系被放在于更加接近银河系中心的位置,会有什么变化吗?