广告系统位置偏差的CTR模型优化方案( 六 )


评估指标: 我们使用AUC(Area Under ROC)作为我们的评估指标之一 。 为了更好的针对位置偏差问题进行评估 , 我们提出PAUC (Position-wise AUC)作为我们的另一个评估指标 , 其由以下公式计算:
其中 , 是第个位置的曝光数量 , 是第个位置曝光数据的AUC 。 PAUC指标衡量每个位置上相关性排序的质量 , 忽略了位置偏差对排序质量的影响 。
对比的方法 。为了公平且充分地对比不同模型的效果 , 我们所有实验中所使用的模型输入使用等量且深度结合美团业务的特征 , 不同模型中的相同模块都使用一致的参数 , 并且对比的基线DIN[14]模型经过高度优化 , 以下为我们具体进行对比的实验:

  • DIN: 该模型训练和预估时都没有使用位置信息 。
  • DIN+PosInWide: 这个方法在网络的Wide部分建模位置特征 , 在评估时采用第一个位置作为位置特征的默认值去评估 。
  • DIN+PAL: 这个方法采用PAL框架去建模位置信息 。
  • DIN+ActualPosInWide: 这个方法在网络的Wide部分建模位置特征 , 在评估时采用真实位置特征去评估 。
  • DIN+Combination: 这个方法在DIN的基础上添加了位置组合模块 , 评估时采用真实位置特征去评估 。
  • DPIN-Transformer: 这个方法在我们提出的DPIN模型上去除了Transformer结构 , 来验证Transformer的作用 。
  • DPIN: 这是我们提出的DPIN模型 。
  • DPIN+ItemAction: 我们在DPIN的基础模块MLP层前添加深度位置交叉模块 , 并在位置兴趣聚合和位置非线性交叉中引入候选广告的信息 , 这个实验是我们方法模型性能的理论上界 , 然而服务性能是不可接受的 。

广告系统位置偏差的CTR模型优化方案
本文插图
表1 在常规流量和随机流量上的离线实验评估对比结果
表1展示了我们所进行的对比方法在常规流量和随机流量上的离线实验评估结果 , 其中的数值为各个模型相对于DIN模型的效果差异 , 我们首先分析在常规流量上不同方法的差异 。 与DIN相比 , DIN+PosInWide和DIN+PAL的模型在AUC指标上有所下降 , 但在PAUC上有所提升 , 这表明了这两种方法都可以有效地缓解位置偏差 , 但会导致离线和在线之间的不一致 。
DIN+AcutalPosInWide通过在评估过程中引入实际位置来解决不一致问题 , 这可以通过位置组合模块来实现 , 但是在wide部分建模位置会导致位置特征只是一个偏差 , 不能提升PAUC指标 , 虽然能更准确地预估各位置上的CTR , 但没有对数据中固有的位置偏差进行更好的学习 。
DIN+Combination通过在DIN中引入位置组合模块 , 我们取得了1.52%的AUC增益和0.82%的PAUC增益 , 达到线下线上一致性的同时也进一步地缓解了位置偏差 , 这个结果说明了位置偏差与上下文、用户等信息不独立 , 在不同的用户及上下文中会有不同的位置偏差 。 更进一步的 , DPIN建模位置、上下文、用户的深度非线性交叉关系 , 也消除了用户行为序列中存在的位置偏差 , 对比DIN+Combination取得了0.24%的AUC增益以及0.44%的PAUC增益 。