去污|为看一看及搜一搜“去污”,AI怎么做到的?( 三 )


知识蒸馏即将知识从「教师」模型迁移到「学生」模型,执行方式为训练学生模型模仿教师模型的预测。在「born-again network」(Furlanello et al., 2018) 中,教师和学生具备同样的神经网络架构和模型大小,然而学生网络的性能超越了教师网络。有研究分析其提升的原因是因为教师模型的输出不再是原来one-hot label的形式,而转为对label分布的输出,这可以提供更多的训练信息(dark knowledge)。
BAM进一步将知识蒸馏扩展到多任务模型训练环境中,在业务应用中,首先对各个领域的数据训练bert的教师模型,进而结合教师模型的预测值和实际label作为多任务学习的label,在BAM中提供了教师模型退火的机制,即在迭代中逐渐减少教师预测值的权重,达到青出于蓝而胜于蓝的效果。
04 结语近一年我们集中优化了搜一搜下多个场景的低俗色情任务的效果,在query(包括suggestion、hint及意图识别)、网页、文章等多个搜索场景取得了较好的效果,整体F1值在0.8以上。在做业务的时候,我们尽量分析业务自身的特点,借助各种可用的知识以及适用业务特点的模型来快速提升效果。在如何完善问题发现机制、与黑产模式对抗、使模型更具可迁移性、效果评估更置信等问题上我们还在不断地尝试发掘出一些新的思路,感兴趣的同学欢迎一起探讨,感谢大家捧场。
作者: fredyttang,微信公众号:微信AI
来源:https://mp.weixin.qq.com/s/D_4G_OWtmLN8hrYM8PThHg
本文由 @微信AI 授权发布于人人都是产品经理,未经许可,禁止转载。
去污|为看一看及搜一搜“去污”,AI怎么做到的?】题图来自 Unsplash,基于CC0协议。