王哈哈哈|伪标签(Pseudo-Labelling)——锋利的匕首
大数据时代中 , 在推荐、广告领域样本的获取从来都不是问题 , 似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野 , 但实际上在样本及其珍贵的金融、医疗图像、安全等领域 , 伪标签学习是一把锋利的匕首 , 简单而有效 。
作者:TripleLift
伪标签的定义来自于半监督学习 , 半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能 。
举个简单的半监督学习例子 , 我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型 , 但是专家标注一张胸片图像要收费 , 于是我掏空自己的钱包让专家帮我标注了10张胸片 , 可是我这10张图片又要划分训练集测试集 , 咋训练看着都要过拟合哇 , 这可咋办?
聪明的我问了问专家 , 说不标注的胸片要钱吗?专家一愣 , 不要钱 , 随便拿(此处忽略病人隐私的问题 , 单纯举例子) 。 于是我掏出1张标注的胸片 , 换了10张没标注的胸片 , 在专家还没缓过劲之前先溜了 。
回到家里 , 我就开始了如图所示的半监督学习过程~
文章图片
图1伪标签技术
Emmm…
粗略来讲 , 伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测 , 根据预测结果对样本进行筛选 , 再次输入模型中进行训练的一个过程 。
但实际上 , 伪标签技术在具体应用的细节上 , 远没有说的如此简单 , 那让我们先看一下伪标签技术的具体做法吧 。
伪标签技术的使用自由度非常高 , 在这里我们介绍最常用的也是最有效的三种 , 对于某些特殊场景 , 可能有更花哨的方法 , 这里希望能抛砖引玉 , 为大家拓宽一下视野 。
入门版
1.使用标记数据训练有监督模型M
2.使用有监督模型M对无标签数据进行预测 , 得出预测概率P
3.通过预测概率P筛选高置信度样本
4.使用有标记数据以及伪标签数据训练新模型M’
文章图片
图2入门版伪标签技术
进阶版
5.将M替换为M’ , 重复以上步骤直至模型效果不出现提升
文章图片
图3进阶版伪标签技术
创新版
3.将模型损失函数改为Loss=loss(labeled_data)+alpha*loss(unlabeled_data)
文章图片
图4创新版伪标签技术
以上就是伪标签学习最常用的三种方法 。
本着知其然、知其所以然的态度 , 下面介绍一下伪标签为何有效 , 在知道了为何有效后 , 才能找到其适合的场景 , 达到半监督学习的目的 。
伪标签为何有效
在《Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks》论文中解释了伪标签学习为何有效 , 它的有效性可以在两个方面进行考虑 , 原文如下:
Low-DensitySeparationbetweenClasses
“Thegoalofsemi-supervisedlearningistoimprovegeneralizationperformanceusingunlabeleddata.Theclusterassumptionstatesthatthedecisionboundaryshouldlieinlow-densityregionstoimprovegeneralizationperformance(Chapelleetal.,2005).RecentlyproposedmethodsoftrainingneuralnetworksusingmanifoldlearningsuchasSemi-SupervisedEmbeddingandManifoldTangentClassifierutilizethisassumption.Semi-SupervisedEmbedding(Westonetal.,2008)usesembedding-basedregularizertoimprovethegeneralizationperformanceofdeepneuralnetworks.Becauseneighborsofadatasamplehavesimilaractivationswiththesamplebyembeddingbasedpenaltyterm,it’smorelikelythatdatasamplesinahigh-densityregionhavethesamelabel.ManifoldTangentClassifier(Rifaietal.,2011b)encouragesthenetworkoutputtobeinsensitivetovariationsinthedirectionsoflow-dimensionalmanifold.Sothesamepurposeisachieved.”
- 用尽全身力气不想加班的机器人,这大概是程序员最后的倔强,哈哈
- 标签缝纫样样精通 打印品牌跨界玩得溜
- 3D打印嵌入式双椎体螺旋天线,创建紧凑的UHF-RFID标签
- 谷歌为Chrome OS 87引入蓝牙电量显示与标签页搜索功能
- 什么值得买|微信热更新:话题标签全局化!
- |什么动物既没有祖先,也没有子孙?哈哈哈神评居然能做到全国统一
- 驱动之家|好消息!微软Edge终于支持标签页和历史同步
- |“什么动物既没有祖先,也没有子孙?”哈哈哈,神评居然能做到全国统一!
- 宇航员|“女性宇航员在太空会不会来大姨妈?”哈哈哈评论是直男癌晚期吧...