进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火

预训练是当前计算机视觉领域的主要范式 , 但何恺明等人先前的研究发现 , 预训练对目标检测和分割任务的影响有限 。 因而 , 重新探究预训练和自训练的效果成为一个非常重要的课题 。 在这篇谷歌团队的论文中 , QuocV.Le等研究者发现 , 当具有大量的标注数据时 , 自训练的运行效果要优于预训练 , 并在COCO检测和PASCAL分割任务上实现了SOTA结果 。
众所周知 , 预训练是计算机视觉领域的主导范式 , 研究人员也热衷于预训练 。
但是 , 预训练真的有用吗?
早在2018年 , 何恺明等人在论文《RethinkingImageNetPre-training》中重新思考了ImageNet预训练模型 。 他们发现这种利用预训练模型抽取「通用」特征 , 并借此解决大多数视觉任务的方法是值得质疑的 。 因为即使在比ImageNet还大3000倍的数据集上进行预训练 , 它们对目标检测任务的性能提升仍然不是很大 。
近日 , 谷歌大脑研究团队首席科学家QuocV.Le公布了其团队的一项新研究 , 主题是「重新思考预训练和自训练」 。 在这篇论文中 , 谷歌研究者展示了当标注数据很多时 , 预训练不起作用 。 相比之下 , 当标注数据很多时 , 自训练可以运行良好 , 并在PASCAL分割和COCO检测数据集上实现SOTA效果 。
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
关于自训练 , 谷歌团队先前已经展开相关研究 , 分别是在ImageNet数据集上实现SOTA的NoisyStudentTraining和在LibriSpeech数据集上实现SOTA的NoisyStudentTrainingforSpeech 。
而这项新研究则是对先前研究成果的延续 , 该研究发现:在大型数据集上取得优秀结果需要自训练(w/NoisyStudent) 。
接下来 , 我们来看这项研究的具体内容 。
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
论文链接:https://arxiv.org/pdf/2006.06882.pdf
预训练是计算机视觉领域中的主要范式 。 例如 , 监督式ImageNet预训练常用于初始化目标检测和分割模型的主干网络 。 但是 , 何恺明等人的研究展示了一个令人惊讶的结果 , 即ImageNet预训练对COCO目标检测任务的影响有限 。
于是 , 谷歌大脑的研究人员将自训练作为另一种在相同设置上利用额外数据的方法进行研究 , 并将其与ImageNet预训练进行对比 。 该研究展示了自训练的通用性和灵活性 , 并发现以下三点洞见:
更强的数据增强和更多标注数据 , 却使得预训练的价值降低;
与预训练不同 , 在提供更强大的数据增强时 , 自训练通常起到积极作用 , 不论是在低数据机制还是高数据机制下;
在预训练有用的情况下 , 自训练比预训练更有用 。
例如 , 在COCO目标检测数据集上 , 研究人员使用1/5的标注数据时 , 预训练起到积极影响 , 但当使用全部标注数据时 , 准确率反而下降 。 而自训练在所有数据集规模下都能带来1.3至3.4AP的性能提升 , 即自训练在预训练不起作用的场景下依然有效 。 在PASCAL分割数据集上(该数据集比COCO小很多) , 尽管预训练起到很大的作用 , 但自训练带来的性能提升更大 。
在COCO目标检测任务中 , 自训练实现了54.3AP , 相比最强大的预训练模型SpineNet提升了1.5AP;在PASCAL分割任务中 , 自训练实现了90.5mIOU , 相比之前的最优结果(来自DeepLabv3+)提升了1.5% 。
如何对比预训练和自训练
方法和控制因子
这部分涉及数据增强、预训练和自训练三个方面 。
1.数据增强
该研究使用四种适用于目标检测和分割任务的不同数据增强策略 , 分别是:FlipCrop、AutoAugment、具备更高scalejittering的AutoAugment以及具备更高scalejittering的RandAugment 。 (下文中 , 这四种数据增强策略分别写作Augment-S1、Augment-S2、Augment-S3和Augment-S4 。 )