进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火( 三 )


进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
表3:自训练可以在所有规模的标注数据集上提升模型性能 , 而预训练无法实现该效果 。
自训练在高数据/强数据增强机制下起到积极作用 , 自监督预训练则不能
研究者还研究了另一种流行的预训练方法:自监督学习 。
如下表4所示 , 自监督预训练检查点在COCO数据集上对性能的损害与监督预训练方法相当 。 与使用随机初始模型(randomlyinitializedmodel)相比 , 自监督和监督预训练模型的性能均下降了0.7AP 。 相较于它们 , 自训练模型将性能提升了0.8AP 。
此外 , 尽管自监督学习和自训练都忽略了标签 , 但在使用无标注ImageNet数据增强COCO数据集方面 , 自训练似乎更有效 。
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
表4:在COCO数据集上 , 自监督/监督预训练与自训练对模型性能的影响 。
探索自训练和预训练的极限
研究者结合了数据增强、自训练和预训练的相互作用来提升SOTA结果 , 具体如下表5和下表6所示:
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
表5:在COCO目标检测数据集上的结果 。
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
表6:在PASCALVOC语义分割数据集上的结果 。
重新思考预训练和自训练
重新思考预训练和通用特征表示
计算机视觉的目标之一是开发能够解决多项任务的通用特征表示 。 而该研究实验通过预训练和自训练的性能差异 , 展示了在分类和自监督任务中学习通用表示的局限性 。
研究人员对预训练性能较弱的直观见解是 , 预训练无法感知要处理的特定任务 , 因而无法进行适应 。 而在任务发生变化时 , 这样的适应是必要的 。 例如 , 适合ImageNet的特征可能缺失对COCO数据集有用的位置信息 。
谷歌研究者得出的结论是:将自训练目标和监督学习进行联合训练 , 更有利于适应特定任务 。 这或许能够使自训练产生更普遍的积极影响 。
联合训练的意义
自训练机制的优势在于 , 它能联合训练监督和自训练目标 , 从而解决二者之间的不匹配 。 那么 , 联合训练ImageNet和COCO是否也能解决这种不匹配呢?
下表7展示了将ImageNet分类和COCO目标检测联合训练的结果:
进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火
文章图片
表7:预训练、自训练和联合训练在COCO数据集上的对比结果 。
自训练的优势:可扩展性、通用性和灵活性
实验结果表明自训练具备以下优势:
灵活性:自训练可以很好地应对实验中的每一种设置 , 如低数据、高数据、弱数据增强和强数据增强 。 同时自训练对不同的架构(ResNet、EfficientNet、SpineNet、FPN、NAS-FPN)、数据源(ImageNet、OID、PASCAL、COCO)和任务(目标检测、分割)都有效;
通用性:对于预训练失败或成功的场景 , 自训练都能够应对;
可扩展性:在使用更多标注数据和更好模型时 , 自训练也能实现优秀的性能 。
机器学习领域的一个苦涩教训是:在具备更多标注数据、更多算力或更好的监督训练方法时 , 大部分方法会失败 , 不过这种情况并没有出现在自训练这里 。
自训练的局限性
现有的自训练方法也有局限 。 相比基于预训练模型进行微调 , 自训练需要更多算力 。 根据预训练模型的质量、数据增强的强度和数据集规模 , 预训练可实现1.3至1.8倍的加速 。 此外 , 低数据应用(如PASCAL分割)也需要优秀的预训练模型 。