进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火( 二 )
2.预训练
为了评估预训练的效果 , 研究者对不同质量的ImageNet预训练模型检查点进行了研究 。 此外 , 为了控制模型容量 , 所有检查点均使用同样的模型架构 , 不过由于训练方法不同 , 它们在ImageNet上的准确率有所不同 。
该研究使用EfficientNet-B7架构[51]作为预训练的强基线方法 。 EfficientNet-B7架构有两个可用的检查点:1)使用AutoAugment训练的EfficientNet-B7检查点 , 它在ImageNet上的top-1准确率为84.5%;2)使用NoisyStudent方法训练的EfficientNet-B7检查点 , 它利用额外300M无标注图像 , 实现了86.9%的top-1准确率 。 该研究将这两个检查点分别写为ImageNet和ImageNet++ 。 基于随机初始化进行训练的模型即RandInit 。
下表1展示了该研究所用数据增强和预训练检查点的定义:
文章图片
3.自训练
该研究使用的自训练实现基于NoisyStudenttraining[10] , 共有三个步骤:1)基于标注数据(如COCO数据集)训练教师模型;2)教师模型基于无标注数据(如ImageNet数据集)生成伪标签;3)训练学生模型 , 对人类标签和伪标签上的损失进行联合优化 。
学生模型中的主要噪声来源是数据增强和相关模型之前使用过的其他噪声扰动方法 。
预训练VS自训练 , 谁赢?
数据增强和标注数据量对预训练的影响
谷歌研究人员将前述何恺明的研究进行了扩展 , 发现了以下几点:
1.在使用强大的数据增强时 , 预训练会损伤模型性能 。
【进入军事|但在标注数据上自训练更有效,预、自训练之争:谷歌说预训练虽火】研究者改变数据增强的强度 , 并分析对预训练的影响 。 如下图1左图所示 , 在使用标准数据增强(Augment-S1)时 , 预训练起到积极作用 。 但随着数据增强强度的增加 , 预训练的价值逐渐减退 。
文章图片
图1:数据增强和数据集规模对预训练的影响 。
2.更多标注数据反倒会降低预训练的价值 。
研究者分析了标注数据集规模变化时 , 预训练的影响 。 如上图1右图所示 , 在低数据机制(20%)下预训练产生积极影响 , 但在高数据机制下 , 预训练的作用是中性甚至有害的 。
这一结果与何恺明的观察基本一致 。 不过该研究还有一项新发现:检查点质量与低数据机制下的最终性能有关(ImageNet++在20%COCO数据集上的性能最优) 。
数据增强和标注数据集规模对自训练的影响
研究者对自训练展开分析 , 并将其与上述结果进行了对比 。 出于一致性的考虑 , 研究人员继续使用COCO目标检测任务 , 并以ImageNet数据集作为自训练数据源 。 与预训练不同 , 自训练将ImageNet数据集仅作为无标注数据 。
1.自训练在高数据/强数据增强的机制下能够起到积极作用 , 而预训练则不能 。
研究者首先分析了数据增强强度对目标检测器性能的影响 。 下表2展示了使用四种数据增强策略时自训练的性能变化 , 并将这些结果与监督学习(RandInit)和预训练(ImageNetInit)进行了比较 。
文章图片
表2:使用四种数据增强方法时自训练的性能变化 , 以及与监督学习和预训练的比较 。
2.自训练适用于不同规模的数据集 , 是对预训练的补充 。
研究者接下来分析了不同COCO标注数据集规模对自训练性能的影响 。
如下表3所示 , 自训练在小数据集和大数据集上都对目标检测器起到积极作用 。 最重要的是 , 在100%标注数据集规模的高数据机制下 , 自训练显著提升了所有模型的性能 , 而预训练则损害了模型性能 。
- 鼎盛军事|对瓦提亚空军基地发动9次空袭,神秘友军协助,利比亚国民军爆料
- 洞察军事|出动部队用一天时间把债主灭了,此国不想还150亿债务
- 全球军事热评|俄下禁令阻止出口,印度将售越南大批导弹?号称可击沉航空母舰
- 辰龙军事|大军刚抵达边境就遭袭击,4人持枪闯入城内,巴铁后方也出事了
- 辰龙军事|中美的差距只剩15年了吗?张召忠点评十分中肯:不要被假象给骗了
- 金亚军事|300万奖金不交1分税,引起世界关注,国宝女院士成功造出全新导弹
- 妖姐军事|却被迫买对手的防弹衣,巴网友:丢人现眼,印度决心在边境搞事
- 老班长说军事|F35连续发动12次空袭,警告两大国不许插手,美军对中东杀回马枪
- 优洲军事|以色列军队的暴力袭击伴随着这份工作,对巴勒斯坦记者来说
- 星空军事|俄国防部问责美方,披露美拥有陆基中程“靶弹”,中导条约被毁