告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了( 三 )


除了以上实验 , 作者还探究了ViT模型的迁移性能 , 实验结果表明不论是性能还是算力需求 , ViT模型在进行迁移时都优于ResNet 。
告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了文章插图
可视化分析
可视化分析可以帮助我们了解ViT的特征学习过程 。 显然 , ViT模型的注意力一定是放在了与分类有关的区域:
告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了文章插图
告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了文章插图
总结
本文提出的基于patch分割的图像解释策略 , 在结合Transformer的情况下取得了非常好的效果 , 这为CV领域的其他研究提供了一个很好的思路 。 此外 , 接下来应该会出现许多基于这篇工作的研究 , 进一步将这一划时代的模型应用到更多的任务上 , 例如目标检测、实例分割、行为识别等等 。 此外 , 也会出现针对patch分割策略的改进 , 来进一步提高模型性能 。
【告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了】#de89ca259eb1
告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了文章插图
告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了文章插图