一幅图像能顶16x16字!用于大规模图像缩放识别的变压器( 二 )


新模型的一个特点是 , 尽管根据本文的研究 , 它比卷积方法更有效地以更少的计算量获得相同的预测精度 , 但随着它接受越来越多的数据训练 , 其性能似乎在不断提高 , 这比其他模型更甚 。
这篇文章的作者在一个包含3亿的私有googlejft-300M数据集上训练了视觉变换器图像 , 从而在许多基准测试中都获得了最先进的准确性 。 人们可以期待这个预先训练过的模型很快就会发布出来 , 以便我们都可以试用 。

  • 数据集: