C北大博士生提出CAE，下游任务泛化能力优于何恺明MAE( 二 )

文章插图
实验结果研究团队使用ViT-small和ViT-base在 ImageNet-1K 上进行实验，输入图像的分辨率224*224，每张图被分成14*14的patch，每个patch的大小为16*16。
每次将有75个patch被随机掩码，其余patch则为可见的。
本文参照BEiT，使用DALL-E tokenizer对输入图像token化，得到预测目标。
最终结果显示，在语义分割任务中，跟其他MIM方法，比如MAE、BEiT，以及对比学习、有监督预训练方法的表征结果更好。

文章插图
在物体检测、实例分割的结果也是如此。

文章插图

文章插图
百度CV大牛领衔本次研究由北京大学、香港大学、百度共同完成。
第一作者是在读博士生陈小康，来自北京大学机器感知与智能（教育部）重点实验室。
通讯作者是百度计算机视觉首席架构师王井东，同时也是IEEE Fellow。
在加盟百度之前，曾在微软亚研院视觉计算组担任首席研究员。

文章插图
感兴趣的旁友，可戳下方链接进一步查看论文~
论文链接：
https://arxiv.org/abs/2202.03026
— 完 —
量子位 QbitAI · 头条号签约