C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE( 二 )


C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
文章插图
实验结果研究团队使用ViT-small和ViT-base在 ImageNet-1K 上进行实验,输入图像的分辨率224*224,每张图被分成14*14的patch,每个patch的大小为16*16。
每次将有75个patch被随机掩码,其余patch则为可见的。
本文参照BEiT,使用DALL-E tokenizer对输入图像token化,得到预测目标。
最终结果显示,在语义分割任务中,跟其他MIM方法,比如MAE、BEiT,以及对比学习、有监督预训练方法的表征结果更好。
C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
文章插图
在物体检测、实例分割的结果也是如此。
C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
文章插图
C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
文章插图
百度CV大牛领衔本次研究由北京大学、香港大学、百度共同完成。
第一作者是在读博士生陈小康,来自北京大学机器感知与智能(教育部)重点实验室。
通讯作者是百度计算机视觉首席架构师王井东,同时也是IEEE Fellow。
在加盟百度之前,曾在微软亚研院视觉计算组担任首席研究员。
C北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
文章插图
感兴趣的旁友,可戳下方链接进一步查看论文~
论文链接:
https://arxiv.org/abs/2202.03026
— 完 —
量子位 QbitAI · 头条号签约