谷歌谷歌AI:推进实例级别识别 (ILR)研究( 二 )


Tensorflow 2 Open-Source Codebase(tensorflow2开源代码库)
为了促进研究的可复现性 , 我们发布了一个经过改进的开源代码库 , 其中包含了DELG和其他的实例级识别的技术 , 例如DELF和检测到检索 。 我们的代码应用最新的Tensorflow2 , 并且出了图像检索与匹配功能之外我们也开发了模型的训练与推理功能 。 我们邀请社区使用并且对代码库作出贡献以便在实际里识别领域能够发展出更强大的基础 。
新的实例级分割挑战赛
聚焦于地表识别中 , 谷歌地标数据集v2是在实例识级别中可用的最大的shoji , 其中包含500万张图像 , 包括了大概20万类 。 通过使用GLDv2训练地标检索模型 , 与之前数据集上训练模型的结果相比我们已经得到6%的MAP提升 。 最近 , 我们也已经发起了新的浏览器接口来可视化GLDv2数据集 。
今年 , 在地标域上我们也发起了两个新的挑战赛 , 一个聚焦于识别另一个聚焦于检索 。 这些竞赛的特点是一种新收集的数据集与一种新的评估方法:参赛者不必上传一个计算好预测值的csv文件 , 而是提交一个模型和代码 , 这些模型和代码可以直接在Kaggle服务器上运行 。 来计算预测值与竞赛的排名 。 这种环境的计算限制强调高效性与实用性的解决方案 。
这项挑战赛吸引了超过1200支队伍 , 同比去年增长3倍 , 并且参赛者基于我们的DELG实现了很大的提升 。 在识别任务中 , 最高的得分实现了大约43%的AP , 在检索任务中 , 获胜的队伍实习拿了59%的MAP的提升 。 后者的实现通过多个高效模型的混合 , 池化方法 , 训练策略(细节问题可以参考:Kaggle竞赛官网)
除了地标识别与检索挑战赛 , 我们的学术和工业界的合作者也讨论他们在其他的域中的竞赛与基准上的成果 。 在艺术品识别中的大规模研究基准尚在构建中 , 这个数据集使用 The Met’s Open Access image collection , 并和一个由不同光度与集合变换的照片组成的新测试集 。 类似的一个新的商品检索竞赛将会包含个还总具有挑战性的方面 , 包含大量的商品 , 长尾类别分布 , 物体的外观以及全局环境的变化 。 更多的关于ILR研讨会的包括幻灯片和视频录像等信息可以在官网上查看 。
基于这些研究 , 开源代码 , 数据与挑战赛 , 我们希望能够促进实例级识别的成功 , 并且使得来自不同社区的研究者和机器学习爱好者能够开发能够泛化于不同域的方法 。
致谢
这个项目主要的谷歌贡献者是André Araujo, Cam Askew, Bingyi Cao, Jack Sim and Tobias Weyand 。 我们也要感谢ILR研讨会的联合组织者Ondrej Chum, Torsten Sattler, Giorgos Tolias (Czech Technical University), Bohyung Han (Seoul National University), Guangxing Han (Columbia University), Xu Zhang (Amazon), collaborators on the artworks dataset Nanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia (Osaka University) , 也要感谢来自the Metropolitan Museum of Art的合作者Jennie Choi, Maria Kessler and Spencer Kiser 。 对于开源代码库 , 我们要感谢下列开发者的帮助:Dan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na and Jaeyoun Kim 。 我们也要感谢Cukierski, Phil Culliton, Maggie Demkin对Kaggle竞赛的支持 。 此外我们也要感谢 Ralph Keller and Boris Bluntschli对我们收集数据的帮助 。
雷锋字幕组是一个由AI爱好者组成的翻译团队 , 汇聚五五多位志愿者的力量 , 分享最新的海外AI资讯 , 交流关于人工智能技术领域的行业转变与技术创新的见解 。
团队成员有大数据专家 , 算法工程师 , 图像处理工程师 , 产品经理 , 产品运营 , IT咨询人 , 在校师生;志愿者们来自IBM , AVL , Adobe , 阿里 , 百度等知名企业 , 北大 , 清华 , 港大 , 中科院 , 南卡罗莱纳大学 , 早稻田大学等海内外高校研究所 。