Objectron|Google发布3D真实物体资料集Objectron 真实|机器学习|google|发布|物体

文章插图
Google发布最新的Objectron资料集，这是一个从不同角度，拍摄大量日常物体的视频集合，视频的特色是长度短，且物体总是位于中央，每个视频片段包含AR对话元资料，像是相机的位置以及稀疏点云，还有由人工标记的3D定界框（Bounding Box），以描述物体的位置、朝向和维度。
【 Objectron|Google发布3D真实物体资料集Objectron】利用许多照片资料来训练机器学习模型，可使计算机视觉功能的表现越来越好，但Google提到，相较于目前应用在2D任务的图片资料集，例如ImageNet、COCO和Open Images，真实世界3D物体资料集仍不足，使得运用机器学习模型理解3D物体，仍是一项具有挑战性的任务。
因此Google发布了Objectron资料集，来补充不足的3D物体资料集，该资料集收集多角度拍摄物体视频，可以捕捉物体更多的3D结构之外，也提供方便用于诸如视频和摄影机流媒体等，计算机视觉任务的资料格式，有助于机器学习模型的训练以及创建基准。
Objectron资料集总共有1.5万个注解视频片段，并且有400万张注解图片作为补充，图片内容包括脚踏车、书、瓶子、照相机、谷物盒、椅子、杯子、笔记本和鞋子。为了确保资料集的多样性，资料集内容来自5大洲10个国家。
除了发布Objectron资料集，Google还在MediaPipe中发布，可用来侦测4类物体的3D物体侦测模型，包括鞋子、椅子、杯子和照相机，这些模型是利用Objectron资料集训练而成。MediaPipe是Google跨平台可定制化机器学习解决方案框架，能用来处理即时和流媒体，开发诸如设备上角膜或是姿势关注等应用。
与Google之前发布的单阶段Objectron模型不同，这些新版的模型采用双阶段基础架构，第一阶段应用TensorFlow对象侦测模型，来找出模型的2D剪裁，进到第二阶段，使用图像剪裁来估算3D定界框，并同时为下一个影格计算2D剪裁，Google提到，这个新方法不需要在每一个影格，都执行物体侦测器，使得性能更好，在Adreno 650行动GPU上，能够以83 FPS的速度执行。

文章插图