砍柴网谷歌在CVPR2020分享最新AR/VR研究成果( 二 )


相关论文:3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation
5. KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects
估计桌面对象的三维姿态对于机器人操作等应用至关重要 。 解决这个问题的众多现有方法都需要一个用于训练和预测的对象深度映射 。 在这篇论文中 , 我们放弃使用深度传感器 , 转而使用原生立体输入 。 我们解决了两个问题:第一 , 我们建立了一个用RGB摄像头在桌面对象捕捉和标记3D关键点的简单方法;第二 , 我们开发了一个名为KeyPose的深层神经网络 , 它可以从立体输入中学习使用3D关键点来精确地预测对象姿势 , 甚至可以用于透明对象 。 为了评估我们方法的性能 , 我们创建了一个由15个清晰对象组成的数据集 。 我们训练实例和类别模型 , 并显示对新纹理、姿势和对象的归纳 。 KeyPose在3D姿势估计方面超过了其他先进的方法 。 立体输入对于这种性能至关重要 , 因为它比使用单目输入提高了2倍的效果 。 我们将发布数据捕获和标记管道、透明对象数据库、KeyPose模型和评估代码的公共版本 。
相关论文:KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects
6. DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
我们提出了一种快速的单级三维目标检测方法DOPS 。 以前的方法通常会做出特定领域的设计决策 , 例如在自动驾驶场景中将点投影到鸟瞰图中 。 相比之下 , 我们提出了一种通用方法 , 它既适用于室内场景 , 也适用于室外场景 。 我们方法的核心之处是一种快速的单通道架构 , 它既能检测三维对象 , 又能估计对象的形状 。 三维边界框参数在每一个点上一次估计 , 通过图形卷积进行聚合 , 并输入网络的一个分支 。 在合成数据集上学习潜在形状空间和形状解码器 , 并将其作为三维目标检测管道端到端训练的监督 。 因此 , 我们的模型能够在不访问目标数据集中的基本真实形状信息的情况下提取形状 。
【砍柴网谷歌在CVPR2020分享最新AR/VR研究成果】相关论文:DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes