[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架


[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
【新智元导读】今天分享一篇被今年CVPR接收的论文 。 该文提出的算法可以高效处理百万量级的点组成的大场景3D点云 , 同时计算效率高、内存占用少 , 能直接处理大规模点云 , 不需要复杂的预处理/后处理 , 比基于图的方法SPG快了接近200倍 , 这对自动驾驶和AR非常关键 。
牛津大学和国防科技大学合作的一篇题为“RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds”的论文已被今年CVPR接收 , 今天为大家解读这篇论文 。
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
论文地址:https://arxiv.org/pdf/1911.11236.pdf
TensorFlow代码:https://github.com/QingyongHu/RandLA-Net
本文提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割新算法RandLA-Net 。 通过对现有的采样策略进行全面综合的分析 , 本文采用简单高效的随机采样来显著地减少计算量以及内存消耗 , 并且引入了全新的局部特征聚合模块持续地增大每个点有效的感受野 , 保留大多数有效的信息 。
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
RandLA-Net能直接处理大规模点云 , 不需要复杂的预处理/后处理 , 比基于图的方法SPG快了接近200倍 , 有助于解决自动驾驶和AR等领域的核心问题 。
高效处理百万量级的点组成的大场景3D点云 , 比基于图的方法SPG快近200倍
Introduction
实现高效、准确的大场景三维点云语义分割是当前三维场景理解、环境智能感知的关键问题之一 。 然而 , 由于深度传感器直接获取的原始点云通常是非规则化 (irregular)、非结构化 (unstructure)并且无序 (orderless)的 , 目前广泛使用的卷积神经网络并不能直接应用于这类数据 。
Motivation
自从2017年能够直接在非规则点云上进行处理的PointNet [1] 被提出以来 , 越来越多的研究者开始尝试提出能够直接处理非规则点云的网络结构 , 出现了许多诸如PointNet++ [2], PointCNN [3], PointConv [4] 等一系列具有代表性的工作 。 尽管这些方法在三维目标识别和语义分割等任务上都取得了很好的效果 , 但大多数方法依然还局限于在非常小(small-scale)的点云上(e.g., PointNet, PointNet++, Pointconv等一系列方法在处理S3DIS数据集时都需要先将点云切成一个个1m×1m的小点云块, 然后在每个点云块中采样得到4096个点输入网络) 。 这种预处理方式虽然说方便了后续的网络训练和测试 , 但同时也存在着一定的问题 。 举例来说 , 将整个场景切成非常小的点云块是否会损失整体的几何结构?用一个个小点云块训练出来的网络是否能够有效地学习到空间中的几何结构呢?
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
图 1. PointNet在Area 5中的分割结果
带着这样的疑问 , 我们对PointNet在S3DIS数据集Area 5上的分割结果进行了可视化 。 如上图highlight的区域所示 , PointNet错误地将一张桌子的左半部分识别为桌子 , 而将右半部分识别为椅子 。 造成这样明显不一致结果的原因是什么呢?可以看到 , 这张桌子在预处理切块(左图)的时候就已经被切分成几个小的点云块 , 而后再分别不相关地地输入到网络中 。 也就是说 , 在点云目标几何结构已经被切块所破坏的前提下 , 网络是难以有效地学习到桌子的整体几何结构的 。
既然切块太小会导致整几何结构被破坏 , 那我能不能把块切大一点?这样不就可以在一定程度上更好地保留原始点云的信息了吗?