[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架( 五 )


本文插图
表1. 不同方法在处理SemanticKITTI数据集的序列8的总时间、模型参数和最多可处理点数对比 。

  • SPG[23]的模型参数最少 , 但耗时最长 。 主要原因是几何划分(geometrical partitioning)和超图构建(super-graph construction)等步骤的计算代价较高;
  • PointNet++和PointCNN的耗时也很长 , 主要原因是FPS在处理大场景点云时比较耗时
  • PointNet和KPConv无法一次性处理非常大规模的点云, 主要原因是没有降采样操作(PointNet)或者模型较为复杂 。
  • 得益于简单的随机采样以及基于MLP的高效的局部特征聚合模块 , RandLA-Net的耗时最少(~23帧/每秒) , 并且能够一次处理总数高达10^6的点云 。
【[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架】 (3) 公共数据集评估结果
Semantic3D由30个大规模的户外场景点云组成 , 包含真实三维空间中160×240×30米的场景 , 总量高达40亿个点 。 其中每个点包含3D坐标、RGB信息以及强度信息 。 RandLA-Net只用了三维坐标以及对应的颜色信息进行处理 。 从表中可以看出我们的方法达到了非常好的效果 , 相比于SPG, KPConv等方法都有较明显的提升 。

[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
表 2. 不同方法对Semantic3D (reduced-8)的定量结果对比
SemanticKITTI数据集由21个序列, 43552帧点云组成 。 每一帧的点云由~10^5个点组成 , 包含真实三维空间中160×160×20 米的场景 。 我们按照官方的train-validation-test进行分类 , 其中序列00~07以及09~10(19130帧)作为训练集 , 序列08(4071帧)作为验证集 , 序列11~21(20351帧)用于在线测试 。 需要注意的是 , 这个数据集中的点云仅包含各个点的三维坐标 , 而没有相应的颜色信息 。 实验结果如下表所示 , 可以看出:RandLA-Net相比于基于点的方法(表格上半部分)有着显著的提升 , 同时也优于大部分基于投影的方法 , 并且在模型参数方面相比于DarKNet53Seg等有着比较明显的优势 。
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
表 3. 不同方法对SemanticKITTI数据集的定量结果对比
S3DIS数据集由6个区域的271个房间组成 。 每个点云包含真实三维空间中20×15×5米的室内场景 。 6-fold的交叉验证实验结果也进一步证实了我们方法的有效性 。
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
表4. 不同方法对S3DIS数据集的定量结果对比
在Ablation study中 , 我们也进一步证实了各个子模块对整体性能的贡献 。 详细的分析见paper以及supplementary 。
[]200倍的提速!华人博士生提出大场景三维点云语义分割新框架
本文插图
表 5. Ablation study结果对比
最后总结一下 , 我们提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法 , 与当前的大多数基于FPS等计算代价高的采样策略的算法不同 , 本文尝试使用简单高效的随机采样来显著地减少计算量以及内存消耗 , 并且引入了局部特征聚合模块持续地增大每个点有效的感受野 , 以确保大多数有效的信息不会因为随机采样而丢失 。 在Semantic3D , S3DIS以及SemanticKITTI等多个数据集上的大量实验证明了我们的方法的有效性 。 下一步可以尝试将我们的工作延申到大场景三维点云实例分割以及实时动态点云处理 。
最后的话