浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统( 二 )


浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|基于深度图融合方法的重建效果
NeuralRecon:新型三维场景重建框架
为解决上述痛点 , 该团队提出这一新型三维场景重建框架NeuralRecon , 下图展示了它的算法流程 。 这是一个轻量级的实时端到端系统 , 可直接从已知相机位姿的多视角图像中 , 重建基于稀疏TSDF表示的三维场景几何信息 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|NeuralRecon的整体架构图
NeuralRecon主要有如下两个步骤 , 第一步是关键帧的选择 。
关键帧选择的目的 , 是为了在提供足够运动视差的同时 , 还能保持多视角的共视关系 , 因此所选关键帧之间的距离 , 不能太近也不能太远 。 具体来说 , 假如一个新传入的帧和上一个关键帧的相对平移大于t[max] , 并且相对旋转角度大于R[max] , 那么就可选择该帧作为关键帧 。 而具备N个关键帧的窗口 , 可被定义为一个片段 。
第二步是联合片段重建和融合 , 其中涉及三个分步骤 。
第一个分步骤是图片特征提取和反投影 , 这里指的是某个视频片段中的N张图片 , 最初会通过一个CNN网络来提取多个分辨率下的图像深度特征 。 而图片特征会反投影到三维空间中 , 得到三维特征体 。
第二个分步骤是从粗到细的三维场景重建 。 采取从粗到细的方式 , 分阶段地预测并细化场景的几何信息 。 在每个阶段中 , 稀疏三维卷积神经网络会被用来处理三维特征体 , 最终通过一个多层感知机(MLP) , 获悉占有分数(Occupancyscore)和TSDF值 。
其中 , 占有分数代表着三维特征体中体素在TSDF截断距离之内的概率 。 在每个阶段的最后 , 占有分数小于阈值的体素 , 都会被定为空、并会被除掉 。 而在稀疏化之后 , 稀疏三维特征体会被上采样 。 下图是稀疏TSDF表示的可视化 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|稀疏TSDF表示示意图
第三个分步骤是基于GRU的融合 , 这一步的目的 , 在于让片段的重建之间得以保持一致 , 希望当前片段的重建可建立在历史片段重建结果的基础上 。
具体来说 , 该方法提出了一个基于GRU的联合重建与融合模块 。 如下图 , 在每个阶段 , 三维特征体都会首先通过一个三维稀疏卷积 , 并进行三维几何特征提取 。 然后 , 三维几何特征会被输入进GRU联合重建与融合模块 。 该模块会将三维几何特征与在历史片段重建中获得的隐变量进行融合 , 并通过一个全局感知机回归TSDF和占有分数 。
直观地说 , 这里的GRU作为一种基于学习的选择性注意机制 , 可取代传统TSDF融合中的线性操作 。 在后续的步骤中 , 因为GRU进行了联合重建与融合的操作 , 所以会直接将回归的TSDF替换对应区域的全局TSDF , 最终的重建结果可以从更新后的全局TSDF中通过MarchingCubes算法获得 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|基于GRU的联合重建与融合
两大优势:重建结果具有一致性、重建过程用时更短
根据实验结果 , 作者们做出了可视效果的对比图 。
对比可知 , 相比较传统的基于深度图的方法 , NeuralRecon主要有两方面优势:
其一 , 重建结果具有一致性;其二 , 重建过程用时更短 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|NeuralRecon重建结果(Ours)与其他方法的可视化对比
作者们在ScanNet数据集上 , 将本次方法和当前最好的方法做定量对比 。 对比发现 , 本次方法在F-score上和速度上 , 都能超过此前方法 , 并能做到实时且精确的估计 。
与此前最快的方法MVDepthNet比较 , 本次方法不仅速度略有领先 , F-score也从0.329提到了0.562 。 相比此前精度最高的方法COLMAP , 本次方法在精度稍胜一筹的情况下 , 处理每个关键帧所需时间也从2076ms降至30ms 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|在ScanNet数据集上的定量评测结果
结语:NeuralRecon为基于深度学习的三维感知系统打开新的可能性
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统】概括来说 , NeuralRecon的核心思想 , 在于对每个视频片段的可视区域进行增量式的联合重建和联合融合 。 这个设计让NeuralRecon能实时输出精确、且具有一致性的三维表面 。