浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统

最近 , iPad和iPhone上的LiDAR有了新玩法 , AppleClips应用程序中更新了基于三维重建的AR空间特效 。 通过Clips3.1的AR空间功能 , 用户只需用带有LiDAR传感器的iPadPro或iPhonePro在房间中进行扫描和重建 , 就能为拍摄的视频中添加绚丽的AR效果 。
比如跟着AR投射出来的灯光跳舞;
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|AppleClips中基于LiDAR传感器的AR特效(来源:苹果)
再比如用StarWalk2的AR功能 , 足不出户在房间屋顶上观看星座 。
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|StarWalk2的AR观星功能(来源:苹果)
不过要实现上述视频中的效果 , 需要iPad和iPhone高端型号上配备的LiDAR深度传感器 , 而使用浙江大学-商汤三维视觉联合实验室所提出的方法 , 希望能让普通手机的单目摄像头也可实现上述效果 。
实验室成员周晓巍接受了我们的采访 。 他是国内计算机视觉领域青年学者、也是浙江大学计算机辅助设计与图形学国家重点实验室的“百人计划”研究员和博士生导师 。 几年前 , 在结束美国宾夕法尼亚大学GRASP机器人实验室的博士后研究后 , 回到母校任教 。 他告诉DeepTech:“目前我们跟商汤、华为都有非常紧密的合作 , 通过这种产学研的结合 , 我们的研究成果既有对学术前沿的探索 , 又能根据实际需求去攻克一些技术瓶颈 。 与此同时 , 国内的3D视觉领域还处于新兴发展阶段 , 也需要我们回来一起把这个方向给发展壮大起来 , 不断缩短与国际领先水平之间的差距 。 ”
浙大团队研发NeuralRecon,首个基于学习的实时单目三维重建系统
文章图片
图|相关论文(来源:受访者)
周晓巍所在的团队提出了一种基于单目视频的三维场景重建框架NeuralRecon 。 在实时(25FPS)的速度下 , 使用该方法可高质量地重建三维场景 。 对比结果显示 , 在ScanNet、7-Scenes等数据集上 , NeuralRecon的速度和精度均大幅领先以往方法 。 该工作将发表于今年的计算机视觉顶级会议CVPR , 并录用为口头报告 。
据其表示 , NeuralRecon提出了用神经网络、直接回归基于TSDF表示的局部三维表面 , 并能使用基于GRU的TSDF融合模块 , 来融合历史局部表面的特征 。 这样设计的好处是 , 网络不仅能直接学习到三维表面的局部光滑性先验并借此实现准确且一致的重建 , 还可以减少以往方法中重复冗余的计算量 , 在保持质量的前提下实现实时的重建 。 据该团队所知 , 这是首个基于深度学习方法、并能实时重建稠密且一致三维表面的系统 。
问题和挑战:基于图像的实时场景的三维重建依然任重道远
一直以来 , 稠密场景重建都是三维视觉的核心问题 , 在增强现实(AR)等应用中 , 扮演着重要角色 。 在AR应用中 , 要想实现真实、沉浸式的虚实融合体验 , 就需要正确处理真实场景和虚拟的AR物体之间的遮挡关系 , 并对阴影等效果做出正确的渲染 , 如此才能实现合理的虚拟内容放置、以及它和与真实场景的交互 。 概括来说 , 要想实现这些效果 , 都得对场景进行实时且精确的三维重建 。
三维重建需要依赖精确的六自由度相机位姿估计 。 最近几年 , 视觉惯性SLAM逐渐成熟 , 且已得到大范围的落地应用 。 ARKit和ARCore等AR框架的出现 , 让多数智能手机都能准确跟踪其自身六自由度的姿态 。
然而 , 基于图像的实时场景的三维重建依然任重道远 。 目前常用的三维重建方案如KinectFusion、BundleFusion等 , 非常依赖深度传感器提供的深度测量 。 但是 , 由于深度传感器价格昂贵、功耗也比较高 , 因此其普及程度依然较低 , 通常只有少数高端型号的移动设备才舍得配备 。 因此 , 使用单目多视角图像去实现实时三维重建 , 具有非常大的应用前景 。 在不增加传感器的前提下 , 它可直接用在现有智能设备中 。
而在基于多视角图像的三维重建方法中 , 基于深度图融合的方法非常流行 。 可是 , 这种方法存在两个问题:
第一 , 其中有大量重复计算 , 从相邻帧之间 , 可以看到相邻区域中有大面积的重合 , 同一区域的深度则会被计算多次 , 这会带来计算量上的冗余;第二 , 即便相邻两帧能看到的区域有较大重合 , 每一帧深度图的计算却都得重新开始 , 而非基于之前相邻帧的深度预测结果 。
如下图所示 , 这会导致计算出来的相邻两帧的深度图不一致 , 重建的结果也因此常会非常分散 , 甚至会产生分层 。