Google|航拍平面图像直接渲染仿真3D场景,港中大团队的CityNeRF强于NeRF


Google|航拍平面图像直接渲染仿真3D场景,港中大团队的CityNeRF强于NeRF

当“神经辐射场”(NeRF)技术推出来以后 , 一时间惊艳全场 。 这种用多角度照片重建构筑3D场景对象的技术 , 性能卓越 , 让人着迷 。 颇有点硬核科幻重构模拟现实物理世界的感觉 。 从而成为一个研究热点 。
不过当时的NERF技术在室内场景下呈现的效果表现优秀 , 毕竟属于常规尺寸的小场景 , 不过如果拿来做航拍城市级别的大场景 , 特别是自由度跨度大、镜头外新对象不断加入这类的空间场景 , 它就显得捉襟见肘力不从心了 , 极容易在周边场景区域存在伪影 , 近景总是具有模糊的纹理和形状 。 而这个则是神经辐射场的“升级版”CityNeRF了 。

这就是来自香港中文大学多媒体实验室团队新的研究 , CityNeRF , 也就是采用多阶段渐进式学习范式的基于NERF的城市神经辐射场技术 。 机智客看到官网上一段英文原文的介绍 , 用在线翻译成中文意思就是 , 从使用浅基块拟合远视图开始 , 随着训练的进行 , 会添加新的块以适应越来越近的视图中出现的细节 。 该策略有效地激活了位置编码中的高频通道 , 并在训练过程中展现更复杂的细节 。
它通过引入两个特殊的设计 , 具有残差块结构的生长模型和包容的多级数据监督 , 根据相机距离将整个训练数据集划分为预定义数量的尺度 , 然后 , 从最远的尺度开始 , 每个训练阶段逐渐将训练集扩大一个更近的尺度 , 并同步增长模型 。
而要说训练模型的数据从何而来 , 答曰从Google Earth Studio中的12个城市图像而来 。 所以更多的是 , 源自Google Earth , 这也是让它重建的3D场景看起来像是Google Earth里场景的感觉 。
而针对场景位置细节的变化 , CityNERF技术有效地激活了位置编码中的高频通道 , 并随着训练的进行展开更复杂的细节 。 其实就是利用基本的神经网络多层感知机的权重 , 提前处理图像并锁定观点位置 。 它还能知道相机的方向和光线 , 从而了解深度和颜色 , 并找到每个像素的颜色和密度 。
【Google|航拍平面图像直接渲染仿真3D场景,港中大团队的CityNeRF强于NeRF】这项研究的论文发表时 , 还建立了相应的开源托管平台项目 , 只是目前代码还没有公开 , 官网上给出Coming的提示 。 看样子想看开源代码资料得等以后了 。