青亭网|谷歌新研究：用2D网图就能合成3D地图模型近年来

近年来，虚实结合的地图概念逐渐兴起，不管是AR地图还是VR地图，甚至Metaverse、Cyberverse ，仿佛都预示着未来1:1还原现实的虚拟世界终将来到。
但这些大规模的虚拟世界/地图，需要依靠大量数据支撑。目前，覆盖面最广的VR地图之一非谷歌街景莫属，其通过出借全景相机等众包方式，收集了来自世界各地的360°地图影像。

文章图片
而对于现在的AR地图领域，此前被Facebook收购的AR云公司Scape曾花费大约一年时间去收集环境数据，通过移动设备摄像头和计算机视觉算法来识别地理位置。但这还远远不够，而Niantic在收购3D地图厂商6D.ai后，在前不久才通过《Ingress》和《精灵宝可梦Go》LBSAR游戏，获取几十万个基于真实地理位置的3D数据。

文章图片
总之，大规模的Metaverse或AR虚拟世界还未成型，很期待看到下一个推出街景地图规模的AR地图会是哪家公司。当然，或许未来的AR地图市场还将由谷歌主导，因为从谷歌最新的研究成果来看，他们似乎已经掌握快速从众包数据生成3D相片的方案，并计划将它应用于AR/VR中。

文章图片
据青亭网了解，通常根据真实场景重建精准逼真的3D地图模型并不容易，谷歌科研人员为了简化这一流程，训练了一个基于NeRF（神经辐射场）的学习算法，可通过同一场景的几张网络照片合成多个视角，实现3D效果。
简单来讲， NeRF的原理是通过分析光线终止的位置，来从2D图像提取3D深度数据。这种技术可为真实场景重建出外观和纹理足够可信的3D模型。

文章图片
谷歌科研人员表示：通常， NeRF算法适用于处理可控环境中捕捉的静态图像，但并不适应光线、遮挡等不可控的因素。这是因为， NeRF将环境的几何、材质和光线视为不变，而整个环境的密度和光亮则为恒定。对于NeRF来讲，在同一地点拍摄的两张照片需要具备接近的像素密度，这对数据的要求更高，毕竟即使是同一时间拍地点拍摄的两张照片也可能出现曝光、校色、色阶等方面的差异（由于摄像头参数和后期处理的不同）。
由于这种技术局限， NeRF难以直接用于生成大规模3D户外场景，因为这将需要处理数小时、数日甚至数年时间拍摄的图片，其中包含的行人、汽车等变量更难控制。
而本篇中描述的学习算法（NeRF-W）是对NeRF的一个延伸，可解决上述问题，并从网络图片生成准确度高的多视角3D场景图。谷歌的NeRF-W系统与NeRF相比有多方面提升，特点是视觉效果逼真、空间场景连贯，而且只使用普通网络图片即可。

文章图片
原理方面， NeRF-W先是处理网络图片并生成多个角度，接着进一步分析并识别场景结构，然后分离出图像曝光、场景光线、后期、天气状况、每一帧差异（同样场景帧画面变化）等图像和环境差异信息（光线、阴影变化），并后期处理处低维度潜在空间。
根据GLO（GenerativeLatentOptimization）框架，为每张照片优化外观嵌入元素并在不影响3D结构的情况下加入插值。最后， NeRF-W通过识别图像和环境在不同照片中的相似之处，为结构几何和纹理等静态元素生成能具有3D体积感的过渡，并将过渡元素与分解的场景融合。