『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感


鱼羊 乾明 发自 凹非寺
量子位 报道 | 公众号 QbitAI
一位程序员小哥 , 正在Facebook食堂愉快地准备喝咖啡 。
突然 , 就被水淹了 。
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
而另一位正好好坐着玩手机的同学 , 则猝不及防地遭遇了屋顶漏雪事件 。
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图

『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
不过几秒钟的时间 , 不仅头发上覆上了一层雪 , 脚面都被积雪埋住了 。
遭遇“灵异事件”的还有一只无辜的小猫咪 。
它本乖乖坐在小桌板上专心卖萌 , 房间却突然暗了下来 , 还有奇怪的小光球开始绕着它转圈圈!
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
当事猫表示:当时我心里害怕极了 。
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
看着受害猫惊(dan)慌(ding)的表情 , 兼此事件一时引得物议沸腾:
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
我们决定:走进科学 。
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
而当我们剥开事实的真相 , 发现 , 这一切事件的“始作俑者”竟是——
来自华盛顿大学和Facebook的最新单目深度估计算法 , 已中SIGGRAPH 2020 , 将于下周在GitHub上开源 。
单目视频深度估计
算法的核心思路 , 是结合单图像深度估计网络和传统的结构-运动重建法 , 使网络学会为指定视频生成几何一致的深度 。
该方法整体设计架构如下 。
『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
输入单目视频 , 对一对相机位置不同的帧进行采样 , 然后 , 用预先训练好的单图像深度估计模型估计深度 , 得到初始深度图 。
对这对图像 , 使用光流法前后向一致性检查建立对应关系 。
接着 , 利用这些对应关系和相机位置提取三维几何约束 。
将三维几何约束分解为两个损失:
空间损失
视差损失
通过标准反向传播 , 用这两个损失对深度估计网络的权重进行微调 , 以最小化多帧几何不一致性误差 。

『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
本文插图
如此 , 只需要对视频中任意帧进行配对采样 , 就可以将这一过程扩展到整个视频 , 对单目视频中的所有像素进行几何一致的深度重建 。
在研究人员的实验中 , 对于一个244帧的视频 , 用4个英伟达Tesla M40 GPU训练下来需要40分钟 。
超过此前SOTA , 各个数据集上表现稳定
在评估深度重构方法方面 , 已经有了很多数据集 。
但论文作者认为 , 这些数据集或多或少存在一些问题——要么是合成的 , 要么是针对自动驾驶等特定领域的 , 要么是针对单幅图像或静态场景的视频的 , 并不能完美地评估他们方法有效性 。
于是他们用手持摄像机做了一个自定义3D数据集 , 来进行评估 。 数据集由静态和物体运动量很小的动态场景组成 , 视频的分辨率为1920x1440像素 , 长度从119帧到359帧不等 。
对比的对象是此前最先进的深度估计模型:传统的多视角立体视觉系统COLMAP、单图像深度估计模型Mannequin Challenge和MiDaS-v2、基于视频的深度估计模型WSVD(两帧)和 NeuralRGBD(多帧) 。