『量子位』中国女博士的“水淹食堂”大法:单目视频重建3D场景,毫无违和感
鱼羊 乾明 发自 凹非寺
量子位 报道 | 公众号 QbitAI
一位程序员小哥 , 正在Facebook食堂愉快地准备喝咖啡 。
突然 , 就被水淹了 。
本文插图
而另一位正好好坐着玩手机的同学 , 则猝不及防地遭遇了屋顶漏雪事件 。
本文插图
本文插图
不过几秒钟的时间 , 不仅头发上覆上了一层雪 , 脚面都被积雪埋住了 。
遭遇“灵异事件”的还有一只无辜的小猫咪 。
它本乖乖坐在小桌板上专心卖萌 , 房间却突然暗了下来 , 还有奇怪的小光球开始绕着它转圈圈!
本文插图
当事猫表示:当时我心里害怕极了 。
本文插图
看着受害猫惊(dan)慌(ding)的表情 , 兼此事件一时引得物议沸腾:
本文插图
我们决定:走进科学 。
本文插图
而当我们剥开事实的真相 , 发现 , 这一切事件的“始作俑者”竟是——
来自华盛顿大学和Facebook的最新单目深度估计算法 , 已中SIGGRAPH 2020 , 将于下周在GitHub上开源 。
单目视频深度估计
算法的核心思路 , 是结合单图像深度估计网络和传统的结构-运动重建法 , 使网络学会为指定视频生成几何一致的深度 。
该方法整体设计架构如下 。
本文插图
输入单目视频 , 对一对相机位置不同的帧进行采样 , 然后 , 用预先训练好的单图像深度估计模型估计深度 , 得到初始深度图 。
对这对图像 , 使用光流法前后向一致性检查建立对应关系 。
接着 , 利用这些对应关系和相机位置提取三维几何约束 。
将三维几何约束分解为两个损失:
空间损失
视差损失
通过标准反向传播 , 用这两个损失对深度估计网络的权重进行微调 , 以最小化多帧几何不一致性误差 。
本文插图
如此 , 只需要对视频中任意帧进行配对采样 , 就可以将这一过程扩展到整个视频 , 对单目视频中的所有像素进行几何一致的深度重建 。
在研究人员的实验中 , 对于一个244帧的视频 , 用4个英伟达Tesla M40 GPU训练下来需要40分钟 。
超过此前SOTA , 各个数据集上表现稳定
在评估深度重构方法方面 , 已经有了很多数据集 。
但论文作者认为 , 这些数据集或多或少存在一些问题——要么是合成的 , 要么是针对自动驾驶等特定领域的 , 要么是针对单幅图像或静态场景的视频的 , 并不能完美地评估他们方法有效性 。
于是他们用手持摄像机做了一个自定义3D数据集 , 来进行评估 。 数据集由静态和物体运动量很小的动态场景组成 , 视频的分辨率为1920x1440像素 , 长度从119帧到359帧不等 。
对比的对象是此前最先进的深度估计模型:传统的多视角立体视觉系统COLMAP、单图像深度估计模型Mannequin Challenge和MiDaS-v2、基于视频的深度估计模型WSVD(两帧)和 NeuralRGBD(多帧) 。
- 海峡生活汇印度对中国虎视眈眈,我国将如何迎接挑战,英国仍想着事后清算
- 董明珠说中国制造不能没有格力,事实真的是如此么?
- 中国财富网你买对了吗?“一杯咖啡”引发的索赔,董责险
- 环球时报热点 离中方的最终决定还有10天,澳大利亚担忧“中国关税报复”
- 中国青年网美众议院调查特朗普防疫应对措施
- 『中国』相约云上!省发改委牵头召开云上2020年中国品牌日活动福建分会场新闻通气会
- 【核武器】中国四艘轻型航母现身,增加核武器数量呼声高涨,你细品
- 中国质量报山西记者站精准助力台骀山景区复工复产,迎泽市场监管多措并举
- 缓缓静水流深不语中科大、北大、南京大学进入前三,2020中国一流大学排行榜出炉
- #中越关系#中越战争结束后,中国解放军有一人没有回国,原因到底是什么?