大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?( 二 )


那一只眼睛也是可以看出立体感的啊 , 没错 , 因为我们在看东西时不是像照相机一样拍下物体的瞬间 , 而是可以看到一个连续的画面 , 所以即使一只眼睛也可以看出远近的距离感 , 只不过两只眼睛看到的更加立体 。
所以 , 要想模仿人眼所看到的立体感 , 就要用到一个工具——双目相机 。 没错 , 它可以模仿人双眼的深度成像 , 依靠拍摄的两张图片(彩色RGB或者灰度图)就可以计算深度 。
大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?
本文插图
图1 双目相机成像与视差原理
如图1左所示 , 两个相机拍摄同一场景生成的图像会存在差异 , 这种差异叫视差 , 其产于与真实的三维空间 。 视差不能通过平移消除 , 同时离相机近的物体视差偏移较大 , 反之越小 。
人的左右眼就如同图中的左右相机一样 , 分别获取对应图像后 , 通过大脑合成处理这种差异 , 从而获取真实世界的 3D 感知 , 通过图 1 右可得出视差与相机焦距和轴间距间的关系:
大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?
本文插图
公式(1)
其中z为物体距离相机的深度 , x为三维映射到二维的图像平面 , f为相机焦距 , b为两个相机间的距离轴间距 , xl和xr分别为物体在左右不同相机中成像的坐标 , 因此可知左右图对应像素和的视差 。
大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?
本文插图
同时 , 考虑到转制的对象为2D介质 , 因此 , 通过单目深度估计合成新视点的算法原型诞生:通过公式(1)可知 , 假设有一个函数那么就有:
大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?
本文插图
公式(2)
通过公式(2)可知 , 只需要将 图1左 作为训练输入 , 图1右 作为参考 , 即可建立深度学习模型 , 通过大量双目图片对训练估计出函数?? 。 这样就可在已知相机参数(??,??)的前提下获取对应的深度值?? , 完成单目深度估计的任务 。
通过公式(1)与公式(2)可以发现 , 深度与视差成反比 , 因此深度估计和视差估计的方法可以互用 。 Deep3D[1]虽然通过视差概率估计实现2D到3D介质的转换 , 但固定视差的设定 , 难以适应不同分辨率2D介质输入;
方法[2]没有充分利用双目信息作指导 , 景深不够细;monodepth[3]在方法[2]的基础上 , 充分利用了双目信息进行对抗指导 , 学习到更多深度细节;
SfmLearner[4]这类方法引入帧间时序信息 , 结构较复杂 , 运行速度慢 。 因此通过实现及适用性考虑最终我们选择以monodepth为baseline , 其框架结构如图2所示:
大数据文摘爱奇艺“能动的海报”刷爆全网!我们距离裸眼3D还有多远?
本文插图
monodepth框架图
通过以上方法对大量3D电影真实视差的学习与建模 , 完成从单目视图到双目视图的转换 。 这样做的好处 , 一是节约了技术成本 , 二是适用多种场景的真实3D视差关系 , 用户基本不会感到不适 。
毕竟每一部3D电影的后期制作 , 动辄几千万的资金成本 , 需要上百人的团队长达几个月时间才能完成 。 而利用AI模型 , 能够快速、批量、全自动的把2D转制成3D内容 , 能极大的减少3D内容制作成本 , 同时以很快的速度丰富3D内容生态 。
既省钱 , 又不晕 , 可以说是非常有前景的一套方案了 。
类似的技术在国际上也有 , 前阵子Meng-Li Shih团队在CVPR2020上发表了一篇论文 , 通过上下文感知三维图像分层深度修复技术 , 可以把2D照片变为3D 。
该团队称 , 他们提出了一种方法 , 将单个RGB-D输入图像转换为3D照片 , 即这是一种新颖视图合成的多层表示 , 包含了原始视图中被遮挡区域的幻觉颜色和深度结构 。 他们使用具有显式像素连接的分层深度图像作为底层表示 , 并提出了一个基于学习的inpainting模型 , 该模型以空间上下文感知的方式迭代地将新的局部颜色和深度内容合成到闭塞区域 。 生成的3D照片可以有效地使用标准图形引擎的运动视差进行呈现 。