从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛( 二 )


还有交通监控 , 现在24小时交通监控的背后是算法在不断地在跑 , 一旦有人违章 , 路口的屏幕就会显示某车牌号 , 出现了超速或者其他违规情况 。 这些技术代替了大量的生产力 , 帮我们创造了更多新的价值 。
那么 , 这与视觉技术有何关系呢?
过去的十年 , 机器视觉主要基于2D图像 。 它只有平面 , 但世界是三维的 , 这就意味着我们需要用低维度的画面描述更高维度的信息 , 所以现在是用大量的数据解决更小的问题 。
比如 , 桌上有一个杯子 , 如果要用2D图像去描述它 , 我们需要在不同的距离 , 不同的角度 , 拍很多图片 , 才能组合在一起 , 再通过一系列算法进行重建 。
在学术圈用的比较多的数据库是ImageNet , 里面有1000多万张图片 , 但只有一万多个 , 接近两万个类别 。 我们训练一个基础识别算法 , 需要上千张的图片 , 这仅仅是满足学术的要求 。
对于实际应用的产品 , 比如大量使用的监控、人脸识别等 , 我们需要几百万、几千万 , 甚至上亿张图片才能建立起一个真正好用的模型 。 这意味着 , 想要用AI和视觉做好结合 , 我们需要大量的数据 。 而数据的采集 , 数据的标注都是非常大的成本 。
但3D图像可以非常简单的通过几张图就能描绘清楚一个物体 , 通过三个视角就能非常清楚的去表征一个物体的空间信息 , 我们就可以用一个非常小的数据来解决更大的问题 。
与20年前相比 , 当下的3D相机成本从过去的几万、几十万 , 下降到了几十块钱 , 为什么?主要得益于三方面的技术突破 。
第一是激光技术 。
过去的3D相机主要是基于双目或多目 , 比如几个摄像头同时去拍摄 , 有一个立体的视角把3D的环境重建出来 。
现在 , 更好、更稳定的3D技术用的是激光 , 我们可以发射一个有图案分布的激光 , 然后再拍摄 , 通过立体分布 , 或者通过光脉冲来回的时间 , 可以得到我们想要的空间立体的信息 。
但在20年前 , 激光器非常贵 , 整个光学系统也非常贵 。 好的镜头是一个非常大 , 非常重 , 并且非常昂贵的东西 , 激光器也是 。 2017年iPhoneX量产了第一代的3D结构光摄像头 , 在这一年中 , 仅仅这一个场景 , 人类制造了超过400亿个激光器 。
400亿是什么概念?它超过了过去人类历史上所有的年份生产的激光器的总和 。 而在这400亿个激光器里面 , 每个激光器的价格才不到一美分 。
第二个技术突破是光学和集成电路、半导体技术的结合 。
通过半导体制程的优化 , 从几微米到现在7纳米、5纳米 , 把大量的电路晶体管集成在了一个非常小的芯片上 。 而这个工艺的演进也同时帮助了光学发展 , 我们可以把很多的光学功能 , 诸如透镜等衍射、光栅的功能集成在一个很小的器件上 。
过去的3D相机是一个设备 , 现在的3D相机就是一个非常小的模组 , 可以嵌入到手机里 。 基于这两种技术的快速迭代发展 , 才能把相机变得非常小 , 放到我们的口袋里 , 而且变得非常便宜 。
第三个就是AI技术的发展 。 我们有了3D相机 , 就需要有一个计算的能力去理解我们看到的场景 。 AI过去十年的发展做了非常好的铺垫 。
当我们口袋里有一个3D相机以后 , 我们可以做很多有意思的事情 。 大家用的iPhone或华为手机 , 前面都有3D相机 , 它的核心的作用是理解用户 , 帮助设备感知用户是谁 。
从黑白,到彩色,再到3D,视觉技术一直在追赶人类的眼睛
本文插图
比如FaceID的解锁、支付 , 使用3D技术可以更安全、更高精度的去识别这个用户是谁 。
更进一步 , 可以去观察人的微表情——你的眉毛是不是往上耸了 , 你的嘴角是不是往上翘了 , 那是说明你高兴了;你的嘴角往下了 , 说明你不高兴了 。 这些细节 , 可以与Animoji等应用结合起来与人做交互 , 这是前置摄像头 。