特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

车东西(公众号:chedongxi)
作者|James
编辑|晓寒
特斯拉纯视觉自动驾驶的秘密 , 被自家高管全曝光了!
不久之前 , 特斯拉取消了Model3和ModelY车型的毫米波雷达 , 在全球第一个实现了纯视觉的L2级自动驾驶系统 , 引起了自动驾驶行业以及相关机构的密切关注 。
马斯克虽然简单解释过走纯视觉路线的原因——避免多传感器感知结果不一致的问题 , 但外界对这答案并不满意 , 依然有不少观点在质疑特斯拉的做法 。
而特斯拉的AI高级总监AndrejKarpathy刚好在日前发表了一篇干货十足的演讲 , 从技术的角度详细介绍了特斯拉走纯视觉路线的原因 , 以及背后的核心做法 。
Andrej的演讲时长为40分钟 , 但是他本人语速惊人 , 甚至可以说内容量至少是是40分钟演讲的1.5倍 , 并且给出了大量技术细节与实际案例 , 非常具有说服力 。
他在演讲中讲到 , 从特斯拉开发自动驾驶之初 , 就没有考虑为车辆加入激光雷达和高精地图 , 因为这会导致建图、维护成本大幅上升 。 而随着AI能力不断提升 , 特斯拉直接取消了毫米波雷达 。
纯视觉感知最大的问题就是无法测量距离、速度和加速度 。 不过纯视觉感知和人眼类似 , 人脑能“脑补”出距离并拥有优秀的驾驶技术 , 神经网络同样有这样的能力 。
在过去4个月时间里 , 特斯拉人工智团队的核心20名成员搞定了这件事 。
特斯拉收集了221种共100万段10秒钟的短视频 , 利用对物体自动标签化 , 经过7轮影子模式循环 , 最终在纯视觉感知中取得了不错的效果 , 超越了毫米波雷达+摄像头的传感器融合方案 。
特斯拉甚至为此建立了一台全球排名第五的超级计算机 , 采用5760个英伟达A100TensorCoreGPU , 10PB容量的NVME存储 。
以下为AndrejKarpathy演讲核心内容的编译 。
▲特斯拉AI高级总监在CVPR2021上的演讲
一、毫米波雷达表现不稳特斯拉更相信视觉传感器
演讲开始时 , Andrej首先谈到了自动驾驶的必要性 , 并且总结了自动驾驶的三大优势 。
人类驾驶一辆车 , 反应时间通常需要250毫秒;观察周围交通环境通过旋转头部看后视镜判断;同时人的精力有限 , 难免出现注意力不集中的现象 。
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲人类驾驶VS机器驾驶
当机器在驾驶时 , 反应时间通常小于100毫秒 , 拥有360度的感知能力 , 同时机器永远不会累 。
Andrej说道:“全球每天有近3700人在车祸中丧生 , 自动驾驶技术能够显著减少车祸发生的概率 。 同时 , 由人类驾驶的出行成本太高 , 如果机器驾驶出行成本也将明显降低 。 ”
因此 , 自动驾驶技术十分必要 。
从十多年前开始 , 谷歌等科技公司开启了自动驾驶技术的研发 。 从当年的视频中可以看到 , 谷歌的表现并不出色 , 在一个左转路口处方向飘忽不定 。
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲谷歌无人车多年前的自动驾驶表现
经过长时间的研发 , 自动驾驶技术应对各种场景的表现都能做到非常出色 。 同时 , 行业内也发展出了两条截然不同的感知技术路线 。
其中一条是纯视觉感知 , 另一条是激光雷达、高精地图、视觉传感器的融合感知 。
Andrej说道:“很多自动驾驶车辆在车顶装上昂贵的激光雷达 , 就能够感知360度的环境 , 并测量距离 。 不过 , 如果要使用激光雷达 , 还需要高精地图的匹配 。 根据高精地图存储的车道线、红绿灯等信息 , 就能够实现自动驾驶 。 ”
不过 , 特斯拉所走的路线完全不同 。 特斯拉希望基于环绕车身的8个摄像头实现自动驾驶 。 当车辆行驶在道路上时 , 需要自动驾驶电脑判断哪里是车道线、哪里是红绿灯 。
也就是说 , 激光雷达+高精地图的技术路线本质上是匹配的过程 , 而纯视觉技术路线则是寻找的过程 。
同时 , Andrej指出 , 纯视觉方案显然是一个更具拓展性的技术路线 。 当前 , 特斯拉在全球范围内已经交付了百万辆汽车 , 因此打造一套全球范围的高精地图并不现实 , 因此特斯拉选择了纯视觉的技术路线 。
他说道:“想要实现纯视觉感知实际非常困难 , 需要基于视频打造非常优秀的神经网络 。 不过 , 一旦纯视觉系统真正投入使用 , 将是一套通用的系统 , 并且理论上全球任何区域都能使用 。 ”
几年前特斯拉开始研发Autopilot时 , 就已经确定不使用高精地图和激光雷达 , 全车的传感器有8枚摄像头和1个毫米波雷达 。 从几年的成果来看 , 无论是实际效果还是功能丰富程度 , 特斯拉在量产自动驾驶行列中一直处于头部 。