特斯拉公开为什么干掉雷达!AI主管亲自演讲解读( 二 )


特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲特斯拉希望仅使用视觉传感器完成自动驾驶
Andrej说道:“特斯拉已经把其他传感器(激光雷达)‘扫进了尘埃’中 。 ”
与此同时 , 特斯拉没有停止前进的脚步 。 今年5月开始 , 特斯拉开始生产移除毫米波雷达的Model3和ModelY车型 , 让车辆的自动驾驶感知彻底转向纯视觉 。
Andrej给出的理由是:你已经不再需要毫米波雷达了 。
他还引用了马斯克此前的一条推文 , 推文中说 , 如果毫米波雷达和视觉感知的结果不一致 , 你更倾向于相信谁?
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲马斯克推特
Andrej表示 , 从人们的主观感受上 , 多传感器会更加精准 。 不过 , 毫米波雷达感知数据中的噪音实际上拖累了整个自动驾驶系统的判断 。
特斯拉早已认识到了这一点 , 因此取消毫米波雷达只是时间问题 。
二、20人特斯拉甚至打造了世界第五超算
谈到纯视觉感知 , 人们最大的疑问就是摄像头感知的2D画面 , 神经网络预测的深度、速度、加速度是否准确呢?
Andrej认为 , 当人类驾驶时 , 人眼所看到的画面也是2D的 , 但是人脑的神经网络能够计算出距离 。 因此 , 如果机器的神经网络模拟人脑 , 也就能够计算出深度、速度、加速度 。
并且 , 经过几个月的研发 , 特斯拉已经能够证明这条路线是可行的 。
例如 , 在拥堵路段 , 前方车辆走走停停 , 距离、速度、加速度都会实时变化 , 如果能够始终追踪正前方的车辆 , 判断将会非常精准 。 但是毫米波雷达并非如此 , 毫米波雷达的感知具有比较大的随机性 , 可能感知到其他物体 , 并产生一个错误数据 。
最终 , 毫米波雷达不确定的感知数据会让传感器融合变得非常困难 。
决定采用纯视觉感知的特斯拉有三个需求 , 第一是大量的视频数据 , 百万段规模的视频;第二是干净的数据 , 包括对物体标签化 , 并且拥有深度、速度、加速度信息;第三是多样化的数据 , 大量的边缘案例 。
此后 , 特斯拉需要在此基础上训练一个足够大的神经网络 。
在数据标签化阶段 , 特斯拉采用数据自动标记数据的方法 , 当车辆感知周围环境后 , 用自动驾驶电脑本地处理数据 。 上传至服务器之后 , 如有不精准之处 , 也能用人工的方式清理、验证数据 。
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲特斯拉自动数据标签化
同时 , 在实际使用中 , 特斯拉的自动标签化的方法还能够应对沙尘、雨、雾、雪等极端天气 。
Andrej介绍 , 在过去四个月时间里 , 特斯拉的研发人员总结出了221个收集数据的触发条件 , Andrej在演讲中展示了其中一部分 , 其中包括视觉、雷达传感器不匹配 , 视频出现抖动 , 监测到画面闪烁等等 。
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲特斯拉总结的221项数据收集触发条件(部分)
同样在过去四个月时间里 , 特斯拉完成了广泛的数据收集 , 最终在特斯拉数据引擎中完成了七种影子模式和七个循环的验证 。
Andrej说道:“最开始 , 我们用视频数据集训练神经网络 , 训练之后分发到特斯拉汽车的影子模式中 。 在车辆端 , 需要不断验证神经网络的准确性 。 如果在行驶中出现了221个触发条件中的一个 , 系统就会自动收集视频片段 , 自动标签化物体之后合并至一个训练集中 。 我们一遍又一遍重复这个循环 , 让神经网络变得越来越好 。 ”
特斯拉公开为什么干掉雷达!AI主管亲自演讲解读
文章图片
▲特斯拉数据引擎
在完成七轮影子模式的循环验证之后 , 特斯拉一共处理了100万条10秒短视频 , 这些视频全部来自特斯拉车身拍摄的画面 。 同时 , 特斯拉为60亿个物体做了标签化处理 , 同时包含精准的深度和速度信息 。 这些数据一共有1.5PB , 可以说非常庞大了 。
Andrej说道:“处理这些数据的核心团队只有20人 。 ”
通过一个框图能够解释为什么20人的团队能够处理如此多的数据 。
Andrej说道:“在框图上部 , 摄像头感知的画面输入 , 图像解压后就会进行数据融合处理 。 首先会在摄像头上融合信息 , 然后在所有时间上融合信息 。 利用Transformer架构、循环神经网络 , 或者直接用3D卷积 , 都能够取得很好的效果 。 在融合完成之后 , 又会形成分支 , 分离成为主干 , 再次分离形成终端 。 ”