「量子位」地平线大牛讲堂，一文看懂地平线如何再造摩尔定律|( 二 ) 3月25日

因此为了更严格的测试真实效能，选用了目前如前所述的视觉领域最高效的MobileNetV2结构（EfficientNet并不改变计算方式，其中的SE结构也被EfficientNetTPU证明并不是关键因素）。实测表明，工艺领先两代的两款竞品，在MobileNetV2的帧率上显著落后于地平线征程二代芯片。

文章图片
△在当前视觉领域最高效的MobileNetV2结构上，地平线与征程二代与两款竞品的测试结果
除此之外，想要实现极致能效还需要考虑到其他因素。
对于芯片来说，功耗最大的地方并不在于计算，还在于数据的搬运，如何能够减少DDR(DoubleDataRateSDRAM ，双倍速率同步动态随机存储器)的吞吐，其实是降低功耗的一个关键的地方。这方面地平线也做了针对性的优化，在帧率超过竞品芯片的情况下只有竞品1/4DDR吞吐率。从而，一方面用户可以使用更低成本的DDR ，另一方面则是我们不可能假设用户加速模型的时候是DDR独占，一定需要和ISP、Codec以及各种应用一起使用带宽，征程二代的低DDR吞吐率使得用户可以充分使用算力而不受限于DDR带宽。
BPU软硬结合打造极致效能
回到设计征程二代BPU的2017年，我们观察到学术界的两个信号， Xeception和MobileNet分别使用了DepthwiseConvolution在ImageNet高精度和中低精度都取得了很好的效率。

文章图片
△2017年，学术界的特殊信号——DepthwiseConvolution
我们迅速在地平线关心的视觉任务、自由数据上做了验证。证明了DepthwiseConvolution带来的效率提升。
进而我们做了初步的优化， 8bit量化了DepthwiseConvolution模型，量化模型精度>浮点模型精度*0.99（半年后Google量化论文发表，但精度并不理想）；尝试了使用1x1扩大DepthwiseConvolution的kernel数目同时减少1x1convolution引入的计算量（与一年后发表的MobileNetv2相似）；尝试了不同kernelsize ，发现扩大kernelsize到7可以提升精度在只付出很小的计算代价下（与两年后的Mixconv论文一致）。
在完成初步验证和优化之后，我们做了BPU的FPGA版本，演化成为后来的Matrix（曾获2019年CES创新奖，这也是车辆智能和自动驾驶技术分类奖项下唯一获此殊荣的中国产品），实车测试了我们的所有方案。

文章图片
△软硬结合，挑战极致性能
以上的验证、优化、实际应用场景打磨，为我们的架构设计提供了参考，使得我们从一开始就面向未来的算法趋势进行优化，在今天也得到了证明。

文章图片
△地平线BPU研发路线图
【「量子位」地平线大牛讲堂，一文看懂地平线如何再造摩尔定律|】可以说，地平线的最大特点，就是对关键算法的发展趋势进行预判、在最重要的场景中垂直打穿，前瞻性地将其计算特点融入到架构设计当中，使得AI处理器经过两年的研发，在推出的时候，仍然能够很好地适应最新的主流算法，同时保证满足最关键应用的需求。因此，和其他典型的AI处理器相比，地平线的AI处理器，随着算法的演进趋势，始终能够保持相当高的有效利用率，从而真正意义上受益于算法创新带来的优势。
技术先发优势推动商业化进程，领先的商业落地探索又反哺技术进步。在AI芯片这条硬科技创新道路上，地平线将继续坚持深耕“算法+芯片+工具链”基础技术平台。预计今年内，地平线将会推出新一代车规级AI芯片，以人工智能赋能万物，让每个人的生活更安全、更美好！