燧原科技张亚林：解构数据中心AI系统“全垒打”和“全维度”｜GTIC2020( 二 ) 芯东西（ID：aichip001）编辑|信仪GTIC

在计算卡部分， NVIDIA Tesla系列一直是NVIDIA计算卡的主打，其中包括了有名的Tesla V100、A100和Tesla T4 。同时AMD积极布局其Instinct MI系列，并在不久前推出了MI100 。计算卡的部分衍生出来就是数据中心的业务。
在图形卡部分， NVIDIA有其NVIDIA RTX系列， AMD拥有其AMD RX系列，这些部分衍生出来就是游戏业务。
因此NVIDIA和AMD两大巨头通过对计算卡和图形卡的分离，已经形成了完全不同的产品线和架构。
二、数据中心AI系统“全垒打”和“全维度”数据中心AI系统“全垒打”是什么样的？
张亚林说， AI大系统要落地数据中心，必须具备四个要素，分别为系统、板卡、高性能高算力的芯片，以及全栈的软件系统。这四大要素构成了整个AI系统的“全垒打” 。
而对于衡量一个数据中心AI系统真正能被市场化、产业化、规模化的标准，张亚林分了五个维度来解读，这五个维度分别为AI系统的完备性、生产率、成本、功耗和性能。
文章插图
数据中心AI系统的“全维度”
从完备性角度来讲，厂商必须具备很好的软件框架覆盖率、模型的覆盖率，还能满足用户的可定制化要求。
在生产率角度，厂商必须能从用户的角度出发，适应用户的开发效率、易用性、灵活性、可编程性和可迁移性。
在成本方面，有整个芯片的成本、板卡的成本、服务器的成本，还有迁移成本。
在功耗方面，整个芯片架构、存储类型、通信方式、软件实现以及利用率还有工艺都左右了功耗大小，也直接影响了后续的运维成本。
在性能方面，算力、延迟、精度、训练时间、推理时间、线性度（多卡）都对性能维度有影响。
因此，通常一个AI系统的“全维度”设计必须在五个维度之间平衡，再去迭代，保证能够找到这五个纬度在用户侧最好的差异化以及最优解，才能让整个产品更有亮点。
接着，张亚林特别就数据中心AI软件栈的“全维度”做了解构，他说，一个合格的、能商业化的、能让用户开发，且具有很强迁移度的软件栈，应该在应用层、框架层、SDK层和驱动层这四个层面进行布局。
文章插图
数据中心AI软件栈的“全维度”
自顶向下来看，从应用层的角度来讲，它必须具备很强的模型库，在模型库的丰富程度方面，燧原科技已经拥有了100多个模型。此外，在Benchmark方面必须有很强的基准测试能力，提供很强的基准测试标准，才能让用户在基准模式上的适用度更强。
接下来是框架层，目前业内通用的是TensorFlow、PyTorch两个主流框架，以及通过ONNX往下接入的部分，还有在非框架部分的推断引擎、推理引擎都是非常重要的框架性元素。
在框架层之下是整个全栈的SDK ，也就是用户开发包，包括整个图形分解的引擎、图优化的引擎以及整个算子库，还有能使整个算子开发的编程模型和工具链。
在SDK下面是驱动层，驱动层和整个硬件下的AI芯片进行衔接。
而要想合理设计一个数据中心的AI芯片，必须从计算、数据、存储、互联四个角度看问题。
从芯片计算的本身出发，算力大小及有效算力是燧原科技一直在追寻的终极目标。如何通过数据的传输、存储和吞吐量，为计算引擎合理地输入和输出，保证它的有效算力，也是燧原科技考虑的因素。
在存储方面，分布式的存储大小在平衡片内存储、片外存储，以及实现存储的高效移动都是非常重要的命题。
在互联方面，整个数据中心朝着集群化、系统化的方向发展，整个软件栈也在朝着分布式的方向发展，如何提升互联的效率、线性度和速度，以使整个大系统、大集群像一个虚拟化的计算池一样执行，也是一个很重要的命题。