瓶颈|当数据中心遇到NVIDIA云原生超级计算

当下,超级计算中心和公有云的诉求正在走向融合?,它们必须拥有多个“技能”于一身:为新一代高新能计算(HPC)、AI和数据分析的应用提供更高的性能,同时还应安全隔离应用,并响应用户对流量的不同需求。“要应对这样的需求,当前最好的技术就是云原生技术。”NVIDIA网络事业部宋庆春在近日的媒体沟通会上对天极网表示。

瓶颈|当数据中心遇到NVIDIA云原生超级计算
文章插图

?NVIDIA网络事业部宋庆春
??云原生超算来了!
??或许你了解火爆的云原生,也对超算不感到陌生,而Cloud?Native?Supercomputing(云原生超算)对于业界来说可能是一个略显陌生的技术名词,“把超级计算技术带入千家万户的数据中心中,让数据中心拥有了超算技术的高性能,同时也把云数据中心上云的灵活性和安全性带进了超算平台。”这是云原生超算诞生的意义和使命。所以,云原生将会是未来提供算力平台的发展趋势。
??如何把云原生的设备高效连起来?为何说InfiniBand网络是最贴切、最合适的网络?宋庆春对天极网表示:
??首先,InfiniBand是会计算的网络,不管是在InfiniBand的网卡上、DPU上还是交换机上,都赋予更强劲的针对不同业务的加速引擎,这样可以把不同的业务模型和通信模型的计算放到卡上或者交换机上。
??其次,InfiniBand网络可以很容易扩展到几万、几十万、上百万的节点,可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题,InfiniBand是无死锁、无网络风暴的网络,同时InfiniBand的动态路由可以让网络的利用效率变得非常高。
??再次,在InfiniBand网络中可以由软件来定义规则,在执行规则时就由InfiniBand的硬件实现,所以会有一个非常高效的对于网络的管理方式。InfiniBand网络是即插即用网络,不用对交换机或网卡做任何特殊设置。
瓶颈|当数据中心遇到NVIDIA云原生超级计算】??最后,InfiniBand是一个标准网络,源于90年代的两个非常重要的网络技术:一个是下一代I/O(NGIO),一个是FutureI/O,两个技术被整合起来,被当时的业界著名的多家公司和研究机构,一起定义成了新的InfiniBand网络。有了InfiniBand网络以后,Mellanox当时的创始人为了推广InfiniBand创建了Mellanox公司,把InfiniBand网络推成了业界标准的高性能计算和存储领域的网络。
??在不久前的GTC大会上,NVIDIA?Quantum-2新一代InfiniBand网络平台正式发布,据了解,NVIDIA?Quantum-2平台即400Gbps的InfiniBand网络平台,包括NVIDIA?Quantum-2交换机、ConnectX-7网卡、BlueField-3数据中心处理器(DPU)和支持这种新架构的软件,这也是迄今为止非常先进的端到端高性能网络平台。
??NVIDIA?Quantum-2平台有何魅力?
??据介绍,新一代NVIDIA?Quantum-2平台的三大产品,赋予了可以提供云原生上需要的几个关键能力:
??首先,?NVIDIA?Quantum-2?InfiniBand将网速提高了一倍,网络端口数量增加了三倍。它在性能提升3倍的同时,还将使数据中心网络所需的交换机数量减少了6倍,与此同时,数据中心的能耗和空间也将各减少7%。
??其次,NVIDIA?Quantum-2平台还实现了多租户之间的性能隔离,这使得一个租户的行为不会干扰到其他租户,同时通过利用先进的主动遥测和支持云原生的拥塞控制机制,确保了可靠的数据吞吐量,并且不受用户或应用需求高峰的影响。
??再次,NVIDIA?Quantum-2?SHARPv3网络计算技术可为AI应用提供超出上一代产品32倍的加速引擎能力,借助NVIDIA?UFM?Cyber-AI平台,将为数据中心提供先进的InfiniBand网络管理功能,包括预测性维护等。
??值得一提的是,NVIDIA?Quantum-2平台中还集成了纳秒级精度的时钟系统可以同步分布式应用,如在数据库处理中,有助于减少等待及空闲时间。纳秒时钟同步是一种新功能,其使得云数据中心成为电信网络的一部分,可以托管软件定义的5G无线服务。
??3U一体云原生架构赋予无限算力资源
??NVIDIA?BlueField?DPU的出现为3U一体架构奠定了基础。基于DPU?实现了新的Cloud?Native计算架构,把传统的Infrastrucure操作放到了BlueField?DPU上,由DPU执行通信框架、存储框架、安全框架和业务隔离,让Host里面的CPU和GPU资源都释放给应用,通过这样一个架构可以让业务性能得到更优的发挥,甚至比在裸金属状况下的性能有更好的提升。

瓶颈|当数据中心遇到NVIDIA云原生超级计算
文章插图
??“DPU提供了打开了一个对业务性能优化的新思路,把通信和计算重叠起来,可以通过DPU来加速HPC业务中的通信,由DPU来运行通信框架,由CPU和GPU执行真正的浮点计算。”宋庆春说。