半导体行业观察：AMD连接CPU和GPU的新架构详解

AMD是目前唯一一家同时拥有x86处理器和独立显卡的供应商，至少在英特尔Xe发布之前就是如此，这使Red Team的互连技术具有一定的灵活性。这项技术在高性能计算（HPC）领域特别有用， AMD在昨天的Rice Oil and Gas HPC会议上的演示就证明了这一点。AMD在2018年的Next Horizon活动中就曾宣布，它将在数据中心MI60 Radeon Instinct GPU之间扩展Infinity Fabric ，以实现GPU之间的100 Gbps链接，就像Nvidia的NVLink一样。今年5月， AMD在其前沿超级计算机(Frontier super)的发布会上透露，它将扩展这种方法，使CPU和GPU之间的内存保持一致。

本文插图
（图片来源：Twitter）一年一度的Rice Oil and Gas HPC还未结束，根据Intersect 360 Research分析师Addison Snell 昨天的推文显示， AMD宣布，未来的Epyc + Radeon将会基于Infinity Fabric ，在GPU和CPU之间采用内存一致性，类似于AMD在其Raven Ridge Ryzen产品中启用的功能。我们还看见了在Rice Oil and Gas上展示的一些幻灯片，这是由Extreme Computing Research Center高级研究科学家Hatem Ltaief 的推文提供的。

本文插图

本文插图

本文插图

本文插图

本文插图
（图片来源：Twitter @HatemLtaief @addisonsnell）AMD的图表突出显示了不同计算解决方案（例如半定制SoC和FPGA ， GPGPU和通用x86计算内核）能效之间的差异，并强调了相对于功耗和提供该性能所需的硅面积的FLOPS性能。如我们所见，通用CPU落后了，但是使用专用SIMD路径矢量化代码的优化可以提高两个指标的性能。但是， GPU在功率效率和尺寸方面仍然占据优势。就像公司使用Ryzen APU一样，利用内存一致性，可以实现两全其美，根据幻灯片显示，这两方面包括统一数据以及为所有代码提供“简单的CPU + GPU入口” 。AMD还提供了一些没有内存一致性功能的GPU的例子，结果表明，内存一致性架构可以减轻许多编码负担。众所周知， AMD采用了异构系统架构(HSA - deep dive here) ，将Carrizo的固定功能块集成在了一起。与在CPU和GPU之间采用Infinity Fabric进行连接，从而实现扩展的方法类似， HSA也提供了一个内存一致性的共享虚拟内存池，它消除了组件之间的数据传输，从而降低延迟并提高性能。例如，当CPU完成数据处理任务时，数据可能仍需要在GPU中进行处理。这要求CPU将数据从其内存空间传递到GPU内存， GPU随后会处理数据并将其返回给CPU 。这个复杂的过程增加了延迟，并导致性能下降，但是共享内存使GPU可以访问CPU正在使用的相同内存，从而减少并简化了软件堆栈。数据传输通常比实际计算本身产生更多的功耗，因此消除这些传输可提高性能和效率。通过在离散的GPU和CPU之间共享内存，再将这些好处扩展到系统级，可以使AMD在HPC领域比其竞争对手更具优势。尽管AMD似乎仍然是HSA基金会的成员，但它不再积极促进HSA与媒体的交流。无论哪种情况，很明显，开放式体系结构的核心仍然掌握在AMD手中，它可能会严重依赖于开放的ROCm软件生态系统，而这个生态系统是由DOE赞助的。AMD在这方面开辟了道路，并为百亿级别的系统赢得了发展的机会，包括最近的El Capitan超级计算机，该超级计算机将采用两个exaflops ，并使用新的Infinity Fabric3.0 。此外，英特尔也在开发Ponte Vecchio架构，该架构将被用于美国能源部（DOE）阿尔贡国家实验室的Aurora超级计算机上。英特尔的方法主要依靠其OneAPI编程模型，并且还旨在将CPU和GPU（被称为Rambo Cache）之间的共享内存池连接在一起。随着更多信息的披露，我们也会更多地了解这两种方法之间的差异。在这种情况下，英伟达在超级计算机领域可能会遭受损失，因为它只有GPU而没有CPU ，因此无法启用类似的功能。要在可接受的功率范围内达到百亿级的性能，是否需要这种类型的体系结构以及底层的统一编程模型？这是一个悬而未决的问题。 AMD和Intel都赢得了美国DOE百亿级超级计算机的合同（更广泛的服务器生态系统通常采用获胜的HPC技术）， Nvidia作为提供一致性功能的CXL联盟的一部分，尽管Nvidia的GPU加速计算在HPC和数据中心领域中占据主导地位，但Nvidia尚未宣布有关的消息。今天是《半导体行业观察》为您分享的第2241期内容，欢迎关注。