GPU|NVIDIA发布新一代GPU:4nm工艺,800亿晶体管加700W功耗

GPU|NVIDIA发布新一代GPU:4nm工艺,800亿晶体管加700W功耗

文章图片

GPU|NVIDIA发布新一代GPU:4nm工艺,800亿晶体管加700W功耗

文章图片


和预想的一样 , 在GTC 2022上 , NVIDIA正式发布了新一代的GPU——H100 , 这款GPU基于Hopper架构 , 专用于加速计算平台 。 简而言之 , 这颗GPU是针对超级计算机而设计的 , 它的强大主要体现在AI性能方面 , 相比上一代 , H100在架构和工艺上都已经更新换代 , 所以它的性能和效率也达到了一个前所未有的水准 。

【GPU|NVIDIA发布新一代GPU:4nm工艺,800亿晶体管加700W功耗】很多人之前表示NVIDIA这次GPU无论是计算用还是游戏用 , 都会采用台积电的5nm工艺打造 , 但是H100这颗GPU显然比我们想象的芯片制程还先进 。 H100所采用的芯片工艺是台积电的N4 , 也就是4mn工艺 , 属于改进型的5nm工艺 , 但有趣的是 , 这次台积电是专门为H100单独定制了一个芯片工艺 , 和通用的N4工艺有一些区别 。
从芯片规模来看 , H100的晶体管高达800亿 , 相比上一代的A100提升了六倍性能 , 这款GPU采用单芯片设计 , CoWoS 2.5D晶圆级封装 。 NVIDIA没有公布H100的核心数量和频率 。 从之前的信息来看 , 完整的芯片应该配置了8组GPC、72组TPC、144组SM、共18432个FP32 CUDA核心 。 另外这颗GPU采用了576个第四代Tensor Core , 并配有60MB的L2缓存 , AI性能会非常夸张 , 不过不同的版本有着不同的配置 , 比如SXM5版本中启用了128组SM , 共15872个FP32 CUDA核心 , 528个Tensor Core以及50MB的L2缓存 , 功耗也达到了700W 。

如果是PCI-E 5.0的版本则会有进一步削减 , 虽然也是128组SM , 但FP32 CUDA核心则降到14952个 , 功耗也只有350W 。
H100的FP64/FP32运算性能为60 TFlops , FP16运算性能为2000 TFlops , TF32运算性能为1000 TFlops , 均是A100的三倍 。 此外Hopper架构改进了对FP8运算的支持 , 使其运算性能达到了4000 TFlops , 是A100六倍 。 不过这一架构并不支持原生FP8 , 所以NVIDIA会通过转换器引擎来自动切换FP8以及FP16的运算 。

H100采用的是NVIDIA第四代NVLink接口 , 带宽高达900 GB/s 。 如果采用PCI-E 5.0的接口 , 那么带宽则只有128GB/s 。 H100也是第一款支持PCI-E 5.0的GPU , 同时也是第一款采用HBM3的GPU , 最多支持六颗HBM3 , 带宽为3TB/s , 是A100采用HBM2E的1.5倍 , 默认显存容量为80GB 。
和过去一样 , NVIDIA会将新款的H100添加到DGX H100机架式服务器 。 每个DGX H100系统包含8块H100 , 共640GB的HBM3显存 , 可提供32 PFlops的AI计算性能 , 以及480 TFlops的FP64运算性能 。 系统中的每个GPU都通过第四代NVLink连接 , 带宽是上一代的1.5倍 , 加上全新的VNLink Swtich互连系统 , 可连接32个DGX H100节点 , 以构建下一代NVIDIA DGX SuperPOD超级计算机 。

有意思的是 , 这次NVIDIA还加入了Connect TX-7网络互连芯片 , 台积电7nm工艺 , 800亿个晶体管 , 400G GPUDirect吞吐量 , 400G加密加速 , 4.05亿/秒信息率 。 同时 , 为了扩展整个规模 , NVIDIA设计了全新的VNLink Swtich互连系统 , 可以连接最多32个节点 , 也就是256颗H100芯片 , 称之为“DGX POD” 。这么一套系统内 , 还有20.5TB HBM3内存 , 总带宽768TB/s , AI性能高达颠覆性的1EFlops(100亿亿亿次每秒) , 实现百亿亿次计算 。
总体来看 , H100是计算用GPU的目前最高的性能水准 , 相比AMD的计算卡要强出很多 , 当然我们估计游戏的ADA架构也是Hopper架构改变精简而来 , 所以我们也可以期待未来RTX 40在性能上带给我们一些惊喜 。 至于NVIDIA这套系统 , 已经有多个合作伙伴 , 包括系统合作伙伴和云服务合作伙伴 , 会在今年第三季度开始供货 。