如何做到性能翻倍 NVIDIA Ampere架构解析

持续了一个月的“显卡发布季”已经告一段落 , 截止目前NVIDIA发布了GeForce RTX 3060 Ti/3070/3080/3090共4个型号的显卡 , 相比上一代显卡 , RTX 30系显卡再次做到了性能翻倍的神话 。 除了性能上的提升 , 新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor , 虽然RTX 30系显卡拥有诸多提升 , 但价格却与上一代显卡相同 , 在9月2日发布会当天 , 虽然过程仅有短短的40分钟 , 却震惊了全世界的用户 。
01算力提升
下面我们就来看看 , “有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构 , 做了哪些提升 。
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图
第一代RTX架构 Turing
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图
【如何做到性能翻倍 NVIDIA Ampere架构解析】第二代RTX架构 Ampere
首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么 , 相较于初代的Turing RTX架构 , NVIDIAAmpere架构在算力上有着成倍的增长 , 每个时钟执行2次着色器运算 , 而Turing为1次 , 着色器性能达到30 TFLOPS单精度性能 , 而Turing为11TFLOPS 。
NVIDIAAmpere架构翻倍了光线与三角形的相交吞吐量 , RT Core达到58 RTTFLOPS , 而Turing为34RT TFLOPS 。
另外在全新的Tensor Core中 , 可自动识别并消除不太重要的DNN权重 , 处理稀疏网络的速率是Turing的两倍 , 算力高达238 TensorTFLOPS , 而Turing为89 TensorTFLOPS 。
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图
芯片说明
全新的NVIDIAAmpere GPU核心拥有280亿个晶体管 , 628平方毫米的面积 , 基于三星的8nm NVIDIA定制工艺 , 来自美光的GDDR6X显存 , 以及我们上面说的 , 三大处理核心均为初代Turing的两倍速率 , 构成了有史以来性能最强大的Ampere 。
02SM单元的改变
而NVIDIAAmpere架构的强大性能并不是NVIDIA一蹴而就 , 可以说在20系显卡中所采用的Turing架构功不可没 , 下面我们先来看看完整的GA102核心 。
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图
完整的GA102核心
完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成 。 GPC是占据主导地位的高级模块 , 拥有所有的关键图形处理单元 , 每个GPC包含一个专用光栅引擎 。 在新的NVIDIA Ampere架构中 , 每个GPC还包含了两个ROP分区 , 每个分区包含8个ROP单元 。 下面我们来看看每个SM单元的变化 。
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图
SM详解
在每个SM中 , 包含四个大的处理分区共128个CUDA核心 , 4个第三代Tensor Core , 1个第二代RT Core , 1个256 KB的缓存文件 , 1个128 KB的L1缓存 , 这个L1缓存可以根据不同的工作需求来调配缓存 , 工作效率发挥至最大 。
另外大家都知道本次RTX 3080的CUDA数量暴增至8704个 , 而RTX 3090的CUDA数量更是达到了惊人的10496个 , 但是大家要知道专业计算卡Tesla A100的GA100核心 , 拥有更大的核心面积 , 更多的晶体管数量 , 理论上只有8192个CUDA , 那RTX 3080又是如何达到这种效果的呢?
其实是因为本次NVIDIAAmpere的SM在Turing基础上增加了一倍的FP32运算单元 , 这就使得每个SM的FP32运算单元数量提高了一倍 。
如何做到性能翻倍 NVIDIA Ampere架构解析文章插图