NVIDIA GeForce RTX 30系列笔记本电脑GPU解析：更强的性能，更强的AI NVIDIA在CES2021上除了公布了

NVIDIA在CES2021上除了公布了新一代甜点卡GeForceRTX3060之外，重点产品其实是GeForceRTX30系列笔记本电脑GPU 。其实在桌面市场上我们早已经见识过了NVIDIA新一代GeForceRTX30系GPU ，那相比GeForceRTX20系翻倍的性能提升幅度，这得益于全新NVIDIAAmpere架构带来的跨跃式进步，而现在GeForceRTX30系列笔记本电脑也会是一次性能全面大提速。

文章图片
NVIDIA首批发布的GeForceRTX30系列笔记本电脑GPU包括GeForceRTX3080、RTX3070与RTX3060 ，在CES2021的发布会上， NVIDIA表示GeForceRTX3080与RTX3070是定位1440p分辨率游戏的，前者可在开启光线追踪技术的情况下，提供100+的FPS帧数表现，而后者则可提供90FPS最高画质表现，目前搭载这两款笔记本电脑GPU的游戏本已经开卖，而GeForceRTX3060笔记本电脑GPU则是面向1080p分辨率游戏的，可在最高画质达到平均90帧的画面表现。
目前NVIDIAGeForceRTX3080/3070LaptopGPU是游戏本上1440p分辨率游戏的最佳选择，可提供最高画质的同时带来流畅的帧数，并且现在NVIDIAAmpere架构的新特性也应用笔记本上，包括NVIDIAReflex、NVIDIABroadcast、NVIDIAStudio等，还有新增的第三代Max-Q技术以及ResizableBAR技术。
GeForceRTX3080、RTX3070笔记本电脑GPU使用的是GA104核心，而GeForceRTX3060笔记本电脑GPU则使用GA106 ，后者的详细信息还没有公布，而前者则是桌面版GeForceRTX3070、RTX3060Ti所使用的GPU ，核心面积392.5mm2 ，晶体管数量174亿，采用三星为NVIDIA定制的8nm工艺生产。

文章图片
GeForceRTX3080笔记本电脑GPU用的是完整版的GA104核心，拥有6组GPC ，每组有4组TPC ，一共24组TPC ，每组TPC包含2组SM(StreamingMultiprocess) ，所以总共拥有48个SM(StreamingMultiprocess) ，每组有128个CUDA ，一共有6144个CUDA ， 8组32位的显存控制器组成256bit的显存位宽。
GeForceRTX3080笔记本电脑GPU只启用了40个SM(StreamingMultiprocess) ，一共有5120个CUDA ，但依然保留了256bit的显存位宽。
2倍性能的第二代RTXSM(StreamingMultiprocess)2018年8月份， NVIDIA在推出RTX20系列显卡的时候着重介绍了他们的RTX概念，将实时光线追踪和AI计算引入到了GPU中，其SM(StreamingMultiprocess)可以说是发生了翻天覆地的变化。 NVIDIA在NVIDIAAmpere架构上则是着重提升了整个SM(StreamingMultiprocess)的性能表现，虽然在结构上没有做出太大的修改，但性能已经不可同日而语。主要提升有三点，针对传统图形计算的FP32单元加倍、引入第二代RTCore和第三代TensorCore 。

文章图片
NVIDIAAmpere架构SM(StreamingMultiprocess)的性能两倍于Turing架构

文章图片
GA100（左）对比GA102（右）双倍的FP32单元，双倍的快乐在NVIDIATuring架构上面， NVIDIA引入了分数据类型计算的理念，将整数型（INT32）和单精度浮点型（FP32）两种不同的数据类型交给两种不同的ALU进行计算，大大提高了SM(StreamingMultiprocess)的并行计算效率。不过现代游戏应用中最为常见的还是FP32 ，也就是单精度浮点类型的计算， INT32ALU的使用率是要比FP32ALU的低的。为了提升计算效率， NVIDIA引入了可同时支持INT32和FP32两种数据类型的新ALU ，取代了原本只支持INT32计算的ALU 。也就是说，现在有两条不同的数据路径（Datapath），一条能够处理整数或单精度浮点，另一条只能处理单精度浮点计算。

文章图片
原本一个SM(StreamingMultiprocess)又被划分成四个更小的区块，每个区块有自己的调度器和寄存器，能够调度16个INT32ALU和16个FP32ALU ，整个SM(StreamingMultiprocess)同时可以处理64个INT32计算指令和64个FP32计算指令。到了NVIDIAAmpere架构上则是变成128个FP32计算指令或64个INT32计算指令和64个FP32计算指令。在遇到以FP32为主的图形计算时，其计算吞吐量最高可以提高到原本的两倍。
另外NVIDIA也更新了CUDA核心的计数方式，现在以一个FP32ALU为一个CUDA核心，所以在NVIDIAAmpere架构上，每个SM(StreamingMultiprocess)拥有的CUDA核心数倍增到了128个。
为了配合规模有一定扩张的计算单元， NVIDIA对每个SM(StreamingMultiprocess)的缓存系统也进行了一定的改良。 NVIDIAAmpere架构SM(StreamingMultiprocess)的共享缓存/L1数据缓存容量从96KB增长到了128KB ，同时其带宽变为原来的两倍，实现容量带宽双增长。