NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI( 二 )


第二代RTCore带来光追效率的显著提升在NVIDIATuring架构上 , NVIDIA首次引入了能够针对实时光线追踪运算进行加速的RTCore 。 在执行实时光线追踪相关的计算时 , 现代的基于SIMD的CUDA核心在进行光线和物体表现碰撞点等计算时表现出来的效率太低 , 反而是基于MIMD架构的特定用途计算模块更为高效 。 NVIDIA的RTCore就是这样一种专门为实时光线追踪计算进行加速处理的专用硬件单元 。

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片
NVIDIAAmpere架构GPU上的RTCore主要是增加了对动态模糊的加速运算支持 。 在非光追情况下的动态模糊往往只是对画面套用后处理滤镜 , 其效果并不真实 。 在实时光追情况下 , 动态模糊则是通过实时计算物体与光线的交互情况所产生的 , 其运算非常复杂 , 就算是Turing上面的RTCore也难以承载 。 到了NVIDIAAmpere架构 , 其第二代RTCore中加入了NVIDIA设计的插值算法 , 在保证动态模糊精确性的同时提高了该情况下的实时光线追踪效率 , 官方称最高可以实现8倍于前代的速度 。 另外 , 在基础的BVH计算上面 , 新一代RTCore也能够快上2倍 。
第三代TensorCore让AI性能出现飞跃从NVIDIAVolta架构开始 , NVIDIA就在SM(StreamingMultiprocess)中引入为AI计算优化的TensorCore , 这些张量计算单元能够提高显卡在机器学习计算上的效率 。 在NVIDIAAmpere架构上 , TensorCore已经进化到了第三代 , 它能够提供比第二代TensorCore高出4倍的效能 。 不过游戏卡上面的TensorCore进行了一定的精简 , 其FP16FMA计算的吞吐量只有GA100核心中的TensorCore的一半 。

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片
第三代TensorCore除了在效能方面有提升之外 , 还对稀疏矩阵运算提供了支持 , 详细的介绍可以看我们之前对计算卡方向的NVIDIAAmpere架构的解析:《NVIDIA新一代Ampere架构简单解读:一次有改良有革命的架构升级》 。 总的来说 , 即便是面向游戏的NVIDIAAmpere架构将每SM(StreamingMultiprocess)的TensorCore数量从8个减到了4个 , 它的整体效能仍然是有很大提升 。
DLSS2.0新的TensorCore带来的更强劲的AI算力将会为DLSS助力 , 在今年早些时候 , NVIDIA开始全面推广DLSS2.0技术 , 相比起初代DLSS , DLSS2.0不管是在画面质量还是在渲染效率上都有很大的提升 , 已经不再是所谓的鸡肋功能 , 能显著提高游戏性能 , 保障1440p分辨率下游戏本的流畅度 , 并且开启DLSS后对GPU来说渲染压力低了 , 可以有效降低游戏时GPU功耗 , 进而延长电池的续航时间 。

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片
首先 , DLSS2.0在效率和处理速度上有很大的提升 , NVIDIA宣称其速度可以达到原版的两倍 , 换到实际游戏中就是同样的设置下可以提高更多的帧数 。
然后是更好的图像超采样质量 , DLSS2.0扩展了超采样的倍数 , 可以支持4x的分辨率拉伸 , 也就是说 , 在1080p的渲染分辨率下通过DLSS2.0即可拉伸到4K分辨率 , 大大节约了GPU资源 , 可以提供更高的帧数 。
最重要的一点是 , DLSS2.0不再需要针对单个游戏进行模型学习推理了 , 现在所有游戏都会使用一个模型 , 这大大降低了游戏开发商使用DLSS技术的门槛 , 未来整合DLSS技术将会是一件非常简单的事情 。
并行程度更高的渲染管线将不同类型的计算交给不同的单元去处理是从NVIDIAVolta架构就开始采纳的一种理念 , 当时引入的TensorCore分流了很多AI相关的运算 , 而在其后引入的RTCore又将实时光线追踪相关的计算给分流了 。 那么它们可以并行执行吗?可以 , 但并不是全部运算都能够并行执行 。

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片
如上图所示 , TuringGPU在开启实时光追和DLSS时 , 其RTCore和TensorCore并不是并行工作的 , TensorCore被调用的时间点已经接近整个渲染流程的末尾 , 它没有和RTCore同时运行 。

NVIDIA GeForce RTX 30系列笔记本电脑GPU解析:更强的性能,更强的AI
文章图片
在NVIDIAAmpere架构上 , NVIDIA提升了GPU内部各种单元之间的并行性 , 现在传统计算单元、RTCore和TensorCore这三大单元可以同时工作 , 在原本基础上继续缩短帧渲染时间 。
第三代Max-Q技术Max-Q是一种系统层级的技术 , 它为轻薄游戏笔记本电脑提供出色的性能 。 从芯片、软件、PCB设计、到功耗分配和散热系统 , 笔记本电脑的各个部分都针对功率和性能进行了特别优化 。 第三代Max-Q技术通过AI和全新的系统优化选项 , 引入了WhisperMode2.0和DynamicBoost2.0 , 让高性能游戏笔记本电脑的表现远超以往 。