比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测( 三 )


而光线追踪最耗时的正是求交计算 , 因此 , 要提升光线追踪性能 , 主要是对两种求交(BVH/三角形求交)进行加速 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
RT Core的变化
在Turing的RT Core中 , 可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交 , 在第二代RT Core 里 , NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块 , 这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
运动模糊渲染原理
第二代RT Core可以让光线追踪与着色同时进行 , 进行的光线追踪越多 , 加速就越快 , 它将光线相交的处理性能提升了一倍 , 在渲染有动态模糊的影像时 , 按照NVIDIA自己的实测 , 比Turing快8倍 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
稀疏深度学习
Tensor Core可以看作是GeForce RTX GPU上的AI大脑 。 可加速用于深度神经网络处理功能的线性代数 , 这是现代AI的基础 。 例如用于AI超分辨率的NVIDIA DLSS和用于AI增强的声画处理技术NVIDIA Broadcast应用 。
在本次的NVIDIA Ampere架构的Tensor Core也得到了极大地加强 , 在第三代Tensor Core中 , NVIDIA引入了稀疏化加速 , 可自动识别并消除不太重要的DNN(深度神经网络)权重 , 同时依然能保持不错的精度 。
首先原始的密集矩阵会经过训练 , 删除掉稀疏矩阵 , 再经过训练稀疏矩阵 , 从而实现稀疏优化 , 进而提高Tensor Core的性能 。
与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO 。 目前很多游戏动辄几十G甚至百G的安装空间 , 对于存储空间的负担暂且不提 , 但存放在硬盘中的数据 , 如果显卡想要读取到 , 需要先由CPU从硬盘中读取压缩过的数据 , 经过解压缩再发送到显存中 。
虽然随着NVMe SSD的推出 , 读取速度相较机械硬盘能够快20倍 , 但受制于传统I/O限制 , NVMe高达7GB/秒的高速读写对于CPU是极大的负担 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
传统的数据交换
在这个过程中 , 会占用多个CPU核心 , 压力急剧增大 , 占用较多的内存 , 而此时其实GPU是处于闲置状态的 。 RTX IO的作用就是越过CPU解压再传输数据这一步 , 直接从PCIE总线读取硬盘上经过压缩的数据 , 并且完成无损GPU解压 , 降低CPU占用 , 变向提升了性能 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
RTX IO可以极大解放CPU负担
当然这项技术作为系统底层的运行方式改变 , 还需要借助微软发布的DirectStorage来实现 , 对于目前容量的游戏来说 , RTX IO的改善效果有限 , 但假以时日等游戏容量上百G成为常态的时候 , 这项技术将会发挥巨大的功效 。
同时搭配新增的HDMI 2.1接口 , 可以支持单线8K的视频输出 , 而上一代HDMI 2.0仅支持4K 98Hz的视频输出 , 如果想要连接8K电视 , 则需要更多的线缆支持 。
033D MARK理论性能测试
首先介绍一下测试平台 , 为了保证此次评测能够发挥映众GeForce RTX 3060 Ti冰龙超级版显卡的最佳性能 , 主板和CPU采用了目前桌面旗舰级配置 , 具体如下 。
比甜品卡更甜!映众RTX 3060 Ti 冰龙超级版评测文章插图
配置信息
在测试成绩上 , 基准测试采用3DMARK , 游戏性能测试使用游戏自带Benchmark , 同时为了减小误差 , 每项测试成绩均测试3遍取平均值 。