暮年|性能翻倍，英伟达最强消费级显卡RTX3090出炉：半价买泰坦( 二 ) 机器之心报道编辑：泽南、蛋酱英伟达说

另外， RTX 3080 是 320bit 位宽，内建 8704 个 CUDA ，显存 10G ，功耗 320W 。 RTX 3070 则有 5888 个 CUDA 。
相比之下， 2080Ti 的 CUDA 核心是 4300 个，所以黄仁勋在发布中说 3070 性能超过 2080Ti ，看来是没什么问题的。
单从核心数量上来看，这巨大的提升让最近买了 RTX 20 系列的人有了四九年入国军的感觉。不过需要注意的是，英伟达官方标记的数据是等效核心，与之前的物理核心不同。
Nvidia GeForce 性能对比，来源：ANANDTECH
这些显卡均支持 PCIe 4.0 ，还有 HDMI 2.1 和 DP 1.4a 等接口，并内含第二代光追核心 RTX Core、第三代张量核心 Tensor Core 。
可以看到， RTX 3090 和 RTX 3080 显存容量差距较大，这或许是在为稍后推出的 RTX 3080 Super 留位置。另外， 3090 的 24G 内存和 1399 美元的价格或许能够让很多对深度学习有需求的用户省下买泰坦的预算。如果你真的想要「Titan Ampere」，预计它会是一个显存 40G ，售价 3000 美元的夸张显卡。
另外需要注意的是 GPU 代工厂，今天发布的 GeForce RTX 30 系列均采用了三星的 8 纳米制程「英伟达定制工艺」，选择三星而不是台积电，不知是出于什么样的考虑。
安培架构， AI 算力再上台阶
这些强大的 GPU ，采用的都是今年 5 月刚刚推出的最新 7 纳米制程架构安培（Ampere），其首先被 Tesla A100 所采用。
在当时的 GTC 大会上，英伟达推出的安培架构计算卡 A100 ，成为了当时人类制造出的最大 7 纳米制程芯片。这块 AI 计算卡采用先进的台积电（TSMC）7 纳米工艺，拥有 540 亿个晶体管，它还是一块 3D 堆叠芯片，面积高达 826mm^2 ，最大功率达到了 400W 。
除了制程提高，安培架构还有一些针对 AI 计算特有的机制，其中的三代 Tensor Core 会对稀疏张量运算进行特别加速：执行速度提高一倍，也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算，现在你无需修改任何代码量化了，直接自动训练即可。
针对稀疏矩阵的加速可以让安培架构 GPU 处理 AI 任务的效率提高一倍。
最终在跑 AI 模型时，如果用 PyTorch 框架，相比上一代 V100 芯片， A100 在 BERT 模型的训练上性能提升 6 倍， BERT 推断时性能提升 7 倍。
不过由于消费级和专业级芯片的结构不尽相同，我们不能把 Ampere A100 芯片的 AI 训练性能简单地直接拿来作为参考，还需要等待官方公布，以及最终实测的数据。
黄仁勋表示， GeForce RTX 30 系列显卡具备三项基础处理技术：30TFLOPS 算力的可编程着色器（Turing 架构是 11），双倍吞吐量，用于光追的 RT Core（58 RT TFLOPS ， Turing 架构是 34），以及可自动忽略次要 DNN 权重的 Tensor Core（238Tensor TFLOPS ，旧版为 89）。