芯片|800亿晶体管开启新一轮堆料大战,摩尔定律是一场逃不过的内卷?

芯片|800亿晶体管开启新一轮堆料大战,摩尔定律是一场逃不过的内卷?

文章图片

芯片|800亿晶体管开启新一轮堆料大战,摩尔定律是一场逃不过的内卷?

1947年12月23日 , 世界上第一个晶体管诞生 。 晶体管的出现就好像宇宙的第一次爆炸 。 如同大爆炸带来的万千星球 , 75年间世界上晶体管的数量不断增长 。
从一个晶体管到在一片芯片上集成800亿个晶体管 , 当芯片以摩尔预测的那样成倍增长 , “堆料”成为各个大厂实现性能差异化的必选之路 。
那么百亿级晶体管给产品性能带来了多少提升?随着摩尔定律的开始放缓 , “堆料”的难度越来越高 , 芯片公司又该如何突破极限?

高性能处理器的”堆料”大战3月22日 , 英伟达介绍了新Hopper GPU 架构与H100 GPU 。 这款被称为核弹级更新的新品将容纳800亿个晶体管 , 成为当下性能最强大的GPU 。 在发布会上 , 英伟达CEO黄仁勋表示 , 20块H100 GPU就可以承托全球互联网的流量 。
H100支持的第四代NVLink接口可以提供高128GB/s的带宽 , 是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度 , 是PCIe 4.0的2倍 。
内存方面 , H100还将默认支持80GB的HBM3内存 , 带宽为3 TB/s , 比A100的HBM2E 快 1.5 倍 。 性能方面 , H100可提供高达FP64/FP32 60TFlops , FP162000TFlops , TF32 1000TFlops , 都三倍于A100 , FP8 4000TFlops , 六倍于A100 。
炸场的不只是新一代GPU , 还有英伟达的数据中心CPU Grace 。 Grace是两个Grace CPU封装的 , 总计144个CPU内核(基于ARMv9指令集) , 缓存容量396MB , 支持LPDDR5X ECC内存 , 通过每秒 900 GB 的 NVLink 芯片到芯片互连将 144 个计算核心彼此连通 , 内存带宽则为每秒 1 TB 。
Grace CPU Superchip 使用 Arm v9并且该芯片使用 Neoverse N2 设计 。 Neoverse N2 平台是 Arm 首个支持新发布的 Arm v9 扩展的IP , 其性能比V1 平台高出 40% 。 N2 Perseus平台采用5nm设计 , 支持PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0 。 而功率消耗上看 , Grace CPU Superchip的两个CPU和板载内存都消耗500W的峰值功率 。
而就在3月9日 , 苹果在春季发布会上也推出了让人眼前一亮的超级新品M1 Ultra , 这款芯片包括20个CPU内核 , 其中16个是注重性能的Firestorm核心 , 4个注重效率的Icestorm核心 。 新的SoC由1140亿个晶体管组成 , 可配置高达128GB的高带宽、低延迟统一内存 , 可通过20核CPU、64核GPU和32核神经引擎访问 , 比使用带有Afterburner的28核Mac Pro快5.6倍 。
“堆料”=性能?
英特尔1971年发布4004处理器 , 拥有2250个晶体管;1979年8088投入生产 , 包含29000个晶体管的芯片;
1986年MIPS计算机系统公司发布第一个商业化的RISC体系结构包含11万个晶体管;
数字设备公司(DEC)于1994年发布Alpha 21164包含930万个晶体管;
在2006年英特尔发布了Core Duo包装了2.91亿个晶体管 , 同时开启多核时代;
2014年IBM的Power8包含了12个核心 , 有96个线程装有42亿个晶体管;
......
而我们回看世界上第一款商用微处理器 , 英特尔4004 , 这款51年前诞生的产品在3mm*4mm的面积上集成了2300个晶体管 , 采用五层设计、10微米制程 。 而这款处理器的最初的主频是108KHz , 最高时脉有740KHz , 能执行4位元运算 , 支援8位元指令集及12位元位址集 , 使用10.8微秒和21.6微秒运行周期 。
晶体管数量的增加让性能提升了多少呢?包含2300个晶体管的英特尔4004在使用10.8微秒运行周期时 , 可以每秒运算9万次 。 作为对比 , 包含800亿晶体管的H100最高可支持每秒4000万亿次的浮点计算 。 我们可以看到晶体管数量与性能明显的正相关 , 这也是为何所有领先的芯片公司都在晶体管数量上下足功夫 。
然而当每一场新开的发布会都在刷新大众对晶体管数量的认知的同时 , “堆料”的光环逐渐褪去 。 一部分人认为 , 对于领先的芯片设计商 , “堆料”显得简单粗暴 。 对于个人用户 , 很难100%地利用所有晶体管带来的性能提升 。 更多时候 , “堆料”对于芯片厂商的意义是保持市场地位 。 以热衷堆料的苹果为例 , 苹果在最新的手机处理器上集成了150亿个晶体管 , 采用6核CPU、4/5核GPU , 让CPU性能领先竞争对手50% , 4/5核CPU性能实现30%/50%的领先 。 但对于使用iPhone 12的用户来说 , 这些数字似乎意义有限 。
可以看到 , 芯片性能的发展史也是晶体管数量的变迁史 。 但随着晶体管数量的增长 , 摩尔定律的放缓已经肉眼可见 。 对于顶尖大厂来说 , 找寻增加晶体管数量之外的“卷法”也成为了当务之急 。