凯立德|Intel 12代酷睿大小核架构探秘：小核性能暴涨80％高德地图|车载导航

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

上回书说到， Intel Alder Lake 12代酷睿将采用全新的大小核混合架构设计，其中大核/性能核(P-Core)基于Golden Cove架构，最多8个，小核/能效核(E-Core)基于Gracemont架构，最多也是8个。
两种架构的核心有何差异？一年一度的架构日活动上， Intel终于揭开了它们的神秘面纱。
当然， CPU架构设计是极为高深的，一般人把握不了，也无需研究太多，我们这里大致过一下最关键的一些技术点。
Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移动版Willow Cove、11代酷睿桌面版Cypress Cove的进一步升级版，但变化非常大，大量基础模块都重构或升级，其设计理念也将影响未来多代产品的演化。
负责指令拾取和解码的前端部分，就发生了翻天覆地的变化，号称近十年来的最大变革，堪比当年的Skylake ，官方称它旨在提高速度、突破低时延和单线程应用程序性能的限制。
最直接、最明显的就是解码器宽度由4个升级为6个，这可是x86架构的第一次，同时每时钟周期执行uop从6个增至8个，解码长度从16字节翻番至32字节。 ?op缓存、队列也都大大强化，缓存可达4K ，队列每线程可处理72条目，单线程达144个。
编码预取大大增强，分支目标从5K增至12K ， 4K iTLB、2K/4M iTLB分别翻番至256、32 ，同时改进了分支预测精度，编码预取机制更加智能。
乱序引擎部分，同样更宽、更深、更智能，分配由5路增至6路，执行端口由10个增至12个，调度器尺寸增大，重排序缓冲区(ROB)从352条目增至512条目，两倍多于AMD Zen3 ，仅次于苹果M1(大约630条目) ，重命名和分配阶段也可以执行更多指令。
整数执行引擎部分，增加了第五个整数执行端口，所有五个端口都可以执行ALU、LEA ，理论上就原生ALU吞吐能力而言是最宽的x86内核。
矢量执行引擎部分，增加了新的快速加法器(FADD) ，比传统FMA单元效率更高、延迟更低， FMA单元则增加支持FP16浮点数据类型，属于AVX-512指令集的一部分。
载入和存储部分，通过载入AGU增加了一个专用的执行端口，这样载入端口从2个增至3个，同时载入缓冲和存储缓冲更深，载入延迟更低，而针对当今负载不断增加的内存级并行需求，数据处理能力也大大增加。
二级缓存，桌面和移动端每核心还是1.25MB ，服务器端的Sapphire Rapids则增加到2MB ，并支持多路径预取、全写入预测带宽优化，可减少内存读取。
Intel宣称， Golden Cove架构相比于现在11代酷睿桌面上的Cypress Cove ，实现了平均大约19％的IPC(每时钟周期指令数)提升，可以理解为同频性能的提升幅度。
【凯立德|Intel 12代酷睿大小核架构探秘：小核性能暴涨80％】它还支持AMX高级矩阵扩展指令，内置下一代AI加速技术，用于学习推理和训练，包括专用硬件和新指令集架构，可明显提高矩阵乘法运算。
Gracemont小核心属于Atom凌动家族，是2008年以来的第七代，之前分别是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont 。
按照Intel的说法， Gracemont核心非常迷你，一个Golden Cove大核心的空间里，可以放入四个Gracemont小核心，以及它们共享的4MB二级缓存。
别看是小核心，性能其实一点都不弱。 Intel声称，单核单线程对比， Gracemont的同频性能相比六代酷睿Skylake提升超过40％，而同等性能下功耗则可降低40％。