深度 | 剖析AI系统中的内存选择困境

人工智能体系架构仍处于快速进化期
【深度 | 剖析AI系统中的内存选择困境】所有人都在猜测它何时稳
但IC设计过程中又面临怎样的困境
4000字长文 抽丝剥茧
解读AI芯片设计中内存与功率那些事儿
在人工智能以及针对各种截然不同的终端市场和系统而设计的机器学习芯片快速发展的推动下 , 人们可选择的存储器/体系架构数量呈现爆炸式增长 。
在这些系统中 , 某些系统的模型参数大小可能在100亿到1000亿之间 , 并且芯片或应用之间的差异可能会非常大 。 神经网络的训练和推理是当今最复杂的工作负载之一 , 这使得很难找到最优的存储解决方案 。 这些系统消耗了大量的计算资源(主要是使用乘法累加运算)以及大量内存带宽 。
这给内存开发人员带来了巨大压力 , 要求他们以最低的功耗、面积和成本提供尽可能多的带宽 。 这一趋势当前并没有减弱的迹象 。 神经网络模型规模逐年增长 , 为了训练这些模型 , 数据集也在不断增长 。
“这些模型的规模和训练集的大小每年都以大约一个数量级的速度增长 , ”来自Rambus公司的杰出发明家、研究员Steven Woo说 。 “今年年初 , 当最新的自然语言处理模型问世时 , 它具有大约170亿个参数 , 这个数字够大了吧 , 但是 , 今年夏天又出现了一个更新的版本 , 参数的数量居然上升到了1750亿 。 也就是说 , 大约七个月的时间 , 参数的数量就增加了整整10倍 。 ”
另一个问题是能源 。 Woo表示:“如果您要做的只是将性能提高一倍 , 同时所消耗的电量也增加一倍 , 那么 , 生活就会很美好 。 但是 , 这不是它的运作方式 , 您实际上需要非常在乎功率问题 , 因为您墙上的电源插座只能承受这么大的功率 。 事实是 , 人们确实希望将性能提高X倍 , 但同时他们希望能将能源效率提高2X倍 , 这就是让事情变得困难的地方 。 ”
训练需要最大的内存带宽 , 并且通常是在功能强大的服务器类型的机器或非常高端的GPU卡上进行的 。 高阶训练使用HBM内存 , 而低阶训练使用GDDR6内存 。 HBM存储器特别擅长以最低的单bit能量提供最高带宽 。 HBM2 / 2E内存可在AI / ML处理器与每个存储器堆栈之间提供高达每秒3.2 / 3.6 TB的内存带宽 , 而即将发布的HBM3标准则有望提供更高带宽 。
成本权衡
深度 | 剖析AI系统中的内存选择困境文章插图
图源 | Renesas Electronics
这种性能具有代价 。 Greenberg指出:“HBM作为一种高端解决方案 , 有一个与之匹配的高价格自然无可厚非 , 这意味着HBM可能会继续部署在服务器机房和其他高端应用中 。 GDDR6技术有助于降低成本 , 当今的器件可以通过技术以16Gbps的数据速率提供每秒512Gbit / s的速度 , 而且将来会出现更快的数据速率 。 用户将其中多个器件并行放置也很常见 。 例如 , 某些图形卡可以并行使用10个或更多GDDR6部件 , 以达到5Tbps速度甚至更高的带宽 。 ”
推理技术仍在发展 , 这在边缘计算中尤其明显 。 Greenberg说:“对于AI推理 , 我们在新设计中看到的主要是GDDR6和LPDDR5内存 。 他们以更合适的成本提供了更适中的带宽 , 使得可以在云的边缘实时部署AI , 而不必将所有数据发送回服务器 。 ”
现在正在开发的许多AI机器都使用了经过精心规划的非常规则的布局和结构 。
深度 | 剖析AI系统中的内存选择困境文章插图
图源 | Synopsys
他说:“SoC设计时代 , 其实有很多随机性 , 这些芯片的异构性非常明显 。 它们部署了许多不同的功能 , 而且很多是异构的功能 。 这使得芯片看起来就像是将不同block混合在一块的储物柜 。 但是 , 当您看一看AI芯片时 , 您将会看到一个非常规则的结构 , 因为这种方法才能保证在整个芯片上非常并行的数据流中管理大量数据 。 与我们在SoC甚至许多CPU中所做的架构不同 。 它的架构设计主要围绕着如何通过该芯片传输数据而构建 。 ”
所有这些都直接影响到内存的选择 , 尤其是DRAM , 而DRAM早在几年前就被人们预测行将淘汰了 。 但是实际上 , 情况恰恰相反 。 如今的选项比以往任何时候都要多 , 并且每一种选择都有各自不同的价格 。
Synopsys DDR产品技术营销经理Vadhiraj Sankaranarayanan表示:“例如 , 我们正处于DDR标准从DDR4过渡到DDR5的阶段 。 “奔着DDR4要求而来的客户因为其产品的使用寿命足够长 , 因此也可能也希望获得DDR5的支持 。 与LPDDR5类似 , 这些新标准中除了提供更高的性能外 , 在功耗方面也具有优势 。 因为这些标准可以在较低的电压下运行 , 因此可以降低功耗 , 而且在RAS(可靠性、可用性和可维护性)上也有优势 。 在功能方面 , 由于速度较高 , DRAM本身将配备可纠正子系统中任何地方可能发生的单比特错误的功能 。 ”