人工智能驱动内存互连进化

人工智能(AI)、车用芯片的复杂程度逐步递增 , 边缘处理比重也在增加 , 存储的选择、设计、使用模式及配置将会面临更大的挑战 。 因此 , 为了满足AI和机器学习应用程序的需要 , 位置(Location)越来越多地应用于数据需要驻留的地方和存储数据的内存 。
人工智能驱动内存互连进化文章插图
在芯片、元件和系统之间移动以及处理优先处理顺序不明确的情况下 , 设计团队只能在合并和共享存储之间取得平衡以降低成本 , 或增加更多不同类型的存储来提升效能、降低功耗 。
但这个问题不仅仅是内存供应商面临的挑战;其他AI利益相关者也在发挥作用 , 解决方案最关键的一部分是内存互联 , 即内存离计算越来越近 。 在人工智能硬件峰会内存互联的挑战和解决方案圆桌讨论上Rambus研究员Steve Woo表示:“我们都在人工智能的不同方面工作 。 ”
人工智能驱动内存互连进化文章插图
从目前来看 , 内建SRAM和DRAM存储仍是当前主推技术 。 DRAM密度高、使用电容储存结构相对简单 , 又具有低延迟、高效能和接近无限次存取的耐用度 , 功耗也比较低 。 SRAM速度非常快 , 但较为昂贵且密度有限 。 这些不同的需求会影响存储的类型、数量以及内建或外接存储的选择 。
Marvell ASIC业务部门的CTO Igor Arsovski在SRAM方面有着丰富的经验 , 他表示 , 用啤酒来比喻内存互连并不坏 。“SRAM就好比一瓶啤酒 。 它很容易使用 , 使用它的能耗很低 , 它只提供你所需的 。 “但如果内存不够 , 你就会走得更远 , 而且需要消耗更多的能量 , 就像需要走得更远才能买到啤酒一样 。 ”
HBM vs LPDDR
外接存储的竞赛 , 基本上以DRAM-GDDR和HBM为主 。 从工程和制造角度来看 , GDDR比较像DDR和LPDDR等其他类型的DRAM , 可以放在一个标准的印刷电路板上并使用类似的制程 。
HBM是比较新的技术 , 牵涉到堆叠和矽中介层 , 每个HBM堆叠都有上千个连接 , 因此需要高密度的互连 , 这远远超过PCB的处理能力 。 HBM追求最高效能和最佳的电源效率 , 但成本更高 , 需要更多的工程时间和技术 。 GDDR的互连没这么多 , 但会影响讯号的完整性 。
人工智能驱动内存互连进化文章插图
Arsovski表示 , 在内存方面 , 高带宽内存(HBM) 正在被越来越多的人工智能采用 。
“它会花费你60倍多的能量来访问内存 。 那里的容量要大得多 , 但访问它的带宽也显著减少了 。 啤酒的类比可以扩展到LPDDR(DDR SDRAM的一种)等技术 , 它超过了SRAM 。 “LPDDR功率要高得多 , 但你可以装更多的容量 。 ”“这就像沿路走到你最喜欢的酒吧 。 ”
Arsovski预计 , 下一代加速器的发展方向是将这些小桶放在加速器的正上方 , 通过计算将内存压缩到更近的位置 。 MLCommons是一个提供机器学习标准和推理基准的组织 , 其成员包括学术界和工业界 。 MLCommons的执行董事David Kanter介绍:“这让我们对不同的工作量有了一个非常广泛的了解 。 我们开始改变这个组织的一件事是 , 让它专注于一点 , 那就是建立顾问团 , 引入特定应用领域的一些深度专业知识 。 ” MLCommons还将为培训人工智能模型的任何人编制大型公共数据集 , 并计划扩大服务范围 , 吸引其他专家加入 。
当谈到内存时 , Kanter介绍 , 整个系统上下文很重要 。 “你必须思考你想做什么与系统 。 ”芯片、封装和电路板都是必须考虑的元素 。 对于存储被放置和连接的地方 , 有很多不同的角落 , 你可以优化的阵列结构 , 单元类型 , 以及距离 。 ”
Kanter:“了解哪里需要带宽和非挥发性也是关键的考虑 , 这会引导你做出正确的选择 。 ”
对于那些传统上不参与整个内存系统构建过程的公司来说 , 这些考虑相当重要 。 谷歌软件工程师Sameer Kumar长时间研究编译器和可伸缩系统 , 他认为其中网络和内存带宽对于不同的机器学习模型至关重要 , 包括大规模批量学习的能力 。 “人工智能训练涉及到大量的记忆优化 , 这是编译器获得高效率最关键的一步 , 这意味着记忆需要更智能 。 “
由于数据移动开始主导人工智能应用的某些阶段 , 由此看来内存互联变得越来越重要 。 Woo:“在性能和功效方面 , 这是一个日益严重的问题 。 提高数据传输速率有些难 , 因为每个人都希望保持数据传输速度翻倍和能源效率翻倍 。 “我们所依赖的许多技术对我们来说已经不存在了 , 或者正在放慢速度 。 我们有机会来思考新的架构和创新我们移动数据的方式 。 ”