人工智能驱动内存互连进化( 二 )


Woo:这不仅包括存储设备本身的创新 , 还包括封装和新技术的创新 , 如堆叠 , 同时还要确保mind data安全 , 美国内存技术公司Rambus认为这一点越来越受到关注 。
人工智能驱动内存互连进化文章插图
Rambus已经在关注3D堆叠 , 但是如果带宽没有随着堆叠容量的增加而增加 , 可用性就会受到限制 。
Arsovski表示 , Marvell正花大量时间与客户一起构建人工智能系统 , 为他们提供每个芯片边缘可移动的带宽以及可访问内存的带宽信息 。 “目前我们所看到的是 , 客户需要更多的内存带宽和I/O带宽 。 ”“如果你看看封装层面是如何大规模互连的 , 就会发现有一个巨大的不匹配 。 我们现在已经遇到了瓶颈 , 为此我们在不断推进高端芯片间的连接 。 ”
从内存的角度来看 , 对于那些无法装在芯片上的人工智能模型来说 , 下一步是HBM或GDDR , 但也有很多人倾向3D堆叠 , 因为你只能在芯片上移动这么多带宽 。 “客户想要越来越多的I/O带宽 , 但我们能在边缘端能移动多少?”
Kanter表示 , 即使在机器学习的世界里 , 也存在着“巨大的多样性” , 这导致了生态系统的限制和变化 。 对于常规DRAM来说 , 对一个难以置信的大数据结构进行随机查找并不适合单个节点 , 这意味着如果你想在内存中保存它 , 就需要构建一个大集群系统 。 “这与传统的视觉导向模式有着非常不同的特点和特性 。 在内存方面记住这种多样性是非常重要的 。 ”
【人工智能驱动内存互连进化】当需要将大量内存和计算整合在一起时 , 互联就出现了 , 互联互通对那些巨头公司来说尤其重要 。 “如果你只想在一个小网络中训练一个GPU , 那么关键的维度可能是内存带宽 。 ”
Kumar表示 , 更多的内存带宽可以实现不同类型的优化 , 但如果一个模型特别受内存限制 , 那么它可能会带来更多的计算 。 “如果你有更多可用的内存吞吐量 , 或者甚至更多可用的互连吞吐量 , 它可能会使模型设计更加灵活 , 启用新功能 , 并构建不同类型的模型 。 ”
Woo:Rambus对 3D叠加很感兴趣 , 但挑战是 , 当你上升到更高的层次时 , 保持不断增加的带宽来在堆栈中上下移动就变得更加困难 。 “虽然你最终增加了堆栈的容量 , 但如果你没有相应的带宽增长 , 那么这个解决方案能有多大用处 。 ”
他介绍 , “The Holy Grail”是一种既能保持填充频率的同时又能提高堆叠形式因数功效的方法 , 它使带宽、容量和堆叠的比率相对恒定 。
Kumar和Arsovski都认为需要建立一个平衡的、可伸缩的系统和设计良好的软件堆栈 。 Arsovski:“我们描述的是一种类似人类大脑的结构 , 它的伸缩性很好 。 ”它必须是低能耗的 , 同时具备大量的连接能力 , 目前 , 我们最接近它的方式是通过3D叠加 , 但仍存在功耗、封装和机械方面的挑战 。 “我们需要找出一个平行的系统 , 在每一层都使用非常低的功率 , 这样你就不用担心数千瓦的功率需要冷却了 。 ”
功耗问题依然难以攻克
功耗也是存储的关键问题 , 不同存储类型和配置也会影响功耗 。 例如在7nm制程的存储上移动资料因导线的RC延迟 , 需要更高的功率 , 并可能产生热能 , 破坏讯号的完整性 。
存储对AI很重要 , AI又是所有新技术的主角 。 但不只有AI芯片 , 还有芯片内部的AI应用 , 都会影响存储的使用方式 。 如要实现超快的速度和最低功耗 , 最好的办法就是把所有元件放在同一个芯片上 , 但有时会受到空间的限制 。
这也说明了 , 为什么资料中心和训练应用AI芯片的体积比许多部署在终端设备执行推论应用的其他类型芯片更大 。 另一种方法则是将部分存储移到芯片外 , 并透过设计提高传输量及缩短与存储的距离 , 或是限制外接存储的资料流 。
Mentor IP部门总监Farzad Zarrinfar表示 , 功率、效能和面积(PPA)都很重要 , 但主要还是和应用有关 。 以携带型的应用为例 , 功率非常重要 , 而功率也分为动态和静态两部分 , 如果需要大量运算 , 那么动态功率就非常重要;如果是穿戴式设计 , 则更重视静态/漏电功率 。 电动车在意电池的续航力 , 因此功耗也是关键因素 。
现在是时候开始研究人工智能系统的下一个基础模块了 。 “我们一直在研究晶体管 , 到目前为止 , 它们做得很好 。 但我们几乎需要从头开始重新思考这个设备 。 ”
尽管有大量革命性的技术和创新架构 , 存储仍是所有设计的核心 。 如何决定现有存储的优先顺序、共享、位置以及用途 , 获得最佳系统效能依旧是件知易行难的事 。