『机器之心』6 小时完成芯片布局,谷歌用强化学习助力芯片设计( 二 )
本文插图
图神经网络生成嵌入 , 该嵌入与网表元数据嵌入一道成为策略和价值网络的输入 。 策略和价值网络整体架构如上所示 , 其中嵌入层对网表邻接信息、节点特征和即将放置的当前宏的信息进行编码 。 然后 , 策略和价值网络分别输出可用布局位置的概率分布以及对当前布局预期奖励的估计 。
接下来 , 边、宏和网表元数据嵌入结合在一起形成单个状态嵌入(singlestateembedding) , 并传递至前馈神经网络 。 该前馈网络输出一个学得表征(learnedrepresentation) 。 该表征捕捉到有用的特征 , 并成为策略和价值网络的输入 。 然后 , 策略网络对当前节点可以放置其上的所有可能网格单元生成概率分布 。
研究者采用强化学习方法来解决芯片布局问题 , 其中RL智能体(即策略网络)依次放置宏 。 宏放置完成后 , 利用密歇根大学研究者在论文《VLSICellPlacementTechniques》提出的力引导(force-directed)方法来完成标准单元的大致布局(toughplacement) , 如下图所示:
本文插图
谷歌利用RL智能体放置宏、标准单元的流程图 。 放置完成后 , 计算近似导线长度和拥塞的线性组合并将其传递至智能体 , 为下次训练迭代进行参数优化 。
谷歌新方法的效果如何?
谷歌在今日发布的博客中表示 , 该方法是首个具有泛化能力的芯片布局方法 , 这表示它可以利用布局之前的网表时所学的知识 , 为新的未见过的网表生成更好的布局 。 研究者表示 , 随着执行预训练的芯片网表的数量增加(即该方法在布局优化方面更加有经验) , 其策略能够更好地泛化至新的网表 。
比如 , 预训练策略有机地确定了一种布局:将宏放置在芯片的边缘附近 , 将标准单元放置在芯片中心的凸起空间 。 这将导致宏和标准单元之间的线长变短 , 不会带来过度的布线拥塞 。 相比之下 , 从头开始训练的策略从随机布局开始 , 需要更长的时间才能收敛得到高质量的解决方案 , 而且后知后觉地发现需要在芯片画布的中心留出一个位置 。 参见以下动图:
本文插图
开源RISC-V处理器Ariane的宏布局随着训练进程的变化情况 。 左图中策略是从头开始训练的 , 而右图中使用预训练策略对芯片进行微调 。 每个矩形代表一个单独的宏布局 。 注意 , 从头开始的策略发现的空洞在一开始就存在于预训练策略的布局中的 。
研究者观察到预训练使得样本效率和布局质量均有所提升 。 该研究对比了使用预训练策略生成的芯片布局质量和从头开始训练策略得到的布局质量 。
为了为之前未见过的芯片block生成芯片布局 , 研究者使用了zero-shot方法 , 即只使用预训练策略(不进行微调)来放置新的block , 并在不到一秒的时间内完成了布局 。 而经过微调后的结果还有待进一步提升 。
从头训练的策略所需的收敛时间较长 , 甚至在24小时后其芯片布局质量仍然不如微调策略12小时后的结果 。
本文插图
两种策略在Ariane芯片block上的收敛轨迹 , 其中一个策略从头开始训练 , 另一个基于预训练策略进行微调 。
谷歌提出的方法在较大的数据集上实现了更好的性能 。 据介绍 , 随着训练集从2个block上升到5个再到20个 , RL策略生成了更好的芯片布局 , 在相同的训练时钟时间下以上两种策略均实现了这样的效果 。
- 酷车视野无论什么身份,只能在这里停留3个小时,世界上唯一没有华人的国家
- 直播3小时带货3亿,昨夜董明珠加冕快手“女王”!
- 『高铁』连云港至南京高铁11月建成!全程只要两个多小时
- 直播3小时带货3亿,昨夜董明珠加冕快手“女王”!之前抖音翻车只是“意外”?
- 『停水』停水通知!明晚起郑州这些区域将停水72个小时!
- 军人驿站国际观察俄土科技差距显露无疑,美称此战可载入史册,叙利亚爆发机器人大战
- 意外事故■男童坠楼3小时才发现,家属要5楼业主负责:他私自改造护栏
- 「数学」一道一年级数学题,家长想了两个小时,硬是不知道孩子错在哪
- 丰巢丰巢智能柜公众号发布致用户的一封信:解释关于12小时保管期限
- 「战略轰炸机」真正的灭国武器,谁都不敢击落,24小时对准全世界