类似于室内设计师将椅子、桌子和其他家具布置在家居环境之内,芯片设计师也需要搞清楚处理器的各部分组件要如何放置在平面图上,同时充分考虑到各组件间的往来延迟。
室内设计师需要考虑房间内空间和起居使用的便利性,而芯片设计师则关注功率、性能和面积与宏单元位置的影响。内存等晶体管、PCI-Express控制器或内存控制器等模拟设备,甚至是核心本身,都需要在半导体设备上找到属于自己的安放点位。
长久以来,这两个步骤一直依靠手动方式完成——首先放置宏单元,之后放置无数较小的标准单元。近期,设计人员开始采用更为混合的方法,同时放置宏单元和标准单元,于是挑战性也达到新的高度。
英伟达研究科学家Anthony Agnesina和Mark Ren在最近讨论AI辅助宏单元布局的博文中写道,“这些宏单元往往比标准单元大得多,而标准单元则是数字设计的基本构建块。宏布局对于芯片布局有着巨大影响,直接决定着许多设计指标,例如面积和功耗。因此,改进这些宏单元的布局,对于优化每块芯片的性能和效率至关重要。考虑到宏布局、标准单元而已以及由此产生的功能、性能与面积(PPA)之间的复杂关系,必须想办法改进这一设计流程。”
近年来出现的新方法,包括借助强化学习(算法和神经网络通过对大量宏单元放置示例进行采样学习)实现对并发单元和宏单元的布置。英伟达建议使用DREAMPlace,也就是该公司于2019年首次推出的GPU加速开源深度学习工具包,尝试在芯片上放置超大规模集成(VLSI)电路,彻底颠覆以往以手动方式设计宏单元和标准单元布局的老办法。
英伟达还建议调整当前并发单元和宏单元的布局设计方式,例如使用多目标优化框架来扩展搜索空间以缩小“最优性差距”,也就是拉近已知最佳解决方案与设计方案下限值之间的差距。
DREAMPlace是一款使用PyTorch深度学习框架和工具包创建的分析放置器,可使用放置问题来训练神经网络。英伟达科学家们在日前的国际物理设计研讨会上发表了AutoDMP(基于自动DREAMPlace的宏布局)研究论文,这也标志着这家GPU巨头乃至整个半导体行业都在探索如何利用AI设计出更强大、更高效的新型芯片。
AutoDMP整合了上周英伟达在GTC 2023大会上展示的所有前沿和核心组件,能够覆盖从GPU加速到机器学习技术、再到提高效率与降低功耗等各类需求。
作为八位参与研究的英伟达团队成员,Agnesina和Ren写道,“这项工作表明,使用基于机器学习的多目标优化和GPU加速数值布局工具,可以有效探索广阔的设计空间,找到更好的宏布局解决方案。DREAMPlace将布局问题表述为布局密度约束下的线长优化问题,并对其进行数值求解。”
据研究人员介绍,这里提出的方法要求使用多目标树结构Parzen估计器(MOTPE)贝叶斯优化算法,通过调整布局器的参数来探索设计空间,最终全力追求三大基本目标——线长、单元密度和降低通信拥塞。其中还包含一个双层功率、性能和面积(PPA)评估方案,用以管理搜索空间的复杂度。论文提到,英伟达还鼓励对DREAMPlace布局引擎做进一步优化,“以减少合法化问题并显著扩展其设计空间,从而改善潜在的可实现PPA指标。”
Agnesina和Ren写道,“我们建议在参数空间中使用多目标优化,而非单目标优化。需要相互权衡的目标分别为线长、密度和通信拥塞度。线长近似于直线施泰纳最小树(RSMT)长度。密度是指DREAMPlace中使用的目标单元密度。最后,使用RUDY算法估计拥塞情况。”
研究人员在DREAMPlace中选择了16个参数来定义设计空间。Agnesina和Ren解释道,这些参数“是根据对布局质量有显著影响的观察结果而一一确定的。”“其中包括与优化相关的参数(例如基于梯度的数值优化器及其学习率)和物理参数(例如用于密度评估的bin数和密度目标)。多目标优化力图找到帕累托边界,这是一组非支配的目标空间点,代表着若不降低至少一个其他目标,则任何目标均无法继续改进。”
他们还在DREAMPlace之外添加了新的参数,包括最初将单元和宏布置在底板中心,这样会影响最终布局的质量。此外,为了简化宏单元的合法保证(所谓宏单元的合法性,就是确保宏单元间互不重叠,且符合各种设计约束),他们还添加了两个参数以确保宏单元间的最小垂直和水平间距。
AutoDMP还接受了TILOS AI研究所的宏布局基准测试的评估,其中包含带有大量宏单元的CPU与AI加速器设计。在评估当中,研究人员将AutoDMP与商业EDA工具相集成,并在英伟达DGX AI系统上运行了多目标优化。这套系统包含四个“Ampere”A100 GPU加速器,各加速器均具有80 GB的高带宽内存。测试会启动16个并行进程来采样参数并运行DREAMPlace,选定的布局则被纳入由CPU驱动的TILOS EDA流程接受检验。
通过调整DREAMPlace中的增强参数并引入多目标优化机制,研究人员发现,他们能够在几个小时之内在DGX系统上生成宏布局选项——包括为每份设计做1000个设计点采样。实际效果不仅超越了开源学术工具、比肩商业产品,“这样的进步更有助于缩短早期架构探索周期,更准确、更高效地评估布局修改决策。”
Agnesina和Ren最后总结道,“这项工作证明,将GPU加速布局器与AI/机器学习多目标码数优化相结合将带来切实优势。此外,考虑到可扩展性在现代芯片设计流程中的重要意义,我们希望这种方法能够为新的前瞻性设计空间探索翻开历史性的又一篇章。”
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。