Nvidia本周一早些时候宣布,Nvidia迄今为止最强大的人工智能芯片GH200 Grace Hopper Superchip现已全面投产。
Nvidia GH200 Superchip(如图)旨在为那些运行最复杂AI工作负载的系统提供动力,包括训练下一代生成式AI模型。
Nvidia公司首席执行官黄仁勋在台湾举行的COMPUTEX 2023活动上宣布了这一消息,他还透露首批将由这种超级芯片提供动力的计算机系统。黄仁勋解释说,GH200使用Nvidia的NVLink-C2C互连技术,将Nvidia基于Arm的Grace CPU和Hopper GPU架构融合到一个芯片中。
这款新的芯片总带宽达每秒900 GB,比当今最先进的加速计算系统中采用的标准PCIe Gen5通道高出7倍。Nvidia表示,Superchip的功耗也降低了5倍,使其能够更有效地处理那些要求苛刻的AI和高性能计算应用。
特别是,Nvidia GH200 Superchip有望用于以OpenAI ChatGPT为代表的生成式AI工作负载中,这种生成式AI从提示中生成新内容的能力近乎人类,目前已经席卷了整个科技行业。
Nvidia公司加速计算副总裁Ian Buck表示:“生成式AI正在迅速改变企业,释放新的机遇,加速医疗、金融、商业服务和更多行业的发现。随着Grace Hopper Superchips的全面投产,全球制造商将很快能够为企业提供所需的加速基础设施,以构建和部署采用了他们独特专有数据的生成式AI应用。”
首批集成GH200超级芯片的系统之一,将是Nvidia自己的下一代大内存AI超级计算机Nvidia DGX GH200(下图)。据Nvidia称,这款新的系统采用NVLink Switch System以组合256个GH200超级芯片,使其能够作为单个GPU运行,提供高达1 exaflops的性能(或每秒1 quintillion浮点运算)以及144 TB的共享内存。
这意味着它的内存是Nvidia于2020年推出的上一代DGX A100超级计算机的近500倍,同时也更加强大,后者仅仅是把8个GPU组合到一个芯片中。
Nvidia DGX GH200超级计算机
黄仁勋表示:“DGX GH200 AI超级计算机集成了Nvidia最先进的加速计算和网络技术,以扩展AI的前沿。”
Nvidia表示,DGX GH200 AI超级计算机还将配备完整的全栈软件,用于运行AI和数据分析工作负载,例如,该系统支持Nvidia Base Command软件,提供AI工作流管理、集群管理、加速计算和存储库,以及网络基础设施和系统软件。同时,该系统还支持Nvidia AI Enterprise,这是一个包含了100多个AI框架、预训练模型和开发工具的软件层,用于简化生成AI、计算机视觉、语音AI和其他类型模型的生产。
Constellation Research分析师Holger Mueller表示,Nvidia通过将Grace和Hopper架构与NVLink融合,有效地将两种真正可靠的产品合二为一。他说:“结果就是更高的性能和容量,以及用于构建AI驱动型应用的简化基础设施,让用户能够将如此多的GPU及其功能视为一个逻辑GPU,并从中获益。”
当你以正确的方式将两件好事结合起来时,好事就会发生,Nvidia就是如此。Grace和Hopper芯片架构与NVLink相结合,不仅带来了更高的性能和容量,而且因为将所有这些GPU都视为一个逻辑GPU,从而对构建支持AI的下一代应用进行了简化。”
Nvidia表示,首批采用新型DGX GH200 AI超级计算机的客户包括Google Cloud、Meta Platforms和微软,此外对于那些希望针对自身基础设施进行定制的云服务提供商来说,Nvidia还将把DGX GH200的设计作为一种蓝图提供给他们。
微软Azure基础设施企业副总裁Girish Bablani表示:“传统上,训练大型AI模型是一项资源和时间密集型任务,DGX GH200处理TB级数据集的潜力,将使开发人员能够以更大的规模和更快的速度进行高级研究。”
DGH200超级芯片将用于推进生成式AI应用
Nvidia表示,还将为自己内部的研发团队构建基于DGX GH200的AI超级计算机“Nvidia Helios”,将结合4个DGX GH200系统,使用Nvidia Quantum-2 Infiniband网络技术互连。到今年年底上线时,Helios系统将包含总共1024个GH200超级芯片。
最后,Nvidia的服务器合作伙伴正计划基于新的GH200 Superchip打造他们自己的系统,首批推出的系统中包括Quanta Computer的S74G-2U,该系统将于今年晚些时候上市。
其他合作伙伴,包括华硕、安提国际、研扬科技、思科、戴尔、技嘉、HPE、Inventec和Pegatron也将推出GH200驱动的系统。
Nvidia表示,服务器合作伙伴已经采用了新的Nvidia MGX服务器规范,该规范也在本周一公布了。据Nvidia称,MGX是一种模块化参考架构,让合作伙伴能够基于其最新的芯片架构快速轻松地构建100多种版本的服务器,以适应广泛的AI、高性能计算和其他类型的工作负载。服务器制造商通过使用NGX有望将开发成本降低多达四分之三,开发时间缩短三分之二,缩短至大约六个月。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。