研究人员已经使用上了由英特尔处理器驱动的超级计算机,同时运行4个有1万亿个参数的语言模型。
行业大会Supercomputing 2023近日在美国丹佛举行,英特尔在此次活动上详细介绍了这个里程碑事件。研究人员用来运行四种语言模型的超级计算机是美国能源部最近安装的Aurora系统,在宣布取得这项成就的同时,英特尔还分享了有关于即将推出的Gaudi-3和Falcon Shores人工智能芯片的最新细节。
百亿亿次级的人工智能
今年早些时候美国能源部阿贡国家实验室安装了Aurora系统。它是由10000多台服务器组成的,配备了约21000个英特尔CPU和60000个GPU。一旦全面投入使用,Aurora预计将成为世界上最快的超级计算机,其性能将超过2 exaflops。
阿贡国家实验室、英特尔和其他几个组织已经联手在使用该系统进行AI方面的开发工作。该计划旨在创建具有超过一万亿个参数的生成式AI模型,以帮助加快研究项目的速度。工程师们正在使用包含文本、代码和科学信息的数据集来训练这些模型。
在这次Supercomputing 2023大会上英特尔透露,Aurora仅使用10000多台服务器中的64台就成功运行了具有1万亿个参数的AI模型。此外,研究人员设法在256个节点上同时运行4个这样的模型。每个此类节点重70磅,包括了2个Intel Xeon Max系列CPU和不少于6个Intel Max系列GPU。
下一代AI芯片
Aurora中的Max系列GPU是基于英特尔内部开发的Xe HPC架构。英特尔还公布了第二款AI处理器Gaudi 2,它针对许多相同的用例。Gaudi 2(如图)基于英特尔在2019年斥资20亿美金收购的初创公司Habana Labs时所获得的设计。
英特尔最终计划将这两个产品线合并为基于统一架构的单一芯片系列。但在此之前,英特尔会推出Gaudi 2的升级版。英特尔还在这次Supercomputing 2023的演示中分享了有关这款即将推出的芯片的最新细节。
据称,这款芯片名称为Gaudi 3,将采用5纳米工艺制造,前身是作为单片硅实现的,而Gaudi 3则是包含了两个独立的小芯片。英特尔及其竞争对手都在采用基于小芯片的方法来构建处理器,因为这种方法从多个方面简化了制造过程。
当前一代Gaudi 2的主要卖点之一是它包含了内置的以太网端口,减少了对外部网络硬件的需求,从而降低了成本。据称,Gaudi 3的网络容量将是上一代的2倍,并且用于存储AI模型数据的板载内存将增加1.5倍。
得益于英特尔在设计上的升级,Gaudi 3在处理bfloat16数据时预计将实现4倍于其前身的性能水平。bfloat16是由谷歌开发的一种特殊数据格式,很多AI模型使用bfloat16来存储它们处理的信息,该格式之所以受欢迎,是因为它可以帮助减少神经网络所需的内存量并加快处理速度。
英特尔计划将Gaudi芯片系列与为Aurora超级计算机提供动力的Xeon Max GPU系列合并成一个名为Falcon Shores的新产品组合。Gaudi和Xeon Max GPU都将提供与该产品组合的前向兼容性,意味着为这两个芯片系列编写的AI模型也将运行在Falcon Shores芯片上。
英特尔这次详细介绍称,Falcon Shores芯片将采用HBM3内存,这是许多AI处理器中包含的高速RAM最新版本。HBM3比上一代硬件更快且功耗更低。Falcon Shores产品还将支持oneAPI,这项英特尔的技术有望减少编写AI应用的工作量。
更快的CPU
英特尔在这次Supercomputing 2023大会上的第三个焦点,是即将推出的Emerald Rapids服务器CPU系列。该芯片系列定于下个月推出,是基于英特尔的10纳米工艺。英特尔发布的新性能数据表明,Emerald Rapids比上一代芯片在速度上有显著改进。
这款Emerald Rapids产品组合中最先进的CPU将提供64个核心。与英特尔最快的上一代56核芯片相比,这款新CPU运行AI语音识别类应用的速度提高了40%。同时,它在使用LAMMPS基准测试中也展示了类似的速度优势(该基准测试主要衡量芯片执行计算化学任务的速度)。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。