研究人员已经使用上了由英特尔处理器驱动的超级计算机,同时运行4个有1万亿个参数的语言模型。
行业大会Supercomputing 2023近日在美国丹佛举行,英特尔在此次活动上详细介绍了这个里程碑事件。研究人员用来运行四种语言模型的超级计算机是美国能源部最近安装的Aurora系统,在宣布取得这项成就的同时,英特尔还分享了有关于即将推出的Gaudi-3和Falcon Shores人工智能芯片的最新细节。
百亿亿次级的人工智能
今年早些时候美国能源部阿贡国家实验室安装了Aurora系统。它是由10000多台服务器组成的,配备了约21000个英特尔CPU和60000个GPU。一旦全面投入使用,Aurora预计将成为世界上最快的超级计算机,其性能将超过2 exaflops。
阿贡国家实验室、英特尔和其他几个组织已经联手在使用该系统进行AI方面的开发工作。该计划旨在创建具有超过一万亿个参数的生成式AI模型,以帮助加快研究项目的速度。工程师们正在使用包含文本、代码和科学信息的数据集来训练这些模型。
在这次Supercomputing 2023大会上英特尔透露,Aurora仅使用10000多台服务器中的64台就成功运行了具有1万亿个参数的AI模型。此外,研究人员设法在256个节点上同时运行4个这样的模型。每个此类节点重70磅,包括了2个Intel Xeon Max系列CPU和不少于6个Intel Max系列GPU。
下一代AI芯片
Aurora中的Max系列GPU是基于英特尔内部开发的Xe HPC架构。英特尔还公布了第二款AI处理器Gaudi 2,它针对许多相同的用例。Gaudi 2(如图)基于英特尔在2019年斥资20亿美金收购的初创公司Habana Labs时所获得的设计。
英特尔最终计划将这两个产品线合并为基于统一架构的单一芯片系列。但在此之前,英特尔会推出Gaudi 2的升级版。英特尔还在这次Supercomputing 2023的演示中分享了有关这款即将推出的芯片的最新细节。
据称,这款芯片名称为Gaudi 3,将采用5纳米工艺制造,前身是作为单片硅实现的,而Gaudi 3则是包含了两个独立的小芯片。英特尔及其竞争对手都在采用基于小芯片的方法来构建处理器,因为这种方法从多个方面简化了制造过程。
当前一代Gaudi 2的主要卖点之一是它包含了内置的以太网端口,减少了对外部网络硬件的需求,从而降低了成本。据称,Gaudi 3的网络容量将是上一代的2倍,并且用于存储AI模型数据的板载内存将增加1.5倍。
得益于英特尔在设计上的升级,Gaudi 3在处理bfloat16数据时预计将实现4倍于其前身的性能水平。bfloat16是由谷歌开发的一种特殊数据格式,很多AI模型使用bfloat16来存储它们处理的信息,该格式之所以受欢迎,是因为它可以帮助减少神经网络所需的内存量并加快处理速度。
英特尔计划将Gaudi芯片系列与为Aurora超级计算机提供动力的Xeon Max GPU系列合并成一个名为Falcon Shores的新产品组合。Gaudi和Xeon Max GPU都将提供与该产品组合的前向兼容性,意味着为这两个芯片系列编写的AI模型也将运行在Falcon Shores芯片上。
英特尔这次详细介绍称,Falcon Shores芯片将采用HBM3内存,这是许多AI处理器中包含的高速RAM最新版本。HBM3比上一代硬件更快且功耗更低。Falcon Shores产品还将支持oneAPI,这项英特尔的技术有望减少编写AI应用的工作量。
更快的CPU
英特尔在这次Supercomputing 2023大会上的第三个焦点,是即将推出的Emerald Rapids服务器CPU系列。该芯片系列定于下个月推出,是基于英特尔的10纳米工艺。英特尔发布的新性能数据表明,Emerald Rapids比上一代芯片在速度上有显著改进。
这款Emerald Rapids产品组合中最先进的CPU将提供64个核心。与英特尔最快的上一代56核芯片相比,这款新CPU运行AI语音识别类应用的速度提高了40%。同时,它在使用LAMMPS基准测试中也展示了类似的速度优势(该基准测试主要衡量芯片执行计算化学任务的速度)。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。