在MLCommons近日发布的AI性能行业基准测试结果中,代号为Sapphire Rapids的第四代英特尔®至强®可扩展处理器和专用于深度学习AI训练的Habana® Gaudi®2加速器展现了卓越的训练表现。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示:“自去年6月提交了领先的MLPerf行业测试结果以来,我们团队不断取得新的进步,这让我感到非常自豪。第四代英特尔至强可扩展处理器和Gaudi2 AI加速器支持广泛的AI功能,为有深度学习训练和大规模工作负载处理需求的客户提供业界领先的性能。”
在众多数据中心应用场景中,基于至强处理器的服务器平台可用于运行一系列机器学习(ML)和数据分析的复杂管道,而深度学习(DL)正是其中的一部分。同时,这些服务器平台亦可用于运行其他应用程序,并能够适应随时间变化的多种工作负载。在这些使用场景中,至强可扩展处理器能够极大程度地降低总体拥有成本(TCO),提高全年利用率。
第四代英特尔至强可扩展处理器内置全新AI加速器——英特尔®高级矩阵扩展(AMX),旨在帮助用户通过扩展通用至强服务器平台,覆盖包括训练和微调在内的更多深度学习使用场景。AMX是一个专用的矩阵乘法引擎,内置于第四代至强可扩展处理器的每个核心。该AI引擎已经过优化,基于行业标准框架,可提供相较于上一代深度学习训练模型高达6倍的性能。
而在服务器或服务器集群主要用于深度学习训练和推理计算的场景中,Habana Gaudi2则是理想的加速器,针对这些专用场景,它旨在提供优异的深度学习性能并降低总体拥有成本。
关于至强处理器的测试结果:英特尔首先提交了涵盖一系列不同工作负载的第四代英特尔至强可扩展处理器产品线的MLPerf v2.1行业测试结果。作为唯一提交该测试结果的处理器,Sapphire Rapids再次被证实其优异的AI性能,使客户能够随时随地使用共享基础设施进行AI训练。内置英特尔AMX的第四代至强可扩展处理器在多个行业标准框架中为用户提供即时可用的性能,并集成了端到端的数据科学工具,以及来自生态伙伴广泛的智能解决方案,开发者仅需使用TensorFlow和PyTorch框架的最新版本,即可充分释放其性能。现阶段,英特尔至强可扩展处理器已经可以运行并处理全部AI工作负载。
测试结果显示,第四代英特尔至强可扩展处理器正通过扩大通用CPU在AI训练方面的覆盖范围,让客户能够充分利用已经部署在商业应用中的至强处理器完成更多工作,尤其是用于中小型模型的训练或微调,即迁移学习。DLRM的结果便很好地论证了Sapphire Rapids能够在不到30分钟(26.73)的时间内仅用四个服务器节点即可完成模型训练。即使是面对大中型模型,第四代至强处理器亦可分别在50分钟(47.26)和90分钟(89.01)内成功训练BERT和ResNet-50模型。开发者可在一杯咖啡的时间内便完成小型深度学习模型的训练,在一顿午餐的时间内训练中型模型,并同时利用这些连接到数据存储系统的相同服务器,在下午进行诸如经典机器学习的其他分析。这也意味着企业能够将诸如Gaudi2的深度学习处理器预留给更大、对性能要求更高的模型。
关于Habana Gaudi2的测试结果:Habana今年五月发布了用于深度学习训练的第二代Gaudi处理器——Gaudi2,在MLPerf v2.0训练10天后汇总的成绩中表现出了领先的测试结果。Gaudi2采用7纳米制程工艺制造,拥有24个Tensor处理器核心、片内封装容量达96GB HBM2e和24个100GB RoCE以太网端口。与英伟达的A100相比,Gaudi2在这项基准测试中再次展现了领先的8卡服务器性能。
Gaudi2在TensorFlow中训练BERT和ResNet-50的时间缩短了10%。而Gaudi2的PyTorch结果则显示,与5月的Gaudi1结果相比,其BERT和ResNet-50的训练时间分别缩短了4%和6%。这两组结果均在封闭和可用类别中提交。
这些优异表现突显了Gaudi2专用深度学习架构的独特性、Gaudi2软件的日益成熟以及Habana® SynapseAI®软件堆栈的扩展优势。值得注意的是,该软件堆栈针对深度学习模型开发和部署进行了优化。
与5月的测试结果一致,Gaudi2在BERT和ResNet-50模型训练方面始终优于英伟达A100,进一步证明了该测试结果的有效性。英伟达H100的ResNet-50训练速度仅比Gaudi2高11%,而尽管H100在BERT方面比Gaudi2快59%,但英伟达报告的BERT训练时间为FP8数据类型,Gaudi2的训练时间则为经过验证的标准BF16数据类型(在Gaudi2的软件计划中启用了FP8)。因此,与A100和H100相比,Gaudi2的性价比更高。
未来,英特尔和Habana团队非常期待再次提交的英特尔AI产品组合解决方案的MLPerf测试结果。
通知和免责声明
性能因用途、配置和其它因素而异。更多信息参见www.Intel.com/PerformanceIndex。
性能测试结果是基于截至配置中所示日期进行的测试,可能并未反映所有公开可用的更新。配置详情参见信息披露部分。没有任何产品或组件是绝对安全的。
实际成本和结果可能不同。
英特尔技术可能需要支持的硬件、软件或服务激活。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。