第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

在MLCommons近日发布的AI性能行业基准测试结果中，代号为Sapphire Rapids的第四代英特尔至强可扩展处理器和专用于深度学习AI训练的Habana Gaudi2加速器展现了卓越的训练表现。

在MLCommons近日发布的AI性能行业基准测试结果中，代号为Sapphire Rapids的第四代英特尔^®至强^®可扩展处理器和专用于深度学习AI训练的Habana^® Gaudi^®2加速器展现了卓越的训练表现。

英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示：“自去年6月提交了领先的MLPerf行业测试结果以来，我们团队不断取得新的进步，这让我感到非常自豪。第四代英特尔至强可扩展处理器和Gaudi2 AI加速器支持广泛的AI功能，为有深度学习训练和大规模工作负载处理需求的客户提供业界领先的性能。”

在众多数据中心应用场景中，基于至强处理器的服务器平台可用于运行一系列机器学习（ML）和数据分析的复杂管道，而深度学习（DL）正是其中的一部分。同时，这些服务器平台亦可用于运行其他应用程序，并能够适应随时间变化的多种工作负载。在这些使用场景中，至强可扩展处理器能够极大程度地降低总体拥有成本（TCO），提高全年利用率。

第四代英特尔至强可扩展处理器内置全新AI加速器——英特尔^®高级矩阵扩展（AMX），旨在帮助用户通过扩展通用至强服务器平台，覆盖包括训练和微调在内的更多深度学习使用场景。AMX是一个专用的矩阵乘法引擎，内置于第四代至强可扩展处理器的每个核心。该AI引擎已经过优化，基于行业标准框架，可提供相较于上一代深度学习训练模型高达6倍的性能。

而在服务器或服务器集群主要用于深度学习训练和推理计算的场景中，Habana Gaudi2则是理想的加速器，针对这些专用场景，它旨在提供优异的深度学习性能并降低总体拥有成本。

关于至强处理器的测试结果：英特尔首先提交了涵盖一系列不同工作负载的第四代英特尔至强可扩展处理器产品线的MLPerf v2.1行业测试结果。作为唯一提交该测试结果的处理器，Sapphire Rapids再次被证实其优异的AI性能，使客户能够随时随地使用共享基础设施进行AI训练。内置英特尔AMX的第四代至强可扩展处理器在多个行业标准框架中为用户提供即时可用的性能，并集成了端到端的数据科学工具，以及来自生态伙伴广泛的智能解决方案，开发者仅需使用TensorFlow和PyTorch框架的最新版本，即可充分释放其性能。现阶段，英特尔至强可扩展处理器已经可以运行并处理全部AI工作负载。

测试结果显示，第四代英特尔至强可扩展处理器正通过扩大通用CPU在AI训练方面的覆盖范围，让客户能够充分利用已经部署在商业应用中的至强处理器完成更多工作，尤其是用于中小型模型的训练或微调，即迁移学习。DLRM的结果便很好地论证了Sapphire Rapids能够在不到30分钟（26.73）的时间内仅用四个服务器节点即可完成模型训练。即使是面对大中型模型，第四代至强处理器亦可分别在50分钟（47.26）和90分钟（89.01）内成功训练BERT和ResNet-50模型。开发者可在一杯咖啡的时间内便完成小型深度学习模型的训练，在一顿午餐的时间内训练中型模型，并同时利用这些连接到数据存储系统的相同服务器，在下午进行诸如经典机器学习的其他分析。这也意味着企业能够将诸如Gaudi2的深度学习处理器预留给更大、对性能要求更高的模型。

第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

关于Habana Gaudi2的测试结果：Habana今年五月发布了用于深度学习训练的第二代Gaudi处理器——Gaudi2，在MLPerf v2.0训练10天后汇总的成绩中表现出了领先的测试结果。Gaudi2采用7纳米制程工艺制造，拥有24个Tensor处理器核心、片内封装容量达96GB HBM2e和24个100GB RoCE以太网端口。与英伟达的A100相比，Gaudi2在这项基准测试中再次展现了领先的8卡服务器性能。

Gaudi2在TensorFlow中训练BERT和ResNet-50的时间缩短了10%。而Gaudi2的PyTorch结果则显示，与5月的Gaudi1结果相比，其BERT和ResNet-50的训练时间分别缩短了4%和6%。这两组结果均在封闭和可用类别中提交。

第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

这些优异表现突显了Gaudi2专用深度学习架构的独特性、Gaudi2软件的日益成熟以及Habana^® SynapseAI^®软件堆栈的扩展优势。值得注意的是，该软件堆栈针对深度学习模型开发和部署进行了优化。

与5月的测试结果一致，Gaudi2在BERT和ResNet-50模型训练方面始终优于英伟达A100，进一步证明了该测试结果的有效性。英伟达H100的ResNet-50训练速度仅比Gaudi2高11%，而尽管H100在BERT方面比Gaudi2快59%，但英伟达报告的BERT训练时间为FP8数据类型，Gaudi2的训练时间则为经过验证的标准BF16数据类型（在Gaudi2的软件计划中启用了FP8）。因此，与A100和H100相比，Gaudi2的性价比更高。

第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

未来，英特尔和Habana团队非常期待再次提交的英特尔AI产品组合解决方案的MLPerf测试结果。

通知和免责声明

性能因用途、配置和其它因素而异。更多信息参见www.Intel.com/PerformanceIndex。

性能测试结果是基于截至配置中所示日期进行的测试，可能并未反映所有公开可用的更新。配置详情参见信息披露部分。没有任何产品或组件是绝对安全的。

实际成本和结果可能不同。

英特尔技术可能需要支持的硬件、软件或服务激活。

来源：业界供稿

英特尔

0赞

好文章，需要你的鼓励

第四代英特尔至强可扩展处理器和Habana Gaudi2在深度学习训练中展现领先的AI性能

来源：业界供稿

2022

11/11

15:26

分享

点赞

从读图到懂图，AI+金融理解力新升级

OpenAI与微软签署初步协议修订合作条款

国产R1人形机器人亮相，挑战特斯拉Optimus霸主地位

智能化追踪研究：AI与人类智慧的融合

生命科学企业如何成功实施生成式AI

Microsoft 365 Copilot十月推出销售、服务、财务智能体套装

在线媒体品牌希望新协议能阻止未授权AI爬虫

Cisco收购Splunk后平台扩展显著加速

F5以1.8亿美元收购CalypsoAI强化AI安全能力

Storj推出媒体影视专用存储云服务Production Cloud

希捷豪掷超1亿英镑投资德里光子工厂押注AI数据中心

甲骨文收购Sun公司如何成就了今天的云计算巨头

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

天翼云CPU实例部署DeepSeek-R1模型最佳实践

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

英特尔至强6新品发布，能为数据中心带来哪些改变？

英特尔推出具备高性能和能效的以太网解决方案

英特尔推出搭载至强6处理器的卓越AI和网络解决方案

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

英特尔Gaudi 2D AI加速器为DeepSeek Janus Pro模型提供加速

英特尔：旗下的“主打”18A 产品将于2025 年下半年投产

英特尔至强6加持下的火山引擎，要降低大模型的应用门槛

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: