Habana Gaudi2和第四代英特尔至强可扩展处理器为AI训练提供领先的性能并大幅节约成本
今日,MLCommons公布其行业AI性能基准测试MLPerf训练3.0的结果,其中,Habana® Gaudi® 2深度学习加速器与第四代英特尔®至强®可扩展处理器展现出令人印象深刻的训练结果。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示:“最新由MLCommons发布的MLPerf结果验证了使用英特尔至强可扩展处理器和英特尔Gaudi深度学习加速器,可以在AI领域为客户带来更高的性价比(TCO)。其中,至强的内置加速器使其成为在通用处理器上运行大量AI工作负载的理想解决方案,而Gaudi则为大语言模型和生成式AI提供了极具竞争力的优异性能。此外,英特尔的可扩展系统配备了经过优化的、易于编程的开放软件,可降低客户和生态伙伴在数据中心部署从云到智能边缘各种基于AI的解决方案的门槛。”
目前,业内普遍认为生成式AI和大语言模型(LLMs)仅适宜在GPU上运行。然而,最新的数据显示,基于英特尔产品组合的AI解决方案,能够为在封闭生态系统中寻求摆脱当前效率与规模限制的客户提供极具竞争力的选择。
最新的MLPerf训练3.0结果展现了英特尔产品在一系列深度学习模型上的优异性能。在大语言模型GPT-3上,基于Gaudi2的软件与系统在AI训练成熟度上得到了大规模验证。值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。
与此同时,Gaudi2还为客户提供了极具竞争力的成本优势,包括服务器和系统成本。其在GPT-3、计算机视觉和自然语言模型上经由MLPerf验证的杰出性能,以及即将推出的软件,使Gaudi2成为业界一个极具吸引力与性价比解决方案。
在CPU方面,第四代至强可扩展处理器采用英特尔AI引擎,其深度学习训练性能的结果表明,客户可以使用基于至强的服务器,构建一个通用AI系统以用于数据预处理、模型训练和部署,从而获得兼具AI性能、效率、准确性和可扩展性的最优组合。
关于Habana Gaudi2的测试结果: 训练生成式AI和大语言模型需要服务器集群来满足大规模的计算要求。最新MLPerf结果切实验证了Habana Gaudi2在要求极为苛刻的模型——1750亿参数的GPT-3上的出色性能以及高效的可扩展性。
测试亮点:
Habana® Gaudi®2夹层卡
关于Gaudi2的软件成熟度: Gaudi的软件支持在持续发展和成熟,并能与日益增长的生成式AI及大语言模型的需求保持同步。
关于第四代至强可扩展处理器的测试结果: 作为众多解决方案中唯一提交的基于CPU的解决方案,MLPerf结果表明,英特尔至强可扩展处理器为企业提供了“开箱即用”的功能,可以在通用系统上部署AI,避免了引入专用AI系统的高昂成本和复杂性。
对于少数从头开始间歇性训练大模型的用户,他们可以使用通用CPU,并且通常是在已经完成部署的、基于英特尔的服务器上运行其业务。此外,大多数人将采用预先训练好的模型,并用小型数据集对其进行微调。英特尔发布的结果表明,通过使用英特尔AI软件以及标准的行业开源软件,这种微调可以在短短几分钟内完成。
MLPerf测试亮点:
第四代英特尔®至强®可扩展处理器
MLPerf被普遍认为是最具信服力的AI性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。目前,英特尔已拥有超100次性能结果,且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交CPU结果的厂商。
该结果亦展示了使用极具性价比,且随时可用的英特尔以太网800系列网络适配器,可以实现出色的扩展效率,此类适配器采用基于英特尔oneAPI的开源英特尔®以太网软件包。
说明:
* MLPerf 测试语料库由1%的GPT-3 模型代表组成。
声明:
产品性能或因使用方式、配置和其他因素而异。 了解更多信息,请访问 www.Intel.com/PerformanceIndex。
性能结果基于截至配置中所示日期的测试,可能不反映所有公开可用的更新。没有任何产品或组件是绝对安全的。
您的成本和性能结果可能会有所不同。
英特尔技术可能需要通过启用硬件、软件或服务激活。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。