新的选择，英特尔全新Gaudi2处理器会带来哪些改变？原创

作者：李祥敬

近日，英特尔面向中国市场推出第二代Gaudi深度学习加速器——Habana Gaudi2。凭借性价比优势，Gaudi2可以提供更高的深度学习性能和效率，从而成为大规模部署AI的更优解。

如今，大模型驱动的算力需求持续激增，虽然GPU是首选，但是算力基础设施也需要新的处理器组合，让用户拥有更多的选择。

新的选择，英特尔全新Gaudi2处理器会带来哪些改变？

英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示，如今，人工智能是行业中最具颠覆性的技术，正在对我们的生活产生极大的影响。几乎每个行业都在寻求部署AI的方式，以提高生产力并推动创新。基于此，英特尔也正在与广泛市场细分领域的客户积极合作，致力于成功将AI部署到他们的业务中。

英特尔积极推动AI落地

近期火爆的生成式AI和LLM（大规模语言模型）极大地加速了AI的发展，并衍生出了诸多计算需求。

AI的数据流包括广泛而复杂的工作负载和多模态数据集。而面对AI的计算需求，并没有一种通用的解决方案。通用处理器广泛应用于数据摄取阶段和经典机器学习中，用于训练中小型模型。x86架构的大规模普及和其内置的AI能力使通用处理器已经成为解决AI数据流的理想解决方案。

Sandra Rivera说，英特尔致力于让客户更易于在计算发生的任何地方部署AI。例如第四代英特尔至强可扩展处理器中集成AI加速器——AMX人工智能加速引擎，与上一代相比，可以提供高达10倍的人工智能推理和训练性能提升。

新的选择，英特尔全新Gaudi2处理器会带来哪些改变？

除了硬件级创新产品，英特尔在软件堆栈工具方面也持续投入，比如oneAPI和OpenVINO、Pytorch、TensorFlow和DeepSpeed，为开发人员提供了使用硬件架构的开放性和可选择性。

“英特尔与开放的生态系统合作扩展技术方面久经考验，通过对开发者生态系统、工具、技术和开放平台的长期投入，使客户能够在其基础设施中已有的通用处理器上面轻松部署AI。”Sandra Rivera说。

全新Gaudi2训练加速器

管英特尔至强可扩展处理器可以运行诸多AI工作负载，但为了支持更大的模型规模和满足广泛的系统需求，需要采用异构计算的方法，使用不同的计算架构。而Gaudi深度学习加速器通过大语言模型进一步丰富了英特尔的人工智能产品阵列。

新的选择，英特尔全新Gaudi2处理器会带来哪些改变？

Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B，以第一代Gaudi高性能架构为基础，以多方位性能与能效比提升，加速高性能大语言模型运行。该加速器具备：24个可编程Tensor处理器核心（TPCs）、21个100 Gbps（RoCEv2）以太网接口、96GB HBM2E内存容量、2.4TB/秒的总内存带宽、48MB片上SRAM、集成多媒体处理引擎。

Habana Labs首席运营官Eitan Medina表示，Gaudi2能够为中国客户带来价值的关键因素在于它的杰出性能、可扩展性、全方位的能效比提升、易用性。

Gaudi2加速器的出色性能在6月公布的MLCommons MLPerf基准测试中得到了充分认证，其在GPT-3模型、计算机视觉模型ResNet-50（使用8个加速器）、Unet3D（使用8个加速器），以及自然语言处理模型BERT（使用8个和64个加速器）上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比，Gaudi2拥有卓越的性能与领先的性价比优势，能够帮助用户提升运营效率的同时，降低运营成本。

此外，Gaudi2可为大规模的多模态和语言模型提供出色的推理性能。在最近的Hugging Face评估中，其在大规模推理方面的表现，包括在运行Stable Diffusion（另一个用于从文本生成图像的最先进生成式AI模型之一）、70亿以及1760亿参数BLOOMz模型时，在行业内保持领先。

生成式AI和LLM的计算需求需要大规模的扩展，Gaudi2深度学习加速器的架构旨在高效扩展，以满足大规模语言模型及生成式AI模型的需求。其每张芯片集成了21个专用于内部互联的100Gbps（RoCEv2 RDMA）以太网接口，从而实现低延迟服务器内扩展。

在Stable Diffusion训练上，Gaudi2展示了从1张卡至64张卡近线性99%的扩展性。此外，MLCommons刚刚公布的MLPerf训练3.0结果，亦验证了Gaudi2处理器在1750亿参数的GPT-3模型上，从256个加速器到384个加速器可实现令人印象深刻的接近线性的95%扩展效果。

英特尔致力于支持客户轻松构建新模型，以及将当前基于GPU的模型业务和系统迁移到全新Gaudi服务器。基于此，英特尔打造了针对Gaudi平台深度学习训练和推理优化的SynapseAI软件套件。

携手中国生态加速Gaudi2落地

除了创新的硬件产品，英特尔通过开放的生态，加速AI的落地。比如百度智能云通过集成英特尔AMX加速引擎的第四代英特尔至强可扩展处理器为ERNIE-Tiny模型带来了多倍的性能优化。

百度智能云服务器高级经理何永占介绍说，基于AMX加速引擎的第四代至强可扩展处理器，百度和英特尔携手开展了多项的性能优化工作。如引擎优化提升处理效率，利用oneDNN，实现对AMX指令的高效调用和内存性能优化，为百度ERNIE听译版，也就是百度飞桨文心大模型轻量版带来了2.66倍的性能优化，取得了令人满意的效果。

目前，英特尔正与浪潮信息合作，打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。

浪潮信息AI&HPC产品线总经理刘军表示，浪潮信息这次推出的NF5698G7服务器在6U空间支持8颗基于开放加速模组OAM高速互联的Gaudi2 AI加速器，每颗Gaudi2芯片配置96GB HBM高速内存，共提供2.1Tbps的P2P互联带宽，支持全互联拓扑，满足大模型训练张量并行的通信需求；搭载2颗第四代至强处理器，支持AMX/DSA等AI加速引擎。

NF5698G7基于全球开放计算OCP开放加速器规范OAM/UBB进行产品设计，支持PyTorch、TensorFlow等主流AI框架和Megatron/DeepSpeed等流行开发工具，为生成式AI提供成熟、高性价比的开放生态产品方案。

除了浪潮信息，新华三和超聚变也将推出基于Gaudi2的服务器产品。

结语

几十年来，英特尔一直致力于为中国市场提供领先的基于标准的数据中心异构产品组合，使他们能够在任何地方部署人工智能。

“我们将继续致力于通用计算的开放生态系统建设，并通过Gaudi2深度学习加速器提供更高的深度学习训练性能，并提高用户的生产力，助力中国加速部署和应用AI。”Sandra Rivera最后说。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

新的选择，英特尔全新Gaudi2处理器会带来哪些改变？ 原创

来源：至顶网计算频道

2023

07/17

13:42

分享

点赞

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

端侧感知、私有闭环、量子协同， NVIDIA全栈异构计算范式“接管”实体产业底座

边缘智算筑基、全栈软硬协同，研华科技将AI带进产业闭环

千问AI眼镜将升级为智能体眼镜：能灵活调用Skill和Agent，能全天候感知

对话Moonix郭于晨：先让用户戴上“眼镜”，再让“AI”记录世界

亮相WAIC 2026，临床实证赋能康养升级 无芯科技定义AI疗愈新范式

生态覆盖持续扩散，一文看懂各行业企业鸿蒙化转型进度

WAIC亮出集群协作真功夫，优艾智合领跑工业具身智能规模化

脑部植入物助瘫痪男子重获进食与饮水能力

能源公司IPO融资创21世纪新高，押注AI基础设施热潮

Apple Intelligence获中国监管批准，携手阿里巴巴与百度正式进入中国市场

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

天翼云CPU实例部署DeepSeek-R1模型最佳实践

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

英特尔至强6新品发布，能为数据中心带来哪些改变？

英特尔推出具备高性能和能效的以太网解决方案

英特尔推出搭载至强6处理器的卓越AI和网络解决方案

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

新的选择，英特尔全新Gaudi2处理器会带来哪些改变？原创

亮相WAIC 2026，临床实证赋能康养升级无芯科技定义AI疗愈新范式