如今,大模型驱动的算力需求持续激增,虽然GPU是首选,但是算力基础设施也需要新的处理器组合,让用户拥有更多的选择。
近日,英特尔面向中国市场推出第二代Gaudi深度学习加速器——Habana Gaudi2。凭借性价比优势,Gaudi2可以提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera表示,如今,人工智能是行业中最具颠覆性的技术,正在对我们的生活产生极大的影响。几乎每个行业都在寻求部署AI的方式,以提高生产力并推动创新。基于此,英特尔也正在与广泛市场细分领域的客户积极合作,致力于成功将AI部署到他们的业务中。
英特尔积极推动AI落地
近期火爆的生成式AI和LLM(大规模语言模型)极大地加速了AI的发展,并衍生出了诸多计算需求。
AI的数据流包括广泛而复杂的工作负载和多模态数据集。而面对AI的计算需求,并没有一种通用的解决方案。通用处理器广泛应用于数据摄取阶段和经典机器学习中,用于训练中小型模型。x86架构的大规模普及和其内置的AI能力使通用处理器已经成为解决AI数据流的理想解决方案。
Sandra Rivera说,英特尔致力于让客户更易于在计算发生的任何地方部署AI。例如第四代英特尔至强可扩展处理器中集成AI加速器——AMX人工智能加速引擎,与上一代相比,可以提供高达10倍的人工智能推理和训练性能提升。
除了硬件级创新产品,英特尔在软件堆栈工具方面也持续投入,比如oneAPI和OpenVINO、Pytorch、TensorFlow和DeepSpeed,为开发人员提供了使用硬件架构的开放性和可选择性。
“英特尔与开放的生态系统合作扩展技术方面久经考验,通过对开发者生态系统、工具、技术和开放平台的长期投入,使客户能够在其基础设施中已有的通用处理器上面轻松部署AI。”Sandra Rivera说。
全新Gaudi2训练加速器
管英特尔至强可扩展处理器可以运行诸多AI工作负载,但为了支持更大的模型规模和满足广泛的系统需求,需要采用异构计算的方法,使用不同的计算架构。而Gaudi深度学习加速器通过大语言模型进一步丰富了英特尔的人工智能产品阵列。
Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。该加速器具备:24个可编程Tensor处理器核心(TPCs)、21个100 Gbps(RoCEv2)以太网接口、96GB HBM2E内存容量、2.4TB/秒的总内存带宽、48MB片上SRAM、集成多媒体处理引擎。
Habana Labs首席运营官Eitan Medina表示,Gaudi2能够为中国客户带来价值的关键因素在于它的杰出性能、可扩展性、全方位的能效比提升、易用性。
Gaudi2加速器的出色性能在6月公布的MLCommons MLPerf基准测试中得到了充分认证,其在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比,Gaudi2拥有卓越的性能与领先的性价比优势,能够帮助用户提升运营效率的同时,降低运营成本。
此外,Gaudi2可为大规模的多模态和语言模型提供出色的推理性能。在最近的Hugging Face评估中,其在大规模推理方面的表现,包括在运行Stable Diffusion(另一个用于从文本生成图像的最先进生成式AI模型之一)、70亿以及1760亿参数BLOOMz模型时,在行业内保持领先。
生成式AI和LLM的计算需求需要大规模的扩展,Gaudi2深度学习加速器的架构旨在高效扩展,以满足大规模语言模型及生成式AI模型的需求。其每张芯片集成了21个专用于内部互联的100Gbps(RoCEv2 RDMA)以太网接口,从而实现低延迟服务器内扩展。
在Stable Diffusion训练上,Gaudi2展示了从1张卡至64张卡近线性99%的扩展性。此外,MLCommons刚刚公布的MLPerf训练3.0结果,亦验证了Gaudi2处理器在1750亿参数的GPT-3模型上,从256个加速器到384个加速器可实现令人印象深刻的接近线性的95%扩展效果。
英特尔致力于支持客户轻松构建新模型,以及将当前基于GPU的模型业务和系统迁移到全新Gaudi服务器。基于此,英特尔打造了针对Gaudi平台深度学习训练和推理优化的SynapseAI软件套件。
携手中国生态加速Gaudi2落地
除了创新的硬件产品,英特尔通过开放的生态,加速AI的落地。比如百度智能云通过集成英特尔AMX加速引擎的第四代英特尔至强可扩展处理器为ERNIE-Tiny模型带来了多倍的性能优化。
百度智能云服务器高级经理何永占介绍说,基于AMX加速引擎的第四代至强可扩展处理器,百度和英特尔携手开展了多项的性能优化工作。如引擎优化提升处理效率,利用oneDNN,实现对AMX指令的高效调用和内存性能优化,为百度ERNIE听译版,也就是百度飞桨文心大模型轻量版带来了2.66倍的性能优化,取得了令人满意的效果。
目前,英特尔正与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。
浪潮信息AI&HPC产品线总经理刘军表示,浪潮信息这次推出的NF5698G7服务器在6U空间支持8颗基于开放加速模组OAM高速互联的Gaudi2 AI加速器,每颗Gaudi2芯片配置96GB HBM高速内存,共提供2.1Tbps的P2P互联带宽,支持全互联拓扑,满足大模型训练张量并行的通信需求;搭载2颗第四代至强处理器,支持AMX/DSA等AI加速引擎。
NF5698G7基于全球开放计算OCP开放加速器规范OAM/UBB进行产品设计,支持PyTorch、TensorFlow等主流AI框架和Megatron/DeepSpeed等流行开发工具,为生成式AI提供成熟、高性价比的开放生态产品方案。
除了浪潮信息,新华三和超聚变也将推出基于Gaudi2的服务器产品。
结语
几十年来,英特尔一直致力于为中国市场提供领先的基于标准的数据中心异构产品组合,使他们能够在任何地方部署人工智能。
“我们将继续致力于通用计算的开放生态系统建设,并通过Gaudi2深度学习加速器提供更高的深度学习训练性能,并提高用户的生产力,助力中国加速部署和应用AI。”Sandra Rivera最后说。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面