从初冬的北京来到11月的波特兰,并没有我想象的那么冷。
在英特尔Jones Farm会议中心,一场“热气腾腾”的会议正在举行。在历时近6个小时的技术分享后,英特尔CEO Pat Gelsinger的出现将活动推到了新的高潮。
Pat Gelsinger说,新一代的至强处理器代表了英特尔对于数据中心CPU的全新思考。“英特尔正在开发相关的技术和解决方案,助力用户能够在所有应用中轻松集成并高效地运行AI。英特尔的使命是通过精心打造的平台、安全的解决方案和对开放生态系统的支持,让AI无处不在。”
这场会议是英特尔DCAI部门面向媒体举行的Workshop,高管领导与技术专家系统介绍英特尔第五代至强可扩展处理器。
上次见到Pat Gelsinger还在9月份的英特尔On技术创新大会上,当时Pat Gelsinger提到了“芯经济”的崛起,芯片驱动的数字经济在蓬勃发展。
01 与AI时代同频共振
经历了PC时代、互联网时代的英特尔显然并不想在这个AI时代落伍,而围绕芯片的创新是重要抓手。
如今AI无处不在,正在革新各行各业,比如金融、健康、零售和制造业。有数据显示,2026年全球AI市场将达到3000亿美金。
英特尔公司执行副总裁、数据中心与人工智能事业部总经理兼可编程解决方案事业部首席执行官Sandra Rivera表示,生成式AI虽然开启了全新的想象空间,但是也带来前所未有的数据大爆炸、能源消耗、隐私安全等挑战。“我们正处于AI的早期阶段,英特尔致力于以安全的方式让AI更易得且容易部署。”
如何解决?英特尔认为这些会带来Hybrid AI的崛起,我们需要从云到端提升AI的扩展性与效率。混合AI使我们能使用边缘、客户端或云中的计算资源(在任何最有意义的地方)来创建基于AI模型的无缝体验。随这一趋势的发展,能够运行这些AI模型的异构芯片变得更具战略意义。但它还需要全行业共同努力,为客户提供最适合其使用场景的芯片和软件的开放性和多样性。
而这给英特尔带来巨大的市场机会,Hybrid AI需要异构化的芯片、开放的软件、行业标准化API。而这些正是英特尔x86架构的典型特质。
所以,英特尔正在构建一个从云到端的全面面向AI的平台,而在这一平台中CPU扮演了重要角色和中心位置。
英特尔致力于让AI无处不在——从云到网络,再到边缘和PC,通过开放的生态系统方法来实现这一目标,该方法提供更广泛的AI解决方案和更具成本效益的部署。这种方法使企业能够在一个安全的混合环境中,使人工智能更易于访问和扩展,以满足各种工作负载的需求。
英特尔公司副总裁兼英特尔至强产品和解决方案事业部总经理Lisa Spelman表示,客户需求在变化,其中便是AI优先。第一波浪潮是云,第二波浪潮是生成式AI,而且这一波浪潮从基础模型和GPU,过渡到平衡性的模型、加速器和CPU。“无论部署位置如何,云架构的价值都源于需要灵活性、效率、改进的服务等级协议和总体拥有成本经济效益。所有这些都为我们现在所处的下一个颠覆性的浪潮敞开了大门。”
英特尔正通过稳健的执行力,提升产品性能、效率提升的同时,降低TCO,并进一步推动CPU在诸多模型上的部署和应用合作。
英特尔在整个软件堆栈上的投资使开发人员能够使用他们熟悉的AI框架、工具包和语言,这些软件框架支持CPU、GPU、IPU和AI加速器,为开发人员提供可扩展的AI基础设施以及系统硬件和统一软件以提高生产力。这使得客户和开发人员能够专注于构建应用程序和服务,而不用担心功能或可移植性。
02 AI时代的CPU突围
AI时代到底我们还需要CPU吗?
这是个问题。当NVIDIA的市值突破万亿,GPU的缺货问题成为业界讨论的热点,人们似乎忘记了英特尔,虽然AMD还在用AI加速器来刷下存在感。
AI需求新的架构,而GPU成为首选,CPU备受诟病。毋庸置疑,GPU是AI时代的原生原则,其天然适配AI应用。
不过这并不意味着CPU无用武之地,不管是英特尔还是AMD,乃至Arm其实都在改进自己的CPU,试图更好地运行AI应用。
英特尔数据中心至强处理器的产品经理郭洪昌表示,在异构计算的大时代背景下,CPU是一个不可或缺的推动力量,起到排头兵作用。
青云科技副总裁沈鸥接受至顶网独家专访时表示,AI时代,CPU市场面临新的挑战,但并不是说CPU就不再重要。高性能的CPU仍然会发挥重要的作用。比如,作为整个计算机系统的核心,CPU负责协调和管理各种任务。再如,CPU在处理文本处理、数据清洗、特征提取和数据缩放等前期数据处理工作中发挥了重要作用,为后续数据建模和训练提供了良好的数据基础。CPU厂商也很早就开始为AI做功能优化,英特尔推出的Extension for Transformer创新工具包中的LLM Runtime就能为诸多模型显著降低时延。
宝德计算IA BU产品总监刘磊也表示,在AI时代,CPU的角色定位和价值确实有了新的变化,但其在计算机系统中的核心地位不可替代。首先CPU在AI应用中不仅是计算机系统的指挥中心,负责协调各个部件的工作,同时也是各种算法和计算任务得以执行的关键,CPU的价值在于其作为计算机系统的中枢。同时CPU的设计和架构也在不断演进,以适应不断变化的应用需求和技术趋势。虽然CPU在AI应用中计算能力相对弱势,但它具有高度的灵活性、适应性和可编程性,这些优势在AI应用中仍然非常重要。另外CPU在处理一些复杂任务时仍然具有不可替代的作用,例如在需要高度协调和精细化操作的任务中,成为支撑整个计算机系统运行的核心组件。
其实,英特尔至强对于AI加速功能的加载可以追溯到第三代至强可扩展处理器,其加入了英特尔深度学习加速技术(英特尔DL Boost)。
而在第四代的英特尔的至强可扩展处理器则增加了英特尔AMX,其是一种新的内置加速器,可提高CPU的深度学习训练和推理性能。
英特尔第五代至强可扩展处理器则带来了更多的AI功能。通过内置AI加速功能,企业不需要购买独立的加速器,就可以处理AI工作负载。
而且最为重要的是英特尔提供了一种开放标准框架,企业可以直接使用开源预训练AI模型。
所以说,AI时代,CPU需要重新给自己定位,从原有单一的通用计算转向多元计算的单元。比如现在不管是英特尔还是AMD、NVIDIA都在试图融合CPU与GPU架构。
众所周知,历史包袱是每一个节点产品必须面对的,比如CPU跨越了PC和互联网,但是在AI时代,GPU成了颜值担当,CPU如何找到新的价值点成为英特尔需要思考的。
反观业界成功的转型案例就是微软,其成功从原有的软件公司成为一家云公司,将其成功的Windows和Office软件变为可订阅的软件服务。
那对于英特尔,他能够将自己的CPU也变成面向AI的产品呢?
03 和自己赛跑,第五代至强都有哪些改进?
从目前的市场份额看,至强处理器是数据中心市场的王者,近期英特尔也出货了第一百万片第四代英特尔至强可扩展处理器。
对于第五代英特尔至强可扩展处理器,业界也是充满期待。不过在与对手交锋之前,英特尔首先需要战胜自己。
相比上一代产品,第五代英特尔至强可扩展处理器的特点可以概括为面向AI时代的最佳CPU、领先的性能表现、出色的TCO与能效。
与上一代产品相比,第五代至强可扩展处理器在相同TDP下平均性能提升21%,核数达到64,单核性能更高;内存带宽提升高达16%,三级缓存容量提升2.7倍;全新的I/O技术加持,CXL、PCIe5、UPI速度提升。
构建和部署AI在至强处理器上变得唾手可得。英特尔加速引擎实现了10倍的每瓦性能表现。IBM watsonx采用至强处理器提升了2.7倍的查询吞吐量,stability.ai采用至强处理器和Gaudi 2的AI超级计算机进入了全球TOP15。
相比上一代至强处理器,第五代至强可扩展处理器在AI推理的性能表现提升了42%,而通用计算性能提升了21%,能耗提升了36%。
第五代英特尔至强可扩展处理器是英特尔更具可持续发展能力的数据中心处理器,借助可提升每瓦性能的内置加速器和能效管理功能来减少碳足迹和TCO。
可持续发展不仅事关社会责任,也会对企业的成本结构造成影响。更高的单核性能可以降低能耗和所需服务器数量,满足性能要求的同时降低TCO。高效节能的第五代至强可扩展处理器可以实现77%的TCO降低,相比上一代1.34倍的能效比提升,Idle闲置时候可以节约100W能耗。
此外,在安全性方面,第五代至强可扩展处理器支持英特尔SGX和英特尔TDX,基于可信执行环境(TEE)的机密计算能够帮助保护数据和AI模型。
总的看来,第五代英特尔至强可扩展处理器依然保持了一贯的产品迭代节奏,在功能特性、性能表现等方面相比上一代实现了提升。
04 与对手PK,第五代至强都有哪些突破?
CPU是英特尔的既有赛道,但是这条赛道正在迎来强势玩家,比如AMD和NVIDIA。这是头部企业的宿命,因为作为TOP One,你会成为被追赶的目标。但是对于处于TOP ONE的英特尔来说,却走入了无人区,这对企业的创新能力提出更高的要求。
在过去的一两年内,AMD在数据中心的表现令业界刮目相看。根据市场研究机构MercuryResearch最新公布的数据,AMD在2023年三季度在服务器CPU市场取得了显著的收入和份额增长,将其市场份额从之前的17.5%提高到了29.4%。这要归功于第四代EPYC处理器,使得AMD在数据中心市场的表现十分抢眼。
而NVIDIA也推出了融合CPU和GPU的产品——GH200 Grace Hopper超级芯片,将英伟达的Grace CPU与H100 GPU集成在一起,通过超高的带宽连接,从而比单个H100配合其他的CPU能提供更强的性能表现。
这些给英特尔的巨大的压力,英特尔至强处理器需要拿出真正的本领来保住自己的地盘不被蚕食。
在通用计算方面,英特尔在工作负载方面保持了已有的表现。在AI方面,除了GPU,CPU现在还在面临FPGA、AI加速器等异构芯片的“围追堵截”,英特尔也在为至强注入更多的AI能力。
英特尔自身技术专家Allen Chu告诉记者,将AI工作负载进行分解时,CPU非常适合基础推理。当需要专用加速时,GPU非常适合。但具体是采用CPU还是GPU,要根据具体使用情况来判断。“当客户看到至强处理器一代又一代的性能提升时,他们总会需要思考是否更新自己的CPU设备。尽管现在很多人都在购买GPU,但CPU需要处理的工作负载并没有消失。GPU将继续为人工智能中一些最高且不断增长的工作负载提供服务,而对于在CPU上运行的大量人工智能,我们也正在为其提供领先的技术和创新,以使其持续应用CPU并取得傲人的成绩,同时CPU也将持续为驱动和运行数据中心的广泛工作负载。”
当前,面对AI的计算需求,x86架构的通用处理器通过内置AI能力是一种比较理想的选择。为什么这么说?
因为x86架构具有成熟的市场应用和广泛的用户,比较理想的情况是如果x86的CPU能够很好地运行AI应用,那么对于用户来说将是巨大的利好。
测试数据显示,与第四代AMD EPYC处理器相比,第五代英特尔至强可扩展处理器的AI推理性能提升高达2.7倍。
在性能表现方面,与第四代AMD EPYC处理器相比,第五代英特尔至强可扩展处理器启用内置加速器时可将每瓦性能提升3倍。
与NVIDIA GPU相比,英特尔至强处理器处理的AI任务更全面广泛,涉及从数据预处理到推理整个AI管线。
除了硬件级创新产品,英特尔在软件堆栈工具方面也持续投入,比如oneAPI和OpenVINO、Pytorch、TensorFlow和DeepSpeed,为开发人员提供了使用硬件架构的开放性和可选择性。
“英特尔与开放的生态系统合作扩展技术方面久经考验,通过对开发者生态系统、工具、技术和开放平台的长期投入,使客户能够在其基础设施中已有的通用处理器上面轻松部署AI。”Sandra Rivera说。
05 对标H100,Gaudi 2会是最佳选择吗?
目前以GPU为主导的AI架构超越了原有的x86的云架构。对于英特尔来说,NVIDIA是其前行路上不可回避的对手。
尽管英特尔至强可扩展处理器可以运行诸多AI工作负载,但为了支持更大的模型规模和满足广泛的系统需求,需要采用异构计算的方法,使用不同的计算架构。
除了CPU,英特尔在GPU、AI加速器等XPU方面展开多样化布局。Gaudi 2也许会成为英特尔挑战NVIDIA的重要砝码。
Gaudi 2定位为深度学习加速器,所以其可以更好地运行大语言模型应用,比如GPT-3模型、Stable Diffusion、BLOOMz。这得益于其内置可编程Tensor处理器核心(TPCs)、HBM2E内存等。
生成式AI和LLM的计算需求需要大规模的扩展,Gaudi 2深度学习加速器每张芯片集成了21个专用于内部互联的100Gbps(RoCEv2 RDMA)以太网接口,从而实现低延迟服务器内扩展。
在MLCommons公布的MLPerf训练3.0结果显示,Gaudi 2处理器在1750亿参数的GPT-3模型上,从256个加速器到384个加速器可实现接近线性的95%扩展效果。
而MLPerf推理v3.1性能基准测试结果显示,Gaudi 2在GPT-J-99和GPT-J-99.9 上的服务器查询和离线样本的推理性能分别为78.58 次/秒和84.08 次/秒。
H100相对于Gaudi 2仅表现出1.09倍(服务器)和1.28倍(离线)的轻微性能优势。
Gaudi 2拥有高于英伟达A100 2.4倍(服务器)、 2倍(离线)的性能。
Gaudi 2提交的结果采用FP8数据类型,并在这种新数据类型上达到了99.9%的准确率。
这一系列的测试成绩代表了Gaudi 2的巨大市场潜力。所以,英特尔内部也对Gaudi 2非常重视,Intel Lab使用Gaudi 2构建了Bridge Tower和LDM3D应用
相比于第一代Gaudi处理器,Gaudi 2制程工艺从16纳米提升至7纳米、Tensor处理器内核数量增加了三倍、增加GEMM引擎算力、封装的高带宽存储容量提升了三倍、SRAM带宽提升以及容量增加一倍。对于视觉处理模型的训练,Gaudi2处理器集成了媒体处理引擎,能够独立完成包括AI训练所需的数据增强和压缩图像的预处理。
令人激动人心的是2024年,Gaudi 3即将到来,这也将极具看点,其将采用5nm工艺制程,1.5倍的HBM带宽、2倍的网络带宽,以及4倍的BF16计算性能。而且Gaudi 3也会支持液冷选项,带来更加环境友好的AI基础设施。
在英特尔公布至强与Gaudi产品更新的同时,AMD发布了MI300系列加速芯片,包括大型GPU MI300X,还有集成CPU与GPU的MI300A。看来,Gaudi不要光对标H100,还需要面临AMD的压力。
英特尔、AMD、NVIDIA在AI加速芯片方面的你追我赶对于客户和市场是好事,毕竟我们也多了一份选择。
06 AI的有一选择——FPGA
高性能与低功耗如何兼顾?比如边缘计算和云的结合,更低的时延和更高效的功耗、性能成为刚需,特别是在AI的扩展性方面。FPGA在数据处理方面可以针对AI来进行预先的部署,可以在任何的新型神经网络上进行快速部署,满足小批量、实时的AI技术运用。
英特尔可编程解决方案事业部(PSG)能够提供丰富的产品组合,满足业界对于FPGA的期待。值得一提的是英特尔官方宣布,将其可编程解决方案事业部(PSG)业务拆分为独立业务,2024年1月1日开始独立运营,未来2-3年将独立IPO。而Sandra Rivera将担任CEO。
2023年,英特尔计划发布15款FPGA新品,截至目前,已经推出共计11款产品,这一数量超出了英特尔历年来发布的FPGA产品总数。
面对AI应用场景在云端、网络和边缘等领域的高速增长,英特尔通过全栈的FPGA产品为从边缘到云提供基于FPGA的AI可扩展性,并以较低的总体拥有成本(TCO),充分释放AI潜能。
例如英特尔Agilex 5 FPGA系列:采用第二代英特尔Hyperflex FPGA架构和英特尔7制程工艺,对晶体管的每瓦性能进行了优化,从而实现出色的能耗。同时采用英特尔上一代高端产品中嵌入的业界首个针对AI优化的模块,并将其扩展至Agilex 5 FPGA的中端产品中,为边缘AI应用提供了理想选择。
07 伙伴有话说
对于英特尔而言,强调的生态系统是其能够笑傲江湖的关键。
就像PC时代的Wintel,AI时代英特尔的生态能不能打开新的局面变得至关重要。
从ODM、OEM、CSP、SI到ISV,英特尔的生态链异常庞大。而且英特尔生态的一大特色是开放性。这种开放性在笔者看来非常重要,唯有开放,你才能聚集伙伴。
英特尔在中国的战略是“在中国,为中国”,与中国生态合作伙伴进行全方面的合作。这一生态链条也非常广泛,比如OEM厂商、互联网用户、IDC等。
英特尔的愿景是构建一个开放的解决方案生态系统以消除供应商局限,并基于行业标准协议,联合生态伙伴共同提供在成本、功耗、系统集成及开放软件方面具有差异化的完整解决方案。
英特尔数据中心与人工智能集团兼副总裁兼中国区总经理陈陈葆立说,现在产品迭代非常快,在每次新产品发布之前,英特尔会提前一年甚至是一年半的时间介入和中国的合作伙伴合作,让他们知道英特尔的技术方向,他们也能够在自己的产品上做出及早的投入和验证。
例如英特尔与互联网客户开展了紧密合作,比如美团采用英特尔第四代至强可扩展处理器进行包括目标识别(Object recognition)或者是计算机视觉(Computer vision)等AI推理工作负载,取得了不错的成绩。其他的互联网公司包括字节、阿里等亦是如此。比如京东云、阿里云等都实现了AIGC的应用加速;东软、用友、金蝶等企业应用引入NLP、OCR等功能,而英特尔与他们合作一起加速应用运行。
陈葆立表示,英特尔与互联网公司的合作成果能否推广到其他行业也是英特尔努力的方向。“AI的算力不是单维度而是多维度的,竞争没有结束。我们一直在思考、创新更好的产品,帮助用户在未来构建更好的推理或是训练的数据中心集群。”
每次英特尔新品的发布都会迎来伙伴的强力站台,这次第五代第五代英特尔至强可扩展处理器的发布也是如此。
伴随新一代至强处理器的发布,浪潮信息G7算力平台创新升级,多款G7单路和双路服务器支持英特尔最新发布的第五代至强处理器。浪潮信息服务器产品线总经理赵帅表示:“能效提升和绿色低碳是计算力发展的主旋律,算力的释放需要算力平台的高效设计,浪潮信息服务器采用以整机系统设计为核心的设计原则,针对用户的具体应用场景对计算力、存储空间、可扩展性的不同要求,有效结合平台化和模块化策略,让每一款产品都能高效地随需所变和释放最大能效,助力企业迎接智慧时代。”
青云科技一直和英特尔保持着良好的合作关系,也推出了一些软硬结合的最佳实践。比如青云AI算力服务平台跟英特尔9系列做适配,在推理场景得到了很好的应用。
沈鸥表示,第五代至强提高了计算性能和能效比,使云服务更加高效、灵活且可扩展,有助于有助于云厂商提高资源利用率,降低运营成本。同时还带来了更强大的数据和AI处理能力,有助于云厂商更好地满足客户需求。
刘磊说,第五代至强处理器显著提升了处理器的性能和能效,为不同领域的应用提供了更好的支持。“我们对第五代至强处理器的功能更充满期待,希望它能够继续引领高性能计算和数据中心领域的发展,为用户带来更好的性能、更高效的使用体验和更安全的保障。”
作为英特尔在国内最重要的战略合作伙伴,宝德继续发挥在服务器板卡到整机系统的自主研发优势,在技术研发、生态建设、市场推广等多个方面与英特尔展开深入合作,共同探索新一代至强CPU的应用场景和最佳实践,提升数据处理和计算效率。
目前,超过20家OEM/ODM厂商推出了基于第五代至强可扩展处理器的产品,超过7家的云计算厂商推出了相关实例。
08 AI无处不在
在英特尔On技术创新大会上,英特尔提出了Binging AI Everywhere的口号,从硬件到软件,全面拥抱AI。
GenAI(生成式AI)和LLM(大预言模型)需要深度学习性能、灵活性和开发者友好。
所以我们这次看到不管是第五代英特尔至强可扩展处理器还是Gaudi加速器、FPGA都是这种策略的产品体现。
在Pat Gelsinger担任英特尔CEO后,英特尔开始了大刀阔斧的革新,也就是IDM 2.0。
但是AI时代,NVIDIA成了新的引领者,AMD也在奋力直追。英特尔需要重新引领产业风向。
技术创新是半导体产业的底色,在“四年五个制程节点”的策略下,伴随着第五代英特尔至强可扩展处理器的发布,英特尔也进入了密集的产品发布周期:
具备高能效的能效核(E-core)处理器Sierra Forest将于2024年上半年上市。
紧随Sierra Forest发布的是具备高性能的性能核(P-core)处理器Granite Rapids。
展望2025年,代号为Clearwater Forest的下一代至强能效核处理器将基于Intel 18A制程节点制造。
在这一系列的宏伟产品发布路线图下,英特尔能否再次引领产业发展,我们拭目以待。(文/李祥敬)
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。