生成式AI引发的算力需求在持续增加,企业纷纷转向GPU,不过现实却很残酷,缺货、禁运等问题成了棘手难题。
英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰告诉记者,大模型是对业务的辅助,比如聊天机器人、内容生成、提纲分析等,这些只是帮助企业提高生产力。尤其是在私有云上,企业没有必要再重新部署新的GPU平台。因为一个新的平台意味着需要考虑开发、运维等因素,成本有可能增加,而这对于企业来说也可能会成为负担。在CPU上运行大模型是一个非常好的选择。
基于已有认知,CPU并非是运行大模型的选择,然而,第五代英特尔至强可扩展处理器的问世让CPU运行大模型成为了现实。那么英特尔是如何做到的呢?
将硬件能力转化为用户价值
第五代英特尔至强可扩展处理器不仅针对不同工作负载实现了性能优化、助力高能效计算,并通过CPU将AI应用到更多场景,同时也为客户提供了较高的运营效率和可扩展的安全功能。
英特尔资深技术专家表示,从架构角度看,第五代英特尔至强可扩展处理器实现了制程技术改进、芯片布局、性能与能效、末级缓存和内存IO等方面的革新。
比如,第五代英特尔至强可扩展处理器基于Intel 7的制程,在系统的漏电流控制和动态电容方面进行了改进。通过这些调整,第五代至强在同等功耗下的频率可以提升3%,其中有2.5%是由漏电流控制贡献的,动态电容下降贡献了0.5%。
算力的提升需要更多的芯片核心,以及更多的内存带宽,更多的内存带宽意味着更多的IO。这些都在推动芯片面积不断增加,这会给芯片的良品率带来挑战。
现在主流的芯片设计都是把一颗CPU芯片切分成多个子芯片,用多芯片的方式封装在一个芯片上面。第五代至强通过把四片芯片改成两片芯片的设计,利用了EMIB技术实现芯片之间的高效互连,更好地对芯片的面积进行控制。
在性能和能效方面,第五代至强升级到Raptor Cove核心,核心数增加,从最多的60核升级到64核。与此同时,虽然处理器性能提升了,但是待机功耗下降。英特尔处理器全集成供电模块(FIVR)可实现更高的片上电源转换效率,增强主动空闲模式可以提高数据中心的供电有效性,帮助客户真正达到节电的目标。
此外,第五代至强支持高达5600MT/s传输的DDR5,并通过英特尔UPI 2.0增加带宽,提供高达20GT/s传输,并支持CXL Type 3工作流。值得一提的是,该处理器还能通过英特尔SGX/TDX为使用中的云端数据提供端到端硬件级防护能力。
借助这些功能更新,在工作负载性能表现方面,相较于第三代产品,第五代至强可扩展处理器在AI推理训练上最高提升了14倍,基础架构的存储能够达到2.8倍,网络边缘可以达到3.2倍,高性能计算能达到3倍,数据分析可以达到3.7倍。
强大AI能力加速客户AI应用落地
在过去的10年,英特尔致力于构建一个完备的生态,通过软、硬件结合帮助生态合作伙伴们充分挖掘和利用底层CPU能力。
英特尔在框架层、函数库层面上挖掘硬件能力,通过API接口调用把底层硬件能力完全应用起来。同时,在系统层、服务器层面上,将CPU、内存,以及网络整合成一个统一的有机整体。
英特尔资深技术专家表示,英特尔始终致力于在CPU上部署AI,对于通用的AI工作负载,英特尔采用AMX和AVX-512两个指令集,并基于OpenVINO对整个模型进行优化、量化。
面向AI时代,英特尔也在逐步优化CPU的架构。除了传统的CPU普通核计算之外,第五代至强可扩展处理器具备AMX加速功能,能够将许多矩阵运算从普通的CPU中卸载到AMX上面,通过专用加速器处理专用的业务逻辑,性能便会大幅提升。
借助分布式架构,CPU在推理方面的性能表现并不弱。基于硬件和软件的优化,第五代至强和第四代至强相比,在AI训练、实时推理、批量推理上,基于不同的算法,都可以看到不同性能的提升,最高可提升40%。
新一代至强的AI加速功能已经得到了合作伙伴的验证。例如百度云基于第五代至强的服务器,提供了可以在CPU上运行的大型计算模型的服务。在京东基于第五代至强的应用中,和前一代的处理器相比,亦在Llama2 13B的模型上,实现了50%的性能提升。
企业引入基于至强处理器的生成式AI服务,如聊天机器人或是知识库问答这种大模型应用,初期成本可以降低50%。
结语
目前,英特尔已经加速了产品迭代速度,并确保产品路线图能够有效执行。2024年,英特尔的下一代至强可扩展处理器也将迎来更新。
具备多达288个核心的能效核(E-core)处理器——Sierra Forest将于2024年上半年推出,性能核(P-core)处理器Granite Rapids也将紧随其后发布。
能效核(E-core)处理器主要是面向新兴云原生应用的高密度超高能效的运算进行能效的优化,以实现极致的每瓦性能。
步入AI时代,算力驱动芯片架构的持续创新,而英特尔的CPU也在持续进化,旨在全方位响应时代和客户的需求,让CPU的价值得以体现。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。