以ChatGPT为代表的AI应用正在引发新一轮的创新浪潮,随之而来的是算力需求持续增加,这就要求数据中心这一算力载体更加高效,而作为核心的处理器,亦需与时俱进。
面对日益多元的数字化创新需求,英特尔提出XPU产品战略,打造涵盖从云到端的全面产品组合,提供从CPU到GPU、FPGA、IPU等多种异构算力资源,为不同业务和应用场景需求提供定制化算力服务。
今年1月11日,英特尔发布了第四代英特尔至强可扩展处理器和英特尔至强CPU Max系列产品,相比上一代产品,新一代的至强处理器进行了诸多创新。
集成加速器,开启算力芯片新纪元
英特尔市场营销集团副总裁,中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰告诉记者,第四代至强可扩展处理器是一个高度创新的平台。该芯片采用Intel 7制程工艺制造,具有全新的芯片架构。通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器,以及业界领先的DDR5、CXL1.1、PCIe 5.0,加速千行百业应用落地。
第四代至强处理器内含面向AI、科学计算(HPC)、安全、网络、数据分析和存储的英特尔加速器引擎。相比增加CPU内核数,内置加速器对于提高工作负载的性能来说是能效更高的方式。
最新的英特尔加速器引擎、高带宽内存和软件优化可帮助提高目标工作负载的性能和能效,并通过充分CPU资源而节约成本。
这些加速器包括英特尔高级矩阵扩展(英特尔AMX)、英特尔数据保护与压缩加速技术(英特尔QAT)、英特尔数据流加速器(英特尔DSA)、英特尔动态负载均衡器(英特尔DLB)、英特尔存内分析加速器(英特尔IAA)、英特尔Speed Select技术(英特尔SST)、vRAN Boost等。
英特尔技术专家表示,通过增加加速器,英特尔可以提升每瓦性能,即提升能效比。而加速器内置在CPU中,离内存是更近,可以带来大幅的性能提升。
面向人工智能的英特尔AMX
如今AI类工作负载成为主流,英特尔AMX能够帮助提升CPU上的AI性能,助力高效的深度学习训练和推理。英特尔技术专家表示,英特尔AMX的创新性之一,在于第一次在CPU平台应用用于矩阵运算的单元Tiles。“英特尔加速器并不是改变算法,而是加速算法的计算。”
在人工智能运算领域,对数据精度的选择往往要求较高。通常来说,如果需要高精度便需要数据位宽较多的,诸如FP32、FP16;如果要求运算速度更快,则会选择数据宽度更小的,比如INT8。
这也对应人工智能的训练和推理两种场景,通常在训练的时候,用户希望模型的数据精度能够得到保证,通常要用BF16以上的数据精度来进行运算。而对于推理来说,因为运算量相对比较小,INT8即可满足要求。
英特尔AMX计算单元支持两种数据精度,一种是8bit的整形数据,还有16bit的浮点数据,我们称之为BF16。
在日常网上购物中,输入地址的时候我们会不断得到提示,最终省却复杂的输入过程,这在学术上叫做地址标准化。英特尔与阿里展开合作,基于第四代英特尔至强可扩展处理器的AMX单元将地址标准化的性能表现提升至原来的2.48倍,这一成果已经应用在淘宝。
此外,英特尔也将AMX的加速效果应用于腾讯太极机器学习平台支撑的搜索等应用场景,不仅帮助客户降低了对云服务实例的CPU数量的要求,同时性能上也得到提升。
目前,AIGC火爆出圈,而其背后是Stable Diffusion和大语言模型。从技术角度来说,这些模型里面大量使用了注意力机制,而注意力机制主要包括了矩阵相乘的运算,还有大量的指数运算。对此,英特尔AMX恰巧能够发挥作用。
在产业应用方面,英特尔与亚信、用友、金蝶、东软等伙伴在智能OCR或者叫文本识别领域展开了合作,比如电信智能营业厅、办公和财务领域的发票、医疗领域票据等,相应的应用性能提升达到了3到4倍。
面向数据密集型应用的英特尔IAA和英特尔DSA
在数据中心领域,数据服务类的应用包括内存数据库、关系型数据库、大数据分析应用、数据仓库应用、AI应用,以及一些企业的关键业务系统,比如ERP、SCM和CRM系统,它们的性能依赖于底层硬件平台的支撑。
英特尔IAA可以帮助更快速地运行数据库和分析工作负载并提升能效。对于内存数据库和大数据分析工作负载,该内置加速器可在提高查询吞吐量的同时减少内存占用。因此,英特尔IAA非常适合内存数据库、开源数据库以及RocksDB和ClickHouse等数据存储工作。
英特尔技术专家解释,Clickhouse需要对数据进行压缩/解压缩,这势必会带来性能的损失。而通过插件形式,Clickhouse借助英特尔IAA,可以提升42%的压缩比,为用户节省内存、带宽的使用。
通过优化数据移动和转换操作,英特尔DSA提高了存储、网络和数据密集型工作负载的性能。英特尔DSA专为卸载常见的、会导致数据中心规模部署开销的数据移动任务所设计,能够帮助加速CPU、内存和缓存,以及所有附加的内存、存储和网络设备之间的数据移动。
例如,在视频的直播和转播过程中,使用英特尔的Media Transport library,并结合英特尔DSA,可以节省66%的CPU资源。
大数据分析当中,数据往往是需要进行压缩的。英特尔QAT现被集成至处理器中。作为内置加速器,其可通过卸载加密、解密和压缩释放处理器内核,从而让系统能够支持更多客户端运行或实现降低能耗的目的。对于数据压缩场景,可以达到2倍的压缩吞吐提升。同时把计算资源交给了加速器,可以带来95%核占用率的降低。
目前,南大通用Gbase 8a、Microsoft SQL Server、星环科技ArgoDB、PingCAP TiDB等产品均实现了对于英特尔加速器的支持,性能提升表现明显。Microsoft SQL Server借助英特尔QAT使备份时间降低至小于原来1/3的时间,获得1.34倍的性能提升。
除了面向数据密集型工作负载的加速器,新一代至强可扩展处理器在内存、连接技术方面也进行了更新,包括支持DDR5、CXL1.1、PCIe 5.0等,这对于数据服务类应用亦有良好的提升效果。
生态伙伴的支持
自2017年英特尔推出了第一款至强可扩展处理器以来,英特尔已经向全球客户交付了超过8500万颗至强可扩展处理器,支持着全世界的数据中心。其中,在过去两年,第三代英特尔至强可扩展处理器已全球累计出货1500万颗。
每一次英特尔关键处理器的发布,都离不开生态伙伴的支持。现阶段,大多数主流OEM和ODM厂商都在出货基于第四代英特尔至强可扩展处理器的系统设计,而前十大云服务提供商也将在今年全年部署基于该款产品的云实例。
英特尔技术专家表示,英特尔正在利用自身在业内的影响力,在整个生态系统中构建对加速器的支持,保证加速器在上市的同时就能支撑大量的软件。
“英特尔一直坚持和发扬‘工程师精神’,为我们的客户和合作伙伴提供先进的平台产品和引领技术革新,英特尔技术创新的脚步从未停息,我们非常希望能够继续为我们的客户,尤其是中国的客户和中国的产业做出更多的贡献。”庄秉翰如是总结。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。