在以“AI无处不在 创芯无所不及”为主题的2023英特尔新品发布会暨AI技术创新派对上,英特尔正式推出第五代英特尔至强可扩展处理器(代号 Emerald Rapids,以下简称第五代至强)。
本次是英特尔至强可扩展处理器系列产品在一年内进行的第二次发布,相较于上一代产品,第五代至强可在相同热设计功耗 (TDP)范围内提供更高的算力和更快的内存。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立告诉记者,相较于前一代产品,第五代至强不仅“软件兼容”,同时也是“平台兼容”,这意味着国内的产业合作伙伴能够在第一时间快速升级至最新产品,并给终端用户带来性能可靠的云服务及相关产品。
第五代至强亮点多多
第五代至强拥有多达64核,三级缓存是上一代产品的近3倍。与此同时,该处理器具备8条DDR5通道,支持高达5600MT/s的传输速率,且采用英特尔超级通道互联(英特尔UPI)2.0以增加跨插槽内带宽,提供高达20GT/s的传输。此外,云服务供应商(CSP)采用基于第五代英特尔至强可扩展处理器的实例,将能够使用CXL Type 3内存设备来扩展内存容量。
火山引擎IaaS产品负责人李越渊表示,生成式AI对于CPU的能力,包括算力、内存、带宽都提出了很高要求。单芯片的能力,甚至单服务器的能力未必能够满足生成式AI的诉求,所以互联互通的能力非常重要。“随着CPU在AI能力上越来越强,性能越来越好,性价比也越来越高。”
与上一代产品相比,第五代至强在相同的热设计功率范围内,平均性能提升21%,并在一系列工作负载中将每瓦性能提升高达36%。对于遵循典型的五年更新周期并从更前一代处理器进行升级的客户,总体拥有成本最多可降低77%。
以ChatGPT为例的生成式人工智能带来了一个全新的火爆趋势,众多软、硬件公司正在加速推进AI在各行各业的应用和落地。
自第一代至强处理器开始,英特尔一直注重加速AI工作负载,比如推出AVX512等指令集。第四代至强则搭载了英特尔AMX(英特尔高级矩阵扩展)内置加速器,在相较于前一代产品进行迭代性能提升之外,同时致力于为产品带来更优的AI性能。
在AI加速方面,第五代至强更是可将参数量多达200亿的大语言模型的推理性能提高42%,延迟低于100毫秒。现阶段,英特尔至强可扩展处理器也是唯一一款拥有MLPerf训练和推理基准测试结果并持续提升性能的CPU。
第五代至强可以说是为AI而生。不管是在云、网络,还是在边缘,英特尔至强处理器可配合业界成熟的软件解决方案来支持常见的自然语音处理、图像识别等AI应用。
英特尔可信域拓展(英特尔TDX)提供虚拟机(VM)层面的隔离和保密性,从而增强隐私性和对数据的管理。今年年初发布的第四代英特尔至强可扩展处理器中已集成英特尔TDX,而且特定的CSP已经能够应用该功能,随着新产品的推出,所有OEM和CSP解决方案提供商均可启用该功能。在基于英特尔TDX的机密虚拟机中,客户机操作系统和虚拟机应用被隔离开来,而不会被云端主机、虚拟机管理程序和平台的其他虚拟机访问。
同时,第五代至强与上一代产品的引脚兼容,包括思科、戴尔、HPE、浪潮信息、联想、超微电脑等在内的大型原始设备制造商 (OEM)将从2024年第一季度提供多款单核和双核处理器供市场选择,而主流CSP则将在明年逐步推出基于该款新产品的实例。使客户能够升级并大幅增加基础设施的使用寿命,同时降低成本和碳排放。
陈葆立表示,除了CPU,英特尔还提供FPGA、面对数据中心的GPU,以及AI加速芯片Gaudi等产品组合,满足不同客户在不同场景下对于AI算力的需求。“ 凭借全栈的产品和解决方案,在不同场景和不同需求下我们可以给客户提供不同的解决方案,包括端侧、数据中心、边缘计算等。”
阿里云服务器研发事业部高级总监王伟表示,未来AI应用场景中更多的算力会消耗在AI推理业务,并且会使用不同的处理器架构进行AI推理,以满足云端AI算力多样化、云端AI算力普惠的诉求。未来的大模型AI推理,也会随着应用场景的细分和成熟,部分场景也会降低对AI算力的消耗,发展到端云结合的模式。
在提供芯片产品的基础上,英特尔提供例如oneAPI的软件工具,帮助开发者和软件商能够基于英特尔芯片,创新他们的AI应用模型。
生态伙伴有话说
开放性的生态产业发展的关键,而封闭性的生态显然无法持久发展。
英特尔在中国的战略是“在中国,为中国”,与中国生态合作伙伴进行全方面的合作。这一生态链条也非常广泛,比如OEM厂商、互联网用户、IDC等。
陈葆立说,现在产品迭代非常快,在每次新产品发布之前,英特尔会提前一年甚至是一年半的时间介入和中国的合作伙伴合作,让他们知道英特尔的技术方向,他们也能够在自己的产品上做出及早的投入和验证。“英特尔已经与国内众多生态合作伙伴一起,完成了基于第五代至强的验证。目前在国内,已有超过20家的硬件伙伴,超过7家云服务商基于第五代至强,准备好了全新的服务器和云服务。”
百度与英特尔进行了针对大规模推理的早期测试,使用700亿参数的Llama 2开源大模型进行推理,采用4台内含第五代至强的服务器,并通过100G的高速网络联合在一起,相比单台的服务器,其性能提升了2.85倍。
随着第五代至强的上市,阿里云第八代计算实例也迎来了全面的计算升级。结合阿里云CIPU的架构,阿里云第八代实例在计算、存储、网络和安全等方面迎来了全面的性能提升。
王伟表示,阿里云第八代实例会更好的使能芯片加速引擎的能力,结合阿里云自身优势的软件基础栈能力,为用户提供更易用、更普惠的云端算力。经过数据测试对比,在英特尔AMX和TDX技术加持下,阿里云在多媒体、数据库、数据压缩和加解密、数据安全以及AI推理的多个场景中均获得了15%~25%的性能提升。
大语言模型是显存带宽密集型和显存容量密集型工作负载,第五代至强增加了内存带宽和L3Cache,有益于未来通过CPU进行生成式AI应用场景的运用。“阿里最近在第八代服务器上进行了各种AI的尝试,目前已经可以轻松的在CPU实例上运行各种生成式AI的模型。阿里云通义72B大模型,近期登顶开源社区排行榜,用户目前已经可以使用阿里云第八代ECS实例,运行阿里云通义72B大模型推理应用。”
阿里云在第四代至强芯片时代便已经在阿里云第八代实例上提供TDX机密计算服务。近期的AI热潮之下,用户也非常关心AI模型和AI数据安全的话题,结合英特尔TDX技术,阿里云第八代机密计算实例可以保障用户在整个AI推理过程中,模型和数据全流程的数据安全。
平安科技采用英特尔TDX技术,并就其联邦智能平台解决方案展开了技术合作。平台解决方案展开了技术合作。TDX技术可使联邦计算大模型在第五代至强上进行平滑地部署,其训练和推理的过程,均在加密的虚拟机内存当中执行,而节点之间的通信也能够通过加密及身份认证保证安全,由此构建一个可信的数据空间,实现数据共享,更好地保护合作方的利益和数据隐私安全。
依托字节跳动在云计算领域多年的积累和最佳实践,火山引擎和字节跳动采用同源的架构,提供大规模云原生的基础设施,帮助客户轻松应对各种流量高峰。
李越渊表示,为了追求极致的性能、规模、稳定性,火山引擎选择了“全栈自研,软硬一体”的策略打造差异化竞争力。伴随着第五代至强可扩展处理器的发布,火山引擎也在积极地准备算力迭代,结合自研技术,火山引擎三代英特尔实例进行全面的升级。
在最新的实例上,火山引擎计划推出多种基于英特尔硬件原生加速的能力,以Nginx为例,使用QAT进行数据压缩和证书验证的操作吞吐量最高可提升5倍,在RocksDB使用IAA进行数据压缩读写的吞吐最高可以提升1.9倍。
结语
第五代至强的推出,标志着英特尔正在持续推动自身产品路线图发展。据悉,下一代英特尔至强可扩展处理器明年即将推出。具备多达288个核心的能效核(E-core)处理器——Sierra Forest将于2024年上半年推出,性能核(P-core)处理器Granite Rapids也将紧随其后发布。展望2025年,代号为Clearwater Forest的下一代至强能效核处理器将基于Intel 18A制程节点制造。
英特尔这一两年一直在以稳健的执行力推动产品路线图发展,并按四年五个节点的节奏如期推进。英特尔的速度在加速,响应市场对于更新更快算力的需求。
英特尔立足技术创新,助力产业发展,繁荣生态建设,与生态合作伙伴一起,在人工智能大浪的驱动下,共创未来。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。