半导体市场又到了“你方唱罢我登场”的时刻。当人们将目光瞄准在CES上的众多面向消费市场的处理器产品时,一场数据中心处理器的“暗战”已经打响。
北京时间2023年1月11日,英特尔正式推出第四代英特尔至强可扩展处理器和英特尔至强CPU Max系列产品,以及用于科学计算和人工智能的英特尔数据中心GPU Max系列产品。
作为英特尔的招牌,至强是王牌,一直引领数据中心市场。目前至强已经迭代到第四代,相比前几代产品,全新的至强处理器系列产品又带来哪些新期待呢?
笔者在参加过线下发布会后,总结一下新一代至强处理器的特点就是内置诸多加速引擎,针对不同的业务工作负载进行优化,从而实现性能的高表现。
第四代至强处理器有何变化?
在制程工艺方面,第四代英特尔至强可扩展处理器采用Intel 7制程工艺。英特尔在制程方面的进展一直被业界所诟病,而Intel 7制程工艺的应用还是值得期待的。Intel 7基于FinFET晶体管优化,相较于10纳米SuperFin工艺每瓦性能提升10%-15%。
在架构层面,英特尔制定了全新的架构策略——即同时拥有基于性能核(P-core)和能效核(E-core)的双轨产品路线图,以将两个优化的平台整合为一个通用、定义行业发展的平台。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立告诉记者,在未来产品路线图上,英特尔会针对当前数据中心的能效需求推出定制化产品,助力实现可持续发展的双碳目标。
在接口和互联方面,第四代英特尔至强可扩展处理器提供卓越的整体性能,将支持DDR5、PCIe 5.0和CXL 1.1,引领整个行业向下一代内存和接口标准过渡。
新一代至强处理器以封装的形式将一个高速内存内置到芯片中,这样在运行科学计算,包括AI工作负载时会有很大的性能提升。这样英特尔至强CPU Max系统成为首款集成高带宽的x86处理器。

在加速器方面,凭借全新的集成加速器(用于人工智能加速的英特尔深度学习加速技术DL Boost,英特尔高级矩阵扩展AMX,英特尔数据保护与压缩加速技术QAT,英特尔数据流加速器DSA,英特尔动态负载均衡器DLB),第四代英特尔至强可扩展处理器通过针对AI工作负载的软硬件优化,相较上一代产品实现性能提升。
与前几代英特尔至强处理器相比,第四代处理器在使用内置加速器时帮助目标工作负载实现了平均每瓦性能效率2.9倍的提升。在优化电源模式下,客户还可以实现每个CPU高达70瓦的功率节省,同时将性能损失降至最低。
在笔者看来,新一代英特尔至强可扩展处理器内置如此众多的加速器是一大特色,因为此前CPU产品是PK核心和频率等参数,而现在处理器更加强调针对特定工作负载的优化。
针对电信网络的新功能,第四代英特尔至强可扩展处理器可以为虚拟无线接入网(vRAN)部署,提供高达两倍的容量增益。
此外,第四代英特尔至强可扩展处理器内置安全功能的英特尔软件防护扩展SGX、英特尔密码操作硬件加速等数项全新的增强型平台功能,满足数据安全性、法规遵从性和数据主权等要求。
值得注意的是,在今年9月的第二届英特尔ON技术创新峰会上,英特尔提出数据中心按需加速。通过全新的英特尔按需激活模式,客户可以在第四代英特尔至强可扩展处理器原始SKU的基本配置之外,开启额外的加速器组合,在业务有需求时获得更大的灵活性和更多的选择。
针对工作负载的加速器
全新第四代英特尔至强可扩展处理器通过丰富的内置加速器提供领先的性能,解决客户在AI、分析、网络、安全、存储和科学计算领域面临的重大计算挑战。

与前一代相比,第四代英特尔至强可扩展处理器通过内置加速器将目标工作负载的平均每瓦性能提升了2.9倍,在优化电源模式下每个CPU节能高达70瓦并对性能只产生极低的影响,同时将总体拥有成本降低52%到66%。
可持续性——第四代英特尔至强可扩展处理器拥有丰富的内置加速器,意味着英特尔能够提供平台级的功率节省,并缓解对额外独立加速方面的需求,帮助客户实现可持续发展目标。此外,新的优化电源模式可以为某些工作负载带来高达20%的插槽节能,而对性能的影响仅有不到5%。风冷和液冷的创新进一步降低了数据中心的总能耗,且第四代至强可扩展处理器在英特尔工厂制造时,运用了超过90%的可再生电力,并同时配备了一流的水资源回收设施。
人工智能——在AI方面,与前一代相比,通过内置英特尔高级矩阵扩展(英特尔AMX)加速器,第四代英特尔至强可扩展处理器将PyTorch实时推理和训练性能提升了10倍。第四代英特尔至强还将广泛的AI工作负载的推理和训练性能提升到新的高度。英特尔至强CPU Max系列在这些功能的基础上针对自然语言处理进行了扩展,将大型语言模型的处理速度提升多达20倍。借助英特尔的AI软件套件,开发者可以使用自己选择的AI工具,提高生产力并加快AI开发速度。该套件可以从工作站进行移植,使其可以在云中扩展,并一直扩展到边缘。同时,该套件已经针对400多个机器学习和深度学习AI模型进行了验证,涵盖所有商业细分领域最常见的AI应用场景。
网络——第四代英特尔至强包含一系列针对高性能、低时延网络和边缘工作负载进行了特别优化的处理器产品。对于如今电信、零售、制造和智慧城市等行业正在推动更加软件定义的未来,这些处理器将发挥关键性基石作用。对于5G核心工作负载,内置加速器有助于提高吞吐量和降低时延,而电源管理的升级则提高了平台的响应能力和能效。此外,与前几代相比,第四代英特尔至强在不增加功耗的情况下提供多达两倍的虚拟无线接入网(vRAN)容量。这使通信服务提供商能够将每瓦性能提高一倍,满足其关键的性能、扩展和能效需求。
科学计算——第四代英特尔至强可扩展处理器和英特尔Max系列产品具备可扩展、平衡的架构,其中整合了CPU、GPU和oneAPI的开放软件生态系统,适用于科学计算和AI等领域要求严苛的计算工作负载,旨在帮助解决全球最具挑战性的问题。
英特尔至强CPU Max系列是集成高带宽内存的x86处理器,能够在无需变更代码的情况下为科学计算工作负载加速。英特尔数据中心GPU Max系列提供极高的计算密度,且具有多种产品规格以满足不同的客户需求。
英特尔至强CPU Max系列可提供64GB的高带宽内存(HBM2e),为科学计算和AI工作负载大幅提高了数据吞吐量。与第三代英特尔至强可扩展处理器的高端SKU相比,英特尔至强CPU Max系列可为如能源、地球系统建模等一系列实际应用提供高达3.7倍的性能提升。
此外,英特尔数据中心GPU Max系列在单个产品上整合47个小芯片,集成了超过1000亿个晶体管,为诸如物理、金融服务和生命科学等极具挑战性的工作负载带来更高的吞吐量。相较上一代产品,英特尔数据中心GPU Max系列和至强CPU Max系列的结合,可以使生命与材料科学领域LAMMPS处理性能提升12.8倍。
数据中心GPU产品
除了第四代至强可扩展处理器,数据中心GPU产品也是一大亮点。

谈及GPU,你或许第一时间想到NVIDIA。但是英特尔基于XPU战略打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源支持未来的应用。
在不同的计算架构中,GPU的应用场景正在快速增长,除了绘制像素,GPU在人工智能、深度学习和科学计算等领域的应用正在帮助人类解决复杂的计算挑战。
数据中心GPU Max系列将超过1000亿个晶体管集成到一个47个小芯片封装中,为具有挑战性的工作负载(如物理、金融服务和生命科学)将吞吐量提升到新的水平。当与至强CPU Max系列搭配使用的时候,这一组合平台在运行大型原子/分子大规模并行模拟器时的性能要比上一代高出12.8倍。
同时,oneAPI开放软件生态系统集成可以从软件层面为硬件进行加速,从而满足高性能计算和人工智能中要求苛刻的计算工作负载。
生态之力
过去一年,半导体企业的日子并不好过,对于英特尔也是如此。
新一代至强处理器的发布承载了英特尔的众多期待,要知道在数据中心领域英特尔面对AMD、Arm、NVIDIA等众多企业的咄咄逼人。
在发布会上,腾讯云、天翼云、京东云、阿里云、火山引擎、浪潮信息、亚信科技等伙伴也在给英特尔站台,这也是英特尔维持其市场竞争力的关键。
产品的领先型固然重要,但是生态的加持也非常重要。特别是在数据中心领域,所以不管是Arm还是NVIDIA在产品层面持续迭代,同时也在软件生态方面进行了大力布局。

英特尔其实也在遵循这样的节奏,硬件是渐进式演进,软件平台进行生态合围。
结合当前的产业趋势,厂商与伙伴都在转型,每一个生态伙伴在寻找新的位置和角色,赋能和再发展。英特尔也在积极调整自己的生态策略,比如面向云厂商提供更多支持,同时也积极支撑传统伙伴的业务转变。
结语
第四代英特尔至强可扩展处理器持续迭代,这应该是客户乐见其成的。而且我们看到新一代产品在功能方面进行了增强,带来了很多激动人心的特性。
随着算力需求的持续增加,数据中心对于性能的需求也在增长,这就对处理器提出了更高的要求。不光是英特尔,我们看到AMD、Arm、NVIDIA等都在迭代产品去拓展数据中心市场。
所以,第四代英特尔至强可扩展处理器能不能给英特尔和客户的预期,接下来市场反响是关键。

“我们会投入很多的软件服务以及客户合作,让更多中国的产业伙伴,无论是互联网厂商还是ISV伙伴,或是软件方面的合作伙伴,能够更好地运用第四代至强处理器的功能。”陈葆立最后说。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。