英特尔在本周举行的Hot Chips大会上揭开了旗舰数据中心GPU(代号Ponte Vecchio)的神秘面纱,而且根据英特尔的内部基准测试显示,该芯片的性能优于AMD MI250x,与Nvidia即将推出的H100 GPU展开正面交锋。
去年英特尔公布了Ponte Vecchio,这是英特尔在人工智能/机器学习以及高性能计算应用提供高性能GPU方面的第一次认真尝试。这款芯片本身实际上是一组内存和计算芯片,使用英特尔的Foveros和EMIB封装技术组合成一个“堆栈”,每个加速器有两个这样的堆栈。
根据英特尔研究员Hong Jiang的说法,这些堆栈可以当做一对GPU芯片或者一个逻辑芯片,具体取决于应用需求。
英特尔表示,基于设计选择,Ponte Vecchio将提供的52 teraflops的性能,FP32和FP64的峰值性能是相同的,领先于去年AMD公布的47.9Tflop (FP64) MI250X,并且与H100的60Tflops ( FP64)比较接近。
Hot Chips上公布的Ponte Vecchio(图片来源:英特尔)
附带说明一下,由于精度较低,通常FP32是FP64的一倍,但英特尔选择限制FP32的性能,与FP64保持一致。据推测,可能是因为英特尔认为当前FP64和适合AI的精度比32位浮点更重要。
英特尔还在Hot Chips大会上提及了XMX矩阵加速器的性能,在很多方面类似于Nvidia的Tensor核心。在单精度矩阵计算(Tensor浮点)中,英特尔称这些GPU的性能水平能达到419Tflops。
这一部分要归功于Ponte Vecchio配置了大型缓存,包括64MB寄存器文件、64MB一级缓存、408MB二级缓存和128GB HBM内存。
Jiang说:“这确实有助于我们将数据保存在芯片上,而不必进入HBM内存。”
没有可匹配的PCIe 5.0 CPU
英特尔和英伟达的GPU都依赖于PCIe 5.0来连接主机,这意味着将这些GPU与AMD基于PCIe 4.0的MI200系列GPU进行比较是不对等的。
新的PCIe规范为主机提供了两倍的带宽,但需要英特尔和AMD的下一代CPU,这两者目前都还没有问世。
虽然Nvidia在今年秋季推出时可以选择AMD的Epyc 4芯片或者是使用自己的Grace CPU,但英特尔似乎坚持使用全英特尔的架构。
在HotChips大会上,英特尔高管们展示了1U机箱中配置的四款液冷型Ponte Vecchio GPU,以及两个延迟已久的Sapphire Rapids Xeon Scalable处理器,不过Jiang指出,使用英特尔的Xe Link结构,最多可以将8个GPU连接到单个节点上。
据报道,英特尔把该芯片推迟到2023年第一季度,即原定发布一年半多之后。
因此,英特尔可能会等待其CPU部门提供完美的GPU之后再交付Sapphire Rapids。
超级芯片来了
当Ponte Vecchio真正上市的时候,对比可能就没有那么有利了。
AMD计划于2023年发布Instinct MI300加速器,并号称是“第一款数据中心APU”。
这些芯片将采用一个Zen 4处理器,和一个基于CDNA 3的GPU共同封装在一起。AMD曾在今年春季的一次演讲中表示,这款APU的性能将比MI250X提高8倍,但目前尚不清楚在实际环境中的性能表现如何。
英特尔、英伟达和AMD都在朝着这个方向发展。今年春季Nvidia在GTC大会上展示了自己的Grace-Hopper Superchip,采用基于Arm的Grace CPU和GH100 GPU、512MB LPDDR5X和80GB HBM3内存配置于一个1000W的封装中。
不容忽视的是,英特尔在今年5月也宣布了类似的Falcon Shores XPU计划,将把配备了HBM的Sapphire Rapids CPU和Ponte Vecchio GPU堆栈合并到一个封装中。
英特尔声称,该平台与“当前平台”相比将在每瓦性能、内存容量和带宽方面有5倍的提升。
即将来临的Rialto Bridge
Ponte Vecchio不仅面对来自Nvidia和AMD的竞争,而且如果拖延的时间再长一点,它的寿命就可能会被代号Rialto Bridge的继任者缩短。
实际上,我们之前就已经看到过类似情况发生过一次,英特尔的第11代Rocket Lake CPU于2021年初推出,但几个月之后就被更出色的Alder Lake所取代,后者在性能水平上有显著提升,核心数量和工艺制程也有改进。
Rialto Bridge预计将于明年开始提供样品,英特尔将把每个模块的功耗提高到800W,并且需要液体冷却的方式。
不管怎样,至少有一个客户正在热切地等待着Rialto Bridge的到来:美国能源部的阿贡国家实验室,该实验室计划在Aurora超级计算机中使用Rialto Bridge芯片。
好文章,需要你的鼓励
本文介绍了 Okta 公司欧洲、中东和非洲地区首席安全官 Stephen McDermid 的工作理念。他强调了与客户和合作伙伴保持密切联系的重要性,以及为所有人提供流畅体验的必要性。McDermid 还讨论了 Okta 的安全策略,包括主动监控、共享责任模式和提高内部安全文化等方面。
2024年,人工智能热潮持续高涨,企业纷纷采用AI技术,这对数据中心行业产生了深远影响。英国三大公有云巨头承诺建设更多数据中心以满足AI工作负载需求,新政府承诺降低数据中心建设障碍。然而,如何在实现发展目标的同时兼顾净零排放承诺,仍是业界面临的重大挑战。
本文概述了2024年云计算领域的重要事件和趋势。主要内容包括:超大规模云服务商财务业绩向好,人工智能需求旺盛,政府合同争议不断,混合云再受关注,以及微软等巨头面临反垄断调查等。这些事件反映了云计算市场的快速发展和日益激烈的竞争格局。
2024年,人工智能在办公效率和任务自动化方面的应用成为焦点。各大科技公司推出"副驾驶"类产品,旨在提升办公效率。同时,边缘计算AI和AI PC的发展也备受关注。尽管AI承诺提高生产力,但专家认为企业升级设备的明确需求尚不明确。文章还探讨了二手PC市场、云PC等相关话题。