英特尔在本周举行的Hot Chips大会上揭开了旗舰数据中心GPU(代号Ponte Vecchio)的神秘面纱,而且根据英特尔的内部基准测试显示,该芯片的性能优于AMD MI250x,与Nvidia即将推出的H100 GPU展开正面交锋。
去年英特尔公布了Ponte Vecchio,这是英特尔在人工智能/机器学习以及高性能计算应用提供高性能GPU方面的第一次认真尝试。这款芯片本身实际上是一组内存和计算芯片,使用英特尔的Foveros和EMIB封装技术组合成一个“堆栈”,每个加速器有两个这样的堆栈。
根据英特尔研究员Hong Jiang的说法,这些堆栈可以当做一对GPU芯片或者一个逻辑芯片,具体取决于应用需求。
英特尔表示,基于设计选择,Ponte Vecchio将提供的52 teraflops的性能,FP32和FP64的峰值性能是相同的,领先于去年AMD公布的47.9Tflop (FP64) MI250X,并且与H100的60Tflops ( FP64)比较接近。
Hot Chips上公布的Ponte Vecchio(图片来源:英特尔)
附带说明一下,由于精度较低,通常FP32是FP64的一倍,但英特尔选择限制FP32的性能,与FP64保持一致。据推测,可能是因为英特尔认为当前FP64和适合AI的精度比32位浮点更重要。
英特尔还在Hot Chips大会上提及了XMX矩阵加速器的性能,在很多方面类似于Nvidia的Tensor核心。在单精度矩阵计算(Tensor浮点)中,英特尔称这些GPU的性能水平能达到419Tflops。
这一部分要归功于Ponte Vecchio配置了大型缓存,包括64MB寄存器文件、64MB一级缓存、408MB二级缓存和128GB HBM内存。
Jiang说:“这确实有助于我们将数据保存在芯片上,而不必进入HBM内存。”
没有可匹配的PCIe 5.0 CPU
英特尔和英伟达的GPU都依赖于PCIe 5.0来连接主机,这意味着将这些GPU与AMD基于PCIe 4.0的MI200系列GPU进行比较是不对等的。
新的PCIe规范为主机提供了两倍的带宽,但需要英特尔和AMD的下一代CPU,这两者目前都还没有问世。
虽然Nvidia在今年秋季推出时可以选择AMD的Epyc 4芯片或者是使用自己的Grace CPU,但英特尔似乎坚持使用全英特尔的架构。
在HotChips大会上,英特尔高管们展示了1U机箱中配置的四款液冷型Ponte Vecchio GPU,以及两个延迟已久的Sapphire Rapids Xeon Scalable处理器,不过Jiang指出,使用英特尔的Xe Link结构,最多可以将8个GPU连接到单个节点上。
据报道,英特尔把该芯片推迟到2023年第一季度,即原定发布一年半多之后。
因此,英特尔可能会等待其CPU部门提供完美的GPU之后再交付Sapphire Rapids。
超级芯片来了
当Ponte Vecchio真正上市的时候,对比可能就没有那么有利了。
AMD计划于2023年发布Instinct MI300加速器,并号称是“第一款数据中心APU”。
这些芯片将采用一个Zen 4处理器,和一个基于CDNA 3的GPU共同封装在一起。AMD曾在今年春季的一次演讲中表示,这款APU的性能将比MI250X提高8倍,但目前尚不清楚在实际环境中的性能表现如何。
英特尔、英伟达和AMD都在朝着这个方向发展。今年春季Nvidia在GTC大会上展示了自己的Grace-Hopper Superchip,采用基于Arm的Grace CPU和GH100 GPU、512MB LPDDR5X和80GB HBM3内存配置于一个1000W的封装中。
不容忽视的是,英特尔在今年5月也宣布了类似的Falcon Shores XPU计划,将把配备了HBM的Sapphire Rapids CPU和Ponte Vecchio GPU堆栈合并到一个封装中。
英特尔声称,该平台与“当前平台”相比将在每瓦性能、内存容量和带宽方面有5倍的提升。
即将来临的Rialto Bridge
Ponte Vecchio不仅面对来自Nvidia和AMD的竞争,而且如果拖延的时间再长一点,它的寿命就可能会被代号Rialto Bridge的继任者缩短。
实际上,我们之前就已经看到过类似情况发生过一次,英特尔的第11代Rocket Lake CPU于2021年初推出,但几个月之后就被更出色的Alder Lake所取代,后者在性能水平上有显著提升,核心数量和工艺制程也有改进。
Rialto Bridge预计将于明年开始提供样品,英特尔将把每个模块的功耗提高到800W,并且需要液体冷却的方式。
不管怎样,至少有一个客户正在热切地等待着Rialto Bridge的到来:美国能源部的阿贡国家实验室,该实验室计划在Aurora超级计算机中使用Rialto Bridge芯片。
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。