Hot Chips:英特尔揭开Ponte Vecchio GPU的神秘面纱

英特尔在本周举行的Hot Chips大会上揭开了旗舰数据中心GPU(代号Ponte Vecchio)的神秘面纱,而且根据英特尔的内部基准测试显示,该芯片的性能优于AMD MI250x,与Nvidia即将推出的H100 GPU展开正面交锋。

英特尔在本周举行的Hot Chips大会上揭开了旗舰数据中心GPU(代号Ponte Vecchio)的神秘面纱,而且根据英特尔的内部基准测试显示,该芯片的性能优于AMD MI250x,与Nvidia即将推出的H100 GPU展开正面交锋。

去年英特尔公布了Ponte Vecchio,这是英特尔在人工智能/机器学习以及高性能计算应用提供高性能GPU方面的第一次认真尝试。这款芯片本身实际上是一组内存和计算芯片,使用英特尔的Foveros和EMIB封装技术组合成一个“堆栈”,每个加速器有两个这样的堆栈。

根据英特尔研究员Hong Jiang的说法,这些堆栈可以当做一对GPU芯片或者一个逻辑芯片,具体取决于应用需求。

英特尔表示,基于设计选择,Ponte Vecchio将提供的52 teraflops的性能,FP32和FP64的峰值性能是相同的,领先于去年AMD公布的47.9Tflop (FP64) MI250X,并且与H100的60Tflops ( FP64)比较接近。

Hot Chips:英特尔揭开Ponte Vecchio GPU的神秘面纱

Hot Chips上公布的Ponte Vecchio(图片来源:英特尔)

附带说明一下,由于精度较低,通常FP32是FP64的一倍,但英特尔选择限制FP32的性能,与FP64保持一致。据推测,可能是因为英特尔认为当前FP64和适合AI的精度比32位浮点更重要。

英特尔还在Hot Chips大会上提及了XMX矩阵加速器的性能,在很多方面类似于Nvidia的Tensor核心。在单精度矩阵计算(Tensor浮点)中,英特尔称这些GPU的性能水平能达到419Tflops。

这一部分要归功于Ponte Vecchio配置了大型缓存,包括64MB寄存器文件、64MB一级缓存、408MB二级缓存和128GB HBM内存。

Jiang说:“这确实有助于我们将数据保存在芯片上,而不必进入HBM内存。”

没有可匹配的PCIe 5.0 CPU

英特尔和英伟达的GPU都依赖于PCIe 5.0来连接主机,这意味着将这些GPU与AMD基于PCIe 4.0的MI200系列GPU进行比较是不对等的。

新的PCIe规范为主机提供了两倍的带宽,但需要英特尔和AMD的下一代CPU,这两者目前都还没有问世。

虽然Nvidia在今年秋季推出时可以选择AMD的Epyc 4芯片或者是使用自己的Grace CPU,但英特尔似乎坚持使用全英特尔的架构。

在HotChips大会上,英特尔高管们展示了1U机箱中配置的四款液冷型Ponte Vecchio GPU,以及两个延迟已久的Sapphire Rapids Xeon Scalable处理器,不过Jiang指出,使用英特尔的Xe Link结构,最多可以将8个GPU连接到单个节点上。

据报道,英特尔把该芯片推迟到2023年第一季度,即原定发布一年半多之后。

因此,英特尔可能会等待其CPU部门提供完美的GPU之后再交付Sapphire Rapids。

超级芯片来了

 

当Ponte Vecchio真正上市的时候,对比可能就没有那么有利了。

AMD计划于2023年发布Instinct MI300加速器,并号称是“第一款数据中心APU”。

这些芯片将采用一个Zen 4处理器,和一个基于CDNA 3的GPU共同封装在一起。AMD曾在今年春季的一次演讲中表示,这款APU的性能将比MI250X提高8倍,但目前尚不清楚在实际环境中的性能表现如何。

英特尔、英伟达和AMD都在朝着这个方向发展。今年春季Nvidia在GTC大会上展示了自己的Grace-Hopper Superchip,采用基于Arm的Grace CPU和GH100 GPU、512MB LPDDR5X和80GB HBM3内存配置于一个1000W的封装中。

不容忽视的是,英特尔在今年5月也宣布了类似的Falcon Shores XPU计划,将把配备了HBM的Sapphire Rapids CPU和Ponte Vecchio GPU堆栈合并到一个封装中。

英特尔声称,该平台与“当前平台”相比将在每瓦性能、内存容量和带宽方面有5倍的提升。

即将来临的Rialto Bridge

Ponte Vecchio不仅面对来自Nvidia和AMD的竞争,而且如果拖延的时间再长一点,它的寿命就可能会被代号Rialto Bridge的继任者缩短。

实际上,我们之前就已经看到过类似情况发生过一次,英特尔的第11代Rocket Lake CPU于2021年初推出,但几个月之后就被更出色的Alder Lake所取代,后者在性能水平上有显著提升,核心数量和工艺制程也有改进。

Rialto Bridge预计将于明年开始提供样品,英特尔将把每个模块的功耗提高到800W,并且需要液体冷却的方式。

不管怎样,至少有一个客户正在热切地等待着Rialto Bridge的到来:美国能源部的阿贡国家实验室,该实验室计划在Aurora超级计算机中使用Rialto Bridge芯片。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2022

08/25

12:28

分享

点赞

邮件订阅