英特尔在本周举行的Hot Chips大会上揭开了旗舰数据中心GPU(代号Ponte Vecchio)的神秘面纱,而且根据英特尔的内部基准测试显示,该芯片的性能优于AMD MI250x,与Nvidia即将推出的H100 GPU展开正面交锋。
去年英特尔公布了Ponte Vecchio,这是英特尔在人工智能/机器学习以及高性能计算应用提供高性能GPU方面的第一次认真尝试。这款芯片本身实际上是一组内存和计算芯片,使用英特尔的Foveros和EMIB封装技术组合成一个“堆栈”,每个加速器有两个这样的堆栈。
根据英特尔研究员Hong Jiang的说法,这些堆栈可以当做一对GPU芯片或者一个逻辑芯片,具体取决于应用需求。
英特尔表示,基于设计选择,Ponte Vecchio将提供的52 teraflops的性能,FP32和FP64的峰值性能是相同的,领先于去年AMD公布的47.9Tflop (FP64) MI250X,并且与H100的60Tflops ( FP64)比较接近。

Hot Chips上公布的Ponte Vecchio(图片来源:英特尔)
附带说明一下,由于精度较低,通常FP32是FP64的一倍,但英特尔选择限制FP32的性能,与FP64保持一致。据推测,可能是因为英特尔认为当前FP64和适合AI的精度比32位浮点更重要。
英特尔还在Hot Chips大会上提及了XMX矩阵加速器的性能,在很多方面类似于Nvidia的Tensor核心。在单精度矩阵计算(Tensor浮点)中,英特尔称这些GPU的性能水平能达到419Tflops。
这一部分要归功于Ponte Vecchio配置了大型缓存,包括64MB寄存器文件、64MB一级缓存、408MB二级缓存和128GB HBM内存。
Jiang说:“这确实有助于我们将数据保存在芯片上,而不必进入HBM内存。”
没有可匹配的PCIe 5.0 CPU
英特尔和英伟达的GPU都依赖于PCIe 5.0来连接主机,这意味着将这些GPU与AMD基于PCIe 4.0的MI200系列GPU进行比较是不对等的。
新的PCIe规范为主机提供了两倍的带宽,但需要英特尔和AMD的下一代CPU,这两者目前都还没有问世。
虽然Nvidia在今年秋季推出时可以选择AMD的Epyc 4芯片或者是使用自己的Grace CPU,但英特尔似乎坚持使用全英特尔的架构。
在HotChips大会上,英特尔高管们展示了1U机箱中配置的四款液冷型Ponte Vecchio GPU,以及两个延迟已久的Sapphire Rapids Xeon Scalable处理器,不过Jiang指出,使用英特尔的Xe Link结构,最多可以将8个GPU连接到单个节点上。
据报道,英特尔把该芯片推迟到2023年第一季度,即原定发布一年半多之后。
因此,英特尔可能会等待其CPU部门提供完美的GPU之后再交付Sapphire Rapids。
超级芯片来了
当Ponte Vecchio真正上市的时候,对比可能就没有那么有利了。
AMD计划于2023年发布Instinct MI300加速器,并号称是“第一款数据中心APU”。
这些芯片将采用一个Zen 4处理器,和一个基于CDNA 3的GPU共同封装在一起。AMD曾在今年春季的一次演讲中表示,这款APU的性能将比MI250X提高8倍,但目前尚不清楚在实际环境中的性能表现如何。
英特尔、英伟达和AMD都在朝着这个方向发展。今年春季Nvidia在GTC大会上展示了自己的Grace-Hopper Superchip,采用基于Arm的Grace CPU和GH100 GPU、512MB LPDDR5X和80GB HBM3内存配置于一个1000W的封装中。
不容忽视的是,英特尔在今年5月也宣布了类似的Falcon Shores XPU计划,将把配备了HBM的Sapphire Rapids CPU和Ponte Vecchio GPU堆栈合并到一个封装中。
英特尔声称,该平台与“当前平台”相比将在每瓦性能、内存容量和带宽方面有5倍的提升。
即将来临的Rialto Bridge
Ponte Vecchio不仅面对来自Nvidia和AMD的竞争,而且如果拖延的时间再长一点,它的寿命就可能会被代号Rialto Bridge的继任者缩短。
实际上,我们之前就已经看到过类似情况发生过一次,英特尔的第11代Rocket Lake CPU于2021年初推出,但几个月之后就被更出色的Alder Lake所取代,后者在性能水平上有显著提升,核心数量和工艺制程也有改进。
Rialto Bridge预计将于明年开始提供样品,英特尔将把每个模块的功耗提高到800W,并且需要液体冷却的方式。
不管怎样,至少有一个客户正在热切地等待着Rialto Bridge的到来:美国能源部的阿贡国家实验室,该实验室计划在Aurora超级计算机中使用Rialto Bridge芯片。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。