AMD则路线清晰,有望通过APU征服数据中心市场。
英特尔曾发下宏愿,立场将CPU、GPU和内存芯片塞进统一的XPU封装当中。但如今,这个目标已然宣告失败。
在本周国际超级计算大会(ISC)之前的新闻发布会上,英特尔超级计算部门副总裁Jeff McVeigh透露,该公司的Falcon Shores平台不仅将有所延后,而且还放弃了按XPU打造的计划。
“我们之前尝试将CPU和GPU集成为统一XPU的努力恐怕还为时过早”,他还强调自Falcon Shores公布这一年间市场已经发生了巨大变化,继续坚持下去也没有实际意义。
McVeigh还专门将这种情况比喻成登山。“这就像是去登山,遇上了合适的窗口就有机会成功登顶。但如果天气变坏、自己状态不好,那就不该强迫自己非要去冲击极限。真正的极限挑战,应当在我们自己的状态、周遭环境乃至气候条件全部就绪后再开始。”
根据McVeigh的介绍,如今的AI和HPC工作负载具有极高的动态水平,根本无法简单集成。“而当工作负载相对固定,且基本不再发生巨大变化时,才是考虑集成的正确时机。”
但很多朋友可能还记得,Falcon Shores提出的模块化小芯片架构应该是具备灵活性优势才对。毕竟英特尔当初就计划根据实际用例需求,通过多个SKU交替灵活可调的CPU或GPU资源。这也正是转向小芯片架构并在统一封装内容纳所有资源类型的意义所在。
话虽如此,但芯片巨头的临时却阵倒也在意料之中。英特尔刚刚在今年3月拆分了其加速计算部门,当月晚些时候,部门负责人Raja Koduri跳槽到了另一家AI初创公司。此次重组还取消了Rialto Bridge项目——大家对阿贡国家实验室的Aurora超级计算机应该不会陌生,为这套系统提供动力的是Ponte Vecchio GPU,而Rialto Bridge则是Ponte Vecchio的继任者。好在从各方面来看,英特尔的Falcon Shores XPU计划虽被推迟到了2025年,但似乎没有被砍掉。可现在也能确定,如今的Falcon Shores跟英特尔去年提出的最初愿景已经相去甚远——当前能够融合的就只有GPU,根本不存在什么CPU、GPU和CPU+GPU配置。
McVeigh还在采访中坦言,虽然Falcon Shores成不了真正的XPU,但英特尔仍可能在适当的时候重启该项目。
英特尔不再追寻的CPU-GPU架构之梦,就由AMD MI300来继承。这款产品预计将于下个月首次亮相,届时市场上将根本没有竞争对手。
最近几个月来,AMD一直在完善MI300产品。今年1月,该公司展示了这款迄今为止最强大的加速处理单元(APU)——所谓APU,就是AMD心目中最能代表CPU-GPU架构的术语。
根据AMD今年1月分享的封装照片,这款芯片将配备24个Zen 4核心(与去年11月的AMD Epyc 4 Genoa平台相同),这些核心分布在由6块GPU晶片和8块高带宽内存模块(总容量128 GB)组成的两个小芯片之上。
在性能方面,AMD宣称这款芯片提供的“AI性能”可达到Frontier超级计算机中MI250X的8倍,每瓦性能也提升达5倍。根据科技外媒The Next Platform的说法,在支持具有稀疏性的8位浮点(FP8)数学运算时,该芯片的性能基本相当于MI250 X GPU的4倍,运行功耗则大致在900瓦左右。
如果情况属实,那么MI300A必然是一款更强劲、功率更高的芯片,肯定得配合水冷系统才能正常工作。但对HPC系统来说这倒不是大问题,毕竟大部分高性能计算设施早已普及了液体冷却,唯一的影响就是迫使老旧数据中心升级配套冷却系统,否则很可能被时代抛在身后。
从技术上讲,AMD并不是唯一一家打算靠CPU-GPU架构组合冲击数据中心市场的公司。去年3月公布了Grace Hopper超级芯片的英伟达,显然也想在这方擂台上一试身手。
但请注意,MI300和Grace Hopper是取向完全不同的两头性能猛兽。英伟达给出的解决方案是使用自家专有900 GBps NVLink-C2C互连,将Arm兼容型72核Grace CPU同GH100芯片匹配起来。虽然这样的设计消除了两种组件间靠PCIe连接这一瓶颈,但二者仍未真正融合、各自只能使用自己的内存。GH100芯片配备的是HBM3内存,而Grace CPU则耦合有512 GB的LPDDR5,提供500 GBps内存带宽。
另一方面,MI300A则非常靠谱地践行了APU的技术承诺——能够直接对同一HBM3内存进行寻址,无需依赖任何互连对数据进行往来复制。
虽然还不清楚AMD和英伟达谁能提供更好的性能、又各自适合哪些工作负载,但唯一可以肯定的是,英特尔在这场对抗中已经暂时出局。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。