AMD则路线清晰,有望通过APU征服数据中心市场。
英特尔曾发下宏愿,立场将CPU、GPU和内存芯片塞进统一的XPU封装当中。但如今,这个目标已然宣告失败。
在本周国际超级计算大会(ISC)之前的新闻发布会上,英特尔超级计算部门副总裁Jeff McVeigh透露,该公司的Falcon Shores平台不仅将有所延后,而且还放弃了按XPU打造的计划。

“我们之前尝试将CPU和GPU集成为统一XPU的努力恐怕还为时过早”,他还强调自Falcon Shores公布这一年间市场已经发生了巨大变化,继续坚持下去也没有实际意义。
McVeigh还专门将这种情况比喻成登山。“这就像是去登山,遇上了合适的窗口就有机会成功登顶。但如果天气变坏、自己状态不好,那就不该强迫自己非要去冲击极限。真正的极限挑战,应当在我们自己的状态、周遭环境乃至气候条件全部就绪后再开始。”
根据McVeigh的介绍,如今的AI和HPC工作负载具有极高的动态水平,根本无法简单集成。“而当工作负载相对固定,且基本不再发生巨大变化时,才是考虑集成的正确时机。”
但很多朋友可能还记得,Falcon Shores提出的模块化小芯片架构应该是具备灵活性优势才对。毕竟英特尔当初就计划根据实际用例需求,通过多个SKU交替灵活可调的CPU或GPU资源。这也正是转向小芯片架构并在统一封装内容纳所有资源类型的意义所在。
话虽如此,但芯片巨头的临时却阵倒也在意料之中。英特尔刚刚在今年3月拆分了其加速计算部门,当月晚些时候,部门负责人Raja Koduri跳槽到了另一家AI初创公司。此次重组还取消了Rialto Bridge项目——大家对阿贡国家实验室的Aurora超级计算机应该不会陌生,为这套系统提供动力的是Ponte Vecchio GPU,而Rialto Bridge则是Ponte Vecchio的继任者。好在从各方面来看,英特尔的Falcon Shores XPU计划虽被推迟到了2025年,但似乎没有被砍掉。可现在也能确定,如今的Falcon Shores跟英特尔去年提出的最初愿景已经相去甚远——当前能够融合的就只有GPU,根本不存在什么CPU、GPU和CPU+GPU配置。
McVeigh还在采访中坦言,虽然Falcon Shores成不了真正的XPU,但英特尔仍可能在适当的时候重启该项目。
英特尔不再追寻的CPU-GPU架构之梦,就由AMD MI300来继承。这款产品预计将于下个月首次亮相,届时市场上将根本没有竞争对手。
最近几个月来,AMD一直在完善MI300产品。今年1月,该公司展示了这款迄今为止最强大的加速处理单元(APU)——所谓APU,就是AMD心目中最能代表CPU-GPU架构的术语。
根据AMD今年1月分享的封装照片,这款芯片将配备24个Zen 4核心(与去年11月的AMD Epyc 4 Genoa平台相同),这些核心分布在由6块GPU晶片和8块高带宽内存模块(总容量128 GB)组成的两个小芯片之上。
在性能方面,AMD宣称这款芯片提供的“AI性能”可达到Frontier超级计算机中MI250X的8倍,每瓦性能也提升达5倍。根据科技外媒The Next Platform的说法,在支持具有稀疏性的8位浮点(FP8)数学运算时,该芯片的性能基本相当于MI250 X GPU的4倍,运行功耗则大致在900瓦左右。
如果情况属实,那么MI300A必然是一款更强劲、功率更高的芯片,肯定得配合水冷系统才能正常工作。但对HPC系统来说这倒不是大问题,毕竟大部分高性能计算设施早已普及了液体冷却,唯一的影响就是迫使老旧数据中心升级配套冷却系统,否则很可能被时代抛在身后。
从技术上讲,AMD并不是唯一一家打算靠CPU-GPU架构组合冲击数据中心市场的公司。去年3月公布了Grace Hopper超级芯片的英伟达,显然也想在这方擂台上一试身手。
但请注意,MI300和Grace Hopper是取向完全不同的两头性能猛兽。英伟达给出的解决方案是使用自家专有900 GBps NVLink-C2C互连,将Arm兼容型72核Grace CPU同GH100芯片匹配起来。虽然这样的设计消除了两种组件间靠PCIe连接这一瓶颈,但二者仍未真正融合、各自只能使用自己的内存。GH100芯片配备的是HBM3内存,而Grace CPU则耦合有512 GB的LPDDR5,提供500 GBps内存带宽。
另一方面,MI300A则非常靠谱地践行了APU的技术承诺——能够直接对同一HBM3内存进行寻址,无需依赖任何互连对数据进行往来复制。
虽然还不清楚AMD和英伟达谁能提供更好的性能、又各自适合哪些工作负载,但唯一可以肯定的是,英特尔在这场对抗中已经暂时出局。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。