AMD则路线清晰,有望通过APU征服数据中心市场。
英特尔曾发下宏愿,立场将CPU、GPU和内存芯片塞进统一的XPU封装当中。但如今,这个目标已然宣告失败。
在本周国际超级计算大会(ISC)之前的新闻发布会上,英特尔超级计算部门副总裁Jeff McVeigh透露,该公司的Falcon Shores平台不仅将有所延后,而且还放弃了按XPU打造的计划。

“我们之前尝试将CPU和GPU集成为统一XPU的努力恐怕还为时过早”,他还强调自Falcon Shores公布这一年间市场已经发生了巨大变化,继续坚持下去也没有实际意义。
McVeigh还专门将这种情况比喻成登山。“这就像是去登山,遇上了合适的窗口就有机会成功登顶。但如果天气变坏、自己状态不好,那就不该强迫自己非要去冲击极限。真正的极限挑战,应当在我们自己的状态、周遭环境乃至气候条件全部就绪后再开始。”
根据McVeigh的介绍,如今的AI和HPC工作负载具有极高的动态水平,根本无法简单集成。“而当工作负载相对固定,且基本不再发生巨大变化时,才是考虑集成的正确时机。”
但很多朋友可能还记得,Falcon Shores提出的模块化小芯片架构应该是具备灵活性优势才对。毕竟英特尔当初就计划根据实际用例需求,通过多个SKU交替灵活可调的CPU或GPU资源。这也正是转向小芯片架构并在统一封装内容纳所有资源类型的意义所在。
话虽如此,但芯片巨头的临时却阵倒也在意料之中。英特尔刚刚在今年3月拆分了其加速计算部门,当月晚些时候,部门负责人Raja Koduri跳槽到了另一家AI初创公司。此次重组还取消了Rialto Bridge项目——大家对阿贡国家实验室的Aurora超级计算机应该不会陌生,为这套系统提供动力的是Ponte Vecchio GPU,而Rialto Bridge则是Ponte Vecchio的继任者。好在从各方面来看,英特尔的Falcon Shores XPU计划虽被推迟到了2025年,但似乎没有被砍掉。可现在也能确定,如今的Falcon Shores跟英特尔去年提出的最初愿景已经相去甚远——当前能够融合的就只有GPU,根本不存在什么CPU、GPU和CPU+GPU配置。
McVeigh还在采访中坦言,虽然Falcon Shores成不了真正的XPU,但英特尔仍可能在适当的时候重启该项目。
英特尔不再追寻的CPU-GPU架构之梦,就由AMD MI300来继承。这款产品预计将于下个月首次亮相,届时市场上将根本没有竞争对手。
最近几个月来,AMD一直在完善MI300产品。今年1月,该公司展示了这款迄今为止最强大的加速处理单元(APU)——所谓APU,就是AMD心目中最能代表CPU-GPU架构的术语。
根据AMD今年1月分享的封装照片,这款芯片将配备24个Zen 4核心(与去年11月的AMD Epyc 4 Genoa平台相同),这些核心分布在由6块GPU晶片和8块高带宽内存模块(总容量128 GB)组成的两个小芯片之上。
在性能方面,AMD宣称这款芯片提供的“AI性能”可达到Frontier超级计算机中MI250X的8倍,每瓦性能也提升达5倍。根据科技外媒The Next Platform的说法,在支持具有稀疏性的8位浮点(FP8)数学运算时,该芯片的性能基本相当于MI250 X GPU的4倍,运行功耗则大致在900瓦左右。
如果情况属实,那么MI300A必然是一款更强劲、功率更高的芯片,肯定得配合水冷系统才能正常工作。但对HPC系统来说这倒不是大问题,毕竟大部分高性能计算设施早已普及了液体冷却,唯一的影响就是迫使老旧数据中心升级配套冷却系统,否则很可能被时代抛在身后。
从技术上讲,AMD并不是唯一一家打算靠CPU-GPU架构组合冲击数据中心市场的公司。去年3月公布了Grace Hopper超级芯片的英伟达,显然也想在这方擂台上一试身手。
但请注意,MI300和Grace Hopper是取向完全不同的两头性能猛兽。英伟达给出的解决方案是使用自家专有900 GBps NVLink-C2C互连,将Arm兼容型72核Grace CPU同GH100芯片匹配起来。虽然这样的设计消除了两种组件间靠PCIe连接这一瓶颈,但二者仍未真正融合、各自只能使用自己的内存。GH100芯片配备的是HBM3内存,而Grace CPU则耦合有512 GB的LPDDR5,提供500 GBps内存带宽。
另一方面,MI300A则非常靠谱地践行了APU的技术承诺——能够直接对同一HBM3内存进行寻址,无需依赖任何互连对数据进行往来复制。
虽然还不清楚AMD和英伟达谁能提供更好的性能、又各自适合哪些工作负载,但唯一可以肯定的是,英特尔在这场对抗中已经暂时出局。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
LongLive-RAG由英伟达、USC与MIT联合提出,通过让AI检索自身生成的历史视频片段作为参考,解决长视频生成中的角色漂移和画面不一致问题。