AMD和英伟达已经宣布其下一代数据中心GPU将采用HBM4技术,而SK海力士希望成为主要供应商。
周五,这家韩国内存巨头宣布已完成HBM4开发,正准备开始大批量生产这些芯片。这一消息推动SK海力士股价上涨7%,这种反应是有充分理由的。
高带宽内存(HBM)已成为英伟达、AMD等公司高端AI加速器的关键组件。英伟达的Rubin系列和AMD的Instinct MI400系列GPU都在今年早些时候预发布,它们依赖内存供应商在2026年发布时能够提供充足的HBM4供应。
这一转变是因为GPU制造商遇到了现有HBM技术的限制,目前的容量上限约为36GB,每个模块的带宽约为1TB/s,使得英伟达B300或AMD MI355X等芯片的总内存带宽约为8TB/s。
随着向HBM4的迁移,带宽将显著提升。在3月的GTC大会上,英伟达透露其Rubin GPU将配备288GB的HBM4,实现13TB/s的总带宽。AMD计划在其即将推出的MI400系列GPU上装载更大容量的内存,这将为其首个机架级系统Helios提供动力。
从AMD 6月份的AI推进活动中我们了解到,这些产品将配备多达432GB的HBM,总带宽接近20TB/s。
SK海力士表示,通过将I/O终端数量增加到2048个(是HBM3e的两倍),有效地将HBM带宽提高了一倍。该公司认为这也将能效提升了40%以上。
虽然服务器中的普通DRAM通常不是主要的能耗来源,但HBM却是。从AMD MI300X的24GB增加到MI325的36GB模块,功耗从250W跃升至每个GPU约1千瓦。
SK海力士表示,除了更多I/O终端和改进的效率外,其芯片还超越了HBM4的JEDEC标准,实现了10Gb/s的运行速度。
三大HBM供应商中哪家最终将供应这些芯片还有待观察。虽然SK海力士在过去几年中赢得了英伟达大部分HBM业务,但三星和美光也在努力将HBM4推向市场。
美光在6月开始向客户提供36GB 12层高HBM4堆栈样品。与SK海力士类似,这些堆栈使用2048位接口,带宽大约是当前HBM3e模块的两倍。这家美国内存供应商预计明年某个时候开始批量生产这些堆栈。
与此同时,对于三星来说,HBM4为赢得英伟达业务提供了新机会。据报道,该供应商在让其HBM3e堆栈通过英伟达Blackwell加速器的验证方面遇到了困难。
Q&A
Q1:HBM4相比HBM3e有什么改进?
A:HBM4将I/O终端数量增加到2048个,是HBM3e的两倍,有效地将带宽提高了一倍,同时能效提升40%以上。SK海力士的HBM4还超越了JEDEC标准,实现了10Gb/s的运行速度。
Q2:下一代GPU对HBM4的需求有多大?
A:英伟达Rubin GPU将配备288GB的HBM4,实现13TB/s总带宽;AMD MI400系列GPU计划装载多达432GB的HBM,总带宽接近20TB/s,相比目前约8TB/s的水平有显著提升。
Q3:HBM4什么时候能大规模量产?
A:SK海力士已完成HBM4开发,正准备大批量生产。美光预计明年开始批量生产HBM4堆栈。这些产品主要服务于2026年发布的下一代数据中心GPU。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。