SK海力士不满足于仅仅发布三项新的AI NAND技术,还在为AI市场开发新的DRAM产品技术,表示希望成为全栈AI内存创造者。
SK海力士同时供应DRAM和NAND产品,并在11月3日在首尔举行的"SK AI峰会2025"上展示了其专注于AI内存的理念。背景是内存性能跟不上GPU发展,导致GPU的高带宽内存(HBM)容量和性能与GPU自身能力之间出现脱节。SK海力士表示,这一障碍被称为"内存墙"。尽管SK海力士已经开发并领导HBM市场,提供比标准DRAM更高的带宽内存,但这还不够。
总裁兼CEO郭鲁正表示:"我们将成为构建'全栈AI内存'的创造者,作为共同架构师、合作伙伴和生态贡献者。"
有两种潜在产品:定制HBM和AI DRAM(AI-D)。公司表示"定制HBM是将GPU和ASIC中的某些功能集成到HBM基板中的产品,以最大化GPU和ASIC的性能,并降低HBM的数据传输功耗。"例如,我们了解到它将HMB控制器从连接HBM堆栈到GPU的中介层一端的GPU堆栈移动到另一端的HBM基板芯片中。
SK海力士、闪迪和美光都在开发HBM4和HBM4E版本,最多支持16层堆栈。SK海力士在活动中提到了2029-2031年期间的下一代HBM5和HBM5E技术。
正在准备三种类型的AI-D:AI-D O(优化)、AI-D B(突破)和AI-D E(扩展)。
AI-D O是一种低功耗、高性能DRAM,有助于降低总拥有成本。它使用MRDIMM、SOCAMM2和LPDDR5R技术。
MRDIMM是多路复用双列直插式内存模块,同时操作两个内存等级以提高内存数据访问速度。SOCAMM2是用于AI服务器的低功耗小型压缩附加内存模块。它由JEDEC固态技术协会作为开放行业标准(JESD318)开发,而非任何单一公司。
SK海力士DRAM营销部门执行副总裁兼负责人李钟元表示:"SOCAMM2是AI领域的DDR5杀手——相同容量,一半功耗,双倍插槽。"他将128GB SOCAMM2(9.6GT/s,约10W)与128GB DDR5 RDIMM(5.6GT/s,约25W)进行了比较。
LPDDR5R是低功耗双倍数据速率5 RAS,比传统LPDDR更可靠,RAS代表可靠性、可用性、可维护性。
AI-D B是SK海力士对内存墙障碍的解决方案,具有"灵活内存分配的超高容量内存"特性。它包括CMM(计算快速链路内存模块)技术和PIM(内存内处理)技术。CMM是连接CPU、GPU、内存和高性能计算系统中其他组件的接口,支持大规模超快速计算。
SK海力士表示,PIM将计算能力集成到内存中,解决AI和大数据处理中的数据移动瓶颈。
据我们了解,AI-D B采用2TB内存刀片,使用16个128GB SOCAMM2模块。每个刀片都是CXL结构NUMA节点,GPU操作系统可以看到最多16PB的内存地址空间,最多1000个GPU贡献其内存容量。一个GPU可以根据工作负载需求从这个池中借用备用内存容量来增加其内存容量。郭鲁正说:"内存墙是AI扩展的最大障碍。AI-D B将打破它。"
AI-D E是一个不太具体的技术理念。它指的是在数据中心之外使用包括HBM在内的内存产品,SK海力士希望将DRAM的使用案例扩展到机器人、移动性和工业自动化等领域。
SK海力士正在与英伟达合作开发HBM,并通过使用英伟达Omniverse的晶圆厂数字孪生技术提升自身晶圆厂生产力。公司表示与OpenAI在高性能内存方面有长期合作,并与台积电合作开发下一代HBM基板芯片。它还与NAVER Cloud合作,为真实数据中心环境优化下一代AI内存和存储产品。
可以在这里观看包括郭鲁正在首尔活动上的演讲视频。不过,视频是韩语的。
Q&A
Q1:什么是内存墙?为什么它会阻碍AI发展?
A:内存墙是指内存性能跟不上GPU发展,导致GPU的高带宽内存容量和性能与GPU自身能力之间出现脱节的现象。这成为AI扩展的最大障碍,因为数据传输速度限制了整体系统性能。
Q2:SK海力士的AI-D技术有哪些类型?各自有什么特点?
A:SK海力士开发了三种AI-D技术:AI-D O是低功耗高性能DRAM,帮助降低总拥有成本;AI-D B是超高容量内存,具有灵活内存分配功能,可以打破内存墙;AI-D E是将内存产品扩展到数据中心之外的应用领域。
Q3:SOCAMM2相比DDR5有什么优势?
A:根据SK海力士的数据,128GB SOCAMM2相比128GB DDR5 RDIMM具有显著优势:相同容量下功耗减半(约10W vs 25W),速度更快(9.6GT/s vs 5.6GT/s),并且支持双倍插槽数量。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
特拉维夫大学研究团队开发了SAEdit方法,使用稀疏自编码器实现精确的AI图像编辑控制。该技术能像调节音量一样精确控制编辑强度,实现从微笑到大笑的连续调节,同时确保编辑的高度解耦性,避免意外修改其他图像元素。方法具有出色的通用性,可应用于多个AI图像生成平台,为图像编辑领域带来重大突破。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
Code4Me V2是荷兰代尔夫特理工大学开发的开源AI编程助手平台,专为学术研究设计。它解决了商业AI编程工具透明度不足、无法获取交互数据的问题,提供了模块化架构和完整的数据收集框架。该工具性能可媲美商业产品,代码补全延迟仅186.31毫秒,同时支持内联补全和聊天功能。通过透明、可控制、可扩展的设计,为AI辅助编程研究提供了重要的基础设施平台。