芯片的速度取决于为它们“上菜”的内存

AMD谈到在最近推出的96核Epyc Genoa CPU上,他们遇到了现代计算面临的最大挑战之一。在过去的几年中,处理器变得更加强大,它们速度已经超过了为这些内核提供数据的内存子系统的速度。
Gartner分析师Tim Harvey对The Register表示:“任何使用非常大内存占用的东西都需要大量的带宽来驱动内核。”“如果你随机访问这些数据,那你就会丢失很多缓存,所以能够非常快速地提取数据将非常有用。”
这绝不是一个新的现象,尤其是在高性能计算(HPC)工作负载中。我们的姊妹网站The Next Platform一直在跟踪计算能力与内存带宽的增长比率。
但是,虽然转向DDR5,4800MTps DIMM将比最快的DDR4的带宽提高50%,但是这本身并不足以满足AMD的96核Epycs。AMD的工程师们必须增加内存控制器的数量来弥补缺口。结合更快的DDR5,Genoa提供的内存带宽将达到Milan的两倍多。
这种方法并非没有代价。首先,添加更多通道需要为内存控制器提供更多的芯片空间。还必须考虑一些信令的问题,以支持连接到这些通道的大量DIMM。然后是将所有这些DIMM安装到传统机箱——特别是双插槽配置机箱中的物理挑战。
正因为如此,AMD可能至少会在未来几代产品中保持12个通道,转而依靠提高DDR5内存速度来提高带宽。
Micron预计在DDR5的生命周期内内存速度将达到8800MTps。在12通道系统中,这相当于大约840GBps的内存带宽。
Harvey表示:“DDR5的性能会随着时间的推移而提高,但我们在内核和内存带宽之间仍然会有巨大的缺口,并且很难解决这个问题。”
Optane继续存在
AMD解决这个问题的方法是将更多的内存控制器塞进芯片之中,并将更快的DDR5内存塞入系统,而英特尔在Xeon Max CPU上则采取了另一种方法,该芯片将为美国能源部延期已久的Aurora超级计算机提供动力。
这款以前被称为Sapphire Rapids HBM的芯片在56核第四代Xeon Scalable处理器中封装了64GB HBM2e内存,能够提供1TBps的带宽。
虽然从技术上说,你可以完全在HBM上运行芯片,但对于那些需要大量内存(比如存储大型自然语言模型)的人来说,英特尔支持两种配置的分层内存,这让人想起其最近被砍掉的Optane业务部门。
在英特尔的HBM平面模式下,任何外部DDR5都充当可单独访问的内存池。同时,在缓存模式下,HBM 更像是DDR5的4级缓存。
后者对于某些用例来说可能很有吸引力,因为它是透明的,并且不需要对软件进行任何修改。尽管如此,Harvey还是认为如果它的效果类似于英特尔的Optane持久内存,HBM可能不会充分发挥作用。
他表示:“大多数时候,CPU擅长在指令级别进行缓存;它们不太擅长在应用程序级别进行缓存。”他补充表示,在平面模式下运行的芯片可能会很有希望,不过它需要软件供应商进行特殊处理。
他表示:“如果你将一个大的HBM缓存担当主内存,那么操作系统供应商、虚拟机管理供应商在管理方面会做得更好,CPU也会表现更好。”“CPU看不到指令级别,而虚拟机管理程序知道将在这个应用程序和那个应用程序之间切换,因此就可以将该应用程序预加载到HBM之中。”
共封装LPDDR
为了为其首款数据中心CPU实现类似的高带宽,英伟达还将内存转移到了CPU上。但是与英特尔的Xeon Max不同,英伟达并没有依赖昂贵的低容量HBM内存,而是使用了商品化的LPDDR5x模块。
每个Grace Superchip融合了两个Grace CPU——每块芯片有72个Arm Neoverse V2内核——通过该芯片制造商的900GB / s NVLink-C2C互联连接。芯片的两侧是成排的LPDDR5 内存模块,可以提供TB级别的带宽和容量。
虽然还无法确定,但是我们猜测每个Grace CPU芯片都连接了8个64GB LPDDR5x内存模块,这些内存模块大概以8,533MTps 速度运行。这将为每块CPU芯片提供546GBps的带宽。
Apple实际上也采用了类似的方法,尽管使用了较慢的LPDDR5 6400MTps内存,还是在今年早些时候在Mac Studio上推出的M1 Ultra处理器上实现800GBps的内存带宽。然而,Apple这样做的原因和单核内存带宽的关系不大,而更多地是为了给该芯片的集成GPU供电。
对于英伟达来说,和使用HBM之类的技术相比,这种方法提供了一些明显的优势,最大的好处是容量和成本。Micron等供应商提供的HBM2e的容量高达16GB。这意味着你需要的模块数量是LPDDR的四倍。
但是,Harvey表示,即使是这种做法也并非毫无代价。将内存放到CPU封装中意味着你放弃了灵活性。如果你需要超过1TB的系统内存,你就不能只是通过添加DIMM实现——至少这不是英伟达的实现方式。
然而,Harvey解释说,对于英伟达这些芯片的目标市场来说,这可能仍然有意义。“英伟达非常专注于针对特定需求的AI/ML工作负载,而英特尔则更注重通用工作负载。”
CXL 还不是答案
AMD 的Genoa和英特尔的第 4 代Xeon Scalable处理器都增加了对 CXL 1.1 互连标准的支持。
Astera Labs和三星等公司对这种技术的早期实现将允许新的内存配置,包括内存扩展和内存分层。
但是,就目前而言,这些设备的可用带宽有限,这意味着它们在解决CPU和内存性能不匹配这个问题上的用处有限。
AMD为CXL设备专门配备了64个专用通道。对于16x扩展模块来说,这相当于大约63GBps的带宽。仅略低于满足DDR5 4800MTps的两个通道所需的带宽。
Harvey表示:“随着时间的推移,它可能会为内存带宽打开一些新局面,但是我认为最初的实现可能不够快。”
随着未来几代PCIe 的发展,这种情况可能会改变。这种互联技术通常会在每一代后续产品中将带宽翻倍。因此,到PCIe Gen 7.0的时候,单个CXL 16x 设备将具有接近 250GBps 的可用带宽。
就目前而言,Harvey 认为 CXL 对于对带宽或分层内存配置不那么敏感但对内存需求量很大的应用程序最有价值。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。